在熟悉SQL,Python和Shell的基础上可以快速切换到Pyspark SQL。但没有并行系统经验的同学需要注意查询语句的不同写法会带来数十倍的性能差异。 一份RDD结果在后续使用时提高速度,使用cache或保存成文件 Spark中cache和persist的作用以及存储级别 Tags: PySpark ← Bash in Context R in Context → 扫描二维码,分享此文章