首页spark 为什么会产生shuffle

spark 为什么会产生shuffle

时间: 2023-08-07 19:08:35 浏览: 129

SparkShuffle过程分析：Reduce阶段处理流程

Spark在Map阶段调度运行的ShuffleMapTask，最后会生成.data和.index文件，可以通过我的这篇文章SparkShuffle过程分析：Map阶段处理流程了解具体流程和详情。同时，在Executor上运行一个ShuffleMapTask，返回了一个MapStatus对象，下面是ShuffleMapTask执行后返回结果的相关代码片段：如果ShuffleMapTask执行过程没有发生异常，则最后执行的调用为：这里返回了一个MapStatus类型的对象，MapStatus的定义如下所示：其中包含了运行ShuffleMapTask所在的BlockManager的地址，以及后续Re

Spark中会产生shuffle的算子包括： 1. groupByKey：将相同key的数据进行分组，需要将数据进行shuffle操作。 2. reduceByKey：将相同key的数据进行聚合，需要将数据进行shuffle操作。 3. sortByKey：按照key进行排序，需要将数据进行shuffle操作。 4. join：将两个RDD按照key进行连接，需要将数据进行shuffle操作。 5. distinct：去重操作，需要将数据进行shuffle操作。 6. cogroup：将多个RDD按照key进行分组，需要将数据进行shuffle操作。 7. intersection：求两个RDD的交集，需要将数据进行shuffle操作。 8. subtract：求两个RDD的差集，需要将数据进行shuffle操作。以上这些算子都需要进行数据的重新分区和排序，因此会产生shuffle操作。

阅读全文