介绍一下spark的sort-based shuffle
时间: 2023-11-09 09:28:32 浏览: 193
spark shuffle简介
Spark的Sort-Based Shuffle是一种高效的数据重分区算法。它通过将Map端的中间数据集按照Key进行排序,然后对Reduce端的Key值进行范围划分,将每个Map Task的输出数据集划分到对应的Reduce Task执行,从而实现数据的重分区操作。这种算法的优势在于它避免了网络传输过程中的数据部分和合并操作,从而显著提高了Spark的计算效率和吞吐量。
阅读全文