repartition与coalesce在大规模数据上的性能差别
时间: 2023-06-06 17:06:07 浏览: 78
repartition和coalesce都是用于改变RDD的分区数的方法,但它们的实现原理有所不同。repartition会产生Shuffle操作,即数据会在重新分区之前进行全局重分配,这会对性能造成负面影响。而coalesce不会产生Shuffle操作,只是合并原有的分区,因此性能会更高一些。所以在大规模数据的情况下,应该优先使用coalesce操作,以提高性能。
阅读全文