spark-sql:spark3.0后broadcast、shuffle_merge、shuffle_hash三种调优参数
时间: 2023-04-27 09:00:49 浏览: 233
Spark3.0 调优参数 思维导图
在Spark 3.0中,Spark SQL支持三种调优参数:broadcast、shuffle_merge和shuffle_hash。
1. broadcast:广播变量是一种优化技术,可以将小数据集复制到每个节点上,以避免在网络上传输大量数据。在Spark SQL中,可以使用broadcast参数来控制是否使用广播变量。如果设置为true,则Spark SQL将尝试使用广播变量来优化查询。
2. shuffle_merge:Shuffle Merge是一种优化技术,可以将多个Shuffle操作合并为一个操作,以减少Shuffle操作的数量。在Spark SQL中,可以使用shuffle_merge参数来控制是否使用Shuffle Merge。如果设置为true,则Spark SQL将尝试使用Shuffle Merge来优化查询。
3. shuffle_hash:Shuffle Hash是一种优化技术,可以将Shuffle操作的数据分区方式从默认的随机方式改为哈希方式,以提高查询性能。在Spark SQL中,可以使用shuffle_hash参数来控制是否使用Shuffle Hash。如果设置为true,则Spark SQL将尝试使用Shuffle Hash来优化查询。
阅读全文