spark中 join 的几种类型,在物理执行层面有哪几种
时间: 2024-06-04 08:07:16 浏览: 85
spark 处理json文件时几种常用函数
在Spark中,join操作有以下几种类型:
1. Inner Join(内连接):只返回两个数据集中键值匹配的记录。
2. Outer Join(外连接):返回两个数据集中所有键值匹配的记录,同时也返回未匹配到的记录。外连接又分为左外连接、右外连接和全外连接。
3. Left Semi Join(左半连接):只返回左侧数据集中键值匹配的记录。
4. Left Anti Join(左反连接):只返回左侧数据集中没有键值匹配的记录。
在物理执行层面,Spark中的join操作主要有以下几种实现方式:
1. Shuffle Hash Join(哈希连接):适合用于连接数据集大小相对较小的情况,需要将数据集中的键值对进行哈希分区,然后将分区数据集进行连接操作。
2. Broadcast Hash Join(广播连接):适合用于连接数据集大小相对较小的情况,将小的数据集广播到所有的工作节点,然后对大的数据集进行连接操作。
3. Sort Merge Join(排序合并连接):适合用于连接数据集大小相对较大的情况,需要将数据集进行排序,然后进行连接操作。
阅读全文