首页 spark中 join 的几种类型，在物理执行层面有哪几种

spark中 join 的几种类型，在物理执行层面有哪几种

时间: 2024-06-04 18:07:16 浏览: 89

在Spark中，join操作有以下几种类型： 1. Inner Join（内连接）：只返回两个数据集中键值匹配的记录。 2. Outer Join（外连接）：返回两个数据集中所有键值匹配的记录，同时也返回未匹配到的记录。外连接又分为左外连接、右外连接和全外连接。 3. Left Semi Join（左半连接）：只返回左侧数据集中键值匹配的记录。 4. Left Anti Join（左反连接）：只返回左侧数据集中没有键值匹配的记录。在物理执行层面，Spark中的join操作主要有以下几种实现方式： 1. Shuffle Hash Join（哈希连接）：适合用于连接数据集大小相对较小的情况，需要将数据集中的键值对进行哈希分区，然后将分区数据集进行连接操作。 2. Broadcast Hash Join（广播连接）：适合用于连接数据集大小相对较小的情况，将小的数据集广播到所有的工作节点，然后对大的数据集进行连接操作。 3. Sort Merge Join（排序合并连接）：适合用于连接数据集大小相对较大的情况，需要将数据集进行排序，然后进行连接操作。

阅读全文