Hive Join策略探索：从Common到SkewJoin

需积分: 10 86 浏览量更新于2024-07-23 收藏 1.18MB PDF 举报

"Hive Summit 2011-join" 是一份关于Facebook Hive中不同join策略的报告，由Liyin Tang和Namit Jain两位软件工程师分享。报告内容包括了常见的Join策略，如MapJoin、AutoMapJoin、BucketMapJoin、BucketSortMergeMapJoin以及SkewJoin，并详细探讨了如何优化这些join操作。 1. **Common Join**（常见Join）： Common Join是Hive中最基础的Join类型，它依赖于MapReduce框架。在这个过程中，所有表的数据都会被送到Reducer中进行JOIN操作。Mapper阶段根据JOIN键对数据进行排序，然后Reducer处理相同JOIN键的数据并进行JOIN。这种策略适用于小表和大表的数据量差距不大的情况，但对于大规模数据和非常小的表，效率较低。 2. **MapJoin**： MapJoin是在Map阶段完成JOIN操作的策略，主要用于处理小表。小表的所有数据会被加载到内存中，形成一个哈希表，然后在Map阶段与大表的数据进行匹配。这样避免了Reducer阶段的通信开销，提高了效率。Facebook提出的Optimized MapJoin则进一步改进，通过本地任务（MapReduceLocalTask）和分布式缓存（DistributedCache）将小表数据分发给各个Mapper，减少了数据传输。 3. **AutoMapJoin**： AutoMapJoin是Hive自动选择是否使用MapJoin的特性。当系统检测到一个表足够小可以放入内存时，会自动选择使用MapJoin来提升性能。 4. **BucketMapJoin**：这种策略基于Hive的Bucketing功能，将数据按照JOIN键的哈希值分成多个桶，如果两个JOIN表有相同的JOIN键，它们会在相同的桶中。这样可以在Map阶段直接匹配桶内的数据，减少数据交换。 5. **BucketSortMergeMapJoin**：在BucketMapJoin的基础上，进一步对数据进行排序，使得JOIN操作更高效。排序使得相同JOIN键的数据在一起，进一步优化了JOIN的过程。 6. **SkewJoin**： SkewJoin是针对数据倾斜问题的解决方案。当某个JOIN键的数据分布极度不均匀时，会导致某些Reducer处理的数据量过大，影响性能。SkewJoin通过拆分大键值的数据，将其分散到多个Reducer上，从而平衡计算负载。报告还提到了如何通过**ConditionalTask**和**OptimizedExecutionFlow**来转换和优化Common Join，通过条件任务决定是否执行MapJoinLocalTask或CommonJoinTask，以提高整个JOIN操作的效率。总结来说，这份报告深入探讨了Hive中的JOIN操作，提供了多种优化策略，对于理解Hive如何处理大数据集的JOIN问题以及如何优化JOIN性能具有很高的参考价值。对于大数据处理和分析的从业者来说，掌握这些知识能够帮助他们更有效地设计和执行Hive查询，提高数据分析的效率。

MapJoin

Mapper

MapJoin

Task

Mapper

…

Task A

Task C

… Big

Table

Data

Record

…

Small Table

Data

1.  Spawn mapper based on the big table

2.  All files of all small tables are

replicated onto each mapper

剩余20页未读，继续阅读

egraldloi

粉丝: 15
资源: 4

Hive Join策略探索：从Common到SkewJoin

Facebook 2011 Summit 探讨 Hive Join 策略

深入理解Hive-JDBC-Storage-Handler：实现JDBC数据库的高效访问与SQL分析

Hive JDBC驱动包 hive-jdbc-uber-*.*.*.*-292.zip 解析

Hive-Summit-2011-join.zip_hive

apache-hive资源 apache-hive-2.3.2-bin tar文件

大数据编程林子雨实验hive安装包apache-hive-3.1.2-bin

Apache Hive（hive-standalone-metastore-3.0.0-bin.tar.gz)

Apache Hive（apache-hive-2.3.9-bin.tar.gz）

Apache Hive（apache-hive-1.2.2-bin.tar.gz）

Apache Hive（apache-hive-3.1.3-bin.tar.gz）

最新资源

Hive JDBC驱动包 hive-jdbc-uber-...-292.zip 解析