Hive优化技巧：避免数据倾斜与Join策略

需积分: 31 135 浏览量更新于2024-08-29 收藏 575KB DOCX 举报

"Hive优化建议文档提供了针对Hive查询和作业执行的优化策略，包括对count(distinct)操作的处理、Map阶段优化、Join优化以及Reduce阶段优化的建议。" 在大数据处理中，Hive是一个重要的工具，但在处理大规模数据时，可能会遇到性能瓶颈。以下是对文档中提到的优化点的详细解释： 1. **慎用count(distinct(columnA))** Hive中的`count(distinct)`操作在处理大规模数据时容易引发数据倾斜，即某些Reduce任务接收的数据远多于其他任务，导致任务执行不均衡。为避免这种情况，可以使用`GROUP BY`代替，通过分组统计唯一值，例如`COUNT(DISTINCT columnA) AS unique_count`可替换为`GROUP BY columnA WITH CUBE`，然后在应用业务逻辑过滤出所需结果。 2. **Map阶段优化** - **减少Map数**：通过设置参数如`hive.input.format`和`mapred.min.split.size`，可以合并小文件，减少Map任务的数量，降低启动和调度开销。测试表明，适当减少Map数量能有效提升作业效率。 - **增加Map数**：当处理的文件较大且任务逻辑复杂时，增加Map数可以使每个任务处理的数据量减小，提高处理速度。同样，调整相关参数（如`mapred.max.split.size`）可以实现这一目标。 3. **Join优化** - **选择性JOIN**：避免全表JOIN，只JOIN需要的数据，减少计算量。 - **处理NULL值**：在JOIN前过滤或处理JOIN字段的NULL值，避免因NULL值引发的问题。可以通过WHERE条件或函数（如IFNULL或COALESCE）来处理。 - **保持连接字段类型一致**：不一致的类型可能导致数据倾斜，应使用CAST转换确保字段类型相同。 4. **Reduce阶段优化** - **合理设置Reduce数**：过多的Reduce会产生大量小文件，影响NameNode性能；过少则可能导致单个Reduce处理数据过大，可能触发OOM异常。调整`mapred.reduce.tasks`或`mapreduce.job.reduces`参数来平衡这一点。除了上述优化，还有其他一些策略可以考虑，比如使用分区表减少数据扫描，利用Bucketing和Sorting提高JOIN效率，以及使用物化视图预计算常用查询等。同时，根据具体业务场景，还可以探索更高效的JOIN算法（如MapJOIN、Tez或Spark SQL），以及优化SQL查询语句，避免不必要的复杂运算。优化Hive查询不仅仅是调整参数，还包括理解数据分布、业务需求以及集群资源的合理分配。

Hive 优化建议

慎用 count(distinct( columnA ))

在大数据场景下不怕数据量大，怕的是数据倾斜，在数据量较大的情况下不要使用 count(disnct

( columnA ))，这个函数极易触发数据倾斜问题，要用 group 代替。

Map 阶段优化

一、减少 map 数：

是为了避免小文件过多造成启动很多 map 任务，浪费集群资源，影响其他 job 的正常运行。对于

总运行时间的减少大部分是节省在 map 任务的启停与排队等待资源上。注意：对于我们集群上大部

分作业来说减少 map 数更好一些

set mapred.max.split.size= 268435456;

set mapred.min.split.size.per.node= 134217728;

set mapred.min.split.size.per.rack= 134217728;

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

参数解释：

268435456 Bytes = 256MB

134217728 Bytes = 128MB

mapred.max.split.size：每个 Map 最大输入大小

mapred.min.split.size.per.node：一个节点上 split 的至少的大小(这个值决定了多个 DataNode 上的文件是否需要合并)

mapred.min.split.size.per.rack：一个交换机下 split 的至少的大小(这个值决定了多个交换机上的文件是否需要合并)

hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat：执行 Map 前进行小文件合并

前三个参数用于确定 map 任务切割大小。注：集群 hdfs 的 block 块大小为 128MB。

第四个参数表示在任务执行前进行小文件合并。

在 hive sql 加上这 4 个参数后表示：

1、大于 256MB 的文件，按照 256MB 分割输入文件

2、小于 256MB 但大于 128MB 的文件，按照 128MB 分割

3、小于 128MB 的文件（包括小文件和大文件切割后剩下的），进行合并

注意：要结合实际情况进行着三个参数的设置，找到最合适的设置。

未加参数：

加参数之后：

下载后可阅读完整内容，剩余5页未读，立即下载

黑幕Zz

粉丝: 8
资源: 28

Hive优化技巧：避免数据倾斜与Join策略

hive优化.docx

Hive优化.docx

hive自学笔记.docx

hive-笔记.docx

hive实验报告.docx

Apache Hive 中文手册.docx

阿里巴巴Hive学习笔记.docx

Hive 教程.docx

Hive指南.docx

Hive总结.docx

最新资源