Hive配置详解：提升性能的关键参数

5星 · 超过95%的资源需积分: 9 61 浏览量更新于2024-07-21 1 收藏 122KB PDF 举报

Hive是一种基于Hadoop的数据仓库工具，它提供了一个SQL-like的查询语言来处理和管理大规模数据集。Hive配置参数对于确保其高效运行至关重要。以下是一些关键配置项及其功能的详细介绍： 1. **hive.exec.mode.local.auto**: 这个参数控制Hive是否会在输入文件较小且适合时，自动在本地模式下执行任务。如果设置为`true`，则当输入文件大小小于`hive.exec.mode.local.auto.inputbytes.max`指定的阈值（默认为134,217,728字节，即128兆），Hive将切换到本地执行。这对于处理小规模数据或测试环境非常有用，可以减少网络开销。 2. **hive.exec.mode.local.auto.inputbytes.max** 和 **hive.exec.mode.local.auto.tasks.max**: 分别设置本地模式下执行任务的输入文件大小阈值和HiveTask数量阈值。当满足这两个条件时，Hive倾向于使用本地资源以提高执行效率。 3. **hive.auto.convert.join**: 如果设置为`true`，Hive会尝试自动将 Reduce 端的 CommonJoin 转换为 MapJoin，尤其在关联小表时，这样可以减少网络传输，提升Join操作的速度。但这个转换不是始终适用，需根据实际情况调整。 4. **hive.mapred.local.mem**: 这个参数限制了Mapper和Reducer在本地模式下的最大内存使用量，以字节为单位。若设置为0，表示不限制内存使用。 5. **mapred.reduce.tasks**: 定义一个Job提交时Reduce任务的数量。这通常是与HadoopClient的配置相关，用于优化并行处理。 6. **hive.exec.scratchdir**: 该参数指定HDFS中的临时目录，用于存储Hive执行计划和各个阶段的中间输出结果。默认路径为`/tmp/<user.name>/hive`，确保此处有足够的空间以避免写入错误。 7. **hive.metastore.warehouse.dir**: 数据仓库目录，Hive默认将数据存储在此HDFS可写路径，如`hdfs://<namenode>:<port>/<path>`，存储用户的表、分区和元数据。 8. **hive.groupby.skewindata**: 此选项决定Hive是否支持处理倾斜数据（即数据分布不均匀导致某些分区过大的情况）。如果设置为`true`，Hive可能会采取策略来缓解这个问题，但可能会影响性能。 9. **hive.merge.mapfiles** 和 **hive.merge.mapredfiles**: 两者都涉及到合并Map端或Map/Reduce小文件的功能。在Hadoop 0.20之前版本，它们可能导致新的MapReduceJob；而在Hadoop 0.20及以后版本，它们会启用CombineInputFormat以减少I/O操作。理解并适当地配置这些Hive参数对于优化大数据处理性能至关重要，可以根据具体应用场景和资源限制进行调整。

false

hive.exec.compress.output

决定查询中最后一个 map/reduce job 的输出是否为压缩格式。

false

hive.exec.compress.intermediate

决定查询的中间 map/reduce job （中间 stage）的输出是否为压缩格式。

false

hive.intermediate.compression.codec

中间 map/reduce job 的压缩编解码器的类名（一个压缩编解码器可能包含

多种压缩类型），该值可能在程序中被自动设置。

hive.intermediate.compression.type

中间 map/reduce job 的压缩类型，如 "BLOCK" "RECORD"。

hive.exec.reducers.bytes.per.reducer

每一个 reducer 的平均负载字节数。

1000000000

hive.exec.reducers.max

reducer 个数的上限。

999

hive.exec.pre.hooks

语句层面，整条 HQL 语句在执行前的 hook 类名。

hive.exec.post.hooks

语句层面，整条 HQL 语句在执行完成后的 hook 类名。

hive.exec.parallel.thread.number

剩余19页未读，继续阅读

莫然qq

粉丝: 4

Hive配置详解：提升性能的关键参数

internet-parent模块

hive的配置方法

hive安装配置

Hive安装与配置

hive参数配置说明大全

HIve UDF 说明书

hive 创建自定义函数 和 hive加载说明

Hive安装配置记录

Tez 0.9.0与Hadoop、Hive配置兼容性探究

大数据集群搭建：MySQL 5.7驱动及Hive配置教程

最新资源

hive 创建自定义函数和 hive加载说明