Hive优化： FETCH任务转换与MySQL调优实战

需积分: 31 56 浏览量更新于2024-07-16 收藏 5.69MB PDF 举报

Hive是基于Hadoop的数据仓库工具，它通过HQL（Hive Query Language）提供了一个SQL-like的接口来处理和管理大规模数据。在这个PDF文档中，主要探讨了如何优化Hive在企业级环境中的性能调优，特别是关于Fetch抓取技术的应用。 Fetch抓取是一种Hive优化策略，旨在减少MapReduce任务的使用，提高查询效率。当查询请求满足特定条件时，Hive可以直接从存储在HDFS上的数据源读取数据，而无需触发整个MapReduce作业。这在查询所有列（如`SELECT * FROM employees`）、简单的过滤（`SELECT name FROM emp WHERE condition`）或者使用LIMIT限制结果集时尤为有效。在Hive的配置文件`hive-default.xml.template`中，有一个名为`hive.fetch.task.conversion`的属性，它定义了Hive如何决定是否将查询转换为单个FETCH任务。默认值是`more`，表示支持更多的优化，如`TABLESAMPLE`和虚拟列。其他选项包括： - `none`: 完全禁用Fetch任务转换，所有的查询都会触发MapReduce作业。 - `minimal`: 只支持查询所有列、基于分区列的过滤和仅限LIMIT操作。 - `more`: 更广泛的查询优化，如选择、过滤、LIMIT，同时支持TABLESAMPLE和虚拟列。在实际操作中，可以通过设置`hive.fetch.task.conversion`为`none`来观察到查询不再进行Fetch抓取，而是执行完整的MapReduce任务。这有助于理解Fetch抓取在性能提升中的作用，并根据具体场景调整配置以优化查询性能。为了进一步优化Hive性能，除了关注Fetch抓取，还应该注意避免使用复杂的子查询、聚合函数（如COUNT, SUM等）以及JOIN操作，因为这些可能迫使Hive回退到MapReduce处理。此外，确保表分区和索引的有效利用，以及定期清理不必要的临时文件，都是提高Hive性能的关键因素。学习和理解Hive的Fetch抓取机制及其配置，能够帮助数据库管理员和数据分析师在处理大量数据时提高查询效率，从而降低延迟并优化企业的数据处理流程。通过实践和适当的配置调整，可以显著提升Hive在企业级环境中的性能表现。

<name>mapreduce.map.speculative</name>

<description>If true, then multiple instances of some map tasks

may be executed in parallel.</description>

</property>

<name>mapreduce.reduce.speculative</name>

<description>If true, then multiple instances of some reduce tasks

may be executed in parallel.</description>

</property>

不过 hive 本身也提供了配置项来控制 reduce-side 的推测执行：

<name>hive.mapred.reduce.tasks.speculative.execution</name>

<description>Whether speculative execution for reducers should be turned on.

</description>

</property>

关于调优这些推测执行变量，还很难给一个具体的建议。如果用户对于运行时的偏差非

常敏感的话，那么可以将这些功能关闭掉。如果用户因为输入数据量很大而需要执行长时间

的 map 或者 Reduce task 的话，那么启动推测执行造成的浪费是非常巨大大。

9.9 压缩

详见第 8 章。

9.10 执行计划（Explain）

1）基本语法

EXPLAIN [EXTENDED | DEPENDENCY | AUTHORIZATION] query

2）案例实操

（1）查看下面这条语句的执行计划

hive (default)> explain select * from emp;

hive (default)> explain select deptno, avg(sal) avg_sal from emp group by deptno;

（2）查看详细执行计划

hive (default)> explain extended select * from emp;

hive (default)> explain extended select deptno, avg(sal) avg_sal from emp group by deptno;

6.2.3 Reduce 阶段

1）合理设置 map 和 reduce 数：两个都不能设置太少，也不能设置太多。太少，会导

致 task 等待，延长处理时间；太多，会导致 map、reduce 任务间竞争资源，造成处理超时等

错误。

2）设置 map、reduce 共存：调整 slowstart.completedmaps 参数，使 map 运行到一定程

度后，reduce 也开始运行，减少 reduce 的等待时间。

3）规避使用 reduce：因为 reduce 在用于连接数据集的时候将会产生大量的网络消耗。

4）合理设置 reduce 端的 buffer：默认情况下，数据达到一个阈值的时候，buffer 中的

数据就会写入磁盘，然后 reduce 会从磁盘中获得所有的数据。也就是说，buffer 和 reduce 是

没有直接关联的，中间多个一个写磁盘->读磁盘的过程，既然有这个弊端，那么就可以通过

参数来配置，使得 buffer 中的一部分数据可以直接输送到 reduce，从而减少 IO 开销：

mapred.job.reduce.input.buffer.percent，默认为 0.0。当值大于 0 的时候，会保留指定比例的内

存读 buffer 中的数据直接拿给 reduce 使用。这样一来，设置 buffer 需要内存，读取数据需要

内存，reduce 计算也要内存，所以要根据作业的运行情况进行调整。

6.2.4 IO 传输

1）采用数据压缩的方式，减少网络 IO 的的时间。安装 Snappy 和 LZO 压缩编码器。

2）使用 SequenceFile 二进制文件。

6.2.5 数据倾斜问题

1）数据倾斜现象

数据频率倾斜——某一个区域的数据量要远远大于其他区域。

数据大小倾斜——部分记录的大小远远大于平均值。

2）如何收集倾斜数据

在 reduce 方法中加入记录 map 输出键的详细情况的功能。

public static final String MAX_VALUES = "skew.maxvalues";

private int maxValueThreshold;

@Override

public void configure(JobConf job) {

maxValueThreshold = job.getInt(MAX_VALUES, 100);

}

@Override

public void reduce(Text key, Iterator<Text> values,

mapreduce.reduce.cpu.vcores

每个 Reduce task 可使用的最多 cpu core 数

目，默认值: 1

mapreduce.reduce.shuffle.parallelcopies

每个 reduce 去 map 中拿数据的并行数。默

认值是 5

mapreduce.reduce.shuffle.merge.percent

buffer 中的数据达到多少比例开始写入磁

盘。默认值 0.66

mapreduce.reduce.shuffle.input.buffer.percent

buffer 大小占 reduce 可用内存的比例。默认

值 0.7

mapreduce.reduce.input.buffer.percent

指定多少比例的内存用来存放 buffer 中的

数据，默认值是 0.0

（2）应该在 yarn 启动之前就配置在服务器的配置文件中才能生效（yarn-default.xml）

配置参数

参数说明

yarn.scheduler.minimum-allocation-mb 1024

给应用程序 container 分配的最小内存

yarn.scheduler.maximum-allocation-mb 8192

给应用程序 container 分配的最大内存

yarn.scheduler.minimum-allocation-vcores 1

每个 container 申请的最小 CPU 核数

yarn.scheduler.maximum-allocation-vcores 32

每个 container 申请的最大 CPU 核数

yarn.nodemanager.resource.memory-mb 8192

给 containers 分配的最大物理内存

（3）shuffle 性能优化的关键参数，应在 yarn 启动之前就配置好（mapred-default.xml）

配置参数

参数说明

mapreduce.task.io.sort.mb 100

shuffle 的环形缓冲区大小，默认 100m

mapreduce.map.sort.spill.percent 0.8

环形缓冲区溢出的阈值，默认 80%

2）容错相关参数(mapreduce 性能优化)

配置参数

参数说明

mapreduce.map.maxattempts

每个 Map Task 最大重试次数，一旦重试参数超过该值，

则认为 Map Task 运行失败，默认值：4。

mapreduce.reduce.maxattempts

每个 Reduce Task 最大重试次数，一旦重试参数超过该

值，则认为 Map Task 运行失败，默认值：4。

mapreduce.task.timeout

Task 超时时间，经常需要设置的一个参数，该参数表达

的意思为：如果一个 task 在一定时间内没有任何进入，

即不会读取新的数据，也没有输出数据，则认为该 task

处于 block 状态，可能是卡住了，也许永远会卡主，为

了防止因为用户程序永远 block 住不退出，则强制设置

了一个该超时时间（单位毫秒），默认是 600000。如果

你的程序对每条输入数据的处理时间过长（比如会访问

剩余131页未读，继续阅读

lds18926588750

粉丝: 0
资源: 1

Hive优化： FETCH任务转换与MySQL调优实战

Spark SQL替代HIVE实现高效ETL作业

Hadoop数据仓库： Programming Hive 深入解析

2021大数据面试深度解析：Hadoop、Hive、Spark关键点

Spark_SQL大数据实例开发教程.pdf by Spark_SQL大数据实例开发教程.pdf (z-lib.org)1

Hive2——Hive和Hadoop关系.pdf

大数据与云计算培训学习资料 Hadoop集群 细细品味Hadoop_第14期副刊_Hive性能优化_V1.0 共19页.pdf

hadoop_the_definitive_guide_3rd_edition.pdf

Hadoop安装手册_Hadoop2.0.pdf

hadoop&spark环境配置.pdf

Hadoop_in_Action.pdf

最新资源

大数据与云计算培训学习资料 Hadoop集群细细品味Hadoop_第14期副刊_Hive性能优化_V1.0 共19页.pdf