HiveDriver源码详解：从构造到执行流

121 浏览量更新于2024-08-30 收藏 95KB PDF 举报

HiveDriver是Hive的核心组件之一，它负责接收用户输入的SQL命令，将其编译、优化并转换为MapReduce任务进行执行。整个执行流程可以分为以下几个步骤： 1. **构造方法与初始化**： - CliDriver通过调用Driver类的构造函数创建Driver实例，这个构造函数检查是否已经有一个SessionState对象存在。如果存在，就会获取并存储SessionState的HiveConf配置信息，这包含了当前会话的配置文件内容，用于后续的执行过程。 2. **run方法**： - `run`方法是Driver的主要入口点，接受用户提供的命令字符串`command`。它首先调用`runInternal`方法处理命令，这个方法会根据`alreadyCompiled`参数决定是否需要重新编译命令。 - `runInternal`方法执行一系列关键操作： - **预运行钩子（preRunHook）**：这是执行前的预处理阶段，可能执行一些定制化的操作，如设置环境变量或执行特定的准备工作。 - **编译（compile）**：将用户输入的SQL转换为Hive内部可以理解的逻辑表示，这一步涉及词法分析、语法分析和优化。 - **执行（execute）**：利用编译后的逻辑，驱动MapReduce任务的创建和调度，实际调用Hadoop框架来执行数据处理操作。 - **后运行钩子（postRunHook）**：执行完成后可能执行的清理或后处理操作。 - **构建CommandProcessorResponse**：汇总执行结果，并将其封装成CommandProcessorResponse对象返回。 3. **错误处理**： - 在整个处理流程中，如果遇到错误，`run`方法会捕获`CommandNeedRetryException`异常，并可能处理错误码和错误信息，然后决定是否重试或者抛出异常。通过这些步骤，HiveDriver确保了从用户查询到MapReduce任务的无缝转换和执行，实现了Hive查询语言的解析、优化和分布式计算能力。了解这些源码细节有助于深入理解Hive的工作原理，尤其是在大数据处理场景中的性能优化和故障恢复机制。

HiveDriver源码执行流程分析源码执行流程分析

接着上一篇来说执行入口的分析，CliDriver最终将用户指令command提交给了Driver的run方法（针对常用查询语句而言），

在这里用户的command将会被编译，优化并生成MapReduce任务进行执行。所以Driver也是Hive的核心，他扮演了一个将用

户查询和MapReduce Task转换并执行的角色，下面我们就看看Hive是如何一步一步操作的。

源码分析

在说run方法之前，由于CliDriver需要得到一个Driver类的实例，所以首先看一下Driver的构造方法。Driver有三个构造函数，

主要功能也就是设置类的实例变量HiveConf。SessionState前文已经有介绍，SessionState返回了当前会话的一些信息，提取

配置文件，初始化Driver实例。

public Driver() {

if (SessionState.get() != null) {

conf = SessionState.get().getConf();

}

run

下面就开始解析Driver内部对用户命令command的处理流程，首先是入口函数run. run函数通过调用runInternal方法处理用户

指令，在处理完成runInternal之后，如果执行过程中出现出错，还附加了对错误码和错误信息的处理，此处省略。

public CommandProcessorResponse run(String command)

throws CommandNeedRetryException {

return run(command, false);

}

public CommandProcessorResponse run(String command, boolean alreadyCompiled)

throws CommandNeedRetryException {

CommandProcessorResponse cpr = runInternal(command, alreadyCompiled);

...

}

runInternal

runInternal方法包含的主要操作有，处理preRunHook（具体功能可以顾名思义哦），compile ， execute，处理

postRunHook以及构造CommandProcessorResponse并返回。下面依次从代码的角度分析这几步的具体操作：

PreRunHook

处理preRunHook，首先根据配置文件和指令，构造用户Hook执行的上下文hookContext，然后读取用户PreRunHook配置指

定的类（字符串），此配置项对应于Hive配置文件当中的“hive.exec.driver.run.hooks”一项，利用反射机制Class.forName实

例化PreRunHook类实例（getHook函数完成），依次执行各钩子的功能（preDriverRun函数完成）。

HiveDriverRunHookContext hookContext

= new HiveDriverRunHookContextImpl(conf, command);

// Get all the driver run hooks and pre-execute them.

List<HiveDriverRunHook> driverRunHooks;

try{

driverRunHooks = getHooks(HiveConf.ConfVars.HIVE_DRIVER_RUN_HOOKS,

HiveDriverRunHook.class);

for (HiveDriverRunHook driverRunHook : driverRunHooks) {

driverRunHook.preDriverRun(hookContext);

}

}catch (Exception e) {

errorMessage = "FAILED: Hive Internal Error: " + Utilities.getNameMessage(e);

SQLState = ErrorMsg.findSQLState(e.getMessage());

downstreamError = e;

console.printError(errorMessage + ""

+ org.apache.hadoop.util.StringUtils.stringifyException(e));

return createProcessorResponse(12);

}

compile

编译，直接调用complieInternal函数编译用户指令，将指令翻译成MapReduce任务。这一个过程涉及的内容比较多，也很重

要，后面将单独用一篇文章说明编译优化的过程。这里借用网上的一幅图，帮助对compile的功能有个整体的理解，参考文献:

Hive实现原理.pdf。

编译流程

execute

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38715008

粉丝: 5
资源: 1016

HiveDriver源码详解：从构造到执行流

hive源码分析

apache-hive-1.2.1源码包（已编译）（含Hive的使用全解）

hive-master_with_my_common:云风的hive的源码阅读

hive-jdbc015快照版源码

hive词法语法分析草稿0.3

hive安装文件

apache-hive-1.2.1-src

apache-hive-3.1.2-src.tar.gz

apache-hive-1.2.2-src:蜂巢源代码学习-apache source code

presto-research:presto原始分析

最新资源