Hive执行过程详解：从命令行到处理流程

需积分: 10 152 浏览量更新于2024-07-17 收藏 499KB PPTX 举报

Hive执行过程详解 Hive是一种以SQL风格进行任何大小数据分析的工具，其特点是采取类似关系数据库的SQL命令。其特点是通过SQL处理Hadoop的大数据，数据规模可以伸缩扩展到100PB+，数据形式可以是结构或非结构数据。 Hive的执行过程可以分为四个阶段： **阶段1：入口和初始化** 在Hive的执行过程中，首先是入口点 `/bin/cli.sh`，它调用 `CliDriver` 类进行初始化过程。在这个阶段，Hive会处理 `-e`、`-f`、`-h` 等信息，如果是 `-h`，则打印提示信息，并退出。接着，Hive会读取配置文件，设置 `HiveConf`。 **阶段2：交互模式** 在交互方式下，Hive会读取每一个输入的命令行，直到`;`为止，然后提交给 `processLine(cmd)` 方法处理，该方法将输入的流以`;`分割成多个命令，然后交给 `processCmd(cmd)` 方法。在这个阶段，Hive会不断读取用户的输入，直到用户输入`;`结束语句。 **阶段3：命令处理** 在 `processCmd(cmd)` 方法中，Hive会对输入的命令行进行判断，根据命令的第一个记号（Token），分别进入相应的流程。如果命令以 `quit` 或 `exit` 开头，则系统正常退出。如果命令以 `!` 开头，Hive会执行操作系统命令。如果命令以 `source` 开头，Hive会读取外部文件并执行文件中的命令。如果命令以 `list` 开头，Hive会列出 jar 文件存档。其他命令则会提交给 `CommandProcess`，进行命令的预处理。 **阶段4：命令预处理** 在 `CommandProcess` 中，Hive会根据输入命令的第一个记号，分别进行处理。如果命令以 `set` 开头，Hive会调用 `SetProcess` 类，设置 Hive 的环境参数，并保存在该进程的 `HiveConf` 中。如果命令以 `dfs` 开头，Hive会调用 `DfsProcess` 类，调用 Hadoop 的分布式文件系统。 Hive 的执行过程是一个复杂的过程，涉及到多个阶段和组件的交互。但是，通过了解这些阶段和组件，我们可以更好地理解 Hive 的工作机制，从而更好地使用 Hive 进行大数据分析。

6 命令的预处理 0((

根据输入命令的第一个记号，分别进行处理



( ：调用 0(( 类，设置 )$ 的环境参数，

并保存在该进程的 $+ 中



+( ：调用 +(0(( 类，调用 )" 的 ()!! 接

口，执行 )" 的相关命令



 ：调用 (0((77 ，导入外部的资

源，只对该进程有效



!8 与  对应，删除资源



其他：提交给 $ 类，进行下一步的处理

Hive 的执行过程

剩余38页未读，继续阅读

wangjiajiawang_pps

粉丝: 1
资源: 3

Hive执行过程详解：从命令行到处理流程

第8章基于Hadoop的数据仓库Hive作业.pptx

大数据与云计算技术 Hadoop之Hive详解三.ppt

Apache Hadoop---Hive.docx

基于Hadoop的数据仓库Hive学习指南.doc

履带式拖拉机Creo2.0_三维3D设计图纸.zip

SSM+JSP高校毕业生就业满意度调查统计系统答辩PPT.pptx

SSM+JSP冰淇淋在线购买网站答辩PPT.ppt

SSM+JSP医护系统答辩PPT.pptx

Shapely-1.6.4.post2-cp35-cp35m-win_amd64.whl

SSM+JSP农场信息化管理系统答辩PPT.pptx

最新资源