Hive数据仓库工具详解：元数据与查询流程

需积分: 9 178 浏览量更新于2024-09-07 收藏 123KB DOCX 举报

“hive原理1介绍” Hive是一个构建在Hadoop之上的数据仓库工具，它设计的目的是为了方便数据汇总、分析以及管理大规模结构化数据。Hive的主要优点在于它提供了SQL-like的语言（称为HQL，Hive Query Language），使得非Java背景的分析师也能便捷地对大数据进行操作。在Hive的数据模型中，有四个关键概念： 1. **Table**：Table是Hive中最基本的数据单元，它可以看作是数据库中的表格。内部表（Internal Table）由Hive完全管理，当删除内部表时，Hive会同时删除对应的HDFS文件。外部表（External Table）则仅管理表的元数据，删除外部表不会影响原始数据。 2. **Partition**：Partition是对大量数据进行分片的一种方法，通常基于时间戳、地理位置等维度，用于加速查询。通过指定分区字段，可以显著减少查询的范围，提高效率。 3. **Bucket**：Bucket是将数据分桶，按照特定列的哈希值将数据分布到不同的文件中，有利于并行处理和提高JOIN操作的性能。 4. **Storage Formats**：Hive支持多种存储格式，如文本文件、Sequence File和RCFile。Sequence File是一种二进制格式，适用于高效读写；RCFile（Record Columnar File）则是面向列的压缩存储格式，适合数据分析场景。 Hive的工作流程依赖于以下几个关键组件： - **Hive Metastore**：存储Hive的元数据，包括数据库、表、分区等信息。元数据通常存储在关系数据库如Derby或MySQL中。元数据服务对于Hive的运行至关重要，因为它提供了关于数据位置、结构和属性的信息。 - **Hive Server2**：处理客户端的请求，提供安全的连接和多用户并发访问。 - **Hive Client**：用户与Hive交互的接口，可以是命令行界面或编程接口。 - **Hcatalog (WebHCat)**：提供了表和存储管理服务，允许其他工具如Pig和MapReduce通过统一的接口访问Hive的元数据，促进跨工具的数据共享。执行查询时，Hive的工作流程大致如下： 1. 用户通过Hive Client提交查询到Hive Server2。 2. Hive Server2解析查询并调用编译器进行编译。 3. 编译器从Hive Metastore获取必要的元数据，将HQL转化为查询计划。 4. 查询计划经过一系列优化，包括逻辑计划和物理计划的转换，以适应Hadoop的MapReduce或现代的YARN框架。 Hive虽然在大数据分析领域扮演着重要角色，但由于其主要依赖于MapReduce进行计算，所以它在查询性能上可能不如其他实时查询引擎如Impala或Spark SQL。然而，随着Hive的发展，它也逐步引入了Tez和Spark作为执行引擎，提升了处理速度和响应时间。 Hive是一个强大的数据仓库工具，通过其灵活的数据模型、SQL接口和对Hadoop生态系统的集成，为企业的大规模数据处理提供了便利。同时，Hive的元数据管理和多组件协作机制保证了数据管理和分析的效率。

hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并

提供完整的 sql 查询功能。

Hive 中包含以下数据模型：Table 内部表，ExternalTable 外部表，Partition 分区，Bucket 桶。Hive

默认可以直接加载文本文件，还支持 sequencele、RCFile。

Hive 中所有的数据都存储在 HDFS 中。大部分的查询由 MapReduce 完成（包含 * 的查询，但 select

* from table 不会生成 MapRedcue 任务）

hive metastore:元数据服务组件存储 hive 的元数据，hive 的元数据存储在关系数据库里

derby、mysql

Metastore 包含如下的部分：

•Database 是表（table）的名字空间。默认的数据库（database）名为‘default’

•Table 表（table）的原数据包含信息有：列（list of columns）和它们的类型（types），拥有者

（owner），存储空间（storage）和 SerDei 信息

•Partition 每个分区（partition）都有自己的列（columns），SerDe 和存储空间（storage）。这一

特征将被用来支持 Hive 中的模式演变（schema evolution）

hive server2:

mysql server:

webhcat server:

HCatalog 是 Hive 的一部分。它是一个 Hadoop 的表和存储管理层，使用户能够使用不同的数据处理工

具-包括 Pig 和 MapReduce , 更容易地读取和写入网格上的数据。

WebHcat 提供了一个服务，使用户可以运行 Hadoop MapReduce(或者 YARN)， Pig,Hive 作业，也

可以采用 HTTP(REST 类型）接口执行 Hive 元数据。

Hcat client:

hiver client:

流程大致步骤为：

1. 用户提交查询等任务给 Driver。

2. 编译器获得该用户的任务 Plan。

3. 编译器 Compiler 根据用户任务去 MetaStore 中获取需要的 Hive 的元数据信息。

4. 编译器 Compiler 得到元数据信息，对任务进行编译，先将 HiveQL 转换为抽象语法树，然后将抽象语

法树转换成查询块，将查询块转化为逻辑的查询计划，重写逻辑查询计划，将逻辑计划转化为物理的计划

（MapReduce）, 最后选择最佳的策略。

5. 将最终的计划提交给 Driver。

6. Driver 将计划 Plan 转交给 ExecutionEngine 去执行，获取元数据信息，提交给 JobTracker 或者

SourceManager 执行该任务，任务会直接读取 HDFS 中文件进行相应的操作。

下载后可阅读完整内容，剩余3页未读，立即下载

不想长大的敏

粉丝: 1
资源: 8

Hive数据仓库工具详解：元数据与查询流程

Hive原理与MapReduce解析

Hive原理与MapReduce详解

Hive实现原理解析

Hive原理分析

Hive原理与实现

hive原理及查询优化

Hive技术原理

hive实现原理

Hive原理及使用笔记(精华版)

hive的原理分析

最新资源