Hive数据仓库基础：学习指南与核心概念解析

版权申诉

102 浏览量更新于2024-07-18 收藏 250KB DOCX 举报

"这篇文档是关于Hive的学习资料，由某公司花费大量人力整理而成，适合初学者快速掌握Hive，无需深入源码层面。文档详细介绍了Hive的结构、架构，以及与Hadoop和传统数据库的关系。" Hive是大数据处理领域中的一种重要工具，它基于Hadoop生态系统，主要设计用于方便地处理和分析海量数据。作为一款数据仓库工具，Hive提供了类似SQL的查询语言HQL，使得非MapReduce背景的用户也能轻松进行大数据分析。 Hive的结构主要包括以下几个部分： 1. **用户接口**：包括命令行接口（CLI）、客户端（Client）和Web用户界面（WUI）。CLI是最常用的交互方式，而Client则允许用户远程连接到HiveServer进行操作。WUI则提供了浏览器访问Hive的选项。 2. **元数据存储**：元数据是关于Hive中的表、列、分区等信息的描述，通常存储在像MySQL或Derby这样的关系型数据库中。 3. **解释器、编译器、优化器和执行器**：这些组件负责将HQL语句解析、编译、优化并生成查询计划。查询计划会被存储在HDFS中，并由MapReduce执行。 4. **数据存储**：Hive的数据实际存储在Hadoop的HDFS上，大部分查询操作通过MapReduce任务进行处理。 Hive与Hadoop的关系密切，Hive依赖Hadoop的HDFS进行数据存储，使用MapReduce进行计算。Hive的查询语句首先在Hive内部进行解释、优化和计划生成，然后转换为MapReduce任务在Hadoop集群上执行。值得注意的是，不是所有Hive查询都需要MapReduce，例如简单的“select * from table”操作可以直接在Hive中完成。与传统的关系型数据库相比，Hive有以下显著差异： - **查询语言**：Hive使用HQL，一种与SQL高度相似的语言，但不支持所有SQL特性，例如事务和实时更新。 - **性能**：由于Hive基于批处理的MapReduce，其查询速度通常比传统数据库慢，不适合实时查询。 - **数据模型**：Hive更适合处理大量静态数据，而非频繁更新的数据。 - **可扩展性**：Hive可以轻松处理PB级别的数据，而传统数据库在大数据量面前可能面临挑战。通过深入理解Hive的架构和工作原理，以及它与Hadoop和传统数据库的区别，我们可以更有效地利用Hive进行大数据分析，解决大规模数据处理问题。这份文档对于想要学习Hive的初学者来说是一份宝贵的资料，涵盖了从基本概念到实际操作的关键点。

LG$B$!BCC>B9'<C"H$IJLI

(、元数据库数据字典

表名说明关联键

. :4MH

5

5 4

 表字段信息N字段注释，字段名，字段类型，字段

序号O

%H%

%.

　元数据库信息，存放 %& 路径信息

%.H%

8754H:

=

 分区表分区键

87H%

%

所有 > 表、表分区所对应的 >+" 数据目录和数据格

式。

%H%%

H%

%H877

序列化反序列化信息，如行分隔符、列分隔符、4 

的表示字符等

%H%

 4H

7.

 4H7. 表保存了 > 对象的下一个可用

%，

如’A>>>"

$P'，则下一个新创建的 > 表其 .H% 就是

'，同时  4H7. 表中 '<<-; 被更新为

';N这里每次都是Q9RO。同

样，5 4，8754 等都有相应的记录

% 　　

%H877



5H5 　　

7.H877



表级属性，如是否外部表，表注释等

.H%



.

所有 > 表的基本信息

.H%%H

从上面几张表的内容来看，> 整个创建表的过程已经比较清楚了

 解析用户提交 > 语句，对其进行解析，分解为表、字段、分区等 > 对象

' 根据解析到的信息构建对应的表、字段、分区等对象，从  4H7. 中

获取构建对象的最新 %，与构建对象信息N名称，类型等O一同通过 %75 方法写入

到元数据表中去，成功后将  4H7. 中对应的最新 %Q9。

实际上我们常见的 %. 都是通过这种方法进行组织的，典型的如 "A"#，其

系统表中和 > 元数据一样裸露了这些  信息N 等O而 5 等商业化的系统则

隐藏了这些具体的 %。通过这些元数据我们可以很容易的读到数据诸如创建一个表的数据

字典信息，比如导出建表语名等。

导出建表语句的 "> 脚本见

附一待完成

1.4.2 Mysql

将存放元数据的 %$! 数据库迁移到 !"# 数据库

步骤：

1.5HIVE 的数据存储

首先，Hive 没有专门的数据存储格式，也没有为数据建立索引，用户可以非常自由的组

织 Hive 中的表，只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符，Hive 就

可以解析数据。

其次，Hive 中所有的数据都存储在 HDFS 中，Hive 中包含以下数据模型：Table，External

Table，Partition，Bucket。

1. Hive 中的 Table 和数据库中的 Table 在概念上是类似的，每一个 Table 在 Hive 中

都有一个相应的目录存储数据。例如，一个表 xiaojun，它在 HDFS 中的路径为：/

warehouse /xiaojun，其中，wh 是在 hive-site.xml 中由 $

{hive.metastore.warehouse.dir} 指定的数据仓库的目录，所有的 Table 数据（不包括

External Table）都保存在这个目录中。

2. Partition 对应于数据库中的 Partition 列的密集索引，但是 Hive 中 Partition 的组织

方式和数据库中的很不相同。在 Hive 中，表中的一个 Partition 对应于表下的一个

目录，所有的 Partition 的数据都存储在对应的目录中。例如：xiaojun 表中包含 dt



剩余63页未读，继续阅读

gu5218

粉丝: 35
资源: 257

Hive数据仓库基础：学习指南与核心概念解析

大数据视频_Hive视频教程（上）

java及hadoop学习资料

注册表学习器.rar

我该怎么学习hive sql

在线学习hive sql

hivesql经典案例

hivesql优化的经典案例的博客

hive 完整体系的学习

give a hive tutor

Hive SQL和hive

最新资源