Hive技术详解：从基础到进阶

需积分: 9 199 浏览量更新于2024-07-24 收藏 495KB DOC 举报

“Hive学习笔记，详细记录了Hive的使用经验和阿里巴巴的技术分享，涵盖了Hive的架构、与Hadoop的关系、元数据库、数据存储、基本操作如创建表、修改表、查询、加载数据、插入数据等，以及Hive的Select、Join操作，参数设置和用户定义函数（UDF）等内容。” Hive是基于Hadoop的数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供SQL-like查询语句进行数据查询，适合大规模数据集的离线分析。 1. **Hive架构**： Hive主要由Hive服务器（HiveServer）、元数据存储（Metastore）、HQL编译器（Hive Compiler）、执行引擎（Execution Engine）和HDFS组成。HiveServer处理客户端的请求，Metastore保存表和分区的元数据，HQL编译器将查询语句转化为MapReduce任务，Execution Engine负责在Hadoop上执行这些任务，而数据则存储在HDFS上。 2. **Hive和Hadoop关系**： Hive依赖于Hadoop生态系统，它利用Hadoop的分布式计算能力处理大数据。Hive将SQL查询转换成MapReduce任务在Hadoop集群上运行，数据存储在HDFS中，查询结果可以通过HDFS或HBase等其他存储系统获取。 3. **Hive和普通关系数据库的异同**： Hive与传统RDBMS相比，优点在于处理大量非结构化或半结构化数据，适合批量处理而非实时查询，且对硬件要求较低。但其查询速度相对较慢，不支持事务和ACID特性。 4. **Hive元数据库**：元数据包括表名、列名、表的分区信息、表的存储位置等。默认情况下，Hive使用内置的Derby数据库存储元数据，也可以配置使用MySQL等外部数据库来提高元数据的并发访问能力。 5. **Hive的数据存储**： Hive将数据存储在HDFS上，数据文件可以是文本、Avro、Parquet或其他Hadoop支持的格式。表可以被分区，以提高查询效率。 6. **Hive基本操作**： - `CREATE TABLE`：创建表，包括定义表结构、列类型和分区。 - `ALTER TABLE`：修改表结构，如添加分区、删除分区、重命名表和更改列。 - `CREATE VIEW`：创建视图，简化复杂查询。 - `SHOW`：显示表、数据库、分区等信息。 - `LOAD DATA`：加载数据到表中。 - `INSERT`：向表中插入数据，支持从查询结果插入和直接写入文件系统。 - `CLI`：Hive命令行接口，包括各种选项和交互式Shell命令。 7. **Hive SELECT**：包括`GROUP BY`进行分组聚合，`ORDER BY/SORT BY`进行排序，以及`LIMIT`限制返回结果数量，`TOPK`获取指定数量的最大值或最小值，`REGEX`用于匹配列的特定模式。 8. **Hive JOIN**： Hive支持多种类型的JOIN操作，如内连接、外连接、全连接，用于合并多个表的数据。 9. **Hive参数设置**：用户可以通过配置Hive的配置文件（如`hive-site.xml`）来调整各种性能参数，以优化查询性能。 10. **Hive UDF**： Hive提供了丰富的用户定义函数（UDF），包括基础操作符、代数操作符、逻辑操作符、复杂类型操作、内建函数、数学函数、集合函数、类型转换和日期函数等，允许用户根据需求自定义功能。这些内容构成了Hive学习的基础，通过深入理解和实践，可以有效地利用Hive进行大数据的存储和分析。

LG$B$!BCC>B9'<C"H$IJLI

、元数据库数据字典

表名说明关联键

. :4MH

5

5 4

 表字段信息N字段注释，字段名，字段类型，字段序

号O

%H%

%.

　元数据库信息，存放 %& 路径信息

%.H%

8754H:

=

 分区表分区键

87H%

%

所有 > 表、表分区所对应的 >+" 数据目录和数据格

式。

%H%%

H%

%H877

序列化反序列化信息，如行分隔符、列分隔符、4  的表

示字符等

%H%

 4H

7.

 4H7. 表保存了 > 对象的下一个可用

%，

如’A>>>"$

P'，则下一个新创建的 > 表其 .H% 就是 '，同

时  4H7. 表中 '<<-; 被更新为 ';N这里每

次都是Q9RO。同样，5 4，8754 等都有相应

的记录

% 　　

%H877



5H5 　　

7.H877



表级属性，如是否外部表，表注释等

.H%

.

所有 > 表的基本信息

.H%%H%

从上面几张表的内容来看，> 整个创建表的过程已经比较清楚了

 解析用户提交 > 语句，对其进行解析，分解为表、字段、分区等 > 对象

' 根据解析到的信息构建对应的表、字段、分区等对象，从  4H7. 中

获取构建对象的最新 %，与构建对象信息N名称，类型等O一同通过 %75 方法写入

到元数据表中去，成功后将  4H7. 中对应的最新 %Q9。

实际上我们常见的 %. 都是通过这种方法进行组织的，典型的如 "A"#，其

系统表中和 > 元数据一样裸露了这些  信息N 等O而 5 等商业化的系统则



隐藏了这些具体的 %。通过这些元数据我们可以很容易的读到数据诸如创建一个表的数据

字典信息，比如导出建表语名等。

导出建表语句的 "> 脚本见

附一待完成

1.4.2 Mysql

将存放元数据的 %$! 数据库迁移到 !"# 数据库

步骤：

1.5HIVE 的数据存储

首先，Hive 没有专门的数据存储格式，也没有为数据建立索引，用户可以非常自由的组

织 Hive 中的表，只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符，Hive 就

可以解析数据。

其次，Hive 中所有的数据都存储在 HDFS 中，Hive 中包含以下数据模型：Table，External

Table，Partition，Bucket。

1. Hive 中的 Table 和数据库中的 Table 在概念上是类似的，每一个 Table 在 Hive 中都

有一个相应的目录存储数据。例如，一个表 xiaojun，它在 HDFS 中的路径为：/

warehouse /xiaojun，其中，wh 是在 hive-site.xml 中由 $

{hive.metastore.warehouse.dir} 指定的数据仓库的目录，所有的 Table 数据（不包括

External Table）都保存在这个目录中。

2. Partition 对应于数据库中的 Partition 列的密集索引，但是 Hive 中 Partition 的组织方

式和数据库中的很不相同。在 Hive 中，表中的一个 Partition 对应于表下的一个目

录，所有的 Partition 的数据都存储在对应的目录中。例如：xiaojun 表中包含 dt 和

city 两个 Partition，则对应于 dt = 20100801, ctry = US 的 HDFS 子目录为：/

warehouse /xiaojun/dt=20100801/ctry=US；对应于 dt = 20100801, ctry = CA 的 HDFS

子目录为；/warehouse /xiaojun/dt=20100801/ctry=CA

3. Buckets 对指定列计算 hash，根据 hash 值切分数据，目的是为了并行，每一个

Bucket 对应一个文件。将 user 列分散至 32 个 bucket，首先对 user 列的值计算

hash，对应 hash 值为 0 的 HDFS 目录为：/warehouse /xiaojun/dt

=20100801/ctry=US/part-00000；hash 值为 20 的 HDFS 目录为：/

warehouse /xiaojun/dt =20100801/ctry=US/part-00020

4. External Table 指向已经在 HDFS 中存在的数据，可以创建 Partition。它和 Table 在

元数据的组织上是相同的，而实际数据的存储则有较大的差异。



剩余63页未读，继续阅读

longmawangzi

粉丝: 0
资源: 5

Hive技术详解：从基础到进阶

阿里巴巴Hive学习笔记.docx

hive的学习资料

hive学习资料大全 实战优化资源

Hive 学习笔记1

hive学习笔记精华版

大数据 之 Hive 学习笔记

HIVE学习笔记详细教程

Hive学习笔记整理.pdf

尚硅谷大数据技术hive学习笔记

hive学习笔记(阿里巴巴)

最新资源

hive学习资料大全实战优化资源

大数据之 Hive 学习笔记