阿里推荐：Hive用户指南，全面掌握Hive操作与实战

需积分: 10 90 浏览量更新于2024-07-19 收藏 505KB DOC 举报

Hive用户手册是阿里公司为数据产品平台开发的一个学习资料，特别针对Hive这一强大的数据仓库工具进行了详细介绍。Hive是基于Hadoop的数据处理框架，它允许用户以SQL语言进行大规模数据处理和分析，与Hadoop生态系统中的其他组件如HDFS和MapReduce紧密结合。 1. Hive架构部分解释了Hive与Hadoop的关系，Hive构建在Hadoop之上，提供了一层抽象，使得非技术人员也能以熟悉的SQL语法操作分布式存储的数据。它与传统的关系型数据库相比，虽有相似之处（如表、列、数据类型等），但设计上更注重处理大规模数据，支持批量处理和延迟计算。 2. 学习手册详细介绍了Hive的基本操作，如创建表（包括分区）、修改表结构（如添加/删除分区、重命名表、更改列等）、创建视图、展示数据、数据加载、插入数据以及交互式命令行工具的使用。其中，数据加载可以是从查询结果或文件系统导入，而Hive CLI提供了丰富的选项，包括调用Python、shell等外部语言接口。 3. 数据查询方面，Hive Select功能强大，支持GROUP BY和ORDER BY语句进行分组和排序，满足数据分析中的聚合和排序需求。此外，还涉及到了JOIN操作，这对于数据的关联分析至关重要。 4. Hive参数设置部分则涵盖了如何配置Hive以优化性能，包括调整内存分配、设置缓存策略等，确保在大规模数据处理时能高效运行。 5. 用户定义函数（UDF）是Hive中的一个重要概念，它允许用户自定义扩展Hive的功能，通过内置函数、数学函数、集合函数、类型转换和日期函数等，实现复杂的业务逻辑和数据处理。这份Hive用户手册是一个全面且实用的学习资料，对于想要深入理解和运用Hive进行大数据处理的读者来说，无论是初学者还是进阶者，都能从中获得宝贵的知识和实践指导。通过学习这些内容，用户能够熟练掌握Hive的数据管理和分析能力，以便在实际项目中高效地处理和利用海量数据。

LG$B$!BCC>B9'<C"H$IJLI

、元数据库数据字典

表名说明关联键

. :4MH

5

5 4

 表字段信息N字段注释，字段名，字段类型，字段序

号O

%H%

%.

　元数据库信息，存放 %& 路径信息

%.H%

8754H:

=

 分区表分区键

87H%

%

所有 > 表、表分区所对应的 >+" 数据目录和数据格

式。

%H%%

H%

%H877

序列化反序列化信息，如行分隔符、列分隔符、4  的表

示字符等

%H%

 4H

7.

 4H7. 表保存了 > 对象的下一个可用

%，

如’A>>>"$

P'，则下一个新创建的 > 表其 .H% 就是 '，同

时  4H7. 表中 '<<-; 被更新为 ';N这里每

次都是Q9RO。同样，5 4，8754 等都有相应

的记录

% 　　

%H877



5H5 　　

7.H877



表级属性，如是否外部表，表注释等

.H%

.

所有 > 表的基本信息

.H%%H%

从上面几张表的内容来看，> 整个创建表的过程已经比较清楚了

 解析用户提交 > 语句，对其进行解析，分解为表、字段、分区等 > 对象

' 根据解析到的信息构建对应的表、字段、分区等对象，从  4H7. 中

获取构建对象的最新 %，与构建对象信息N名称，类型等O一同通过 %75 方法写入

到元数据表中去，成功后将  4H7. 中对应的最新 %Q9。

实际上我们常见的 %. 都是通过这种方法进行组织的，典型的如 "A"#，其

系统表中和 > 元数据一样裸露了这些  信息N 等O而 5 等商业化的系统则



隐藏了这些具体的 %。通过这些元数据我们可以很容易的读到数据诸如创建一个表的数据

字典信息，比如导出建表语名等。

导出建表语句的 "> 脚本见

附一待完成

1.4.2 Mysql

将存放元数据的 %$! 数据库迁移到 !"# 数据库

步骤：

1.5HIVE 的数据存储

首先，Hive 没有专门的数据存储格式，也没有为数据建立索引，用户可以非常自由的组

织 Hive 中的表，只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符，Hive 就

可以解析数据。

其次，Hive 中所有的数据都存储在 HDFS 中，Hive 中包含以下数据模型：Table，External

Table，Partition，Bucket。

1. Hive 中的 Table 和数据库中的 Table 在概念上是类似的，每一个 Table 在 Hive 中都

有一个相应的目录存储数据。例如，一个表 xiaojun，它在 HDFS 中的路径为：/

warehouse /xiaojun，其中，wh 是在 hive-site.xml 中由 $

{hive.metastore.warehouse.dir} 指定的数据仓库的目录，所有的 Table 数据（不包括

External Table）都保存在这个目录中。

2. Partition 对应于数据库中的 Partition 列的密集索引，但是 Hive 中 Partition 的组织方

式和数据库中的很不相同。在 Hive 中，表中的一个 Partition 对应于表下的一个目

录，所有的 Partition 的数据都存储在对应的目录中。例如：xiaojun 表中包含 dt 和

city 两个 Partition，则对应于 dt = 20100801, ctry = US 的 HDFS 子目录为：/

warehouse /xiaojun/dt=20100801/ctry=US；对应于 dt = 20100801, ctry = CA 的 HDFS

子目录为；/warehouse /xiaojun/dt=20100801/ctry=CA

3. Buckets 对指定列计算 hash，根据 hash 值切分数据，目的是为了并行，每一个

Bucket 对应一个文件。将 user 列分散至 32 个 bucket，首先对 user 列的值计算

hash，对应 hash 值为 0 的 HDFS 目录为：/warehouse /xiaojun/dt

=20100801/ctry=US/part-00000；hash 值为 20 的 HDFS 目录为：/

warehouse /xiaojun/dt =20100801/ctry=US/part-00020

4. External Table 指向已经在 HDFS 中存在的数据，可以创建 Partition。它和 Table 在

元数据的组织上是相同的，而实际数据的存储则有较大的差异。



剩余63页未读，继续阅读

四叶草的诉说

粉丝: 1
资源: 2

阿里推荐：Hive用户指南，全面掌握Hive操作与实战

Hive_0.12_API_EN.chm

Hive用户指南(Hive_user_guide)_中文版.pdf

Hive用户指南(Hive_user_guide)_中文版

Hive使用手册Hive使用手册

Hive使用手册1

hive用户手册pdf

hive 用户手册 英文版

Hive用户手册中文版.pdf

Hive新手学习资料之Hive入门与实战.+Hive用户手册+hive函数大全中文版资源合集

hive用户手册_0.11_cn.chm

最新资源

hive 用户手册英文版