Hive入门与核心操作详解

需积分: 9 130 浏览量更新于2024-07-22 1 收藏 483KB DOC 举报

Hive学习笔记主要介绍了Apache Hive作为Hadoop生态系统中的重要组成部分，用于大规模数据处理和分析。Hive构建在Hadoop之上，它将SQL-like查询语言QL与MapReduce编程模型相结合，使得非Hadoop专家也能利用已有的SQL技能对Hadoop中的海量数据进行操作。 1. **Hive架构**： - Hive架构由元数据库（元数据存储）、执行引擎（Hive Metastore）和查询解析器组成。元数据库负责存储表定义和分区信息，执行引擎处理查询请求，并通过MapReduce执行SQL语句。 2. **Hive与Hadoop关系**： - Hive是Hadoop的补充，提供了更易理解的SQL接口，使得数据管理更加直观。Hive使用Hadoop作为底层存储和计算平台，但通过元数据管理简化了用户操作。 3. **Hive与关系数据库对比**： - Hive并非真正的关系数据库，而是基于列式存储的数据仓库，更适合于批处理查询而非实时交互。它与传统数据库的区别在于性能优化和大规模数据处理能力。 4. **Hive元数据库**： - 支持两种常见的元数据库：DERBY（内置的轻量级数据库）和MySQL。用户可以根据项目需求选择合适的数据存储方式。 5. **Hive数据存储**： - Hive支持行式和列式存储，列式存储有利于查询性能，特别是对于频繁的过滤和聚合操作。 6. **Hive基本操作**： - 学习内容包括创建表（包括分区）、修改表结构（添加、删除分区，重命名等）、创建视图、显示数据、加载数据、插入数据（从查询或文件系统）、使用Hive CLI进行交互，以及数据操作的限制和高级功能如LIMIT、TOPK和正则表达式列指定。 7. **Hive SQL语法**： - 学习Hive的SELECT语句，包括GROUP BY、ORDER BY、JOIN操作，以及各种聚合函数、日期函数、字符串函数等。 8. **Hive的MAP/REDUCE支持**： - Hive的查询实际通过MapReduce执行，JOIN、GROUP BY和DISTINCT操作都会转化为Hadoop MapReduce任务，展示了Hive如何在Hadoop集群上执行复杂的计算任务。 9. **UDF和自定义函数**： - 用户定义函数（UDF）让开发者可以扩展Hive的功能，包括关系操作符、代数操作符、逻辑操作符、数学函数、集合函数、类型转换等。 Hive的学习涵盖了从基础知识到高级操作的全面内容，适合希望在大数据处理领域深入学习和应用的人员。通过理解和掌握Hive，用户可以有效地管理和分析海量数据，提高数据驱动决策的能力。

隐藏了这些具体的 !。通过这些元数据我们可以很容易的读到数据诸如创建一个表的数据

字典信息，比如导出建表语名等。

导出建表语句的 > 脚本见

附一待完成

1.4.2 Mysql

将存放元数据的 !  数据库迁移到  数据库

步骤：

1.5HIVE 的数据存储

首先，Hive 没有专门的数据存储格式，也没有为数据建立索引，用户可以非常自由的组

织 Hive 中的表，只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符，Hive 就

可以解析数据。

其次，Hive 中所有的数据都存储在 HDFS 中，Hive 中包含以下数据模型：Table，External

Table，Partition，Bucket。

1. Hive 中的 Table 和数据库中的 Table 在概念上是类似的，每一个 Table 在 Hive 中都

有一个相应的目录存储数据。例如，一个表 xiaojun，它在 HDFS 中的路径为：/

warehouse /xiaojun，其中，wh 是在 hive-site.xml 中由 $

{hive.metastore.warehouse.dir} 指定的数据仓库的目录，所有的 Table 数据（不包括

External Table）都保存在这个目录中。

2. Partition 对应于数据库中的 Partition 列的密集索引，但是 Hive 中 Partition 的组织方

式和数据库中的很不相同。在 Hive 中，表中的一个 Partition 对应于表下的一个目

录，所有的 Partition 的数据都存储在对应的目录中。例如：xiaojun 表中包含 dt 和

city 两个 Partition，则对应于 dt = 20100801, ctry = US 的 HDFS 子目录为：/

warehouse /xiaojun/dt=20100801/ctry=US；对应于 dt = 20100801, ctry = CA 的 HDFS

子目录为；/warehouse /xiaojun/dt=20100801/ctry=CA

3. Buckets 对指定列计算 hash，根据 hash 值切分数据，目的是为了并行，每一个

Bucket 对应一个文件。将 user 列分散至 32 个 bucket，首先对 user 列的值计算

hash，对应 hash 值为 0 的 HDFS 目录为：/warehouse /xiaojun/dt

=20100801/ctry=US/part-00000；hash 值为 20 的 HDFS 目录为：/

warehouse /xiaojun/dt =20100801/ctry=US/part-00020

4. External Table 指向已经在 HDFS 中存在的数据，可以创建 Partition。它和 Table 在

元数据的组织上是相同的，而实际数据的存储则有较大的差异。



候，用户还需要为表指定列，用户在指定表的列的同时也会指定自定义的

!，通过 !确定表的具体的列的数据。

 如果文件数据是纯文本，可以使用 4!7U"。如果数据需要压缩，使

用 4!73。

 有分区的表可以在创建的时候使用 8743!+=语句。一个表可以拥有一个或

者多个分区，每一个分区单独存在一个目录下。而且，表和分区都可以对某个列进行

!+=操作，将若干个列放入一个桶（ D）中。也可以利用 4

+=对数据进行排序。这样可以为特定应用提高性能。

 表名和列名不区分大小写，!和属性名区分大小写。表和列的注释是字符串。

2.1.2 语法

7VU37W7+V"34UW H

VNHHV43HW...OW

V43 HW

V8743!+=NHHV43

HW...OW

V!+=NHH...OV4!+=NH

V7T!W...OW34H D+:W

V

V4"47,H(WV4!7XH(W

T4!+=LA.>..LV

!848N...OWN3B A,>1.;.1O

W

V4743>(H>W

V+848NHJH...OWN3B

 A,>1.;.1O

V7HWN3B>( A

,>1.9.1.O

7VU37W7+V"34UW H

:-AH H

V4743>(H>W

H

BH

TH

TH

TH

H



剩余63页未读，继续阅读

lin213_213

粉丝: 0
资源: 6

Hive入门与核心操作详解

hive学习笔记

Hive学习笔记（更新版）

hive学习笔记精华版

Hive 学习笔记1

HIVE学习笔记详细教程

大数据 之 Hive 学习笔记

Hive学习笔记整理.pdf

尚硅谷大数据技术hive学习笔记

阿里巴巴Hive学习笔记.docx

hive学习笔记(阿里巴巴)

最新资源

大数据之 Hive 学习笔记