Hive操作详解：从基础到高级

需积分: 9 73 浏览量更新于2024-07-22 收藏 499KB DOC 举报

"Hive用户指南提供了关于Hive的基本语法和操作的全面介绍，包括Hive的架构、与Hadoop的关系、与传统数据库的对比、元数据库管理、数据存储方式，以及各种操作如创建表、修改表、视图创建、显示、加载、插入数据、CLI使用、删除操作等内容。此外，还涵盖了Hive的选择、分组、排序、连接、参数设置、用户定义函数(UDF)以及MapReduce在Hive中的应用。" 在Hive用户指南中，首先介绍了Hive的结构，包括其架构，它是一个基于Hadoop的数据仓库工具，能够将结构化的数据文件映射为一张数据库表，并提供SQL查询功能。Hive与Hadoop的关系密切，利用Hadoop的分布式计算能力进行大规模数据处理。同时，Hive与普通关系数据库在设计理念和操作上有异同，比如Hive更适合批处理而非实时查询。 Hive的元数据库是存储元数据的地方，用于管理Hive的表信息。默认情况下，Hive使用嵌入式的DERBY数据库作为元数据库，但也可以配置成使用MySQL等外部元数据库，以实现高可用性和更好的性能。 Hive的数据存储部分讲述了如何在HDFS上组织和存储数据，以及如何通过不同的方式创建表，包括创建非分区表和分区表。此外，指南详细讲解了`ALTER TABLE`命令，可以添加分区、删除分区、重命名表、更改列以及替换列。`CREATE VIEW`用于创建虚拟表，而`SHOW`命令用于显示表、数据库等信息。`LOAD`用于加载数据，`INSERT`用于插入数据，支持从查询结果中插入或直接写入文件系统。 Hive的命令行接口(CLI)部分介绍了其选项、交互式Shell命令以及如何调用外部脚本如Python和Shell。`DROP`命令用于删除表或分区。指南还提到了一些高级特性，如`LIMIT`用于限制查询结果的数量，`TOPK`和`REGEX Column Specification`提供了更灵活的数据选择。在查询方面，`SELECT`语句支持`GROUP BY`用于分组聚合，`ORDER/SORT BY`用于排序。`JOIN`操作在Hive中用于合并多个表的数据，而`GROUP BY`结合`HAVING`可以实现更复杂的聚合操作。 Hive参数设置允许用户根据需求调整Hive的行为，以优化性能。Hive UDF（用户定义函数）包括基本函数如关系、代数、逻辑运算，以及处理复杂类型、内建函数、数学函数、集合函数、类型转换、日期函数、条件函数和字符串函数等。用户还可以自定义UDTF，如`Explode`，用于拆分数组或映射类型的数据。最后，Hive的Map/Reduce部分讲述了如何在Hive查询中使用MapReduce任务执行JOIN、GROUP BY和DISTINCT等操作，这些都是Hadoop生态系统中进行大数据处理的关键组成部分。

=20100801/ctry=US/part-00000；hash 值为 20 的 HDFS 目录为：/

warehouse /xiaojun/dt =20100801/ctry=US/part-00020

4. External Table 指向已经在 HDFS 中存在的数据，可以创建 Partition。它和 Table 在

元数据的组织上是相同的，而实际数据的存储则有较大的差异。

 Table 的创建过程和数据加载过程（这两个过程可以在同一个语句中完成），在加

载数据的过程中，实际数据会被移动到数据仓库目录中；之后对数据对访问将会直

接在数据仓库目录中完成。删除表时，表中的数据和元数据将会被同时删除。

 External Table 只有一个过程，加载数据和创建表同时完成（CREATE EXTERNAL

TABLE ……LOCATION），实际数据是存储在 LOCATION 后面指定的 HDFS 路

径中，并不会移动到数据仓库目录中。当删除一个 External Table 时，仅删除

1.6其它 HIVE 操作

#、启动 6 的 + 的界面

>S6H4C C>))>,

$、查看 !" 上的文件数据

>()-CCC(CH(CC(T>

2. HIVE 基本操作

2.1create table

2.1.1 总述

 77+创建一个指定名字的表。如果相同名字的表已经存在，则抛出异常；

用户可以用 "34U选项来忽略这个异常。

 U37关键字可以让用户创建一个外部表，在建表的同时指定一个指向实际数据

的路径（4743），创建内部表时，会将数据移动到数据仓库指向的路径；

若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时



候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。

 :允许用户复制现有的表结构，但是不复制数据。

 用户在建表的时候可以自定义 !或者使用自带的 !。如果没有指定 4

"47或者 4"47!!，将会使用自带的 !。在建表的时

候，用户还需要为表指定列，用户在指定表的列的同时也会指定自定义的

!，通过 !确定表的具体的列的数据。

 如果文件数据是纯文本，可以使用 4!7U"。如果数据需要压缩，使

用 4!73。

 有分区的表可以在创建的时候使用 8743!+=语句。一个表可以拥有一个或

者多个分区，每一个分区单独存在一个目录下。而且，表和分区都可以对某个列进行

!+=操作，将若干个列放入一个桶（ D）中。也可以利用 4

+=对数据进行排序。这样可以为特定应用提高性能。

 表名和列名不区分大小写，!和属性名区分大小写。表和列的注释是字符串。

2.1.2 语法

7VU37W7+V"34UW H

VNHHV43HW...OW

V43 HW

V8743!+=NHHV43

HW...OW

V!+=NHH...OV4!+=NH

V7T!W...OW34H D+:W

V

V4"47,H(WV4!7XH(W

T4!+=LA.>..LV

!848N...OWN3B A,>1.;.1O

W

V4743>(H>W

V+848NHJH...OWN3B

 A,>1.;.1O

V7HWN3B>( A

,>1.9.1.O

7VU37W7+V"34UW H

:-AH H

V4743>(H>W

H

BH

TH



TH

TH

H

B3=3

T73

T3

T+M3

T+4473

T"47

T!4+

T3M

H

B77=EHF

H

B78EHHF

H

BEHBHV43HW...F

,H(

B!!V"!37!+=>WV443

37!+=>W

V78:=37!+=>WV337!+=>W

T!HV!848

NHJH

HJH...OW

XH(B

B3"

TU"

T"N3B A,>1.;.1O

T38"47H(H48"47

H(H

目前在 > 中常用的数据类型有B

+M3Y主要用于状态类别数量的字段

如 CCC

!4+Y主要用于金额的字段如 (CC 



剩余63页未读，继续阅读

Ethan_bless_you

粉丝: 0
资源: 2

Hive操作详解：从基础到高级

深入浅出 Hive

Hive用户指南.zip

Hive用户指南(Hive_user_guide)_中文版pdf

hive用户指南

Hive用户指南 Hive user guide 中文版

Hive 用户指南 v1.0

Hive用户指南中文版

Hive用户指南(Hive_user_guide)_中文版

阿里推荐：Hive用户指南，全面掌握Hive操作与实战

Hive用户指南：基本操作与函数介绍

最新资源