Hive用户指南：核心操作与函数解析

版权申诉

173 浏览量更新于2024-06-20 收藏 518KB DOC 举报

"Hive用户指南(Hive-user-guide)_中文版" Hive是基于Hadoop的数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，适合处理大规模数据集。本指南主要涵盖了Hive的基本概念、操作以及高级特性。 1. Hive结构 Hive的架构包括客户端、元数据服务器、HiveServer、Hadoop集群等组件。元数据服务器存储了关于表、分区、列等信息，而HiveServer负责处理客户端的请求，与Hadoop集群交互执行MapReduce任务。 2. Hive和Hadoop关系 Hive是建立在Hadoop之上的，利用HDFS存储数据，通过MapReduce进行计算。它将SQL语句转化为MapReduce任务，简化了大数据分析的过程。 3. Hive和普通关系数据库的异同 Hive与传统RDBMS相比，提供了类似SQL的查询语言HQL，但不支持事务和实时查询。Hive更注重批处理和离线分析，而RDBMS更适合在线事务处理。 4. Hive元数据库 Hive元数据库存储了表和分区的元数据，可选择Derby或MySQL作为元数据存储。Derby是默认的轻量级选项，适用于小型环境；MySQL则适用于大型部署，提供更好的并发性和稳定性。 5. 数据存储 Hive数据存储在HDFS上，可以是文本、Avro、Parquet或ORC等格式，每种格式有不同的性能和压缩特性。 6. Hive基本操作 - `CREATE TABLE`：创建表，支持定义列名、列类型、分区等。 - `ALTER TABLE`：修改表结构，如添加、删除分区，重命名表，更改列等。 - `CREATE VIEW`：创建视图，方便查询。 - `SHOW`：显示表、数据库、分区等信息。 - `LOAD`：加载数据到表中。 - `INSERT`：插入数据，支持从查询结果插入和直接写入文件系统。 - `CLI`：Hive命令行界面，包括命令行选项、交互式Shell命令和资源管理。 7. Hive的SELECT - `GROUP BY`：对数据进行分组聚合。 - `ORDER/SORT BY`：对查询结果进行排序。 8. Hive JOIN Hive支持不同类型的JOIN操作，如内连接、外连接、交叉连接等。 9. Hive参数设置用户可以根据需求调整Hive的配置参数，优化性能。 10. Hive UDF - 基本函数：包括关系操作符、代数操作符、逻辑操作符等。 - 内建函数：如数学函数、集合函数、类型转换函数、日期函数、条件函数、字符串函数等。 - UDTF（User Defined Table Generating Functions）：如`EXPLODE`，用于将单一记录拆分为多条记录。 11. Hive的Map/Reduce Hive查询会转化为MapReduce作业执行，其中JOIN、GROUP BY等操作由MapReduce完成。 12. 其他特性 - `LIMIT`：限制查询结果的数量。 - `TOPK`：获取数据集中的前K个元素。 - `REGEX Column Specification`：使用正则表达式匹配列。本指南详细介绍了Hive的各种操作和功能，是学习和使用Hive进行大数据分析的重要参考资料。通过学习，用户可以熟练掌握Hive进行数据管理和分析的技能。

2、查看 HDFS 上的文件数据

hadoop fs -text /user/admin/daiqf/createspu_fp/input/cateinfo |head

2. HIVE 基本操作

2.1create table

2.1.1 总述

 CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在，则抛出异常；用户

可以用 IF NOT EXIST 选项来忽略这个异常。

 EXTERNAL 关键字可以让用户创建一个外部表，在建表的同时指定一个指向实际数据的

路径（LOCATION），Hive 创建内部表时，会将数据移动到数据仓库指向的路径；若创建

外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部

表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。

 LIKE 允许用户复制现有的表结构，但是不复制数据。

 用户在建表的时候可以自定义 SerDe 或者使用自带的 SerDe。如果没有指定 ROW FORMAT

或者 ROW FORMAT DELIMITED，将会使用自带的 SerDe。在建表的时候，用户还需要为表

指定列，用户在指定表的列的同时也会指定自定义的 SerDe，Hive 通过 SerDe 确定表

的具体的列的数据。

 如果文件数据是纯文本，可以使用 STORED AS TEXTFILE。如果数据需要压缩，使用 STORED

AS SEQUENCE 。

 有分区的表可以在创建的时候使用 PARTITIONED BY 语句。一个表可以拥有一个或者多

个分区，每一个分区单独存在一个目录下。而且，表和分区都可以对某个列进行

CLUSTERED BY 操作，将若干个列放入一个桶（bucket）中。也可以利用 SORT BY 对数

据进行排序。这样可以为特定应用提高性能。

 表名和列名不区分大小写，SerDe 和属性名区分大小写。表和列的注释是字符串。

2.1.2 语法

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name

[(col_name data_type [COMMENT col_comment], ...)]

[COMMENT table_comment]

[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]

[CLUSTERED BY (col_name, col_name, ...) [SORTED BY (col_name

[ASC|DESC], ...)] INTO num_buckets BUCKETS]

[

[ROW FORMAT row_format] [STORED AS file_format]

Commented [王黎 2]: serde 什么意思

Commented [王黎 3]: ？？？

Commented [王黎 4]: ？？？

Commented [王黎 5]: ？？？

剩余61页未读，继续阅读

小小哭包

粉丝: 2092

Hive用户指南：核心操作与函数解析

Hive JDBC驱动包 hive-jdbc-uber-*.*.*.*-292.zip 解析

dbeaver连接Hive必备驱动包：hive-jdbc-uber-*.*.*.*-292.jar

Hive中使用hive-json-serde-0.2.jar实现JSON数据表管理

hive驱动包hive-jdbc-uber-2.6.5.0-292.jar（用户客户端连接使用）

Apache Hive（hive-standalone-metastore-3.0.0-bin.tar.gz)

sqoop import --connect jdbc:mysql://localhost:3306/test1 --username hive --password hive --table user --hive-import --hive-table user

含两个文件hive-jdbc-3.1.2-standalone.jar和apache-hive-3.1.2-bin.tar.gz

hive-jdbc-3.1.2-standalone.jar包 - dbeaver连接hive.zip

DBeaver链接hive驱动包下载： hive-jdbc-uber-2.6.5.0-292.jar

hive-jdbc-uber-2.6.5.0-292.jar

最新资源

Hive JDBC驱动包 hive-jdbc-uber-...-292.zip 解析

dbeaver连接Hive必备驱动包：hive-jdbc-uber-...-292.jar