Hive用户指南：数据操作与函数详解

需积分: 10 157 浏览量更新于2024-07-22 1 收藏 1.46MB PDF 举报

"Hive用户指南 Hive user guide 中文版" Hive是一款基于Hadoop的数据仓库工具，它允许通过SQL-like查询语言（HQL）来处理存储在Hadoop分布式文件系统（HDFS）中的大数据集。Hive的设计目标是提供数据汇总、分析和查询功能，适合批处理而非实时查询。本指南将详细介绍Hive的结构、操作以及功能。 1. Hive结构 - Hive架构：Hive由客户端、元数据服务器、HiveServer、Hadoop交互组件等部分组成。客户端负责与用户交互，元数据服务器存储表和分区的元数据，HiveServer处理用户的查询请求，并通过Hadoop组件执行MapReduce任务。 - Hive和Hadoop关系：Hive是构建在Hadoop之上的，依赖于Hadoop的分布式存储和计算能力。Hive将SQL查询转化为MapReduce任务，运行在Hadoop集群上。 - Hive和普通关系数据库的异同：Hive具有类似SQL的查询接口，但不支持事务和ACID特性，更适合离线批处理而不是在线事务处理。 - Hive元数据库：存储Hive表和分区的元数据，可以使用内置的Derby或外部的MySQL。 - 数据存储：Hive将数据存储在HDFS中，通过表和分区管理数据布局。 2. Hive基本操作 - create table：用于创建表，支持多种数据类型和分区。 - alter table：修改已存在的表，包括添加、删除分区，重命名表，更改列等。 - create view：创建视图，方便查询。 - show：显示数据库、表、分区等信息。 - load：将数据加载到表中。 - insert：向表中插入数据，支持从查询结果插入和直接写入文件系统。 - cli：Hive命令行工具，包括选项、交互式Shell命令和资源管理。 - drop：删除表和视图。 - 其他操作：如limit用于限制查询结果数量，topk获取最大或最小的k个元素，regex用于指定列的正则表达式匹配。 3. Hive Select - Group By：对数据进行分组，常与聚合函数一起使用。 - Order/Sort By：对查询结果进行排序。 4. Hive Join - Hive支持不同类型的JOIN操作，如内连接、外连接、交叉连接等，用于合并多个表的数据。 5. Hive参数设置 - Hive允许用户调整各种配置参数，以优化性能和行为，例如内存分配、执行计划等。 6. Hive UDF - 基本函数：包括比较操作符、代数运算符、逻辑运算符、复杂类型操作符等。 - 内建函数：涵盖数学函数、集合函数、类型转换等功能，用于数据处理和分析。这个用户指南详细介绍了Hive的各个方面，为用户提供了全面的操作指南，无论是初学者还是有经验的Hive使用者都能从中受益。通过学习这些内容，用户能够有效地利用Hive管理和分析大数据集。

2、查看 HDFS 上的文件数据

hadoop fs -text /user/admin/daiqf/createspu_fp/input/cateinfo |head

2. HIVE 基本操作

2.1 create table

2.1.1 总述

 CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在，则抛出异常；用

户可以用 IF NOT EXIST 选项来忽略这个异常。

 EXTERNAL 关键字可以让用户创建一个外部表，在建表的同时指定一个指向实际数据的

路径（LOCATION），Hive 创建内部表时，会将数据移动到数据仓库指向的路径；若创建

外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部

表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。

 LIKE 允许用户复制现有的表结构，但是不复制数据。

 用户在建表的时候可以自定义 SerDe 或者使用自带的 SerDe。如果没有指定 ROW

FORMAT 或者 ROW FORMAT DELIMITED，将会使用自带的 SerDe。在建表的时候，用户还

需要为表指定列，用户在指定表的列的同时也会指定自定义的 SerDe，Hive 通过 SerDe

确定表的具体的列的数据。

 如果文件数据是纯文本，可以使用 STORED AS TEXTFILE。如果数据需要压缩，使用

STORED AS SEQUENCE 。

 有分区的表可以在创建的时候使用 PARTITIONED BY 语句。一个表可以拥有一个或者多

个分区，每一个分区单独存在一个目录下。而且，表和分区都可以对某个列进行

CLUSTERED BY 操作，将若干个列放入一个桶（bucket）中。也可以利用 SORT BY 对数

据进行排序。这样可以为特定应用提高性能。

 表名和列名不区分大小写，SerDe 和属性名区分大小写。表和列的注释是字符串。

2.1.2 语法

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name

[(col_name data_type [COMMENT col_comment], ...)]

[COMMENT table_comment]

[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]

[CLUSTERED BY (col_name, col_name, ...) [SORTED BY (col_name

[ASC|DESC], ...)] INTO num_buckets BUCKETS]

[

[ROW FORMAT row_format] [STORED AS file_format]

批注 [王黎2]: serde 什么意思

批注 [王黎3]: ？？？

批注 [王黎4]: ？？？

批注 [王黎5]: ？？？

剩余61页未读，继续阅读

张利兵

粉丝: 2
资源: 9

Hive用户指南：数据操作与函数详解

Hive用户指南(Hive_user_guide)_中文版.pdf

Hive用户指南(Hive_user_guide)_中文版pdf

Hive用户指南(Hive_user_guide)_中文版

Hive用户指南(Hive-user-guide)-中文版.doc

Hive用户指南：核心操作与函数解析

Hive用户指南：数据类型与操作实例解析

Hadoop分布式文件系统使用指南hdfs_user_guide.pdf

"Hive实用指南：Hadoop数据仓库系统详解【英文云】

Practical.Hive.A.Guide.to.Hadoops.Data.Warehouse.System.1484202724

hive hadoop 开发手册

最新资源