Hive用户指南：从入门到高级操作详解

Hive

用户指南

需积分: 16 158 浏览量更新于2024-07-20 1 收藏 502KB DOC 举报

身份认证购VIP最低享 7 折!

30元优惠券

Hive用户指南是一份详细的中文教程，主要针对Apache Hive这一强大的数据仓库工具。Hive是基于Hadoop的数据处理框架，它提供了一个SQL-like查询语言，用于在Hadoop分布式文件系统（如HDFS）上的大量数据集上进行高效查询和分析。以下是该指南中的关键知识点概览： 1. **Hive结构**： - Hive架构：介绍了Hive的组件，包括元存储（Metastore）、HiveQL解析器、HiveServer2等，以及它们在Hadoop生态系统中的位置。 - Hive与Hadoop的关系：Hive构建在Hadoop之上，利用Hadoop的分布式计算能力，提供对大规模数据的处理和查询支持。 - Hive与关系数据库的比较：强调了Hive作为数据仓库解决方案与传统SQL数据库的不同之处，如数据存储方式和处理性能。 2. **Hive基本操作**： - `CREATE TABLE`: 学习如何创建表，包括概述、语法、示例和分区（partitioning）的概念，以及更复杂的表定义选项。 - `ALTER TABLE`: 对已存在的表进行修改，涉及添加/删除分区、重命名表、修改列等操作。 - `CREATE VIEW`: 如何创建视图，以简化复杂查询或提供数据抽象。 - `SHOW`, `LOAD`, `INSERT`: 数据管理的基础操作，如查看表结构、加载数据到Hive和插入数据的方式。 - `Hive CLI`：命令行接口的介绍，包括选项、交互式模式，以及与其他语言（如Python、Shell）的集成。 3. **高级查询**： - `SELECT`: 针对Hive的SELECT语句进行深入解析，包括GROUP BY、ORDER BY、JOIN等聚合和排序操作。 - `Hive参数设置`: 如何配置Hive以优化性能，包括连接超时、内存分配等。 - **用户定义函数（UDF）**: 学习内置函数、数学函数、字符串处理和其他特定类型的操作，以及如何编写自定义函数。 4. **MapReduce集成**： - Hive与Hadoop MapReduce的交互，重点在于JOIN操作在分布式环境中的处理，GROUP BY的并行化，以及如何利用Hive的分布式特性。这份指南不仅涵盖了Hive的基本语法和操作，还深入探讨了其高级特性和与Hadoop的协作，对于理解和使用Hive进行大数据分析具有很高的参考价值。无论是初学者还是进阶用户，都可以从中找到所需的信息来提升数据处理和查询效率。

资源详情

资源推荐

=20100801/ctry=US/part-00000；hash 值为 20 的 HDFS 目录为：/

warehouse /htduan/dt =20100801/ctry=US/part-00020

4. External Table 指向已经在 HDFS 中存在的数据，可以创建 Partition。它和 Table 在

元数据的组织上是相同的，而实际数据的存储则有较大的差异。

 Table 的创建过程和数据加载过程（这两个过程可以在同一个语句中完成），在加

载数据的过程中，实际数据会被移动到数据仓库目录中；之后对数据对访问将会直

接在数据仓库目录中完成。删除表时，表中的数据和元数据将会被同时删除。

 External Table 只有一个过程，加载数据和创建表同时完成（CREATE EXTERNAL

TABLE ……LOCATION），实际数据是存储在 LOCATION 后面指定的 HDFS 路

径中，并不会移动到数据仓库目录中。当删除一个 External Table 时，仅删除

1.6其它 HIVE 操作

#、启动 6 的 + 的界面

>S6H4C C>))>,

$、查看 !" 上的文件数据

>()-CCC(CH(CC(T>

2. HIVE 基本操作

2.1create table

2.1.1 总述

 77+创建一个指定名字的表。如果相同名字的表已经存在，则抛出异常；

用户可以用 "34U选项来忽略这个异常。

 U37关键字可以让用户创建一个外部表，在建表的同时指定一个指向实际数据

的路径（4743），创建内部表时，会将数据移动到数据仓库指向的路径；

若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时



候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。

 :允许用户复制现有的表结构，但是不复制数据。

 用户在建表的时候可以自定义 !或者使用自带的 !。如果没有指定 4

"47或者 4"47!!，将会使用自带的 !。在建表的时

候，用户还需要为表指定列，用户在指定表的列的同时也会指定自定义的

!，通过 !确定表的具体的列的数据。

 如果文件数据是纯文本，可以使用 4!7U"。如果数据需要压缩，使

用 4!73。

 有分区的表可以在创建的时候使用 8743!+=语句。一个表可以拥有一个或

者多个分区，每一个分区单独存在一个目录下。而且，表和分区都可以对某个列进行

!+=操作，将若干个列放入一个桶（ D）中。也可以利用 4

+=对数据进行排序。这样可以为特定应用提高性能。

 表名和列名不区分大小写，!和属性名区分大小写。表和列的注释是字符串。

2.1.2 语法

7VU37W7+V"34UW H

VNHHV43HW...OW

V43 HW

V8743!+=NHHV43

HW...OW

V!+=NHH...OV4!+=NH

V7T!W...OW34H D+:W

V

V4"47,H(WV4!7XH(W

T4!+=LA.>..LV

!848N...OWN3B A,>1.;.1O

W

V4743>(H>W

V+848NHJH...OWN3B

 A,>1.;.1O

V7HWN3B>( A

,>1.9.1.O

7VU37W7+V"34UW H

:-AH H

V4743>(H>W

H

BH

TH



TH

TH

H

B3=3

T73

T3

T+M3

T+4473

T"47

T!4+

T3M

H

B77=EHF

H

B78EHHF

H

BEHBHV43HW...F

,H(

B!!V"!37!+=>WV443

37!+=>W

V78:=37!+=>WV337!+=>W

T!HV!848

NHJH

HJH...OW

XH(B

B3"

TU"

T"N3B A,>1.;.1O

T38"47H(H48"47

H(H

目前在 > 中常用的数据类型有B

+M3Y主要用于状态类别数量的字段

如 CCC

!4+Y主要用于金额的字段如 (CC 



剩余63页未读，继续阅读

今晚打酱油8

粉丝: 171
资源: 21

Hive用户指南：从入门到高级操作详解

hive官方文档整理

hive用户手册

Hive用户指南(Hive_user_guide)_中文版.pdf

Hive用户指南(Hive_user_guide)_中文版pdf

Hive用户指南 Hive user guide 中文版

Hive用户指南(Hive-user-guide)-中文版.doc

Hadoop分布式文件系统使用指南hdfs_user_guide.pdf

hadoop_the_definitive_guide_3nd_edition

Hive用户指南：数据操作与函数详解

Hive用户指南：核心操作与函数解析

Hive用户指南：数据类型与操作实例解析

"Hive实用指南：Hadoop数据仓库系统详解【英文云】

Practical.Hive.A.Guide.to.Hadoops.Data.Warehouse.System.1484202724

hive hadoop 开发手册

Impala Guide

Hadoop- The Definitive Guide, 3rd Edition.pdf

Sqoop 1.4.6 User Guide：数据库导入与工具详解

Hive数据清洗与ETL流程

最新资源