Hive开发入门与实战操作详解

需积分: 16 7 浏览量更新于2024-07-19 收藏 500KB DOC 举报

Hive开发指南是一份详尽的教程，专为初学者和开发人员设计，旨在帮助他们理解和掌握Hive这一数据仓库工具。Hive是基于Hadoop的数据处理框架，主要用于大数据处理和分析。本文档深入解析了Hive的关键组成部分、基本操作、高级特性以及与Hadoop和其他关系数据库的比较。首先，Hive架构部分介绍了Hive与Hadoop的关系，强调了Hive作为Hadoop生态系统的一部分，提供了一种SQL-like查询接口，使得非技术背景的用户也能轻松操作大规模数据。它还区分了Hive与传统关系型数据库的区别，如Hive使用的是元数据库（包括DERBY和MySQL）来存储元数据，而Hive的数据存储主要在Hadoop的HDFS上。接着，文档详细讲解了Hive的基本操作，包括创建表（CREATE TABLE）、ALTER TABLE的各种操作（如添加分区、修改表结构等）、创建视图（CREATE VIEW）、常用SQL命令（如SHOW、LOAD和INSERT）、以及交互式CLI的使用。此外，还包括了数据插入的多种方式，如从其他查询结果或直接写入文件系统，并介绍了如何通过Hive命令行选项、Python或shell脚本进行扩展。 Hive的SELECT语句部分，重点讲解了GROUP BY和ORDER BY操作，这对于数据分析中的聚合和排序至关重要。此外，文档还涉及到了JOIN操作，这是数据处理中的核心环节，以及Hive如何通过MapReduce模型执行复杂的并行计算。参数设置部分阐述了如何调整Hive的工作模式和性能，以便优化查询执行。Hive User Defined Functions (UDF)则介绍了内置函数、数学函数、字符串处理函数等各种操作符和功能，帮助开发者自定义Hive的计算能力。对于进阶者，Hive的Map/Reduce功能深入剖析了JOIN操作在分布式环境中的实现，GROUP BY的原理，以及如何利用分布式计算优势处理大量数据的分布性和并行性。这份Hive开发指南不仅覆盖了基础知识，还包含了实用技巧和高级特性，无论是入门学习还是进阶实践，都能提供有价值的参考。通过学习和实践，读者可以熟练掌握Hive，有效地处理和分析大规模数据。

=20100801/ctry=US/part-00000；hash 值为 20 的 HDFS 目录为：/

warehouse /xiaojun/dt =20100801/ctry=US/part-00020

4. External Table 指向已经在 HDFS 中存在的数据，可以创建 Partition。它和 Table 在

元数据的组织上是相同的，而实际数据的存储则有较大的差异。

 Table 的创建过程和数据加载过程（这两个过程可以在同一个语句中完成），在加

载数据的过程中，实际数据会被移动到数据仓库目录中；之后对数据对访问将会直

接在数据仓库目录中完成。删除表时，表中的数据和元数据将会被同时删除。

 External Table 只有一个过程，加载数据和创建表同时完成（CREATE EXTERNAL

TABLE ……LOCATION），实际数据是存储在 LOCATION 后面指定的 HDFS 路

径中，并不会移动到数据仓库目录中。当删除一个 External Table 时，仅删除

1.6其它 HIVE 操作

#、启动 6 的 + 的界面

>S6H4C C>))>,

$、查看 !" 上的文件数据

>()-CCC(CH(CC(T>

2. HIVE 基本操作

2.1create table

2.1.1 总述

 77+创建一个指定名字的表。如果相同名字的表已经存在，则抛出异常；

用户可以用 "34U选项来忽略这个异常。

 U37关键字可以让用户创建一个外部表，在建表的同时指定一个指向实际数据

的路径（4743），创建内部表时，会将数据移动到数据仓库指向的路径；

若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时



候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。

 :允许用户复制现有的表结构，但是不复制数据。

 用户在建表的时候可以自定义 !或者使用自带的 !。如果没有指定 4

"47或者 4"47!!，将会使用自带的 !。在建表的时

候，用户还需要为表指定列，用户在指定表的列的同时也会指定自定义的

!，通过 !确定表的具体的列的数据。

 如果文件数据是纯文本，可以使用 4!7U"。如果数据需要压缩，使

用 4!73。

 有分区的表可以在创建的时候使用 8743!+=语句。一个表可以拥有一个或

者多个分区，每一个分区单独存在一个目录下。而且，表和分区都可以对某个列进行

!+=操作，将若干个列放入一个桶（ D）中。也可以利用 4

+=对数据进行排序。这样可以为特定应用提高性能。

 表名和列名不区分大小写，!和属性名区分大小写。表和列的注释是字符串。

2.1.2 语法

7VU37W7+V"34UW H

VNHHV43HW...OW

V43 HW

V8743!+=NHHV43

HW...OW

V!+=NHH...OV4!+=NH

V7T!W...OW34H D+:W

V

V4"47,H(WV4!7XH(W

T4!+=LA.>..LV

!848N...OWN3B A,>1.;.1O

W

V4743>(H>W

V+848NHJH...OWN3B

 A,>1.;.1O

V7HWN3B>( A

,>1.9.1.O

7VU37W7+V"34UW H

:-AH H

V4743>(H>W

H

BH

TH



TH

TH

H

B3=3

T73

T3

T+M3

T+4473

T"47

T!4+

T3M

H

B77=EHF

H

B78EHHF

H

BEHBHV43HW...F

,H(

B!!V"!37!+=>WV443

37!+=>W

V78:=37!+=>WV337!+=>W

T!HV!848

NHJH

HJH...OW

XH(B

B3"

TU"

T"N3B A,>1.;.1O

T38"47H(H48"47

H(H

目前在 > 中常用的数据类型有B

+M3Y主要用于状态类别数量的字段

如 CCC

!4+Y主要用于金额的字段如 (CC 



剩余63页未读，继续阅读

zhangjs780206

粉丝: 0
资源: 6

Hive开发入门与实战操作详解

Hive编程指南 PDF 中文高清版

设计开发 Hive 编程指南 完整版

eclipse集成hadoop+spark+hive开发源码实例

hive开发指南 -1.0.pdf

《Hive的开发指南》

Hive编程指南

hive安装指南

Hive权威指南

hivesql开发指南

hive开发资料

最新资源

设计开发 Hive 编程指南完整版