Hive入门指南：基于Hadoop的数据仓库与SQL查询

5星 · 超过95%的资源需积分: 9 70 浏览量更新于2024-07-24 收藏 1.83MB PDF 举报

Hive是大数据处理领域的一个关键组件，它作为Apache Hadoop生态系统的一部分，专为数据仓库设计，旨在简化大规模数据处理和分析。Hive的核心理念是提供一个类似于SQL的查询接口，使得那些习惯于关系型数据库管理的用户能够无缝地访问和操作Hadoop分布式文件系统中的数据。 Hive入门首先需要理解其基本概念。Hive是基于Hadoop的数据仓库基础设施，它并非要求所有的数据都必须遵循特定格式，如Hive自己的格式，实际上，Hive可以与Thrift、控制定界符分隔或自定义格式的数据无缝集成。这种灵活性使得Hive能够处理多样化的数据源。 Hive的主要功能包括数据ETL（提取、转换、加载），这是一个关键步骤，用于清洗、整合和格式化原始数据，以便后续的查询和分析。Hive的查询语言，称为HiveQL（Hive Query Language），类似于SQL，提供了结构化查询能力，使得开发者无需深入理解MapReduce编程模型就能进行基础的数据查询和报表生成。然而，HiveQL并非完整的SQL，它可能没有某些高级特性。对于需要进行更复杂分析的场景，Hive允许用户编写自定义的Mapper和Reducer，这些是MapReduce编程模型中的核心组件，用于执行并行计算。这使得Hive成为一个强大但同时也具有扩展性的工具，可以适应不同业务场景的需求。学习Hive，初学者应该掌握以下几个要点： 1. **Hive环境搭建**：配置Hive服务器，了解Hive Metastore的角色和作用。 2. **HiveQL语法基础**：学习基本的SQL语法，如SELECT, FROM, WHERE, GROUP BY, JOIN等。 3. **数据加载**：理解如何将数据加载到Hive表中，包括内部表、外部表、分区表等。 4. **数据查询与分析**：使用HiveQL执行查询，执行聚合函数、窗口函数等操作。 5. **优化查询性能**：学习如何优化查询计划，如使用索引、分区和桶等。 6. **自定义Mapper和Reducer**：理解何时以及如何编写这些用户扩展的组件来处理特定问题。 Hive是大数据处理世界中连接数据和分析的重要桥梁，无论是数据工程师、数据分析师还是数据科学家，理解和掌握Hive都是必不可少的技能。通过不断实践和深入学习，你可以充分利用Hive的强大功能，进行高效的大规模数据分析。

EXIST

选项来忽略这个异常。

EXTERNAL

关键字可以让用户创建一个外部表，在建表的同时指定一个指向实际数据的路径

（

LOCATION

），

Hive

创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据

所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外

部表只删除元数据，不删除数据。

允许用户复制现有的表结构，但是不复制数据。

用户在建表的时候可以自定义

SerDe

或者使用自带的

SerDe

。如果没有指定

ROW FORMAT

或者

ROW

FORMAT DELIMITED

，将会使用自带的

SerDe

。在建表的时候，用户还需要为表指定列，用户在指定表

的列的同时也会指定自定义的

SerDe

，

Hive

通过

SerDe

确定表的具体的列的数据。

如果文件数据是纯文本，可以使用

STORED AS TEXTFILE

。如果数据需要压缩，使用

STORED AS

SEQUENCE

。

有分区的表可以在创建的时候使用

PARTITIONED BY

语句。一个表可以拥有一个或者多个分区，每一个

分区单独存在一个目录下。而且，表和分区都可以对某个列进行

CLUSTERED BY

操作，将若干个列放入

一个桶（

bucket

）中。也可以利用

SORT BY

对数据进行排序。这样可以为特定应用提高性能。

表名和列名不区分大小写，

SerDe

和属性名区分大小写。表和列的注释是字符串。

Drop Table

删除一个内部表的同时会同时删除表的元数据和数据。删除一个外部表，只删除元数据而保留数据。

Alter Table

Alter table

语句允许用户改变现有表的结构。用户可以增加列

分区，改变

serde

，增加表和

serde

熟悉，表

本身重命名。

Add Partitions

ALTER TABLE table_name ADD

partition_spec [ LOCATION 'location1' ]

partition_spec [ LOCATION 'location2' ] ...

partition_spec:

: PARTITION (partition_col = partition_col_value,

partition_col = partiton_col_value, ...)

用户可以用

ALTER TABLE ADD PARTITION

来向一个表中增加分区。当分区名是字符串时加引号。

ALTER TABLE page_view ADD

PARTITION (dt='2008-08-08', country='us')

location '/path/to/us/part080808'

PARTITION (dt='2008-08-09', country='us')

location '/path/to/us/part080809';

DROP PARTITION

ALTER TABLE table_name DROP

partition_spec, partition_spec,...

用户可以用

ALTER TABLE DROP PARTITION

来删除分区。分区的元数据和数据将被一并删除。

ALTER TABLE page_view

DROP PARTITION (dt='2008-08-08', country='us');

RENAME TABLE

ALTER TABLE table_name RENAME TO new_table_name

这个命令可以让用户为表更名。数据所在的位置和分区名并不改变。换而言之，老的表名并未

“

释放

”

，对

老表的更改会改变新表的数据。

Change Column Name/Type/Position/Comment

ALTER TABLE table_name CHANGE [COLUMN]

col_old_name col_new_name column_type

[COMMENT col_comment]

[FIRST|AFTER column_name]

这个命令可以允许用户修改一个列的名称、数据类型、注释或者位置。

比如：

CREATE TABLE test_change (a int, b int, c int);

ALTER TABLE test_change CHANGE a a1 INT;

将

列的名字改为

a1.

ALTER TABLE test_change CHANGE a a1 STRING AFTER b;

将

列的名字改为

，

列的数据类型改为

string

，并将它放置在列

之后。新的表结构为：

b int, a1 string, c int.

ALTER TABLE test_change CHANGE b b1 INT FIRST;

会将

列的名字修改为

b1,

并将它放在第一列。新

表的结构为：

b1 int, a string, c int.

注意：对列的改变只会修改

Hive

的元数据，而不会改变实际数据。用户应该确定保证元数据定义和实际

数据结构的一致性。

Add/Replace Columns

ALTER TABLE table_name ADD|REPLACE

COLUMNS (col_name data_type [COMMENT col_comment], ...)

ADD COLUMNS

允许用户在当前列的末尾增加新的列，但是在分区列之前。

REPLACE COLUMNS

删除以后的列，加入新的列。只有在使用

native

的

SerDE

（

DynamicSerDe or

MetadataTypeColumnsetSerDe

）的时候才可以这么做。

Alter Table Properties

ALTER TABLE table_name SET TBLPROPERTIES table_properties

table_properties:

: (property_name = property_value, property_name = property_value, ... )

用户可以用这个命令向表中增加

metadata

，目前

last_modified_user

，

last_modified_time

属性都是由

Hive

自动管理的。用户可以向列表中增加自己的属性。可以使用

DESCRIBE EXTENDED TABLE

来获得这些

信息。

Add Serde Properties

ALTER TABLE table_name

SET SERDE serde_class_name

[WITH SERDEPROPERTIES serde_properties]

ALTER TABLE table_name

SET SERDEPROPERTIES serde_properties

剩余35页未读，继续阅读

dly1979

粉丝: 0
资源: 1

Hive入门指南：基于Hadoop的数据仓库与SQL查询

Hive入门指南：基础知识与环境搭建

Hadoop之Hive入门教程：基础概念与操作示例

Hive入门指南：安装部署与数据仓库详解

hive入门.pdf

Hive入门与实战 PDF

Hive入门基础知识.pdf

Hadoop Hive入门学习笔记.pdf

Hive入门与实战

Hive新手学习资料之Hive入门与实战.Hive用户手册hive函数大全中文版打包最新版本

Hive新手学习资料之Hive入门与实战.+Hive用户手册+hive函数大全中文版资源合集

最新资源