Hadoop数据仓库：Hive入门与实战指南

Hive

Hadoop

4星 · 超过85%的资源需积分: 9 176 浏览量更新于2024-07-30 收藏 1.83MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"Hive是基于Hadoop的数据仓库基础设施，提供了数据ETL、结构化数据存储和大规模数据分析的能力。它支持类似SQL的查询语言HQL，方便用户查询，并允许MapReduce开发者自定义处理逻辑进行复杂分析。Hive并不限定数据的读写格式，能够适应各种数据格式，如Thrift、控制分隔符或定制格式。" Hive作为大数据处理领域的重要工具，其主要功能和特点包括以下几个方面： 1. **数据仓库基础设施**：Hive设计的目标是将传统的关系型数据库中的数据仓库概念应用到分布式存储系统Hadoop上，使得用户可以对海量数据进行分析。 2. **数据ETL**：ETL即数据抽取（Extract）、转换（Transform）和加载（Load）。Hive提供了丰富的数据处理函数和操作，便于用户进行数据清洗、转换和加载到Hadoop的HDFS中。 3. **Hive SQL（HQL）**：HQL是Hive的查询语言，类似于SQL，使得不熟悉MapReduce的用户也能便捷地查询和分析数据。HQL支持常见的SQL操作，如SELECT、JOIN、GROUP BY等。 4. **结构化数据处理**：Hive将数据存储在HDFS上，用户需要定义表结构，包括字段名、字段类型等，使得数据具有明确的结构。 5. **可扩展性**：Hive的计算任务通过MapReduce框架执行，充分利用Hadoop的分布式计算能力。当数据量增大时，可以通过增加更多的节点来扩展处理能力。 6. **灵活性**：Hive并不强制数据以特定格式存储，它可以处理Thrift、控制分隔符格式以及用户自定义的数据格式。 7. **容错性**：Hadoop的分布式特性使得Hive具有较高的容错性，即使部分节点故障，系统仍然可以继续运行。 8. **适合批处理**：Hive主要用于离线分析，适合大规模批处理任务，而不是实时或低延迟查询。 9. **插件机制**：Hive允许开发者编写自定义的Mapper和Reducer，以满足特定的分析需求，这些自定义组件可以与HQL结合使用。 10. **集成其他工具**：Hive可以与Hadoop生态系统中的其他工具如Pig、HBase、Spark等无缝集成，构建更复杂的数据处理流程。在学习Hive的过程中，初学者通常会从理解HQL开始，掌握基本的查询语法和操作，然后逐渐了解如何创建表、导入导出数据、执行复杂的联接和聚合操作。随着深入，可以学习如何优化Hive查询性能，比如使用分区、桶表、压缩等技术。此外，了解Hive与其他Hadoop组件的交互也是提升数据分析效率的关键。

资源详情

资源推荐

EXIST

选项来忽略这个异常。

EXTERNAL

关键字可以让用户创建一个外部表，在建表的同时指定一个指向实际数据的路径

（

LOCATION

），

Hive

创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据

所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外

部表只删除元数据，不删除数据。

允许用户复制现有的表结构，但是不复制数据。

用户在建表的时候可以自定义

SerDe

或者使用自带的

SerDe

。如果没有指定

ROW FORMAT

或者

ROW

FORMAT DELIMITED

，将会使用自带的

SerDe

。在建表的时候，用户还需要为表指定列，用户在指定表

的列的同时也会指定自定义的

SerDe

，

Hive

通过

SerDe

确定表的具体的列的数据。

如果文件数据是纯文本，可以使用

STORED AS TEXTFILE

。如果数据需要压缩，使用

STORED AS

SEQUENCE

。

有分区的表可以在创建的时候使用

PARTITIONED BY

语句。一个表可以拥有一个或者多个分区，每一个

分区单独存在一个目录下。而且，表和分区都可以对某个列进行

CLUSTERED BY

操作，将若干个列放入

一个桶（

bucket

）中。也可以利用

SORT BY

对数据进行排序。这样可以为特定应用提高性能。

表名和列名不区分大小写，

SerDe

和属性名区分大小写。表和列的注释是字符串。

Drop Table

删除一个内部表的同时会同时删除表的元数据和数据。删除一个外部表，只删除元数据而保留数据。

Alter Table

Alter table

语句允许用户改变现有表的结构。用户可以增加列

分区，改变

serde

，增加表和

serde

熟悉，表

本身重命名。

Add Partitions

ALTER TABLE table_name ADD

partition_spec [ LOCATION 'location1' ]

partition_spec [ LOCATION 'location2' ] ...

partition_spec:

: PARTITION (partition_col = partition_col_value,

partition_col = partiton_col_value, ...)

用户可以用

ALTER TABLE ADD PARTITION

来向一个表中增加分区。当分区名是字符串时加引号。

ALTER TABLE page_view ADD

PARTITION (dt='2008-08-08', country='us')

location '/path/to/us/part080808'

PARTITION (dt='2008-08-09', country='us')

location '/path/to/us/part080809';

DROP PARTITION

ALTER TABLE table_name DROP

partition_spec, partition_spec,...

用户可以用

ALTER TABLE DROP PARTITION

来删除分区。分区的元数据和数据将被一并删除。

ALTER TABLE page_view

DROP PARTITION (dt='2008-08-08', country='us');

RENAME TABLE

ALTER TABLE table_name RENAME TO new_table_name

这个命令可以让用户为表更名。数据所在的位置和分区名并不改变。换而言之，老的表名并未

“

释放

”

，对

老表的更改会改变新表的数据。

Change Column Name/Type/Position/Comment

ALTER TABLE table_name CHANGE [COLUMN]

col_old_name col_new_name column_type

[COMMENT col_comment]

[FIRST|AFTER column_name]

这个命令可以允许用户修改一个列的名称、数据类型、注释或者位置。

比如：

CREATE TABLE test_change (a int, b int, c int);

ALTER TABLE test_change CHANGE a a1 INT;

将

列的名字改为

a1.

ALTER TABLE test_change CHANGE a a1 STRING AFTER b;

将

列的名字改为

，

列的数据类型改为

string

，并将它放置在列

之后。新的表结构为：

b int, a1 string, c int.

ALTER TABLE test_change CHANGE b b1 INT FIRST;

会将

列的名字修改为

b1,

并将它放在第一列。新

表的结构为：

b1 int, a string, c int.

注意：对列的改变只会修改

Hive

的元数据，而不会改变实际数据。用户应该确定保证元数据定义和实际

数据结构的一致性。

Add/Replace Columns

ALTER TABLE table_name ADD|REPLACE

COLUMNS (col_name data_type [COMMENT col_comment], ...)

ADD COLUMNS

允许用户在当前列的末尾增加新的列，但是在分区列之前。

REPLACE COLUMNS

删除以后的列，加入新的列。只有在使用

native

的

SerDE

（

DynamicSerDe or

MetadataTypeColumnsetSerDe

）的时候才可以这么做。

Alter Table Properties

ALTER TABLE table_name SET TBLPROPERTIES table_properties

table_properties:

: (property_name = property_value, property_name = property_value, ... )

用户可以用这个命令向表中增加

metadata

，目前

last_modified_user

，

last_modified_time

属性都是由

Hive

自动管理的。用户可以向列表中增加自己的属性。可以使用

DESCRIBE EXTENDED TABLE

来获得这些

信息。

Add Serde Properties

ALTER TABLE table_name

SET SERDE serde_class_name

[WITH SERDEPROPERTIES serde_properties]

ALTER TABLE table_name

SET SERDEPROPERTIES serde_properties

剩余35页未读，继续阅读

rsmin

粉丝: 1
资源: 3

Hadoop数据仓库：Hive入门与实战指南

王家林hive学习资料

hive学习资料大全 实战优化资源

Hive学习资料

向我提供一些hive sql资料

hive用户手册pdf

hivesql开发指南

hive数据仓库案例教程习题

基于Hive技术的教育平台数据分析

hive pdf csdn

Cloudera Certified Data Engineer是什么 怎么学习呢

大海哥hadoop笔记

怎样成为数据开发工程师

hadoop the definitive guide epub

hadoop资料合集

尚硅谷hadoop3.x上课资料

尚硅谷大数据技术之高频面试题8.0.9.docx

hadoop大数据实战手册

尚硅谷大数据技术之cm安装.pdf

hadoop权威指南第五版

阿里巴巴 druid官方文档

最新资源

hive学习资料大全实战优化资源

Cloudera Certified Data Engineer是什么怎么学习呢