Hadoop之上的数据仓库：Hive深度解析

4星 · 超过85%的资源需积分: 9 105 浏览量更新于2024-07-22 收藏 1.83MB PDF 举报

"Hive是基于Hadoop的数据仓库基础设施，提供数据ETL工具，支持类SQL查询语言QL，允许用户对存储在Hadoop文件中的大规模数据进行分析。Hive不强制特定的数据读写格式，可以适应各种数据格式。" Hive是大数据处理领域中的一个重要组件，它主要用于管理和分析海量数据。Hadoop作为分布式计算的基础框架，处理能力强大，但直接操作Hadoop并不适合非程序员或者对MapReduce不熟悉的业务分析师。Hive的出现解决了这个问题，它为Hadoop添加了一层抽象，使得数据处理更加简单和高效。 Hive的核心功能包括以下几个方面： 1. **数据仓库基础设施**：Hive将Hadoop文件系统（HDFS）中的数据组织成逻辑上的表结构，方便用户进行数据操作。它提供了一个元数据模型，用于描述数据的结构和属性，如字段名、类型和分区等。 2. **ETL（Extract, Transform, Load）工具**：Hive提供了数据导入和导出的工具，可以将多种格式的数据转换并加载到Hadoop集群中，同时也支持将处理后的数据导出到其他系统。 3. **类SQL查询语言（Hive QL）**：Hive QL是一种类似于SQL的语言，它简化了对Hadoop数据的查询和分析。用户无需编写MapReduce程序，就能执行复杂的查询操作。Hive QL支持聚合、分组、排序等多种SQL操作。 4. **可扩展性**：Hive允许开发者编写自定义的Mapper和Reducer，以实现更复杂的分析任务，这为有编程背景的用户提供了一定的灵活性。 5. **数据格式的灵活性**：Hive不强制使用特定的数据格式，可以处理Thrift、控制分隔符或任何自定义的数据格式。这意味着用户可以根据实际需求选择最适合的数据存储方式。 6. **性能优化**：Hive通过优化查询计划，如Hive的优化器（Hive Optimizer）会生成最高效的MapReduce作业来执行查询。此外，Hive还支持存储过程和视图，进一步提高了数据处理的效率。 7. **分区和桶**：为了提高查询性能，Hive支持数据分区和桶的概念。分区允许用户只扫描部分数据，桶则可以提高查询的并行度，加速JOIN操作。 8. **容错性**：由于Hive基于Hadoop，它继承了Hadoop的高容错性。如果某个节点失败，任务会被重新分配到其他节点执行。 9. **与其它大数据组件的集成**：Hive可以与HBase、Pig、Spark等其他大数据工具集成，构建更强大的数据分析平台。总结来说，Hive是面向大数据分析的利器，它降低了对Hadoop数据操作的门槛，提供了灵活的数据处理方式，使得业务人员和分析师能够更便捷地进行数据探索和洞察。通过学习和掌握Hive，可以极大地提升大数据项目的效率和价值。

EXIST

选项来忽略这个异常。

EXTERNAL

关键字可以让用户创建一个外部表，在建表的同时指定一个指向实际数据的路径

（

LOCATION

），

Hive

创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据

所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外

部表只删除元数据，不删除数据。

允许用户复制现有的表结构，但是不复制数据。

用户在建表的时候可以自定义

SerDe

或者使用自带的

SerDe

。如果没有指定

ROW FORMAT

或者

ROW

FORMAT DELIMITED

，将会使用自带的

SerDe

。在建表的时候，用户还需要为表指定列，用户在指定表

的列的同时也会指定自定义的

SerDe

，

Hive

通过

SerDe

确定表的具体的列的数据。

如果文件数据是纯文本，可以使用

STORED AS TEXTFILE

。如果数据需要压缩，使用

STORED AS

SEQUENCE

。

有分区的表可以在创建的时候使用

PARTITIONED BY

语句。一个表可以拥有一个或者多个分区，每一个

分区单独存在一个目录下。而且，表和分区都可以对某个列进行

CLUSTERED BY

操作，将若干个列放入

一个桶（

bucket

）中。也可以利用

SORT BY

对数据进行排序。这样可以为特定应用提高性能。

表名和列名不区分大小写，

SerDe

和属性名区分大小写。表和列的注释是字符串。

Drop Table

删除一个内部表的同时会同时删除表的元数据和数据。删除一个外部表，只删除元数据而保留数据。

Alter Table

Alter table

语句允许用户改变现有表的结构。用户可以增加列

分区，改变

serde

，增加表和

serde

熟悉，表

本身重命名。

Add Partitions

ALTER TABLE table_name ADD

partition_spec [ LOCATION 'location1' ]

partition_spec [ LOCATION 'location2' ] ...

partition_spec:

: PARTITION (partition_col = partition_col_value,

partition_col = partiton_col_value, ...)

用户可以用

ALTER TABLE ADD PARTITION

来向一个表中增加分区。当分区名是字符串时加引号。

ALTER TABLE page_view ADD

PARTITION (dt='2008-08-08', country='us')

location '/path/to/us/part080808'

PARTITION (dt='2008-08-09', country='us')

location '/path/to/us/part080809';

DROP PARTITION

ALTER TABLE table_name DROP

partition_spec, partition_spec,...

用户可以用

ALTER TABLE DROP PARTITION

来删除分区。分区的元数据和数据将被一并删除。

ALTER TABLE page_view

DROP PARTITION (dt='2008-08-08', country='us');

RENAME TABLE

ALTER TABLE table_name RENAME TO new_table_name

这个命令可以让用户为表更名。数据所在的位置和分区名并不改变。换而言之，老的表名并未

“

释放

”

，对

老表的更改会改变新表的数据。

Change Column Name/Type/Position/Comment

ALTER TABLE table_name CHANGE [COLUMN]

col_old_name col_new_name column_type

[COMMENT col_comment]

[FIRST|AFTER column_name]

这个命令可以允许用户修改一个列的名称、数据类型、注释或者位置。

比如：

CREATE TABLE test_change (a int, b int, c int);

ALTER TABLE test_change CHANGE a a1 INT;

将

列的名字改为

a1.

ALTER TABLE test_change CHANGE a a1 STRING AFTER b;

将

列的名字改为

，

列的数据类型改为

string

，并将它放置在列

之后。新的表结构为：

b int, a1 string, c int.

ALTER TABLE test_change CHANGE b b1 INT FIRST;

会将

列的名字修改为

b1,

并将它放在第一列。新

表的结构为：

b1 int, a string, c int.

注意：对列的改变只会修改

Hive

的元数据，而不会改变实际数据。用户应该确定保证元数据定义和实际

数据结构的一致性。

Add/Replace Columns

ALTER TABLE table_name ADD|REPLACE

COLUMNS (col_name data_type [COMMENT col_comment], ...)

ADD COLUMNS

允许用户在当前列的末尾增加新的列，但是在分区列之前。

REPLACE COLUMNS

删除以后的列，加入新的列。只有在使用

native

的

SerDE

（

DynamicSerDe or

MetadataTypeColumnsetSerDe

）的时候才可以这么做。

Alter Table Properties

ALTER TABLE table_name SET TBLPROPERTIES table_properties

table_properties:

: (property_name = property_value, property_name = property_value, ... )

用户可以用这个命令向表中增加

metadata

，目前

last_modified_user

，

last_modified_time

属性都是由

Hive

自动管理的。用户可以向列表中增加自己的属性。可以使用

DESCRIBE EXTENDED TABLE

来获得这些

信息。

Add Serde Properties

ALTER TABLE table_name

SET SERDE serde_class_name

[WITH SERDEPROPERTIES serde_properties]

ALTER TABLE table_name

SET SERDEPROPERTIES serde_properties

剩余35页未读，继续阅读

memeyun2000

粉丝: 0
资源: 3

Hadoop之上的数据仓库：Hive深度解析

数据仓库基础构架-Hive随谈

Hive1--HIVE架构.pdf

hive数据仓库搭建

apache-hive-2.3.5-bin.tar.gz

Hive用户指南(Hive_user_guide)_中文版.pdf

数据科学与大数据技术hive安装包

大数据处理平台构架设计说明书.pdf

大数据处理平台构架设计说明书.docx

大数据处理平台构架设计说明书.rar

学习Hive：基础知识、资源收集和分享，数据仓库与传统数据库的区别。

最新资源