Hadoop之上的Hive数据仓库详解

5星 · 超过95%的资源需积分: 9 95 浏览量更新于2024-07-24 收藏 1.83MB PDF 举报

"这是一份关于Hive的中文讲义，涵盖了Hive的基础介绍、安装教程、使用场景和具体实例，旨在帮助读者深入了解Hive在大数据处理中的应用。" Hive是一个构建在Hadoop之上的数据仓库系统，它设计的主要目标是简化对存储在Hadoop文件系统（HDFS）中的大规模数据集的查询和分析。Hive的核心特点是其提供了一个类似SQL的语言——Hive QL，使得熟悉SQL的用户无需学习复杂的MapReduce编程即可进行数据分析。 1. **Hive的基本概念** - **数据仓库基础设施**：Hive作为一个数据仓库，能够将来自不同源的数据整合在一起，方便进行数据管理和分析。 - **ETL（Extract, Transform, Load）**：Hive支持数据的抽取、转换和加载，帮助用户处理数据预处理的过程。 - **Hive QL**：类SQL查询语言，简化了对Hadoop数据的查询操作，支持复杂的聚合和分组等操作。 - **可扩展性**：Hive允许用户插入自定义的Mapper和Reducer，以实现更复杂的数据处理任务。 2. **Hive的架构** - **元数据**：Hive保存了关于数据表结构、分区等元数据信息，通常存储在MySQL或Derby等数据库中。 - **HQL解析器**：接收并解析用户的Hive QL语句，将其转化为MapReduce任务。 - **编译器**：将解析后的任务转换成一系列的MapReduce作业。 - **优化器**：对生成的MapReduce作业进行优化，例如通过合并JOIN操作减少数据传输。 - **执行器**：调度并执行MapReduce任务，将结果返回给用户。 3. **Hive的使用场景** - **离线分析**：Hive主要用于批量处理和分析大量历史数据，而非实时查询。 - **数据报表**：生成各类报表，为企业决策提供数据支持。 - **数据挖掘**：结合其他数据挖掘工具，进行预测分析和模式发现。 - **数据集成**：将来自多种源的数据集成到一个统一的视图中。 4. **Hive的优势与限制** - **优势**：易于使用，支持SQL，适合非结构化和半结构化数据，可扩展性强。 - **限制**：不适合低延迟查询，处理速度较慢，不适用于实时分析。 5. **Hive与Hadoop生态系统的关系** - **Hadoop**：Hive依赖于Hadoop的分布式文件系统（HDFS）存储数据，使用MapReduce进行计算。 - **HBase**：虽然Hive和HBase都是Hadoop生态系统的一部分，但HBase更适合在线、低延迟的随机读写操作，而Hive更偏向于批处理分析。 6. **Hive的安装与配置** - **环境准备**：包括Java、Hadoop的安装和配置。 - **Hive安装**：下载Hive包，设置相关环境变量，创建元数据存储。 - **启动Hive**：启动Hive服务器，通过命令行工具或者Web界面交互。 7. **Hive的实例与应用** - **创建表**：定义表结构，包括字段名、数据类型和分区。 - **数据加载**：将数据从外部源导入到Hive表中。 - **查询操作**：使用Hive QL进行数据查询、筛选、排序、聚合等操作。 - **数据导出**：将处理后的数据导出到其他系统或文件。总结来说，Hive是一个强大的大数据分析工具，它结合了SQL的易用性和Hadoop的分布式计算能力，为企业的大规模数据处理提供了便利。通过学习和掌握Hive，开发者和分析师可以更高效地处理和理解海量数据。

EXIST

选项来忽略这个异常。

EXTERNAL

关键字可以让用户创建一个外部表，在建表的同时指定一个指向实际数据的路径

（

LOCATION

），

Hive

创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据

所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外

部表只删除元数据，不删除数据。

允许用户复制现有的表结构，但是不复制数据。

用户在建表的时候可以自定义

SerDe

或者使用自带的

SerDe

。如果没有指定

ROW FORMAT

或者

ROW

FORMAT DELIMITED

，将会使用自带的

SerDe

。在建表的时候，用户还需要为表指定列，用户在指定表

的列的同时也会指定自定义的

SerDe

，

Hive

通过

SerDe

确定表的具体的列的数据。

如果文件数据是纯文本，可以使用

STORED AS TEXTFILE

。如果数据需要压缩，使用

STORED AS

SEQUENCE

。

有分区的表可以在创建的时候使用

PARTITIONED BY

语句。一个表可以拥有一个或者多个分区，每一个

分区单独存在一个目录下。而且，表和分区都可以对某个列进行

CLUSTERED BY

操作，将若干个列放入

一个桶（

bucket

）中。也可以利用

SORT BY

对数据进行排序。这样可以为特定应用提高性能。

表名和列名不区分大小写，

SerDe

和属性名区分大小写。表和列的注释是字符串。

Drop Table

删除一个内部表的同时会同时删除表的元数据和数据。删除一个外部表，只删除元数据而保留数据。

Alter Table

Alter table

语句允许用户改变现有表的结构。用户可以增加列

分区，改变

serde

，增加表和

serde

熟悉，表

本身重命名。

Add Partitions

ALTER TABLE table_name ADD

partition_spec [ LOCATION 'location1' ]

partition_spec [ LOCATION 'location2' ] ...

partition_spec:

: PARTITION (partition_col = partition_col_value,

partition_col = partiton_col_value, ...)

用户可以用

ALTER TABLE ADD PARTITION

来向一个表中增加分区。当分区名是字符串时加引号。

ALTER TABLE page_view ADD

PARTITION (dt='2008-08-08', country='us')

location '/path/to/us/part080808'

PARTITION (dt='2008-08-09', country='us')

location '/path/to/us/part080809';

DROP PARTITION

ALTER TABLE table_name DROP

partition_spec, partition_spec,...

用户可以用

ALTER TABLE DROP PARTITION

来删除分区。分区的元数据和数据将被一并删除。

ALTER TABLE page_view

DROP PARTITION (dt='2008-08-08', country='us');

RENAME TABLE

ALTER TABLE table_name RENAME TO new_table_name

这个命令可以让用户为表更名。数据所在的位置和分区名并不改变。换而言之，老的表名并未

“

释放

”

，对

老表的更改会改变新表的数据。

Change Column Name/Type/Position/Comment

ALTER TABLE table_name CHANGE [COLUMN]

col_old_name col_new_name column_type

[COMMENT col_comment]

[FIRST|AFTER column_name]

这个命令可以允许用户修改一个列的名称、数据类型、注释或者位置。

比如：

CREATE TABLE test_change (a int, b int, c int);

ALTER TABLE test_change CHANGE a a1 INT;

将

列的名字改为

a1.

ALTER TABLE test_change CHANGE a a1 STRING AFTER b;

将

列的名字改为

，

列的数据类型改为

string

，并将它放置在列

之后。新的表结构为：

b int, a1 string, c int.

ALTER TABLE test_change CHANGE b b1 INT FIRST;

会将

列的名字修改为

b1,

并将它放在第一列。新

表的结构为：

b1 int, a string, c int.

注意：对列的改变只会修改

Hive

的元数据，而不会改变实际数据。用户应该确定保证元数据定义和实际

数据结构的一致性。

Add/Replace Columns

ALTER TABLE table_name ADD|REPLACE

COLUMNS (col_name data_type [COMMENT col_comment], ...)

ADD COLUMNS

允许用户在当前列的末尾增加新的列，但是在分区列之前。

REPLACE COLUMNS

删除以后的列，加入新的列。只有在使用

native

的

SerDE

（

DynamicSerDe or

MetadataTypeColumnsetSerDe

）的时候才可以这么做。

Alter Table Properties

ALTER TABLE table_name SET TBLPROPERTIES table_properties

table_properties:

: (property_name = property_value, property_name = property_value, ... )

用户可以用这个命令向表中增加

metadata

，目前

last_modified_user

，

last_modified_time

属性都是由

Hive

自动管理的。用户可以向列表中增加自己的属性。可以使用

DESCRIBE EXTENDED TABLE

来获得这些

信息。

Add Serde Properties

ALTER TABLE table_name

SET SERDE serde_class_name

[WITH SERDEPROPERTIES serde_properties]

ALTER TABLE table_name

SET SERDEPROPERTIES serde_properties

剩余35页未读，继续阅读

chenjunhui19840422

粉丝: 4

Hadoop之上的Hive数据仓库详解

数据仓库基础构架-Hive随谈

大数据面试题

Hive总结讲义

Hive安装讲义(linux_hive windows_mysql)

Hive安装讲义(linux_hive linux_mysql)

HIVE讲义,HIVE数据库是基于maperesources

Apache Hive 中文手册_hive_

hive

大数据hive、spark讲义，从hdfs读写、yarn管理机制、元数据原理、数据质量管理等，全套架构逻辑梳理

工业大数据分析-HIVE输入与输出教学讲义.docx

最新资源