Apache Hive入门：SQL查询Hadoop大数据

5星 · 超过95%的资源需积分: 30 187 浏览量更新于2024-07-26 收藏 992KB PDF 举报

Hive入门教程深入探讨了Apache Hive这一数据仓库基础设施的核心概念和其在Hadoop生态系统中的角色。Hive作为一个基于Hadoop的数据管理平台，它的主要目标是简化大数据处理和分析的过程。首先，让我们理解Hive的基本定义：它是建立在Hadoop之上，提供了数据仓库的功能，允许用户通过一种类似于SQL的查询语言（HiveQL）来访问和操作存储在Hadoop文件系统中的海量数据。 Hive的核心功能包括数据提取、转换和加载（ETL），这是将非结构化或半结构化的数据转化为可供分析的结构化数据的关键步骤。它支持多种数据格式，包括Thrift、控制定界符（controlled delimiters）以及用户自定义的格式，这意味着数据源的多样性得到了很好的兼容。 HiveQL是Hive的主要查询语言，它设计初衷是让熟悉SQL的用户能够无缝地查询Hadoop环境中的数据。HiveQL语法简洁，易于理解，但同时也具有足够的灵活性，允许程序员利用MapReduce编程模型进行更深层次的定制，例如编写自定义的mapper和reducer，实现那些内置查询语言可能无法满足的复杂分析任务。 Hive的优势在于它能够处理大规模数据，并且无需用户去关心底层数据的具体存储格式，这极大地降低了数据管理和分析的复杂性。然而，值得注意的是，Hive本身并不强制要求数据以特定的Hive格式存储，而是支持多种文件格式，这就为数据集成和迁移提供了更大的灵活性。 Hive入门者需要掌握HiveQL的基础语法，如表创建、数据插入、查询操作以及如何利用Hive的元数据管理系统。同时，理解Hive与Hadoop的交互方式，以及如何在必要时扩展Hive功能以适应特定的分析需求，是学习过程中的重点。开发者指南中的文件格式和SerDe（序列化/反序列化）部分提供了关于如何处理不同数据格式的深入细节，对于进一步提升Hive能力至关重要。

的 HDFS 目录为：/wh/pvs/ds=20090801/ctry=US/part-00000；hash 值为 20 的 HDFS 目录为：

/wh/pvs/ds=20090801/ctry=US/part-00020

External Table 指向已经在 HDFS 中存在的数据，可以创建 Partition。它和 Table 在元数据的

组织上是相同的，而实际数据的存储则有较大的差异。

Table 的创建过程和数据加载过程（这两个过程可以在同一个语句中完成），在加载数据的过程

中，实际数据会被移动到数据仓库目录中；之后对数据对访问将会直接在数据仓库目录中完成。

删除表时，表中的数据和元数据将会被同时删除。

External Table 只有一个过程，加载数据和创建表同时完成（CREATE EXTERNAL

TABLE ……LOCATION），实际数据是存储在 LOCATION 后面指定的 HDFS 路径中，并不会

移动到数据仓库目录中。

Hive（三）

摘要：由于 Hive 采用了 SQL 的查询语言 HQL，因此很容易将 Hive 理解为数据库。

其实

从结构上来看，Hive 和数据库除了拥有类似的查询语言，再无类似之处。本文将

从多个方面来阐述 Hive 和数据库的差异。数据库可以用在 Online 的应用中，但

是

Hive 是为数据仓库而设计的，清楚这一点，有助于从应用角度理解 Hive 的特性。

查询语言 HQL SQL

数据存储位置 HDFS Raw Device 或者 Local FS

数据格式用户定义系统决定

数据更新不支持支持

索引无有

执行 MapRedcue Executor

执行延迟高低

可扩展性高低

数据规模大小

1.查询语言。由于 SQL 被广泛的应用在数据仓库中，因此，专门针对 Hive 的特性

设计了类 SQL 的查询语言 HQL。熟悉 SQL 开发的开发者可以很方便的使用 Hive

进行开发。

2.数据存储位置。Hive 是建立在 Hadoop 之上的，所有 Hive 的数据都是存储在

HDFS 中的。而数据库则可以将数据保存在块设备或者本地文件系统中。

剩余34页未读，继续阅读

xiongzj007

粉丝: 1
资源: 7

Apache Hive入门：SQL查询Hadoop大数据

Hive语法详解

Hive入门基础知识.pdf

Hive简介、Hive基础语法、Hive编程

大数据编程林子雨实验hive安装包apache-hive-3.1.2-bin

apache-hive-1.2.2-src:蜂巢源代码学习-apache source code

Hive简明教程-大数据技术系列

apache-hive-2.1.1-bin

apache-hive-2.1.1-src

apache-hive-1.2.1-src

apache-hive-2.0.0-bin.tar

最新资源