Hadoop数据仓库：Apache Hive入门与HQL解析

4星 · 超过85%的资源需积分: 30 129 浏览量更新于2024-07-25 收藏 992KB PDF 举报

"Apache Hive是一个基于Hadoop的数据仓库工具，它为大数据集的存储、查询和分析提供了便捷的途径。Hive引入了一种SQL-like的语言，称为HiveQL（HQL），使得用户即使不熟悉MapReduce也能对数据进行操作。此外，Hive允许高级开发者插入自定义的Mapper和Reducer，以实现更复杂的分析任务。Hive并不限定数据的读写格式，它可以处理Thrift、控制分隔符或任何特殊的数据格式。" 在深入理解Hive之前，我们先来概述一下Hadoop。Hadoop是一个分布式计算框架，主要用于处理和存储海量数据。Hive则是构建在Hadoop之上的，它将复杂的MapReduce作业转换成简单的HQL语句，降低了大数据分析的门槛。 Hive的主要功能包括： 1. **数据仓库基础设施**：Hive可以将各种数据源组织成一个结构化的数据模型，方便数据分析。它允许用户定义表的结构，包括字段名、字段类型以及分区等。 2. **ETL（Extract, Transform, Load）工具**：Hive提供了数据提取、转换和加载的功能，支持数据清洗、格式转换等预处理步骤，便于数据导入到Hadoop集群。 3. **HiveQL（Hive Query Language）**：HQL类似于SQL，但针对大数据环境进行了优化。它允许用户执行创建表、插入数据、查询数据、更新和删除等操作。例如，你可以用HQL执行SELECT、JOIN、GROUP BY等查询。 4. **扩展性**：Hive允许开发者编写自定义Mapper和Reducer，这为处理复杂的数据分析任务提供了可能。如果你发现HQL内置的功能无法满足需求，可以通过这种方式扩展Hive的能力。 5. **数据格式兼容性**：Hive并不强制要求数据按照特定的格式存储。它可以处理Thrift格式、控制分隔符格式，或者你定制的特殊数据格式。这意味着Hive具有很高的灵活性，可以适应各种数据源。 6. **可伸缩性**：由于Hive基于Hadoop，因此它能充分利用Hadoop的分布式计算能力，随着数据量的增长，只需添加更多的节点即可扩展处理能力。 7. **容错性**：Hadoop的副本机制确保了数据的可靠性，Hive则通过Hadoop的这种特性提供了容错性，即使部分节点失败，系统仍能继续运行。 8. **性能优化**：Hive支持多种优化策略，如Hive的编译器会将HQL转换成最优的MapReduce任务，提高查询效率。另外，Hive还可以使用Hadoop的其他组件如HBase进行实时查询优化。在实际应用中，Hive通常用于离线分析，对于需要快速响应的在线查询，可能会选择更合适的技术如Impala或HBase。不过，Hive的简单性和易用性使其成为大数据初学者和分析师的首选工具。通过学习和掌握Hive，你可以更有效地管理和分析存储在Hadoop集群中的海量数据。

的 HDFS 目录为：/wh/pvs/ds=20090801/ctry=US/part-00000；hash 值为 20 的 HDFS 目录为：

/wh/pvs/ds=20090801/ctry=US/part-00020

External Table 指向已经在 HDFS 中存在的数据，可以创建 Partition。它和 Table 在元数据的

组织上是相同的，而实际数据的存储则有较大的差异。

Table 的创建过程和数据加载过程（这两个过程可以在同一个语句中完成），在加载数据的过程

中，实际数据会被移动到数据仓库目录中；之后对数据对访问将会直接在数据仓库目录中完成。

删除表时，表中的数据和元数据将会被同时删除。

External Table 只有一个过程，加载数据和创建表同时完成（CREATE EXTERNAL

TABLE ……LOCATION），实际数据是存储在 LOCATION 后面指定的 HDFS 路径中，并不会

移动到数据仓库目录中。

Hive（三）

摘要：由于 Hive 采用了 SQL 的查询语言 HQL，因此很容易将 Hive 理解为数据库。

其实

从结构上来看，Hive 和数据库除了拥有类似的查询语言，再无类似之处。本文将

从多个方面来阐述 Hive 和数据库的差异。数据库可以用在 Online 的应用中，但

是

Hive 是为数据仓库而设计的，清楚这一点，有助于从应用角度理解 Hive 的特性。

查询语言 HQL SQL

数据存储位置 HDFS Raw Device 或者 Local FS

数据格式用户定义系统决定

数据更新不支持支持

索引无有

执行 MapRedcue Executor

执行延迟高低

可扩展性高低

数据规模大小

1.查询语言。由于 SQL 被广泛的应用在数据仓库中，因此，专门针对 Hive 的特性

设计了类 SQL 的查询语言 HQL。熟悉 SQL 开发的开发者可以很方便的使用 Hive

进行开发。

2.数据存储位置。Hive 是建立在 Hadoop 之上的，所有 Hive 的数据都是存储在

HDFS 中的。而数据库则可以将数据保存在块设备或者本地文件系统中。

剩余34页未读，继续阅读

hanxidong

粉丝: 222
资源: 45

Hadoop数据仓库：Apache Hive入门与HQL解析

Apache Hive入门指南

Apache Hive入门精要

Hadoop之Hive入门教程：基础概念与操作示例

大数据编程林子雨实验hive安装包apache-hive-3.1.2-bin

apache-hive-1.2.2-src:蜂巢源代码学习-apache source code

Hive简明教程-大数据技术系列

apache-hive-1.2.1-src

apache-hive-2.1.1-bin

apache-hive-2.1.1-src

apache-hive-1.2.0-bin.tar

最新资源