Apache Hive：Hadoop数据仓库详解与建表策略

48 浏览量更新于2024-08-28 收藏 430KB PDF 举报

Apache Hive 是一个重要的数据仓库工具，它构建在 Hadoop 之上，专为大规模、结构化数据处理而设计。Hive 的核心优势在于它能够将结构化的数据文件（如文本、JSON 或 Parquet 等格式）映射成类似关系型数据库的表，并使用 HQL（Hive Query Language）进行查询，从而简化数据分析和管理。Hive 以其出色的扩展性和容错能力，被广泛应用于离线数据仓库的构建。 1. Hive 架构： - 存储：Hive 基于 HDFS（Hadoop 分布式文件系统）进行底层存储，支持多种数据格式，包括文本、JSON、Parquet 等。在创建表时，只需要指定列名、分隔符等信息，Hive 自动解析数据。 - 压缩支持：Hive 支持多种压缩格式，如 bzip2、gzip、lzo 和 snappy，其中 parquet + snappy 是常见的存储组合。 - 计算引擎：Hive 最初使用 MapReduce 作为其计算引擎，但为了提高效率，现在也支持 Spark 和 Tez 等其他计算框架。 - 元数据管理：Hive 内置的 Derby 数据库用于存储元数据，但由于并发性能较差且不支持多会话，生产环境中常选择 MySQL 作为元数据存储库。 - 查询执行流程：Hive 查询首先通过解析器、编译器、优化器进行词法和语法分析，然后生成查询计划并存储在 HDFS 中，最后转换为 MapReduce 任务执行。 2. Hive 的建表方式： - 使用 `CREATE [EXTERNAL]TABLE` 语句创建表，可指定表名、列名、数据类型及注释。表可以被标记为外部表，允许数据存储在其他位置。 - 可以根据需要添加分区（`PARTITIONED BY`），集群（`CLUSTERED BY`）以及排序（`SORTED BY`）特性，定义数据的存储逻辑和查询性能优化。 - `ROWFORMAT` 选项用于指定数据在文件中的存储格式，`STORED AS` 用于指定文件格式，`LOCATION` 指定表在 HDFS 的存储路径。 Apache Hive 提供了一种统一的接口来操作和管理大规模的结构化数据，极大地简化了数据仓库的构建和维护。通过了解其架构、建表方式和查询执行机制，开发人员可以更有效地利用 Hadoop 集群进行数据处理和分析。

Apache Hive

编辑推荐编辑推荐:

本文主要讲解了Hive架构、Hive的几种建表方式、Hive的数据类型、内部表和外部

表、Hive的严格模式和非严格模式、Hive JOIN等等相关内容。

本文来自于微信大数据学习与分享，由火龙果软件Anna编辑、推荐。

Apache Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供一种HQL语言进行

查询，具有扩展性好、延展性好、高容错等特点，多应用于离线数仓建设。

1. Hive架构

存储：Hive底层存储依赖于hdfs，因此也支持hdfs所支持的数据存储格式，如text、json、parquet等。当我们将一个文件映射

为Hive中一张表时，只需在建表的时告诉Hive，数据中的列名、列分隔符、行分隔符等，Hive就可以

自动解析数据。

支持多种压缩格式：bzip2、gzip、lzo、snappy等。通常采用parquet+snappy格式存储。

支持计算引擎：原生支持引擎为MapReduce。但也支持其他计算引擎，如Spark、Tez

元数据存储：derby是Hive内置的元数据存储库，但是derby并发性能差且目前不支持多会话。实际生产中，更多的是采用

mysql多为Hive的元数据存储库。

HQL语句执行：解析器、编译器、优化器完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成

的查询计划存储在hdfs中，并在随后转化为MapReduce任务执行。

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38701312

粉丝: 8
资源: 947

Apache Hive：Hadoop数据仓库详解与建表策略

Apache Hive入门指南

探索大数据：Apache Hive 实用指南

Hadoop环境下Apache Hive 4.0.0数据仓库工具分析

apache hive

Apache Hive Essentials

Apache Hive Cookbook

Apache Hive（apache-hive-1.2.2-bin.tar.gz）

Apache Hive（apache-hive-3.1.3-bin.tar.gz）

Apache Hive（apache-hive-2.3.9-bin.tar.gz）

Apache Hive 中文手册_hive_

最新资源