Hadoop上搭建Hive数据仓库：从入门到多用户部署

hive学习资料，hive中文资料

3星 · 超过75%的资源需积分: 10 143 浏览量更新于2024-07-31 收藏 678KB DOCX 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

"这篇文档是关于Hive的学习资料，提供了Hive的中文介绍，并且包含如何搭建和配置Hive环境的步骤。" Hive是一个基于Hadoop的数据仓库工具，它允许用户通过使用类SQL（HQL）语言进行数据查询、分析和管理分布式存储的大数据集。Hive的主要设计目标是简化大数据处理，为非Java开发人员提供一种更友好的方式来处理Hadoop上的数据。它的出现使得数据分析人员可以无需深入理解MapReduce编程模型，就能高效地对海量数据进行操作。在文中，作者首先介绍了Hive的基本概念，强调了它作为数据仓库平台的角色以及与Hadoop的紧密关系。HQL（Hive Query Language）是Hive的核心，它允许用户以SQL的方式来查询Hadoop集群中的数据，将复杂的MapReduce转换为简洁的查询语句。接着，文档展示了如何在3台机器组成的Hadoop集群上快速搭建Hive环境。初始的简单部署方案是利用Hadoop自带的Hive-0.3.0版本，只需启动Hadoop和Hive的命令行接口。这种方式适用于单用户测试，但由于使用了Derby的嵌入式数据库，因此不支持多用户并发访问，不适合生产环境。为了创建一个多用户访问且带有Web界面的Hive部署，文档推荐使用Hive-0.4.1版本。首先，需要从Apache Hive的版本库中下载相应版本，然后修改编译选项文件shims/ivy.xml，确保与已安装的Hadoop-0.19.2版本兼容。在完成这些配置后，可以进行编译和安装，以便为多个用户提供服务。在多用户部署中，Hive通常会连接到如MySQL或PostgreSQL这样的外部元数据存储，以实现多用户并发访问。此外，Hive Web界面（WebHCat，以前称为HiveServer）可以提供HTTP接口，允许用户通过Web浏览器或其他远程客户端与Hive交互。这份资料提供了Hive的基础知识和实践操作指导，对于初学者和需要搭建Hive环境的人来说是非常有价值的。通过学习和实践，读者将能够理解和掌握如何在Hadoop集群上设置和使用Hive，从而更有效地进行大数据分析任务。

资源详情

资源推荐

其次，Hive 中所有的数据都存储在 HDFS 中，Hive 中包含以下数据模型：

Table，External Table，Partition，Bucket。

1. Hive 中的 Table 和数据库中的 Table 在概念上是类似的，每一个

Table 在 Hive 中都有一个相应的目录存储数据。例如，一个表 pvs，它

在 HDFS 中的路径为：/wh/pvs，其中，wh 是在 hive-site.xml 中由

${hive.metastore.warehouse.dir} 指定的数据仓库的目录，所有的

Table 数据（不包括 External Table）都保存在这个目录中。

2. Partition 对应于数据库中的 Partition 列的密集索引，但是 Hive 中

Partition 的组织方式和数据库中的很不相同。在 Hive 中，表中的一个

Partition 对应于表下的一个目录，所有的 Partition 的数据都存储在对

应的目录中。例如：pvs 表中包含 ds 和 city 两个 Partition，则对应

于 ds = 20090801, ctry = US 的 HDFS 子目录为：

/wh/pvs/ds=20090801/ctry=US；对应于 ds = 20090801, ctry

= CA 的 HDFS 子目录为；/wh/pvs/ds=20090801/ctry=CA

3. Buckets 对指定列计算 hash，根据 hash 值切分数据，目的是为了并

行，每一个 Bucket 对应一个文件。将 user 列分散至 32 个

bucket，首先对 user 列的值计算 hash，对应 hash 值为 0 的

HDFS 目录为：/wh/pvs/ds=20090801/ctry=US/part-00000；

hash 值为 20 的 HDFS 目录为：

/wh/pvs/ds=20090801/ctry=US/part-00020

4. External Table 指向已经在 HDFS 中存在的数据，可以创建 Partition。

它和 Table 在元数据的组织上是相同的，而实际数据的存储则有较大的

差异。

� Table 的创建过程和数据加载过程（这两个过程可以在同一个语句中完

成），在加载数据的过程中，实际数据会被移动到数据仓库目录中；之后

对数据对访问将会直接在数据仓库目录中完成。删除表时，表中的数据

和元数据将会被同时删除。

� External Table 只有一个过程，加载数据和创建表同时完成（CREATE

EXTERNAL TABLE ……LOCATION），实际数据是存储在 LOCATION

后面指定的 HDFS 路径中，并不会移动到数据仓库目录中。当删除一个

External Table 时，仅删除

摘要：由于 Hive 采用了 SQL 的查询语言 HQL，因此很容易将 Hive 理解为

数据库。其实

从结构上来看，Hive 和数据库除了拥有类似的查询语言，再无类似之处。本文

将

从多个方面来阐述 Hive 和数据库的差异。数据库可以用在 Online 的应用中，

但是

Hive 是为数据仓库而设计的，清楚这一点，有助于从应用角度理解 Hive 的特

性。

剩余28页未读，继续阅读

shuifeng11

粉丝: 0
资源: 13

Hadoop上搭建Hive数据仓库：从入门到多用户部署

hive的学习资料

hive学习资料大全 实战优化资源

HIVE资料.zip

向我提供一些hive sql资料

我该怎么学习hive sql

在线学习hive sql

hive 完整体系的学习

give a hive tutor

Hive SQL和hive

hive 启动报错ignor hive default

sparksql连接hive，找不到hive数据库或hive表

hive1.0 hive3.0 区别

hive无法显示中文

sqoop 导入hive 指定hive用户名和密码

运行hive语句必须启动hive吗

hive中文乱码如何解决

hive1.0 与hive3.0 区别

输入hive进入不显示hive

怎样自学Hive数据库

hive用户手册pdf

最新资源

hive学习资料大全实战优化资源