Hive平台搭建教程：从单机嵌入式到多用户web界面

版权申诉

120 浏览量更新于2024-06-24 收藏 678KB DOCX 举报

Hive是一个强大的数据仓库工具，它建立在Hadoop之上，提供了类似于SQL的查询语言HiveQL，使得大规模数据处理变得更加简便。Hive通过将用户的SQL查询转换为MapReduce任务在Hadoop集群中执行，实现了高效的数据提取、转化和加载（ETL）过程。本文主要介绍如何在Hadoop环境中搭建Hive平台。首先，我们假设环境中有三台机器：hadoop1、hadoop2和hadoop3，它们都已经安装了Hadoop-0.19.2，这是一个被Hive广泛支持的版本。在这个版本中，Hadoop本身包含了Hive的早期版本（0.3.0）的文件。最简单的部署方案是使用Hadoop的内置Hive，即derby的嵌入式模式。只需启动Hadoop集群（通过`sh$HADOOP_HOME/bin/start-all.sh`）和Hive（`sh$HADOOP_HOME/contrib/hive/bin/hive`），就可以通过命令行进行Hive操作，适合于测试环境，但因为是单用户且不支持多并发，所以不适合生产环境。为了提高Hive的可用性和扩展性，文章建议采用Hive-0.4.1版本，并采用多用户和Web界面的部署策略。具体步骤包括： 1. 从Apache SVN仓库下载Hive-0.4.1：`svn co http://svn.apache.org/repos/asf/hadoop/hive/tags/release-0.4.1/hive-0.4.1` 2. 修改下载后的shims/ivy.xml文件，确保其与Hadoop-0.19.2版本兼容。具体来说，你需要将ivy.xml中的`<dependency>`标签中的`rev`属性设置为`0.19.2`，并添加相应的Hadoop源代码依赖。完成这些步骤后，你需要构建Hive，这通常涉及运行`ant compile`或`mvn clean install`等构建工具。接着，配置Hive服务，包括启动Hive守护进程（HiveServer2）、Metastore（存储元数据的服务）以及可能的客户端库和Web前端如Hive Web UI。最后，调整防火墙设置以允许外部访问，并确保Hive的授权和安全性设置符合生产环境需求。本文提供了一种从入门到进阶的Hive搭建指南，不仅介绍了快速部署的derby嵌入式模式，还展示了如何提升Hive的可扩展性和用户体验，以适应不同场景下的数据仓库应用。

其次，Hive 中所有的数据都存储在 HDFS 中，Hive 中包含以下数据模型：

Table，External Table，Partition，Bucket。

1. Hive 中的 Table 和数据库中的 Table 在概念上是类似的，每一个

Table 在 Hive 中都有一个相应的目录存储数据。例如，一个表 pvs，它

在 HDFS 中的路径为：/wh/pvs，其中，wh 是在 hive-site.xml 中由

${hive.metastore.warehouse.dir} 指定的数据仓库的目录，所有的

Table 数据（不包括 External Table）都保存在这个目录中。

2. Partition 对应于数据库中的 Partition 列的密集索引，但是 Hive 中

Partition 的组织方式和数据库中的很不相同。在 Hive 中，表中的一个

Partition 对应于表下的一个目录，所有的 Partition 的数据都存储在对

应的目录中。例如：pvs 表中包含 ds 和 city 两个 Partition，则对应

于 ds = 20090801, ctry = US 的 HDFS 子目录为：

/wh/pvs/ds=20090801/ctry=US；对应于 ds = 20090801, ctry

= CA 的 HDFS 子目录为；/wh/pvs/ds=20090801/ctry=CA

3. Buckets 对指定列计算 hash，根据 hash 值切分数据，目的是为了并

行，每一个 Bucket 对应一个文件。将 user 列分散至 32 个

bucket，首先对 user 列的值计算 hash，对应 hash 值为 0 的

HDFS 目录为：/wh/pvs/ds=20090801/ctry=US/part-00000；

hash 值为 20 的 HDFS 目录为：

/wh/pvs/ds=20090801/ctry=US/part-00020

4. External Table 指向已经在 HDFS 中存在的数据，可以创建 Partition。

它和 Table 在元数据的组织上是相同的，而实际数据的存储则有较大的

差异。

� Table 的创建过程和数据加载过程（这两个过程可以在同一个语句中完

成），在加载数据的过程中，实际数据会被移动到数据仓库目录中；之后

对数据对访问将会直接在数据仓库目录中完成。删除表时，表中的数据

和元数据将会被同时删除。

� External Table 只有一个过程，加载数据和创建表同时完成（CREATE

EXTERNAL TABLE ……LOCATION），实际数据是存储在 LOCATION

后面指定的 HDFS 路径中，并不会移动到数据仓库目录中。当删除一个

External Table 时，仅删除

摘要：由于 Hive 采用了 SQL 的查询语言 HQL，因此很容易将 Hive 理解为

数据库。其实

从结构上来看，Hive 和数据库除了拥有类似的查询语言，再无类似之处。本文

将

从多个方面来阐述 Hive 和数据库的差异。数据库可以用在 Online 的应用中，

但是

Hive 是为数据仓库而设计的，清楚这一点，有助于从应用角度理解 Hive 的特

性。

剩余28页未读，继续阅读

小小哭包

粉丝: 1933
资源: 4069

Hive平台搭建教程：从单机嵌入式到多用户web界面

hive开发资料

hive 资料

hive开发资料.pdf

hive-笔记.docx

hive实验报告.docx

Apache Hive 中文手册.docx

阿里巴巴Hive学习笔记.docx

虚拟机Ubuntu+Hadoop+hive安装教程.docx

HIVE-SQL开发规范.docx

hive优化.docx

最新资源