Hadoop Hive入门：环境配置与常见问题解决

需积分: 9 184 浏览量更新于2024-09-16 收藏 232KB DOCX 举报

Hive是基于Hadoop的数据仓库工具，它提供了一个SQL接口来查询和分析存储在Hadoop分布式文件系统（HDFS）上的大量数据。本文将围绕Hive的安装、部署以及基本操作进行总结。首先，Hive的安装需要具备一定的环境准备。具体来说，你需要Java Development Kit (JDK) 版本1.6及以上，以及Hadoop版本0.20.x或更高。安装过程中，关键步骤包括： 1. **配置环境变量**：在Linux终端中，通过编辑`.bashrc`文件，在其末尾添加Hive和Hadoop的环境变量设置，以便系统能够识别这些工具。 2. **激活设置**：保存并运行`source ~/.bashrc`，使配置生效。 3. **启动Hive shell**：执行`hive`命令，将进入Hive shell界面，这是用户进行数据处理和查询的交互环境。接下来，我们将通过实例演示如何在Hive中进行基本操作。例如，创建表`studyinfo`和`score`，这在数据仓库管理中是非常基础的步骤。此外，我们还会介绍如何使用Perl或其他脚本语言生成测试数据，并将其导入Hive中。在HDFS中查看数据存储是另一个重要环节，通过`hadoop dfs`命令可以检查数据是否已成功加载。然而，可能会遇到错误，如`FAILED:HiveInternalError: java.lang.RuntimeException(ErrorwhilemakingMRscratchdirectory-checkfilesystemconfig(null))`。这个问题通常与Hadoop配置有关，特别是核心配置文件（core-site.xml）中的主机地址问题。解决方法是确保所有机器上`/etc/hosts`文件中master节点的主机名与IP地址匹配，其他配置文件中可以使用IP地址。此外，需要运行`sudo hadoop dfsadmin -safemode leave`命令退出安全模式，然后解压Hive安装包，并正确移动到指定目录。最后，为了使Hive在路径中可见，还需要设置`HIVE_HOME`和`PATH`环境变量。通过一系列的`export`语句，将Hive的主目录添加到系统路径中，确保Hive命令可以正确调用。这篇文章提供了Hive入门级的学习内容，从环境配置到数据操作，以及常见问题的解决方案。这对于理解和使用Hadoop生态系统中的数据仓库管理具有重要意义。通过实践这些步骤，你将能够掌握如何有效地管理和分析大规模数据。

1.Hive 安装

1. 需要环境：

Jdk 1.6

Hadoop 0.20.X

2. 安装步骤：

tar zxvf hive-0.8.1-bin.tar.gz

sudo mkdir /home/hive

cd /home/hive

sudo mv /mnt/hgfs/sharedir/hive-0.8.1-bin ./

3. 配置环境变量

执行：vi ~/.bashrc，在结尾处添加：

export HIVE_HOME=hive 的安装目录

export PATH=${HIVE_HOME}/bin:${PATH}

应用设置执行：source ~/.bashrc

执行 hive 进入 hive shell 界面，如下图所示：

2.测试

1. 创建表 studyinfo 和 score，如下所示：

下载后可阅读完整内容，剩余3页未读，立即下载

bruce_wang_janet

粉丝: 65
资源: 17

Hadoop Hive入门：环境配置与常见问题解决

hive学习必备经典（百度）

hive学习总结 思维导图.xmind

Hadoop Hive入门学习笔记.pdf

Hadoop Hive

Hadoop Hive基础：SQL语法与数据仓库应用

Hadoop Hive SQL基础教程：快速入门与核心语法解析

hadoop hive

hadoop hive spark

hadoop hive spark搭建

Hadoophive数据仓库

最新资源

hive学习总结思维导图.xmind