hive3.1.2 分布式安装 (基于hadoo3.1.3+spark)

时间: 2023-04-25 18:05:22 浏览: 288

伪分布式+hadoop+hive+hbase

4星 · 用户满意度95%

### 伪分布式环境下的Hadoop、Hive及HBase安装与配置 #### 一、概述在当前的大数据处理环境中，Hadoop、Hive以及HBase等技术框架扮演着极其重要的角色。为了更好地理解这些技术如何协同工作，本文将详细介绍在一个伪分布式环境下安装配置Hadoop、Hive和HBase的过程，并特别关注于实现一个简单的数据分析流程。 **伪分布式**是指在一台机器上模拟多台主机的工作状态，每个服务都运行在不同的进程中，这样可以在单台机器上模拟出分布式系统的特性，便于学习和调试。 #### 二、关键技术点详解 ##### 2.1 Hadoop安装与配置 Hadoop的核心组件包括HDFS（Hadoop Distributed File System）和MapReduce。安装步骤如下： - **1.1 安装JDK** - 由于Hadoop依赖于Java环境，首先需要安装JDK。命令行方式可以使用： \[shell\] $ sudo yum install jdk-6u41-linux-amd64.rpm \[shell\] - **1.2 配置Hadoop** - 下载Cloudera的Hadoop仓库文件并配置yum源： \[shell\] $ cd /etc/yum.repos.d/ $ sudo wget http://archive.cloudera.com/cdh4/redhat/6/x86_64/cdh/cloudera-cdh4.repo \[shell\] - 安装Hadoop： \[shell\] $ sudo yum install hadoop-conf-pseudo \[shell\] - 格式化NameNode： \[shell\] $ sudo -u hdfs hadoop namenode -format \[shell\] - 启动HDFS： \[shell\] $ for x in `cd /etc/init.d; ls hadoop-hdfs-*`; do sudo service $x start; done \[shell\] - **1.3 配置临时目录和YARN** - 创建和设置权限： \[shell\] $ sudo -u hdfs hadoop fs -rm -r /tmp $ sudo -u hdfs hadoop fs -mkdir /tmp $ sudo -u hdfs hadoop fs -chmod -R 1777 /tmp $ sudo -u hdfs hadoop fs -mkdir /tmp/hadoop-yarn/staging $ sudo -u hdfs hadoop fs -chmod -R 1777 /tmp/hadoop-yarn/staging $ sudo -u hdfs hadoop fs -mkdir /tmp/hadoop-yarn/staging/history/done_intermediate $ sudo -u hdfs hadoop fs -chmod -R 1777 /tmp/hadoop-yarn/staging/history/done_intermediate $ sudo -u hdfs hadoop fs -chown -R mapred:mapred /tmp/hadoop-yarn/staging $ sudo -u hdfs hadoop fs -mkdir /var/log/hadoop-yarn $ sudo -u hdfs hadoop fs -chown yarn:mapred /var/log/hadoop-yarn \[shell\] - 检查HDFS文件树结构： \[shell\] $ sudo -u hdfs hadoop fs -ls -R / \[shell\] - 启动YARN： \[shell\] $ sudo service hadoop-yarn-resourcemanager start $ sudo service hadoop-yarn-nodemanager start $ sudo service hadoop-mapreduce-historyserver start \[shell\] - **1.4 测试上传文件** - 创建目录并上传文件： \[shell\] $ hadoop fs -mkdir input $ hadoop fs -put /etc/hadoop/conf/*.xml input $ hadoop fs -ls input \[shell\] - 运行示例任务： \[shell\] $ export HADOOP_MAPRED_HOME=/usr/lib/hadoop-mapreduce $ hadoop jar /usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar grep input output 'dfs[a-z.]+' \[shell\] ##### 2.2 Hive安装与配置 Hive是基于Hadoop的数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能。 - **2.1 安装Hive** - 安装Hive通常需要依赖Hadoop环境，确保Hadoop已经正确安装。 - 解压Hive包，并配置hive-site.xml文件，指定Hadoop的路径等配置信息。 - 设置环境变量HIVE_HOME指向Hive安装目录。 - **2.2 初始化Metastore** - 使用Hive自带的脚本初始化Metastore数据库。 \[shell\] $ bin/schematool -initSchema -dbType derby \[shell\] - **2.3 运行Hive** - 使用命令行工具进入Hive shell。 \[shell\] $ bin/hive \[shell\] ##### 2.3 HBase安装与配置 HBase是一个分布式的、面向列的开源数据库，适合处理非常大的表格。 - **3.1 安装HBase** - 安装HBase前，需确保Hadoop和Zookeeper已经安装并配置好。 - 解压HBase包，并编辑配置文件hbase-site.xml，指定Hadoop的路径等配置信息。 - **3.2 启动HBase** - 使用HBase自带的脚本启动HBase服务。 \[shell\] $ bin/start-hbase.sh \[shell\] - **3.3 使用HBase Shell** - 使用HBase自带的命令行工具操作数据。 \[shell\] $ bin/hbase shell \[shell\] #### 三、总结通过以上步骤，我们已经在伪分布式环境下成功安装并配置了Hadoop、Hive和HBase，为后续进行大数据分析提供了必要的基础环境。值得注意的是，在实际生产环境中，还需要考虑更多因素，如集群规模、性能优化等，但上述过程为学习者提供了一个很好的起点。 #### 四、扩展阅读对于更深入的学习需求，可以参考以下链接： - [Cloudera官方文档](http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH4/latest/CDH4-Quick-Start/cdh4qs_topic_3_3.html) - [Impala官方文档](http://www.cloudera.com/content/cloudera-content/cloudera-docs/Impala/latest/Installing-and-Using-Impala/Installing-and-Using-Impala.html) - [Cloudera博客关于Impala](http://blog.cloudera.com/blog/2013/02/from-zero-to-impala-in-minutes/) 这些资源可以帮助读者进一步了解Hadoop生态系统的其他方面和技术细节，比如Impala等高级查询引擎的使用方法。

Hive 3.1.2 分布式安装基于 Hadoop 3.1.3 和 Spark，需要按照以下步骤进行： 1. 安装 Hadoop 3.1.3，配置 Hadoop 的环境变量和配置文件。 2. 安装 Spark，配置 Spark 的环境变量和配置文件。 3. 下载 Hive 3.1.2，解压缩到指定目录。 4. 配置 Hive 的环境变量和配置文件，包括 Hive-site.xml、hive-env.sh、hive-exec-log4j2.properties、hive-log4j2.properties 等。 5. 启动 Hadoop 和 Spark 集群。 6. 启动 Hive 服务，使用命令行或者 Hive Web UI 进行操作。 7. 配置 Hive 的元数据存储，可以选择使用 MySQL 或者 Derby 等数据库。 8. 创建 Hive 表，进行数据的导入和查询操作。以上就是 Hive 3.1.2 分布式安装的基本步骤，需要根据实际情况进行调整和优化。

阅读全文

hive3.1.2 分布式安装 (基于hadoo3.1.3+spark)

相关推荐

搭建Hadoop2.7.7 + Hive2.3.4 + Scala2.10.6 + Spark2.3.4环境

CentOS 7下Java8+MySQL8.0+Hadoop3.2.4+Hive3.1.2集群搭建教程

伪分布式基于hadoop3.1.3生态环境大数据集群

win10下搭建Hadoop环境（jdk+mysql+hadoop+scala+hive+spark） 3.docx

spark-3.1.2-bin-hadoop3.2.zip

Hive on Spark 搭建过程(hvie-3.1.2 spark-2.4.5 hadoop-3.1.3)

Hive3.1.2编译源码

Apache Hive（apache-hive-3.1.3-bin.tar.gz）

flink1.12.0集成或者连接hive3.1.2的依赖包

zookeeper+hadoop+hbase+hive(集成hbase)安装部署教程（超详细）.docx

Docker(Hadoop-3.3.1+HBase-2.4.16+Zookeeper-3.7.1+Hive-3.1.3)配置文件

hive-spark-client-3.1.2.jar

flink-sql-connector-hive-3.1.2_2.11-1.11.6.jar 已经解决guava冲突亲测可以

hive-exec-3.1.2 排除guava

腾讯云上搭建Hive3.1.2详细教程

解决兼容问题：Hive3.1.2源码编译指南

腾讯云上详细教程：手把手搭建Hive 3.1.2

CentOS 7上Hadoop、MySQL、Hive大数据组件安装详解

Hive3.1.2与Hadoop3.1.2的安装配置经验分享

最新推荐

win10下搭建Hadoop环境（jdk+mysql+hadoop+scala+hive+spark） 3.docx

基于Hadoop的数据仓库Hive学习指南.doc

Hadoop+Hive+Mysql安装文档.

Hadoop+Hive+Mysql+Zookeeper+Hbase+Sqoop安装文档

基于CentOS7的Hadoop2.7.7集群部署+hive3.1.1+Tez0.9.1.doc

Elasticsearch核心改进：实现Translog与索引线程分离

管理建模和仿真的文件

病房呼叫系统设计基础：7个关键架构策略让你一步入门

Selenium如何获取Shadow DOM下的元素属性？

分享个人Vim与Git配置文件管理经验