cdh5上离线安装spark2.3并配置hive on spark2

### 回答1： 1. 下载Spark2.3二进制包并解压缩到指定目录下。 2. 配置Spark2.3环境变量，包括SPARK_HOME、PATH等。 3. 在Hive的配置文件hive-site.xml中添加以下配置： <property> <name>hive.execution.engine</name> <value>spark</value> </property> <property> <name>spark.master</name> <value>yarn</value> </property> <property> <name>spark.submit.deployMode</name> <value>client</value> </property> <property> <name>spark.executor.memory</name> <value>2g</value> </property> <property> <name>spark.executor.instances</name> <value>2</value> </property> <property> <name>spark.yarn.queue</name> <value>default</value> </property> 4. 在CDH管理界面中，选择“服务”->“Hive”->“配置”，在“Hive服务高级配置分类”中添加以下配置： hive.spark.client.server.connect.timeout=600 hive.spark.client.connect.timeout=600 hive.spark.client.rpc.max.size=52428800 hive.spark.client.rpc.threads=8 hive.spark.client.rpc.maxRetries=3 hive.spark.client.rpc.retryInterval=3000 5. 重启Hive服务，使配置生效。以上就是在CDH5上离线安装Spark2.3并配置Hive on Spark2的步骤。 ### 回答2： CDH5是Cloudera的企业级Hadoop分布式平台，它包含了Hadoop、Hive、Spark、HBase等大数据生态系统的核心组件。本文将介绍如何在CDH5上离线安装Spark2.3并配置Hive on Spark2。一、下载Spark2.3压缩包首先，在离线环境中下载Spark2.3的二进制压缩包。可以前往Spark的官方网站（https://spark.apache.org/downloads.html）下载，或者在其他可联网的环境中下载后通过U盘等方式复制到离线环境中。二、解压Spark2.3压缩包把下载好的Spark2.3压缩包复制到离线环境中，并解压到指定目录下（例如：/opt/software）。 tar -xzvf spark-2.3.0-bin-hadoop2.7.tgz -C /opt/software 三、配置Spark2.3 1. 配置spark-env.sh 在Spark2.3的解压目录中，会有一个conf目录，里面包含了Spark的一些配置文件。我们需要修改其中的spark-env.sh文件，添加以下内容： export HADOOP_CONF_DIR=/etc/hadoop/conf export SPARK_LOCAL_IP=127.0.0.1 export SPARK_MASTER_HOST=127.0.0.1 export SPARK_MASTER_PORT=7077 其中，HADOOP_CONF_DIR指定的是Hadoop的配置文件所在目录，SPARK_LOCAL_IP是Spark本地IP地址，SPARK_MASTER_HOST指定的是Spark的master节点地址，SPARK_MASTER_PORT指定的是Spark的master节点端口号。 2. 配置spark-defaults.conf 修改spark-defaults.conf文件，添加以下内容： spark.executor.extraClassPath /opt/software/spark-2.3.0-bin-hadoop2.7/jars/* spark.driver.extraClassPath /opt/software/spark-2.3.0-bin-hadoop2.7/jars/* 其中，extraClassPath指定的是Spark j开头的jar包所在的目录。这些jar包包含了Spark运行所需的所有依赖。四、配置Hive on Spark2 在用Spark2.3运行Hive之前，需要先配置Hive on Spark2。此配置步骤需要在Hive安装之前完成。 1. 创建hive-site.xml文件在Hive的conf目录下，创建hive-site.xml文件，并添加以下内容： <property> <name>hive.execution.engine</name> <value>spark</value> <description>选择Hive on Spark2作为执行引擎</description> </property> <property> <name>spark.master</name> <value>spark://127.0.0.1:7077</value> <description>指定Spark的master地址</description> </property> <property> <name>spark.submit.deployMode</name> <value>client</value> <description>指定Spark的deploy模式</description> </property> <property> <name>spark.executor.instances</name> <value>1</value> <description>指定每个任务的executor数量</description> </property> <property> <name>spark.driver.extraClassPath</name> <value>/opt/software/spark-2.3.0-bin-hadoop2.7/jars/*</value> <description>指定Spark的依赖jar包所在的目录</description> </property> 2. 修改hive-exec.jar 在Hive的lib目录下，找到hive-exec.jar包，将其解压，编辑hive-site.xml文件，添加如下内容： <property> <name>hive.execution.engine</name> <value>spark</value> <description>选择Hive on Spark2作为执行引擎</description> </property> <property> <name>hive.spark.client.server.connect.timeout</name> <value>600s</value> <description>指定连接Spark的超时时间</description> </property> 重新生成hive-exec.jar： jar -cf hive-exec.jar . 3. 启动Spark 在Spark的解压目录下，执行以下命令启动Spark： ./sbin/start-all.sh 启动成功后，可以通过以下命令查看Spark的Web UI： http://127.0.0.1:8080 四、启动Hive on Spark2 在完成了Spark和Hive的配置之后，就可以启动Hive on Spark2了。 1. 在Hive的bin目录下，执行以下命令启动Hive： ./hive 2. 运行Hive命令可以执行以下Hive命令测试是否配置成功： hive> show databases; 如果一切正常，将看到当前数据仓库中的所有数据库名称。以上就是在CDH5上离线安装Spark2.3并配置Hive on Spark2的步骤。 ### 回答3： CDH5是一套Hadoop发行版，其中包含了许多大数据组件。在CDH5上离线安装Spark2.3并配置Hive on Spark2需要进行以下步骤：第一步，安装Java和Scala Java和Scala是Spark的预备条件。安装Java和Scala可以通过以下命令: $ sudo yum install java-1.8.0-openjdk $ sudo yum install scala 第二步，下载Spark 2.3 Spark最新的版本是2.3.0。从官方网站上下载Spark 2.3。下载后，将其解压到合适的目录中。例如，解压到/opt目录中： $ sudo tar xzf spark-2.3.0-bin-hadoop2.7.tgz -C /opt/ 第三步，配置Spark的环境变量为了正确的运行Spark，需要设置环境变量。设置环境变量的方法如下： $ cd /opt $ sudo mv spark-2.3.0-bin-hadoop2.7 spark $ nano /etc/profile 将以下语句添加到文件末尾： export SPARK_HOME=/opt/spark export PATH=$PATH:$SPARK_HOME/bin 执行source命令，以便更改生效。 $ source /etc/profile 第四步，安装Hive on Spark2 要在Spark中使用Hive需要配置Hive on Spark2。安装Hive on Spark2可以执行以下命令： $ sudo yum install hive $ cd /opt/spark $ ./sbin/start-thriftserver.sh --master local --hiveconf hive.server2.thrift.port=10000 --hiveconf hive.server2.thrift.bind.host=localhost --hiveconf hive.server2.transport.mode=binary --hiveconf hive.server2.thrift.http.path=cliservice 第五步，使用Spark-shell 安装完Spark和配置完Hive on Spark2，可以使用Spark-shell测试配置是否正确： $ /opt/spark/bin/spark-shell --master yarn --deploy-mode client 如果没有问题，便可以在Spark上使用Hive。总结通过以上步骤，在CDH5上离线安装Spark2.3并配置Hive on Spark2可以成功实现。这项工作的完成让您在现有的底层设施上建立一个强大的大数据处理和分析系统。

阅读全文

cdh5上离线安装spark2.3并配置hive on spark2

相关推荐

spark2.3.1-with-hive

spark2.0编译版-适用于hive2.3的hive on spark

CDH上安装spark2的操作说明

CDH5离线安装和配置指南

cdh配置hive on spark

基于CDH 6.3.0 搭建 Hive on Spark 及相关配置和调优

SPARK2.3.rar

Hive on Spark安装配置详解.pdf

Centos7.4离线安装CDH5.13.0详细图文教程(含Spark2.0)

CDH5离线安装配置详解：Cloudera Manager简化大数据服务管理

CDH 6.3.0下Hive on Spark搭建与调优实战

Centos离线安装CDH5.13.0集群教程（含Spark）

离线安装指南：CDH5.14.x on Centos7.4（含Spark2和Kafka）

CDH5.16.2离线安装教程及完整包下载

CDH 5.15.0 CentOS6 离线安装全攻略

CDH5.15.1离线安装全攻略：从环境到集群

离线安装ClouderaManager5与CDH5详细教程

CDH离线安装软件包存放目录及说明

cdh6 配置 spark on hive

最新推荐

centos7部署cdh5.10.0

CDH5.8+Oryx2.2推荐系统环境搭建

妳那伊抹微笑_云计算之ClouderaManager以及CHD5.1.0集群部署安装文档V1.0.docx

一个使用Androidstudio开发的校园通知APP

GitHub图片浏览插件：直观展示代码中的图像

管理建模和仿真的文件

【OPPO手机故障诊断专家】：工程指令快速定位与解决

求[100，900]之间相差为12的素数对（注：要求素数对的两个素数均在该范围内）的个数

Android IPTV项目：直播频道的实时流媒体实现

"互动学习：行动中的多样性与论文攻读经历"