hive配置spark执行引擎
时间: 2023-10-11 16:07:08 浏览: 172
基于CDH 6.3.0 搭建 Hive on Spark 及相关配置和调优
为了在Hive中使用Spark作为执行引擎,需要进行以下配置:
1. 安装Spark:首先需要在集群中安装Spark,并设置SPARK_HOME环境变量,以便Hive能够找到Spark。
2. 启用Spark支持:在Hive的配置文件hive-site.xml中,需要加入以下配置项:
```
<property>
<name>hive.execution.engine</name>
<value>spark</value>
<description>Execution engine for Hive, either mr or spark</description>
</property>
```
3. 配置Spark参数:在Hive的配置文件hive-site.xml中,可以设置一些关于Spark的参数,例如:
```
<property>
<name>spark.master</name>
<value>yarn</value>
<description>The master URL for the Spark cluster manager</description>
</property>
<property>
<name>spark.executor.memory</name>
<value>4g</value>
<description>Amount of memory per executor process</description>
</property>
```
4. 配置Hive on Spark:如果使用的是Hive on Spark,还需要进行以下配置:
```
<property>
<name>hive.spark.client.connect.timeout</name>
<value>600s</value>
<description>Timeout for Hive client to wait for Spark client to connect</description>
</property>
<property>
<name>hive.spark.client.server.connect.timeout</name>
<value>600s</value>
<description>Timeout for Spark client to connect to Hive client server</description>
</property>
```
以上就是在Hive中配置Spark执行引擎的步骤。需要注意的是,配置参数的具体值需要根据集群的实际情况进行调整。
阅读全文