cdh6 配置 spark on hive
时间: 2023-08-15 16:27:50 浏览: 163
基于CDH 6.3.0 搭建 Hive on Spark 及相关配置和调优
配置 Spark on Hive需要以下步骤:
1. 首先,安装CDH6和Spark。
2. 确认Hive的配置文件hive-site.xml中配置了以下属性:
```
<property>
<name>hive.execution.engine</name>
<value>spark</value>
</property>
<property>
<name>hive.spark.client.connect.timeout</name>
<value>1000s</value>
</property>
<property>
<name>hive.spark.client.server.connect.timeout</name>
<value>1000s</value>
</property>
<property>
<name>hive.server2.enable.doAs</name>
<value>false</value>
</property>
```
3. 将Spark JAR文件添加到Hive的CLASSPATH中,以便Hive可以使用Spark的库和依赖项。可以在hive-env.sh文件中添加以下行:
```
export HIVE_AUX_JARS_PATH=/path/to/spark/jars/*
```
4. 在Spark的配置文件中,添加以下属性:
```
spark.master yarn
spark.submit.deployMode client
spark.executorEnv.HADOOP_HDFS_HOME=/path/to/hadoop
spark.yarn.jars=hdfs:///path/to/hadoop/share/hadoop/yarn/*,hdfs:///path/to/hadoop/share/hadoop/mapreduce/*
```
5. 启动Hive,并在命令行中运行以下命令:
```
set hive.execution.engine=spark;
```
6. 现在可以在Hive中使用Spark作为执行引擎来运行查询。例如:
```
SELECT COUNT(*) FROM my_table;
```
这将使用Spark作为执行引擎来计算表中的行数。
阅读全文