hive on spark port
时间: 2023-09-03 07:15:01 浏览: 104
Hive on Spark是将Hive SQL查询引擎与Spark计算框架集成起来的一种方式。它通过将Hive中的查询转换为Spark作业来提高查询性能和扩展性。
要在Hive中使用Spark作为计算引擎,需要完成以下步骤:
1. 配置Hive和Spark:需要在Hive配置文件中设置Hive执行引擎为Spark,并配置Spark的相关参数。
2. 启动Spark:需要在Hive启动之前启动Spark,可以使用以下命令启动:
```
$ spark-submit --class org.apache.spark.deploy.ClientApp \
--master yarn \
--deploy-mode client \
--driver-memory 4g \
--executor-memory 2g \
--num-executors 20 \
--executor-cores 2 \
--queue default \
--name "Spark shell" \
/path/to/spark/examples/jars/spark-examples_2.11-2.3.1.jar
```
3. 启动Hive:启动Hive时,需要将Hive执行引擎设置为Spark。可以使用以下命令启动:
```
$ hive --hiveconf hive.execution.engine=spark
```
4. 创建Hive表:在Hive中创建表时,需要将表的存储格式设置为Spark。可以使用以下命令创建表:
```
CREATE TABLE mytable (key INT, value STRING)
STORED AS PARQUET
LOCATION '/user/hive/warehouse/mytable'
TBLPROPERTIES ('spark.sql.sources.provider'='parquet');
```
5. 运行查询:在Hive中运行查询时,查询将被转换为Spark作业。可以使用以下命令运行查询:
```
SELECT * FROM mytable WHERE key = 1;
```
以上是在Hive中使用Spark作为计算引擎的简要介绍,希望能对你有所帮助。
阅读全文