cdh6 配置 spark on hive

时间: 2023-08-15 16:27:50 浏览: 163

基于CDH 6.3.0 搭建 Hive on Spark 及相关配置和调优

### 基于CDH 6.3.0 搭建 Hive on Spark 及相关配置和调优 #### 概述随着大数据技术的发展，Hadoop生态系统不断成熟与完善，其中Apache Hive作为数据仓库工具，支持通过SQL语句进行查询、分析存储在Hadoop文件系统中的大规模数据集。然而，默认情况下，Hive使用MapReduce作为执行引擎，其效率较低，尤其对于迭代式算法等场景，处理速度明显慢于新兴的Spark计算框架。因此，将Hive的执行引擎从MapReduce切换至Spark（Hive on Spark），成为提高大数据处理速度的重要手段之一。 #### 实战经验分享 ##### 配置环境本实战指南基于Cloudera Distribution Including Apache Hadoop (CDH) 6.3.0 版本，并采用Apache Spark 2.4.0作为计算引擎。集群配置包含5个NodeManager节点，每个节点配备62.8GB内存（共64GB）、32核CPU。这样的配置旨在充分利用硬件资源，确保Hive on Spark能够高效运行。 #### 一、配置Spark ##### 1.1 配置Executor内存 Executor是Spark作业运行的基本单位，负责执行具体任务。合理配置Executor内存对提升性能至关重要： - **增加Executor内存**：有助于优化MapJoin等操作，但同时会增加Garbage Collection时间。需要注意的是，在HDFS客户端未实现多写的情况下，过多的Executor可能会导致核心资源浪费。 - **确定Executor核心数**：Cloudera建议设置`spark.executor.cores`为4、5或6，以尽可能减少空闲核心。假设集群共有155个核心，则将`spark.executor.cores`设置为5较为合适，这样可以同时运行31个Executor，每个Executor最多运行5个任务。 - **Executor内存分配**：`spark.executor.memory`设置为8GB，表示Hive在Spark上的每个执行程序的最大Java堆栈内存；`spark.yarn.executor.memoryOverhead`设置为2GB，用于预留额外内存。需要注意的是，两者之和不能超过`yarn.scheduler.maximum-allocation-mb`设置的值，本集群中该值为60GB。 ##### 1.2 配置Driver内存 Driver端是Spark应用程序的主控程序，负责调度任务、监控状态等。虽然Driver端内存不会直接影响性能，但在资源不足时需要适当调整： - `spark.driver.memory`设置为3GB，表示Driver端的最大Java堆内存； - `spark.yarn.driver.memoryOverhead`设置为1GB，用于预留Driver端的额外内存。 ##### 1.3 动态分配Executor 为最大化集群资源利用率，推荐启用动态资源分配功能。这样可以在作业运行过程中根据实际需求动态调整Executor的数量，从而更高效地响应多用户并发查询。 - 设置`spark.executor.instances`到最大值，以便充分发挥集群性能。 - 开启`spark.dynamicAllocation.enabled`参数，实现动态资源分配。 ##### 1.4 设置并行度并行度是指同时运行的任务数量，合理设置可以进一步提升性能： - 输入端，MapTask数量通常等于输入切分数。HiveOnSpark使用CombineHiveInputFormat来控制输入切分，从而优化并行度。 - 可以通过设置`spark.sql.shuffle.partitions`等参数手动调整并行度，确保数据均匀分布，减少数据倾斜。 #### 总结通过以上配置和调优步骤，可以显著提升Hive on Spark的性能，实现更快的数据处理速度。在实践中还需要结合具体应用场景，不断调整优化策略，以达到最佳效果。此外，定期监控集群资源使用情况、调整配置参数，也是保持高性能的关键。

配置 Spark on Hive需要以下步骤： 1. 首先，安装CDH6和Spark。 2. 确认Hive的配置文件hive-site.xml中配置了以下属性： ``` <property> <name>hive.execution.engine</name> <value>spark</value> </property> <property> <name>hive.spark.client.connect.timeout</name> <value>1000s</value> </property> <property> <name>hive.spark.client.server.connect.timeout</name> <value>1000s</value> </property> <property> <name>hive.server2.enable.doAs</name> <value>false</value> </property> ``` 3. 将Spark JAR文件添加到Hive的CLASSPATH中，以便Hive可以使用Spark的库和依赖项。可以在hive-env.sh文件中添加以下行： ``` export HIVE_AUX_JARS_PATH=/path/to/spark/jars/* ``` 4. 在Spark的配置文件中，添加以下属性： ``` spark.master yarn spark.submit.deployMode client spark.executorEnv.HADOOP_HDFS_HOME=/path/to/hadoop spark.yarn.jars=hdfs:///path/to/hadoop/share/hadoop/yarn/*,hdfs:///path/to/hadoop/share/hadoop/mapreduce/* ``` 5. 启动Hive，并在命令行中运行以下命令： ``` set hive.execution.engine=spark; ``` 6. 现在可以在Hive中使用Spark作为执行引擎来运行查询。例如： ``` SELECT COUNT(*) FROM my_table; ``` 这将使用Spark作为执行引擎来计算表中的行数。

阅读全文

cdh6 配置 spark on hive

相关推荐

CDH集群升级Spark2.x详细步骤

CDH安装配置视频教程：从入门到精通

cdh配置hive on spark

基于CDH 6.3.0 搭建 Hive on Spark 及相关配置和调优

cdh5上离线安装spark2.3并配置hive on spark2

Hive on Spark安装配置详解.pdf

cdh继承tez引擎 cdh添加tez引擎 hive引擎增加

【hive on spark Error】return code 30041 from org.apache.hadoop.hive.ql.exec.spark.SparkTask.

hive cdh5.11 tar包

CDH6.3.2之升级spark-3.3.1.doc

hive-1.1.0-cdh5.5.0.tar.gz

hive-1.1.0-cdh5.7.0.tar.gz.rar

hive-1.1.0-cdh5.7.0.tar.gz免费下载

标题 状态 阅读 评论 评论权限 操作 CDH5.5上安装Rhadoop，RStudio server版初始化SparkR

cdh安装手册

离线安装指南：CDH5.14.x on Centos7.4（含Spark2和Kafka）

Spark2与Hadoop集成的Cloudera CDH5.13.3包文件解析

CDH集成Tez：从安装到配置及常见问题解决方案

Sentry与Ranger：CDH6.x平台的权限管理与安全实践

最新推荐

Windows平台下的Fastboot工具使用指南

管理建模和仿真的文件

DLMS规约深度剖析：从基础到电力通信标准的全面掌握

修改代码，使其正确运行

Python机器学习基础入门与项目实践

"互动学习：行动中的多样性与论文攻读经历"

【Shell脚本进阶】：wc命令行数统计的高级用法及解决方案

python编写一个程序，使得根据输入的起点和终点坐标值计算出坐标方位角

Achilles-2 原始压缩包内容解密

关系数据表示学习

标题状态阅读评论评论权限操作 CDH5.5上安装Rhadoop，RStudio server版初始化SparkR