hive on spark 和spark on hive的区别

时间: 2023-11-03 08:51:28 浏览: 196

基于CDH 6.3.0 搭建 Hive on Spark 及相关配置和调优

### 基于CDH 6.3.0 搭建 Hive on Spark 及相关配置和调优 #### 概述随着大数据技术的发展，Hadoop生态系统不断成熟与完善，其中Apache Hive作为数据仓库工具，支持通过SQL语句进行查询、分析存储在Hadoop文件系统中的大规模数据集。然而，默认情况下，Hive使用MapReduce作为执行引擎，其效率较低，尤其对于迭代式算法等场景，处理速度明显慢于新兴的Spark计算框架。因此，将Hive的执行引擎从MapReduce切换至Spark（Hive on Spark），成为提高大数据处理速度的重要手段之一。 #### 实战经验分享 ##### 配置环境本实战指南基于Cloudera Distribution Including Apache Hadoop (CDH) 6.3.0 版本，并采用Apache Spark 2.4.0作为计算引擎。集群配置包含5个NodeManager节点，每个节点配备62.8GB内存（共64GB）、32核CPU。这样的配置旨在充分利用硬件资源，确保Hive on Spark能够高效运行。 #### 一、配置Spark ##### 1.1 配置Executor内存 Executor是Spark作业运行的基本单位，负责执行具体任务。合理配置Executor内存对提升性能至关重要： - **增加Executor内存**：有助于优化MapJoin等操作，但同时会增加Garbage Collection时间。需要注意的是，在HDFS客户端未实现多写的情况下，过多的Executor可能会导致核心资源浪费。 - **确定Executor核心数**：Cloudera建议设置`spark.executor.cores`为4、5或6，以尽可能减少空闲核心。假设集群共有155个核心，则将`spark.executor.cores`设置为5较为合适，这样可以同时运行31个Executor，每个Executor最多运行5个任务。 - **Executor内存分配**：`spark.executor.memory`设置为8GB，表示Hive在Spark上的每个执行程序的最大Java堆栈内存；`spark.yarn.executor.memoryOverhead`设置为2GB，用于预留额外内存。需要注意的是，两者之和不能超过`yarn.scheduler.maximum-allocation-mb`设置的值，本集群中该值为60GB。 ##### 1.2 配置Driver内存 Driver端是Spark应用程序的主控程序，负责调度任务、监控状态等。虽然Driver端内存不会直接影响性能，但在资源不足时需要适当调整： - `spark.driver.memory`设置为3GB，表示Driver端的最大Java堆内存； - `spark.yarn.driver.memoryOverhead`设置为1GB，用于预留Driver端的额外内存。 ##### 1.3 动态分配Executor 为最大化集群资源利用率，推荐启用动态资源分配功能。这样可以在作业运行过程中根据实际需求动态调整Executor的数量，从而更高效地响应多用户并发查询。 - 设置`spark.executor.instances`到最大值，以便充分发挥集群性能。 - 开启`spark.dynamicAllocation.enabled`参数，实现动态资源分配。 ##### 1.4 设置并行度并行度是指同时运行的任务数量，合理设置可以进一步提升性能： - 输入端，MapTask数量通常等于输入切分数。HiveOnSpark使用CombineHiveInputFormat来控制输入切分，从而优化并行度。 - 可以通过设置`spark.sql.shuffle.partitions`等参数手动调整并行度，确保数据均匀分布，减少数据倾斜。 #### 总结通过以上配置和调优步骤，可以显著提升Hive on Spark的性能，实现更快的数据处理速度。在实践中还需要结合具体应用场景，不断调整优化策略，以达到最佳效果。此外，定期监控集群资源使用情况、调整配置参数，也是保持高性能的关键。

Hive on Spark 和 Spark on Hive 都是将 Apache Spark 与 Apache Hive 集成在一起的方法，但是它们的重点不同。 Hive on Spark 是将 Spark 作为 Hive 的执行引擎，使得 Hive 可以使用 Spark 的计算能力来执行 HiveQL 查询。这种方式可以提高 Hive 查询的性能和扩展性，特别是对于复杂的查询和大规模数据集。 Spark on Hive 则是将 Hive 的元数据存储在 Hive Metastore 中，使得 Spark 可以使用 Hive 的元数据来执行 SQL 查询。这种方式可以让 Spark 在执行 SQL 查询时更加灵活和方便，避免了需要重新定义表和分区等元数据的麻烦。因此，两种集成方式的重点不同，选择哪一种取决于你的需求。如果你需要使用 HiveQL 查询大规模数据集，可以选择 Hive on Spark；如果你需要使用 Spark 的计算能力来执行 SQL 查询，可以选择 Spark on Hive。

阅读全文

hive on spark 和spark on hive的区别

相关推荐

Ubuntu 14.04上编译Spark以支持Hive on Spark (1.4.0版)的实施教程

Spark Meetup解析：Hive on Spark与Tachyon实践

Hive on Spark和Spark on Hive区别

Hive on Spark 和 Spark on Hive 区别

hive on spark 和spark on hive

hive on spark和spark on hive

spark on hive和hive on spark

hive on spark 和spark on hive谁更快

hive on spark 和 hive on tez 深入对比

hive on spark 和 spark sql的区别

spark on hive vs hive on spark

总结：hive，hive on spark和sparksql区别

spark on hive和hive on spark哪个效率更高

hive on spark

配置hive on spark spark版本2.4.5 hive版本3.1.2

Hive on spark 失败

hive on spark代码

hive on spark 调优

hive on spark port

最新推荐

Hive on Spark源码分析DOC

win10下搭建Hadoop环境（jdk+mysql+hadoop+scala+hive+spark） 3.docx

数学建模学习资料 姜启源数学模型课件 M04 数学规划模型 共85页.pptx

【大越期货-2024研报】生猪期货早报.pdf

数学建模学习资料 姜启源数学模型课件 M07 差分方程模型 共33页.pptx

JHU荣誉单变量微积分课程教案介绍

管理建模和仿真的文件

【实战篇：自定义损失函数】：构建独特损失函数解决特定问题，优化模型性能

如何在ZYNQMP平台上配置TUSB1210 USB接口芯片以实现Host模式，并确保与Linux内核的兼容性？

Naruto爱好者必备CLI测试应用

数学建模学习资料姜启源数学模型课件 M04 数学规划模型共85页.pptx

数学建模学习资料姜启源数学模型课件 M07 差分方程模型共33页.pptx