Spark on YARN集群模式搭建全攻略

80 浏览量更新于2024-09-02 收藏 387KB PDF 举报

"Spark环境搭建——on yarn集群模式" Spark on YARN集群模式的搭建教程主要涉及以下几个关键步骤和概念： 1. 准备工作在搭建Spark on YARN集群模式前，首先要确保Hadoop环境已经正确安装并启动，包括HDFS（Hadoop分布式文件系统）和YARN（Yet Another Resource Negotiator，资源调度器）。由于Spark应用是在YARN上运行的，因此Hadoop的这两个组件是必不可少的基础设施。 2. 安装单机版Spark 尽管我们需要在YARN集群上运行Spark应用，但并不意味着我们需要在每个节点上都安装完整的Spark集群。只需要一个单机版的Spark，用于提交任务到YARN。这个单机版Spark提供了`spark-shell`和`spark-submit`等命令，用于与YARN交互。 3. 配置修改在配置Spark环境时，需要在`spark-env.sh`文件中添加`HADOOP_CONF_DIR`环境变量，该变量指定了Hadoop配置文件的路径。这样Spark才能正确地与Hadoop通信。例如： ``` export HADOOP_CONF_DIR=/export/servers/hadoop/etc/hadoop ``` 4. 集群模式（Cluster Mode） - Cluster模式是Spark on YARN的一种部署方式，适用于企业生产环境。在这种模式下，Driver程序并不运行在提交任务的工作站上，而是作为一个YARN的应用管理器（Application Manager）在集群内部运行。Driver与Executor都在YARN集群内，提高了数据处理的效率和隔离性。 5. Driver的角色 Driver是执行Spark应用的主程序，它负责运行`main()`函数，并创建SparkContext对象，从而初始化整个Spark应用。在Cluster模式下，Driver由YARN负责管理和调度。 6. 提交任务（spark-submit）使用`spark-submit`命令将Spark应用提交到YARN集群。例如： ``` /export/servers/spark/bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master yarn \ --deploy-mode cluster \ --driver-memory 1g \ --executor-memory 1g \ --executor-cores 2 \ --queue ... ``` 这里，`--master`参数指定使用YARN作为Master，`--deploy-mode cluster`表示使用Cluster模式，其他参数如`--driver-memory`、`--executor-memory`和`--executor-cores`分别设置Driver和Executor的内存和核心数量。 7. Client模式与Cluster模式的区别 - Client模式下，Driver程序运行在提交任务的工作站上，与YARN通信的职责由提交任务的工作站承担。这种方式适用于交互式应用或者调试，因为它允许快速反馈，但可能不适合大规模生产环境。 - Cluster模式则更适合大规模处理，因为Driver运行在YARN内部，与应用程序的其他部分保持在同一集群中，降低了网络延迟，提高了整体性能和容错性。通过以上步骤，可以成功地在YARN集群上搭建并运行Spark应用，充分利用Hadoop的资源管理和调度能力。理解并掌握这些知识点对于进行大数据处理和分析至关重要。

Spark环境搭建环境搭建——on yarn集群模式集群模式

本篇博客，Alice为大家带来关于如何搭建Spark的on yarn集群模式的教程。

文章目录文章目录准备工作cluster模式client模式[了解]两种模式的区别

官方文档:

http://spark.apache.org/docs/latest/running-on-yarn.html

准备工作准备工作

安装启动Hadoop(需要使用HDFS和YARN，已经ok)

安装单机版Spark(已经ok)

注意：不需要集群，因为把Spark程序提交给YARN运行本质上是把字节码给YARN集群上的JVM运行，但是得有一个东西帮

我去把任务提交上个YARN，所以需要一个单机版的Spark，里面的有spark-shell命令，spark-submit命令

修改配置:

在spark-env.sh ，添加HADOOP_CONF_DIR配置，指明了hadoop的配置文件的位置

vim /export/servers/spark/conf/spark-env.sh

加入下面的声明，把路径改为自己hadoop对应的路径

export HADOOP_CONF_DIR=/export/servers/hadoop/etc/hadoop

cluster模式模式

说明

在企业生产环境中大部分都是cluster部署模式运行Spark应用

Spark On YARN的Cluster模式指的是Driver程序运行在YARN集群上

补充Driver是什么:

The process running the main() function of the application and creating the SparkContext

运行应用程序的main()函数并创建SparkContext的进程

图解

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38642285

粉丝: 5

Spark on YARN集群模式搭建全攻略

Sparkonyarn集群搭建详细过程.pdf

Spark实验：On Yarn模式安装部署（带答案）1

拥抱大数据——初识Hadoop，轻松应对海量数据存储与分析所带来的挑战

零基础入门：构建Spark集群实战指南

SparkCore Scala单词计数实验：李志毅

Hadoop集群搭建与操作：实践Hadoop生态系统的构建

【Hive与Spark集成深度分析】：交互式查询与大数据处理的优势互补

大数据中职技能比赛环境部署

springboot应急救援物资管理系统.zip

遥感图像处理-YOLOv11改进版在卫星船舶识别中的应用.pdf

最新资源