没有合适的资源?快使用搜索试试~ 我知道了~
首页spark:Executor分配详解
spark:Executor分配详解
需积分: 37 18 下载量 148 浏览量
更新于2023-03-16
评论 2
收藏 580KB DOCX 举报
用户应用new SparkContext后,集群就会为在Worker上分配executor,但是增加executor的时候需要考虑好内存消耗,因为一台机器的内存分配给越多的executor,每个executor的内存就越小,以致出现过多的数据spill over甚至out of memory的情况。CPU的core数量,每个executor可以占用一个或多个core,可以通过观察CPU的使用率变化来了解计算资源的使用情况,如此根据CPU的使用情况来分配executor数量,没有固定分配数量模式。
资源详情
资源评论
资源推荐
Spark 技术内幕:Executor 分配详解
Spark Master、Worker、Driver、Executor 工作流程详解
1、Spark 的部署图:
在基于 standalone 的 Spark 集群,Cluster Manger 就是 Master。
Master 负责分配资源,在集群启动时,Driver 向 Master 申请资源,Worker 负责监控自己节点的内存和 CPU 等状况,并向
Master 汇报。
从资源方面,可以分为两个层面:
1)资源的管理和分配
资源的管理和分配,由 Master 和 Worker 来完成。Master 给 Worker 分配资源,
Master 时刻知道 Worker 的资源状况。
客户端向服务器提交作业,实际是提交给 Master。
2)资源的使用
资源的使用,由 Driver 和 Executor。程序运行时候,向 Master 请求资源。
2、Spark 运行示意图:
2.1 图
一个 Worker 默认情况下分配一个 Executor,配置时根据需要也可以配置多个 Executor。一个节点,如果配置了多个
Executor,那么就会涉及到性能调优。
Driver、Master、Worker、Executor,其实它就是 JVM 进程。
图上 Worker 区域用◇形状表示的是:Worker 上有 Executor 的句柄,也就是说 Worker 能开对 Executor 进行控制,必要
时可以 Kill 掉该进程。
从图中可以看到 Driver 和 Executor 之间画了一根线条,表明:程序运行时是直接与 Executor 进行交互的。
我们对图 2.1 进行修改,增加 Spark 事件流,得到下图 2.2:
2.2 图
在 Driver 中,RDD 首先交给 DAGSchedule 进行 Stage 的划分。
然后底层的调度器 TaskScheduler 就与 Executor 进行交互。
Driver 和上图中 4 个 Worker 节点的 Executor 发指令,让它们在各自的线程池中运行 Job。
运行时 Driver 能获得 Executor 的具体运行资源,这样 Driver 与 Executor 之间进行通信,通过网络的方式,Driver 把划分
好的 Task 传送给 Executor,Task 就是我们的 Spark 程序的业务逻辑代码。
Executor 接收任务,进行反序列化,得到数据的输入和输出,在分布式集群的相同数据分片上,数据的业务逻辑一样,只是
数据不一样罢了,然后由 Executor 的线程池负责执行。
编程的 Spark 程序,打包提交到 Driver 端,这样就构成了一个 Driver,
Driver 内部的调度流程,根据算子逻辑的依赖关系,DAGScheduler 来划分成不同的 Stage,每个 Stage 中的计算逻辑是一
样的,只是数据分片不一样。TaskScheduler 向 Executor 发送任务,Executor 反序列化数据之后,也就得到数据的输入和
输出,也就是任务的业务逻辑,Executor 运行的就是我们的业务逻辑代码。
我们整个 Spark 应用程序,可以分成:Driver 和 Executor 两部分。
Driver 由框架直接生成;
Executor 执行的才是我们的业务逻辑代码。
执行的时候,框架控制我们代码的执行。Executor 需要执行的结果汇报给框架也就是 Driver。
3、数据的管理
在 Spark 应用具体执行过程中,会涉及到数据的读取和存储。
在 Executor 中关于数据的管理正是 Spark 的精髓之一。
默认情况下,数据要写到磁盘上。
DAGScheduler 划分了多个 Stage,下一个 Stage 会向 Driver 请求上一个 Stage 的运行结果。这就是 Shu(e 的过程,依
赖于上一个 Stage 全部的结果。前面 Stage 的输出是后面 Stage 的输入。
3.1 图
剩余13页未读,继续阅读
sgt_tiger
- 粉丝: 2
- 资源: 4
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0