揭秘Spark内核：组件、调度与运行流程详解

需积分: 10 121 浏览量更新于2024-07-16 收藏 2.08MB DOCX 举报

Spark内核解析文档深入探讨了Apache Spark这个强大的大数据处理框架的核心运行机制。Spark是一个基于内存计算模型的分布式计算系统，它以其高效性和可扩展性在大数据处理领域备受瞩目。本文档由作者章鹏撰写，旨在帮助学习者理解Spark的内核原理，以便更好地进行代码设计和问题诊断。首先，Spark内核主要包括以下几个关键组件： 1. **Driver**：Spark作业的控制中心，它执行main方法并负责任务的转换（将用户程序转化为任务），任务调度（在Executor间分配任务），监控Executor执行状态，以及通过UI展示查询运行状况。Driver节点在整个Spark作业生命周期中起着核心作用。 2. **Executor**：每个Executor都是一个运行在集群中的JVM实例，负责执行具体的任务。它们是Spark并行计算的基础，每个Executor有自己的内存管理器（BlockManager），用于存储用户程序中的RDD（弹性分布式数据集）。RDD的缓存使得数据能在多个任务中重复利用，提高了计算效率。 Spark的通用运行流程如下： - 用户提交任务到集群，Driver启动并注册应用程序。 - 集群管理器根据任务配置文件分配和启动Executor，确保Driver所需的资源可用。 - Driver开始执行用户提供的main函数，但Spark查询遵循懒加载策略，只有遇到action操作才会触发真正的计算。 - 查询执行时，通过宽依赖分析（Wide Dependency）将任务划分为多个Stage，每个Stage包含一个TaskSet，TaskSet中的任务按本地化原则分发到合适的Executor执行。 - 在任务执行过程中，Executor负责执行任务并将结果返回给Driver，同时维护内存中RDD的缓存，以支持后续计算的快速访问。理解这些核心组件和运行流程对于优化Spark应用程序性能至关重要，掌握它们有助于避免性能瓶颈，提升大数据处理的效率和准确性。此外，通过学习Spark内核，开发者可以更好地定位和解决在项目中遇到的问题，实现更高效的分布式计算。

———————————————

尚硅谷大数据课程之 Spark 内核解析

——————————————

【更多 Java、HTML5、Android、python、大数据资料下载，可访问尚硅谷（中国）官

网下载区】

图 4-1 Actor 模型

Spark 通讯框架中各个组件（ Client/Master/Worker）可以认为是一个个独立的实

体，各个实体之间通过消息来进行通信。具体各个组件之间的关系图如下：

图 4-2 Spark 通讯架构

Endpoint（ Client/Master/Worker）有 1 个 InBox 和 N 个 OutBox（ N>=1，N 取决

于当前 Endpoint 与多少其他的 Endpoint 进行通信，一个与其通讯的其他 Endpoint 对

应一个 OutBox）， Endpoint 接收到的消息被写入 InBox ，发送出去的消息写入

OutBox 并被发送到其他 Endpoint 的 InBox 中。

3.2 Spark 通讯架构解析

Spark 通信架构如下图所示：

———————————————

尚硅谷大数据课程之 Spark 内核解析

——————————————

【更多 Java、HTML5、Android、python、大数据资料下载，可访问尚硅谷（中国）官

网下载区】

图 4-3 Spark 通讯架构

1) RpcEndpoint：RPC 端点，Spark 针对每个节点（ Client/Master/Worker）都称

之为一个 Rpc 端点，且都实现 RpcEndpoint 接口，内部根据不同端点的需求，设计

不同的消息和不同的业务处理，如果需要发送（询问）则调用 Dispatcher；

2) RpcEnv： RPC 上下文环境，每个 RPC 端点运行时依赖的上下文环境称为

RpcEnv；

3) Dispatcher：消息分发器，针对于 RPC 端点需要发送消息或者从远程 RPC

接收到的消息，分发至对应的指令收件箱/发件箱。如果指令接收方是自己则存入收件

箱，如果指令接收方不是自己，则放入发件箱；

4) Inbox ：指令消息收件箱，一个本地 RpcEndpoint 对应一个收件箱， Dispatcher

在每次向 Inbox 存入消息时，都将对应 EndpointData 加入内部 ReceiverQueue 中，另

外 Dispatcher 创建时会启动一个单独线程进行轮询 ReceiverQueue，进行收件箱消息消

费；

5) RpcEndpointRef：RpcEndpointRef 是对远程 RpcEndpoint 的一个引用。当我

们需要向一个具体的 RpcEndpoint 发送消息时，一般我们需要获取到该 RpcEndpoint

的引用，然后通过该应用发送消息。

6) OutBox ：指令消息发件箱，对于当前 RpcEndpoint 来说，一个目标

RpcEndpoint 对应一个发件箱，如果向多个目标 RpcEndpoint 发送信息，则有多个

OutBox 。当消息放入 Outbox 后，紧接着通过 TransportClient 将消息发送出去。消息放入

发件箱以及发送过程是在同一个线程中进行；

7) RpcAddress ：表示远程的 RpcEndpointRef 的地址， Host + Port。

8) TransportClient：Netty 通信客户端，一个 OutBox 对应一个 TransportClient，

TransportClient 不断轮询 OutBox ，根据 OutBox 消息的 receiver 信息，请求对应的远程

TransportServer；

9) TransportServer ： Netty 通信服务端，一个 RpcEndpoint 对应一个

剩余40页未读，继续阅读

wzcwangxiaozhang

粉丝: 1
资源: 46

揭秘Spark内核：组件、调度与运行流程详解

golang解析.docx文件包使用详解

Java解析.docx获取图片位置的Apache POI实现

robot-ooxml：解析.docx和.xlsx至Robot Framework自动化测试

Apache Spark：Spark核心架构解析.docx

招商信诺2020年校园招聘真题及解析.docx.docx

spark环境配置.doc.docx

2022年01月2021年浙江工商大学萨塞克斯人工智能学院招考聘用工作人员冲刺题及答案解析.docx.docx

0919阅读解析.docx

scp命令 解析.docx

0125听力解析.docx

最新资源

scp命令解析.docx