透过源码解析Flink执行流程：JobManager与任务调度

需积分: 42 90 浏览量更新于2024-08-06 收藏 6.87MB PDF 举报

"这篇文章深入解析了Apache Flink的核心执行流程，从简单的WordCount程序开始，逐步剖析Flink作业在不同模式下的执行、图结构的构建以及任务调度与执行的细节。" 文章首先介绍了Flink的执行环境，包括本地模式和远程模式下的execute方法。在本地模式下，Flink作业直接在当前JVM中执行，而远程模式则需要通过RemoteEnvironment接口将作业提交到集群。执行过程中，Flink作业会经历一系列的图结构转换，从最初的用户程序到最终可执行的ExecutionGraph。接着，文章详细讲解了Flink的图结构，包括三层：StreamGraph、JobGraph和ExecutionGraph。StreamGraph是用户API层面的图，由StreamTransformation（代表流的转换）组成，如WordCount示例中的map和count操作。StreamGraph生成后，会经过优化生成JobGraph，其中包含了operator chain的逻辑，以减少网络传输和提高效率。JobGraph是提交到JobManager进行执行的版本。在任务调度与执行部分，文章提到了JobManager的角色和功能。JobManager作为Flink集群的中心协调者，负责计算资源的调度、作业的提交和管理Task的生命周期。它包含多个组件，如作业管理器、心跳检测、任务调度器等，这些组件协同工作以确保作业的正常运行。JobManager启动TaskManager，TaskManager是实际执行任务的工作节点，它负责接收并执行Task。 TaskManager的执行流程包括生成Task对象、运行Task对象以及StreamTask的执行逻辑。StreamTask是Flink中处理数据的基本单元，它包含了对数据流的处理逻辑。StreamOperator是StreamTask的核心，文章讨论了数据源（StreamSource）、数据处理（OneInputStreamOperator & AbstractUdfStreamOperator）以及数据输出（StreamSink）等StreamOperator的抽象与实现。此外，文章还涉及了Flink的容错机制，如如何保证Exactly-Once语义，并对比了与其他流处理系统的差异，如Storm和Spark Streaming的容错机制。这篇文档通过源码解析，详细阐述了Flink从用户代码到实际执行的全过程，对于理解Flink的内部工作原理极其有价值。

杨_明

粉丝: 80
资源: 3862

透过源码解析Flink执行流程：JobManager与任务调度

JobManager-开源

job manager

Python库 | jobmanager-client-0.8.4.zip

Flink Yarn-Per-Job中，applicationmaster是不是就是JobManager？

flink docker部署

jobmanager.web.http-server.request.encoding和taskmanager.web.http-request-encoding 是什么配置 怎么设置utf-8

JobManager

flink 的JobExecution是怎么执行的

docker-compose 安装flink

最新资源

jobmanager.web.http-server.request.encoding和taskmanager.web.http-request-encoding 是什么配置怎么设置utf-8