Spark Streaming源码解析：DStream实时流处理机制

需积分: 9 198 浏览量更新于2024-09-10 收藏 529KB PDF 举报

"Apache Spark源码走读之4 -- DStream实时流数据处理" Apache Spark Streaming是Apache Spark项目的一部分，它提供了对实时数据流处理的支持。在这个源码走读系列中，我们将关注DStream（Discretized Stream）的概念，它是Spark Streaming的核心组件，用于抽象连续的数据流。流数据的特点： 1. 数据一直在变化：与静态文件不同，流数据的特性是持续不断的变化，无法预知其具体内容。 2. 数据无法回退：一旦数据流过，就无法回溯，强调了处理的即时性和一次性。 3. 数据源源不断：数据源源不断地流入，处理系统需要能够应对这种无尽的数据流。 DStream（离散化流）： DStream是Spark Streaming对连续数据流的一种抽象，它通过将实时数据流划分为一系列的RDD（Resilient Distributed Dataset）批次，每个批次代表一段时间窗口内的数据。这种方式允许Spark使用已有的RDD处理机制来处理流数据，实现了流处理和批处理的融合。 1. 数据持久化：为了应对处理错误和实现容错，DStream将接收到的网络数据先存储，以便在需要时重新处理。 2. 数据离散化：通过对数据流进行时间切片（例如，每分钟一个批次），将无限的数据流转化为可管理的、有限的数据块。 3. 批量处理：利用RDD的批处理能力，对每个时间切片的数据进行处理。 DStream操作： DStream上的操作主要分为两种类型： 1. Transformation：这是DStream上的转换操作，类似于RDD上的操作，包括滑动窗口、过滤、映射等，它们创建新的DStream实例。 2. Output：这些操作负责将处理后的结果输出，例如`print`、`saveAsObjectFiles`、`saveAsTextFiles`和`saveAsHadoopFiles`，将结果写入文件或发送到其他系统。 DStreamGraph： DStreamGraph是内部结构，它负责组织和管理DStream之间的依赖关系，将输入和输出DStream连接起来形成一个完整的计算图。这个图在Spark Job执行时会被转化为DAG（有向无环图），由Spark的调度器进行任务分配和执行。 Spark Streaming的处理模型： Spark Streaming的处理模型称为微批处理（Micro-batching）。它不是真正的连续处理，而是以非常小的时间间隔（如几秒或几十秒）来模拟实时处理。这种模型保证了高吞吐量和容错性，同时提供了近实时的处理能力。总结来说，Apache Spark Streaming通过DStream将实时数据流转换为一系列可处理的批次，结合Spark的RDD模型，实现了高效且容错的实时数据处理。DStreamGraph则起到了关键的调度和连接输入输出的作用，确保整个实时处理流程的正确运行。

2015/1/1 Apache Spark源码走读之4 -- DStream实时流数据处理 - 徽沪一郎 - 博客园

http://www.cnblogs.com/hseagle/p/3673142.html 1/5

Apache Spark源码走读之4 -- DStream实时流数据处理

欢迎转载，转载请注明出处，徽沪一郎。

Spark Streaming能够对流数据进行近乎实时的速度进行数据处理。采用了不同于一般的流式数据处理模型，该模型使得Spark Streaming有非

常高的处理速度，与storm相比拥有更高的吞能力。

本篇简要分析Spark Streaming的处理模型，Spark Streaming系统的初始化过程，以及当接收到外部数据时后续的处理步骤。

系统概述

流数据的特点

与一般的文件（即内容已经固定）型数据源相比，所谓的流数据拥有如下的特点

1. 数据一直处在变化中

2. 数据无法回退

3. 数据一直源源不断的涌进

DStream

如果要用一句话来概括Spark Streaming的处理思路的话，那就是"将连续的数据持久化，离散化，然后进行批量处理"。

让我们来仔细分析一下这么作的原因。

数据持久化将从网络上接收到的数据先暂时存储下来，为事件处理出错时的事件重演提供可能，

离散化数据源源不断的涌进，永远没有一个尽头，就像周星驰的喜剧中所说“崇拜之情如黄河之水绵绵不绝，一发而不可收拾”。既然不能穷

尽，那么就将其按时间分片。比如采用一分钟为时间间隔，那么在连续的一分钟内收集到的数据集中存储在一起。

批量处理将持久化下来的数据分批进行处理，处理机制套用之前的RDD模式

DStream可以说是对RDD的又一层封装。如果打开DStream.scala和RDD.scala，可以发现几乎RDD上的所有operation在DStream中都有相

应的定义。

作用于DStream上的operation分成两类

1. Transformation

2. Output 表示将输出结果，目前支持的有print, saveAsObjectFiles, saveAsTextFiles, saveAsHadoopFiles

DStreamGraph

有输入就要有输出，如果没有输出，则前面所做的所有动作全部没有意义，那么如何将这些输入和输出绑定起来呢？这个问题的解决就依赖于

DStreamGraph，DStreamGraph记录输入的Stream和输出的Stream。

private val inputStreams = new ArrayBuffer[InputDStream[_]]()

private val outputStreams = new ArrayBuffer[DStream[_]]()

var rememberDuration: Duration = null

var checkpointInProgress = false

outputStreams中的元素是在有Output类型的Operation作用于DStream上时自动添加到DStreamGraph中的。

outputStream区别于inputStream一个重要的地方就是会重载generateJob.

初始化流程

下载后可阅读完整内容，剩余4页未读，立即下载

poolpoolpool

粉丝: 5
资源: 63

Spark Streaming源码解析：DStream实时流处理机制

Apache Spark源码走读之5 -- DStream处理的容错性分析

Apache Spark源码走读之3 -- Task运行期之函数调用关系分析

Apache Spark源码走读之2 -- Job的提交与运行

统计学生、老师、走读学生数量输出结果，并去除学生和走读学生重复后，输出学生、老师、走读学生合计总数

python代码走读方法

java具体如何做代码走读

Linux内核网络协议相关代码走读

mt7981cpuuboot下norflash读写代码走读

uboot下norflash读写代码走读

使用列表知识，设计一个宿舍名单网页，包含关键信息，如姓名、学号、性别、班级等。（走读的同学按自己一个宿舍算）

最新资源