Spark Streaming容错机制解析：DStream的处理保证

需积分: 10 175 浏览量更新于2024-09-10 收藏 431KB PDF 举报

"Apache Spark源码走读之5 -- DStream处理的容错性分析" Apache Spark的DStream（Discretized Stream）是其用于处理连续数据流的核心抽象。DStream代表一个持续的时间序列数据流，它由一系列连续的RDD（弹性分布式数据集）组成。在Spark Streaming中，容错性是一个至关重要的特性，因为它确保了即使在集群中的工作节点出现故障时，系统也能恢复并继续正确处理数据。 DStream的容错机制主要基于Spark的核心容错能力，即RDD的血统（lineage）和检查点（checkpointing）。在DStream中，每个操作都会创建一个新的DStream，这个过程记录了操作的历史，也就是血统。如果某个节点失败，Spark可以根据血统重新计算丢失的RDD，因为RDD是由其依赖关系的RDD通过一系列转换得到的。在Spark Streaming中，为了处理可能的节点故障，数据会持久化到可靠的存储系统，如HDFS或本地磁盘。这通常在批处理间隔（例如，每隔几秒）执行，以创建一个检查点。检查点包含足够的信息来重新构造DStream的计算状态，这样在节点重启后，系统可以从最近的检查点恢复，并继续处理未完成的数据。控制层面，Spark Streaming使用Driver程序来调度作业，并通过Receiver来接收和存储数据流。Receiver是在Executor进程中运行的，负责接收来自网络的数据并将它们转化为RDD。如果Receiver失败，Spark的容错机制会检测到并尝试重新启动它，从而确保数据的连续接收。数据层面，数据流被分割成小批量（batches），每个批次对应一个RDD。这些RDD通过DStream的操作链进行转换，如flatMap、map、reduceByKey等。在每个时间窗口内，Spark会生成一个DStream实例，这些实例的RDD会被持久化以供后续处理。由于RDD的血统信息，即使某个RDD在计算过程中丢失，Spark也能根据之前的RDD和转换操作重放数据，从而实现容错。在上述示例中，我们看到一个简单的Spark Streaming应用程序，它从本地的9999端口接收文本数据，然后进行单词拆分、计数和打印。`ssc.start()`启动流处理，`ssc.awaitTermination()`则会等待流处理结束。这个例子展示了Spark Streaming如何处理实时输入，并在节点故障时恢复，保证了数据的准确性和完整性。总结来说，Apache Spark的DStream通过RDD的血统和检查点机制实现了容错性。在处理流数据时，Spark可以确保数据的唯一处理，即使在处理节点发生故障的情况下，也能从检查点恢复，继续处理未完成的数据，从而提供高可用性和数据一致性。这种强大的容错机制使得Spark成为大规模流处理应用的理想选择。

2015/1/1 Apache Spark源码走读之5 -- DStream处理的容错性分析 - 徽沪一郎 - 博客园

http://www.cnblogs.com/hseagle/p/3673139.html 1/7

Apache Spark源码走读之5 -- DStream处理的容错性分析

欢迎转载，转载请注明出处，徽沪一郎，谢谢。

在流数据的处理过程中，为了保证处理结果的可信度(不能多算，也不能漏算)，需要做到对所有的输入数据有且仅有一次处理。

在Spark Streaming的处理机制中，不能多算，比较容易理解。那么它又是如何作到即使数据处理结点被重启，在重启之后这些

数据也会被再次处理呢？

环境搭建

为了有一个感性的认识，先运行一下简单的Spark Streaming示例。首先确认已经安装了openbsd-netcat。

运行netcat

nc -lk 9999

运行spark-shell

SPARK_JAVA_OPTS=-Dspark.cleaner.ttl=10000 MASTER=local-cluster[2,2,1024] bin/spark-shell

在spark-shell中输入如下内容

import org.apache.spark.streaming._

import org.apache.spark.streaming.StreamingContext._

val ssc = new StreamingContext(sc, Seconds(3))

val lines = ssc.socketTextStream("localhost", 9999)

val words = lines.flatMap( _.split(" "))

val pairs = words.map(word => (word,1))

val wordCount = pairs.reduceByKey(_ + _)

wordCount.print()

ssc.start()

ssc.awaitTermination()

当ssc.start()执行之后，在nc一侧输入一些内容并回车，spark-shell上就会显示出统计的结果。

数据接收过程

来看一下代码实现层面，从两个角度来说，一是控制层面(control panel)，另一是数据层面(data panel)。

Spark Streaming的数据接收过程的控制层面大致如下图所示。

下载后可阅读完整内容，剩余6页未读，立即下载

poolpoolpool

粉丝: 5

Spark Streaming容错机制解析：DStream的处理保证

Apache Spark源码走读之4 -- DStream实时流数据处理

Apache Spark源码走读之3 -- Task运行期之函数调用关系分析

Apache Spark源码走读之2 -- Job的提交与运行

ApacheSpark源码走读（二）

Apache Spark源码走读：如何进行代码跟读

Apache_Spark源码走读

java8源码-java8-source:java8源码走读

C++代码走读意见--开发注意事项

spark-2.1.1:spark原始物走读注解解

Storm源码走读笔记

最新资源