Spark Streaming编程指南：51DStream笔记

需积分: 10 157 浏览量更新于2024-09-02 收藏 186KB DOCX 举报

"这是关于51DStream的个人学习笔记，主要涵盖了Spark Streaming的DStream操作，包括输出操作、持久化策略、Checkpoint机制、累加器和广播变量的使用，以及性能优化方面的内容。资料来源于Spark官网，建议多参考官方文档进行学习。" 在Spark Streaming中，DStream（Discretized Stream）是一种连续的数据流，它抽象为一系列的RDD（Resilient Distributed Datasets）。本笔记主要探讨了与DStream相关的几个关键概念和技术。首先，**输出操作**是DStream处理的重要部分，它们允许我们将处理结果保存或展示出来。例如，`print()`方法用于在控制台上打印数据流的每一条记录，方便调试；`saveAsTextFiles()`和`saveAsObjectFiles()`则用于将数据以文本或对象的形式保存到文件系统；`saveAsHadoopFiles()`支持多种Hadoop兼容的文件系统，如HDFS。此外，DStream还可以与其他系统集成，如将数据写入HBase或通过Kafka进行消息传递。 **持久化**是Spark优化性能的关键策略，它允许我们缓存RDD以避免重复计算。不同的持久化级别提供了不同级别的容错和效率，如`MEMORY_ONLY`只在内存中存储，`MEMORY_AND_DISK`在内存不足时使用磁盘，`MEMORY_ONLY_SER`和`MEMORY_AND_DISK_SER`则是序列化后的版本，节省空间。`_2`后缀表示设置副本，增加容错性。 **Checkpoint**是Spark Streaming中的一个重要特性，它用于实现容错。元数据检查点用于保存流计算的状态，而数据检查点则将数据写入可靠的存储（如HDFS），以确保在故障恢复时能恢复到正确状态。 **累加器**和**广播变量**是Spark的两种共享变量。累加器是只允许添加操作的变量，常用于统计任务，如计数。广播变量则可以将一个变量广播到集群的所有工作节点，减少网络通信，提高效率。在**性能优化**方面，硬件配置、资源管理平台的选择和参数调优都是关键。合适的硬件配置可以提升计算性能，而资源管理平台如YARN或Mesos可以帮助更有效地调度和分配资源。参数调优涉及Spark的多个配置选项，如`spark.streaming.backpressure.enabled`用于动态调整输入速率，避免内存溢出，`spark.streaming.unidirectional`控制数据处理模型等。此外，应用层面的优化，如选择合适的DStream转换算子，也能显著影响性能。这份51DStream笔记详细介绍了Spark Streaming的基础操作和优化技巧，对于理解并掌握Spark Streaming的实战应用非常有帮助。学习者应结合官方文档深入理解和实践，以达到最佳的学习效果。

第 1 页 共 7 页
2020-5-14
51DStream 笔记
参考文档：官网 http://spark.apache.org/docs/latest/streaming-
programming-guide.html#output-operations-on-dstreams
51DStream 笔记............................................................................................................................. 1
输出........................................................................................................................................ 1
持久化.................................................................................................................................... 2
Checkpoint.............................................................................................................................. 2
累加器、广播变量................................................................................................................ 2
性能优化................................................................................................................................ 4
硬件配置........................................................................................................................ 4
资源管理平台................................................................................................................ 4
参数调优........................................................................................................................ 5
SparkStreaming 应用层面调优............................................................................................... 5
DStream 的转换算子.............................................................................................................. 6
输出
foreachRDD
(func)
The most generic output operator that applies a function,func, to each RDD generated 
from the stream. This function should push the data in each RDD to an external system, 
such as saving the RDD to files, or writing it over the network to a database. Note that the 
functionfuncis executed in the driver process running the streaming application, and will 
usually have RDD actions in it that will force the computation of the streaming RDDs.
foreachRDD
(func)
最通用的输出运算符，将函数
func
应用于从流生成的每个
RDD
。此功能应将每个
RDD
中
的数据推送到外部系统，例如将
RDD
保存到文件或通过网络将其写入数据库。请注意，函
数
func
在运行流应用程序的驱动程序进程中执行，并且通常在其中具有
RDD
操作，这将强
制计算流
RDD
。
这个算子是最常用的遍历输出算子，还有：print（）；saveAsTextFiles(prefix,
[suffix])；saveAsObjectFiles(prefix, [suffix])；saveAsHadoopFiles(prefix, [suffix])

下载后可阅读完整内容，剩余6页未读，立即下载

Saniana

粉丝: 197
资源: 3

Spark Streaming编程指南：51DStream笔记

DStream 输出.pptx

Dstream 入门.pptx

百度新一代流式计算系统DStream3.pdf

Spark 基础.docx

Spark介绍.docx

大数据sparkStreaming.docx

Spark大数据技术与应用-教学大纲.doc.docx

flume kafak实验报告.docx

spark介绍及分析.docx

spark-streaming课堂讲义.docx

最新资源