Apache Spark Structured Streaming原理及实战教程

需积分: 0 129 浏览量更新于2024-06-18 收藏 3.31MB DOCX 举报

Structured-Streaming是Apache Spark提供的一种用于实时数据处理的强大工具，它建立在Spark SQL引擎之上，旨在提供高效、可扩展和容错的流处理能力。与传统的批处理方式不同，Structured-Streaming允许以批处理的方式处理流数据，实现实时分析和计算。它支持多种编程语言接口，包括Scala、Java、Python和R，用户可以通过DataFrame或Dataset API来执行复杂的操作，如流聚合、事件时间窗口和流到批的连接。在默认配置下，Structured-Streaming采用微批处理模式，将数据流拆分成一系列小批量处理任务，这有助于保持较低的端到端延迟（大约100毫秒），并提供精确的一次性（at-least-once）处理保证。然而，自Spark 2.3版本开始，引入了连续处理（Continuous Processing）模式，这种模式进一步降低了延迟，可以达到1毫秒级别，同时仍提供至少一次的数据处理保证。用户可以根据应用需求灵活选择处理模式，无需修改DataFrame或Dataset操作。以下是一个简单的例子，展示了如何使用Structured-Streaming进行实时的流单词计数。首先，需要在项目中添加Apache Spark的依赖，然后创建一个SparkSession对象并启用隐式转换。接下来，通过`spark.readStream.text()`函数从TCP接收文本数据，指定监听的端口，将其转换为DataFrame，并进行SQL计算，例如使用`flatMap`和`count`函数来统计每个单词的出现次数。 ```scala val spark = SparkSession .builder .appName("StructuredNetworkWordCount") .getOrCreate() import spark.implicits._ val lines = spark.readStream .text("tcp://localhost:6666") // 数据源，这里假设数据通过TCP发送 .flatMap(line => line.split(" ")) // 将每一行分割成单词 .map(word => (word, 1)) // 对每个单词计数，初始计数为1 .groupBy($"word") // 按照单词分组 .agg(count($"word").as("count")) // 计算每个单词的总出现次数 // 输出结果到控制台或者持久化存储 lines.writeStream .outputMode("complete") // 一次处理所有的数据 .format("console") .start() ``` 这个例子展示了Structured-Streaming的基本用法，但在实际应用中，可能需要根据业务场景调整数据源、数据预处理、窗口设置、错误处理等多个方面，以满足实时流处理的需求。此外，Structured-Streaming还支持其他高级特性，如实时流机器学习、复杂事件处理等，使其成为大数据分析和实时监控中的强大工具。

13 / 86

spark 自带的数据源分为以下几种

• File source 文本数据源可以读取文件夹中的文件，处理文件夹中的数据根据文

本的修改时间进行顺序处理，如果文本被修改那么处理顺序也会变化，并且支

持的数据格式化方式有 csv,json,orc,parquet 等，注意，文件必须原子地放置在

给定的目录中，在大多数文件系统中，这可以通过文件移动操作来实现，不能

一行一行的写入数据

• Kafka source - kafka 数据源，支持 0.10 以上版本的 kafka

• Socket source 读取 tcp 的数据主要作为测试，注意：这个数据源不能够保证数

据的端对端的一致性

• Rate source 以每秒指定的行数生成数据，每个输出行都包含时间戳和值。其

中时间戳是包含消息发送时间的时间戳类型，值是包含消息计数的 Long 类型，

从 0 开始作为第一行。此源用于测试和基准测试

有些源不具有容错性，因为它们不能保证在发生故障后可以使用检查点偏移量断

点消费数据

源端

选项

容

错

注意事项

File

source

path：输入目录的路径

maxFilesPerTrigger：每个触发器

中要考虑的新文件的最大数量（默

认值：no max）latestFirst：是否

首先处理最新的新文件，在文件大

剩余84页未读，继续阅读

青苍的世界

粉丝: 38
资源: 5

Apache Spark Structured Streaming原理及实战教程

structs的教程

structures-tutorials

Structs教程

spark-streaming-bench:spark-streaming-bench

rt-analytics-streaming-bigdata:rt-analytics-streaming-bigdata演示

hadoop-streaming-recipes:使用 hadoop-streaming 收集 MapReduce 的食谱

perl-nats-streaming：与NATS流消息系统的Perl接口

7.SparkStreaming（上）--SparkStreaming原理介绍.pdf

learning-spark-streaming

dart-nats-streaming

最新资源