Spark Structured Streaming：实时流处理的高效引擎与应用示例

176 浏览量更新于2024-08-29 收藏 439KB PDF 举报

Spark Structured Streaming是Apache Spark提供的一个高级流数据处理框架，它建立在Spark SQL之上，旨在提供快速、可靠、容错以及精确一次处理的特性。这个框架使得开发者能够使用熟悉的DataFrame和Dataset API来处理实时数据流，类似于处理批处理数据的方式。首先，Structured Streaming的核心优势在于其精确一次处理（Exactly-once processing）的保证。在早期版本（如Spark 2.3之前），默认采用Spark Micro Batch模式，该模式能够在端到端的时间范围内提供100毫秒级别的精确处理。这意味着在数据处理过程中，每个批次的数据会被完全处理一次，并且在整个处理周期内，结果的一致性得到了保证。从Spark 2.3开始，引入了新的Continuous Processing引擎，它进一步降低了处理延迟，使得端到端的处理时间能够低于1毫秒，实现了“最少一次”（At-least-once）处理，即确保数据至少被处理一次，但可能会有重复处理。这种模式适用于对数据延迟容忍度较高的场景，但可能会影响数据的最终一致性。在使用Structured Streaming时，开发人员通常会经历以下步骤： 1. 首先，通过`SparkSession`创建一个Spark上下文，并设置日志级别以减少不必要的输出。 2. 然后，利用`readStream`函数从源头（如socket、Kafka、Flume等）构建基于流数据的DataFrame，这一步允许用户选择不同的输入源和格式，如这里提到的`format("socket")`用于从本地主机的socket接收数据。 3. 接下来，设置连接参数，如这里的`option("host", "localhost")`指定了socket服务器的地址。 4. 对流数据进行处理，例如执行word count应用，这是Structured Streaming常见的示例，通过DataFrame API对文本进行分词并计数。 5. 最后，使用`writeStream`功能将处理后的数据写入目标，例如文件系统、数据库或者消息队列，同时指定输出模式，如`OutputMode.Append`用于追加模式，确保新数据与现有数据合并。 Spark Structured Streaming简化了实时数据处理流程，提供了高度一致性和低延迟的处理能力，是现代大数据处理中不可或缺的一部分。无论是数据处理工程师还是数据分析师，都需要掌握如何利用这个工具来实时分析和操作数据。

.format("text") // json\csv\parquet\orc

.load("hdfs://spark:9000/data") // HDFS或者LocalFS的Path

df.createOrReplaceTempView("t_word")

val df2 = spark.sql("select * from t_word")

df2

.writeStream

.outputMode(OutputMode.Append())

.format("console")

.start()

.awaitTermination()

}

-------------------------------------------

Batch: 0

-------------------------------------------

+-------------+

| value|

+-------------+

|welcome to bj|

|welcome to tj|

+-------------+

-------------------------------------------

Batch: 1

-------------------------------------------

+--------+

| value|

+--------+

| 1,可乐|

| 2,薯片|

|3,方便面|

+--------+

Kafka（基于（基于Kafka流数据平台的数据源）流数据平台的数据源）

读取Kafka Topic中的数据

org.apache.spark

spark-sql-kafka-0-10_2.11

2.4.4

package sources

import org.apache.kafka.clients.consumer.ConsumerConfig

import org.apache.spark.sql.SparkSession

import org.apache.spark.sql.streaming.OutputMode

// 固定速率

object KafkaSourceDemo {

def main(args: Array[String]): Unit = {

val spark = SparkSession.builder().appName("rate source").master("local[*]").getOrCreate()

spark.sparkContext.setLogLevel("ERROR")

// 构建基于kafka流式DF

val df = spark

.readStream

.format("kafka")

.option("kafka.bootstrap.servers","spark:9092")

.option("subscribe","streams")

.load()

df.selectExpr("CAST(key as STRING)","CAST(value as STRING)","CAST(topic as STRING)","CAST(offset as LONG)")

.createOrReplaceTempView("t_kafka")

val df2 = spark.sql("select * from t_kafka")

df2

.writeStream

.outputMode(OutputMode.Append())

.format("console")

.start()

.awaitTermination()

}

-------------------------------------------

Batch: 0

-------------------------------------------

+---+-----+-----+------+

+---+-----+-----+------+

-------------------------------------------

Batch: 1

-------------------------------------------

+----+-----------+-------+------+

+----+-----------+-------+------+

+----+-----------+-------+------+

基于基于Kafka的批处理的批处理

val df = spark

.read

剩余11页未读，继续阅读

weixin_38729221

粉丝: 2
资源: 935

Spark Structured Streaming：实时流处理的高效引擎与应用示例

深入解析Java 8 Stream源码与Spark Structured Streaming机制

Apache Spark Structured Streaming技术详解

实现Spark Structured Streaming与HBase集成的指南

spark structured streaming

SparkStructuredStreaming编程详解

深入理解Spark Structured Streaming

Spark Structured Streaming实战应用

Spark Structured Streaming和Spark Streaming的区别

Spark Structured Streaming和 Spark Streaming有什么关系

请阐述Spark Structured Streaming与Spark SQL 和Spark Streaming

最新资源