首页使用spark Streaming对接kafka

使用spark Streaming对接kafka

时间: 2023-02-07 18:32:52 浏览: 81

可以使用 Apache Spark Streaming 库来从 Apache Kafka 消息队列中读取数据。首先，需要在 pom.xml 文件中添加 Spark Streaming 和 Kafka 的依赖： ``` <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kafka-0-10_2.12</artifactId> <version>2.4.7</version> </dependency> ``` 然后，在代码中可以使用 KafkaUtils 类的 createDirectStream 方法来创建一个 DStream，该 DStream 会从 Kafka 中读取数据。示例代码如下： ``` // 创建 Spark 上下文 val sparkConf = new SparkConf().setAppName("KafkaStreaming").setMaster("local[*]") val ssc = new StreamingContext(sparkConf, Seconds(10)) // Kafka 配置信息 val kafkaParams = Map[String, Object]( "bootstrap.servers" -> "localhost:9092", "key.deserializer" -> classOf[StringDeserializer], "value.deserializer" -> classOf[StringDeserializer], "group.id" -> "spark-streaming-group", "auto.offset.reset" -> "latest", "enable.auto.commit" -> (false: java.lang.Boolean) ) // 要从哪些主题中读取数据 val topics = Array("test") // 创建 DStream val stream = KafkaUtils.createDirectStream[String, String]( ssc, PreferConsistent, Subscribe[String, String](topics, kafkaParams) ) // 处理数据 val lines = stream.map(record => (record.key, record.value)) lines.print() // 启动流处理程序 ssc.start() ssc.awaitTermination() ``` 在这段代码中，Kafka 的配置信息存储在 kafkaParams 变量中，包括 Kafka 服务器地址、序列化器类型、消费组 ID 等。topics 变量则存储了要从哪些主题中读取数据。最后