Flink实战：Kafka数据流WordCount解析

版权申诉

5星 · 超过95%的资源 | PDF格式 | 437KB | 更新于2024-09-13 | 88 浏览量 | 举报

"这篇文章主要讲解了如何使用Apache Flink从Kafka实时数据流中读取数据，执行WordCount分析，并将结果输出到控制台。它引导读者了解如何编写和执行Flink程序，涉及的关键技术包括Flink的StreamExecutionEnvironment、FlinkKafkaConsumer以及数据转换操作，如flatMap和窗口聚合。" 在Apache Flink中，首先需要创建一个执行环境，这是所有Flink程序的基础。`StreamExecutionEnvironment.getExecutionEnvironment()`方法用于获取默认的执行环境，这使得Flink能够运行在本地或分布式集群上。接下来，要配置Kafka的相关参数，以便连接到Kafka服务器并读取数据。这里创建了一个`Properties`对象，设置了"bootstrap.servers"（Kafka broker的地址）和"group.id"（消费者组ID）。在这个例子中，我们假设Kafka服务器运行在本地主机的9092端口，消费的Topic名为"Shakespeare"。 ```java Properties properties = new Properties(); properties.setProperty("bootstrap.servers", "localhost:9092"); properties.setProperty("group.id", "flink-group"); ``` 接着，使用`FlinkKafkaConsumer`作为数据源，它从指定的Topic中读取数据： ```java String inputTopic = "Shakespeare"; FlinkKafkaConsumer<String> consumer = new FlinkKafkaConsumer<>(inputTopic, new SimpleStringSchema(), properties); DataStream<String> stream = env.addSource(consumer); ``` 一旦有了数据流，就可以应用转换操作。在这个例子中，我们使用`flatMap`函数来对每个输入的字符串按空格拆分成单词，并为每个单词生成一个`(word, 1)`的元组，表示出现一次。 ```java DataStream<Tuple2<String, Integer>> wordCount = stream .flatMap((String line, Collector<Tuple2<String, Integer>> collector) -> { String[] tokens = line.split("\\s+"); for (String token : tokens) { if (token.length() > 0) { collector.collect(new Tuple2<>(token, 1)); } } }) .returns(Types.TUPLE(Types.STRING, Types.INT)); ``` 为了进行词频统计，通常会使用窗口操作。然而，代码片段中没有显示这部分，但通常会添加`.keyBy()`和`.timeWindow()`方法，定义分组键和窗口大小，然后使用`.sum(1)`进行聚合，计算每个单词在每个窗口内的总数。最后，将结果输出到控制台，可以使用`.print()`方法： ```java wordCount.print().setParallelism(1); // 输出到控制台，设置并行度为1，确保顺序输出 ``` 这个示例展示了Flink如何与Kafka集成，接收实时数据流，进行简单的文本分析，并展示结果。对于初学者，这是一个很好的起点，可以理解Flink的基本操作，如创建执行环境、定义数据源、数据转换以及结果输出。

Flink入门：读取入门：读取Kafka实时数据流，实现实时数据流，实现WordCount

本文主要介绍Flink接收一个Kafka文本数据流，进行WordCount词频统计，然后输出到标准输出上。通过本文你可以了解如何编写和运行Flink程序。

代码拆解代码拆解

首先要设置Flink的执行环境：

// 创建Flink执行环境

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

设置Kafka相关参数，连接对应的服务器和端口号，读取名为Shakespeare的Topic中的数据源，将数据源命名为stream：

// Kafka参数

Properties properties = new Properties();

properties.setProperty("bootstrap.servers", "localhost:9092");

properties.setProperty("group.id", "flink-group");

String inputTopic = "Shakespeare";

String outputTopic = "WordCount";

// Source

FlinkKafkaConsumer consumer =

new FlinkKafkaConsumer(inputTopic, new SimpleStringSchema(), properties);

DataStream stream = env.addSource(consumer);

使用Flink算子处理这个数据流：

// Transformations

// 使用Flink算子对输入流的文本进行操作

// 按空格切词、计数、分区、设置时间窗口、聚合

DataStream<Tuple2> wordCount = stream

.flatMap((String line, Collector<Tuple2> collector) -> {

String[] tokens = line.split("\s");

// 输出结果 (word, 1)

for (String token : tokens) {

if (token.length() > 0) {

collector.collect(new Tuple2(token, 1));

}

})

.returns(Types.TUPLE(Types.STRING, Types.INT))

.keyBy(0)

.timeWindow(Time.seconds(5))

.sum(1);

这里使用的是Flink提供的DataStream级别的API，主要包括转换、分组、窗口和聚合等操作。

将数据流打印：

// Sink

wordCount.print();

最后执行这个程序：

// execute

env.execute("kafka streaming word count");

env.execute 是启动Flink作业所必需的，只有在execute()被调用时，之前调用的各个操作才会在提交到集群上或本地计算机上执行。

完整代码如下：

import org.apache.flink.api.common.serialization.SimpleStringSchema;

import org.apache.flink.api.common.typeinfo.Types;

import org.apache.flink.api.java.tuple.Tuple2;

import org.apache.flink.streaming.api.datastream.DataStream;

import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

import org.apache.flink.streaming.api.windowing.time.Time;

import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer;

import org.apache.flink.util.Collector;

import java.util.Properties;

public class WordCountKafkaInStdOut {

public static void main(String[] args) throws Exception {

// 创建Flink执行环境

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

// Kafka参数

Properties properties = new Properties();

下载后可阅读完整内容，剩余3页未读，立即下载

身份认证购VIP最低享 7 折!

30元优惠券

weixin_38659527

粉丝: 6

Flink实战：Kafka数据流WordCount解析

Scala与Flink入门：基础概念与操作指南

李志毅实验五：Flink-Kafka数据处理与问题解决

李志毅：Flink消费Kafka实验记录与问题解决

【Kafka集成案例研究】：Flink处理Kafka数据流的高效策略

java Flink读取kafka的数据如何用window写wordcount？

flink_read_kafka

Flink在CDH配置部署及读取kafka的实例验证；

浅谈Flink分布式运行时和数据流图的并行化

字节跳动基于Flink的MQ Hive实时数据集成.pdf

Scala实现的Flink WordCount示例教程

最新资源