Flink流处理API：创建执行环境与基本操作实践

160 浏览量更新于2024-08-29 收藏 365KB PDF 举报

Flink流处理API是Apache Flink的重要组件，它提供了一套丰富的接口来处理实时和批量数据。核心组件之一是Environment，它在Flink程序中扮演着上下文角色。通过`getExecutionEnvironment()`方法，开发人员可以根据执行环境的不同来创建，如在本地独立运行时返回本地环境，或者在集群环境中通过命令行客户端提交时获取分布式环境。如果没有显式设置并行度，Flink会参考`flink-conf.yaml`文件中的配置，其默认设置为1。 `createLocalEnvironment()`用于创建本地执行环境，允许开发者指定默认并行度，如果没有指定，则等同于Spark的`local[*]`模式。而`createRemoteEnvironment()`则针对集群环境，接收JobManager的IP地址、端口号以及要运行的JAR包路径，用于将程序部署到远程服务器。 Flink的Transform方法集涵盖了常见的数据处理操作，如`map`、`flatMap`、`filter`等，它们的功能与Spark类似。例如，`map`用于逐个元素应用函数，`flatMap`则对每个元素进行扁平化操作，如将字符串分割成多个元素。`filter`则是根据给定条件筛选元素，只有满足条件的元素会被保留。 `KeyBy`是Flink特有的功能，它将DataStream转换为KeyedStream，适用于对带有键（key）的数据进行分组，使得具有相同键的元素被放入同一个分区，内部采用哈希算法确保分区的划分。这个过程确保了数据的有序性和分区间的隔离性，这对于后续的聚合操作至关重要。 `Reduce`是Flink中对KeyedStream进行的聚合操作，它将具有相同键的元素进行合并，每次迭代都将当前元素与先前的聚合结果相加或应用其他聚合函数，最终产生单一的输出值。这个过程会生成一个新流，其中包含了每个键对应的聚合结果。 Flink流处理API提供了强大的数据处理能力，通过灵活的Environment API，开发人员可以方便地在本地或分布式环境中执行复杂的数据流处理任务，并通过Transform方法实现各种转换和过滤操作，同时利用KeyBy和Reduce实现高效的键值对操作。这使得Flink成为实时数据分析和流处理的强大工具。

次。

Connect与 Union 区别：

1 、 Union之前两个流的类型必须是一样，Connect可以不一样，在之后的coMap中再去调整成为一样的。

2、 Connect只能操作两个流，Union可以操作多个

Sink

Flink没有类似于spark中foreach方法，让用户进行迭代的操作。虽有对外的输出操作都要利用Sink完成。最后通过类似如下方

式完成整个任务最终输出操作。

myDstream.addSink(new MySink(xxxx))

官方提供了一部分的框架的sink。除此以外，需要用户自定义实现sink。

Kafka

依赖:

org.apache.flink

flink-connector-kafka-0.11_2.11

1.7.0

案例:

def getProducer(topic:String): FlinkKafkaProducer011[String] ={

new FlinkKafkaProducer011[String](brokerList,topic,new SimpleStringSchema())

}

主函数中添加sink

val myKafkaProducer: FlinkKafkaProducer011[String] = MyKafkaUtil.getProducer("test")

sumDstream.map( chCount=>chCount._1+":"+chCount._2 ).addSink(myKafkaProducer)

Redis

org.apache.bahir

flink-connector-redis_2.11

1.0

object MyRedisUtil {

val conf = new FlinkJedisPoolConfig.Builder().setHost("master").setPort(6379).build()

def getRedisSink(): RedisSink[(String,String)] ={

new RedisSink[(String,String)](conf,new MyRedisMapper)

}

class MyRedisMapper extends RedisMapper[(String,String)]{

剩余10页未读，继续阅读

weixin_38683193

粉丝: 2
资源: 939

Flink流处理API：创建执行环境与基本操作实践

FlinkAPI.CHM

flink流处理初始demo

flink技术参考手册

flink使用streamapi方式连接tidb

flink流处理作业分类

4、Flink的分层API 5

flink wordcount

Flink实时处理电力大数据架构

flink 流处理 词频统计

最新资源

flink 流处理词频统计