keyedprocessfunction

KeyedProcessFunction是Flink中的一种特殊类型的ProcessFunction，它可以对输入数据进行分组，并在每个分组内进行处理。它需要一个KeyedStream作为输入，并且可以访问当前处理的键值。KeyedProcessFunction可以用于实现各种复杂的数据处理逻辑，例如状态管理、定时器、侧输出等。它是Flink中非常强大和灵活的数据处理工具之一。

class TopNHotItems(topSize: Int) extends KeyedProcessFunction[Tuple, ItemViewCount, String] { private var itemState : ListState[ItemViewCount] = _ override def open(parameters: Configuration): Unit = { super.open(parameters) // 命名状态变量的名字和状态变量的类型 val itemsStateDesc = new ListStateDescriptor[ItemViewCount]("itemState-state", classOf[ItemViewCount]) // 从运行时上下文中获取状态并赋值 itemState = getRuntimeContext.getListState(itemsStateDesc) } override def processElement(input: ItemViewCount, context: KeyedProcessFunction[Tuple, ItemViewCount, String]#Context, collector: Collector[String]): Unit = { // 每条数据都保存到状态中 itemState.add(input) // 注册 windowEnd+1 的 EventTime Timer，当触发时，说明收齐了属于windowEnd 窗口的所有商品数据 // 也就是当程序看到 windowend + 1 的水位线 watermark 时，触发 onTimer 回调函数 context.timerService.registerEventTimeTimer(input.windowEnd + 1) } override def onTimer(timestamp: Long, ctx: KeyedProcessFunction[Tuple, ItemViewCount, String]#OnTimerContext, out: Collector[String]): Unit = { // 获取收到的所有商品点击量 val allItems: ListBuffer[ItemViewCount] = ListBuffer() import scala.collection.JavaConversions._ for (item <- itemState.get) { allItems += item } // 提前清除状态中的数据，释放空间 itemState.clear() // 按照点击量从大到小排序 val sortedItems = allItems.sortBy(_.count)(Ordering.Long.reverse).take(topSize) // 将排名信息格式化成 String, 便于打印 val result: StringBuilder = new StringBuilder() result.append("\n") result.append("窗口结束时间: ").append(new Timestamp(timestamp - 1)).append("\n") for(i <- sortedItems.indices){ val currentItem: ItemViewCount = sortedItems(i) // e.g. No1：商品 ID=12224 浏览量 =2413 result.append("No").append(i+1).append(":") .append(" 商品id=").append(currentItem.itemId) .append(" 热门度 =").append(currentItem.count).append("\n") } result.append("") // 控制输出频率，模拟实时滚动结果 Thread.sleep(500) out.collect(result.toString) }

这段代码是什么意思？这段代码定义了一个KeyedProcessFunction函数，输入参数是ItemViewCount类型的数据，输出参数是String类型的数据。在函数中，定义了一个ListState状态变量itemState，并在open()方法中初始化。在processElement()方法中，每次接收到一个ItemViewCount类型的数据，都将其保存到itemState状态变量中，并注册一个定时器，定时器的触发时间是当前ItemViewCount数据所属的窗口结束时间+1。在onTimer()方法中，当定时器触发时，首先从itemState状态变量中获取所有的ItemViewCount数据，并清空itemState状态变量。然后按照点击量从大到小排序，取出前topSize个热门商品，并将其格式化成字符串输出。最后通过out.collect()方法将结果输出。这个函数的作用是计算出每个窗口期间内的热门商品排行榜，并输出结果。

package org.tysfjsj.aaa import java.sql.Timestamp import java.text.SimpleDateFormat import org.apache.flink.api.common.functions.AggregateFunction import org.apache.flink.api.common.state.{ListState, ListStateDescriptor} import org.apache.flink.api.scala._ import org.apache.flink.streaming.api.TimeCharacteristic import org.apache.flink.streaming.api.functions.KeyedProcessFunction import org.apache.flink.streaming.api.functions.timestamps.BoundedOutOfOrdernessTimestampExtractor import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment import org.apache.flink.streaming.api.scala.function.WindowFunction import org.apache.flink.streaming.api.windowing.time.Time import org.apache.flink.streaming.api.windowing.windows.TimeWindow import org.apache.flink.util.Collector import scala.collection.mutable.ListBuffer

这段代码是一个Scala语言的Flink应用程序的一部分。具体来说，它导入了一些Java和Scala的类和包，包括java.sql.Timestamp、java.text.SimpleDateFormat、org.apache.flink等。这个应用程序使用了Flink的流处理API，将时间特征设置为TimeCharacteristic，然后使用BoundedOutOfOrdernessTimestampExtractor对数据流进行时间戳提取和乱序限制。接下来，它定义了一个AggregateFunction和一个WindowFunction，用于对窗口中的数据进行聚合和处理。最后，它使用KeyedProcessFunction对数据流进行键控处理，并使用ListStateDescriptor来维护键控状态。这个应用程序的具体实现需要查看完整代码才能确定。

keyedprocessfunction

相关推荐

flink数据分流，Filter、Split、SideOutPut三种分流方式

【Flink篇08】Flink之ProcessFunctionAPI1

Apache Flink 在国有大型银行智能运营场景下的应用-Flink Forward Asia 2021.pdf

flink process

flink算子的uid有什么用？怎么设置算子的uid？只需要给有状态的算子设置uid吗？哪些是有状态的算子

flink java输出map形式数据

Flink算子里的onTimer怎么使用

flink中liststate如何设置将参数类型设为tuple2

flink代码实现跨天上一笔

flink 乱序数据排序

flink离线任务定时器使用

flink数据加工范例

flink实现topN的代码

Flink自定义函数父类有哪些

最新推荐

Flink实战：用户行为分析之热门商品TopN统计

C++标准程序库：权威指南

管理建模和仿真的文件

Parallelization Techniques for Matlab Autocorrelation Function: Enhancing Efficiency in Big Data Analysis

怎样使scanf函数和printf在同一行表示

Java解惑：奇数判断误区与改进方法

"互动学习：行动中的多样性与论文攻读经历"

The Application of Autocorrelation Function in Economics: Economic Cycle Analysis and Forecasting Modeling

ethernet functionality not enabled socket error#10065 No route to host.

C++编程必读：20种设计模式详解与实战