Flink SQL专门用 OVER 聚合做了优化实现。所以只有在 Top N 的应用场景中，OVER 窗口 ORDER BY后才可以指定其它排序字段；而要想实现 Top N，就必须按照上面的格式进行定义，否则 Flink SQL 的优化器将无法正常解析。而且，目前 Table API 中并不支持 ROW_NUMBER()函数，所以也只有 SQL 中这一种通用的 Top N 实现方式 public static void main(String[] args) { //执行环境 StreamExecutionEnvironment environment = StreamExecutionEnvironment.getExecutionEnvironment(); environment.setParallelism(1); StreamTableEnvironment tableEnvironment = StreamTableEnvironment.create(environment); //执行SQL tableEnvironment.executeSql("CREATE TABLE t_goods (\n" + " gid STRING,\n" + " type INT,\n" + " price INT,\n" + " ts AS localtimestamp,\n" + " WATERMARK FOR ts AS ts - INTERVAL '5' SECOND\n" + ") WITH (\n" + " 'connector' = 'datagen',\n" + " 'rows-per-second'='1',\n" + " 'fields.gid.length'='10',\n" + " 'fields.type.min'='1',\n" + " 'fields.type.max'='1',\n" + " 'fields.price.min'='100',\n" + " 'fields.price.max'='999'\n" + ")"); // tableEnvironment.sqlQuery("select * from t_goods").execute().print(); //排序开窗函数--所有数据的排序 tableEnvironment.sqlQuery("select * from (" + " select *, ROW_NUMBER() OVER (" + " PARTITION BY type " + " ORDER BY price desc " + " ) AS rownum from t_goods" + ") WHERE rownum <= 3 ").execute().print(); }。怎么理解。。。

时间: 2023-07-08 07:05:49 浏览: 129

Flink SQL 中的 OVER 函数是用于聚合和排序的一种优化实现方式。对于 Top N 的场景，可以通过 OVER 函数实现。但是需要注意的是，只有在 ORDER BY 后才能指定其它排序字段，否则 Flink SQL 的优化器将无法正常解析。此外，Table API 中并不支持 ROW_NUMBER() 函数，所以只能在 SQL 中使用这种通用的 Top N 实现方式。以上代码中，首先创建了一个数据源表 t_goods，然后使用 SQL 查询语句实现 Top N 功能，其中 ROW_NUMBER() 函数用于计算每个 type 分组内按 price 排序后的行号，最后通过 WHERE rownum <= 3 来筛选出前三个数据。

在 Flink SQL 中，是通过 OVER 聚合和一个条件筛选来实现 Top N 的。。。怎么理解。。

在 Flink SQL 中，可以使用 OVER 聚合和条件筛选来实现 Top N 的功能。首先，OVER 聚合是指在一个窗口内对整个数据集进行聚合操作，而不是仅聚合每个分组。可以使用 OVER() 子句来指定 OVER 聚合，比如： ``` SELECT word, count(*) OVER() as cnt FROM words ``` 其中，`count(*) OVER()` 会对整个数据集进行计数。然后，可以在 OVER 聚合的基础上使用条件筛选来获取 Top N 数据。比如，要获取前 10 个出现次数最多的单词，可以这样写： ``` SELECT word, cnt FROM ( SELECT word, count(*) OVER() as cnt FROM words ) WHERE row_number() OVER (ORDER BY cnt DESC) <= 10 ``` 其中，`row_number() OVER (ORDER BY cnt DESC)` 会根据 cnt 字段降序排序，然后为每一行分配一个序号，最后通过条件筛选保留前 10 行数据。也可以使用其他聚合函数，比如 SUM()、AVG() 等等，来实现不同的 Top N 功能。

8. FlinkSQL 聚合查询 8.3. TopN 8.3.1. 普通TopN 8.3.2. 窗口Top N

在 FlinkSQL 中可以使用 TopN 实现对数据流中某个字段的排序并取出前 N 个数据。TopN 算子适用于一些需要对数据进行排序、筛选的场景，比如热门商品排行、用户行为分析等。普通 TopN 是指对整个数据流进行排序，取出前 N 条数据。在 FlinkSQL 中，可以使用如下语句实现普通 TopN： ``` SELECT * FROM ( SELECT *, ROW_NUMBER() OVER (ORDER BY column DESC) as rownum FROM table ) t WHERE rownum <= N ``` 其中，ROW_NUMBER() OVER (ORDER BY column DESC) as rownum 表示对表中的某个字段进行降序排序，并为每一行分配一个 rownum，表示该行在排序后的位置。然后在外层 SELECT 语句中筛选出 rownum 小于等于 N 的数据即可。窗口 TopN 是指对某个时间窗口内的数据进行排序，取出前 N 条数据。在 FlinkSQL 中，可以使用如下语句实现窗口 TopN： ``` SELECT * FROM ( SELECT *, ROW_NUMBER() OVER (PARTITION BY window ORDER BY column DESC) as rownum FROM table GROUP BY window, other_column ) t WHERE rownum <= N ``` 其中，ROW_NUMBER() OVER (PARTITION BY window ORDER BY column DESC) as rownum 表示对每个时间窗口内的数据进行排序，并为每一行分配一个 rownum，表示该行在排序后的位置。在外层 SELECT 语句中筛选出 rownum 小于等于 N 的数据即可。需要注意的是，在窗口 TopN 中，需要使用 GROUP BY 将数据按照时间窗口和其他字段进行分组，否则会出现重复数据。

阅读全文

在 Flink SQL 中，是通过 OVER 聚合和一个条件筛选来实现 Top N 的。。。怎么理解。。

8. FlinkSQL 聚合查询 8.3. TopN 8.3.1. 普通TopN 8.3.2. 窗口Top N

相关推荐

FlinkSQL在音乐产品中的应用与实践

字节跳动FlinkSQL优化实践：扩展DDL与功能增强

FlinkSql探索：滚动窗口与滑动窗口应用详解

flinksql 窗口聚合

【FlinkSql篇04】FlinkSql之窗口1

Flink基础系列32-Table API和Flink SQL之时间窗口

flink sql 窗口函数

Flink在金融领域的事件时间处理与示例

社交网络数据分析：Hadoop在社交数据挖掘中的应用

Python与Pandas在金融数据分析中的应用：揭秘分析高手的技巧

窗口函数新视角：用新方法分析分组数据，提升MySQL查询效率

Flink SQL在Apache Flink 1.10.0平台上的应用与数据流构建

Flink SQL优化：MicroBatch与MiniBatch策略

Simulink仿真：基于扰动观察法的光伏MPPT改进算法 参考文献：基于扰动观察法的光伏MPPT改进算法+录制视频讲解 仿真平台：MATLAB Simulink 关键词：光伏；MPPT；扰动观察法

基于ASP的图书管理系统

校园管理系统的设计与实现-springboot毕业项目，适合计算机毕-设、实训项目、大作业学习.zip

大家在看

GL3231S USB4.0读卡器Layout和原理图及相关的FW

keb变频器 f5中文说明书-维修安装调试

IPC-7351 使用说明

实验二DML语言一（数据插入、修改和删除.doc

ZYNQ_7020核心板原理图.pdf

最新推荐

大数据之flink教程-TableAPI和SQL.pdf

Flink实战：用户行为分析之热门商品TopN统计

面向Flink的多表连接计算性能优化算法

Simulink仿真：基于扰动观察法的光伏MPPT改进算法 参考文献：基于扰动观察法的光伏MPPT改进算法+录制视频讲解 仿真平台：MATLAB Simulink 关键词：光伏；MPPT；扰动观察法

免安装JDK 1.8.0_241：即刻配置环境运行

管理建模和仿真的文件

【提升效率与稳定性】：深入掌握单相整流器的控制策略

你看这是ashx映射的cs文件初始代码,你看这里边根本就没有写对action参数进行任何操作但你.ashx?action=submit这样去做他就能返回出数据这是为什么

机器学习预测葡萄酒评分：二值化品尝笔记的应用

"互动学习：行动中的多样性与论文攻读经历"

Simulink仿真：基于扰动观察法的光伏MPPT改进算法参考文献：基于扰动观察法的光伏MPPT改进算法+录制视频讲解仿真平台：MATLAB Simulink 关键词：光伏；MPPT；扰动观察法

Simulink仿真：基于扰动观察法的光伏MPPT改进算法参考文献：基于扰动观察法的光伏MPPT改进算法+录制视频讲解仿真平台：MATLAB Simulink 关键词：光伏；MPPT；扰动观察法