Flink SQL专门用 OVER 聚合做了优化实现。所以只有在 Top N 的应用场景中,OVER 窗口 ORDER BY后才可以指定其它排序字段;而要想实现 Top N,就必须按照上面的格式进行定义,否则 Flink SQL 的优化器将无法正常解析。而且,目前 Table API 中并不支持 ROW_NUMBER()函数,所以也 只有 SQL 中这一种通用的 Top N 实现方式 public static void main(String[] args) { //执行环境 StreamExecutionEnvironment environment = StreamExecutionEnvironment.getExecutionEnvironment(); environment.setParallelism(1); StreamTableEnvironment tableEnvironment = StreamTableEnvironment.create(environment); //执行SQL tableEnvironment.executeSql("CREATE TABLE t_goods (\n" + " gid STRING,\n" + " type INT,\n" + " price INT,\n" + " ts AS localtimestamp,\n" + " WATERMARK FOR ts AS ts - INTERVAL '5' SECOND\n" + ") WITH (\n" + " 'connector' = 'datagen',\n" + " 'rows-per-second'='1',\n" + " 'fields.gid.length'='10',\n" + " 'fields.type.min'='1',\n" + " 'fields.type.max'='1',\n" + " 'fields.price.min'='100',\n" + " 'fields.price.max'='999'\n" + ")"); // tableEnvironment.sqlQuery("select * from t_goods").execute().print(); //排序开窗函数--所有数据的排序 tableEnvironment.sqlQuery("select * from (" + " select *, ROW_NUMBER() OVER (" + " PARTITION BY type " + " ORDER BY price desc " + " ) AS rownum from t_goods" + ") WHERE rownum <= 3 ").execute().print(); }。。。怎么理解。。。

时间: 2023-07-08 20:05:14 浏览: 50
Flink SQL针对Top N应用场景进行了优化,可以使用OVER窗口函数来实现。在使用OVER窗口函数时,需要按照一定的格式进行定义,否则Flink SQL的优化器可能无法正常解析。目前,在Table API中并不支持ROW_NUMBER()函数,只能在SQL中使用。可以使用ROW_NUMBER()函数来进行排序并筛选出Top N的数据,具体的SQL语句如下: ``` SELECT * FROM ( SELECT *, ROW_NUMBER() OVER (PARTITION BY type ORDER BY price DESC) AS rownum FROM t_goods ) WHERE rownum <= 3 ``` 这个SQL语句的意思是,在t_goods表中,按照type分组,然后按照price降序排列,再使用ROW_NUMBER()函数进行排序,最后筛选出前三个数据。这种方式是通用的Top N实现方式,可以在Flink SQL中使用。
相关问题

在 Flink SQL 中,是通过 OVER 聚合和一个条件筛选来实现 Top N 的。。。怎么理解。。

在 Flink SQL 中,可以使用 OVER 聚合和条件筛选来实现 Top N 的功能。 首先,OVER 聚合是指在一个窗口内对整个数据集进行聚合操作,而不是仅聚合每个分组。可以使用 OVER() 子句来指定 OVER 聚合,比如: ``` SELECT word, count(*) OVER() as cnt FROM words ``` 其中,`count(*) OVER()` 会对整个数据集进行计数。 然后,可以在 OVER 聚合的基础上使用条件筛选来获取 Top N 数据。比如,要获取前 10 个出现次数最多的单词,可以这样写: ``` SELECT word, cnt FROM ( SELECT word, count(*) OVER() as cnt FROM words ) WHERE row_number() OVER (ORDER BY cnt DESC) <= 10 ``` 其中,`row_number() OVER (ORDER BY cnt DESC)` 会根据 cnt 字段降序排序,然后为每一行分配一个序号,最后通过条件筛选保留前 10 行数据。 也可以使用其他聚合函数,比如 SUM()、AVG() 等等,来实现不同的 Top N 功能。

8. FlinkSQL 聚合查询 8.3. TopN 8.3.1. 普通TopN 8.3.2. 窗口Top N

在 FlinkSQL 中可以使用 TopN 实现对数据流中某个字段的排序并取出前 N 个数据。TopN 算子适用于一些需要对数据进行排序、筛选的场景,比如热门商品排行、用户行为分析等。 普通 TopN 是指对整个数据流进行排序,取出前 N 条数据。在 FlinkSQL 中,可以使用如下语句实现普通 TopN: ``` SELECT * FROM ( SELECT *, ROW_NUMBER() OVER (ORDER BY column DESC) as rownum FROM table ) t WHERE rownum <= N ``` 其中,ROW_NUMBER() OVER (ORDER BY column DESC) as rownum 表示对表中的某个字段进行降序排序,并为每一行分配一个 rownum,表示该行在排序后的位置。然后在外层 SELECT 语句中筛选出 rownum 小于等于 N 的数据即可。 窗口 TopN 是指对某个时间窗口内的数据进行排序,取出前 N 条数据。在 FlinkSQL 中,可以使用如下语句实现窗口 TopN: ``` SELECT * FROM ( SELECT *, ROW_NUMBER() OVER (PARTITION BY window ORDER BY column DESC) as rownum FROM table GROUP BY window, other_column ) t WHERE rownum <= N ``` 其中,ROW_NUMBER() OVER (PARTITION BY window ORDER BY column DESC) as rownum 表示对每个时间窗口内的数据进行排序,并为每一行分配一个 rownum,表示该行在排序后的位置。在外层 SELECT 语句中筛选出 rownum 小于等于 N 的数据即可。需要注意的是,在窗口 TopN 中,需要使用 GROUP BY 将数据按照时间窗口和其他字段进行分组,否则会出现重复数据。

相关推荐

最新推荐

recommend-type

大数据之flink教程-TableAPI和SQL.pdf

1.1 什么是 Table API 和 Flink SQL 2 1.2 需要引入的依赖 2 1.3 两种 planner(old & blink)的区别 4 第二章 API 调用 5 2.1 基本程序结构 5 2.2 创建表环境 5 2.3 在 Catalog 中注册表 7 2.3.1 表(Table)的概念...
recommend-type

Flink实战:用户行为分析之热门商品TopN统计

按一小时的窗口大小,每 5 分钟统计一次,做滑动窗口聚合(Sliding Window) 按每个窗口聚合,输出每个窗口中点击量前 N 名的商品 实现 创建maven项目,命名UserBehaviorAnalysis,其pom内容如下: 4.0.0 ...
recommend-type

面向Flink的多表连接计算性能优化算法

面向Flink的多表连接计算性能优化算法,李旺,双锴,分布式计算引擎Flink已经被广泛应用到大规模数据分析处理领域,多表连接是Flink常见作业之一,因此提升Flink多表连接的性能能够加速数
recommend-type

node-v0.10.31-sunos-x86.tar.gz

Node.js,简称Node,是一个开源且跨平台的JavaScript运行时环境,它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立,旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎,可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型,这使得它非常适合处理大量并发连接,从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外,Node.js使用了模块化的架构,通过npm(Node package manager,Node包管理器),社区成员可以共享和复用代码,极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展,它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等,因此,开发者可以用JavaScript编写全栈应用程序,这一点大大提高了开发效率和便捷性。 在实践中,许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台,如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能,简化了开发流程,并且能更快地响应市场需求。
recommend-type

zigbee-cluster-library-specification

最新的zigbee-cluster-library-specification说明文档。
recommend-type

管理建模和仿真的文件

管理Boualem Benatallah引用此版本:布阿利姆·贝纳塔拉。管理建模和仿真。约瑟夫-傅立叶大学-格勒诺布尔第一大学,1996年。法语。NNT:电话:00345357HAL ID:电话:00345357https://theses.hal.science/tel-003453572008年12月9日提交HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire
recommend-type

实现实时数据湖架构:Kafka与Hive集成

![实现实时数据湖架构:Kafka与Hive集成](https://img-blog.csdnimg.cn/img_convert/10eb2e6972b3b6086286fc64c0b3ee41.jpeg) # 1. 实时数据湖架构概述** 实时数据湖是一种现代数据管理架构,它允许企业以低延迟的方式收集、存储和处理大量数据。与传统数据仓库不同,实时数据湖不依赖于预先定义的模式,而是采用灵活的架构,可以处理各种数据类型和格式。这种架构为企业提供了以下优势: - **实时洞察:**实时数据湖允许企业访问最新的数据,从而做出更明智的决策。 - **数据民主化:**实时数据湖使各种利益相关者都可
recommend-type

SPDK_NVMF_DISCOVERY_NQN是什么 有什么作用

SPDK_NVMF_DISCOVERY_NQN 是 SPDK (Storage Performance Development Kit) 中用于查询 NVMf (Non-Volatile Memory express over Fabrics) 存储设备名称的协议。NVMf 是一种基于网络的存储协议,可用于连接远程非易失性内存存储器。 SPDK_NVMF_DISCOVERY_NQN 的作用是让存储应用程序能够通过 SPDK 查询 NVMf 存储设备的名称,以便能够访问这些存储设备。通过查询 NVMf 存储设备名称,存储应用程序可以获取必要的信息,例如存储设备的IP地址、端口号、名称等,以便能
recommend-type

JSBSim Reference Manual

JSBSim参考手册,其中包含JSBSim简介,JSBSim配置文件xml的编写语法,编程手册以及一些应用实例等。其中有部分内容还没有写完,估计有生之年很难看到完整版了,但是内容还是很有参考价值的。
recommend-type

"互动学习:行动中的多样性与论文攻读经历"

多样性她- 事实上SCI NCES你的时间表ECOLEDO C Tora SC和NCESPOUR l’Ingén学习互动,互动学习以行动为中心的强化学习学会互动,互动学习,以行动为中心的强化学习计算机科学博士论文于2021年9月28日在Villeneuve d'Asq公开支持马修·瑟林评审团主席法布里斯·勒菲弗尔阿维尼翁大学教授论文指导奥利维尔·皮耶昆谷歌研究教授:智囊团论文联合主任菲利普·普雷教授,大学。里尔/CRISTAL/因里亚报告员奥利维耶·西格德索邦大学报告员卢多维奇·德诺耶教授,Facebook /索邦大学审查员越南圣迈IMT Atlantic高级讲师邀请弗洛里安·斯特鲁布博士,Deepmind对于那些及时看到自己错误的人...3谢谢你首先,我要感谢我的两位博士生导师Olivier和Philippe。奥利维尔,"站在巨人的肩膀上"这句话对你来说完全有意义了。从科学上讲,你知道在这篇论文的(许多)错误中,你是我可以依