高速乱序流下Top-k连续查询的新算法设计

20 浏览量更新于2024-07-14 收藏 2.03MB PDF 举报

"基于高速乱序流的Top-k连续查询算法"是一篇发表于《计算机学报》的研究论文，探讨了在现代信息技术中一个重要的问题——如何在高速乱序数据流中高效地处理Top-k连续查询。Top-k连续查询是流数据管理领域中的经典问题，其核心目标是在滑动窗口中实时找出窗口内得分最高的前k个元素。传统的解决方案假设数据按照固定的顺序到达，但在实际应用中，如物联网、社交媒体等场景，数据通常是非有序、随机到达的，这就对算法的性能提出了挑战。文章关注的是在乱序流环境中，即数据流中元素的到达顺序与预设的时间线不一致的情况下，如何设计一种算法来解决Top-k连续查询问题。不同于常规定义，作者提出的查询处理框架 GSTopK 考虑到了时序约束，旨在返回窗口内满足特定时序条件的最高得分对象。该框架的关键在于维护一个称为候选集的对象子集，窗口滑动时，新的查询结果可以在这个子集中快速找到。为了实现高效性，GSTopK 需要采取双重策略。首先，通过高效的过滤机制，对新流入窗口的数据进行筛选，剔除那些不可能成为最终查询结果的对象，从而减少候选集的更新频率，降低计算复杂度。其次，针对乱序带来的不确定性，GSTopK 应对动态变化的环境进行优化，确保即使面对无序数据，也能维持算法的性能和正确性。作者朱睿、王斌、杨晓春和王国仁都是东北大学计算机科学与工程学院的研究人员，他们分别在大数据管理、分布式数据管理、数据集成等领域有深厚背景。他们的研究得到了国家优秀青年科学基金和国家自然科学基金的支持，显示了该课题在学术界的重要性和价值。该论文的研究成果对于处理实时、大规模且具有乱序特性的数据流具有实际意义，有助于提升数据处理的实时性和准确性，适用于如在线广告推荐、金融交易监控等应用场景。通过GSTopK框架，可以有效地应对乱序流环境中的Top-k连续查询问题，为数据密集型应用提供了新的解决方案。"

?期朱睿等:基于高速乱序流的 Top-k 连续查询算法 3

加.以最具代表性的算法

[6]

为例,给定滑动窗

口 ( 表示窗口长度; 表示滑动的步长



),当处

理乱序数据时,该算法的过滤代价从增加到

.对于无法被过滤的对象,它的维护代价在

最坏情况下增加到原来的倍.除了算法,

[2]

[1,7]

等算法也能支持数据流上的连续

查询.然而,这些算法不适合在高速流环境下使用,它

们更不适合在高速乱序流环境下工作(详见 ).

为高效支持乱序环境下的 top- 查询,本文提出

查询处理框架 (Group Stack Top- ).它从候

选对象间的特征关系(如分布特征,时序特征)入

手,找到一系列可在乱序环境下工作的高效算法.

本文主要贡献总结如下:

(i)高效的乱序流数据过滤算法.当窗口滑动时,

算法需处理中的数据



(详见脚标 3).在此阶段,算法

的目标是高效过滤中的无效数据.本文首先对流

数据间的时序关系进行研究.基于此,本文提出两种

哈希函数过滤两类典型的流数据.当流数据的分值

与其流入窗口的时间无关时(简称时序无关),本文引

入恰当的概率模型构建哈希函数;当流数据的分值

与其流入窗口的时间相关时(简称时序相关),本文利

用函数拟合,skyline

[8-10]

等技术预测数据流中的峰值

进而构建哈希函数.理论分析表明,这些哈希函数不

仅能将过滤代价控制在 ,而且拥有较高的空间

效率和维护效率.

(ii)高效的候选对象缓存算法.对于中无法被

过滤的数据,本文将它们临时存放在空间中.为高

效维护这些数据,本文首先提出一种划分算法将它

们放入一组桶中.基于划分结果,本文提出一种基于

中位数搜索的算法维护各桶中的候选对象并近一

步过滤无效数据.理论分析表明,该算法可用线性时

间维护中元素.

(iii)高效的候选集合归并算法. 当中数据完

全被处理,本文将与合并.与此同时,算法近一步

寻找中的无效对象并将其删除.为高效支持上述操

作,本文首先提出一种新的数据结构 gStack 维护中

元素.以此为基础,本文提出了一种巧妙的批处理算

法实现候选集的维护.和已有算法相比,该算法不仅



给定滑动窗口 ,它可定义为以下两种形式:基于对象个数的

窗口和基于时间的窗口.本文以第一类为例进行阐述(详见 ).



给定窗口 , 本文按照步长属性将窗口划分成个子窗口

.当窗口滑动时,窗口内子窗口变为 ,算法需

要处理最后一个子窗口中的数据 ; 里被选中的候选对象放入

; 中的候选对象被放入 .

效率更高而且对数据间的时序关系不敏感. 由理论

分析可知,本文所提算法将候选对象维护代价从

降低到 (原来的倍).在高速

流环境下,因为

[6]

,所以该算法可以有效降低候

选对象的维护代价.

本文结构安排如下: 2 概述相关工作; 3 介绍问

题定义; 4 和 5 分别介绍了流数据的过滤算法和候

选集维护算法; 6 是实验分析; 7 总结全文.

2 相关工作

2.1 基于顺序数据流的连续 top-

查询

近年来,数据流环境下

[11]

的连续查询已被深入

研究.这包括连续 skyline 查询

[8-10]

,连续 top- 查询

[1,2,6,7,12]

,连续离群点监测

[13]

, 连续中位数查询

[14]

,连

续 join 查询

[15]

等等.在接下来的内容中,本文重点介

绍连续 top- 连续查询.其中,最具代表性的算法是:(i)

基于 -skyband 技术的查询算法;(ii)基于预测结果集

的查询算法.

在介绍第一类算法之前 , 本文首先介绍

-skyband 技术的相关概念.给定滑动窗口和对象

, , 如果的分值大于的分值且

晚于到达窗口,本文称支配 . ,如果它不

被 k 个对象支配,本文称为 -skyband 对象;否则,本

文称之为非 -skyband 对象.如[1,2]所示,非 -skyband

对象永远不会成为查询结果.换句话说,查询结果一

定出现在 -skyband 对象集合中.

基于 -skyband 技术的算法又可分为以下两种:

(i)维护部分高分值 -skyband 对象的算法;(ii)维护窗

口中所有 -skyband 对象的算法.最具代表性的第一

种算法是算法

[6]

.它的核心思想是额外分配空

间维护窗口中分值最高的 ( )个对象

间的支配关系.这样做的好处是:(i)当有查询结果流

出窗口时,如果 > ,算法可从候选集中找到新的查

询结果;(ii)如果算法发现中有对象被个对象支

配,算法可以安全地移除它们从而提高空间效率.然

而,当 < 时,算法需要扫描窗口以便重新构造候选

集.值得一提的是,当窗口内对象分值呈倾斜分布时,

重新扫描操作会频繁发生,这会消耗大量的计算代

价.在高速流环境下,由于算法需要实时处理大量数

据,该算法显然不适合在高速流环境中使用.第二种

基于 -skyband 技术的算法是维护窗口中所有

-skyband 对象(称为算法).虽然它可以避免

重新扫描窗口

[6,7]

,但是它需要维护所有 -skyband 对

象间的支配关系.因为对象间支配关系的维护代价

剩余14页未读，继续阅读

weixin_38569569

粉丝: 7
资源: 931

高速乱序流下Top-k连续查询的新算法设计

一种海量分布式数据Top-k查询算法.pdf

查资料分析 二分K-means算法、mini-batch K-means算法和K-means++算法是改进了原生K-means算法的哪些方面

查资料分析 二分K-means算法、mini-batch K-means算法和K-means++算法是改进了原生K-means算法的哪些方面，并描述他们的算法流程。

基于流形距离的k-means聚类算法

基于顶帽变换算法的top-hat传统算法

K-means++算法与K-means算法有什么区别？

06 聚类算法 - 代码案例二 - K-Means算法和Mini Batch K-Means算法比较

基2-DIT-FFT算法与基2-DIF-FFT算法所用的流图是一样的

item-cf算法和top-n算法的区别

联邦学习TOP-K算法实现

最新资源

查资料分析二分K-means算法、mini-batch K-means算法和K-means++算法是改进了原生K-means算法的哪些方面

查资料分析二分K-means算法、mini-batch K-means算法和K-means++算法是改进了原生K-means算法的哪些方面，并描述他们的算法流程。