
收稿日期: 2008唱10唱20; 修回日期: 2008唱12唱24 基金项目: 国家自然科学基金资助项目(60673136)
作者简介:郭景峰(1962唱) ,男,教授,博导,博士,主要研究方向为数据库理论及应用、多关 系数据挖掘理论;贺春亮( 1982唱) ,男,硕士 研究生,
主要研究方向为多关系数据挖掘理论、数据流查询处理( ysu2008@126.com) .
数 据 流 滑 动 窗 口 聚 集 查 询 降 载 策 略 研 究
倡
郭景峰, 贺春亮
(燕山大学 信息科学与工程学院, 河北 秦皇岛 066004)
摘 要: 滑动窗口聚集查询在数据流管理系统中应用广泛,数据流到达高峰期,必须考虑滑动窗口聚集查询中
出现的降载问题。 分析了子集模型的特点和已有降载策略的不足,给出了数据流滑动窗口聚集查询降载问题的
约束条件,提出了能保证子集结果产生的基于丢弃窗口更新策略的降载算法。 理论分析和实验结果表明,该算
法对数据流滑动窗口聚集查询降载问题的处理具有较高的有效性和实用性。
关键词: 数据流; 滑动窗口; 聚集查询; 降载; 子集模型
中图分类号: TP311 文献标志码: A 文章编号: 1001唱3695(2009)07唱2474唱04
doi:10.3969 /j.issn.1001唱3695.2009.07.020
Load shedding for sliding window aggregation queries over data streams
GUO Jing唱feng, HE Chun唱liang
( College of Information Science & Engineering, Yanshan University, Qinhuangdao Hebei 066004, China)
Abstract: Aggregation queries with sliding window are widely used in data stream management system.Load shedding must
be taken into account as data stream burst into the aggregation queries.This paper analyzed characteristics of subset model and
deficiencies of current load shedding methods.Gave restrictions of the load shedding problem, and a load shedding algorithm
based on the strategy of drop window update.It could guarantee the produce of subset result.The theoretical analysis and ex唱
periments show that the algorithm is effective and efficient for the load shedding of aggregation queries over data streams.
Key words: data stream; sliding window; aggregation queries; load shedding; subset model
数据流是以快速、无限、连续、实时的流形式出现的一种新
型数据模式,应用领域包括环境监测传感器网络
[1]
、医院中的
生命信号检测、GPS 汽车导航、互联网监控
[2]
和金融领域交易
日志分析
[3]
等。 与传统数据库管理系统( DBMS)中的查询不
同,数据流管理系统( DBMS) 中的查询称为连续查询 ( conti唱
nuous query)
[4]
。 这类查询长期处于执行状态,对数据流进行
持续计算,产生对时间敏感的查询结果。
数据流都具有数据量无限和到达速率高且不可预测的特
点,数据流系统的处理速度和主存资源却相对有限,必须考虑
数据流达到高峰期系统出现的过载问题。 处理过载问题的有
效措 施 是 降 载。 目 前, 降 载 主 要 通 过 随 机 丢 弃 ( random
drop)
[5]
和语义丢弃(semantic drop)
[6]
两种策略实现。
数据流查询处理中的降载策略问题是一个富于挑战性的
研究热点,与本文相关主要研究成果包括:文献[7] 根据目前
负载要求,提出一种在查询计划中插入或移除降载操作的技
术;文献[8] 重点放在通过降载而达到适度降低性能的适应
性,对数据流上的聚集操作遇到的过载进行了研究;文献[9]
主要是通过捕捉数据流的峰值行为来决定降载,然后在系统中
加入数据触发器,获得峰值下较准确、较满意的结果。
现实生活中,很多数据流连续查询应用对查询结果的准确
性要求很高,随着新的查询结果的产生,历史查询结果的价值
立即降为零,历史查询结果的效用将被新查询结果替代。 子集
模型在具有上述背景特征的数据流查询处理中应用广泛。
1 相关工作
1畅1 窗口模型
在数据流的连续查询中,用户通常需要限定数据流的查询
范围。 被限定的查询范围称为数据流上的窗口。 窗口模型通
常分为三类
[10]
,即快照窗口( snapshot window)
[11]
、界标窗口
(landmark window)
[12]
和滑动窗口( sliding window)
[12]
。 窗口
模型的两个重要参数是窗口大小和更新间隔;它们有两种度量
方式:基于时间度量和基于元组个数度量。
本文采用基于时间的滑动窗口对数据流进行分割。
定义 1 滑动窗口。 设 T 是一个时间长度,t >T 是一个变
化的时刻,则称 SW[t -T:t]为数据流 S 上的一个时间间隔为 T
的滑动窗口。 其中 t 和 T 的单位相同,并且 t 为相对于 S 的起
始观测时刻的时间距离。
显然,SW[t -T:t]是随时间 t 的变化而滑动,故称其为滑
动窗口。
1畅2 聚集查询
聚集查询是数据流管理系统中一种重要的查询类型。 下
面是一 个 典 型 的 类 似 于 SQL 语 句 的 数 据 流 聚 集 查 询 语
句
[13,14]
:
select AVG( price)
第 26 卷第 7 期
2009 年 7 月
计 算 机 应 用 研 究
Application Research of Computers
Vol.26 No.7
Jul.2009