收 稿日期 : 2008-01-28; 修 回日期 : 2008-04-14 基 金项 目: 国 家自 然科学 基金 资助项 目( 60172012)
作 者简介 : 何勇( 1980- ) , 男 , 四川射 洪人, 硕 士研究 生, 主要 研究 方向 为 决策 支 持技 术 ( heysl@ 126. com) ; 刘 青 宝 ( 1967- ) , 男, 江 西 永 新 人, 副
教授, 博士 , 主 要研 究方向 为数 据仓库 技术 和数据 挖掘.
基 于 动 态 网 格 的 数 据 流 聚 类 分 析
*
何 勇, 刘青宝
( 国防 科学 技术 大学 信 息系 统与管 理学 院, 长 沙 410073)
摘 要: 提 出的 增量 式数 据流 聚类 算法 DGCDS结合网 格和 密度 技术 , 能 够得 到任 意形 状的 聚类, 通 过 改进 网 格
密度 的计 算方 式, 解决 了现 有网 格算法 中丢 失数 据空 间影 响信 息的 问题 , 并 且实 现了 关键 参数 的自 适 应 设置 , 减
小了 人工 参数 对聚类 结果 的影 响。
关键 词: 动态网 格; 网 格密 度; 数 据流 聚类 ; 聚类 参数
中图 分类 号: TP391 文献标 志码: A 文章编 号: 1001-3695( 2008) 11-3281-04
Dynamic grid-based clustering over data stream
HE Yong, LIU Qing-bao
( College of Information System & Management, National University of Defense Technology, Changsha 410073, China)
Abstract: This paper presented an incremental data stream clustering algorithm( DGCDS) based on grid and density, which
discovered clusters with arbitrary shape. It solved a problem that losing space influence of data in some of grid-based algo-
rithms with improving the method of density calculation, and this algorithmalso set key parameter automatically to reduce the
influence of factitious parameter.
Key words: dynamic grid; grid density; datastreamclustering; clustering parameter
0 引言
随着硬件技术 的飞 速 发展, 人 们 获取 数据 的 能力 越 来 越
高, 获取数据的领域越来 越广, 数据形 态也从 静止的 数据转 为
海量、源源不断的数据流数据。比如通信领域的通话记录数据
流、网络监控中的数据包 流, 金 融领域 和零售 企业的 交易数 据
流, 以及近几年发展起来的传感器网络等产生的大量数据流。
数据流一经提出就引起了研究者的广泛关注。目前, 数据
流研究 大 致 可 分 为 两 个 方 面: 数据 流 管 理 系 统 ( data stream
management system, DSMS) 和数据流挖 掘
[ 1]
。数 据流聚类由 于
在网络监控、银行交易数据分析等方面的重要应用价值而成为
数据流挖掘的一个重要研究方向, 已提出多种一次性扫描聚类
算法, 如 STREAM 算 法
[ 2]
、CluStream 算 法
[ 3]
和 HPStream 算
法
[ 4]
, 以及基于它们的一些 衍生算 法。 但总的 来说, 现有数 据
流算法基本上都是对静态数据集算法的改进。
1 相关研究
数据流的特性要求算法必 须是内 存限制 下的实 时增量 更
新算法。第一个增 量更 新聚 类 算法 是用 于 数据 仓 库的 Incre-
mentalDBSCAN算法
[ 5]
, 然而该算法仅 适用于 处理 数据 仓库 这
种相对稳定的数据流, 不能处理变化很快的数据流。同时为了
得到任意形状的聚类, 要 求获得 整个数 据流的 信息, 这在内 存
有限 的 情 况 下 是 无 法 做到 的。 L. O'Callaghan 等 人
[ 2]
提 出 的
STREAM算法采取分而治之( divide and conquer) 的思 想, 将 数
据流划分为多个段, 算法对每段分别聚类。该算法在整个数据
流上进行计算, 每次都要 积累一 定数目 的数据 后才进 行处理,
是一个数据流上的静态算法, 因此不能反映出数据流的变化情
况。Aggarwal 等人
[ 3]
提出的 CluStream算法将数据流聚类分 为
在线聚集和离线分析两部 分。 在线过 程对数 据流进 行初级 聚
类; 离线过程根据用户需 求对在 线得到 的初级 聚类进 行分析。
在此基础上, Aggarwal 等人
[ 4]
在 2004 年又 提出了 HPStream算
法。该算法采用投影的方式解决数据流的高维聚类问题, 动态
地选择使聚类体积最小的那些维与聚类关联, 实现了一个子空
间的聚类算法, 并使 用衰 减 因子 随 时间 推移 不 断衰 减历 史 数
据, 并在聚类数目过多时, 删除最早加 入的聚类。CluStream和
HPStream算法都采用 了 K-means 思想, 得到 的 聚 类结 果 通 常
都是球形的, 不 能 得到 任意 形 状的 聚 类。 朱蔚 恒 等人
[ 6]
提 出
基于密度与空 间的 ACluStream聚 类 算法, 通 过 引入 有严 格 空
间意义的聚类块, 在对数据 流进行 初步聚 类的同 时, 尽量保 留
数据的空间特性, 有 效克服 了 CluStream算法不能 支持 任意 形
状聚类的缺陷。但是它在处理 不属于 已有聚 类块的 新数据 点
时, 使用一种类似抛硬币的方法来猜测是否为新数据点创建一
个新的聚类块, 误差较大; 而且它以绝对密度作为参考, 在聚类
结果中无法区分密度等级不同的簇
[ 7]
。
对于聚类分析任务, 基于网格的聚类算法有很多理想的特
性, 如发现任意形状或任意 大小的 簇、计算结 果与数 据输入 顺
序无关、计算时间 与数 据 量无 关等
[ 8]
。 由于 基 于密 度的 聚 类
方法和基于网格的聚类方法有很好的互补性, 大部分基于网格
的方法都是 以网 格 单元 的密 度 属性 作为 聚 类依 据 的。Wave-
Cluster
[ 9]
和 CLIQUE
[ 10]
是网格聚类中的两个典 型算法。Wave-
Cluster是一种多分辨率的聚类算法, 它首先在数据空间上强加
一个多维网格结构来汇总数据, 然后采用一种小波变换来变换
第 25 卷第 11 期
2008 年 11 月
计 算 机 应 用 研 究
Application Research of Computers
Vol. 25 No. 11
Nov. 2008