
计算机科学
2007Vo
l.
34NQ.
3
基于网格的数据流聚类算法兴)
刘青宝戴超凡邓苏张维明
(国防科学技术大学信息系统与管理学院
长沙
410073)
摘 要
本文提出的基于网格的数据流聚类异法,克服了算法
CluStream
对非球形的聚类效采不好等缺陷,不仅能在
噪声干扰下发现任意形状的类,而且有效地解决了聚类算法参数敏感和聚类结果无法区分密度差异等问题。
关键词
聚类,数据流,聚类参数,相对密度
Grid-based
Data
Stream
Clustering
Algorithm
LIU
Qing-Bao DAI
ChaσFan
DENG
Su
ZHANG
Wei-Ming
(Co
llege
of
Inforrnation System and Management, National University
of
Defense Technology,Changsha 410073)
Abstract
With
strong
ability for discovering arbitrary shape
clust
巳
rs
and handling noise, grid-based
data
stream
cluste
ring algorithm efficiently resolves these problem
of
being very sensitive
to
the
user-defined
par
缸丑
eters
and difficult to
distinguish
the
density distinction of clusters.
Keywords Clustering
,
Data
stream
, Clustering parameter, Relative density
随着计算机和传感器技术的发展和应用,数据流挖掘技
术在国内外得到广泛研究。它在网络监控、证券交易分析、电
信记录分析等方面有着巨大的应用前景。特别在军事应用
中,为了获得及时的战场态势信息,大量使用了各种传感器,
对这些传感器数据流的分析处理已显得极为重要。针对数据
流数据持续到达,且速度快、规模大等特点,数据流挖掘技术
的研究重点是设计高效的单遍数据集扫描算法
[12J
。数据流
聚类问题一直是吸引许多研究者关注的热点问题,已提出多
种一次性扫描的方法和算法,如文
[1~4J
等等,但它们的聚类
结果通常是球形的,不能支持对任意形状类的聚类囚。
本文提出的基于网格的数据流聚类算法,在有限内存条
件下,以单遍扫描方式,不仅能在噪声干扰下发现任意形状的
类,而且有效地解决了基于绝对密度聚类算法所存在的高密
度聚类结果被包含在相连的低密度聚类结果中的问题。
本文第
1
节简要介绍数据流聚类相关研究,并引出基于
网格的数据流聚类算法的思路及其与相关研究的异同;第
2
节给出基于网格的数据流聚类算法所使用到的基本概念;第
3
节给出一个完整的基于网格的数据流聚类算法,详细解析
算法的执行过程;第
4
节进行算法性能分析对比;最后总结本
文的主要工作和贡献,并指出需要进一步研究和改进的工作。
1
相关研究
在有限内存约束下,一般方法很难对数据流进行任意形
状的聚类。第一个增量式聚类挖掘方法是文
[6J
提出的
In
crementalDBSCAN
算法,它是一个用于数据仓库环境(相对
稳定的数据流)的有效聚类算法,可以在有噪声的数据集中发
现任意形状的类。但是,它为了形成任意形状的类,必须用类
中的所有点来表示,要求获得整个数据流的全局信息,这在内
存有限情况下是难以做到的。而且,它采用全局一致的绝对
密度作参数,使得聚类结果对参数值非常敏感,设置的细微不
同即可能导致差别很大的聚类结果。
Aggarwal
在
2003
年提出的一个解决数据流聚类问题的
框架
CluStream
Ct
J
。它使用了两个过程来处理数据流聚类问
题:首先,使用一个在线的
rnicr
o-
cluster
过程对数据流进行初
级聚类,并按一定的时间跨度将
micr
o- cluster
的结果按一种
称为
pyrarnid
time
frame
的结构储存下来。同时,使用另一
个离线的
macro
卢
cluster
过程,根据用户的具体要求对
rnicr
o
cluster
聚类的结果进行再分析。但它采用距离作为度量参
数,聚类结果通常是球形的,不能支持对任意形状类的聚类。
而且,它维护的是
micr
o-
cluster
的聚类特征向量
CCF
2
x;
CF
1
x;CPt;C
Fl
t;
n)
,这在噪声情况下,会产生干扰误差。
2006
年,
Feng
Cao
等人在文
[5J
中提出了针对动态进化
数据流的
DenStream
算法。它相对
CluStream
有很大的改
进,继承了
IncrementaIDBSCAN
基于密度的优点,能够支持
对有噪声的动态进化(非稳定)的数据流进行任意形状的聚
类。但由于采用全局一致的绝对密度作参数,使得聚类结果
对参数值非常敏感。同时,与
CluStream
算法相比,它只能提
供对当前数据流的一种描述,不能反映用户指定时间窗内的
流数据的变化情况。
朱蔚恒等在文
[13J
中提出的基于密度与空间的
ACluS
tream
聚类算法,通过引入有严格空间的意义聚类块,在对数
据流进行初步聚类的同时,尽量保留数据的空间特性,有效克
服了
CluStream
算法不能支持对任意形状聚类的缺陷。但它
在处理不属于已有聚类块的新数据点时,使用一种类似"抛硬
币"的方法来猜测是否为该点创建一个新的聚类块,误差较
大。而且它以绝对密度做参考,所以在聚类结果中无法区分
密度等级不同的簇的。
本文提出的基于网格的数据流聚类算法
GClustream
长)国家自然科学基金
(60172012)
。刘青宝博士生,副教授,主要研究方向为数据仓库技术和数据挖掘;戴超凡博士,副教授,主要研究方向
为数据仓库技术和数据挖掘;邓
苏博士,教授,主要研究方向指挥自动化、信息综合处理与辅助决策;张维明
博士生导师,教授,主要研究
方向为军事信息系统、信息综合处理与辅助决策。
•
159
•