改进的CLIQUE算法:数据流聚类研究

需积分: 14 1 下载量 51 浏览量 更新于2024-09-06 收藏 194KB PDF 举报
"这篇论文探讨了基于网格和密度的数据流聚类算法,主要针对数据流聚类的挑战,如非球状数据集、历史信息查询和演化分析。作者胡燕和李敏提出改进了CLIQUE算法,引入新的摘要数据结构,使网格能够同时记录统计和空间信息,以解决传统算法的不足。" 在数据挖掘领域,数据流聚类已经成为一个重要的研究领域,尤其是在面对大规模、高速流动的数据时。传统的静态数据处理方法已经无法满足需求,数据流的特性——快速、大量、随机且只能一次性访问——催生了专门针对数据流的挖掘技术。数据流聚类旨在在数据流中发现潜在的模式和结构,帮助理解和分析这些动态变化的数据。 本文提到的几种经典数据流聚类算法,如STREAM、CluStream和D-Stream,各有特点。STREAM和CluStream基于K-means算法,适合处理增量式数据,后者还支持演化分析。D-Stream则采用了密度网格方法,能够有效减少处理的数据量并识别非球状数据集。然而,K-means对非球形数据的处理效果不佳,而网格法可能导致信息丢失。 针对以上问题,论文提出了改进的基于密度和网格的CLIQUE算法。CLIQUE算法最初是一种静态数据聚类方法,但在本文中被适应于数据流环境。通过新的数据结构,网格不仅记录数据流的统计信息,还能够捕获空间信息,从而更好地处理非球状数据,并保持对历史信息的查询能力。此外,该算法还能进行演化分析,跟踪数据流的变化。 在算法设计中,作者定义了数据流的基本概念,包括数据记录、到达时间和维度等。这些定义为后续算法描述提供了基础。通过改进的算法,目标是创建一个对非球状数据集敏感,能处理历史查询,并能进行演化分析的高效聚类工具。 这篇论文对数据流聚类算法进行了深入研究,特别是解决了传统算法在处理非球状数据和信息丢失上的问题,提高了数据流聚类的准确性和适用性。这一工作对于理解动态数据集、实时监控和预测趋势等方面具有实际应用价值。