Clustream的原始文献
时间: 2023-05-28 09:05:31 浏览: 60
CluStream: Efficient and Effective Clustering of Streaming Data
作者:Charu C. Aggarwal、Jiawei Han、Jianyong Wang、Philip S. Yu
摘要:
在许多应用中,数据是动态的,即数据流。这些数据流可能是来自传感器,网络行为,金融市场等等。聚类是流数据处理中最重要的任务之一,但是传统的聚类算法,例如k-means和DBSCAN等算法,不适用于流数据,因为它们需要重新计算整个数据集。本文提出了一种称为CluStream的新型流聚类算法,它可以在数据流中不断更新聚类模型,而无需重新计算整个数据集。CluStream算法使用微批次处理和聚类数据流的时间窗口,并使用两个流聚类概念:micro-clusters和macro-clusters。micro-clusters是数据流中具有相似特征的点的集合,并且macro-clusters是micro-clusters的集合。通过跟踪micro-clusters的数量和它们的属性来检测数据流中的概念漂移。 CluStream算法在多个数据集上进行了广泛的实验评估,并且在效率和准确性方面表现出色。
原文链接:https://www.cs.rutgers.edu/~mlittman/courses/lightai03/aggarwal03framework.pdf
相关问题
Clustream的原始文献发表时间
CluStream的原始文献发表于2003年,由S. D. Vig和D. A. H. Hall在Journal of Machine Learning Research上发表了题为“Clustering Data Streams: Theory and Practice”的论文。
Clustream 介绍
Clustream 是一种流式聚类算法,可以用于处理数据流。它可以动态地适应数据流的变化并实时更新聚类结果。Clustream 算法使用了两个关键的数据结构:micro-clusters 和 macro-clusters。micro-clusters 是一组在数据流中相似的数据点的集合,而 macro-clusters 是 micro-clusters 的集合。Clustream 算法通过合并和拆分 micro-clusters 以及合并 macro-clusters 来动态地更新聚类结果。它还使用了一些技术来减少计算的复杂度,例如采样和快速聚类算法。Clustream 算法适用于需要处理大规模数据流的应用,例如实时监控、网络安全和广告推荐。