高维不确定数据流聚类：基于粗糙模糊集的HFMicro算法

需积分: 10 69 浏览量更新于2024-08-11 收藏 523KB PDF 举报

"基于粗糙模糊集的不确定数据流聚类算法* (2014年)" 在数据挖掘领域，数据流聚类是一种处理连续且不断变化的数据流的方法，它旨在从大量流动数据中发现潜在的模式和结构。面对高维度和高不确定性的数据流，传统的聚类算法往往面临挑战。2014年，姜元凯和郑洪源发表的研究工作提出了一种名为HFMicro的新算法，专门用于解决这类问题。 HFMicro算法的核心是引入了粗糙模糊集理论。粗糙模糊集是模糊集理论与粗糙集理论的结合，它能够有效地处理不确定性和不精确性。在该算法中，数据流被建模为一种新的不确定模型，其中每个数据点的属性值可能带有不确定性。通过定义数据点的隶属度的上近似和下近似，可以描述这种不确定性，这有助于识别和刻画数据中的微簇（micro-cluster）。微簇是数据流聚类中的基本单元，通常表示为小规模的紧密集合。在HFMicro算法中，通过比较不同微簇之间的粗糙模糊集相似度，可以选择最合适的微簇进行合并，从而形成更高级别的聚类。这种方法确保了即使在数据不确定性较高的情况下，也能识别出稳定且有意义的聚类结构。为了提高算法的效率，HFMicro采用动态衰减窗口模型。这一模型能够动态地处理过去的数据，同时保持对最近数据的敏感性。通过设定一个窗口大小和衰减因子，较旧的数据点的影响会逐渐减弱，而较新的数据点则会得到更多的关注，这确保了算法在处理大量数据时的实时性能。实验结果显示，HFMicro算法在处理高维和高不确定性的数据流时表现出色，能有效兼容属性级和级别不确定性的数据。与传统的数据流聚类算法相比，HFMicro在聚类质量和运行效率上都具有优势。这一成果对于理解和应用不确定数据流聚类，特别是在实时数据分析和复杂环境监控等场景中，具有重要的理论和实践价值。基于粗糙模糊集的不确定数据流聚类算法HFMicro提供了一种有效且适应性强的解决方案，它不仅能够应对高维数据和不确定性，还通过引入动态衰减窗口模型提高了处理速度和实时性。这项工作对后续的不确定数据处理和数据流聚类研究产生了积极影响，推动了相关领域的进步。

姜元凯，郑洪源.基于粗糙模糊集的不确定数据流聚类算法[J].计算机科学与探索，2014，8（12）：1494-1501.

基于粗糙模糊集的不确定数据流聚类算法

􀆽

姜元凯

，郑洪源

南京航空航天大学计算机科学与技术学院，南京 210016

Clustering Algorithm over Uncertain Data Streams Based on Rough Fuzzy Set

􀆽

JIANG Yuankai

, ZHENG Hongyuan

College of Computer Science and Technology, Nanjing University ofAeronautics andAstronautics, Nanjing 210016, China

+ Corresponding author: E-mail: jyk0712@163.com

JIANG Yuankai，ZHENG Hongyuan. Clustering algorithm over uncertain data streams based on rough fuzzy

set. Journal of Frontiers of Computer Science and Technology, 2014, 8(12)：1494-1501.

Abstract: To solve data streams clustering problems of high dimensionality and high uncertainty level, this paper

proposes an algorithm named HFMicro. The rough fuzzy set theory is introduced to define a new uncertain model of

data streams, and the upper and lower approximations of the membership degree are used to describe micro-clusters.

The most suita ble micro-cl usters are selected accord ing to the similar ity degree between rough fuzz y sets. Dynamic

window of decay model is applied to ach ieve good algorithmic efficiency and clustering performance. Offline clus-

tering model makes the alg orithm have good real-time performance. The experimental results show tha t the algo-

rithm can handle the data s treams with high dim ensionality and uncertainty level, and can proc ess the dat a streams

having existent uncertainty and property uncertainty at the s ame ti me. In comparison with the existing algori thms,

HFMicro has better performance.

Key words: uncertain data streams; rough fuzzy set; clustering; membership degree

摘要：为解决高维和高不确定级别的数据流聚类问题，提出了一种针对不确定数据流的聚类算法 HFMicro。

引入粗糙模糊集理论，定义了一种新的不确定数据流模型，并利用隶属程度的上、下近似来描述微簇。根据粗

糙模糊集间的相似程度来选择最合适的微簇。使用动态衰减窗口模型提高算法的效率和聚类效果。由于采

用了离线聚类模式，使得算法具有较好的实时性。实验结果表明，该算法能够很好地处理高维和高不确定级

ISSN 1673-9418 CODEN JKYTA8

Journal of Frontiers of Computer Science and Technology

1673-9418/2014/08(12)-1494-08

doi: 10.3778/j.issn.1673-9418.1408010

E-mail: fcst@vip.163.com

http://www.ceaj.org

Tel: +86-10-89056056

* The Union Innovation Fund Projects of Jiangsu Province under Grant No. SBY201320423 (江苏省产学研联合创新资金项目).

Received 2014-08, Accepted 2014-10.

CNKI网络优先出版：2014-10-17, http://www.cnki.net/kcms/doi/10.3778/j.issn.1673-9418.1408010.html

下载后可阅读完整内容，剩余7页未读，立即下载

weixin_38608693

粉丝: 2
资源: 907

高维不确定数据流聚类：基于粗糙模糊集的HFMicro算法

一种基于 Hash 函数抽样的数据流聚类算法1

基于聚类算法的消费行为分析系统设计

基于CS算法的模糊聚类

DPC聚类算法与CDP聚类算法

matlab模糊c均值聚类算法程序包

基于模拟退火算法的FCM聚类算法

聚类算法和空间聚类算法的区别

kmeans聚类算法跟层次聚类算法有什么区别

最新资源