USqueezer算法:不确定分类数据聚类新方法

0 下载量 72 浏览量 更新于2024-08-29 收藏 240KB PDF 举报
"该资源是一篇发表在《山东大学学报(工学版)》2011年第3期的学术论文,由张新猛和蒋盛益共同撰写。研究内容涉及不确定分类数据的聚类算法,即USqueezer算法,该算法是在Squeezer算法基础上发展而来,用于处理不确定数据的聚类问题。" 本文主要讨论了在数据挖掘领域中处理不确定分类数据的挑战。不确定数据是指那些存在模糊性、不确定性或概率性的数据,它们在实际应用中非常常见,如传感器网络数据、网络流量数据等。在这些场景中,数据的分类归属可能不是明确的,这给传统的确定性聚类算法带来了困难。 Squeezer算法是一种经典的确定性数据聚类方法,但无法直接应用于不确定数据。张新猛和蒋盛益提出的USqueezer算法,是针对不确定数据的改进版本。USqueezer首先计算每个不确定数据点与现有簇的相似度概率总和,这个概率是基于数据的不确定性和分类属性计算得出的。然后,它会比较这个概率和预设的阈值,如果概率值大于阈值,则将数据点分配到相应的簇;否则,会创建一个新的簇来容纳该数据点。这种方法保证了聚类的稳定性和准确性,同时减少了由于不确定性导致的错误归属。 实验结果证实了USqueezer算法的有效性,它在处理不确定分类数据时表现出良好的聚类性能,并且在运行内存和运行时间上具有较好的效率。这使得该算法对于处理大规模不确定数据集尤其有价值,可以在有限的计算资源下实现高效的聚类任务。 关键词中的“不确定数据”指的是研究的对象,即包含不确定信息的数据;“分类数据”是指数据按照特定类别进行组织;“数据挖掘”是通过分析大量数据发现有价值信息的过程;而“聚类”则是数据挖掘中的一个重要步骤,目标是将数据集分成不同的组或簇,使得同一簇内的数据相互相似,而不同簇之间的数据差异较大。 这篇论文贡献了一种新的不确定数据聚类方法,对不确定分类数据的处理提供了理论支持和实践工具,有助于进一步提升数据挖掘在处理不确定性问题上的能力和应用范围。