主动数据选取的半监督聚类算法提升多密度不平衡数据集精度

需积分: 13 0 下载量 195 浏览量 更新于2024-09-08 收藏 1.94MB PDF 举报
"这篇论文提出了一种新的半监督聚类算法,该算法结合了最小生成树聚类和主动学习策略,旨在解决在处理少量标签数据和多密度不平衡数据集时的聚类精度问题。通过主动学习技术选择具有丰富信息的数据点作为标签数据,并利用类KNN方法传播类别标签。实验在UCI标准数据集和模拟数据集上验证了算法的有效性,显示在处理多密度和不平衡数据集时,该算法能实现更高的聚类精度和稳定性。" 本文针对数据挖掘领域中的半监督聚类问题展开研究,特别是如何在仅有少量标签数据的情况下提高聚类的准确性。传统的半监督聚类算法在面临极少量标签数据和数据分布不均匀的情况时,其性能往往受到影响。为此,论文提出了一种新颖的半监督聚类算法,该算法融合了主动学习和最小生成树的思想。 主动学习是一种有效的数据标注策略,它允许算法在迭代过程中选择最具代表性的或最不确定的数据点请求人工标注,以此减少对大量标签数据的依赖。在该算法中,最小生成树被用来初步构建数据点之间的关系,帮助识别潜在的聚类结构。然后,通过主动学习策略,选择那些能最大化信息增益的数据点作为标签数据,从而更有效地引导聚类过程。 类KNN(K近邻)方法在此算法中用于传播类别标签。这是一种无监督的学习方法,通过查找每个数据点的最近邻居来确定其类别。在多密度和不平衡数据集中,类KNN方法能够适应不同大小和形状的聚类,有助于改善聚类的稳定性和鲁棒性。 实验部分,论文使用了UCI标准数据集和人为生成的数据集进行测试。结果显示,提出的算法相比其他方法,在处理多密度和不平衡数据集时,能够获得更高的聚类精度,而且结果更为稳定。这表明,结合主动学习和最小生成树的半监督聚类算法对于处理现实世界中的复杂数据集具有显著优势。 这篇研究为半监督聚类提供了新的视角,通过优化标签数据的选取和利用,提高了聚类效率和准确性,尤其是在处理具有挑战性的数据集时。这一工作对于数据挖掘、机器学习以及相关领域的研究有着重要的理论价值和实际应用潜力。