半监督K-means主动学习聚类算法的研究与应用

需积分: 22 4 下载量 92 浏览量 更新于2024-09-06 1 收藏 443KB PDF 举报
"这篇论文是关于一种改进的聚类算法,即基于半监督K-means的主动学习聚类算法,由孙凯和孟祥武共同研究。他们针对传统K-means算法对初始聚类中心敏感以及处理不规则聚类簇效果不佳的问题,提出了一种新的解决方案。该算法结合了半监督学习的思想,旨在提高聚类的准确性和适应性。通过在UCI数据集和实际数据集上的实验,证明了该算法在F1-measure指标上的性能优于其他算法,从而提高了分类精度。研究主要涉及K-means算法、聚类算法、机器学习以及噪声过滤等领域。" 本文研究的核心是解决K-means算法的局限性。K-means算法是一种广泛应用的无监督学习方法,它依赖于初始聚类中心的选择,一旦选择不当,可能会影响最终的聚类结果。此外,对于形状不规则或者大小不均的聚类簇,K-means的表现通常不尽如人意。为了解决这些问题,论文提出了基于半监督K-means的主动学习算法。在该算法中,首先通过半监督学习的方法预估每个类别的中心,这有助于减少对初始聚类中心选择的依赖。接着,通过循环迭代过程中动态调整特征值权重,使算法能更好地适应指定的聚类任务。 在迭代过程中,算法能够对不规则聚类簇进行更精确的中心调整。通过每次迭代影响多个类簇中心,而不是仅仅局限于单个中心,使得聚类过程更加灵活且适应性强。这有助于改善对不规则数据分布的聚类效果。 实验部分,论文在UCI的20Newsgroups数据集以及真实世界的数据集上进行了验证。结果显示,提出的算法在F1-measure这个衡量分类精度的指标上,相比于其他传统的聚类算法,表现出了显著的提升。这表明该算法在处理复杂和不规则数据集时,具有更好的性能和准确性。 这篇研究提供了一种改进的聚类策略,通过结合半监督学习和主动学习,提高了K-means聚类的鲁棒性和适应性,尤其对于处理噪声和不规则数据有很好的应用潜力。这对于机器学习领域的数据挖掘和分类任务具有重要的理论和实践意义。