基于Seeds集与成对约束的半监督聚类算法研究

需积分: 23 4 下载量 97 浏览量 更新于2024-08-08 收藏 1.37MB PDF 举报
"一种基于Seeds集和成对约束的半监督聚类算法 (2012年),由常瑜、梁吉业、高嘉伟、杨静等人发表在《南京大学学报(自然科学)》上,该算法旨在利用少量监督信息提升聚类效果。" 半监督聚类是机器学习领域的重要研究方向,它通过利用少量的已知标签数据(即监督信息)来改进无监督聚类的性能。在实际应用中,由于获取大量标注数据的成本高昂,半监督学习成为解决这一问题的有效途径。该论文提出的算法特别关注了两种类型的监督信息:Seeds集和成对约束。 Seeds集是指已知类别的一小部分样本,它们在聚类过程中起到种子的作用,用于引导聚类过程。然而,传统的半监督聚类方法往往只依赖Seeds集,而忽视了另一种重要的监督信息——成对约束。成对约束指的是数据集中某些样本对之间的关系,例如“样本A属于同一类别的概率高于样本B”。这些约束有助于修正聚类结果,确保同类样本被正确地分在一起。 论文中提出的算法首先运用Tri-training策略来扩充Seeds集。Tri-training是一种自我增强的监督学习方法,它通过三个不同的分类器相互独立地进行训练,并互相校验对方的预测结果,以此来扩大有标签数据的规模。在这个半监督聚类算法中,Seeds集通过Tri-training得到扩展,增加了更多可靠的标签信息。 接下来,算法结合成对约束优化Seeds集。这意味着在扩增Seeds集的同时,也考虑了样本对之间的关系,使得Seeds集更加准确且全面地反映了数据分布。优化后的Seeds集作为指导,可以更有效地引导聚类过程,避免将不同类别的样本误分为同一簇。 实验结果显示,这种结合Seeds集和成对约束的半监督聚类算法显著提高了聚类的准确性和稳定性。它不仅充分利用了有限的监督信息,还通过优化Seeds集和考虑成对约束,提升了聚类的质量,对于处理大规模、低标注率的数据集具有较高的实用性。 这项研究为半监督聚类提供了一个创新的解决方案,通过集成Seeds集和成对约束,提高了聚类的性能,对于实际应用中的数据分类和分析具有重要价值。