提升聚类性能:基于Seeds集和成对约束的半监督算法

需积分: 10 4 下载量 135 浏览量 更新于2024-09-08 1 收藏 305KB PDF 举报
本文研究的焦点是"一种基于Seeds集和成对约束的半监督聚类算法",由常瑜、梁吉业、高嘉伟和杨静四位作者合作完成。半监督聚类是一种机器学习领域的关键技术,它试图通过利用少量的有标记样本(即监督信息)来改进无监督聚类的性能,这是当前研究的热点问题。传统的方法往往忽略了Seeds集和成对约束这两种关键的监督信息来源。 Seeds集在半监督聚类中扮演着重要角色,它们是一组预先知道类别归属的小样本,对于指导聚类过程具有显著作用。然而,现有的算法往往没有充分利用这一优势。为此,研究人员提出了一种创新的方法,它首先通过Tri-training算法来扩大Seeds集,这是一种增强学习策略,旨在通过模型间的交互来提升Seeds集的代表性。 另一方面,成对约束则是指对样本间关系的限制,比如相似性或不相似性的约束,这对于形成紧凑且结构化的聚类至关重要。作者的算法结合了这两种约束,通过优化Seeds集的选择和应用,使得聚类过程更加精确和有效。这种优化过程不仅依赖于初始Seeds集,还通过对样本间的相互关系进行精细调整,从而提升了聚类的准确性。 实验结果显示,新提出的算法在实际应用中表现出了显著的优势,能够有效地提高聚类性能,尤其是在面对数据标记不足的情况下,其效果更为明显。关键词包括半监督聚类、Seeds集和成对约束,这反映了论文的核心研究内容和方法论。 这篇论文的贡献在于提供了一个新颖的半监督聚类框架,通过集成Seeds集和成对约束,为机器学习中的聚类任务开辟了一条新的途径。其潜在的应用价值和理论贡献使得它在计算机科学和数据挖掘领域具有较高的研究价值。