"一种基于Seeds集和成对约束的半监督聚类算法 (2012年),由常瑜、梁吉业、高嘉伟、杨静等人发表在《南京大学学报(自然科学)》上,该算法旨在利用少量监督信息提升聚类效果。" 半监督聚类是机器学习领域的重要研究方向,它通过利用少量的已知标签数据(即监督信息)来改进无监督聚类的性能。在实际应用中,由于获取大量标注数据的成本高昂,半监督学习成为解决这一问题的有效途径。该论文提出的算法特别关注了两种类型的监督信息:Seeds集和成对约束。 Seeds集是指已知类别的一小部分样本,它们在聚类过程中起到种子的作用,用于引导聚类过程。然而,传统的半监督聚类方法往往只依赖Seeds集,而忽视了另一种重要的监督信息——成对约束。成对约束指的是数据集中某些样本对之间的关系,例如“样本A属于同一类别的概率高于样本B”。这些约束有助于修正聚类结果,确保同类样本被正确地分在一起。 论文中提出的算法首先运用Tri-training策略来扩充Seeds集。Tri-training是一种自我增强的监督学习方法,它通过三个不同的分类器相互独立地进行训练,并互相校验对方的预测结果,以此来扩大有标签数据的规模。在这个半监督聚类算法中,Seeds集通过Tri-training得到扩展,增加了更多可靠的标签信息。 接下来,算法结合成对约束优化Seeds集。这意味着在扩增Seeds集的同时,也考虑了样本对之间的关系,使得Seeds集更加准确且全面地反映了数据分布。优化后的Seeds集作为指导,可以更有效地引导聚类过程,避免将不同类别的样本误分为同一簇。 实验结果显示,这种结合Seeds集和成对约束的半监督聚类算法显著提高了聚类的准确性和稳定性。它不仅充分利用了有限的监督信息,还通过优化Seeds集和考虑成对约束,提升了聚类的质量,对于处理大规模、低标注率的数据集具有较高的实用性。 这项研究为半监督聚类提供了一个创新的解决方案,通过集成Seeds集和成对约束,提高了聚类的性能,对于实际应用中的数据分类和分析具有重要价值。
下载后可阅读完整内容,剩余6页未读,立即下载
- 粉丝: 5
- 资源: 982
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦