基于Seeds集与成对约束的半监督聚类算法研究
需积分: 23 97 浏览量
更新于2024-08-08
收藏 1.37MB PDF 举报
"一种基于Seeds集和成对约束的半监督聚类算法 (2012年),由常瑜、梁吉业、高嘉伟、杨静等人发表在《南京大学学报(自然科学)》上,该算法旨在利用少量监督信息提升聚类效果。"
半监督聚类是机器学习领域的重要研究方向,它通过利用少量的已知标签数据(即监督信息)来改进无监督聚类的性能。在实际应用中,由于获取大量标注数据的成本高昂,半监督学习成为解决这一问题的有效途径。该论文提出的算法特别关注了两种类型的监督信息:Seeds集和成对约束。
Seeds集是指已知类别的一小部分样本,它们在聚类过程中起到种子的作用,用于引导聚类过程。然而,传统的半监督聚类方法往往只依赖Seeds集,而忽视了另一种重要的监督信息——成对约束。成对约束指的是数据集中某些样本对之间的关系,例如“样本A属于同一类别的概率高于样本B”。这些约束有助于修正聚类结果,确保同类样本被正确地分在一起。
论文中提出的算法首先运用Tri-training策略来扩充Seeds集。Tri-training是一种自我增强的监督学习方法,它通过三个不同的分类器相互独立地进行训练,并互相校验对方的预测结果,以此来扩大有标签数据的规模。在这个半监督聚类算法中,Seeds集通过Tri-training得到扩展,增加了更多可靠的标签信息。
接下来,算法结合成对约束优化Seeds集。这意味着在扩增Seeds集的同时,也考虑了样本对之间的关系,使得Seeds集更加准确且全面地反映了数据分布。优化后的Seeds集作为指导,可以更有效地引导聚类过程,避免将不同类别的样本误分为同一簇。
实验结果显示,这种结合Seeds集和成对约束的半监督聚类算法显著提高了聚类的准确性和稳定性。它不仅充分利用了有限的监督信息,还通过优化Seeds集和考虑成对约束,提升了聚类的质量,对于处理大规模、低标注率的数据集具有较高的实用性。
这项研究为半监督聚类提供了一个创新的解决方案,通过集成Seeds集和成对约束,提高了聚类的性能,对于实际应用中的数据分类和分析具有重要价值。
178 浏览量
218 浏览量
307 浏览量
253 浏览量
186 浏览量
693 浏览量
weixin_38660813
- 粉丝: 5
- 资源: 982
最新资源
- witx-codegen:用于AssemblyScript,Zig等的WITX代码和文档生成器
- ml-toolkit-deployments:OCP上的KubeFlow和ODH变体的文档过程
- Daily-Challenges:每日编程器
- 基于SSM的果蔬商城系统论文+项目导入演示+源码
- Gmail-autocomplete:一个 chrome 扩展,可以在输入您自己的电子邮件 ID 时自动完成 gmail 电子邮件正文和主题。 如果您经常发送类似格式的邮件(例如每日状态报告),这会很有用
- ApplicationInsights-Python:适用于Python的Application Insights SDK
- Classifikation_regularization
- Bonn Open Synthesis System (BOSS)-开源
- adf管道触发
- epg
- associateFiles_matlab_associateFiles_
- icingaweb2-module-grafana:用于Icinga Web 2的Grafana模块(支持InfluxDB和Graphite)
- svm+tdm_gcc.zip
- MakeBSSGreatAgain-Auth-API:MakeBSSGreatAgain项目的身份验证API
- 3d-convex-hulls:使用 OpenCL 对 3D 凸包的极简分治算法进行自下而上的适配
- QMtrim:AviSynth的简单量化运动Trim()生成器-开源