基于Seeds集与成对约束的半监督聚类算法研究

需积分: 23 97 浏览量更新于2024-08-08 收藏 1.37MB PDF 举报

"一种基于Seeds集和成对约束的半监督聚类算法 (2012年)，由常瑜、梁吉业、高嘉伟、杨静等人发表在《南京大学学报（自然科学）》上，该算法旨在利用少量监督信息提升聚类效果。" 半监督聚类是机器学习领域的重要研究方向，它通过利用少量的已知标签数据（即监督信息）来改进无监督聚类的性能。在实际应用中，由于获取大量标注数据的成本高昂，半监督学习成为解决这一问题的有效途径。该论文提出的算法特别关注了两种类型的监督信息：Seeds集和成对约束。 Seeds集是指已知类别的一小部分样本，它们在聚类过程中起到种子的作用，用于引导聚类过程。然而，传统的半监督聚类方法往往只依赖Seeds集，而忽视了另一种重要的监督信息——成对约束。成对约束指的是数据集中某些样本对之间的关系，例如“样本A属于同一类别的概率高于样本B”。这些约束有助于修正聚类结果，确保同类样本被正确地分在一起。论文中提出的算法首先运用Tri-training策略来扩充Seeds集。Tri-training是一种自我增强的监督学习方法，它通过三个不同的分类器相互独立地进行训练，并互相校验对方的预测结果，以此来扩大有标签数据的规模。在这个半监督聚类算法中，Seeds集通过Tri-training得到扩展，增加了更多可靠的标签信息。接下来，算法结合成对约束优化Seeds集。这意味着在扩增Seeds集的同时，也考虑了样本对之间的关系，使得Seeds集更加准确且全面地反映了数据分布。优化后的Seeds集作为指导，可以更有效地引导聚类过程，避免将不同类别的样本误分为同一簇。实验结果显示，这种结合Seeds集和成对约束的半监督聚类算法显著提高了聚类的准确性和稳定性。它不仅充分利用了有限的监督信息，还通过优化Seeds集和考虑成对约束，提升了聚类的质量，对于处理大规模、低标注率的数据集具有较高的实用性。这项研究为半监督聚类提供了一个创新的解决方案，通过集成Seeds集和成对约束，提高了聚类的性能，对于实际应用中的数据分类和分析具有重要价值。

第

４８

卷

󰞳

第

４

期

２０１２

年

７

月

󰞳󰞳󰞳

南京大学学报

（

自然科学

）

ＪＯＵＲＮＡＬＯＦＮＡＮＪＩＮＧＵＮＩＶＥＲＳＩＴＹ

（

ＮＡＴＵＲＡＬＳＣＩＥＮＣＥＳ

）

󰞳󰞳󰞳󰞳

Ｖｏｌ．４８

，

Ｎｏ．４

Ｊｕｌ

ｙ

󰎷󰎷󰎷󰎷󰎷󰎷󰎷󰎷󰎷

󰎷

󰎷󰎷󰎷󰎷󰎷󰎷󰎷󰎷󰎷

󰎷

󰐷

２０１２

粗糙集与粒计算进展

一种基于

Seeds

集和成对约束的半监督聚类算法

󰫨

常

󰞳

瑜

１

，

２

󰫨󰫨

，

梁吉业

１

，

２

，

高嘉伟

１

，

２

，

杨

󰞳

静

１

，

２

（

１．

山西大学计算机与信息技术学院

，

太原

，

０３０００６

；

２．

计算智能与中文信息处理教育部重点实验室

，

太原

，

０３０００６

）

摘

󰞳

要

：

󰞳

半监督聚类研究如何利用少量的监督信息来提高聚类性能

，

目前已经成为机器学习领域的一

个研究热点

．

现有的大多数半监督聚类方法没有综合考虑

Ｓｅｅｄｓ

集和成对约束这两种监督信息

，

因而提

出了一种基于

Ｓｅｅｄｓ

集和成对约束的半监督聚类算法

．

该算法运用

Ｔｒｉｔｒａｉｎｉｎ

ｇ

算法扩充

Ｓｅｅｄｓ

集

，

结合

成对约束优化

Ｓｅｅｄｓ

集并指导聚类过程

．

实验结果表明

，

该算法能够有效提高聚类性能

．

关键词

：

󰞳

半监督聚类

，

Ｓｅｅｄｓ

集

，

成对约束

Asemi-su

ervisedclusterin

orithmbasedonseeds

and

air-wiseconstraints

Chan

１

，

２

，

Lian

JiYe

１

，

２

，

GaoJiaWei

１

，

２

，

Yan

Jin

１

，

２

（

１．ＳｃｈｏｏｌｏｆＣｏｍ

ｐ

ｕｔｅｒａｎｄＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏ

ｇｙ

，

ＳｈａｎｘｉＵｎｉｖｅｒｓｉｔ

ｙ

，

Ｔａｉ

ｙ

ｕａｎ

，

０３０００６

，

Ｃｈｉｎａ

；

２．Ｋｅ

ｙ

Ｌａｂｏｒａｔｏｒ

ｙ

ｏｆＣｏｍ

ｐ

ｕｔａｔｉｏｎａｌＩｎｔｅｌｌｉ

ｇ

ｅｎｃｅａｎｄＣｈｉｎｅｓｅＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎ

ｇ

ｏｆ

Ｍｉｎｉｓｔｒ

ｙ

ｏｆＥｄｕｃａｔｉｏｎ

，

Ｔａｉ

ｙ

ｕａｎ

，

０３０００６

，

Ｃｈｉｎａ

）

Abstract

：

󰞳

Ｓｅｍｉｓｕ

ｐ

ｅｒｖｉｓｅｄｌｅａｒｎｉｎ

ｇ

，

ａｋｉｎｄｏｆａ

ｐｐ

ｌｉｃａｔｉｏｎｄｒｉｖｅｎｍａｃｈｉｎｅｌｅａｒｎｉｎ

ｇ

ｍｅｔｈｏｄ

，

ｈａｓｂｅｃｏｍｅｏｎｅｏｆｔｈｅ

ｈｏｔｔｏ

ｐ

ｉｃｓｏｆａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉ

ｇ

ｅｎｃｅａｎｄ

ｐ

ａｔｔｅｒｎｒｅｃｏ

ｇ

ｎｉｔｉｏｎ．Ａｓｔｈｅｍａｉｎｂｒａｎｃｈｏｆｓｅｍｉｓｕ

ｐ

ｅｒｖｉｓｅｄｌｅａｒｎｉｎ

ｇ

，

ｓｅｍｉ

ｓｕ

ｐ

ｅｒｖｉｓｅｄｃｌｕｓｔｅｒｉｎ

ｇｇ

ｉｖｅｓａｓｍａｌｌａｍｏｕｎｔｏｆｓｕ

ｐ

ｅｒｖｉｓｉｏｎｉｎｆｏｒｍａｔｉｏｎｉｎｔｏｔｈｅｓｅａｒｃｈ

ｐ

ｒｏｃｅｓｓｏｆｏ

ｐ

ｔｉｍａｌｃｌｕｓｔｅｒｉｎ

ｇ

．

Ｒｅｃｅｎｔｌ

ｙ

，

ｋｉｎｄｓｏｆｓｅｍｉｓｕ

ｐ

ｅｒｖｉｓｅｄｃｌｕｓｔｅｒｉｎ

ｇ

ａｌ

ｇ

ｏｒｉｔｈｍｓａｒｅ

ｐ

ｒｏ

ｐ

ｏｓｅｄ

，

ｓｕｃｈａｓｍｅｔｈｏｄｓｂａｓｅｄｏｎｓｅａｒｃｈ

，

ｍｅｔｈｏｄｓ

ｂａｓｅｄｏｎｓｉｍｉｌａｒｉｔ

ｙ

，

ｍｅｔｈｏｄｓｂａｓｅｄｏｎｓｅａｒｃｈａｎｄｓｉｍｉｌａｒｉｔ

ｙ

．Ｈｏｗｅｖｅｒ

，

ｍｏｓｔｃｕｒｒｅｎｔｓｅｍｉｓｕ

ｐ

ｅｒｖｉｓｅｄｃｌｕｓｔｅｒｉｎ

ｇ

ａｌ

ｇ

ｏｒｉｔｈｍｓｄｏｎ

’

ｔｕｓｅｖａｌｕａｂｌｅｓｅｅｄｓａｎｄ

ｐ

ａｉｒｗｉｓｅｃｏｎｓｔｒａｉｎｔｓａｔｔｈｅｓａｍｅｔｉｍｅ．Ｔｈｅｒｅｆｏｒｅ

，

ａｓｅｍｉｓｕ

ｐ

ｅｒｖｉｓｅｄ

ｃｌｕｓｔｅｒｉｎ

ｇ

ａｌ

ｇ

ｏｒｉｔｈｍｂａｓｅｄｏｎｓｅｅｄｓａｎｄ

ｐ

ａｉｒｗｉｓｅｃｏｎｓｔｒａｉｎｔｓｉｓｉｎｔｒｏｄｕｃｅｄ

，

ｉｎｏｒｄｅｒｔｏｍａｋｅｆｕｌｌｕｓｅｏｆ

ｇ

ｉｖｅｎ

ｓｕ

ｐ

ｅｒｖｉｓｉｏｎｉｎｆｏｒｍａｔｉｏｎ．Ｉｎａｄｄｉｔｉｏｎ

，

Ｔｒｉｔｒａｉｎｉｎ

ｇ

ａｌ

ｇ

ｏｒｉｔｈｍｉｓａｒｅ

ｐ

ｒｅｓｅｎｔａｔｉｖｅｍｅｔｈｏｄｂａｓｅｄｏｎＣｏｔｒａｉｎｉｎ

ｇ

ｍｅｃｈａｎｉｓｍ．Ｃｏｎｓｉｄｅｒｉｎ

ｇ

ｔｈａｔＴｒｉｔｒａｉｎｉｎ

ｇ

ａｌ

ｇ

ｏｒｉｔｈｍｃａｎｕｓｅｔｈｒｅｅｃｌａｓｓｉｆｉｅｒｓｔｏｌａｂｅｌｕｎｌａｂｅｌｅｄｓａｍ

ｐ

ｌｅｓ

，

ｔｈｅ

ｐ

ｒｏ

ｐ

ｏｓｅｄａｌ

ｇ

ｏｒｉｔｈｍｗｉｌｌｕｔｉｌｉｚｅｉｔｔｏ

ｇ

ｅｔｍｏｒｅｌａｂｅｌｅｄｓａｍ

ｐ

ｌｅｓ．Ｆｉｒｓｔｌ

ｙ

，

ｂａｓｅｄｏｎＴｒｉｔｒａｉｎｉｎ

ｇ

ｍｅｔｈｏｄ

，

ｓｏｍｅｕｎｌａｂｅｌｅｄ

󰫨

󰫨󰫨

基金项目

：

国家自然科学基金

（

７１０３１００６

，

７０９７１０８０

），

国家

“

９７３

”

计划前期研究专项课题

（

２０１１ＣＢ３１１８０５

），

高等学校博士学

科点

专项科研基金

（

２０１０１４０１１１０００２

）

收稿日期

：

２０１１－０６－１５

通讯联系人

，

Ｅｍａｉｌ

：

ｃｈａｎ

ｇｙ

ｕ３６１６

＠

１２６．ｃｏｍ

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38660813

粉丝: 5
资源: 982

基于Seeds集与成对约束的半监督聚类算法研究

MATLAB数据集 seeds 分类数据.xls

Model2_Seeds小麦数据品种聚类探索.zip

seeds、wine数据集arff版

提升聚类性能：基于Seeds集和成对约束的半监督算法

论文研究-基于seeds集和频繁项集挖掘的半监督聚类算法.pdf

机器学习 聚类算法

tju机器学习算法与应用大作业-基于预处理的小麦品种的分类和聚类

机器学习算法与应用大作业-基于预处理的小麦品种的分类和聚类.zip

机器学习算法与应用大作业-基于预处理的小麦品种的分类和聚类源码+数据+项目使用说明.zip

大规模低噪音半监督K-means聚类算法：DE-Tri-training应用

最新资源

机器学习聚类算法