纠错式主动学习成对约束半监督聚类算法

52 浏览量更新于2024-08-30 收藏 207KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"基于谱图和成对约束的主动半监督聚类算法" 本文主要探讨的是在半监督聚类学习领域中如何引入主动学习机制，以克服传统算法的局限性。作者蒋伟进、许宇晖和王欣提出了一个创新性的纠错式主动学习成对约束方法，该方法尤其关注于在数据未充分标记的情况下提高聚类效果。半监督聚类是一种机器学习方法，它利用少量的已知标签数据来指导大量未标记数据的聚类过程。然而，传统的半监督聚类算法通常不包含主动学习策略，即它们无法有效地利用未标记数据的潜在信息。为了解决这一问题，该算法提出了一种新的策略，即寻找并利用那些常规聚类算法难以识别的成对约束信息。成对约束是指数据集中两个特定样本点的归属关系，即它们应该属于同一类别或不同类别。这些约束信息可以用来改善聚类结果，特别是在数据集中的类别边界模糊或者数据分布复杂的情况下。然而，成对约束之间的关系可能相互影响，因此算法设计时需要避免这种相互依赖，确保约束的独立性。为了实现主动学习，该算法将成对约束信息引入到谱聚类中。谱聚类是一种常用的非监督学习方法，它基于数据点之间的相似度或距离构建图谱，并通过最小化图谱的切割值来划分簇。通过调整距离矩阵，算法使得在考虑成对约束后，相关点之间的距离能正确反映它们的类别关系。此外，算法采用双向寻找策略，即使在接收未标记数据时，也能有效地更新学习器，使其持续学习和改进。实验结果显示，该主动半监督聚类算法在处理各种数据集时，能够得到较为满意且精确的聚类结果。这表明，结合了主动学习和成对约束的策略能够在减少人工标注需求的同时，提升聚类性能，尤其适用于大规模数据集和有限标注资源的场景。总结起来，这篇论文提出了一种基于谱图和成对约束的主动半监督聚类算法，通过巧妙地整合主动学习和约束信息，优化了聚类过程，提高了未标记数据的利用效率。这种方法对于处理现实世界中的复杂数据集具有重要的理论价值和实际应用潜力。

资源详情

资源推荐

第 28 卷第 6 期

Vol. 28 No. 6

控制与决策

Control and Decision

2013 年 6 月

Jun. 2013

基于谱图和成对约束的主动半监督聚类算法

文章编号: 1001-0920 (2013) 06-0904-05

蒋伟进

1,2

, 许宇晖

, 王欣

(1. 湖南商学院计算机与信息工程学院，长沙 410205；2. 武汉理工大学计算机科学与

技术学院，武汉 430070；3. 湖南工业大学电气自动化学院，湖南株洲 412008)

摘要: 针对半监督聚类学习算法中缺乏主动学习的缺陷, 提出一种纠错式主动学习成对约束方法. 算法通过寻找

一般聚类算法自身难以发现的成对约束信息, 同时避免这部分约束信息之间本身的关系, 将其引入谱聚类算法, 利用

该监督信息调整谱聚类中点与点之间的距离矩阵对两点间距离进行排序, 采用双向寻找的方法, 使得学习器即使接

收到没有标记的数据也能进行主动学习. 实验分析表明, 所提出算法能够获得较为满意的聚类效果.

关键词: 半监督聚类；主动式学习；成对约束；谱聚类

中图分类号: TP273 文献标志码: A

Active semi-supervised clustering algorithm based-on pair-wise

constraints

JIANG Wei-jin

1,2

, XU Yu-hui

, WANG Xin

(1. School of Computer and Information，Hu’nan University of Commerce，Changsha 410205，China；2. School of

Computer Science and Technology，Wuhan University of Technology，Wuhan 430070，China；3. School of Electric

Automatization，Hu’nan University of Technology，Zhuzhou 412008，China. Correspondent：JIANG Wei-jin，E-mail:

nudtjwj@163.com)

Abstract: An active learning algorithm based on pair-wise constraints with error correction is proposed in this paper. The

algorithm searches the pair-wise constraints information that the clustering algorithm cann’t ﬁnd, and tries its best to reduce

the connections between these constraint informations, which is used in the spectral clustering. The suppervised information

is used to adjust the distance matrix in the spectral clustering, and the distances are sorted. The learninger can study actively

when the learinger receives the data without ﬂags by using the two-way search method. Experiment analysis shows that

better clustering result can be obtained by using the proposed method.

Key words: semi-supervised clustering；active learning；pairwise constraint；spectral clustering

0 引引引言言言

信息技术的迅猛发展极大地帮助人们提高了数

据收集、数据存储的能力, 在科学研究和社会生活的

各个方面都积累了海量的数据, 对这些数据进行分析

和发掘其中蕴含的有价值信息, 已经是各个领域的共

同需求. 以往的机器学习算法一般只考虑有标记数

据, 或者只考虑未标记数据, 但在现实环境中一般两

者兼有, 因此, 如何更有效地利用这些数据成为一个

亟待解决的问题. 近年发展起来的半监督学习是解决

这一问题的有效方法, 它通过广泛利用无标号数据样

本的先验知识来完成对样本数据的分类或聚类. 目

前, 应用样本的先验信息解决聚类问题已成为智能信

息处理的重要途径和研究热点

[1-6]

半监督聚类一般通过两种先验信息引导聚类过

程, 即标号点信息和成对约束信息. 由于标号点信息

可以转化为成对约束信息, 通常用成对约束信息作为

半监督聚类先验信息来监督聚类过程

[1]

. 作如下规定:

1) must-link, 若两样本为 must-link 约束, 则它们在聚

类时必须被分配到同一类中 (即 Must-link 约束要求

两个数据点必须在同一个聚类中); 2) cannot-link, 若

两样本是 cannot-link 约束, 则它们在聚类时必须被分

配到不同类中 (即 cannot-link 约束要求两个点不能在

收稿日期: 2012-02-22；修回日期: 2012-11-05.

基金项目: 国家自然科学基金项目(61074067, 21106036)；湖南省自然科学基金项目(10JJ5064, 11JJ6051)；教育部人文

社科研究一般规划基金项目(11YJAZH039)；湖南省重点学科建设项目.

作者简介: 蒋伟进(1964−), 男, 教授, 博士, 从事机器学习、智能计算等研究；许宇晖(1969−), 女, 讲师, 从事计算机控

制与应用的研究.

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38694023

粉丝: 4
资源: 976

纠错式主动学习成对约束半监督聚类算法

一种基于Seeds集和成对约束的半监督聚类算法 (2012年)

提升聚类性能：基于Seeds集和成对约束的半监督算法

基于Seeds集与成对约束的半监督聚类算法研究

纠错式主动学习成对约束半监督聚类算法优化

基于近邻传播的半监督聚类算法研究

基于卷积三叉神经网络的半监督视频对象分割算法研究

基于图卷积网络的人脸聚类方法

基于多样性和随机性的图聚类多图增量匹配方法

对比，深度嵌入图像聚类算法，深度无监督图像聚类算法，深度子空间图像聚类算法的效率，复杂度，图像聚类程度，准确率

对比，深度嵌入算法，深度无监督聚类算法，子空间聚类算法实验结果比较

无监督聚类算法matlab代码

改进的谱聚类算法有哪些

谱聚类算法和聚类算法有什么区别

基于Nyström的谱聚类算法

对比深度嵌入图像聚类算法，深度无监督图像聚类算法，子空间图像聚类算法的准确率，图像聚类程度以及效率

聚类算法和空间聚类算法的区别

DPC聚类算法与CDP聚类算法

kmeans聚类算法跟层次聚类算法有什么区别

综述常用的聚类算法（包括：单聚类算法和双聚类算法）

最新资源