稀疏流形聚类与L_1正则化：有效标签错误检测方法

65 浏览量更新于2024-08-27 收藏 486KB PDF 举报

本文主要探讨了一种创新的基于稀疏流形聚类嵌入模型和L_1范数正则化的标签错误检测方法。在实际的IT领域中，尤其是在大规模数据分类和处理中，标签错误是常见的问题，这可能会影响数据分析的准确性和效率。针对这一挑战，作者提出了一个综合策略，旨在充分利用含错标签中的有价值信息以及数据内在结构中的鉴别特征。首先，稀疏流形聚类嵌入模型被用来将原始数据有效地映射到一个更易于分类的低维空间。这个过程通过捕捉数据之间的局部几何关系，使得相似的数据点在新的空间中更加紧密地聚集。通过这种方法，即使在存在错误标签的情况下，也能找到数据的潜在结构。接着，作者利用少量标注正确的样本和最近邻分类器来生成新的标签，这些标签能更好地反映数据的真实分布。这种方式可以减少错误标签对整体分析的影响，并为后续的错误检测提供更为精确的基础。构建的标签错误检测模型的核心是利用L_1范数正则化，这是一种常用的技术，用于促进模型的稀疏性。通过这种正则化，检测向量只包含0和1的元素，其中1代表正确的标签，0代表错误的标签。这样设计可以显著提高模型在识别错误标签方面的准确性。算法的设计包括一个优化算法，它不仅确保模型的正确性，还考虑了模型的鲁棒性和效率。作者提供了详细的收敛证明，确保了算法在实际应用中的稳定性和有效性。为了验证这一方法的有效性，作者进行了相关实验，结果显示该算法在处理含有错误标签的数据集时，不仅能准确检测出错误，还能有效进行修正，从而提升整个数据处理的质量。这篇研究论文提出了一个强大的工具，通过结合稀疏流形聚类嵌入和L_1范数正则化，为解决标签错误问题提供了新颖且有效的解决方案。这对于提高大数据处理的准确性和可靠性具有重要意义，对于IT行业中的数据挖掘、机器学习和模式识别等领域有着广泛的应用前景。

第 29 卷第 6 期

Vol. 29 No. 6

控制与决策

Control and Decision

2014 年 6 月

Jun. 2014

基于稀疏流形聚类嵌入模型和 𝐿

范数正则化的标签错误检测

文章编号: 1001-0920 (2014) 06-1103-06 DOI: 10.13195/j.kzyjc.2013.0318

夏建明, 杨俊安

(合肥电子工程学院 a. 通信对抗系，b. 安徽省电子制约技术重点实验室，合肥 230037)

摘要: 综合利用含错标签中的有用信息和数据结构中蕴含的鉴别信息, 提出一种基于稀疏流形聚类嵌入模型

和 𝐿

范数正则化的标签错误检测修正方法. 首先, 用稀疏流形聚类嵌入模型将数据投影到易分类的空间, 利用标注

正确的极少量样本和最近邻分类器获得新标签; 然后, 构造标签错误检测模型, 获得仅含 0、1 元素的检测向量, 正

确、错误的标签分别对应着 1、0 的位置; 最后, 给出了相应的优化算法及收敛证明, 并在相关实验上验证了算法的有

效性.

关键词: 标签错误；稀疏流形聚类嵌入；𝐿

范数正则化；凸松弛

中图分类号: TP181 文献标志码: A

Labeling errors detecting and correcting algorithm based on sparse

manifold clustering and embedding and 𝐿

norm regularization

XIA Jian-ming, YANG Jun-an

(a. Department of Communication Countermeasure，b. Key Laboratory of Electronic Restriction，Electronic Engineering

Institute，Hefei 230037，China．Correspondent：XIA Jian-ming，E-mail：jianmingeei@163.com)

Abstract: As to detect and correct the labeling errors, a labeling errors detecting and correcting algorithm based on sparse

manifold clustering and embedding and 𝐿

norm regularization is proposed. The proposed algorithm is based on the useful

information in the original labels and the natural discriminating information which is contained in the data structure. Firstly,

the original data are projected to the new space by using the sparse manifold clustering and embedding model. Then, a

nearest neighbor classiﬁer and a very small amount samples which are labeled correctly are used to obtain new labels for the

original data. Meanwhile, the constructing labeling error detection model is built and then the sparse label detection vector

which consists of 0 and 1 is obtained to modify the detection errors. The inaccurate and accurate labels correspond to 0 and

1 in the label detection vector respectively. Finally, the convex optimization scheme is introduced to solve the optimization

problem and the convergence proofs are given. The experiment results show the effectiveness of the proposed algorithm

based on the artiﬁcial data of complex manifold structure and the typical low-dimensional, high-dimensional data.

Key words: labeling errors；sparse manifold clustering and embedding；𝐿

norm regularization；convex relaxation

0 引引引言言言

信息社会中, 生物、军事、经济等领域的数据爆

炸性增长给相应的机器学习算法带来了极大的挑战.

监督型学习算法通过处理已标签的样本获得分类准

则, 如果忽略学习策略的影响, 则分类准则的好坏将

严重依赖于样本的质量. 能否获得高质量的训练数据

已成为决定机器学习效果好坏的一个重要条件. 传统

的算法往往假设样本标签是正确的, 但在实际问题中,

由于录入错误、缺乏有效信息等原因, 标签往往会发

生错误, 而标签错误对分类准则的影响要更甚于属性

中的噪声影响, 会显著恶化学习的效果

[1-3]

传统的监督学习算法或简单地忽视了标签错误,

或者假设算法对标签错误具有一定的鲁棒性

[4]

. 在标

签出错的条件下, 有几类获得分类准则的方法: 1) 数

据预处理的方法, 它是最直接简单的方法, 在数据进

入分类器前进行置信度的分配和过滤, 将标签错误数

据移除或是重新进行标注

[5]

, 但是这种方法有可能剔

除有用信息, 尤其是在训练样本规模较小的情况下;

2) 变精度粗糙集方法, 通过引入一些附加的参数来增

强算法对标签错误的鲁棒性

[6-7]

; 3) 多事例学习的框

收稿日期: 2013-03-24；修回日期: 2013-12-04.

基金项目: 国家自然科学基金项目(61272333)；安徽省自然科学基金项目(1208085MF94, 1308085QF99).

作者简介: 夏建明(1982−), 男, 博士, 从事数据挖掘、机器学习的研究；杨俊安(1965−), 男, 教授, 博士生导师, 从事信

号处理、智能计算等研究.

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38744902

粉丝: 9
资源: 933

稀疏流形聚类与L_1正则化：有效标签错误检测方法

基于稀疏流形聚类嵌入模型和

稀疏流形聚类嵌入与$L1$范数正则化标签错误检测

稀疏诱导流形正则化凸非负矩阵分解算法

L3/2正则化图非负矩阵分解算法

计算机研究 -非负矩阵分解在聚类中的应用研究.pdf

数据回归-基于谱回归的无监督特征选择算法研究.pdf

稀疏流形正则化提升非负矩阵分解抗噪性能

多视图正则化矩阵分解算法：一种有效处理多特征数据的聚类方法

MATLAB矩阵正则化：解决病态问题和提升模型稳定性，3种常见方法

(源码)基于QT框架的云存储系统.zip

最新资源