最大边界投影与l2,1范数正则化属性选择算法

94 浏览量更新于2024-08-31 收藏 1.31MB PDF 举报

"本文介绍了一种新的属性选择算法，该算法结合了最大边界投影和L2,1范数正则化，旨在处理包含噪声和标签错误的数据。在传统的属性选择方法（如粗糙集）可能失效的情况下，这种方法能够有效挖掘关键属性。通过最大边界投影找到数据的最佳投影，然后利用L2,1范数正则化得到稀疏投影矩阵，从而识别出对决策至关重要的属性。此外，文中还证明了该算法在面对标签错误数据时的收敛性和有效性。实验结果显示，该算法能有效地克服噪声和标签错误的影响，实现对含噪声和标签错误数据的准确属性选择。" 本文的核心知识点包括： 1. **属性选择**：属性选择是数据预处理的关键步骤，旨在减少冗余和无关特征，提高模型的效率和准确性。传统的属性选择方法，如粗糙集，可能在面临噪声和标签错误时表现不佳。 2. **最大边界投影**：最大边界投影是一种数据处理技术，用于寻找数据的最佳投影方向，最大化不同类别之间的边界，以此来增强类别区分度，对于噪声和标签错误的情况特别有用。 3. **L2,1范数正则化**：L2,1范数正则化是一种矩阵正则化技术，它可以促使投影矩阵变得稀疏，即大部分元素为零，保留对结果影响最大的特征。这有助于识别关键属性并降低过拟合风险。 4. **噪声数据**：噪声数据是指数据集中存在的错误或不准确的信息，它会影响数据分析和模型的构建。本文提出的方法旨在减少噪声对属性选择的影响。 5. **标签错误**：标签错误是指数据集中目标变量的错误标注，这对分类任务尤其具有挑战性。本文算法考虑了这种错误，并能适应这类问题。 6. **收敛性证明**：算法的收敛性证明了算法在迭代过程中会逐渐接近最优解，确保了算法的稳定性。 7. **有效性证明**：针对标签错误数据的有效性证明展示了算法在处理这类问题时的有效性能，增强了算法的实际应用价值。 8. **实验结果**：通过实验，验证了新算法在克服噪声和标签错误方面优于传统方法，提高了属性选择的准确性。该研究提供了一种新的数据预处理策略，特别是对于那些因噪声和标签错误导致传统方法失效的情况，这种方法可以提升数据分析的质量和模型的性能。

第 28 卷第 9 期

Vol. 28 No. 9

控制与决策

Control and Decision

2013 年 9 月

Sep. 2013

一种基于最大边界投影和 𝑙

2,1

范数正则化的属性选择算法

文章编号: 1001-0920 (2013) 09-1485-06

夏建明, 杨俊安

(电子工程学院 a. 通信对抗系，b. 电子制约技术安徽省重点实验室，合肥 230037)

摘要: 当数据含有噪声或标签错误时, 传统的属性选择方法 (如粗糙集) 无法得到正确结果, 为此提出一种针对含

噪、标签错误数据的属性选择方法. 首先用最大边界投影方法获得数据的最佳投影; 然后通过对投影矩阵进行 𝑙

2,1

范

数正则化操作, 进而获得行稀疏的投影矩阵, 据此获得对关键属性的挖掘; 最后给出方法的收敛性和针对标签错误数

据的有效性证明. 实验结果表明, 所提出的算法克服了噪声和标签错误的影响, 较好地实现了针对含噪、标签错误数

据的属性选择.

关键词: 属性选择；最大边界投影；𝑙

2,1

范数；噪声数据；标签错误

中图分类号: TN911.5 文献标志码: A

A novel attribute reduction algorithm based on maximum margin

projection and 𝑙

2,1

norm regularization

XIA Jian-ming, YANG Jun-an

(a. Department of Communication Countermeasures，b. Key Laboratory of Electronic Restriction of Anhui Province,

Electronic Engineering Institute，Hefei 230037，China．Correspondent：XIA Jian-ming，E-mail：jianmingeei@

163.com)

Abstract: The traditional attribute reduction algorithms such as rough set will fail to get accurate results when deal with

the data sets which have noise or labeling errors. Therefore, this paper proposes an attribute reduction algorithm which can

analyze this kind of data effectively. Firstly, the best projection of the data sets is obtained by using the maximum margin

projection(MMP) method. Then 𝑙

2,1

-norm on the projection matrix is used to achieve row-sparsity, which leads to selecting

relevant features. Finally, the proof of the algorithm’s convergence and validity to the data sets with errors is given. The

result of experiments on the UCI data sets show the effectiveness of the proposed algorithm.

Key words: attribute reduction；maximum margin projection；𝑙

2,1

norm；noise data；labeling error

0 引引引言言言

随着信息时代的到来, 海量复杂的数据在各个领

域中不断涌现, 人们希望自动地从数据中获取其潜在

的知识模型. 在知识挖掘过程中, 首先需要对大量的

属性进行选择, 通过属性选择, 去除冗余属性, 获得关

键属性, 最终获得对规则的挖掘. 大批学者对这一领

域进行研究, 取得了丰硕的成果, 但这些挖掘工具的

前提是数据是正确的, 当数据中各属性中含有噪声或

数据标签发生错误时, 其选择结果将发生错误. 其中

经典方法如粗糙集, 由于其无需任何先验知识, 能从

大量含糊和不确定的数据中发现有用信息, 在属性选

择领域得到了广泛的应用. 但是由于其对不可分辨性

的严格规定, 无法应对噪声和标签错误数据. 之后学

者们又从 3 个方面对该问题进行研究, 一是从提高算

法的鲁棒性着手, 如徐怡等

[1]

引入正确分类率 𝛽, 提

出了可变精度粗糙集模型, 通过允许一定的错误分类

率存在来完善近似空间; 但是在应用过程中参数 𝛽 往

往仅能通过领域专家按照知识和经验指定, 从而失去

了最初粗糙集不需要任何先验知识、仅从数据本身出

发的初衷, 且针对不同数据需要确定不同的错误分类

率, 一旦错误分类率给定后, 在数据本身变化的情况

下将获得错误的结果, 这将制约属性选择的应用. 变

精度粗糙集的一系列改进方法也尚未给出正确分类

率的自适应求解方法

[2]

. 二是针对数据清洗、过滤进

行研究, 如建立多个分类器, 使得分类器预测错误最

多的样本作为发生错误的数据过滤掉

[3]

. 三是在预先

收稿日期: 2012-05-17；修回日期: 2012-08-30.

基金项目: 安徽省自然科学基金项目(1208085MF94).

作者简介: 夏建明(1982−), 男, 博士生, 从事数据挖掘、机器学习的研究；杨俊安(1965−), 男, 教授, 博士生导师, 从事

信号处理、智能计算等研究.

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38704701

粉丝: 8
资源: 981

最大边界投影与l2,1范数正则化属性选择算法

L1+L2正则化逻辑斯蒂模型分类算法.pdf

l1_ls.rar_L1正则化问题_l1 范数_二范数_最小化 范数_正则化范数

L_(2,1)范数正则化的广义核判别分析及其人脸识别.pdf

huber范数正则化

试述直接求解 L0 范数正则化会遇到的困难

L1范数正则化归一化的公式

l1正则化和l2正则化用的是什么算法，有什么区别，什么时候适合用l2正则化

torch.norm范数正则化

压缩感知算法l2范数和TV正则化

l1正则化和l2正则化的区别是什么

最新资源

l1_ls.rar_L1正则化问题_l1 范数_二范数_最小化范数_正则化范数