Lap-Lasso:解决样本内在关联问题的新型特征选择法

需积分: 16 197 浏览量更新于2024-09-05 收藏 529KB PDF 举报

本文研究的论文深入探讨了在机器学习领域中的一个重要问题——特征选择。特征选择对于解决高维数据中的维数灾难至关重要，它旨在从大量特征中挑选出最具相关性和区分性的子集，以提升模型的性能和计算效率。Lasso方法作为一种经典的特征选择技术，其主要优点在于它的线性模型和正则化特性，但它的一大局限在于只关注样本和类别标签之间的相关性，忽视了样本间的内在关联信息，这可能限制了特征选择的效果。针对这一问题，作者提出了一个新的基于Laplacian的特征选择方法，称为Lap-Lasso。Lap-Lasso方法的独特之处在于它结合了两方面的正则化策略：首先，通过传统的稀疏正则化，鼓励模型选择较少但重要的特征，从而保持模型的简洁性；其次，引入了Laplacian矩阵，这是一种图论中的概念，能够捕捉到同类样本在数据空间中的几何分布信息。Laplacian正则化项使得Lap-Lasso能够充分利用这种分布信息，增强特征之间的局部结构依赖，从而挖掘出更具判别力的特征组合。论文进一步指出，Lap-Lasso方法的优势体现在其对样本内在关系的重视上，这有助于在处理复杂的数据结构时提升特征选择的准确性和有效性。作者通过在UCI数据集上的实验验证了Lap-Lasso相对于传统Lasso方法在特征选择任务中的显著优势，实验结果表明，新方法在保持或甚至提高模型性能的同时，显著减少了特征数量，从而成功地解决了维数灾难的问题。这篇论文不仅提升了特征选择方法的理论基础，还提供了一种实用的工具，特别是在处理高维、结构化的数据集时，Lap-Lasso展示了其在提升学习模型性能和减少冗余特征方面的潜力。这对于实际的机器学习应用，如图像分类、文本分析等领域都具有重要意义。

2016，52（15）

1 引言

在机器学习中传统算法经常遇到众所周知的维数

灾难的问题

[1]

。在这种情形下，通过降低数据的维数有

利于提高数据分析的效率和精确度。特征选择是从一

组特征中选出一组最相关的特征的子集以降低特征空

间维数的过程，从而达到改善学习模型性能的目标。

研究人员已提出各种特征选择方法。这些方法大

致分为两类：（1）特征排名方法；（2）特征子集搜索方

新的基于 Laplacian 的特征选择方法

钱晓亮

1，2

，左开中

1，2

，接标

1，2

QIAN Xiao liang

1，2

, ZUO Kaizhong

1，2

, JIE Biao

1，2

1.安徽师范大学数学计算机科学学院，安徽芜湖 241003

2.安徽师范大学网络与信息安全工程技术研究中心，安徽芜湖 241003

1.School of Mathema tic s and Computer Science, Anhui Normal University, Wuhu, Anhui 241003, China

2.Network and Information Security Engineeri ng Technol ogy Research Center, Anhui Normal University, Wuhu, Anhui

241003, C hina

QIAN Xiaoliang, ZUO Kaizhong, JIE Biao. New Laplacian-based feature selection method. Computer Engineering

and Appl ication s, 2016, 52（15）：79-82.

Abstract：Among feature selections, L asso method has been widely studied and applied. How ever, a main disadvantage

of Lasso method is that it only considers the relationship between subject and label, and ignores the distribution infor ma-

tion of subjects which may help to induce more discriminative features. To address this problem, th is paper proposes a

new Laplacian-based feature selection method cal led Lap-Lasso which can simul taneously achieve featu re selec tion and

preserve the intrinsic relatedness am ong subjects. Specifically, two regularization items are included in the proposed model.

The first ite m is sparsity regula rizer which ensures only a small number of features to be selected. In addition, to capture

the intrinsic rela tedness among subjects, it int roduces a new Laplacian-based regularization item, which help to induce

more discriminative fea tures. Experimen tal results on UCI datasets sh ow that the proposed algorithm can achieve better

performances than conv entional featu re selection algorithms.

Key words：feature selection; Laplacian r egularization; Lasso; s upport vector machine ; dimensionality reduction

摘要：在各种特征选择方法中，Lasso 的方法取得了广泛的研究和应用。然而，利用 Lasso 进行特征选择的一个主

要缺点是只考虑了样本和类标签之间的相关性，却忽略了样本自身的内在关联信息，而这些信息有助于诱导出更具

有判别力的特征。为了解决这个问题，提出了一种新的基于 Laplacian 的特征选择方法，称之为 Lap-Lasso。提出的

Lap-Lasso 方法首先包含一个稀疏正则化项，用于保证只有少数量特征能被选择。另外，引入了一个新的基于 Lapla-

cian 的正则化项，用于保留同类样本之间的几何分布信息，从而帮助诱导出更具判别力的特征。在 UCI 数据集的实

验结果验证了 Lap-Lasso 方法的有效性。

关键词：特征选择；Laplacian 正则化项；Lasso；支持向量机；降维

文献标志码：A 中图分类号：TP18 1 doi：10.3778/j.issn.1002-833 1.1410-0212

基金项目：安徽省高校自然科学基金项目（No.KJ2013Z095）；安徽省自然科学基金（No.1508085MF 125）；安徽师范大学校博士启

动基金项目（No.2016XJJ120）。

作者简介：钱晓亮（1985—），男，在读研究生，主要研究方向：机器学习和医学图像处理，E-mail：dartmouth2012@163.com；左开中

（1974—），男，博士，教授，主要研究方向：机器学习和信息安全；接标（1977—），男，在读博士，副教授，主要研究方向：

机器学习和医学图像处理。

收稿日期：2014-10-20 修回日期：2015-01-09 文章编号：1002-8331（2016）15-0079-04

CNKI 网络优先出版：2015-05-19, http://www.cnki.net/kcms/detail/11.2127.TP.20150519.1400.001.html

C omputer Engineering and Applications 计算机工程与应用

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38744375

粉丝: 372
资源: 2万+

Lap-Lasso:解决样本内在关联问题的新型特征选择法

基于拉普拉斯金字塔分解的多聚焦图像融合 matlab代码

(LS)Laplacian Score for Feature Selection.pdf

论文研究-基于Laplacian算子的图像增强.pdf

论文研究-基于Laplacian Eigenmap的图像变化检测虚警优化技术.pdf

论文研究-多源适应多标签分类框架.pdf

论文研究-基于边缘检测的车牌定位方法 .pdf

论文研究-宽基线图像特征点的立体匹配.pdf

最新资源