基于ReliefF和PLS的特征选择算法提升分类精度

需积分: 35 108 浏览量更新于2024-09-06 收藏 632KB PDF 举报

本篇论文主要探讨了"一种基于ReliefF和PLS的特征选择算法"，由作者邹常盼和亓峰合作完成，他们分别来自北京邮电大学网络与交换技术国家重点实验室。论文旨在解决PLS算法在实际应用中遇到的一个关键问题，即冗余特征可能导致分类精度下降。PLS，即偏最小二乘法，是一种广泛用于回归分析和机器学习中的工具，但其对特征选择的敏感性是一个挑战。文章的核心思想是提出一种融合了ReliefF算法和PLS的方法来改善特征选择过程。ReliefF算法是一种无监督的特征选择方法，它通过评估每个特征在样本分类中的局部重要性来剔除冗余特征。通过先用ReliefF算法筛选出关键特征，然后利用PLS进一步提取这些特征中的核心部分，形成一个有效的特征子集，实现了特征维度的降低。这种方法不仅能够提高分类精度，还有助于减少计算复杂度，因为较少的特征意味着更低的时间复杂度。实验部分，作者选择了UCI数据集进行分类性能的比较，结果显示，结合ReliefF和PLS的特征选择算法在保持较高分类精度的同时，还能显著缩短分类时间，证明了这一新型算法的有效性和实用性。这对于信息特征压缩和模式识别领域的研究具有重要意义，因为它提供了一种高效且精确的特征选择策略，适用于各种机器学习模型，如支持向量机（SVM）等。总结来说，这篇论文主要贡献在于提出了一种创新的特征选择方法，通过结合ReliefF的局部重要性评估和PLS的主成分分析，有效地解决了特征冗余对PLS算法性能的影响。这种技术对于提升分类任务的效率和准确性，特别是在大数据背景下，有着重要的理论价值和实践意义。

http://www.paper.edu.cn

- 1 -

中国科技论文在线

一种基于 ReliefF 和 PLS 的特征选择算法

邹常盼，亓峰

作者简介：邹常盼（1993-），男，硕士，网络管理

通信联系人：亓峰（1971-），男，教授，智能电网信息通信. E-mail: qifeng@bupt.edu.cn

（北京邮电大学网络与交换技术国家重点实验室，北京 100876）

摘要：针对 PLS 算法容易受冗余特征干扰而导致分类精度下降的问题，本文给出了一种结

合 ReliefF 和 PLS 的特征选择算法。首先，该算法采用 ReliefF 算法剔除了冗余特征；随后，

利用 PLS 算法提取出最具有代表性的主成分，构成了有效的特征子集，实现了特征降维。

最后，利用 UCI 数据集进行分类实验，结果表明该算法的分类精度高于 PLS 算法，同时分

类时间低于 PLS 算法，从而验证该算法的可行性和有效性，为信息特征压缩提供了一种新10

的研究方法。

关键词：模式识别；特征选择；偏最小二乘法；支持向量机

中图分类号：TP391.4

A feature selection algorithm based on ReliefF and PLS 15

Zou Changpan, Qi Feng

(State Key Laboratory Of Networking And Switching Technology, Beijing University of Posts

and Telecommunications, Beijing 100876)

Abstract: The PLS algorithm is easily affected by the redundant features, then it will lead to a fall

in classification accuracy, so this paper presents a feature selection algorithm combining ReliefF 20

and PLS. First, this algorithm cuts out the redundant features by ReliefF; Second, take out the

most representative features which constitute the effective feature sets by PLS, thus the

dimensions of the features are decreased. Third, experiments on the UCI datasets show that the

classification accuracy of this algorithm is higher than PLS algorithm, and at the same time, the

classification time is slightly less than PLS algorithm. So this algorithm is feasible and effective, 25

and it provides a new research approach for information feature compression.

Key words: pattern recognition; feature selection; partial least squares; support vector machine

0 引言

特征选择是指在特定评估标准下，从样本数据的全部特征中选择出一个彼此之间相关联30

程度较小的特征子集的过程，它能够使得分类效果更好。在实际应用中，数据的特征一般都

比较多，其中可能存在冗余的特征，也可能存在互相关的特征，这样将导致分类算法分析特

征、训练模型花费较长时间，容易引发维数灾难，还会降低分类精度

[1]

。通过特征选择，则

可以剔除这些无用的特征，从而提高分类准确率和减少分类时间

[2]

。随着数据特征空间的迅

速增大，特征选择算法已经变得越来越重要，目前通过国内外许多学者的深入研究，已有许35

多经典的特征选择算法

[3-6]

。

偏最小二乘算法（Partial Least Squares，PLS）便是其中之一，该算法从自变量中提取

出对自变量和因变量都具有最佳解释能力的主成分，并认为模型输出受少数几个主成分影

响。这样，通过提取符合要求的主成分，就能消除互相关的特征对模型的影响。但是由于一

些数据样本的自变量中含有大量与因变量无关的特征，即冗余特征，它们会影响 PLS 的有40

效性，从而使得采用该算法的分类器准确率下降

[7]

。

针对此问题，本文采用 Filter 方法去除冗余特征，该算法基于一个特征子集对数据的内

在特性进行计算分析，例如样本距离、信息量、相关性、一致性等统计信息，以此来评估特

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_39840515

粉丝: 448
资源: 1万+

基于ReliefF和PLS的特征选择算法提升分类精度

reliefF算法及其源码

Matlab reliefF多分类特征排序算法

降维与特征选择中的PLS、PCR

论文研究-一种基于PCA和ReliefF的特征选择方法.pdf

论文研究-基于ReliefF和蚁群算法的特征基因选择方法.pdf

论文研究-基于约束不一致性的半监督特征选择算法 .pdf

论文研究-一种适用于基因表达数据的特征加权FCM算法.pdf

Matlab reliefF多分类特征排序算法.rar

论文研究-一种旅行数据约束关联规则挖掘算法.pdf

论文研究-面向宏观地表分类的特征选择算法比较研究.pdf

最新资源