PLS监督特征提取结合FNN的高维数据分类特征选择
94 浏览量
更新于2024-08-28
收藏 3.9MB PDF 举报
"特征选择对于数据分类至关重要,特别是在高维数据中,由于多重共线性、冗余特征和噪声的影响,可能导致分类器性能下降和计算成本增加。本文提出了一种结合偏最小二乘(PLS)监督特征提取和虚假最近邻点(FNN)的方法来优化特征选择过程。首先,PLS用于从原始高维数据中提取主元,消除特征间的多重共线性,创建一个包含监督信息的独立主元空间。接着,通过计算特征选择前后的相关性,利用FNN建立特征相似性度量,以确定哪些特征对类别变量的解释能力更强。最后,通过逐步去除解释能力弱的特征,构建多种分类模型,并使用支持向量机(SVM)的分类识别率作为评估标准,寻找识别率最高且特征数量最少的模型,从而确定最佳特征子集。实验证明,这种方法能有效地选择出与数据本质分类特征相匹配的最佳特征子集,为数据分类特征选择提供了一种新的有效途径。"
在数据分类中,特征选择是一个关键步骤,它有助于降低模型复杂性,提高分类准确性和效率。偏最小二乘(PLS)是一种统计分析方法,用于处理具有多重共线性的变量,它通过构建主元来捕获数据的主要变异性,并且这些主元与响应变量(或类别变量)有密切关系。在本文提出的特征选择策略中,PLS首先被用来提取那些与分类目标紧密相关的主元,从而减少特征间的相互影响。
虚假最近邻点(FNN)是一种用于检测数据点在降维空间中的非线性结构的算法。在特征选择过程中,FNN被用来衡量特征选择前后在PLS主元空间中的变化,以此判断特征对类别变量的解释能力。如果一个特征的选择显著改变了其他特征与类别变量的关系,那么这个特征可能对分类有重要影响。
通过结合这两种方法,可以建立一个基于特征相似性测度的排序系统,选择出对分类影响最大的特征。随后,通过构建和评估多种基于SVM的分类模型,可以找出最优的特征子集,这个子集包含的特征数量最少,但分类效果最佳。
实验结果在三个不同的数据集上验证了该方法的有效性,最佳特征子集与每个数据集的本质分类特征高度一致,证明了该方法在特征选择方面的优越性。这种方法为高维数据分类提供了一个新的、有效的特征选择策略,有助于提升分类器的性能,降低计算资源的需求。
223 浏览量
613 浏览量
150 浏览量
122 浏览量
108 浏览量
143 浏览量
2021-02-07 上传
2021-02-21 上传
123 浏览量

weixin_38555350
- 粉丝: 2
最新资源
- 易二维码签到系统:会议活动签到解决方案
- Ceres库与SDK集成指南:C++环境配置及测试程序
- 深入理解Servlet与JSP技术应用与源码分析
- 初学者指南:掌握VC摄像头抓图源代码实现
- Java实现头像剪裁与上传的camera.swf组件
- FileTime 2013汉化版:单文件修改文件时间的利器
- 波斯语话语项目:实现discourse-persian配置指南
- MP4视频文件数据恢复工具介绍
- 微信与支付宝支付功能封装工具类介绍
- 深入浅出HOOK编程技术与应用
- Jettison 1.0.1源码与Jar包免费下载
- JavaCSV.jar: 解析CSV文档的Java必备工具
- Django音乐网站项目开发指南
- 功能全面的FTP客户端软件FlashFXP_3.6.0.1240_SC发布
- 利用卷积神经网络在Torch 7中实现声学事件检测研究
- 精选网站设计公司官网模板推荐