没有合适的资源?快使用搜索试试~ 我知道了~
首页适合近红外光谱数据特征的降维方法对比分析
适合近红外光谱数据特征的降维方法对比分析
15 下载量 131 浏览量
更新于2023-03-03
5
收藏 335KB PDF 举报
因近红外光谱具有波长点多、谱带归属困难、光谱重叠严重及光谱分布结构未知等问题,在进行近红外光谱关键特征提取和数据特征空间映射时难以准确获知合适降维方法。为了解决该问题,本文对比分析了典型线性和非线性降维方法,并用烟叶近红外光谱数据从数据降维可视化和分类准确性识别率角度分别进行了实验验证。结果表明,线性降维算法,特别是PCA、LDA算法,比较适合应用于烟叶近红外光谱降维分析中,非线性降维算法因其泛化学习能力与推广能力差以及本征维数估计困难不适合应用于近红外光谱降维分析。
资源详情
资源推荐
![](https://csdnimg.cn/release/download_crawler_static/12943617/bg1.jpg)
适合近红外光谱数据特征的降维方法对比分析适合近红外光谱数据特征的降维方法对比分析
因近红外光谱具有波长点多、谱带归属困难、光谱重叠严重及光谱分布结构未知等问题,在进行近红外光谱关
键特征提取和数据特征空间映射时难以准确获知合适降维方法。为了解决该问题,本文对比分析了典型线性和
非线性降维方法,并用烟叶近红外光谱数据从数据降维可视化和分类准确性识别率角度分别进行了实验验证。
结果表明,线性降维算法,特别是PCA、LDA算法,比较适合应用于烟叶近红外光谱降维分析中,非线性降维
算法因其泛化学习能力与推广能力差以及本征维数估计困难不适合应用于近红外光谱降维分析。
摘 摘 要要: 因
关键词关键词: 降维;PCA;LDA;近红外光谱;小样本
0 引言引言
近红外光谱(NIR)分析技术是近年来分析化学领域迅猛发展的高新分析技术,越来越受到国内外分析专家的关注,在分
析化学领域被誉为分析“巨人”。它的出现可以说带来了又一次分析技术的革命。近红外光谱分析技术广泛应用于农产品、化
工、医药等领域的质量分析。然而,由于近红外光谱数据具有高维、谱带重叠等特征,给提取样品的关键主成分信息带来了一
定程度的困难和挑战。如何实现高维到低维空间的特征映射关系,选择合适降维方法显得尤为重要。近年来,为了解决高维光
谱数据降维问题,国内外相继出现大量的降维算法。主成分分析(PCA)[1]和线性识别分析(LDA)[2]是目前应用最为广泛
的特征提取与数据降维方法之一。但当分析数据集呈现非线性且数据分布明显弯曲时,采用线性降维方法无法获取数据非线性
结构特征。为了更好地解决该问题,先后有不少非线性降维方法被提出,比较经典的有局部线性嵌入LLE算法、等距离映射方
法Isomap算法;另外,Sammon[3]提出了一种非线性映射,即Sammon映射(SM),该算法能够保持输入样本之间的相关距
离;Hastie[4]提出了Principal Curves(PC),其定义为通过概率分布或数据云中间的“自洽”光滑曲线;Kohonen[5]基于自组
织神经网络提出Self-organizing Map(SOM)用来保存数据空间的拓扑属性;Scholkopf[6]应用Mercer核将PCA扩展为Kernel
PCA(KPCA),该算法在高维空间中计算主分量,而该高维空间由输入空间经某种非线性映射得到;Mika等[7]采用相同的思
想来非线性扩展LDA,从而提出了Kernel LDA(KLDA)。
上述这些线性和非线性降维方法各有特性,适合解决不同类型特征数据,对于近红外光谱而言,需要根据光谱特征找到适
合降维和关键特征提取方法,因此,本文重点分析近红外光谱特征,对比分析了线性降维算法与非线性降维算法在提取关键数
据特征方面的优缺点,获得一种可行有效的降维方法,并在实际应用中得到较好应用。
1 降维方法降维方法
1.1 线性降维方法线性降维方法
主成分分析PCA是目前应用最为广泛的降维方法之一。PCA算法依据的是方差最大化原理,将数据从高维空间向低维空
间映射,并使之投影后方向相互正交。主成分大小根据方差大小依次提取。PCA是一种无监督的降维算法,该方法无需考虑
数据类别属性,通过某种线性投影变化获得综合变换,综合变量最大化反应了原始光谱数据中所反映的大致规律。
线性判别式分析LDA算法是模式识别的经典算法,其基本思想是将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取
分类信息和压缩特征空间维数的效果,投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离,使投影后空间
中有最佳的可分离性。但是,PCA和LDA方法中的全局线性属性限制了它们在非高斯分布数据上的有效性。
1.2 两种线性方法的区别两种线性方法的区别
PCA算法是在数据空间中找出一组向量,用此向量尽可能地表达数据的方差,将数据从高维降到低维,其利用K-L变换获
得逼近原数据空间的最低维识别空间。LDA算法也是一种线性降维方法,它基于分类的思想对数据进行降维,即它希望降维后
的数据在分类后间距尽可能的大。
1.3 两种线性方法的结合两种线性方法的结合PCA+LDA
根据PCA与LDA的特点,可将二者进行结合使用。设训练样本为xi∈Rm×n,i=1,2,…,N,N表示训练样本数,训练样
本的协方差矩阵Q为XXT,然后计算协方差矩阵的特征值与特征向量,并取其较大d个特征值对应的特征向量,组成PCA算法
的特征子空间W1;在样本数小于样本维数时,直接运用LDA算法会出现
Sw=W1TXwXwW1
Sb=W1TXbXbW1
然后,求解矩阵Sw-1Sb的特征值问题。这里选择Sw-1Sb的P个较大特征值对应的特征向量构造LDA算法的特征子空间
W2,将PCA算法与LDA算法的特征子空间进行融合,即WS=W1W2,可获得PCA-LDA算法的融合特征空间WS,使用得到的
WS作为PCA-LDA算法的特征空间进行运算。
1.4 非线性降维方法非线性降维方法
(1)LLE算法
局部线性嵌入(Locally Linear Embedding,LLE)算法是流形学习中非线性降维方法中最为经典的算法之一,能够使降
维后的数据较好地保持原有流形结构,并找到每个样本的k个最近邻域。
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![-](https://csdnimg.cn/download_wenku/file_type_column_c1.png)
![-](https://csdnimg.cn/download_wenku/file_type_column_c1.png)
![-](https://csdnimg.cn/download_wenku/file_type_column_c1.png)
![-](https://csdnimg.cn/download_wenku/file_type_column_c1.png)
![-](https://csdnimg.cn/download_wenku/file_type_lunwen.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://profile-avatar.csdnimg.cn/default.jpg!1)
weixin_38672739
- 粉丝: 8
- 资源: 921
上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![](https://csdnimg.cn/release/wenkucmsfe/public/img/voice.245cc511.png)
会员权益专享
最新资源
- BSC绩效考核指标汇总 (2).docx
- BSC资料.pdf
- BSC绩效考核指标汇总 (3).pdf
- C5000W常见问题解决方案.docx
- BSC概念 (2).pdf
- ESP8266智能家居.docx
- ESP8266智能家居.pdf
- BSC概念 HR猫猫.docx
- C5000W常见问题解决方案.pdf
- BSC模板:关键绩效指标示例(财务、客户、内部运营、学习成长四个方面).docx
- BSC概念.docx
- BSC模板:关键绩效指标示例(财务、客户、内部运营、学习成长四个方面).pdf
- BSC概念.pdf
- 各种智能算法的总结汇总.docx
- BSC概念 HR猫猫.pdf
- bsc概念hr猫猫.pdf
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035111.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)