特征抽取概述
3
推 荐
特征是描述模式的最佳方式,且我们通常认为特征的各个维度能够从不同
的角度描述模式,在理想情况下,维度之间是互补完备的。
特征提取的主要目的是降维。特征抽取的主要思想是将原始样本投影到一个
低维特征空间,得到最能反应样本本质或进行样本区分的低维样本特征。
一般图像特征可以分为四类:直观性特征、灰度统计特征、变换系数特征与
代数特征。
直观性特征主要指几何特征,几何特征比较稳定,受人脸的姿态变化与光
照条件等因素的影响小,但不易抽取,而且测量精度不高,与图像处理技术密
切相关。
代数特征是基于统计学习方法抽取的特征。代数特征具有较高的识别精
度,代数特征抽取方法又可以分为两类:一种是线性投影特征抽取方法;另外
一种是非线性特征抽取方法。
习惯上,将基于主分量分析和 Fisher 线性鉴别分析所获得的特征抽取方法,统
称为线性投影分析。
基于线性投影分析的特征抽取方法,其基本思想是根据一定的性能目标来寻
找一线性变换,把原始信号数据压缩到一个低维子空间,使数据在子空间中的
分布更加紧凑,为数据的更好描述提供手段,同时计算的复杂度得到大大降
低。在线性投影分析中,以主分量分析(PCA,或称 K-L 变换)和 Fisher 线性鉴
别分析(LDA)最具代表性,围绕这两种方法所形成的特征抽取算法,已成为
模式识别领域中最为经典和广泛使用的方法。
线性投影分析法的主要缺点为:需要对大量的已有样本进行学习,且对定
位、光照与物体非线性形变敏感,因而采集条件对识别性能影响较大。
非线性特征抽取方法也是研究的热点之一。“核技巧”最早应用在 SVM
中,KPCA 和 KFA 是“核技巧”的推广应用。
核投影方法的基本思想是将原样本空间中的样本通过某种形式的非线性映
射,变换到一个高维甚至无穷维的空间,并借助于核技巧在新的空间中应用线
性的分析方法求解。由于新空间中的线性方向也对应原样本空间的非线性方
向,所以基于核的投影分析得出的投影方向也对应原样本空间的非线性方向。
核投影方法也有一些弱点:几何意义不明确,无法知道样本在非显式映射
后变成了什么分布模式;核函数中参数的选取没有相应选择标准,大多数只能
采取经验参数选取;不适合训练样本很多的情况,原因是经过核映射后,样本
的维数等于训练样本的个数,如果训练样本数目很大,核映射后的向量维数将
会很高,并将遇到计算量上的难题。
就应用领域来说,KPCA 远没有 PCA 应用的广泛。如果作为一般性的降维
KPCA 确实比 PCA 效果好,特别是特征空间不是一般的欧式空间的时候更为明
显。PCA 可以通过大量的自然图片学习一个子空间,但是 KPCA 做不到。