改进线性判别分析：面向KL散度的正则化方法及应用

版权申诉

188 浏览量更新于2024-06-27 收藏 1.34MB DOCX 举报

面向Kullback-Leibler散度不确定集的正则化线性判别分析是一种在高维数据处理中广泛应用的统计方法，尤其关注于解决由于数据中包含的不相关和冗余信息导致的复杂性问题。在现代大数据背景下，数据采集的便捷性使得处理高维数据成为必要，但这也提出了对有效信息提取和减少计算负担的需求。线性降维技术，如主成分分析(PCA)和线性判别分析(LDA)，通过线性变换减少特征维度，从而简化模型。PCA主要关注数据的整体结构，而LDA在有类别信息的情况下更为有效，它通过最大化类间距离和最小化类内距离来构造投影矩阵，本质上是从贝叶斯最优准则出发的。LDA假定各类样本遵循高斯分布，且类内协方差相同，不同类别的中心点不同。针对LDA的局限性，研究者们提出了多种改进方法。例如，通过最优向量替换类中心提升分类性能；分数阶LDA引入分数阶加权来优化；近似成对精度准则根据类别的权重调整，提高准确性；几何平均、调和平均和加权调和平均则作为不同准则函数，寻求最优的判别方向；最不利情况下的LDA考虑极端情况，而最大-最小距离方法则利用最近数据对的特性；Wasserstein判别分析则结合正则化Wasserstein距离来综合全局和局部信息。然而，LDA在小样本情况下存在奇异性和处理非线性数据的能力有限。为应对这些问题，研究人员发展了如PCA+LDA、正则化LDA、伪逆LDA和张量判别分析等策略，以缓解小样本效应。对于非线性数据，核函数被引入到线性判别分析中，扩展了其应用范围。此外，增量学习和在线学习方法也被采用，以适应数据动态增长和大规模数据处理的需求。面向Kullback-Leibler散度不确定集的正则化线性判别分析在高维数据处理中起着关键作用，通过不断优化和扩展，旨在提高模型的鲁棒性和适应性，尤其是在处理小样本和非线性问题时。通过结合各种改进技术和学习策略，LDA在现代信息技术中展示了其强大的实用价值。

为了探索样本的类间信息, 模型(4)试图在低维投影空间中最大化最近的两个类中心,

而且它利用 L

范数定义了类间距离. 在 L

范数的距离测度下, 与式(4)相似的类间信息的优

化问题$\max _{{\boldsymbol{W}}} \min _{i < j} \omega _{ij} \|

{{\boldsymbol{W}}^{\rm{T}}({\boldsymbol{m}}_i -{\boldsymbol{m}}_j )} \|_s^s$ 在

${\boldsymbol{W}}^{\rm{T}}{\boldsymbol{W}} = {\boldsymbol{I}}_m$约束条件下被写成

下面形式:

$$ \begin{split} &\max\limits_{{\boldsymbol{W}}} \min\limits_{p_{ij} } \sum\limits_{i = 1}^c {\sum\limits_{j = i+1}^c {p_{ij} } } \omega _{ij} \|

{{\boldsymbol{W}}^{\rm{T}}({\boldsymbol{m}}_i -{\boldsymbol{m}}_j )} \|_s^s\\ &{\rm{s.t}}. \ \sum\limits_{i = 1}^c {\sum\limits_{j = i+1}^c

{p_{ij} = 1} }, p_{ij} \ge 0, {\boldsymbol{W}}^{\rm{T}}{\boldsymbol{W}} = {\boldsymbol{I}}_m \end{split} $$

(9)

模型(9)不仅引入了优化变量$ p_{ij} $, 而且在投影后的类间距离使用了 L

范数. 如果

$ s = 1 $, 那么使用了 L

范数定义了类间距离. 如果$ s = 2 $, 那么使用了 L

范数定义了类

间距离. 模型(9)说明了优化变量$ p_{ij} $在概率单纯形内变化, 即在这个单纯形中寻找距

离最近的类中心对, 并试图取得最优投影矩阵. 因此在提取鉴别特征时, 距离最近的两个类

中心所起的作用最大. 显然, 它忽略了其他类中心的信息, 使得这种模型利用类中心的信息

不完整. 为了解决这个问题, 本文首先将离散概率分布$ p_{ij} $看作类中心

$ {\boldsymbol{m}}_i $和$ {\boldsymbol{m}}_j $之间的采样概率, 然后将离散概率分布

$ p_{ij} $限制在一定的范围内, 使得模型变得更加灵活. 这里使用式(8)定义的不确定集, 这

个不确定集是由离散概率分布定义的. 因此根据 KL 散度定义的不确定集和各类中心信息,

以下优化问题被提出:

$$ \begin{split} &\max\limits_{{\boldsymbol{W}}} \min\limits_{p_{ij} } \sum\limits_{i = 1}^c {\sum\limits_{j = i+1}^c {p_{ij} } } \omega _{ij} \|

{{\boldsymbol{W}}^{\rm{T}}({\boldsymbol{m}}_i -{\boldsymbol{m}}_j )} \|_s^s\\ &{\rm{s.t}}.\ \sum\limits_{i = 1}^c {\sum\limits_{j = i+1}^c

{p_{ij} = 1} },p_{ij} \ge 0\\ &\sum\limits_{i = 1}^c {\sum\limits_{j = i+1}^c} {p_{ij} } \ln \frac{p_{ij} }{q_{ij} }\le \varepsilon,

{\boldsymbol{W}}^{\rm{T}}{\boldsymbol{W}} = {\boldsymbol{I}}_m \end{split} $$

(10)

模型(10)引入了满足条件$ \sum\nolimits_{i<j}^c {q_{ij} } = 1 $的参数$ q_{ij} $, 该参

数$ q_{ij} $表示第$ i $类中心和第$ j $类中心所提供的先验知识. 如果事先没有提供先验知

识, 可令 $q_{ij} = \dfrac{2}{c(c-1)}$, 即它服从均匀概率分布, 这是因为不同类中心构成的

数据对的数目为$\dfrac{ c(c-1)}{2}$. 参数$ q_{ij} $并不是优化变量. 模型(10)允许参数

$ p_{ij} $在给定$ q_{ij} $的邻域内变化. 根据正则化理论, 通过引入一个非负参数$ \eta $可

将(10)的不确定集转化为目标函数的正则化项. 因此模型(10)等价于下面的模型:

$$ \begin{split} &\max\limits_{{\boldsymbol{W}}} \min\limits_{p_{ij} } F_1 (W,p_{ij} ): = \eta KL({\boldsymbol{p}}|{\boldsymbol{q}})+\\

&\qquad\sum\limits_{i = 1}^c {\sum\limits_{j = i+1}^c {p_{ij} } } \omega _{ij} \| {{\boldsymbol{W}}^{\rm{T}}({\boldsymbol{m}}_i -

{\boldsymbol{m}}_j )}\|_s^s\\ &{\rm{s.t}}. \ \sum\limits_{i = 1}^c {\sum\limits_{j = i+1}^c {p_{ij} = 1} },p_{ij} \ge

0,{\boldsymbol{W}}^{\rm{T}}{\boldsymbol{W}} = {\boldsymbol{I}}_m \end{split} $$

(11)

剩余22页未读，继续阅读

罗伯特之技术屋

粉丝: 4401
资源: 1万+

改进线性判别分析：面向KL散度的正则化方法及应用

图像处理中的正则化.doc

kullback-leibler散度

尝试写一段基于Kullback-Leibler散度的分布鲁棒机组组合问题代码，采用yalmip语言和gurobi求解器

kullback-leibler divergence

Kullback-Leibler（KL）散度

-Leibler散度。

warning('kldiv:duplicates','x contains duplicate values. treated as distinct

the KL (Kullback-Leibler) divergence loss

js散度matlab

最新资源