"线性判别分析及扩展方法在数据分析中的应用综述"

需积分: 5 9 浏览量更新于2024-03-13 收藏 1.15MB PDF 举报

本文主要介绍了线性判别分析（LDA）、二次判别分析（QDA）及其三类相关的扩展方法：灵活判别分析（FDA）、惩罚判别分析和混合判别分析的应用。通过相关模拟数据及实际数据演示了三种方法的使用及其性能。 1. 引言本文将介绍LDA及其扩展方法的应用，LDA是一种经典的监督学习方法，在分类问题中得到了广泛的应用。除了LDA，本文还将介绍QDA以及一些扩展方法，包括FDA、惩罚判别分析和混合判别分析。这些方法通过对数据进行线性或非线性变换，提高了分类的准确性和鲁棒性。 2. LDA及其扩展方法的介绍 2.1 线性判别分析：LDA LDA是一种经典的监督学习方法，其基本思想是通过对不同类别的样本进行投影，找到一条直线，使得样本在投影后的分布会更加分散，从而实现分类。在实际应用中，LDA可以应用于人脸识别、图像分类、文本分类等领域。 2.2 LDA模型的优缺点 2.2.1 LDA模型的优点 LDA可以显著降低数据的维度，提高分类的准确性和泛化能力；对于线性可分的数据，LDA能够得到最优的分类边界。 2.2.2 LDA模型的缺点 LDA对数据的分布假设较为严格，如果数据不满足高斯分布的假设，LDA的性能会大打折扣；在面对非线性可分的数据时，LDA的表现也较为有限。 2.3 二次判别分析：QDA QDA是LDA的延伸，与LDA不同的是，QDA允许不同类别的样本有不同的协方差矩阵。这使得QDA在处理非线性可分的数据时具有更大的灵活性。 2.4 灵活判别分析：FDA FDA是对LDA和QDA的一个扩展，它允许进行非线性的变换，从而能够处理非线性可分的数据。通过将数据映射到高维空间，FDA可以更好地捕捉数据的内在结构。在实际应用中，通过使用FDA，可以更好地处理复杂的数据集，提高分类的准确性和鲁棒性。FDA在图像识别、自然语言处理等领域有着重要的应用价值。 3. 结论通过对LDA及其扩展方法的介绍，我们可以看到这些方法在处理分类问题时具有各自的优点和局限性。在实际应用中，我们需要根据数据的分布情况和分类问题的复杂程度选择合适的方法。同时，对于一些非线性可分的数据，灵活判别分析（FDA）等扩展方法也为我们提供了更多的选择。总的来说，LDA及其扩展方法在数据分类和模式识别领域有着广泛的应用前景，通过不断地研究和改进，这些方法将能够更好地适应现实世界的复杂问题，为我们提供更加准确和鲁棒的分类模型。

仅供参考学习

2.2 LDA 模型的优缺点

2.2.1 LDA 模型的优点

(1)LDA 模型非常简单。新的观测点将被分配给距离其最近的中心点的

类。

(2) 如果每一类的观测值都服从多元高斯分布，且每一类的协方差矩阵

假定都相同，则 LDA 便是贝叶斯分类器。

(3)LDA 模型估计的线性决策边界是线性的，这使得决策边界很容易描

述和实现。

(4)LDA 模型产生数据的更低维观点。

(4) 由于 LDA 的简单性和低方差性，LDA 通常能够产生最好的分类结

果。

2.2.2 LDA 模型的缺点

(1) 当 N 很大时，类与类之间的决策边界可能比较复杂。这是线性决

策边界不能充分地把类分开。有时需要二次判别边界，这就需要二次判别分

析。但更多情况下，我们希望建立更复杂的更不规则的决策边界。

(2) 在有些情况下，我们有很多相关的预测变量，比如数字信号和图片，

此时，估计 LDA 需要使用很多参数，且估计具有高方差，因此我们需要对

LDA 进行添加限制或者进行正则化。

(3) 在每一个类中，LDA 使用一个简单的原型和共同的协方差矩阵来

描述数据的分布，但是每一个类仅使用一个简单的原型可能并不是充分的。

在许多情况下，每一个类中可能包含很多子类，因此使用多个原型可能更合

适。

下面描述一系列 LDA 的扩展方法：灵活判别分析 (Flexible Discrim-

inant Analysis, FDA)、惩罚判别分析 (Penalized Discriminant Analysis,

PDA)、混合判别分析 (Mixture Discriminant Analysis, MDA), 用以来解决

上述提出的 LDA 的三个缺点。

2.3 二次判别分析：QDA

现在，我们考虑更一般的情况，也即 Σ

不相等，则 (4) 中的相关抵消

项不会发生，关于 x 的平方项被保存了下来，因此得到了平方判别函数为：

仅供参考学习

(x) = −

log |Σ

| −

(x − µ

)

−1

(x − µ

) + log π

(7)

其中，第 k 和 l 类的判别边界由二次等式来描述 {x : δ

(x) = δ

ℓ

(x)}。

QDA 的估计类似 LDA 的估计，除了协方差矩阵必须要按每一类来估

计。下面我们用两种方式来表示二次判别：第一种是直接对原始输入变量进

行二次扩展，也即在原始变量 x

和 x

的基础上加入 x

, x

和交叉项 x

，

然后对扩展的变量空间直接进行构建 LDA 模型；第二种直接对原始变量空

间构建 QDA 模型，两种方式得到的混淆矩阵如下所示：

表 1: LDA 混淆矩阵

predicted\true 1 2 3

1 478 22 0

2 4 494 2

3 0 20 480

表 2: QDA 混淆矩阵

predicted\true 1 2 3

1 489 11 0

2 9 483 8

3 0 10 490

两者的差别很小，两种方式得到的分类准确率分别为 96.8% 和 97.5%,

由此可见，使用 QDA 模型要稍优于直接在原始空间上进行扩展后建立的

LDA，主要原因是 QDA 模型假定每个类别的协方差矩阵并不相等，比 LDA

的假定更贴合实际。但 LDA 方法更容易。

2.4 灵活判别分析：FDA

本小节主要讨论灵活判别分析。此方法的思想是将 LDA 问题看做是线

性回归问题。我们已经了解到有许多技术可以将线性回归推广到更灵活的

非参数的回归形式。基于此，我们也可以将 LDA 推广到更灵活的判别分析.

实质上，此方法其实就是在衍生的响应变量上进行线性回归。

同样，假定观测值具有一个定性的响应变量 G 有 K 个类 G = {1, . . . , K}，

每一个观测值都有测量特征 X。假定 θ : G 7→ R

是一个对每一个类都分配

得分的函数，这使得转换后的类标签可以通过对 X 进行线性回归来进行最

优预测。

一般地，我们最多能够找到 L ≤ K − 1 个独立的得分函数 θ

, θ

, . . . , θ

以及 L 个对应的线性映射 η

ℓ

(X) = X

ℓ

, ℓ = 1, . . . , L，得分函数和线性映

射的选择使得多元回归达到最优。其中，得分 θ

ℓ

(g) 和映射 β

ℓ

的选择使得

均方残差 (Average Squared Residual, ASR) 最小化，

剩余25页未读，继续阅读

大浪淘沙_scc

粉丝: 137
资源: 2

"线性判别分析及扩展方法在数据分析中的应用综述"

LDA Application

LDA application

lda使用方法

线性判别分析(LDA)原理详解及其应用

lda.rar_lda

内核功能的新扩展及其在视觉识别中的应用

LDA_Matlab_LDAMATLAB_

LDA 模型介绍

大数据下张量充分降维方法及其应用研究.pdf

LDA数学八卦1

最新资源