Fisher线性判别式与模式分类

需积分: 9 0 下载量 37 浏览量 更新于2024-09-11 收藏 543KB DOC 举报
"Fisher判别式是一种模式分类方法,主要目标是寻找一个最佳的线性投影方向,使得样本在该方向上的投影能够最大程度地分离不同类别的数据。这种方法起源于R.A.Fisher在1936年的经典论文,旨在解决高维空间中的模式识别问题,通过降低维数以提高分类效果。Fisher判别式的重点在于找到最优的线性判别函数,即解向量,使得类别间的散度最大,同时类内的散度最小。" 在 Fisher 线性判别分析(LDA)中,我们通常处理两种类别的问题。假设我们有 n 个训练样本,其中 m1 个样本属于类别 A,m2 个样本属于类别 B。每个样本可以用 p 维特征向量 x 来表示。目标是找到一个一维的线性变换 w,使得投影后的样本点在新坐标轴上的分布尽可能地易于区分。 Fisher 定义了一个准则函数,以优化这个投影方向。这个准则函数包括了两类样本的类间散度(between-class scatter)和类内散度(within-class scatter)。类间散度是两类样本均值之间的距离,反映了类别之间的分离程度;类内散度则是样本点到其类别均值的距离之和,体现了样本内部的紧密程度。Fisher 的目标是最大化类间散度并最小化类内散度,以找到最佳的判别方向 w。 两类样本的均值向量可以表示为 μ1 和 μ2。在 w 方向上,类内散度矩阵可以表示为 S_w,它是所有样本点到各自类别均值的差的协方差矩阵;类间散度矩阵 S_B 是两类均值向量的差的协方差。Fisher 的判别准则可以写为 J(w) = (w^T S_B w) / (w^T S_w w),要求最大化 J(w)。 通过求解这个优化问题,我们可以找到最佳的 w,即解向量。解向量 w 会指向一个方向,使得样本在这个方向上的投影最大程度地分离。最终的分类决策可以通过计算样本 x 在 w 方向的投影 d = w^T x,并根据 d 的符号或大小将样本分配到相应的类别。 在实践中,Fisher 判别式不仅用于线性分类,还可以通过非线性映射(如核技巧)扩展到非线性分类问题。此外,LDA 还常常被用于主成分分析(PCA)中,作为降维的一种手段,因为它能够保留样本间的类别信息。 总结来说,Fisher 判别式是模式识别和数据分析中的一种重要工具,它利用统计学的方法寻找最优的线性判别函数,以在降低维度的同时保持类别间的最大区分度,从而有效地进行分类和数据可视化。