Fisher线性判别：UCI数据集上的分类验证与深度解析

需积分: 44 44 浏览量更新于2024-07-09 3 收藏 290KB PDF 举报

实验一：Fisher线性判别是模式识别和机器学习领域中的一个重要实验，主要应用于解决分类问题，通过优化投影方向，使得不同类别之间的区分度最大化，同时保持同一类别内部的差异最小。在这个实验中，我们选择了UCI数据集中的Iris（包含3类、4维特征、150个数据点）和sonar（2类、60维、208个样本）数据集作为研究对象。 UCI数据库是加州大学欧文分校提供的标准机器学习测试数据集，包含了多个数据集供研究者评估算法性能。Iris数据集展示了三个物种的花的数据，包括花瓣长度、宽度等特征，每个样本都被标记为setosa、versicolor或virginica。Fisher线性判别分析的核心思想是利用统计学方法，如样本均值向量和离散度矩阵，来寻找最优的投影轴。具体步骤如下： 1. **样本预处理**：计算每类样本的均值向量（µi），表示类别中心。对于Iris数据，这是通过求每个类别的样本均值得到的，如 µ1 = (5.1, 3.5, 1.4, 0.2) 等。 2. **构建矩阵**：计算样本类内离散度矩阵Si，表示每类样本内部的差异；总样本类内离散度矩阵Sw为两类的和；样本类间离散度矩阵Sb衡量了两个类别的差异。 3. **Fisher准则**：目标是找到一个投影方向，使得投影后的样本类间距离最大化，类内距离最小化。这涉及到在高维空间（X空间）和低维空间（Y空间）的投影过程，分别计算对应的均值、离散度矩阵。 4. **投影与计算**：在Y空间中，找到一个投影轴，使得投影后的数据更易于区分。投影后的均值向量和离散度矩阵可以通过上述公式计算得出。 5. **验证与应用**：将该方法应用到Iris和sonar数据集上，观察Fisher线性判别法是否能有效提高分类准确性和区分度。这可能涉及训练模型、交叉验证以及评估分类效果，比如通过计算精确率、召回率和F1分数等指标。通过这个实验，学生可以深入理解Fisher线性判别法的工作原理，以及如何将其应用于实际的数据分类任务中。此外，这个实验也强调了选择合适的数据集和评估指标在模式识别中的重要性。

(a) 在第一投影方向上的投影 (b) 在第二投影方向上的投影 (c) 在第三投影方向上的投影

图 1: Iris 数据集在三类投影方向上的投影

从图中可以看出，Iris 数据集在三个方向上投影分隔比较明显，重叠部分很少，这印证了该分类算法

在 Iris 数据集上准确率很高。

4.2 sonar 数据集（2 类，60 维）

本次实验对 sonar 数据集采用了三种方法求解分类准确率，结果如下表所示：

表 2: sonar 数据集三种分类方法的准确率

分类方法准确率

留出法 72.22%

10 折交叉验证法 59.19%

留一法 75.00%

其中，留出法对训练集和测试集按照 7/3 的比例进行随机划分，计算 10 次准确率之后求取平均值。

从上表中可以发现，对于 K 折交叉验证法，取 K 为 10 时，准确率明显较低。当增大 K 时，准确率

得到明显提高，当 K 取值为 80 时，K 折交叉验证法准确率逼近留一法。考虑到留一法是特殊的 K 折交

叉验证法（即 K=N-1），说明当样本量较大时，适当增大 K 值有利于提升该分类算法的准确率。

sonar 数据集在投影向量上的投影结果如下图所示。

图 2: sonar 数据集在三类投影方向上的投影

从图中可以看出，三类样本无明显间隔区分，部分混叠严重，这也印证了该分类算法在 sonar 数据集

上准确率不高。

剩余15页未读，继续阅读

zstar-_

粉丝: 14w+
资源: 75

Fisher线性判别：UCI数据集上的分类验证与深度解析

手写数字识别入门教程：Fisher线性判别法解析

经典统计模式识别：Fisher准则与线性判别函数

模式识别基础：贝叶斯决策与线性判别分析

使用 FLD 进行人脸识别：Fisher 线性判别法 (FLD) 进行人脸识别-matlab开发

模式识别大作业：Fisher、C-means与感知器分类法综合应用

模式识别实验报告实验一基于Fisher准则线性分类器设计

模式识别Fisher线性判别法

(模式识别)Fisher线性判别.pdf

模式识别fisher线性判别作业.doc

FLDFaceDetectionMATLAB:基于Fisher线性判别（FLD）的人脸识别算法的实现

最新资源