机器学习降维解析:PCA与LDA

版权申诉
0 下载量 45 浏览量 更新于2024-08-04 收藏 1.87MB PPT 举报
"机器学习之降维—PCA-LDA.ppt" 主成分分析PCA是一种常见的数据分析和降维技术,主要用于处理具有多个相关变量的数据集。PCA的目标是通过线性变换找到一组新的正交变量(主成分),这组新变量是原始变量的线性组合,并且它们按照方差大小排序,使得第一个主成分拥有最大的方差,第二个主成分拥有次大的方差,以此类推。这种方法可以有效地减少数据的维度,同时最大化保留数据集中的信息。 PCA的核心概念包括: 1. **均值**:数据集的中心位置,即所有数据点的平均值。在PCA中,通常先对数据进行中心化,使得每个变量的均值为0。 2. **方差**:衡量一个变量的离散程度,方差越大,表示数据点在平均值周围的分布越分散。 3. **协方差**:衡量两个变量之间的线性关系,其值为正值表示两个变量同向变化,负值则表示反向变化。协方差矩阵包含了所有变量对的协方差。 4. **特征值与特征向量**:在数学中,对于一个方阵,特征值和特征向量描述了矩阵在其作用下如何改变向量。在PCA中,协方差矩阵的特征值和对应的特征向量用于确定主成分的方向。 5. **问题的提出**:当数据集中有多个变量,且变量之间存在相关性时,PCA可以帮助减少变量数量。通过选取若干个主成分,可以实现数据降维,同时尽量保持原始数据的大部分信息。 6. **选择主成分**:选择主成分的数量通常依据信息保留的程度,一般希望新变量能够最大化地解释原始数据的方差。通常,选择的主成分个数应小于原始变量的个数,而且应确保累积方差占比达到一个较高的阈值,比如80%或90%,以保证信息损失最小。 7. **实例应用**:例如在经济分析中,PCA可以将多个复杂的经济指标压缩为少数几个主成分,以便更直观地理解和解释经济状态。在学生成绩数据中,PCA可以将多个学科成绩转化为一两个综合变量,既可简化分析,也可能用于学生排名。 PCA的步骤通常包括: 1. 数据预处理:计算每个变量的均值并减去均值,使数据中心化。 2. 构建协方差矩阵或相关矩阵。 3. 求解协方差矩阵的特征值和对应的特征向量。 4. 按照特征值大小对特征向量进行排序。 5. 选择前k个特征向量作为新的坐标轴,构建降维后的主成分空间。 6. 将原始数据投影到这个新的低维空间。 PCA的一个重要应用是在机器学习领域,如图像识别、文本分类等,它能降低模型的复杂度,提高算法的效率,并帮助解决过拟合问题。此外,PCA也可以用于数据可视化,将高维数据映射到二维或三维空间。 在PCA的过程中,需要注意的是,尽管PCA能够有效地降维,但它假设数据的线性结构,对于非线性数据集,PCA的效果可能不理想。在这种情况下,可能需要考虑其他降维方法,如LDA(线性判别分析)或其他非线性降维技术,如t-SNE(t分布随机近邻嵌入)或Isomap等。