机器学习常用算法总结:因子分析和主成分分析

需积分: 12 6 下载量 106 浏览量 更新于2024-07-18 收藏 23.26MB DOCX 举报
机器学习常用算法汇总 机器学习是一门重要的计算机科学和统计学学科,旨在研究如何使计算机系统自动提高性能,通过经验和数据来不断改进自己的性能。机器学习中有很多常用的算法,本文将对其中的一些常用算法进行汇总。 1. 因子分析(FA) 因子分析是一种多元统计方法,将多个实测变量转换为少数几个不相关的综合指标。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。假想变量是不可观测的潜在变量,称为因子。 假定这p个有相关关系的随机变量含有m个彼此独立的因子,可表示为: 或用矩阵表示为X=AF+ε 其中,F1,F2,…,Fm称为公共因子,是不可观测的变量,它们的系数称为因子载荷,A称为因子载荷矩阵。ε是特殊因子,是不能包含在公共因子的部分。 需要满足: m≤p,即公共因子数不超过原变量个数 公共因子之间互不相关,且每个Fi方差为1,即F的协方差矩阵为I 公共因子和特殊因子之间彼此互不相关,即Cov(F,ε)=0 特殊因子之间彼此互不相关,但方差不一定相同,记εI的方差为 理想的情况是,对于每个原始变量而言,其在因子载荷矩阵中,在一个公共因子上的载荷较大,在其他的因子上载荷较小。可以通过因子旋转方法调整因子载荷矩阵。 2. 主成分分析(PCA) 主成分分析是一种常用的降维方法,试图在力保数据信息丢失最少的原则下,对多个变量进行最佳综合简化,即对高维变量空间进行降维处理。 假设原来有p个变量(或称指标),通常的做法是将原来p个变量(指标)作线性组合,以此新的综合变量(指标)代替原来p个指标进行统计分析。如果将选取的第一个线性组合,即第一个综合变量(指标),记为F1,则自然希望F1尽可能多地反映原有变量(指标)的信息。 如何衡量信息的含量,经典的做法就是采用“方差”来表示。F1的方差越大,F1所包含的信息就越多。这样,F1的选取方法是,在所有的原来p个变量(指标)的线性组合中,选取方差最大的线性组合作为F1,称为第一主成分。如第一主成分不足于代表原来p个变量(指标)的信息,则考虑选取第二主成分F2。为有效反映原信息,F1已有的信息不需要再现在F2中,即要求F1与F2的协方差为零,即Cov(F1,F2)=0。依此下去,我们可以构造出第三、第四、…、第p个主成分。在主成分之间,不仅不相关,而且方差依次递减。在实际经济工作中,我们往往选取前面几个较大的主成分。虽然损失一部分信息,但我们抓住了原来p个变量的大部分信息(一般要求超过85%),分析的结果应该是可靠的、可信的。 对所选主成分作经济解释: 主成分分析的关键在于能否给主成分赋予新的意义,给出合理的解释,这个解释是对主成分的经济解释。通过经济解释,可以更好地理解数据的含义,对数据进行更好的分析和应用。