因子分析：解决小样本与大特征数的问题

需积分: 0 104 浏览量更新于2024-08-05 收藏 953KB PDF 举报

"因子分析是一种统计方法，用于处理数据中潜在的复杂关系，特别是当样本数量较少而特征数量较多时。在因子分析中，我们假设数据的大部分变异性是由少数未观测到的“因子”引起的，这些因子可以是潜在的抽象概念或变量。通过这种方法，我们可以减少数据的维度，同时捕捉大部分的信息。因子分析起源于解决在数据拟合过程中遇到的问题，例如在使用多元高斯分布对数据进行建模时，当样本数量远小于特征数量（m << n）时，协方差矩阵可能成为奇异矩阵，无法进行有效的逆运算。为了解决这个问题，通常会对模型做出简化假设，比如将协方差矩阵限制为对角阵，意味着各个特征之间相互独立。在这种情况下，我们只需计算每个特征的方差，协方差矩阵只包含对角线上的非零元素。更进一步，如果假设对角线上的元素相等，即所有特征具有相同的方差，那么协方差矩阵就变成了一个标量乘以单位矩阵的形式，这在二维高斯分布的可视化中意味着数据点将分布在以均值为中心的圆形区域内，而不是椭圆形。这种假设虽然简化了问题，但也限制了模型的能力，因为它忽略了特征间的潜在关联。因子分析提供了一种更加灵活的方法来处理特征间的关系。它引入了因子的概念，这些因子是不可观测的变量，它们解释了数据中特征之间的共变性。通过因子分析，我们能够估计出因子载荷（features与因子的关系），从而理解哪些特征在统计上与特定因子相关联。这样，即使在m << n的情况下，也能有效地估计模型参数，同时揭示特征间隐藏的相关性。在实施因子分析时，目标是找到一个低秩的因子矩阵，它能尽可能地解释原有的协方差矩阵。这通常通过最大似然估计或主成分分析等技术来实现。因子分析的应用广泛，包括心理学、社会学、市场营销和工程等领域，用来识别变量背后的结构，降低数据复杂性，并可能发现新的理论见解。因子分析是对高维数据进行降维和解释的一种统计工具，它通过假设存在少数潜在因子来解释数据的大部分变异，从而在样本数量不足时仍能有效地分析特征间的关系。尽管它的基本思想是简化模型，但通过引入额外的参数，因子分析能够捕获比简单假设更多的数据结构信息。"

那么只知道联合分布的情况下，如何求得



的边缘分布呢？从上面的和可以看出，



󰇟





󰇠

 



,󰇛



󰇜  󰇟󰇛



 



󰇜󰇛



 



󰇜



󰇠  



，下面我们验证第二个结果

由此可见，多元高斯分布的边缘分布仍然是多元高斯分布。也就是说



󰇛







󰇜。

上面 Cov(x)里面有趣的是



，这个与之前计算协方差的效果不同。之前的协方差矩阵

都是针对一个随机变量（多维向量）来说的，而



评价的是两个随机向量之间的关系。比

如



={身高，体重}，



={性别，收入}，那么



求的是身高与身高，身高与体重，体重与体

重的协方差。而



求的是身高与性别，身高与收入，体重与性别，体重与收入的协方差，

看起来与之前的大不一样，比较诡异的求法。

上面求的是边缘分布，让我们考虑一下条件分布的问题，也就是







的问题。根据多

元高斯分布的定义，







󰇛







󰇜。

且

这是我们接下来计算时需要的公式，这两个公式直接给出，没有推导过程。如果想了解

具体的推导过程，可以参见 Chuong B. Do 写的《Gaussian processes》。

4 因子分析例子

下面通过一个简单例子，来引出因子分析背后的思想。

因子分析的实质是认为 m 个 n 维特征的训练样例

󰇛



󰇜

󰇛



󰇛



󰇜





󰇛



󰇜





󰇛



󰇜

󰇜的产生过程如下：

1、首先在一个 k 维的空间中按照多元高斯分布生成 m 个

󰇛󰇜

（k 维向量），即



󰇛󰇜

󰇛󰇜

2、然后存在一个变换矩阵  



，将

󰇛󰇜

映射到 n 维空间中，即



󰇛



󰇜

因为

󰇛󰇜

的均值是 0，映射后仍然是 0。

剩余10页未读，继续阅读

周林深

粉丝: 56
资源: 290

因子分析：解决小样本与大特征数的问题

因子分析统计学分析

欧姆社学习漫画 漫画统计学之因子分析

spss 回归分析 主成分分析与因子分析 课件

完整版SPSS数据分析软件基础 中级教程 CHAP 13 主成分分析与因子分析.rar

完整版SPSS数据分析软件基础 中级教程 CHAP 13 主成分分析与因子分析.pdf

因子分析_MATLAB入门教程_；因子分析_

第13章主成分分析和因子分析PPT学习教案.pptx

主成分分析和因子分析 stata统计分析与应用.pptx

matlab 因子分析

基于因子分析方法对大连市主导产业分析

最新资源

欧姆社学习漫画漫画统计学之因子分析

spss 回归分析主成分分析与因子分析课件

完整版SPSS数据分析软件基础中级教程 CHAP 13 主成分分析与因子分析.rar

完整版SPSS数据分析软件基础中级教程 CHAP 13 主成分分析与因子分析.pdf