6. 协方差与相关系数的区别和联系。
协方差:
协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个
变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的
期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一
个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负
值。
相关系数:
研究变量之间线性相关程度的量,取值范围是[-1,1]。相关系数也可以看成协方差:一种
剔除了两个变量量纲影响、标准化后的特殊协方差。
7. 中心极限定理
•
中心极限定理定义:
(1)任何一个样本的平均值将会约等于其所在总体的平均值。
(2)不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的平均值
周围,并且呈正态分布。
•
中心极限定理作用:
(1)在没有办法得到总体全部数据的情况下,我们可以用样本来估计总体。
(2)根据总体的平均值和标准差,判断某个样本是否属于总体。
8. PCA 为什么要中心化?PCA 的主成分是什么?
•
因为要算协方差。
单纯的线性变换只是产生了倍数缩放,无法消除量纲对协方差的影响,而协方差是
为了让投影后方差最大。
•
在统计学中,主成分分析(PCA)是一种简化数据集的技术。它是一个线性变换。
这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第
一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类
推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特
征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保
留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。
主成分分析的原理是设法将原来变量重新组合成一组新的相互无关的几个综合变
量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量
的信息的统计方法叫做主成分分析或称主分量分析,也是数学上处理降维的一种方
法。主成分分析是设法将原来众多具有一定相关性(比如 P 个指标),重新组合成
一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P
个指标作线性组合,作为新的综合指标。最经典的做法就是用 F1(选取的第一个
线性组合,即第一个综合指标)的方差来表达,即 Va(rF1)越大,表示 F1 包含