dataframe.corr()返回的相关矩阵中,相关系数具体是如何计算的,需要用到概率论与数理统计的东西吗
时间: 2023-06-18 10:08:20 浏览: 120
Python数据相关系数矩阵和热力图轻松实现教程
5星 · 资源好评率100%
相关系数是用来衡量两个变量之间线性相关程度的统计量,常用的有 Pearson 相关系数和 Spearman 相关系数。在 pandas 中,`dataframe.corr()`返回的默认是 Pearson 相关系数矩阵。
对于 Pearson 相关系数矩阵,每个元素 $r_{ij}$ 表示第 i 个变量和第 j 个变量之间的相关系数。具体地,Pearson 相关系数是通过计算两个变量之间的协方差和标准差来计算的:
$$r_{xy}=\frac{\operatorname{cov}(X,Y)}{\sigma_X\sigma_Y}$$
其中,$\operatorname{cov}(X,Y)$ 表示变量 $X$ 和 $Y$ 的协方差,$\sigma_X$ 和 $\sigma_Y$ 分别表示变量 $X$ 和 $Y$ 的标准差。
需要说明的是,计算相关系数并不需要对概率论与数理统计有深入的理解,只需要了解相关系数的定义以及如何计算就可以。
阅读全文