相关系数与协方差:揭示数据关联的深层联系
发布时间: 2024-06-13 17:24:27 阅读量: 47 订阅数: 24
![相关系数与协方差:揭示数据关联的深层联系](https://site.cdn.mengte.online/official/2021/12/20211219135702653png)
# 1. 相关系数与协方差概述
相关系数和协方差是统计学中衡量两个变量之间关系的两个重要指标。相关系数度量的是两个变量之间的线性相关程度,而协方差则度量的是两个变量之间的协同变化程度。
相关系数的取值范围为[-1, 1],其中-1表示完全负相关,0表示无相关,1表示完全正相关。协方差没有固定的取值范围,其正负号表示两个变量之间的协同变化方向。正协方差表示两个变量同向变化,负协方差表示两个变量反向变化。
# 2. 相关系数与协方差的理论基础
### 2.1 相关系数的定义和计算
#### 2.1.1 皮尔逊相关系数
**定义:**皮尔逊相关系数(Pearson correlation coefficient)衡量两个变量之间的线性相关性,其值为-1到1。
**计算公式:**
```python
r = (cov(x, y)) / (std(x) * std(y))
```
其中:
* `x` 和 `y` 是两个变量
* `cov()` 是协方差函数
* `std()` 是标准差函数
#### 2.1.2 斯皮尔曼秩相关系数
**定义:**斯皮尔曼秩相关系数(Spearman's rank correlation coefficient)衡量两个变量之间的单调相关性,其值为-1到1。
**计算公式:**
```python
r_s = (6 * sum(d_i^2)) / (n * (n^2 - 1))
```
其中:
* `d_i` 是变量 `x` 和 `y` 的第 `i` 个差值
* `n` 是样本量
### 2.2 协方差的定义和计算
#### 2.2.1 协方差的数学公式
**定义:**协方差(covariance)衡量两个变量之间的协同变化程度,其值为正、负或零。
**计算公式:**
```python
cov(x, y) = E[(x - μ_x) * (y - μ_y)]
```
其中:
* `x` 和 `y` 是两个变量
* `E` 是期望值函数
* `μ_x` 和 `μ_y` 是变量 `x` 和 `y` 的均值
#### 2.2.2 协方差的几何解释
协方差可以几何解释为变量 `x` 和 `y` 的散点图的椭圆面积。椭圆的面积越大,协方差越大,表明两个变量之间的协同变化程度越大。
# 3.1 数据关联性的度量
**3.1.1 相关系数的取值范围和意义**
皮尔逊相关系数的取值范围为[-1, 1]。
* **-1**:表示完全负相关,即两个变量的变化方向完全相反。
* **0
0
0