多列数据相关性分析 pandas
时间: 2023-08-06 21:04:42 浏览: 177
在 Pandas 中,可以使用 `corr()` 方法计算数据帧中所有列之间的相关性系数。该方法返回一个相关性矩阵,其中每个元素表示两个变量之间的相关性系数。
示例代码:
```python
import pandas as pd
# 读取数据
df = pd.read_csv('data.csv')
# 计算相关性矩阵
corr_matrix = df.corr()
# 打印相关性矩阵
print(corr_matrix)
```
在上面的代码中,`df` 是一个包含多列数据的 Pandas 数据帧。`corr()` 方法计算了数据帧中所有列之间的相关性系数,然后返回一个相关性矩阵。最后,我们打印出了相关性矩阵。
如果我们只想计算某些列之间的相关性系数,可以使用 `corr()` 方法的 `method` 参数。该参数可以取值为 `pearson` (默认值)、`kendall` 或 `spearman`,分别对应 Pearson 相关系数、Kendall Tau 相关系数和 Spearman 相关系数。
示例代码:
```python
import pandas as pd
# 读取数据
df = pd.read_csv('data.csv')
# 计算某些列之间的相关性矩阵
cols = ['col1', 'col2', 'col3']
corr_matrix = df[cols].corr(method='pearson')
# 打印相关性矩阵
print(corr_matrix)
```
在上面的代码中,我们只计算了 `col1`、`col2` 和 `col3` 三列之间的相关性系数,使用了 `corr()` 方法的 `method` 参数指定了计算 Pearson 相关系数。
阅读全文