df.corr作用及参数
时间: 2023-11-19 15:04:56 浏览: 120
数据分析——数据校验.pdf
`df.corr()` 是用来计算 DataFrame 中列之间的相关性的方法。它返回一个包含列与列之间相关系数的矩阵,其中每个元素是两个列之间的相关系数。
`df.corr()` 方法有以下参数:
- `method`: 指定计算相关系数的方法,可以是 `pearson`(默认值)、`kendall` 或 `spearman`。`pearson` 方法用于计算两个连续变量之间的线性相关性,`kendall` 和 `spearman` 适用于计算任意类型变量之间的相关性。
- `min_periods`: 指定计算相关系数所需的最小观测值数量。默认值为 1,表示两个列中只要有任意一个非空值,就会计算它们之间的相关系数。如果设置为较大的值,则在观测值数量不足时会返回 NaN。
- `dropna`: 指定是否删除包含缺失值的行或列。默认值为 True,表示删除包含缺失值的行或列。如果设置为 False,则保留包含缺失值的行或列,并将相关系数设置为 NaN。
示例:
```python
import pandas as pd
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]})
print(df.corr())
# Output:
# A B C
# A 1.0 1.0 1.0
# B 1.0 1.0 1.0
# C 1.0 1.0 1.0
```
在上面的示例中,由于所有的列都是完全相关的,因此它们之间的相关系数都为 1.0。
阅读全文