pd.get_dummies
时间: 2024-05-13 14:18:17 浏览: 47
pandas使用get_dummies进行one-hot编码的方法
5星 · 资源好评率100%
`pd.get_dummies` 是 Pandas 中的一个函数,用于将分类变量转换为哑变量(dummy variables)或指示变量(indicator variables),从而方便进行分析。
它可以将一列中的每个不同值(类别)转换成新的一组列,这些列的值为 0 或 1,表示原始数据中是否存在该类别。这种转换通常在机器学习中用于特征工程,将分类变量转换为可用于模型训练的数值特征。
例如,假设有一个包含性别信息的 DataFrame:
```python
import pandas as pd
df = pd.DataFrame({'sex': ['M', 'F', 'F', 'M', 'M']})
```
使用 `pd.get_dummies` 可以将性别列转换为哑变量:
```python
pd.get_dummies(df['sex'])
```
输出:
```
F M
0 0 1
1 1 0
2 1 0
3 0 1
4 0 1
```
可以看到,'sex' 列中的值被转换为了两列,分别表示男性和女性的存在与否。这样的转换可以使得原始数据更加易于处理和分析。
阅读全文