python中,get_dummies()函数的作用
时间: 2024-11-03 07:15:20 浏览: 24
pandas使用get_dummies进行one-hot编码的方法
5星 · 资源好评率100%
`get_dummies()`函数在Python的pandas库中用于对类别变量(如分类列)进行独热编码(One-Hot Encoding),将它们转换成二进制形式以便于数值计算。这个过程会创建一个新的DataFrame,其中每一列代表原始数据的一个独特类别。
举个例子[^1]:
```python
from sklearn.preprocessing import get_dummies
# 假设我们有如下DataFrame,其中'data'列包含了分类信息
df = pd.DataFrame({'data': ['red', 'blue', 'green', 'yellow', 'red', 'blue']})
print('Original DataFrame:')
print(df)
# 使用get_dummies()
encoded_df = pd.get_dummies(df['data'])
print('After applying get_dummies:')
print(encoded_df)
```
在这个例子中,`get_dummies()`会创建两列:'red' 和 'blue',对应原始数据中红色和蓝色的出现情况。这样做的好处是可以清楚地区分不同类别的数据,但会增加列数和内存占用。
阅读全文