get_dummies() 函数 怎么用
时间: 2024-03-29 22:34:14 浏览: 66
`get_dummies()` 函数是 pandas 库中的一种数据转换函数,用于将分类变量转换为数值型变量。
函数原型为:
``` python
pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)
```
参数说明:
- `data`: 需要转换的数据。
- `prefix`: 新增列名的前缀。
- `prefix_sep`: 新增列名的分隔符。
- `dummy_na`: 是否为缺失值创建一个虚拟列。
- `columns`: 需要转换的列名。
- `sparse`: 是否使用稀疏矩阵。
- `drop_first`: 是否删除第一列。
- `dtype`: 新增列的数据类型。
使用示例:
``` python
import pandas as pd
# 创建一个包含分类变量的数据集
data = pd.DataFrame({'color': ['red', 'blue', 'green', 'red', 'green']})
# 将分类变量 color 转换为数值型变量
data = pd.get_dummies(data, columns=['color'], prefix='color')
# 打印转换后的结果
print(data)
```
输出结果为:
```
color_blue color_green color_red
0 0 0 1
1 1 0 0
2 0 1 0
3 0 0 1
4 0 1 0
```
以上示例中,将包含分类变量的数据集 `data` 中的 `color` 列转换为数值型变量,并且新增了三列 `color_blue`、`color_green` 和 `color_red`,分别表示原来的 `color` 列中的每个取值。
阅读全文