pandas get_dummies函数
时间: 2024-05-09 16:16:04 浏览: 246
pandas中的get_dummies()函数可以将一个或多个分类变量转换为数值型的哑变量(dummy variables)。哑变量是指在某个分类变量中,用0或1表示该变量的每个特定取值是否存在的一种方式。这种转换可以使分类变量更适合于机器学习算法的输入。
该函数的基本用法如下:
```python
pd.get_dummies(data, columns=None, prefix=None, prefix_sep='_', dummy_na=False, drop_first=False)
```
其中,参数data是要转换的数据,columns指定要转换的列名或列名列表,prefix用于指定哑变量的名称前缀,prefix_sep用于指定前缀和原始列名之间的分隔符,dummy_na指定是否为缺失值创建哑变量,drop_first指定是否删除每个变量的第一个级别,以避免多重共线性。
举个例子,假设有以下数据:
```python
import pandas as pd
data = pd.DataFrame({'color': ['red', 'green', 'blue', 'red', 'green', 'blue']})
```
调用get_dummies()函数可以将color列转换为哑变量:
```python
dummies = pd.get_dummies(data, columns=['color'], prefix='color')
print(dummies)
```
输出结果如下:
```
color_blue color_green color_red
0 0 0 1
1 0 1 0
2 1 0 0
3 0 0 1
4 0 1 0
5 1 0 0
```
可以看到,每个颜色都被转换为了一个哑变量,并且可以通过前缀和分隔符来区分它们。
阅读全文