pd.get_dummies怎么用
时间: 2024-05-15 12:17:02 浏览: 97
pandas中的get_dummies()函数可以将分类变量转换为虚拟变量/哑变量。它接受一个DataFrame或Series对象,并返回一个新的DataFrame或Series对象,其中包含分类变量的虚拟变量。
使用方法如下:
1. 对于Series对象
```python
import pandas as pd
# 创建一个Series对象
s = pd.Series(["A", "B", "C", "A", "B", "C"])
# 转换为虚拟变量
dummies = pd.get_dummies(s)
print(dummies)
```
输出结果:
```
A B C
0 1 0 0
1 0 1 0
2 0 0 1
3 1 0 0
4 0 1 0
5 0 0 1
```
2. 对于DataFrame对象
```python
import pandas as pd
# 创建一个DataFrame对象
df = pd.DataFrame({
"A": ["a", "b", "c", "a", "b", "c"],
"B": [1, 2, 3, 4, 5, 6]
})
# 转换为虚拟变量
dummies = pd.get_dummies(df["A"])
# 将虚拟变量添加到原始DataFrame中
df = pd.concat([df, dummies], axis=1)
print(df)
```
输出结果:
```
A B a b c
0 a 1 1 0 0
1 b 2 0 1 0
2 c 3 0 0 1
3 a 4 1 0 0
4 b 5 0 1 0
5 c 6 0 0 1
```
在这个例子中,我们首先将DataFrame的"A"列转换为虚拟变量,并将其存储在一个新的DataFrame中。然后,我们使用concat()函数将原始DataFrame和新的虚拟变量DataFrame合并。最终结果是一个DataFrame,它包括原始的"A"列和虚拟变量列。
阅读全文