用pandas哪个函数处理定性数据
时间: 2023-12-22 12:03:14 浏览: 31
在pandas中,可以使用`pd.get_dummies()`函数来处理定性数据。该函数可以将定性数据转换为哑变量(dummy variable),也被称为指示变量(indicator variable)或虚拟变量(dummy variable)。
`pd.get_dummies()`函数可以将定性数据中的每个类别都转换为一个新的列,每个列的取值为0或1,表示该行属于该列对应的类别(取值为1),或者不属于该列对应的类别(取值为0)。
例如,假设有一个数据集包含了性别、年龄、职业等定性数据,可以使用以下代码将性别转换为哑变量:
```
import pandas as pd
# 构造示例数据
data = pd.DataFrame({'gender':['male', 'female', 'male', 'male', 'female'],
'age':[25, 30, 35, 40, 45],
'job':['student', 'teacher', 'engineer', 'doctor', 'lawyer']})
# 将gender列转换为哑变量(独热编码)
dummies = pd.get_dummies(data['gender'], prefix='gender')
# 将哑变量与原始数据合并
data = pd.concat([data, dummies], axis=1)
# 输出结果
print(data)
```
运行结果如下:
```
gender age job gender_female gender_male
0 male 25 student 0 1
1 female 30 teacher 1 0
2 male 35 engineer 0 1
3 male 40 doctor 0 1
4 female 45 lawyer 1 0
```
可以看到,通过`pd.get_dummies()`函数将gender列转换为了哑变量,并且使用`prefix`参数指定了新列的前缀。最后,将哑变量与原始数据合并得到了新的数据集。