独热编码python
时间: 2023-07-03 11:10:06 浏览: 129
手动实现One-Hot编码完整实现Python版
5星 · 资源好评率100%
独热编码(One-Hot Encoding)是一种常用的特征编码方法,用于将离散特征转换为一组二元特征,使得特征之间的距离计算更加合理。在 Python 中,可以使用 pandas 库的 get_dummies() 函数来进行独热编码。
例如,我们有一个包含性别和职业的数据集:
```
import pandas as pd
data = pd.DataFrame({'Gender': ['Male', 'Female', 'Female', 'Male', 'Male', 'Female'],
'Occupation': ['Student', 'Engineer', 'Student', 'Teacher', 'Teacher', 'Engineer']})
```
使用 get_dummies() 函数对数据进行独热编码:
```
encoded_data = pd.get_dummies(data, columns=['Gender', 'Occupation'])
```
输出 encoded_data 的结果如下:
```
Gender_Female Gender_Male Occupation_Engineer Occupation_Student Occupation_Teacher
0 0 1 0 1 0
1 1 0 1 0 0
2 1 0 0 1 0
3 0 1 0 0 1
4 0 1 0 0 1
5 1 0 1 0 0
```
可以看到,原来的两个特征被分别转换为了多个二元特征,每个特征都对应了一个唯一的值。如果某个样本属于该特征值,则对应的二元特征为 1,否则为 0。
阅读全文