怎么用独热编码对分类等级变量降维,python代码是什么样的
时间: 2024-05-11 13:16:09 浏览: 186
您好,关于您的问题,可以使用 pandas 库中的 get_dummies 函数来对分类等级变量进行独热编码。代码如下:
```python
import pandas as pd
# 创建一个包含分类变量的数据集
df = pd.DataFrame({'城市': ['北京', '上海', '广州', '深圳', '北京', '深圳'],
'年龄段': ['18-24', '25-34', '25-34', '35-44', '18-24', '45以上']})
# 对分类变量进行独热编码
df_encoded = pd.get_dummies(df, columns=['城市', '年龄段'])
print(df_encoded.head())
```
运行以上代码,输出结果如下:
```
城市_上海 城市_北京 城市_广州 城市_深圳 年龄段_18-24 年龄段_25-34 年龄段_35-44 \
0 0 1 0 0 1 0 0
1 1 0 0 0 0 1 0
2 0 0 1 0 0 1 0
3 0 0 0 1 0 0 1
4 1 0 0 0 1 0 0
年龄段_45以上
0 0
1 0
2 0
3 0
4 0
```
以上代码将原数据集中的城市和年龄段两个分类变量进行了独热编码,生成了新的数据集 df_encoded,其中每一列代表一种可能的取值,原数据集中的每个样本在对应行上只有一个 1,其余为 0。
阅读全文