dataframe字符串类型的列做onehot编码,输出的新列名为原列名_值
时间: 2024-03-10 08:49:14 浏览: 62
pandas DataFrame 根据多列的值做判断,生成新的列值实例
5星 · 资源好评率100%
可以使用 `pandas` 中的 `get_dummies()` 方法来对字符串类型的列进行 One-Hot 编码,并且可以通过 `add_prefix()` 方法给新生成的列加上前缀。
假设需要对列名为 `column_name` 的字符串类型列进行 One-Hot 编码,可以使用以下代码:
```python
import pandas as pd
# 读取数据到 DataFrame
df = pd.read_csv('data.csv')
# 对 column_name 列进行 One-Hot 编码
dummies = pd.get_dummies(df['column_name'], prefix='column_name')
# 将新生成的列添加到原 DataFrame 中
df = pd.concat([df, dummies], axis=1)
# 删除原列 column_name
df.drop(columns=['column_name'], inplace=True)
```
其中,`get_dummies()` 方法会将指定列进行 One-Hot 编码,并返回一个新的 DataFrame。`prefix` 参数指定新生成的列的前缀,这里使用了原列名。`concat()` 方法将新生成的列添加到原 DataFrame 中,`axis=1` 表示添加到列方向。`drop()` 方法删除原列 `column_name`。
注意,如果原列中有 `NaN` 值,需要先将其填充为其他值,否则在进行 One-Hot 编码时会出现错误。
阅读全文