优化这段代码dataset = pd.get_dummies(data=dataset, columns=[ 'PdDistrict'], drop_first = True) print(dataset)
时间: 2023-06-09 22:08:42 浏览: 118
tensorflow 中dataset.padded_batch函数的个人理解过程
你对这段代码的疑问是什么?是否可以更加高效的编写方式?
我的确没有理解您的第一个问题所在,这段代码可以一次性将 'PdDistrict' 列转化为多列(每列代表一个 district),这是独热编码的一种实现方式。
如果您希望更加高效的方式,可以考虑使用 sklearn.preprocessing 的 OneHotEncoder 实现,这是一个专门用来进行独热编码的工具包,效率比 pd.get_dummies 更高。
例子:
```python
from sklearn.preprocessing import OneHotEncoder
enc = OneHotEncoder(handle_unknown='ignore')
enc.fit_transform(dataset[['PdDistrict']])
```
其中 `handle_unknown='ignore'` 表示如果出现未知的 district,就忽略,这样不会报错。
阅读全文