首页优化这段代码dataset = pd.get_dummies(data=dataset, columns=[ 'PdDistrict'], drop_first = True) print(dataset)

优化这段代码dataset = pd.get_dummies(data=dataset, columns=[ 'PdDistrict'], drop_first = True) print(dataset)

时间: 2023-06-09 22:08:42 浏览: 118

tensorflow 中dataset.padded_batch函数的个人理解过程

今天继续啃Tensorflow实战Google深度学习框架这本书，在250P的Seq2Seq模型代码理解时候有点困难，其中padded_batch(batch_size,padded_shapes)这个函数为最，本次仅为记录刨根问底的过程，也是整理一下类似函数的理解过程。 1直接查看英文解释，并且配合W3school的中文解释，锻炼英文阅读理解能力，尤其是专业的英文单词。直接在pycharm上查看代码自带的英文注释 Combines consecutive elements of this dataset into padded batches. Like `Dataset.dens

你对这段代码的疑问是什么？是否可以更加高效的编写方式？我的确没有理解您的第一个问题所在，这段代码可以一次性将 'PdDistrict' 列转化为多列（每列代表一个 district），这是独热编码的一种实现方式。如果您希望更加高效的方式，可以考虑使用 sklearn.preprocessing 的 OneHotEncoder 实现，这是一个专门用来进行独热编码的工具包，效率比 pd.get_dummies 更高。例子: ```python from sklearn.preprocessing import OneHotEncoder enc = OneHotEncoder(handle_unknown='ignore') enc.fit_transform(dataset[['PdDistrict']]) ``` 其中 `handle_unknown='ignore'` 表示如果出现未知的 district，就忽略，这样不会报错。

阅读全文