from sklearn.compose import ColumnTransformer
时间: 2024-09-06 15:01:02 浏览: 42
`from sklearn.compose import ColumnTransformer` 是 scikit-learn 中一个非常实用的功能模块,它用于数据预处理过程中对不同类型的数据列进行独立的转换。ColumnTransformer 是一个容器类,允许你在机器学习任务中并行地应用多种数据预处理技术到数据集的不同部分(比如某些特征列)。它通常结合 Pipeline 使用,可以让你更好地组织和管理复杂的预处理流程。
你可以创建一个 ColumnTransformer 对象,传入一系列的 ' transformers '(每个 transformer 对应于数据集中的一列或多列),它们可能是单独的预处理步骤,如 OneHotEncoder、StandardScaler 等,或者是自定义函数。然后,当你调用 `fit_transform` 或 `transform` 方法时,它会对每列数据应用相应的预处理策略。
例如:
```python
column_transformer = ColumnTransformer(
transformers=[
('numeric', StandardScaler(), ['age', 'income']),
('categorical', OneHotEncoder(), ['gender', 'education'])
]
)
preprocessed_data = column_transformer.fit_transform(data)
```
在这个示例中,'numeric' 列(如年龄和收入)会被标准化,而 'categorical' 列(如性别和教育)会被编码成二进制列。
阅读全文