sklearn数据预处理与特征工程详解

版权申诉

5星 · 超过95%的资源 194 浏览量更新于2024-07-01 2 收藏 2.62MB PDF 举报

"这篇PDF笔记主要探讨了使用Python的sklearn库进行数据预处理和特征工程的方法，强调了这两个步骤在机器学习中的重要性。笔记首先介绍了数据挖掘的五个基本流程，接着详细讨论了数据预处理的目的和特征工程的相关问题。在数据预处理方面，提到了无量纲化、缺失值处理、分类型特征编码和连续型特征的二值化与分段。在特征工程部分，介绍了Filter、Embedded和Wrapper三种特征选择方法。笔记还列出了sklearn库中与预处理和特征选择相关的模块，如preprocessing、Impute和feature_selection。" 在机器学习中，数据预处理是一个关键步骤，它直接影响到模型的性能。首先，获取数据后，需要进行数据预处理以确保数据的质量和适用性。这一阶段包括处理数据的不同类型、噪声、异常值、缺失值、重复值和量纲不一致等问题。数据预处理的目标是使数据适合模型的输入要求，例如通过数据清洗、标准化或归一化来调整数据的范围和分布。无量纲化是预处理的一个重要环节，它通常分为数据标准化和数据归一化。数据标准化是将数据转化为均值为0，标准差为1的标准正态分布，常用方法有Z-score标准化。而数据归一化则是将数据缩放到[0,1]之间，可以使用最小-最大缩放实现。这两种方法都能消除不同特征之间量纲的影响，使得算法对所有特征平等对待。缺失值处理是另一个重要任务，sklearn库中的Impute模块提供了处理缺失值的工具，如使用平均值、中位数或模式填充缺失值。对于分类特征，可以使用One-hot编码将非数值类别转化为数值，而对于连续特征，二值化和分段操作可以帮助处理离散化问题。特征工程是构建高效模型的关键步骤，它涉及特征选择和特征构造。Filter方法基于统计量（如相关系数、卡方检验等）筛选相关特征；Embedded方法是在模型训练过程中选择重要特征，如LASSO回归的正则化项；Wrapper方法通过模型的性能反馈迭代地选择特征组合。这些方法都可以帮助减少计算成本，提升模型的泛化能力。通过使用sklearn库，我们可以方便地实现上述各种预处理和特征工程操作，从而优化模型的性能。在实际应用中，应根据具体问题和数据特性灵活选择合适的方法。最后，经过预处理和特征工程的模型还需要经过建模、测试和验证，才能最终上线服务于实际问题。

x^*=\frac{x-\mu}{\sigma}x =σx−μ

在 sklearn 中使用 preprocessing.MinMaxScaler 来实现这个功

能 StandardScaler 来实现这个功能，拟合 (fit)后可以使用 .mean_

和.var_两个参数来查看各个特征（列属性）的均值和方差

#标准化

from sklearn.preprocessing import StandardScaler

data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]

scaler = StandardScaler()

scaler.fit(data) #本质是生成均值和方差

scaler.mean_,scaler.var_

•

输出：

(array([-0.125, 9. ]), array([ 0.546875, 35. ]))

•

然后来看一下导出的结果的均值和方差是不是分别为 0 和 1

X = scaler.transform(data)

X.mean(axis=0),X.var(axis=0)

•

输出，确实两列的均值和方差都分别是 0 和 1 了

(array([0., 0.]), array([1., 1.]))

•

上面是分别使用了 fit 和 transform，对于具有这种方法的类基本

都是可以直接使用 fit_transform()来一步写完，后面便不做复述，默

认都是一样。

剩余31页未读，继续阅读

xxpr_ybgg

粉丝: 6789
资源: 3万+

sklearn数据预处理与特征工程详解

sklearn.pdf

sklearn_0.21.3中文手册.pdf

菜菜sklearn课堂pdf.rar

【深度解析】数据预处理与特征工程：构建强大机器学习模型的关键步骤

[机器学习笔记]将数据拆分成训练集和测试集的几种方法.pdf

python机器学习，最详细入门笔记.pdf

Python版数据挖掘实验4报告：用决策树预测获胜球队.pdf

sklearn数据分析（pandas学习笔记 + 菜菜skelarn完整版）

Python版数据挖掘实验2报告：使用 Scikit-learn中的 K近邻算法进行分类.pdf

ml_notebook：使用python笔记本进行机器学习

最新资源