"数据预处理与特征工程方法及应用"

需积分: 0 197 浏览量更新于2024-01-29 1 收藏 2.71MB PDF 举报

数据预处理是指在进行数据分析或建模之前对原始数据进行清洗、转换和整理的过程。数据预处理的目的是消除数据中的噪声、处理数据中的缺失值、解决数据不一致的问题，以及对数据进行统一化和标准化等操作，以提高后续数据分析或建模的准确性和效果。在sklearn中，数据预处理主要包括以下几个方面的操作： 2.1 数据清洗数据清洗是指对原始数据进行处理，以去除无效或不相关的数据。常见的数据清洗操作包括去除重复值、去除缺失值、处理异常值等。sklearn中的preprocessing模块提供了一些函数和类来实现这些操作。 2.2 数据转换数据转换是指对原始数据进行变换，使其符合建模或分析的需求。常见的数据转换操作包括特征缩放、特征选择、特征变换等。sklearn中的preprocessing模块和feature_selection模块提供了一些函数和类来实现这些操作。 2.3 数据整理数据整理是指对原始数据进行整理和组织，以便于后续的数据分析或建模。常见的数据整理操作包括数据合并、数据重塑、数据划分等。sklearn中的preprocessing模块和model_selection模块提供了一些函数和类来实现这些操作。特征工程是指通过对原始数据进行合理的变换和操作，提取出更具有代表性和有效性的特征，以提高建模或分析的性能或效果。特征工程包括特征提取、特征构造和特征选择等。在sklearn中，特征工程主要包括以下几个方面的操作： 3.1 特征提取特征提取是指从原始数据中提取出对建模或分析有用的特征。常见的特征提取方法包括基于统计学的特征提取、基于信息学的特征提取、基于模型的特征提取等。sklearn中的feature_extraction模块提供了一些函数和类来实现这些操作。 3.2 特征构造特征构造是指根据原始数据的相关性和特点，构造新的特征以提高建模或分析的性能和效果。常见的特征构造方法包括组合特征、衍生特征、交互特征等。sklearn中的preprocessing模块和feature_selection模块提供了一些函数和类来实现这些操作。 3.3 特征选择特征选择是指从原始数据的所有特征中筛选出最重要和最有效的特征。常见的特征选择方法包括过滤式特征选择、包裹式特征选择、嵌入式特征选择等。sklearn中的feature_selection模块提供了一些函数和类来实现这些操作。建模是指根据数据进行建立模型，并利用该模型进行预测、分类、聚类等任务。建模的过程主要包括选择合适的模型、设置模型参数、训练模型、评估模型等。在sklearn中，建模可以通过以下步骤来完成： 4.1 选择模型选择合适的模型是建模的第一步，需要根据任务的性质和要求来选择合适的模型。sklearn中的model_selection模块提供了一些函数和类来帮助选择最优的模型。 4.2 设置模型参数模型的参数决定了模型的性能和效果，需要根据任务的性质和要求来选择合适的参数。sklearn中的model_selection模块和各个模型的文档提供了一些函数和类来帮助设置模型参数。 4.3 训练模型训练模型是根据数据来调整模型的参数，使其能够更好地拟合数据。sklearn中的各个模型的fit()函数可以用来训练模型。 4.4 评估模型评估模型是通过对模型进行验证和测试，来评估模型的性能和效果。sklearn中的model_selection模块和metrics模块提供了一些函数和类来帮助评估模型。上线是指将训练好的模型应用到新的数据上，并通过一系列指标来评估模型在实际应用中的效果。验证模型效果是指通过比较模型在实际应用中的预测结果和真实结果来验证模型的性能和效果。在sklearn中，上线和验证可以通过以下步骤来完成： 5.1 应用模型将训练好的模型应用到新的数据上，得到对新数据的预测结果。sklearn中的各个模型的predict()函数可以用来应用模型。 5.2 评估模型将模型的预测结果与真实结果进行比较，计算模型的准确率、精确率、召回率等指标，以评估模型的性能和效果。sklearn中的metrics模块提供了一些函数和类来帮助评估模型。综上所述，数据预处理和特征工程在数据分析和建模中起到了重要的作用，可以提高建模或分析的准确性和效果。sklearn提供了一些函数和类来实现这些操作，方便使用者进行数据预处理和特征工程的相关工作。

2 数据预处理 Preprocessing & Impute

2.1 数据无量纲化

在机器学习算法实践中，我们往往有着将不同规格的数据转换到同一规格，或不同分布的数据转换到某个特定分布

的需求，这种需求统称为将数据“无量纲化”。譬如梯度和矩阵为核心的算法中，譬如逻辑回归，支持向量机，神经

网络，无量纲化可以加快求解速度；而在距离类模型，譬如K近邻，K-Means聚类中，无量纲化可以帮我们提升模

型精度，避免某一个取值范围特别大的特征对距离计算造成影响。（一个特例是决策树和树的集成算法们，对决策

树我们不需要无量纲化，决策树可以把任意数据都处理得很好。）

数据的无量纲化可以是线性的，也可以是非线性的。线性的无量纲化包括中心化（Zero-centered或者Mean-

subtraction）处理和缩放处理（Scale）。中心化的本质是让所有记录减去一个固定值，即让数据样本数据平移到

某个位置。缩放的本质是通过除以一个固定值，将数据固定在某个范围之中，取对数也算是一种缩放处理。



preprocessing.MinMaxScaler

当数据(x)按照最小值中心化后，再按极差（最大值 - 最小值）缩放，数据移动了最小值个单位，并且会被收敛到

[0,1]之间，而这个过程，就叫做数据归一化(Normalization，又称Min-Max Scaling)。注意，Normalization是归

一化，不是正则化，真正的正则化是regularization，不是数据预处理的一种手段。归一化之后的数据服从正态分

布，公式如下：

在sklearn当中，我们使用preprocessing.MinMaxScaler来实现这个功能。MinMaxScaler有一个重要参数，

feature_range，控制我们希望把数据压缩到的范围，默认是[0,1]。

from sklearn.preprocessing import MinMaxScaler

data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]

#不太熟悉numpy的小伙伴，能够判断data的结构吗？

#如果换成表是什么样子？

import pandas as pd

pd.DataFrame(data)

#实现归一化

scaler = MinMaxScaler() #实例化

scaler = scaler.fit(data) #fit，在这里本质是生成min(x)和max(x)

result = scaler.transform(data) #通过接口导出结果

result

result_ = scaler.fit_transform(data) #训练和导出结果一步达成

scaler.inverse_transform(result) #将归一化后的结果逆转

#使用MinMaxScaler的参数feature_range实现将数据归一化到[0,1]以外的范围中

data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]

scaler = MinMaxScaler(feature_range=[5,10]) #依然实例化

菜菜的sklearn课堂直播间： https://live.bilibili.com/12582510

sklearn专题第三期：数据预处理和特征工程

剩余30页未读，继续阅读

坑货两只

粉丝: 1021

"数据预处理与特征工程方法及应用"

数据预处理及特征工程

决策树 full version1

逻辑回归 full version1

Mastering OpenCV with Practical Computer Vision Projects (full version)

XLSReadWriteII version 5.20.39 xe7 full source .rar

"菜菜的scikit-learn课堂：决策树 full version1

【数据预处理进阶】：RapidMiner中的数据转换与规范化技巧全解析

【R语言数据处理技巧】：高效数据清洗与预处理

【django.utils.text必备技能】：字符串长度控制与预处理技巧全面剖析

数据价值深度挖掘：WinCoot数据整合与分析技巧

最新资源