机器学习预处理深度解析：数据归一化与缺失值处理

132 浏览量更新于2024-08-29 2 收藏 448KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

在机器学习小组的第二期第三周讨论中，重点介绍了数据预处理和特征工程的基础步骤，特别是数据归一化的重要性。归一化是解决量纲不同影响特征权重问题的关键技术，它确保了所有特征在模型训练中的相对公平性，避免单个特征的巨大取值范围对距离或相似度计算造成偏差。 1. **数据归一化**： - 归一化的目标是将所有特征映射到相同的尺度，如标准化（均值方差归一化），将数据转化为均值为0，标准差为1的分布。这有利于提升模型的性能，特别是在决策树之外的算法中，如神经网络和许多机器学习模型，它们对数据的尺度敏感。 - 归一化方法包括： - **最值归一化**：将数据缩放到0-1范围，适用于特征值有明显边界且易受异常值影响的情况。例如，使用numpy实现时，首先计算每个特征的最大值和最小值，然后用公式 `(x - min)/(max - min)` 进行转换。 - **均值方差归一化**（也称Z-score归一化）：通过中心化（减去均值）和缩放（除以标准差）使数据分布接近标准正态分布，这在数值特征中常见。 2. **缺失值处理**： - 缺失值是数据预处理中的另一个关键问题。常见的处理方法有： - 确定缺失值范围：识别哪些值是缺失的。 - 填充缺失值： - 平均值填充：用特征的平均值替代缺失值。 - 中位数填充：用特征的中位数替换。 - 条件平均值或模型预测填充：根据其他特征的值预测缺失值，如使用kNN或回归模型。 - sklearn库提供了函数如`SimpleImputer`用于便捷地处理缺失值。 3. **特征编码**： - 对于分类型特征，需要进行编码，常见的做法是独热编码（One-Hot Encoding）或处理成哑变量，将分类变量转化为数值，以便模型理解。 4. **连续型特征处理**： - 对于连续型特征，可能需要进行二值化或分段，例如，将数值特征分为几个区间，或者将连续值转换为离散的二进制表示。本次会议详细探讨了如何通过数据预处理技术，包括归一化、缺失值填充和特征编码，优化数据质量，以提升机器学习模型的性能。参与者不仅学习了如何操作，还理解了这些步骤背后的原理和适用场景。

资源详情

资源推荐

机器学习小组第二期第三周：简单的数据预处理和特征工程机器学习小组第二期第三周：简单的数据预处理和特征工程

目录目录1.归一化1.1.最值归一化(normalization)1.2.均值方差归一化(standardization)1.3.Sklearn中的归一化2.缺失值处理2.1.确定缺失值范围2.2.填充缺失内容2.2.1.平均值填充法2.2.2.中

位数填充法2.2.3.条件平均值填充法2.2.4.模型预测填充法2.2.4.1.kNN2.2.4.2.Regression2.2.5.利用sklearn填补缺失值3.处理分类型特征：编码与哑变量4.处理连续型特征：二值化与

分段

1.归一化归一化

问题问题：在量纲不同的情况下，不能反映样本中每一个特征的重要程度。

方案方案：数据归一化，即标准化。把所有的数据都映射到同一个尺度（量纲）。

归一化可以提升模型精度，避免某一个取值范围特别大的特征对距离计算造成影响。（一个特例是决策树，对决策树不需要归一化，决策树可以把任意数据都处理得很好。）

数据的无量纲化可以是线性的，也可以是非线性的。线性的无量纲化包括中心化中心化处理和缩放缩放处理。中心化的本质是让所有记录减去一个固定值，即让数据样本数据平移到某个位

置。缩放的本质是通过除以一个固定值，将数据固定在某个范围之中，取对数也算是一种缩放处理。

归一化之后的数据服从正态分布。

1.1.最值归一化最值归一化(normalization)

把所有数据映射到0-1之间。使用范围：特征的分布具有明显边界(分数0～100)，受outlier的影响比较大。

import numpy as np

# 创建100个随机数

x = np.random.randint(0,100,size=100)

# 最值归一化（向量）

# 最值归一化公式，映射到0，1之间

(x - np.min(x)) / (np.max(x) - np.min(x))

# 最值归一化（矩阵）

# 0～100范围内的50*2的矩阵

X = np.random.randint(0,100,(50,2))

# 将矩阵改为浮点型

X = np.array(X, dtype=float)

# 最值归一化公式，对于每一个维度（列方向）进行归一化

# X[:,0]第一列，第一个特征

X[:,0] = (X[:,0] - np.min(X[:,0])) / (np.max(X[:,0]) - np.min(X[:,0]))

# X[:,1]第二列，第二个特征

X[:,1] = (X[:,1] - np.min(X[:,1])) / (np.max(X[:,1]) - np.min(X[:,1]))

# 如果有n个特征，可以写个循环：

for i in range(0,2):

X[:,i] = (X[:,i]-np.min(X[:,i])) / (np.max(X[:,i] - np.min(X[:,i])))

import matplotlib.pyplot as plt

# 简单绘制样本，看横纵坐标

plt.scatter(X[:,0],X[:,1])

plt.show()

1.2.均值方差归一化均值方差归一化(standardization)

把所有数据归一到均值为0方差为1的分布。适用于数据没有明显的边界，可能存在极端数据值的情况。

X2 = np.array(np.random.randint(0,100,(50,2)),dtype=float)

# 套用公式，对每一列做均值方差归一化

for i in range(0,2):

X2[:,i]=(X2[:,i]-np.mean(X2[:,i])) / np.std(X2[:,i])

plt.scatter(X2[:,0],X2[:,1])

plt.show()

print(np.mean(X2[:,0]))

print(np.std(X2[:,1]))

# 输出：6.217248937900877e-17

# 输出：1.0

1.3.Sklearn中的归一化中的归一化

对测试数据集进行归一化时，仍使用训练数据集仍使用训练数据集的均值train_mean和方差std_train，因此要保存训练数据集中的均值和方差。

原因：测试数据代表模拟的真实环境，而在真实环境中可能无法得到均值和方差。

import numpy as np

import pandas as pd

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38704565

粉丝: 6
资源: 944

机器学习预处理深度解析：数据归一化与缺失值处理

Python-OpenNMT开源神经机器翻译系统OpenNMT的Pytorch一个移植

数据预处理和特征工程的区别是什么

数据预处理与特征工程的区别与联系

数据预处理与特征工程步骤介绍

利用机器学习进行数据预处理

特征工程和数据预处理关系

机器学习 数据预处理

数据预处理和特征提取代码

机器学习数据预处理的全过程

机器学习数据预处理大作业

外骨骼自适应控制学习(三):肌电信号预处理matlab仿真数据

机器学习中的数据预处理

数据预处理 数据集的数据特征化

机器学习如何进行数据预处理

"基于机器学习的精准化政务服务推送技术"的实现方法、步骤和流程，步骤除了数据收集、数据预处理、特征工程，还有什么

机器学习数据预处理要做什么

机器学习 数据预处理方法

完成填空: 数据预处理 # 检查数据集的特征和标签 X = y =

机器学习数据集预处理源码

详细阐述基于机器学习的基因检测应用框架的设计思路和实现方法，包括数据预处理、特征提取、模型选择和训练、验证和测试等步骤

最新资源

机器学习数据预处理

数据预处理数据集的数据特征化

机器学习数据预处理方法