Python数据归一化方法详解：min-max与sklearn应用

5星 · 超过95%的资源 172 浏览量更新于2023-03-16 8 收藏 55KB PDF 举报

Python数据归一化是一种重要的预处理步骤，它在数据分析中用于消除不同指标间的量纲影响，提高数据的可比性和模型训练效率。本文主要介绍了三种常见的数据归一化方法：最小-最大标准化（Min-Max Normalization）、Z-score标准化和小数定标标准化。 1. **最小-最大标准化 (Min-Max Normalization)**：这种方法通过对原始数据进行线性变换，使得处理后的值落在[0,1]范围内。计算公式为：`x' = (x - min) / (max - min)`，其中`x`是原始值，`min`和`max`分别是最小值和最大值。然而，这种方法的一个缺点是当新数据引入可能导致`min`和`max`变化，需要定期更新这两个值。以下是使用`sklearn.preprocessing.MinMaxScaler`的Python实现： ```python import numpy as np from sklearn.preprocessing import MinMaxScaler arr = np.asarray([0, 10, 50, 80, 100]) min_max_scaler = MinMaxScaler() X_minMax = min_max_scaler.fit_transform(arr) print(X_minMax) ``` 优点包括增强方差小的属性稳定性以及保持稀疏矩阵中0值不变。例如，对于输入矩阵`X`，应用`MinMaxScaler`后会将其缩放至指定的区间，如`(0, 1)`。 2. **Z-score标准化 (Z-score Normalization)**： Z-score标准化又称为标准分数，它将数据转化为均值为0，标准差为1的标准正态分布。转换公式为：`x' = (x - μ) / σ`，其中`μ`是均值，`σ`是标准差。这种方法适用于所有数值类型的数据，并且新数据加入不会影响尺度。在`scikit-learn`中，可以使用`StandardScaler`来实现： ```python from sklearn.preprocessing import StandardScaler X = np.array([[1., -1., 2.], [2., 0., 0.], [0., 1., -1.]]) scaler = StandardScaler() X_zscore = scaler.fit_transform(X) print(X_zscore) ``` 3. **小数定标标准化 (Decimal Scaling)**：这种方法不是常见的归一化方法，但它涉及到将数据移动到某个固定的基数（如10或2），例如将十进制数转化为小数点后的指定位数。这通常用于简化表示或避免浮点误差。然而，Python内置的库不直接支持小数定标标准化，但可以自定义函数实现。数据归一化不仅可以帮助我们统一数据尺度，还对许多机器学习算法的性能有着显著的影响，比如聚类、决策树和神经网络。在实际应用中，选择哪种方法取决于具体问题和数据特性。理解并熟练掌握这些方法对于优化模型效果和避免潜在问题至关重要。

python数据归一化及三种方法详解数据归一化及三种方法详解

主要介绍了python数据归一化及三种方法详解，文中通过示例代码介绍的非常详细，对大家的学习或者工作具

有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

数据标准化（归一化）处理是数据挖掘的一项基础工作，不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到

数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。原始数据经过数

据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。以下是三种常用的归一化方法：

min-max标准化（标准化（Min-Max Normalization））

也称为离差标准化，是对原始数据的线性变换，使结果值映射到[0 , 1]之间。转换函数如下：

其中max为样本数据的最大值，min为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时，可能导致max和min的变

化，需要重新定义。

min-max标准化python代码如下：

import numpy as np

arr = np.asarray([0, 10, 50, 80, 100])

for x in arr:

x = float(x - np.min(arr))/(np.max(arr)- np.min(arr))

print x

# output

# 0.0

# 0.1

# 0.5

# 0.8

# 1.0

使用这种方法的目的包括：

1、对于方差非常小的属性可以增强其稳定性；

2、维持稀疏矩阵中为0的条目。

下面将数据缩至0-1之间，采用MinMaxScaler函数

from sklearn import preprocessing

import numpy as np

X = np.array([[ 1., -1., 2.],

[ 2., 0., 0.],

[ 0., 1., -1.]])

min_max_scaler = preprocessing.MinMaxScaler()

X_minMax = min_max_scaler.fit_transform(X)

最后输出：

array([[ 0.5 , 0. , 1. ],

[ 1. , 0.5 , 0.33333333],

[ 0. , 1. , 0. ]])

测试用例：

注意：这些变换都是对列进行处理。

当然，在构造类对象的时候也可以直接指定最大最小值的范围：feature_range=(min, max)，此时应用的公式变为：

X_std=(X-X.min(axis=0))/(X.max(axis=0)-X.min(axis=0))

X_minmax=X_std/(X.max(axis=0)-X.min(axis=0))+X.min(axis=0))

Z-score标准化方法标准化方法

下载后可阅读完整内容，剩余1页未读，立即下载

weixin_38746442

粉丝: 8
资源: 960

Python数据归一化方法详解：min-max与sklearn应用

python中归一化、标准化模型保存与加载.md

详解python实现数据归一化处理的方式：（0,1）标准化

python实现几种归一化方法（Normalization Method）

对python3 一组数值的归一化处理方法详解

详解python实现数据归一化处理的方式:(0,1)标准化

Python数据分析-15个案例详解

OpenCV-Python图像乘法运算cv2.multiply函数详解及像素值溢出归一化处理.rar

python numpy 按行归一化的实例

Python实现数据可视化大作业详解

fer2013数据集详解及Python提取方法

最新资源