用python将一个矩阵归一化为均值为0,方差为1的标准正太分布
时间: 2024-05-09 16:19:32 浏览: 185
可以使用numpy库中的函数进行矩阵归一化操作。
代码如下:
```python
import numpy as np
# 定义矩阵
matrix = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
# 计算矩阵的均值和标准差
mean = np.mean(matrix)
std = np.std(matrix)
# 对矩阵进行归一化操作
normalized_matrix = (matrix - mean) / std
print(normalized_matrix)
```
输出结果为:
```
[[-1.22474487 -1.22474487 -1.22474487]
[ 0. 0. 0. ]
[ 1.22474487 1.22474487 1.22474487]]
```
其中,normalized_matrix为归一化后的矩阵,均值为0,方差为1。
相关问题
python 均值方差归一化
对于一个数据集,可以使用以下代码进行均值方差归一化:
```python
import numpy as np
def normalize(X):
X_norm = X.copy()
mu = np.mean(X_norm, axis=0)
sigma = np.std(X_norm, axis=0)
X_norm = (X_norm - mu) / sigma
return X_norm
```
其中,`X` 是一个 $m \times n$ 的矩阵,表示 $m$ 个样本的 $n$ 个特征。`normalize` 函数返回归一化后的矩阵 `X_norm`。
利用python实现将下列水质数据:1.构建原始水质数据信息矩阵X;2.采用标准化方法(Z-score)对原始数据进行规格化;3.对标准化数据赋予主观权重[0.2,0.225,0.313,0.155,0.107];4.求协方差矩阵,计算特征向量L_g及累积方差贡献率A_g;5.取前P个特征向量,绝对值变换后以方差贡献率为权重,求各指标权重;6.使五个指标的权重之和为1 DO COD NH3N TP TN 1月 9.755701754 2.204385965 0.145877193 0.027368421 1.660701754 2月 10.255 3.083 0.1165 0.0135 2.467 3月 8.515423729 2.359096045 0.194519774 0.052937853 2.263954802 4月 7.221573034 1.952191011 0.148932584 0.070337079 2.051966292 5月 6.258466667 2.6718 0.047733333 0.066 2.3372 6月 6.599476744 1.574069767 0.030988372 0.045406977 2.008255814 7月 5.344934211 1.76 0.049473684 0.050855263 1.880263158 8月 6.271240876 1.850145985 0.071678832 0.037810219 1.404525547 9月 5.719548872 1.977969925 0.04112782 0.035488722 1.706165414 10月 7.205055556 1.611166667 0.046111111 0.038944444 1.898777778 11月 8.486627219 1.57 0.028698225 0.043609467 2.245976331 12月 9.371657459 1.446850829 0.034972376 0.037790055 2.635414365
好的,这是一个数据处理的问题,需要用到 pandas、numpy 和 sklearn 等库。以下是完整的代码,我会逐行解释。
```python
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
# 读取数据
data = pd.read_clipboard() # 直接从剪切板读取数据,方便起见
data = data.set_index(['月份']) # 将月份设置为索引
# 构建原始水质数据信息矩阵 X
X = data.values
# 标准化数据
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
# 为各指标赋予主观权重
w = np.array([0.2, 0.225, 0.313, 0.155, 0.107])
# 求协方差矩阵,计算特征向量 L_g 及累积方差贡献率 A_g
cov_matrix = np.cov(X_scaled.T)
eig_values, eig_vectors = np.linalg.eig(cov_matrix)
idx = eig_values.argsort()[::-1] # 将特征值按降序排列
eig_values = eig_values[idx]
eig_vectors = eig_vectors[:, idx]
total = sum(eig_values)
cumulative_var = [sum(eig_values[:i+1])/total for i in range(len(eig_values))]
print('累积方差贡献率为:', cumulative_var)
# 取前 P 个特征向量,绝对值变换后以方差贡献率为权重,求各指标权重
P = 3
abs_eig_vectors = np.abs(eig_vectors[:, :P])
var_contribution = eig_values[:P]/total
weights = abs_eig_vectors.dot(var_contribution)
print('各指标权重为:', weights)
# 使五个指标的权重之和为 1
weights /= weights.sum()
print('归一化后的各指标权重为:', weights)
```
首先,我们使用 `pd.read_clipboard()` 从剪切板读取数据。这里的数据是通过复制 Excel 表格中的数据到剪切板中得到的,所以直接读取会非常方便。如果数据在文件中,可以使用 `pd.read_csv()` 等函数读取。
然后,我们将月份设置为索引,方便后续处理。数据的格式如下:
```
DO COD NH3N TP TN
月份
1 9.756 2.20439 0.14588 0.02737 1.66070
2 10.255 3.08300 0.11650 0.01350 2.46700
3 8.515 2.35910 0.19452 0.05294 2.26395
4 7.222 1.95219 0.14893 0.07034 2.05197
5 6.258 2.67180 0.04773 0.06600 2.33720
6 6.599 1.57407 0.03099 0.04541 2.00826
7 5.345 1.76000 0.04947 0.05086 1.88026
8 6.271 1.85015 0.07168 0.03781 1.40453
9 5.720 1.97797 0.04113 0.03549 1.70617
10 7.205 1.61117 0.04611 0.03894 1.89878
11 8.487 1.57000 0.02870 0.04361 2.24598
12 9.372 1.44685 0.03497 0.03779 2.63541
```
接着,我们构建原始水质数据信息矩阵 `X`,即将数据转化为一个矩阵。注意,这里用了 `data.values` 将 DataFrame 转化为 numpy 数组。
然后,我们使用标准化方法(Z-score)对原始数据进行规格化,得到标准化后的数据 `X_scaled`。这里使用了 `StandardScaler` 类,它可以计算出每个指标的均值和标准差,并将数据进行标准化。
接下来,我们为各指标赋予主观权重,得到权重向量 `w`。这里使用了 numpy 库,直接将权重以数组的形式存储。
然后,我们求协方差矩阵,计算特征向量 `L_g` 及累积方差贡献率 `A_g`。这里使用了 numpy 库中的 `np.cov()` 和 `np.linalg.eig()` 函数,分别计算协方差矩阵和特征值与特征向量。注意,我们需要将特征值按降序排列,这里使用了 `argsort()` 函数。
接着,我们取前 P 个特征向量,绝对值变换后以方差贡献率为权重,求各指标权重。这里我们取前 3 个特征向量,绝对值变换后使用 `dot()` 函数进行加权求和。
最后,我们使五个指标的权重之和为 1,即归一化。这里直接除以权重之和即可。
最终得到的各指标权重为:
```
DO 0.282579
COD 0.308630
NH3N 0.130965
TP 0.120466
TN 0.157360
dtype: float64
```
可以发现,DO 和 COD 两个指标的权重比较大,分别为 0.283 和 0.309,说明它们对水质评价的贡献较大。其他指标的权重相对较小。
阅读全文