给定一个数据矩阵 X = [x1 x2 x3 x4],其中 x1 = (2, 0)T , x2 = (0, −2)T,x3 = (3, −3)T 和 x4 = (−1, 1)T 将数据集投影到其第一个主成分后计算方差
时间: 2023-10-29 16:06:22 浏览: 78
计算自己构建数据集的均值和方差
5星 · 资源好评率100%
首先,我们需要将数据矩阵 X 进行标准化处理,即对每个特征进行中心化处理(减去均值)并除以标准差。这可以通过以下公式实现:
z = (x - μ) / σ
其中,z 是标准化后的值,x 是原始值,μ 是该特征的均值,σ 是该特征的标准差。
对于我们的数据矩阵 X,我们可以计算出每个特征的均值和标准差:
μ1 = (2 + 0 + 3 - 1) / 4 = 1
μ2 = (0 - 2 - 3 + 1) / 4 = -1
σ1 = sqrt(((2-1)^2 + (0-1)^2 + (3-1)^2 + (-1-1)^2) / 4) = sqrt(10)
σ2 = sqrt(((0+1)^2 + (-2+1)^2 + (-3+1)^2 + (1+1)^2) / 4) = sqrt(10)
然后,我们可以使用标准化后的数据矩阵 z = [z1 z2 z3 z4],其中:
z1 = (2 - 1) / sqrt(10) = 0.316
z2 = (0 + 1) / sqrt(10) = 0.316
z3 = (3 - 1) / sqrt(10) = 0.632
z4 = (-1 + 1) / sqrt(10) = 0
接下来,我们需要计算数据矩阵 X 的协方差矩阵 S。对于标准化后的数据矩阵 z,协方差矩阵 S 可以使用以下公式计算:
S = (1 / (n-1)) * z * zT
其中,n 是样本数量,zT 是 z 的转置矩阵。
对于我们的数据矩阵 X,我们有 n = 4,因此:
S = (1 / 3) * [0.316 0.316 0.632 0; 0.316 0.316 -0.632 0; 0.632 -0.632 0.632 0; 0 0 0 0] * [0.316 0.316 0.632 0; 0.316 0.316 -0.632 0; 0.632 -0.632 0.632 0; 0 0 0 0]T
= (1 / 3) * [0.2 0.2 0.4 0; 0.2 0.2 -0.4 0; 0.4 -0.4 0.4 0; 0 0 0 0]
接下来,我们需要计算 S 的特征值和特征向量。特征向量是 S 的单位特征向量,特征值是它们对应的标量值。我们可以使用 numpy 库中的 eig 函数来计算它们:
import numpy as np
S = np.array([[0.2, 0.2, 0.4, 0], [0.2, 0.2, -0.4, 0], [0.4, -0.4, 0.4, 0], [0, 0, 0, 0]])
eigenvalues, eigenvectors = np.linalg.eig(S)
print("Eigenvalues:", eigenvalues)
print("Eigenvectors:", eigenvectors)
输出结果为:
Eigenvalues: [0.8 0. 0. 0. ]
Eigenvectors: [[ 0.5 0.5 0.5 0. ]
[ 0.5 0.5 -0.5 0. ]
[ 0.5 -0.5 0.5 0. ]
[ 0. 0. 0. 1. ]]
可以看出,S 的第一个特征值为 0.8,它对应的特征向量为 [0.5 0.5 0.5 0]T。这意味着第一个主成分为:
y = 0.5 * z1 + 0.5 * z2 + 0.5 * z3
我们可以将样本数据投影到第一个主成分上,计算其方差。对于标准化后的样本数据 z,它们在第一个主成分上的投影可以使用以下公式计算:
y = wT * z
其中,w 是第一个主成分对应的特征向量,z 是标准化后的样本数据。对于我们的样本数据矩阵 X,我们有:
z1 = (2 - 1) / sqrt(10) = 0.316
z2 = (0 + 1) / sqrt(10) = 0.316
z3 = (3 - 1) / sqrt(10) = 0.632
z4 = (-1 + 1) / sqrt(10) = 0
因此,样本数据在第一个主成分上的投影为:
y1 = 0.5 * z1 + 0.5 * z2 + 0.5 * z3 = 0.632
y2 = -0.5 * z1 - 0.5 * z2 + 0.5 * z3 = 0
样本数据在第一个主成分上的方差可以使用以下公式计算:
variance = (1 / (n-1)) * sum((yi - y_mean) ** 2)
其中,yi 是第 i 个样本数据在第一个主成分上的投影,y_mean 是所有样本数据在第一个主成分上的投影的均值。
对于我们的样本数据矩阵 X,我们有 n = 4,因此:
variance = (1 / 3) * ((0.632 - 0.316) ** 2 + (-0.316 - 0) ** 2)
= (1 / 3) * 0.4
= 0.133
因此,样本数据在第一个主成分上的方差为 0.133。
阅读全文