def pca(X): #定义进行PCA操作的函数 m,n = X.shape[0], X.shape[1] #m是样本数,n是特征数 sigma = 1/m * X.T @ X # U,S,V = svd(sigma) return U,S,V
时间: 2023-06-25 12:06:55 浏览: 39
这是一个进行PCA操作的函数,其中使用了SVD(奇异值分解)来求解PCA的结果。具体的解释如下:
- 输入:X为m个样本,n个特征的矩阵,其中每一行表示一个样本,每一列表示一个特征。
- 输出:U为n个特征向量组成的矩阵,每一列表示一个特征向量;S为特征值组成的向量,按照从大到小的顺序排列;V为无用的矩阵,不需要使用。
整个函数的流程如下:
1. 计算样本协方差矩阵sigma。由于X已经减去了均值,所以不需要再进行中心化。
2. 对sigma进行SVD分解,得到U、S、V。
3. 返回特征向量矩阵U和特征值向量S。
其中,特征向量是PCA的结果,特征值则表示每个特征向量在原始数据中的重要性。
相关问题
import numpy as np def pca(X, threshold): # 去均值 X_mean = np.mean(X, axis=0) X = X - X_mean # 计算协方差矩阵 cov = np.dot(X.T, X) / (X.shape[0] - 1) # 计算特征值和特征向量 eig_vals, eig_vecs = np.linalg.eig(cov) # 对特征值进行排序 eig_vals_sort = np.argsort(eig_vals)[::-1] # 计算累计贡献率 eig_vals_sum = np.sum(eig_vals) cumsum = np.cumsum(eig_vals[eig_vals_sort]) / eig_vals_sum # 寻找最佳的n_components best_n_components = np.argmax(cumsum >= threshold) + 1 # 提取前best_n_components个特征向量 eig_vecs_sort = eig_vecs[:, eig_vals_sort[:best_n_components]] # 将数据投影到新的特征空间上 X_pca = np.dot(X, eig_vecs_sort) return X_pca # 生成数据集 data = np.random.rand(643, 1024) # 进行PCA降维 X_pca = pca(data, threshold=0.9) # 输出结果print("最佳的n_components为:", X_pca.shape[1])中threshold=0.9是怎么算出来的
在这段代码中,threshold=0.9 是作为一个参数传入函数pca()中的,它代表着累计贡献率的阈值,用于确定保留多少个主成分。在该函数中,累计贡献率是通过计算特征值的和来计算的,然后通过计算每个特征值在特征值总和中的占比,来确定保留多少个主成分。因此,当阈值设为0.9时,函数会保留主成分的数量,使得它们对原始数据的解释方差和至少达到90%。
y = data['血糖']data = data.drop(columns=['血糖'])# 归一化mean = train.mean(axis=0)std = train.std(axis=0)train = (train - mean) / stdtest = (test - mean) / std# 执行PCA降维pca = PCA(n_components=10)train = pca.fit_transform(train)test = pca.transform(test)input_dim = 10 # 降维后的输入特征维度time_steps = 60output_steps = 1 # 可以预测一步,或预测多步#target_index = data.columns.tolist().index('血糖') # 待预测变量是第几个特征class MyDataset(Dataset): def __init__(self, data, label, time_steps, output_steps, target_index): # 新增label参数 self.time_steps = time_steps self.output_steps = output_steps self.target_index = target_index self.data = self.transform(data.astype(np.float32)) self.label = label # 定义self.label def transform(self, data): output = [] for i in range(data.shape[0] - self.time_steps - self.output_steps): output.append(data[i: (i + self.time_steps + self.output_steps), :]) return np.stack(output) def __getitem__(self, index): data = self.data[index, 0:self.time_steps, :] label = self.label[index + self.time_steps] # 注意,这里改为预测一步之后的标签的运算过程
这段代码定义了一个自定义数据集 MyDataset,用于将数据转换成模型输入所需的格式。它接收包括所有特征在内的数据和标签,以及时间步数 time_steps 和输出步数 output_steps,用于将数据转换成模型需要的形式。在 __init__ 函数中,将传入的数据转换成 float32 类型并进行归一化处理。在 transform 函数中,将数据按照 time_steps 和 output_steps 划分成多个小块,并将这些小块组合成一个三维数组。在 __getitem__ 函数中,根据索引获取对应的数据和标签,并将标签改为预测一步之后的标签。注意,这里的 target_index 已经不再需要了,因为目标变量已经在 data 中被删除了。