Python主成分分析
时间: 2023-11-05 09:55:18 浏览: 111
主成分分析(PCA)是一种常用的降维技术,它可以将高维数据集映射到低维空间中,同时保留了原数据集的主要特征。在Python中,可以使用NumPy和scikit-learn库来实现主成分分析。
下面是一个用Python实现主成分分析的示例代码:
```python
import numpy as np
from numpy.linalg import eig
from sklearn.datasets import load_iris
def pca(X, k):
X = X - X.mean(axis = 0) # 向量X去中心化
X_cov = np.cov(X.T, ddof = 0) # 计算向量X的协方差矩阵,自由度可以选择0或1
eigenvalues, eigenvectors = eig(X_cov) # 计算协方差矩阵的特征值和特征向量
k_large_index = eigenvalues.argsort()[-k:][::-1] # 选取最大的K个特征值及其特征向量
k_eigenvectors = eigenvectors[k_large_index] # 用X与特征向量相乘
return np.dot(X, k_eigenvectors.T)
iris = load_iris()
X = iris.data
k = 2
X_pca = pca(X, k)
print(X_pca)
```
此代码使用了鸢尾花数据集(load_iris)作为示例数据,将数据降至二维空间(k=2)。pca函数用于执行主成分分析,计算数据集的协方差矩阵的特征值和特征向量,并选择最大的k个特征值及其对应的特征向量,然后将数据与特征向量相乘得到降维后的结果。
阅读全文