使用 CIFAR - 10 数据集进行 PCA 图像压缩(Jupyter Notebook
时间: 2024-11-21 11:25:37 浏览: 8
CIFAR-10 数据集是一个常用的小型图像数据集,包含了 60,000 张32x32像素的彩色图片,分为10个类别。PCA(主成分分析)是一种常见的降维技术,用于减少图像数据的维度,同时保留其最重要的特征。在 Jupyter Notebook 中进行这个过程可以分为以下几个步骤:
1. **导入库**:
导入必要的Python库,如`numpy`, `pandas`, `matplotlib`, 和 `sklearn.decomposition`(用于PCA)。
```python
import numpy as np
import pandas as pd
from sklearn.datasets import fetch_openml
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
```
2. **加载数据**:
使用`fetch_openml`函数从OpenML获取CIFAR-10数据。
```python
cifar10 = fetch_openml('cifar10')
X_train, y_train = cifar10['data'], cifar10['target']
# 将数据转换为浮点数,并归一化到[0, 1]范围
X_train = X_train.astype('float32') / 255.
```
3. **PCA处理**:
对训练集应用PCA,设置所需的组件数量(例如95%的方差解释度)。
```python
n_components = 32 # 或者选择一个能解释大部分方差的数量
pca = PCA(n_components=n_components)
X_train_pca = pca.fit_transform(X_train.reshape(-1, 32*32*3))
```
4. **可视化**:
可以通过二维图展示原始数据和PCA后的数据,以便直观理解降维效果。
```python
plt.scatter(X_train_pca[:, 0], X_train_pca[:, 1], c=y_train, cmap='viridis')
plt.title(f'PCA on CIFAR-10 (first 2 principal components)')
plt.show()
```
阅读全文