加入测试集和训练集可视化
时间: 2023-08-23 12:06:40 浏览: 98
要对测试集和训练集进行可视化,需要将数据集转换为可视化格式。一种常见的方法是将数据集中的每个样本表示为一个图像或一个向量,并使用降维算法(如PCA或t-SNE)将其映射到二维或三维空间中。
以下是一个简单的示例,使用手写数字数据集(MNIST)来可视化训练集和测试集:
```python
from sklearn.datasets import load_digits
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
# 加载数据集
digits = load_digits()
X_train = digits.data[:1500]
y_train = digits.target[:1500]
X_test = digits.data[1500:]
y_test = digits.target[1500:]
# 使用PCA降维到2维
pca = PCA(n_components=2)
X_train_pca = pca.fit_transform(X_train)
X_test_pca = pca.transform(X_test)
# 绘制训练集和测试集的散点图
plt.scatter(X_train_pca[:, 0], X_train_pca[:, 1], c=y_train, cmap='viridis')
plt.colorbar()
plt.xlabel('PCA Component 1')
plt.ylabel('PCA Component 2')
plt.title('MNIST Training Set')
plt.show()
plt.scatter(X_test_pca[:, 0], X_test_pca[:, 1], c=y_test, cmap='viridis')
plt.colorbar()
plt.xlabel('PCA Component 1')
plt.ylabel('PCA Component 2')
plt.title('MNIST Test Set')
plt.show()
```
这将生成两个散点图,显示训练集和测试集的每个样本在二维空间中的位置。每个样本的颜色对应于其所表示的数字。通过可视化,可以更好地了解数据集的分布和结构,从而更好地理解模型在训练集和测试集上的性能。
阅读全文