Yale人脸数据集PCA降维分析

需积分: 0 9 浏览量更新于2024-08-05 收藏 566KB PDF 举报

"这篇内容是关于使用PCA(主成分分析)对Yale人脸数据集进行降维的作业，作者是关文聪。作业要求观察在降维后，前20个和前100个特征向量对应的人脸图像，并通过随机选择的3张照片对比效果。提供的Python代码片段展示了如何读取数据、执行PCA以及保存结果图像。" 在机器学习领域，PCA是一种常用的数据降维技术，它通过线性变换将原始高维数据转换为一组各维度线性无关的表示，可用于提取数据的主要特征或用于可视化。在本作业中，PCA被应用于Yale人脸数据集，这是一个广泛用于人脸识别研究的图像数据库。首先，作者通过`os`库遍历文件夹，获取所有人脸图像的路径，并使用`scipy.misc.imread`读取图像，将其展平为一维数组，存储在一个大的二维数组`data`中。接着，对数据进行中心化处理，减去均值，确保每个特征的平均值为零。这是PCA的前提，因为PCA假设数据是零均值的。然后，使用`sklearn.decomposition.PCA`进行主成分分析。`PCA`类的`n_components`参数指定了要保留的特征向量数量，这里设为20和100。`pca1`和`pca2`对象分别对应于这两个不同的保留特征数。PCA过程会返回一个低维表示，可以用于重构原始数据或可视化。在降维后，通过比较保留前20个和前100个特征向量重构的图像，可以观察到人脸的主要特征如何被压缩。通常，保留较少的特征可能会丢失一些细节，而更多的特征则能更好地保留原始信息。通过随机选择的3张照片对比，可以直观地理解这种差异。最后，代码中还准备了存储每个PCA实例的方差比`r_set`和去中心化后的1D数组`im_set`，这可能是为了进一步分析降维后的数据特性，比如查看保留了多少方差，或者重构图像的质量。这个作业展示了PCA在实际问题中的应用，即如何利用PCA进行人脸识别数据的降维和可视化，同时也体现了Python科学计算库在数据处理中的强大能力。

作业六

关文聪 2016060601008

1 使用 PCA 对 Yale 人脸数据集进行降维，并分别观察前 20、前 100 个特征向量所对应的图像。请

随机选取 3 张照片来对比效果。数据集 http://vision.ucsd.edu/content/yale-face-database

下载数据集并解压，先设置图片路径，根据路径读取图片的人脸数据，使用矩阵存储读取的数

据。设定要保留的特征数量 k 为 20、100，调用 PCA 函数进行主成分分析（PCA）。将得到的结果再输

出为图像，与原图进行比较。

Python 代码：

import numpy as np

import scipy.misc as misc

import matplotlib.pyplot as plt

from sklearn.decomposition import PCA

import os

# 数据的读取与初始化预处理

path = 'C:\Users\Eternity-Myth\Desktop\yalefaces'

for dirpath, subdir, file_set in os.walk(path):

all_img = [path + '\' + f for f in file_set] # 保存所有文件的路径

m, n = len(all_img), len(misc.imread(all_img[0]).ravel()) # 行和列的数据

data = np.zeros((m, n)) # 初始化数据为（m,n）形状的矩阵

for i, f in enumerate(all_img):

img = misc.imread(f).ravel() # 将每个 2D 图像展平为 1D 阵列

data[i] = img

下载后可阅读完整内容，剩余3页未读，立即下载

杏花朵朵

粉丝: 711
资源: 332

Yale人脸数据集PCA降维分析

电子科技大学操作系统实验报告：进程资源与虚拟内存管理

电子科大分布式并行计算实验教程及源码

"进程与资源管理实验报告1：设计与调度

关文聪 《机器学习》作业一1

关文聪 《机器学习》 作业三1

关文聪 《机器学习》 作业41

开放报告 关文聪 20160606010081

关文聪 2016060601008 计算机操作系统 实验报告1

关文聪 2016060601008 分布式并行计算-MPI实验报告1

关文聪-2016060601008-软件技术基础综合课程设计报告1

最新资源

关文聪《机器学习》作业一1

关文聪《机器学习》作业三1

关文聪《机器学习》作业41

开放报告关文聪 20160606010081

关文聪 2016060601008 计算机操作系统实验报告1