数据降维与可视化：PCA、NMF在鸢尾花与人脸识别中的应用

需积分: 0 39 浏览量更新于2024-08-05 收藏 703KB PDF 举报

"本次上机作业包含三个部分，分别是PCA实现高维数据可视化、降维之NMF以及图像分割。这些任务旨在让学生掌握数据降维和聚类算法在实际问题中的应用。" 在【第四次上机作业2】中，首先涉及的知识点是主成分分析(PCA)。PCA是一种无监督的线性降维技术，常用于将高维数据转换为低维空间，同时保持数据集的主要特性。在鸢尾花数据集的例子中，PCA被用来将四维数据降维到二维，以便在二维平面上进行可视化。实现PCA的基本步骤包括： 1. 导入必要的库，如`matplotlib.pyplot`和`sklearn.decomposition.PCA`。 2. 加载数据，鸢尾花数据集是一个包含四个特征（维度）和对应标签的数据集，用`y`表示标签，`X`表示特征数据。 3. 创建PCA对象，指定保留的主成分数量（n_components=2），然后用`fit_transform`方法对特征数据进行降维处理。 4. 降维后的数据按类别保存，并在二维平面上进行可视化，以展示不同鸢尾花类别的分布。第二个任务是非负矩阵分解(NMF)，这是一种非监督学习方法，常用于特征提取和数据挖掘。在Olivetti人脸数据集的应用中，NMF用于从64x64大小的人脸图像中提取特征。关键步骤包括： 1. 导入相关库，如`matplotlib.pyplot`，`sklearn.decomposition.NMF`，以及`sklearn.datasets.fetch_olivetti_faces`。 2. 加载数据集，随机打乱顺序，并设定特征提取的数量（n_components）。 3. 创建NMF对象，并可能与PCA进行对比，展示两种方法在特征提取上的差异。 4. 使用提取的特征重构图像，并展示结果，以验证NMF的有效性。最后一个任务是K-means聚类，它是一种常用的无监督机器学习算法，用于将数据点分配到预先设定的聚类中。在图像分割中，K-means可以对像素颜色进行聚类，从而实现简单的图像分割。执行步骤可能包括： 1. 导入`matplotlib.pyplot`和其他必要的图像处理库。 2. 加载图像数据，将其转化为适合K-means算法的格式。 3. 初始化K-means模型，设置聚类数量（例如，k=3表示将图像分为三种颜色区域）。 4. 应用K-means算法进行聚类，将像素点分配到最近的聚类中心。 5. 根据聚类结果重新着色图像，形成分割后的图像，并显示结果。通过这三个作业，学生能够深入理解如何运用PCA、NMF和K-means来处理和分析不同类型的数据，同时提升他们在数据可视化和图像处理方面的技能。

作业 26：PCA 实现高维数据可视化

要求：

已知鸢尾花数据是 4 维的，共三类样本。使用 PCA 实现对鸢尾花数据进行降

维，实现在二维平面上的可视化。

图. 鸢尾花数据

提示：

1. 建立工程，导入 sklearn 相关工具包：

import matplotlib.pyplot as plt

from sklearn.decomposition import PCA

from sklearn.datasets import load_iris

2. 加载数据并进行降维：

data = load_iris()

#以字典形式加载鸢尾花数据集

y = data.target #使用 y 表示数据集中的标签

X = data.data #使用 X 表示数据集中的属性数据

pca = PCA(n_components=2)

reduced_X = pca.fit_transform(X)

3. 按类别对降维后的数据进行保存

4. 降维后数据点的可视化

下载后可阅读完整内容，剩余7页未读，立即下载

Unique先森

粉丝: 32
资源: 327

数据降维与可视化：PCA、NMF在鸢尾花与人脸识别中的应用

大连理工大学高等数学第二次上机作业

北邮计算机Linux上机作业参考.zip

第四次上机作业 语法分析2

第一次上机作业2

第三次上机作业2

第六次上机作业2

第六次上机作业

matlab第4次上机作业.zip

18029100040吴程锴-第四次上机作业1

吴程锴18029100040第4次上机作业1

最新资源

第四次上机作业语法分析2