多流形结构分析：主成分与聚类算法在数据处理中的应用

版权申诉

117 浏览量更新于2024-07-04 收藏 13.19MB PDF 举报

"该资源是一篇关于主成分分析在数据多流形结构分析中的应用的学术论文，主要探讨了PCA+K-means、SNN、SSC、SMMC、SMCE以及CHAMELEON等聚类模型在不同问题上的表现，并通过实例分析了这些模型的适用性和效果。" 主成分分析（PCA）是一种常用的数据降维技术，其目的是找到数据集的主要变化方向，即主成分，以便减少数据的维度，同时保留大部分的信息。PCA通过线性变换将原始数据转换到新的坐标系中，新坐标系的轴是按照数据方差大小排序的主成分。在论文中，PCA被用于高维数据的预处理，例如在200*100的高维数据上，通过取前20个主成分（贡献度为98.65%），有效地降低了数据的维度，并且与稀疏子空间聚类（SSC）进行了比较。共享近邻谱聚类（SNN）是一种基于图论的聚类方法，它考虑了数据点之间的共享近邻关系，能够较好地处理非欧几里得空间的数据。而稀疏子空间聚类（SSC）则假设数据点分布在几个低秩子空间中，通过寻找数据点的稀疏表示来实现聚类，尤其适用于处理线性子空间交叉的问题。多流形谱聚类（SMMC）和稀疏流形聚类与嵌入模型（SMCE）是专门设计用于处理数据的多流形结构的聚类方法。SMMC适合处理具有交叉的子空间问题，而SMCE则结合了流形学习和聚类，能够在保持数据的流形结构的同时进行聚类。变色龙聚类模型（CHAMELEON）是一种动态调整聚类结构的方法，它能适应数据分布的变化，适用于处理时序数据或动态环境中的聚类问题。在论文中，CHAMELEON被用于处理视频数据的运动分割，通过对特征点轨迹的追踪和聚类，实现了准确的运动分割。在论文中，作者针对四个不同的问题进行了实验，涵盖了从简单子空间划分到复杂多流形结构的处理。通过这些实例，作者不仅展示了各种聚类模型在实际问题上的应用，还分析了它们的优缺点，提出了改进意见。这种全面的研究为数据的多流形结构分析提供了有价值的理论支持和实践指导。





󰇱

exp󰇧−

















󰇨≠

0=



（5.2）

后利用公式（5.3）N-cut 进行剪边，

Ncut





， …，





≜





∑

(



，







)



(





)





（5.3）



， …，



是X(



⋃

…

⋃





=

，





⋂





，

≠



≠

，

=1

，

…

，

)的一

部分，W



A，B



≜

∑









∈

，





∈

，vol

(

)

≜

∑









∈

，

∈(

，

…

，

)

，



是 A 的补集。为

解决 NP-难问题，将求拉普拉斯矩阵 L 的 K 个最小特征值及其对应的特征向量的问题，

转化为求矩阵 E 的 K 个最大的特征值及其对应的特征向量

最后，利用 K-means 或其它经典聚类算法对特征向量空间中的特征向量进行聚类。

在谱聚类基础上，针对流形问题、混合子空间问题等具体问题，前人提出大量的算

法，下述为本论文用到的几类算法核心内容简述。

5.2.1 基于共享近邻的谱聚类（SNN）

该模型设与点



最近的前 kd 个点构成集合，N(x，i)与点 xj 最近的前 kd 个点构成

集合(



)，则点



和点



的共享 kd 近邻







，







=(



)

⋂

(



)，利用表征

局部密度，将这一信息用于相似度度量，在自适应高斯核函数的基础上的相似度度量

——基于共享近邻的自适应高斯核函数（5.4）。











，







󰇱

exp󰇧−

























，







󰇨≠

1=



（5.4）

其中，



和



分别为点



和点



到各自第 P 个近邻的距离。

然后，通过 N-Cut 方式剪边后用 kmeans 进行聚类的方式

5.2.2 稀疏子空间聚类（SSC）

对分布于多个低维子空间的并产生的子空间分割问题该方法是 Elhamifa 等于 2009

年基于一维稀疏性提出的，其子空间模型用公式（5.5）表示为

[8]

：

min



‖



‖



（5.5.1）

s.t.X=XZ，



=0 （5.5.2）

其中，Z 具有对角结构，揭示了数据的子空间属性[稀疏子空间聚类综述]。该模型

利用稀疏表示(SR)迫使每个数据仅用同一子空间中其他数据的线性组合来表示.在数据

所属的子空间相互独立的情况下，模型(4)的解 Z 具有块对角结构，这种结构揭示了数据

的子空间属性:块的个数代表子空间个数，每个块的大小代表对应子空间的维数，同一个

块的数据属于同一子空间.

在实际应用中，数据往往受到各种噪声或者奇异样本的影响，这时，数据 X 表示为

X=DZ+E，其中 E 为噪声或者奇异样本，通常 D 取为数据 X 本身或者干净字典 D.一般

地，稀疏子空间聚类模型可以统一描述为如下（5.6）优化问题

[9]

min





(



)

=

(



)

+() （5.6.1）

s.t.Z∈C （5.6.2）

式中，C 为表示系数矩阵 Z 的约束集合，λ>0 为正则化参数；F(E)称为数据项或保真项，

刻画了数据的表示 DZ 与数据 X 之间的逼近程度，针对数据中噪声的不同分布，F(E)采

用不同的矩阵范数来度量误差；()称为正则项或惩罚项.稀疏子空间聚类通过对表示

系数矩阵 Z 采用不同的稀疏度量作为正则项，迫使 Z 具有理想结构.

模型求解共分两个步骤：首先，利用全局的稀疏最优化，在所有点中寻找其它几个

在同一子空间中的点；其次，利用稀疏系数，在谱聚类框架中对数据进行分类。

图 5-2 稀疏子空间聚类的基本的基本框架

5.2.3 多流形谱聚类模型（SMMC）

由 YongWang 等提出，解决具有交叉子空间的流形聚类问题。首先，运行传统谱聚

类方式，来揭示所有的链接组分，然后，对每一链接祖坟运行 K-manifolds 来进一步解

开交叉聚类。其关键思想为以下两点：

（1）构造关联矩阵：需要判断相距较远的两点是否属于同一流形，此时，不仅需

要进行全局考虑，作者将目标放在同一趋于的两点判断是否足够近，并且有相似的切空

间，藉此判断是否在同一流形上，因此需要构建关联矩阵，利用欧式距离，











−





(namedlocalsimilarity) 及两点在切空间的相关性构成关联矩阵， 



(



，





)其中，为单调递增的融合函数。最终得到该关联值（公式 5.7），





=







󰇱



∏

cos

(





)







，





∈













∈(



)

0ℎ



（5.7）

其中，

(



)

为 K-nearest neighbors of x.

（2）切空间的定义，通过全局非线性流形可以近似的被一系列局部线性流形所近

似

[10,11]

，并通过主成分来越过交叉线性流形，从而将交叉点成功分开。

求解过程围绕：

参数选取原则：

(



)

，越多，准确度越高；K 取值适中，太小的化会形成许多不

连续的自聚类，太小局部的区分会丢失；P 值代表了不同流形间的可分性。

输入数据子空间表示系数

谱聚类（N-cut）

子空间表示

相似度矩阵

数据聚类结果

剩余49页未读，继续阅读

普通网友

粉丝: 13w+

多流形结构分析：主成分与聚类算法在数据处理中的应用

主成分分析-数据的多流形结构分析 .pdf

主成分分析-数据的多流形结构分析 (2).pdf

大数据-算法-流形学习算法研究.pdf

拟合算法-数据的多流形结构分析.pdf

人脸识别系统中的流形学习算法分析.pdf

基于P-ISOMAP特征脸谱的人脸识别.pdf

基于特征融合和流形增强的视频人脸识别.pdf

一种半监督流形学习的人脸识别方法.pdf

06 基于流形学习能量数据预处理的模板攻击优化方法.pdf

基于改进2D-DLPP算法的人脸识别.pdf

最新资源