高维数据聚类：模型方法与子空间算法解析

版权申诉

68 浏览量更新于2024-07-02 收藏 1.23MB PDF 举报

"这篇文档是关于计算机研究领域中基于模型的高维数据聚类方法的综述，主要探讨了混合因子分析模型（MFA）、拓展的简约高斯混合模型（EPGMM）、高维高斯混合模型（HD-GMM）以及判别潜在子空间混合模型（DLM）等子空间聚类算法。这些模型在处理高维数据时，能够实现降维和聚类的双重效果，特别适合于高维小样本的数据。" 在计算机科学研究中，高维数据的处理是一项关键挑战，因为随着数据维度的增加，数据的复杂性和处理难度也随之上升，这一现象被称为“维度灾难”。为了解决这个问题，研究者们提出了基于模型的聚类方法，特别是子空间聚类算法。混合因子分析模型（MFA）是将高斯混合模型与因子分析相结合的一种方法，旨在同时进行降维和聚类。因子分析用于减少数据的复杂性，而高斯混合模型则用于发现数据的分布模式，两者结合使得MFA能够在降低数据维度的同时，有效地识别数据中的类别结构。拓展的简约高斯混合模型（EPGMM）是对MFA的一种扩展，它通过修正因子分析的协方差结构，形成一系列子模型，适用于特定的高维数据场景。这种方法通过对协方差结构的限制，可以更好地适应各种数据特性。高维高斯混合模型（HD-GMM）不再依赖于因子分析，而是直接采用子空间聚类与简约高斯混合模型的结合，实现了在聚类过程中同时进行降维。这种方法尤其适用于那些高维但可能具有低维结构的数据集。判别潜在子空间混合模型（DLM）则是将数据拟合到一个潜在的标准正交判别子空间中，这个子空间对所有类簇共享且本征维度小于原始空间。通过约束组内和组间的模型参数，DLM能够适应不同的聚类需求，并提高分类准确性。实证研究表明，子空间聚类算法在处理高维小样本数据时表现出优越性，其协方差结构参数与原始维度之间的线性关系允许在较小样本量下仍能有效工作。同时，这些算法能够识别并利用数据中的低维子空间，从而提高分类效果。当所有类簇共享相同的低维子空间时，子空间聚类的降维策略将类似于全局降维算法。关键词：聚类分析、高斯混合模型、维度灾难、降维、子空间聚类算法。这些关键词反映了本文档的主要研究内容和焦点，即探讨如何通过特定的数学模型来解决高维数据聚类的问题，以应对现代大数据时代的挑战。

第二章基于模型的聚类

把

(2.3)

式化为容易求极值的对数形式可以方便计算，即

log ( ) log ( ; log ( ; ) log ( ; , )

i k i k k

l p X p







xxμ ) =  

(2.4)

第二节 EM 算法

然而，由于

(2.4)

中缺少指明每一个观测值属于那个混合分量（簇）的潜变量，

极大似然估计法无法直接对

(2.4)

进行参数估计，这样的似然函数也叫做不完全数据

(incomplete-data)

的对数似然函数。为了估计参数向量，需要用到期望最大化（

）

算法。引入潜变量

󰇟













󰇠

，其中





表示

样本



属于类别

。我们将潜变

量合并到模型中，得到如下形式的完全数据（

complete-data)

的对数似然函数：





󰇛



󰇜



 

󰇛













󰇜󰇟



 

󰇛









󰇜

󰇠

(2.5)

其中󰇛



󰇜是指示函数。在期望最大化算法的

步骤，通过给定



，我们

可以先算出来

(2.5)

式的条件期望，这个条件期望被称为

函数：



󰇛



󰇜

󰇛



󰇛



󰇜





󰇜

(2.6)

其中

s=1,2,..

表示迭代次数。在

步骤，

函数相对于参数向量求最大值。可

以证明

(

张宪超

, 2017)

，在多元正态分布混合的情况下，

步骤涉及通过表达式更新

后验概率：





󰇛󰇜







󰇛󰇜

󰇡







󰇛󰇜





󰇛󰇜

󰇢







󰇛󰇜





󰇡







󰇛󰇜





󰇛󰇜

󰇢

其中





󰇛󰇜

󰇟

󰇛

















󰇜

󰇠

表示在第

次迭代后随机变量



来自第

个混

合分量的概率。相应的

步骤简化为以下闭式解（

closed form

）表达式：





󰇛󰇜









󰇛󰇜











󰇛󰇜









󰇛󰇜















󰇛󰇜





和





󰇛󰇜









󰇛󰇜

󰇛



 



󰇛󰇜

󰇜󰇛



 



󰇛󰇜

󰇜













󰇛󰇜





其中

=1

。重复该过程，直到在某些迭代中满足收敛标准，称之为

。我

们称收敛后的参数向量



󰇛󰇜

和收敛后的后验概率





󰇛󰇜





󰇛

󰇛󰇜

󰇜

是真实参数向量





万方数据

第三章高维数据聚类中的维数灾难

这就是所谓的“零差距”现象(张宪超,

2017

)；

(2)

簇有效性问题，指的是聚类问题，

搜索在数据中隐藏的簇，假设数据在一些维度内达到了某种映射条件。例如模型聚

类方法认为多个概率分布函数组成了特定的数据集。如果聚类算法能够找到在数据

集内的依赖关系

(Bishop, 2006)

，则根据已有的样本数据可以得到其他的规律性特征。

而对于高维数据来说，如果维度越大，则模型中的参数也比较多，无法直接对二者

之间的关系进行描述；

(3)

有效维度问题，是在针对某一事物采集数据样本时，应该

从多个角度来选取合适的实体属性。在数据量持续增大的过程中，将会更凸显出样

本属性的有效问题。另外有可能在统一数据集中，各个簇内存在不同的维相关性。

尽管某个维度和数据存在某种相关性，但是在某个簇内也许没有关系；

(4)

第四个是

维度相关性的问题，主要描述的是维度间的正交性问题，当这两个维度含有相关性，

基于假设维度正交性算法的聚类结果无法保持较高的准确性。此时维度的相关性问

题会在数据维度增大的过程中影响到最终的聚类结果。另外各个簇之间的维度相关

性也是不同的。

第二节模型聚类方法中的维度灾难的问题

维度灾难用另一种形式主要表现在基于模型的聚类场景内，但是这种方法与估

计模型参数有关，这些参数直接依赖于观测空间的维度。正如第二章所示，在高斯

混合模型的背景下，需要估计的参数总量等于

-1+

(

+1)/2

。其中

-1

代

表混合分量数量的自由参数，

代表均值的自由参数，

(

+1)/2

代表协方差矩阵

的自由参数，可以看出需要估计的参数数量是变量数量

的二次函数。除此以外，同

样需要注意的问题出现在高斯混合模型背景下，利用

算法计算观测值后验概率





󰇛󰇜

󰇟

󰇛















󰇜

󰇠

时涉及到以下计算过程：





󰇛󰇜



󰇛







󰇜󰇜

(3.1)

计算



󰇛󰇜同样也可以表达为

( ) ( ) ( ) log(det ) 2log( ) log(2 )

k k k k k k



−

= − − + − +xxμ Σ x μ Σ

(3.2)

从上式可以看出，计算



󰇛󰇜需要求出协方差矩阵



的逆矩阵

(k =1,2,…K ),

若

样本量

小于

，这有可能导致聚类函数的精确度不足；若样本量

小于观测值本征

万方数据

剩余65页未读，继续阅读

programyp

粉丝: 90
资源: 9323

高维数据聚类：模型方法与子空间算法解析

数据挖掘中聚类算法综述.pdf

数据挖掘之聚类算法综述.pdf

数据挖掘中聚类分析综述.pdf

基于深度学习的聚类方法.pdf

数据挖掘层次聚类算法研究综述.pdf

数据挖掘中聚类算法研究综述.pdf

计算机研究 -用于文本分类和文本聚类的特征选择和特征抽取方法的研究.pdf

数据挖掘经典分类聚类算法的研究综述.pdf

云计算环境下基于分形的聚类融合算法研究.pdf

基于隐私保护的数据挖掘综述.pdf

最新资源