没有合适的资源?快使用搜索试试~ 我知道了~
95090MPC:多视图概率聚类0刘俊杰1,2,刘俊龙2,闫少天1,2,蒋荣新1,4,田翔1,4,顾博轩1,3,陈耀武1,3,沈晨2,黄建强201浙江大学2阿里巴巴云计算有限公司3浙江大学嵌入式系统工程研究中心,中国教育部4浙江省网络多媒体技术重点实验室{jumptoliujj,yanshaotian}@gmail.com,{pingwu.ljl,jason.sc,jianqiang.hjq}@alibaba-inc.com0摘要0尽管取得了令人期待的进展,多视图聚类(MVC)仍然面临两个挑战等待更好的解决方案:i)大多数现有方法要么不合格,要么需要额外的步骤来处理不完整的多视图聚类,ii)噪声或异常值可能会显著降低整体聚类性能。在本文中,我们提出了一种新的不完整和完整MVC的统一框架,称为多视图概率聚类(MPC)。MPC等效地将多视图成对后验匹配概率转化为每个视图的个体分布的组合,它容忍数据缺失,并且可以扩展到任意数量的视图。然后,使用路径传播和共邻传播的图上下文感知细化来改进成对概率,从而减轻噪声和异常值的影响。最后,MPC等效地将概率聚类的目标转化为避免完全成对计算,并通过迭代最大化联合概率来调整聚类分配。在不完整和完整MVC的多个基准测试上进行的大量实验证明,MPC在效果和效率上显著优于先前的最先进方法。01. 引言0多视图聚类(MVC)[36]是一项旨在利用多视图数据中的相关和互补信息,并以无监督的方式将样本分成各种簇的任务,在计算机视觉领域成为热点,因为它在性能上优于单视图聚类。随着多源和多模态数据的爆炸性增长,0�本工作是在阿里巴巴进行研究实习期间完成的。†通讯作者。0MVC已经付出了很多努力。Co-EM[23]旨在通过互相学习知识来最大化所有视图之间的相互一致性。SwMC[22]从多个视图构建一个统一的相似性图,然后将该图分割以获得聚类结果。GMC[29]对每个数据图矩阵进行加权,以得到统一的图矩阵。SMSC[27]将锚点学习和图构建集成到一个统一的框架中。MKKM[16]旨在通过预定义的核函数与矩阵引导正则化的最优组合来提高聚类性能。尽管取得了进展,MVC方法仍然面临各种挑战:1)在实践中,数据点之间可能经常出现部分视图的缺失[17,35],而现有的方法要么不合格[27,29],要么需要特定的附加步骤[30,33]来处理这些情况。2)K-means[18]和谱[25]聚类算法通常被用作MVC的最后一步。它们都对共同表示或相似性矩阵的质量敏感,而多视图数据中的噪声或异常值[11,28,42,43]可能会显著降低它们的质量,这是由于数据收集的复杂性所致。此外,K-means和谱聚类的性能依赖于总聚类数的选择,而在实际情况下通常无法获得。为了解决这些问题,我们提出了一种新的不完整和完整MVC的统一框架,称为多视图概率聚类(MPC)。我们不是学习或计算一个共同的相似性矩阵,而是利用后验概率直接反映样本之间的配对可能性。为了获得后验概率矩阵,我们将其数学分解为每个视图分布的公式,这表现出对视图部分缺失的容忍性,并且易于扩展到任意数量的视图。然后,MPC通过路径传播和共邻传播执行图上下文感知的概率细化,可以有效减轻噪声的影响和95100异常值。最后,使用快速概率聚类算法生成聚类,该算法对噪声更具鲁棒性,不需要先验知识的聚类数目。为了避免完全成对计算,我们等效地转换了概率聚类的目标,并通过迭代最大化联合概率来调整聚类分配。大量实验证明,MPC在聚类性能和计算效率方面明显优于最先进的方法。总之,本文的主要创新点如下:0•所提出的MPC框架等效地将多视角成对后验匹配概率转化为每个视角的个体分布的组合,可以容忍数据缺失,并且可以扩展到任意数量的视角。0• 所提出的图上下文感知的改进有效地减轻了噪声和异常值的影响。0•所提出的快速概率聚类算法大幅减少了计算复杂性,并且不需要任何先验知识。02. 相关工作02.1. 多视角聚类0根据整合多视角所使用的机制和原则,现有的多视角聚类算法可以分为以下几类。第一类是基于图聚类[22,29,30,43]。作为典型的图聚类方法,PIC[30]通过学习由所有视角构建的一致图矩阵的共识表示,并在学习到的共识图上使用谱聚类算法生成聚类结果。第二类是基于矩阵分解[12,15,24,31]。这一类通过对数据矩阵进行低秩矩阵分解来学习共识表示以实现聚类。例如,MIC[24]通过加权非负矩阵分解和L2,1范数正则化来优化学习共识矩阵。第三类是多核学习[32,39-41]。简而言之,这一类通过使用一组预定义的核函数找到一个融合的图,并提取出共同的聚类结构。例如,OSLF[39]提出将每个独立相似性矩阵聚类以学习共识聚类分区矩阵。此外,像[4,14,38]这样的方法是基于深度多视角聚类,而MCDCF[4]将MVC和深度矩阵分解同时集成到一个统一的框架中,从层次信息中学习一个共同的共识表示矩阵。我们提出了一种新颖的方法,可以自适应地估计多视角后验匹配概率,而无需复杂的超参数微调。此外,cat-0在我们的方法中不需要类别信息,这严重影响了某些方法的聚类性能[30,39]。02.2. 无监督聚类0K-means聚类[18],谱聚类[25],层次聚类[26]和其他一些传统的聚类算法[9,10]通常用于聚类任务。K-means[18]通过给定的聚类数目最小化总的簇内方差。谱聚类[25]基于相似性矩阵进行图切割。这些算法的聚类性能受到优化参数和聚类数目的影响。作为一种有效的聚类算法,概率聚类算法[19,20]首创地将成对关系纳入其中,并在聚类任务中取得了最先进的性能。概率聚类的基本思想是最大化簇内相似性并最小化对象之间的簇间相似性。这些方法通常使用经验函数来处理成对相似性,这限制了最终的聚类性能。此外,考虑到所有成对关系的匹配概率会导致高计算复杂性。因此,我们提出了一种快速且无需优化参数的概率聚类算法,可以以线性计算复杂性生成聚类结果。03. 提出的方法0在本节中,我们讨论了提出的MPC的细节。如图1所示,所提出的方法由三个阶段组成。首先,在概率估计阶段,给定每个视图的数据矩阵,通过使用所有视图的一致性信息和互补信息,从每个视图的个体分布的组合中生成多视图成对后验匹配概率矩阵。我们旨在充分利用每个视图的信息。然后,引入了基于图上下文感知的路径传播和共邻传播的概率细化,以细化成对后验匹配概率并减轻噪声和异常值的影响。在最后阶段,引入了快速概率聚类算法,基于细化的多视图成对后验匹配概率矩阵以高效且鲁棒的方式生成聚类结果。03.1. 概率估计0给定一个包含 N 个样本和 M 个视图的多视图数据集 S = {V (1) , V (2) , ..., V ( M ) } 。V ( m ) ∈ R d ( m ) � N 表示第m 个视图中的特征矩阵,其中 d ( m ) 是第 m个视图的特征维度。令 W ( m ) ∈ R N � N 通过 V ( m )使用余弦相似度计算得到,表示相似性jhi01𝐾𝑁𝑁𝐾𝑁𝑁01𝑃(𝑒!" = 0/1 | 𝑤!" )𝑃(𝑤!"& | 𝑒!"= 0/1)...Sparse KNN Matrix𝑃(𝑒!" = 0/1 | 𝑤!"$ ,. ., 𝑤!"& )𝑤 &𝑤 $abcdabcdP(i, j) = P(eij = 1|w(1)ij , w(2)ij , ..., w(M)ij)(1)P(i, j) =(M�m=2P(w(m)ij|eij = 1))P(eij = 1|w(1)ij )�l∈{0,1}(M�m=2P(w(m)ij|eij = l))P(eij = l|w(1)ij )(2)95110共邻传播路径传播0概率估计 概率细化0后验概率0视图 10视图 M0快速0概率聚类0使用多视图信息进行估计 图上下文感知细化0图1.提出的MPC的概览。所提出的方法由三个阶段组成。在概率估计阶段,通过使用所有视图的一致性信息和互补信息,从每个视图的个体分布的组合中生成多视图成对后验匹配概率矩阵。在概率细化阶段,引入了路径传播和共邻传播来微调后验匹配概率。如路径传播所示,考虑概率一致性信息,h 在 i 和 j 之间建立概率路径,并通过找到具有最大概率的路径来增强 i 和 j 之间的概率。此外,在共邻传播中,b 和 c 是 a 的k-最近邻中的噪声。根据共同邻居的数量和共同概率的比例,共邻传播细化调整了 a 和 b 之间的概率以及 a 和 c之间的概率为一个小值,小值表示它们之间没有连接。可以进一步调整和增强 a 和 d之间的概率。接下来,使用细化的成对后验匹配概率进行聚类。如快速概率聚类过程所示,每个样本最初被分配到自己的聚类集中,并且通过迭代地最大化联合概率,按照随机顺序将每个样本移动到相邻的聚类集中。最后,可以以收敛的方式生成良好的聚类结果。0第 m个视图的相似性矩阵。不同视图的相似性矩阵可能会有所不同,即使它们生成了相似的聚类结果。因此,我们提出基于所有视图的相似性矩阵来估计成对后验概率,而不是简单地将相似性矩阵合并成一个共同的相似性矩阵。样本 i 和 j的成对后验概率可以表示为:0其中 e ij = 1 表示两个样本属于同一类,w ( m ) ij 表示第m个视图中两个样本的相似度。假设所有视图都是条件独立的,类似于之前的工作[1, 3, 5, 6,34],基于贝叶斯公式和条件独立性,上述公式可以表示为:0Eq. ( 2 )的详细推导见补充材料。如公式(2)所示,可以将所有视图的相似性信息考虑到公式中。该公式的设计目标如下。一方面,该公式可以独立地使用每个视图的相似性信息。因此,较大的 P ( w ( m ) ij | e ij = 1)0或 P ( e ij = 1 | w ( m ) ij ) 表示第 m个视图中的较大配对概率,并且可以反映到多视图配对概率中。另一方面,该公式0可以融合所有视图的概率信息。当所有视图的相似性信息一致时(所有视图中的 P ( w ( m ) ij | e ij = 1) 和 P ( e ij =1 | w ( m ) ij ) 较大或0小的 P ( w ( m ) ij | e ij = 1) 和 P ( e ij = 1 | w ( m ) ij )(在所有视图中),该公式可以反映一致性信息。当某些视图的相似性信息模糊时,该公式可以反映在其他视图中获得的补充信息。与之前的工作[29,30]中学习多个相似性矩阵的加权参数不同,公式(2)可以自适应地从多个视图估计后验匹配概率。0为了估计 P ( w ( m ) ij | e ij = 1 / 0) 和 P ( e ij =01 | w ( m ) ij ),我们使用聚类算法在每个视图上生成伪标签,并使用每个样本的 k近邻生成一些配对关系。有许多方法可以生成伪标签,我们使用我们提出的聚类算法。我们使用伪标签将这些配对样本标记为0/1,以指示配对关系中的两个样本是否属于同一类。然后,我们使用简单的保序回归和直方图统计分别估计 P( w ( m ) ij | e ij = 1 / 0) 和 P ( e ij = 1 | w ( m ) ij ),这是预处理过程,只需要估计一次。所有每个视图的观察数据都用于计算,无论是完整视图还是缺失视图。我们的目标是充分利用每个视图的信息,包括不完整视图中的唯一信息以及完整视图中的一致性信息和补充信息。使用估计值的结果为(5)95120P ( w ( m ) ij | e ij = 1 / 0) 和 P ( e ij = 1 | w ( m ) ij )只需要是近似正确的伪标签,并且可以从三个方面进行讨论。首先,由于公式(2)由每个视图的个体分布组成,多视图配对后验匹配概率不会受到特定视图的影响,并且可以自适应地缩放估计值以消除干扰并增强鲁棒性。其次,配对概率用于提出的快速概率聚类算法(将在第3.3节介绍),而提出的快速概率聚类算法可以成功地对具有密集概率的聚类进行分类。因此,配对概率只需要能够粗略地表示配对关系。第三,在下一节中引入概率细化来进一步微调配对概率。给定所有视图的 P ( w ( m ) ij | e ij = 1 / 0) 和 P ( e ij = 1| w ( m ) ij ),可以生成多视图配对后验匹配概率矩阵,并用于生成聚类结果,而不是 W ( m ) 。03.2.图上下文感知的细化0概率估计是基于样本关系的方面计算的,忽略了包含丰富信息的图上下文方面。因此,我们通过路径传播和共邻传播执行图上下文感知的细化。路径传播。由于每个视图的数据扰动,数据集中存在一些异常值,可能会影响最终步骤中的聚类性能。使用公式(2)无法准确计算异常值的概率估计,因此我们尝试使用路径传播对其进行微调。受到信息传递的启发,其中节点之间的信息是可传递的,所提出的路径传播(PP)如下传递样本之间的概率:0P(i,j)= max(P(i,j),P(i,h)×P(h,j))(3),其中j∈knni,h∈knnij,knni ={∪knnmi},knnj = {∪knnmj},knnij ={knni∩knnj},knnmi∈Rk是第m个视图中样本i的k最近邻。在公式(3)中,样本h建立了样本i和样本j之间的路径,样本i和样本j之间的概率可以通过找到具有最大概率的路径来增强。使用路径传播,考虑了异常值与其邻居之间的概率一致性信息,可以检测到异常值并增强异常值与其邻居之间的成对概率。共邻传播。概率估计是在欧几里得空间中计算的,而视觉特征通常位于低维流形中[7]。仅使用欧几里得空间中的信息,忽视图上下文,可能导致实际成对后验概率之间的准确性不准确。为了利用图上下文,定义了共邻传播(CP)0如下:0P(i,j)=0�0h∈knnij(P(i,h)+0�0hi∈knni P(i,hi)+ 0hj∈knnjP(j,hj)(4)0其中knni∈Rk是由P(i,j)计算的样本i的k最近邻,knnij={knni∩knnj}。在公式中,局部图由两个样本的k最近邻构建。我们同时考虑了共同邻居的数量和共同概率的比例,以进一步根据局部图来细化概率。如公式(4)所示,可以挖掘可用的基于图的概率信息,以尽可能多地挖掘类似流形分布的信息。使用共邻传播,可以以高效的方式检测k最近邻中的噪声并进一步增强异常值。03.3.快速概率聚类0在这个阶段,引入了快速概率聚类算法来生成聚类结果。给定N个样本和聚类集π:[z1,z2,...,zN],快速概率聚类(FPC)的优化目标可以数学地表示为:0πopt = argmaxπ P(X | π)=P(X,π)0P(π)0s.t. P(X,π)=0�0i,j(P(eij = 1)P(eij =0))δ(zi,zj)P(eij = 0)0Ω0其中δ是Kronecker函数,Ω是归一化参数。根据上述定义,目标优化函数L = -logP(X | π)可以表示为:0L = �0i,j(δ(zi,zj)(logP(eij = 0)- logP(eij =c(6)0i,j(logP(eij = 0))- logP(π)-logΩ是一个常数。只需计算类内的概率即可在公式(6)中减少计算复杂性。整个概率聚类优化过程在算法1中概述。在第一步中,使用精炼的多视图成对后验匹配概率构建k最近邻。在第二步中,将每个样本分配到其自己的聚类集中。然后,按随机顺序,将每个样本移动到产生最小值的邻居聚类集中,使用公式(6)。移动过程对每个样本重复,直到没有移动步骤。概率聚类过程的可视化如图1所示。使用该算法可以以收敛的方式生成良好的聚类结果。在不完整的多视图聚类中,我们首先使用上述算法在具有完整视图的样本上生成聚类结果。然后对于不完整的样本,构建在具有完整视图的样本上的k最近邻。我们利用共邻传播来Input: P(eij = 1) and P(eij = 0);Construct KNN nbrs ∈ Rn∗k by P(eij = 1);Initialization: listn = [1, 2, ..., n], it = 0,maxiter = 20, z = [z1, z2, ..., zn] = [1, 2, .., n];while it < maxiter docount = 0random shuffle listnfor i in listn dofind zfind in z[nbrs[i]] with minimum objectivevalue denoted by Eq. (6)if zi ! = zfind thenupdate zi = zfindcount = count + 1endendif count == 0 thenbreakendit = it + 1endOutput: z;DatasetsMCNd(m)(m = 1, ..., M)95130Algorithm 1: FPC 优化过程0改进不完整样本与其k个最近邻之间的成对概率。最后,我们在k个最近邻中找到最大概率,并将不完整样本合并到邻居聚类集中。此外,还存在一些情况,其中所有不完整样本都有两个共同的视图,我们也可以利用完整的多视图聚类过程生成聚类结果。04. 实验04.1. 实验设置0数据集. 实验比较是在三个多视图数据集上进行的. (1) Handwritten [8]包含10个数字(即数字'0-9')的2000个样本,涵盖了四种特征,分别是平均像素特征、傅里叶系数特征、泽尼克矩特征和卡尔胡宁-洛夫系数特征。 (2) 100Leaves [21]包含来自100种植物物种的1600个样本。对于每个样本,给出了一个形状描述符和纹理直方图。 (3) Humbi240 是 Humbi [37]数据集的一个子集,包含240个人的13440个样本,涵盖了通过人脸识别模型1提取的人脸特征0和人物特征,由personreID模型2提取。这些数据集在表1中总结。为了评估不完整数据上的聚类性能,我们选择 c % ( c = 90 , 70 , 50 , 30 )的样本作为具有完整视图的配对样本。对于剩下的样本,其中一半缺失第一个视图,而另一半的第二个视图被删除。缺失率定义为 η = 1 - c。01 https://github.com/XiaohangZhan/人脸识别框架 2https://github.com/layumi/Person reID baseline pytorch0数据集 M C N d ( m ) ( m = 1 , ..., M )0表1. 数据集概述. { M , C , N , d ( m ) } 分别表示每个视图中的 {视图数, 聚类数, 样本数, 特征数 }0手写数字4 10 2000 240,76,47,64 100Leaves 2 100 160064,64 Humbi240 2 240 13440 256,2560评估指标.在实验中,使用了几个广泛使用的聚类指标,包括BCubedFmeasure、Pairwise Fmeasure[2]、归一化互信息(NMI)和调整兰德指数(ARI)作为评估指标。这些指标的较高值表示更好的聚类性能。实现细节.我们使用Python3.8实现了我们的MPC,并在一台标准的Linux操作系统上进行了所有评估,该系统配备了16个2.50GHz的Intel XeonPlatinum 8163CPU。对于所有方法,我们使用适当的K来构建k个最近邻,以进行公平比较。在Handwritten、100Leaves和Humbi240上,K分别设置为200、20和120。04.2. 比较方法0我们将我们的方法与SOTA多视图聚类算法进行比较。SMSC[27]将锚点学习和图构建集成到统一框架中。GMC[29]对每个数据图矩阵进行加权以得到统一的图矩阵。MCDCF[4]将深度概念分解引入到MVC中,用于学习层次信息。SFMC[13]提出了一种可扩展且无参数的图融合框架用于MVC。PIC[30]使用由不完整视图构建的融合图学习共同表示。OSLF[39]允许对基本分区矩阵进行插补,以帮助学习一致性分区矩阵。EEIMC[17]提出使用多核方法来插补不完整的基本聚类矩阵。UEAF[33]同时重构缺失视图并学习多个视图的共同表示。IMCCP[14]通过对比预测和缺失数据恢复来学习表示。前四种方法只能处理完整的多视图数据,因此我们用相同视图的均值填充缺失数据。对于所有方法,我们下载了它们的发布代码,并通过网格搜索调整超参数,以在每个数据集上生成最佳结果。简而言之,对于PIC,我们从1e-4到1e4的范围内以10的间隔寻找最优的β。对于EEIMC,我们使用“高斯核”构建核矩阵,并在2^-15到2^15的范围内寻找最优的λ0对于OSLF,我们利用“高斯核”构建核矩阵,并从2^-15到2^15的范围内以2的间隔寻找最佳λ。对于UEAF,我们利用网格搜索方法找到最佳的惩罚参数λ1,λ2,λ3,范围从1e-5到1e5,间隔为10。对于SMSC,我们对锚点的数量进行微调。两个视图的性能比较如表2所示。IARIMVCMPC84.5784.4585.6083.0484.1885.6594.4084.0495.4997.0399.0795.47IMVCPICOSLFEEIMCUEAFIMCCPMPC455055606570758085909510000.10.20.30.40.50.60.7PICOSLFEEIMCUEAFIMCCPMPC35404550556065707580859000.10.20.30.40.50.60.7PICOSLFEEIMCUEAFIMCCPMPC35404550556065707580859000.10.20.30.40.50.60.795140表2.三个数据集上的聚类性能比较。红色/蓝色表示第1/第2最佳结果。MVC表示完整多视图聚类;IMVC表示0.5缺失率下的不完整多视图聚类。0方法 Handwritten 100Leaves Humbi2400MCDCF [4] 54.92 59.32 64.90 49.45 51.04 58.14 82.20 50.52 53.16 67.99 88.91 52.91 SMSC [27] 67.48 69.20 72.54 63.8325.88 42.12 72.59 24.77 26.59 44.37 74.09 26.13 SFMC [13] 72.70 73.72 77.35 69.66 29.97 61.31 80.97 28.94 51.78 91.1995.47 51.50 IMCCP [14] 76.56 80.96 83.86 73.73 22.91 36.20 69.94 21.78 49.68 58.43 88.42 49.37 GMC [29] 74.84 80.4782.20 71.75 36.40 78.98 88.75 35.47 87.99 96.05 98.57 87.94 OSLF [39] 78.24 78.55 79.32 75.82 65.55 69.59 87.68 65.2090.35 93.62 98.20 90.31 EEIMC [17] 78.86 79.13 80.80 76.51 74.10 77.53 91.18 73.84 91.45 94.45 98.54 91.41 UEAF [33]80.61 80.92 81.43 78.46 64.54 72.81 89.18 64.16 86.36 90.36 97.11 86.30 PIC [30] 76.61 77.88 80.23 73.94 78.04 81.4992.76 77.82 94.34 96.29 98.95 94.320MCDCF [4] 20.84 22.99 25.38 11.38 23.84 30.61 68.36 23.06 29.91 41.78 71.44 29.53 SMSC [27] 62.83 63.26 65.65 58.6517.51 30.59 63.26 16.27 18.69 31.59 64.42 18.17 SFMC [13] 54.81 67.30 71.99 47.53 22.67 51.94 73.81 21.50 7.61 71.7381.66 6.88 IMCCP [14] 58.52 71.10 72.68 52.71 17.08 24.75 60.84 15.99 37.20 42.66 80.93 36.84 GMC [29] 53.56 73.1973.56 46.05 3.55 47.35 56.76 1.76 2.55 52.86 65.28 1.75 OSLF [39] 53.86 54.06 58.51 48.73 33.86 39.04 71.84 33.19 70.7273.40 89.41 70.59 EEIMC [17] 68.80 69.48 70.26 65.33 52.65 56.74 81.11 52.18 80.94 86.24 94.84 80.86 UEAF [33] 68.9469.48 72.55 65.48 38.47 45.87 75.62 37.82 86.04 89.96 96.81 85.980PIC [30] 75.65 76.03 76.67 72.95 50.79 55.61 80.72 50.30 83.30 85.74 94.64 83.23 MPC 77.44 77.65 78.52 75.13 58.3161.19 83.39 57.94 90.10 91.56 96.53 90.060BCubedPrecision(%)0缺失率0BCubedFscore(%)0缺失率0缺失率0图2. Handwritten在不同缺失率下的聚类性能比较。0利用网格搜索方法找到最佳的惩罚参数λ1,λ2,λ3,范围从1e-5到1e5,间隔为10。对于SMSC,我们对锚点的数量进行微调。两个视图的性能比较如表2所示。0列出了不同方法在三个数据集上的实验结果。在完整的情况下,我们的方法在ARI方面在Handwritten上超过最佳基准4.58%,在100Leaves上超过最佳基准6.58%,在Humbi240上超过最佳基准1.15%。此外,在不完整的情况下,我们的方法在ARI方面在Handwritten上超过SOTA2.18%,在100Leaves上超过SOTA5.76%,在Humbi240上超过SOTA4.08%。与其他方法相比,GMC和SMFC在Humbi240上的0.5缺失率下表现较差。这说明简单地用平均向量填充缺失的视图对聚类是有害的。此外,图2显示了Hnadwritten上不同缺失率的不完整多视图聚类性能。从这些实验结果中,我们可以观察到以下几点:(1)我们的方法表现优于其他方法。0列出了不同缺失率下所有测试基线的结果,这证明了MPC对于数据缺失的容忍能力;(2)我们的方法在精度方面表现最佳,进一步证明了我们提出的MPC中多视图成对后验匹配概率的准确性。四个视图的性能比较。对于Handwritten数据集,我们构建了额外的不完整情况,其中所有样本都有两个完整的视图(第一个视图和第二个视图),其中一半的样本缺失第三个视图,而另一半的样本则删除第四个视图。如表3所示,MPC在完整情况和不完整情况下都显著优于这些最先进的方法,并且在ARI方面分别超过最佳基准9.24%和8.67%。令人鼓舞的表现证明了我们的方法对于数据缺失的容忍能力和对多个视图的扩展能力。特别是与表2中OSLF和EEIMC的完整(第一个视图和第二个视图完整)性能相比,聚类性能不稳定且下降。95150表3. 手写数字上的聚类性能比较。在不完整的情况下,视图1和视图2是完整的,视图3和视图4缺失50%。最佳结果用红色/蓝色表示。0方法成对F度量 BCubed F度量 NMI ARI 精确率 召回率 F度量 精确率 召回率 F度量0完整0OSLF [39] 76.23 76.58 76.40 76.28 76.70 76.49 76.51 73.79 EEIMC [17] 75.33 76.39 75.86 76.5376.51 76.52 78.28 73.17 PIC [30] 80.76 80.91 80.84 81.28 81.01 81.14 83.26 78.72 UEAF [33]81.59 82.25 81.92 82.57 82.34 82.45 83.00 79.910MPC 95.85 85.12 90.17 94.89 85.19 89.78 89.77 89.150不完整0OSLF [39] 62.25 67.05 64.56 64.61 67.21 65.88 69.75 60.48 EEIMC [17] 73.93 78.60 78.26 78.8878.71 78.79 79.53 75.85 PIC [30] 77.24 79.72 78.46 78.83 79.82 79.32 81.34 76.04 UEAF [33]81.31 81.77 81.54 81.90 81.86 81.88 82.39 79.490MPC 95.42 83.84 89.26 94.09 83.93 88.72 88.70 88.160相对于ARI,我们的方法的增加分别约为15.34%和0.66%。此外,我们的方法的成对精度比UEAF高约14%,证明了MPC在多视图信息挖掘中具有多视图成对后验匹配概率的能力。0表4. 手写数字和Humbi240上的运行时间比较。0方法MCDCF [4] PIC [30] UEAF [33] IMCCP [14] MPC0手写数字20分钟 150秒 5小时 80秒 45秒 Humbi240 20小时 7.5小时288小时 280秒 180秒0表5. MPC在手写数字和Humbi240上的各组件运行时间。0组件 PE PP CP FPC 总计0手写数字5s 10s 21s 9s 45s Humbi240 14s 48s 80s38s 180s04.3. 计算复杂度分析0MPC的计算复杂度由三个阶段的成本组成。在概率估计(PE)阶段,计算复杂度小于O(NVK),其中K(�N)用于生成k个最近邻,V(�N)是视图的数量。在概率细化(PP,CP)阶段,计算复杂度为O(NK)。根据快速概率聚类(FPC)优化过程,计算复杂度为O(NKL),其中L(�N)表示迭代次数。因此,我们提出的MPC的计算复杂度为O(NK(V +1+ L))= O(NK*),与样本数量成线性关系,其中K *�N。在表4中进行运行时间比较时,测试的基线无法在聚类性能和计算复杂度之间取得平衡。例如,MCDCF在Humbi240上的运行时间长达20小时。而UEAF需要调整大量超参数,并且计算复杂度较高。与这些方法相比,我们提出的MPC可以在保持良好聚类性能的同时,实现较低的计算复杂度。0适当的线性运行时间。MPC组件的详细运行时间如表5所示。04.4. 消融研究0在本节中,我们对手写数字和Humbi240进行了一些研究。概率估计的消融。在概率估计中,我们使用公式(2)来融合每个视图的概率信息。在表6中,我们比较了具有不同聚合函数的公式在具有两个视图和四个视图的手写数字上的效果。聚合函数表示为:P(i,j)= Aggregation(P(e ij =1 | w(1)),P(e ij = 1 | w(2)),...,P(e ij = 1 |w(M))),其中聚合函数包括平均值,最大值和最小值。聚合函数将多个视图视为同等重要,无法生成良好的聚类结果。与简单的最大函数相比,使用公式(2)可以将手写数字上的ARI从76.17提高到89.15。这进一步证明了公式(2)可以自适应地从多个视图估计后验匹配概率。从多视图概率融合的角度来看,我们在单视图和多视图上在表7中比较了我们的方法。对于单视图,我们使用P(e ij = 1 |w(m))作为概率估计。如表7所示,在ARI方面,单视图上的概率估计性能比单视图上的原始相似性高约2%。而基于我们的方法的多视图成对后验匹配概率的性能在ARI方面分别超过了单视图聚类性能的18.20%(手写数字)和20.68%(Humbi240)。这些实验结果证明了我们在公式(2)中提出的方法可以以高效的方式自适应地融合多视图的概率信息,这在性能改进中起到了重要作用。细化组件的消融。细化包含两个步骤:路径传播和共邻传播。正如我们在第3.2节中分析的那样,这两个步骤是不可或缺的。在表8中,我们比较了评估方法。HandwrittenV165.2465.4575.6562.52V252.9253.7064.3649.04MPC-V167.4867.2176.1164.84MPC-V256.3656.6266.4052.64MPC84.5784.4585.6083.04Humbi240V154.7256.6587.5754.61V253.5758.0785.0253.42MPC-V174.8776.5292.8274.78MPC-V263.9466.9987.7963.81MPC95.4997.0399.0795.47HandwrittenK-means76.7576.8982.6374.56Spectral73.7673.3581.9171.45FPC84.5784.4585.6083.04Humbi240K-means82.4685.4595.6682.39Spectral90.0590.7797.5290.02FPC95.4997.0399.0795.4795160表6. 我们方法的消融研究。在Handwritten上,公式和不同聚合函数之间的比较。0方法 F P F B NMI ARI0视图1-20平均 81.75 81.83 83.99 79.99 最小 80.0379.74 81.53 78.08 最大 73.46 74.54 79.3970.88 公式 84.57 84.45 85.60 83.040视图1-40平均 86.70 86.65 86.98 85.34 最小 84.3084.13 84.49 82.71 最大 78.39 79.14 82.4976.17 公式 90.17 89.78 89.77 89.150表7.我们的方法在Handwritten和Humbi240上与单视图和多视图的聚类性能比较。V1和V2表示第一个视图和第二个视图中的原始相似度矩阵;MPC-V1和MPC-V2表示第一个视图和第二个视图中的我们提出的方法;MPC表示多视图中的我们提出的方法。0方法 F P F B NMI ARI0表8. 对Handwritten上不同改进组件的消融研究。0改进组件 F P F B NMI ARI0仅邻居传播 78.72 78.42 81.95 76.75 仅路径传播 80.96 80.61 83.6879.18 两者 84.57 84.45 85.60 83.040表9.我们的方法与概率聚类算法和传统聚类算法在Handwritten和Humbi240上的聚类性能比较。K-means表示K-means聚类算法。Spectral表示谱聚类算法。FPC表示我们提出的快速概率聚类算法。0方法 F P F B NMI ARI0在不同改进组件下的聚类性能。如表8所示,单个改进组件的聚类结果表现不佳。配备两个改进组件后,聚类性能得到了显著的进一步改善,证明了它们在聚类中的有效性。0检测噪声和增强异常值。对聚类方法的消融研究。在MPC中引入了FPC来生成聚类结果。用于K-means和谱聚类的聚类簇数由FPC生成,分别在Handwritten和Humbi240上为16和320。如表9所示,基于经过改进的成对后验匹配概率的K-means和谱聚类的聚类结果表现不佳,并且受到聚类簇数的严重影响。配备了FPC后,聚类性能得到了显著的进一步改善,证明了FPC在聚类中的成功。04.5. 限制0MPC等效地将多视图成对后验匹配概率转化为每个视图的
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功