对比多视图聚类的多级特征学习

37 浏览量更新于2023-10-24 收藏 17.37MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Jie Xu1†, Huayi Tang1†, Yazhou Ren1∗, Liang Peng1, Xiaofeng Zhu1,2, Lifang He31School of Computer Science and Engineering, University of Electronic Science and Technology of China, Chengdu 611731, China2Shenzhen Institute for Advanced Study, University of Electronic Science and Technology of China, Shenzhen 518000, China3Department of Computer Science and Engineering, Lehigh University, PA 18015, USAjiexuwork@outlook.com,tangh4681@gmail.com,yazhou.ren@uestc.edu.cnlarrypengliang@gmail.com,seanzhuxf@gmail.com,lih319@lehigh.edu160510对比多视图聚类的多级特征学习0摘要0多视图聚类可以从多个视图中探索共同的语义，并且受到越来越多的关注。然而，现有的方法在同一特征空间中惩罚多个目标，忽视了学习一致的共同语义和重构不一致的视图私有信息之间的冲突。在本文中，我们提出了一种新的多级特征学习框架，用于对比多视图聚类，以解决上述问题。我们的方法从原始特征中学习不同级别的特征，包括低级特征、高级特征和语义标签/特征，以无融合的方式，从而可以在不同的特征空间中有效地实现重构目标和一致性目标。具体而言，重构目标在低级特征上进行。两个基于对比学习的一致性目标分别在高级特征和语义标签上进行。它们使高级特征能够有效地探索共同语义，而语义标签实现多视图聚类。因此，所提出的框架可以减少视图私有信息的不利影响。在公共数据集上进行的大量实验证明了我们的方法在聚类效果方面达到了最先进的水平。01. 引言0近年来，多视图聚类（MVC）引起了越来越多的关注[22,50, 52,57]，因为多视图数据或多模态数据可以提供共同的语义以提高学习效果[3, 14, 27, 33, 36,43]。在文献中，现有的MVC方法可以大致分为两类，即传统方法和深度方法。传统的MVC方法基于传统的机器学习方法进行聚类任务，并且可以0† 同等贡献。 � 通讯作者。0细分为三个子组，包括子空间方法[6, 18,24]，矩阵分解方法[45, 53, 56]和图方法[28, 55,60]。许多传统的MVC方法存在表示能力差和计算复杂度高等缺点，在具有真实世界数据的复杂场景中性能有限[10]。最近，由于其出色的表示能力，深度MVC方法逐渐成为社区中的热门趋势[1, 2, 20, 44, 49, 50,54]。以前的深度MVC方法可以细分为两个子组，即两阶段方法和一阶段方法。两阶段深度MVC方法（例如[21,50]）专注于分别从多个视图中学习显著特征并执行聚类任务。然而，谢等人[48]指出聚类结果可以用来改善特征学习的质量。因此，一阶段深度MVC方法（例如[39,59]）将特征学习与聚类任务在一个统一的框架中嵌入，以实现端到端聚类。多视图数据包含两种信息，即所有视图之间的共同语义和各个视图的视图私有信息。例如，文本和图像可以组合描述共同语义，而文本中的无关上下文和图像中的背景像素对于学习共同语义来说是无意义的视图私有信息。在多视图学习中，学习共同语义并避免无意义视图私有信息的误导是一个始终存在的话题。尽管现有的MVC方法取得了重要的进展，但它们存在以下需要解决的缺点：（1）许多MVC方法（例如[39,59]）试图通过融合所有视图的特征来发现潜在的聚类模式。然而，在特征融合过程中，无意义的视图私有信息可能在特征融合过程中占主导地位，相比之下，干扰了聚类的质量。（2）一些MVC方法（例如[18,21]）利用潜在特征上的一致性目标来探索所有视图之间的共同语义。然而，它们通常需要在相同的……………………𝐇1𝐇2𝐇𝑀𝐐1𝐐2𝐐𝑀……The racing car hasa black and whiteexterior. It madea huge roar as itturned the corner.160520� 20编码器 � 2 解码器0反向传播 � Z0� 10� �0编码器0编码器0� 10� �0解码器0解码器0反向传播 � 0�0反向传播 � Z0反向传播 � H0� 10� 20� �0特征MLP0标签MLP0高级特征0原始特征重构0学习聚类一致性：0学习共同语义：0语义标签0图像0音频0文本0最大匹配0聚类标签0反向传播 � Q 反向传播 � P0图1.MFLVC的框架。我们避免了多级特征学习中的直接特征融合，该框架从原始特征��中学习低级特征��，高级特征��和语义标签��。重构目标��在��上进行。两个一致性目标（即��和��）分别在{��}��=1和{��}��=1上进行。此外，通过优化��，利用{��}��=1的聚类信息来提高{��}��=1的聚类效果。0为了避免平凡解，我们引入了一致性目标。这导致了一致性目标尽可能地学习具有共同语义的特征，而重构目标希望相同的特征保持个别视图的私有信息。0在本文中，我们提出了一种新的多级特征学习框架，用于对比多视图聚类（简称MFLVC），以解决上述问题，如图1所示。我们的目标包括：（1）设计一个无融合的MVC模型，避免在所有视图中融合不利的视图私有信息；（2）为每个视图中的样本生成不同级别的特征，包括低级特征、高级特征和语义标签/特征。为此，我们首先利用自编码器从原始特征学习低级特征，然后通过在低级特征上堆叠两个MLP来获得高级特征和语义标签。每个MLP由所有视图共享，并有助于过滤视图私有信息。此外，我们将语义标签作为锚点，与高级特征中的聚类信息相结合，以提高聚类效果。在该框架中，重构目标由低级特征实现，而两个一致性目标由高级特征和语义标签分别实现。此外，这两个一致性目标通过对比学习实现，使高级特征专注于挖掘所有视图中的共同语义，并使语义标签代表多视图聚类的一致聚类标签。因此，重构目标和两个一致性目标之间的冲突得到缓解。与0与以前的工作相比，我们的贡献如下：0•我们设计了一种无融合的MVC方法，可以在不同的特征空间中进行不同的目标求解，以解决重构和一致性目标之间的冲突。通过这种方式，我们的方法能够有效地探索所有视图中的共同语义，并避免它们的无意义的视图私有信息。0•我们提出了一种灵活的多视图对比学习框架，可以同时实现高级特征和语义标签的一致性目标。高级特征具有良好的流形结构，并表示常见的语义，从而提高语义标签的质量。0•由于精心设计的框架，我们的方法对超参数的设置具有鲁棒性。我们进行了详细的消融研究，包括损失组件和对比学习结构，以了解所提出的模型。大量实验证明它实现了最先进的聚类效果。02. 相关工作0多视图聚类。MVC方法的第一类属于子空间聚类[18,24]，它专注于学习多视图的公共子空间表示。例如，传统的子空间聚类被[6]扩展，其中作者提出了一种多视图子空间聚类的多样性机制。MVC方法的第二类基于矩阵分解技术[23,56]，在形式上等价于160530K-means的放松[26]。例如，Cai等人[4]为多视图引入了共享聚类指示矩阵，并处理了约束矩阵分解问题。基于图的多视图聚类方法是第三类MVC方法[28,34]，其中构建图结构以保留样本之间的邻接关系。第四类MVC方法是基于深度学习框架的方法，即深度MVC方法，这些方法已经得到越来越多的应用，并且可以进一步粗略地分为两组，即两阶段的深度MVC方法[21,50]和一阶段的深度MVC方法[20, 51,59]。这些方法利用深度神经网络的优秀表示能力来发现多视图数据的潜在聚类模式。0对比学习。对比学习[7,42]是一种引人注目的无监督表示学习方法，其思想是在特征空间中最大化正样本的相似性，同时最小化负样本的相似性。这种学习范式最近在计算机视觉中取得了有希望的性能，例如[29,40]。例如，[19]中提出了一种一阶段在线图像聚类方法，该方法明确地在实例级和聚类级上进行对比学习。对于多视图学习，也有一些基于对比学习的工作[12, 21, 35,38]。例如，Tian等人[38]提出了一种对比多视图编码框架来捕捉潜在的场景语义。在[12]中，作者开发了一种多视图表示学习方法，通过对比学习来处理图分类。最近，一些工作研究了不同的对比学习框架用于多视图聚类[21, 31, 39]。03. 方法0原始特征。多视图数据集{Xm∈RN×Dm}Mm=1包括M个视图中的N个样本，其中xm∈RDm表示第m个视图中的Dm维样本。数据集被视为原始特征，其中多个视图具有K个共同的聚类模式需要发现。03.1. 动机0多视图数据通常具有冗余和随机噪声，因此主流方法总是从原始特征中学习显著的表示。特别地，自编码器[13,37]是一种广泛使用的无监督模型，它可以将原始特征投影到可定制的特征空间中。具体而言，对于第m个视图，我们分别将E_m(X_m;θ_m)和D_m(Z_m;ϕ_m)表示为编码器和解码器，其中θ_m和ϕ_m是网络参数，将z_m_i=E_m(x_m_i)∈RL表示为第i个样本的L维潜在特征，并将L_m_Z表示为输入X_m和输出ˆX_m∈RN×Dm之间的重建损失，因此0所有视图的重建目标被定义为：0L_Z =0m=1L_m_Z =0N/A0m=10i = 1∥xmi − Dm(Em(xmi))∥22.（1）0基于{Zm=Em(Xm)}Mm=1，MVC旨在挖掘跨所有视图的公共语义以提高聚类质量。为了实现这一目标，现有的MVC方法仍然面临两个挑战：（1）许多MVC方法（例如[20，59]）融合所有视图的特征{Zm}Mm=1，以获得所有视图的共同表示。通过直接在融合特征上进行聚类，将多视图聚类任务转化为单视图聚类任务。然而，每个视图的特征Zm既包含公共语义，也包含视图私有信息。后者是无意义甚至具有误导性的，可能会干扰融合特征的质量，导致聚类效果差。（2）一些MVC方法（例如[8，21]）通过在{Zm}Mm=1上执行一致性目标（例如，最小化所有视图之间的相关特征的距离）来学习一致的多视图特征。然而，他们也应用公式（1）对{Zm}Mm=1施加约束，以避免模型崩溃并产生平凡解[11，21]。一致性目标和重构目标都应用于相同的特征，因此它们的冲突可能限制{Zm}Mm=1的质量。例如，一致性目标旨在学习公共语义，而重构目标希望保持视图私有信息。最近，对比学习变得流行，并且可以应用于实现多视图的一致性目标。例如，Trosten等人提出了一种一阶对比MVC方法，但其特征融合面临挑战（1）。Lin等人提出了一种两阶段对比MVC方法，通过学习一致的特征，但它没有考虑挑战（2）。此外，许多对比学习方法（例如[19，30，40]）主要处理具有数据增强的单视图数据。这种特定结构使其难以应用于多视图场景。为了解决上述挑战，我们提出了一种新的多层特征学习对比多视图聚类框架（称为MFLVC），如图1所示。特别地，为了减少视图私有信息的不利影响，我们的框架避免了直接特征融合，并为每个视图构建了一个多层特征学习模型。为了缓解一致性目标和重构目标之间的冲突，我们建议在不同的特征空间中进行它们，其中一致性目标通过以下多视图对比学习实现。03.2. 多视图对比学习0由于由公式（1）获得的特征{Zm}Mm=1将公共语义与视图私有信息混合在一起，我们将{Zm}Mm=1视为低级特征，并学习另一个̸ij,(2)ℓ(mn)fc= − 1NNloged(hmi ,hni )/τFNed(hmi ,hvj )/τFe1/τF ,LH = 12M�m=1�n̸=mℓ(mn)fc.(4)̸ℓ(mn)lc= − 1KKj=1loged(Qm·j ,Qn·j)/τLKed(Qm·j ,Qv·k)/τLe1/τL ,LQ = 12M�m=1�n̸=mℓ(mn)lc+M�m=1K�j=1smj log smj ,(6)L = LZ + LH + LQ= LZ({Xm, ˆXm}Mm=1; {θm, ϕm}Mm=1)+ LH({Hm}Mm=1; WH, {θm}Mm=1)+ LQ({Qm}Mm=1; WQ, {θm}Mm=1),(7)160540特征的高级特征，即高级特征。为此，我们在{Zm}Mm=1上堆叠了一个特征MLP，以获得高级特征{Hm}Mm=1，其中hm i ∈RH，特征MLP是一个单层线性MLP，表示为F({Zm}Mm=1;WH)。在低级特征空间中，我们利用重构目标公式（1）保持{Zm}Mm=1的表示能力，以避免模型崩溃问题。在高级特征空间中，我们通过对比学习实现一致性目标，使{Hm}Mm=1专注于学习跨所有视图的公共语义。具体而言，每个高级特征hm i具有（MN-1）个特征对，即{hm i，hnj}n=1，...，M j=1，...，N，其中{hm i，hni}n≠m是（M-1）个正特征对，其余的M（N-1）个特征对是负特征对。在对比学习中，应最大化正对的相似性，最小化负对的相似性。受NT-Xent[7]的启发，余弦距离用于衡量两个特征之间的相似性：0d ( h m i , h n j ) = � h m i ,h n j �0其中 �∙ , ∙� 是点积运算符。然后，H m 和 H n之间的特征对比损失定义为：0（3）其中 τ F表示温度参数。在本文中，我们设计了一个跨所有视图的累积多视图特征对比损失，如下所示：0因此，每个视图的特征可以写成 H m = W H Z m = W H Em ( X m )。编码器 E m 有助于过滤掉 X m 的随机噪声。Zm上的重构目标既避免了模型崩溃，又推动了公共语义和视图私有信息在 Z m 中的保留。W H 有助于过滤掉 { Z m } Mm =1 的视图私有信息。{ H m } M m =1上的一致性目标使它们能够挖掘所有视图之间的公共语义。因此，高级特征的聚类接近真实的语义聚类。直观地说，语义信息是一个不涉及无意义噪声的高级概念。因此，同一聚类中的高级特征彼此接近，从而产生密集的形状（在第 5.1节中验证）。学习语义标签。本部分解释了如何从融合无关模型中的原始特征获得端到端聚类的语义标签。具体而言，我们通过在低级特征上堆叠共享标签MLP来获得所有视图的聚类分配，即 L ( { Z m } M m =1 ; W Q)。标签MLP的最后一层是0设为Softmax操作以输出概率，例如，q m ij 表示第 i个样本属于第 j 个聚类的概率在第 m个视图中。因此，语义标签由聚类分配中最大的元素确定。然而，在现实世界的场景中，由于视图私有信息的误导，样本的某些视图可能具有错误的聚类标签。为了获得鲁棒性，我们需要实现聚类一致性，即所有视图的相同聚类标签表示相同的语义聚类。换句话说，{ Q m ∙ j } M m =1 ( Q m ∙ j∈ R N )需要保持一致。与学习高级特征类似，我们采用对比学习来实现这个一致性目标。对于第 m 个视图，相同的聚类标签Q m ∙ j 有 ( MK − 1) 个标签对，即 { Q m ∙ j , Q n ∙ k } n=1 ,...,M k =1 , 其中 { Q m ∙ j , Q n ∙ j } n � = m 被构造为 (M − 1) 个正标签对，其余的 M ( K − 1)个标签对是负标签对。我们进一步定义 Q m 和 Q n之间的标签对比损失为：0（5）其中 τ L表示温度参数。因此，聚类导向的一致性目标定义为：0其中 s m j = 1 N � N i =1 q m ij。方程（6）的第一部分旨在学习所有视图的聚类一致性。方程（6）的第二部分是一个正则化项[40]，通常用于避免所有样本被分配到一个单一的聚类中。总体而言，我们的多视图对比学习的损失由三部分组成：0其中，L Z 是在低级特征{ Z m } M m=1上进行的重构目标，以避免模型崩溃。一致性目标L H和L Q 分别用于学习高级特征和聚类分配。我们从{ Z m } Mm =1而不是从{ H m } M m =1学习{ Q m } M m=1，因为这样可以避免W H 和W Q 之间的影响。同时，WH 和W Q 不会受到L Z梯度的影响。由于这种多级特征学习结构，我们不需要权重参数来平衡公式（7）中的不同损失（在第5.1节中验证）。03.3. 利用高级特征进行语义聚类0通过多视图对比学习，模型同时学习高级特征{ H m } M m=1和mincm1 ,cm2 ,...,cmK�hmi − cmj�22.(8)pmi = argminjhmi − cmj22.(9)min MmAm,amij = 1,aij ∈ {0, 1}, i, j = 1, 2, ..., K,(10)LP = −ˆPm log Qm,(11)yi = argmaxj�1Mqmij.(12)160550一致的聚类分配{ Q m } M m =1。然后，我们将{ Q m } Mm =1视为锚点，并将它们与{ H m } M m=1中的聚类进行匹配。通过这种方式，我们可以利用高级特征中包含的聚类信息来提高语义标签的聚类效果。具体而言，我们采用K-means[26]来获取每个视图的聚类信息。对于第m个视图，令{ c m k } K k =1 ∈ RH表示K个聚类中心，我们有：0N0K0所有样本的聚类标签p m ∈ R N通过以下公式获得：0设l m ∈ R N表示标签MLP输出的聚类标签，其中l m i =argmax j q mij，值得注意的是，由于聚类一致性在先前通过公式（6）实现，p m和l m所代表的聚类不对应。因此，我们可以将lm视为锚点，通过以下最大匹配公式修改p m：0s.t.0i =1 a m ij = 1 ,0其中，A m ∈ { 0 , 1 } K × K是布尔矩阵，M m ∈ R K × K表示成本矩阵。M m = maxi,j ˜ m m ij − ˜ M m0and ˜ m m ij = � N n =1 1 [ l m n = i ] 1 [ p m n = j ]，其中1 [ ∙]表示指示函数。公式（10）可以通过匈牙利算法[16]进行优化。修改后的聚类分配ˆ p m i ∈ { 0 , 1 }K定义为一个独热向量。当k满足k = k1 [ a m ks = 1] 1 [ pm i = s ]时，ˆ p m i的第k个元素为1，其中k, s ∈ { 1 , 2 ,. . . , K } 。然后，我们通过交叉熵损失对模型进行微调：0M0其中 ˆ P m = [ˆ p m 1 ; ˆ p m 2 ; . . . ; ˆ p m N ] ∈ R N × K。通过这种方式，我们可以将学到的语义知识转化为改进聚类的方式。最后，第i个样本的语义标签为：0优化。MFLVC的完整优化过程总结如算法1所示。具体而言，我们采用小批量梯度下降算法来训练模型，该模型由多个自编码器、一个特征MLP和一个标签MLP组成。自编码器由公式（1）初始化。0算法1：MFLVC的优化0输入：多视图数据集 { X m } M m =1；聚类数K；温度参数 τ F 和 τ L。01: 通过最小化公式（1）初始化 { θ m , ϕ m } M m =1。02: 通过公式（7）优化 W H ， W Q ， { θ m , ϕ m } M m03: 通过公式（8）和（9）计算聚类标签。4:通过求解公式（10）匹配多视图聚类标签。05: 通过最小化公式（11）微调 W Q ， { θ m } M m =1。06: 通过公式（12）计算语义标签。0输出：标签预测器 {{ θ m } M m =1 , W Q}；高级特征提取器 {{ θ m } M m =1 , W H }。0然后通过公式（7）进行多视图对比学习，以实现共同的语义和聚类一致性。在进行多视图对比学习后，通过公式（10）中的最大匹配公式修改从高级特征中获得的聚类标签。然后使用修改后的聚类标签通过公式（11）对模型进行微调。高级特征提取器包括编码器和特征MLP，而标签预测器包括编码器和标签MLP。04. 实验04.1. 实验设置0数据集 #样本 #视图 #类别0MNIST-USPS 5,000 2 100BDGP 2,500 2 50CCV 6,773 3 200Fashion 10,000 3 100Caltech-2V 1,400 2 70Caltech-3V 1,400 3 70Caltech-4V 1,400 4 70Caltech-5V 1,400 5 70表1. 实验中数据集的信息。0数据集。实验在表1中显示的五个公共数据集上进行。MNIST-USPS [34]是一个流行的手写数字数据集，包含5,000个样本，具有两种不同风格的数字图像。BDGP [5]包含2,500个果蝇胚胎样本，每个样本由视觉和文本特征表示。Columbia Consumer Video (CCV) [15]是一个视频数据集，包含6,773个样本，属于20个类别，并提供三个视图的手工制作的词袋表示，例如STIP、SIFT和MFCC。Fashion [47]是一个关于产品的图像数据集，我们按照文献[50]的方法，将不同的三种风格视为一个产品的三个视图。Caltech [9]是一个具有多个视图的RGB图像数据集，我们基于此构建了四个数据集，以评估比较方法在视图数量方面的鲁棒性。具体来说，160560数据集 MNIST-USPS BDGP CCV Fashion0评估指标 ACC NMI PUR ACC NMI PUR ACC NMI PUR ACC NMI PUR0RMSL [18] (2019) 0.424 0.318 0.428 0.849 0.630 0.849 0.215 0.157 0.243 0.408 0.405 0.421 MVC-LFA [41] (2019) 0.7680.675 0.768 0.564 0.395 0.612 0.232 0.195 0.261 0.791 0.759 0.794 COMIC [34] (2019) 0.482 0.709 0.531 0.578 0.6420.639 0.157 0.081 0.157 0.578 0.642 0.608 CDIMC-net [44] (2020) 0.620 0.676 0.647 0.884 0.799 0.885 0.201 0.171 0.2180.776 0.809 0.789 EAMC [59] (2020) 0.735 0.837 0.778 0.681 0.480 0.697 0.263 0.267 0.274 0.614 0.608 0.638IMVTSC-MVI [46] (2021) 0.669 0.592 0.717 0.981 0.950 0.982 0.117 0.060 0.158 0.632 0.648 0.635 SiMVC [39] (2021)0.981 0.962 0.981 0.704 0.545 0.723 0.151 0.125 0.216 0.825 0.839 0.825 CoMVC [39] (2021) 0.987 0.976 0.989 0.8020.670 0.803 0.296 0.286 0.297 0.857 0.864 0.8630MFLVC (我们的方法) 0.995 0.985 0.995 0.989 0.966 0.989 0.312 0.316 0.339 0.992 0.980 0.9920表2. 四个数据集上所有方法的结果。粗体表示最佳结果，下划线表示次佳结果。0数据集 Caltech-2V Caltech-3V Caltech-4V Caltech-5V0评估指标 ACC NMI PUR ACC NMI PUR ACC NMI PUR ACC NMI PUR0RMSL [18]（2019）0.525 0.474 0.540 0.554 0.480 0.554 0.596 0.551 0.608 0.354 0.340 0.391 MVC-LFA [41]（2019）0.4620.348 0.496 0.551 0.423 0.578 0.609 0.522 0.636 0.741 0.601 0.747 COMIC [34]（2019）0.422 0.446 0.535 0.447 0.4910.575 0.637 0.609 0.764 0.532 0.549 0.604 CDIMC-net [44]（2020）0.515 0.480 0.564 0.528 0.483 0.565 0.560 0.5640.617 0.727 0.692 0.742 EAMC [59]（2020）0.419 0.256 0.427 0.389 0.214 0.398 0.356 0.205 0.370 0.318 0.173 0.342IMVTSC-MVI [46]（2021）0.490 0.398 0.540 0.558 0.445 0.576 0.687 0.610 0.719 0.760 0.691 0.7850SiMVC [39]（2021）0.508 0.471 0.557 0.569 0.495 0.591 0.619 0.536 0.630 0.719 0.677 0.729 CoMVC[39]（2021）0.466 0.426 0.527 0.541 0.504 0.584 0.568 0.569 0.646 0.700 0.687 0.746 MFLVC（我们的方法）0.6060.528 0.616 0.631 0.566 0.639 0.733 0.652 0.734 0.804 0.703 0.8040表3. 在不同视图上的所有方法在Caltech上的结果。"- X V"表示有X个视图。0Caltech-2V包括WM和CENTRIST；Caltech-3V包括WM、CENTRIST和LBP；Caltech-4V包括WM、CENTRIST、LBP和GIST；Caltech-5V包括WM、CENTRIST、LBP、GIST和HOG。实现。所有数据集都被重塑为向量，并采用类似架构的全连接网络来实现我们MFLVC中所有视图的自编码器。优化采用Adam优化器[17]。MFLVC的代码由PyTorch[32]实现。更多实现细节请参见https://github.com/SubmissionsIn/MFLVC。比较方法。比较方法包括经典方法和最先进方法，即4种传统方法（RMSL[18]、MVC-LFA[41]、COMIC[34]和IMVTSC-MVI[46]）和4种深度方法（CDIMC-net[44]、EAMC[59]、SiMVC[39]和CoMVC[39]）。评估指标。聚类效果通过三个指标进行评估，即聚类准确度（ACC）、归一化互信息（NMI）和纯度（PUR）。所有方法的10次运行的平均值被报告。04.2. 结果分析0在表2中显示了四个数据集上的比较结果，其中许多比较方法（例如RMSL和COMIC）对相同特征上的多个目标进行了惩罚，而CDIMC-net、EAMC、SiMVC和CoMVC则是特征融合方法。0特征融合方法。可以发现：（1）我们的MFLVC在所有指标上都取得了最好的性能。特别是在Fashion数据集上，MFLVC在ACC方面相对于最佳比较方法CoMVC（即85%）提高了约14%。这是因为我们的模型是无融合的，它在不同的特征空间中进行重构目标和一致性目标，从而减少了视图私有信息的不利影响。（2）之前的对比MVC方法（即CoMVC）获得的改进有限。我们的MFLVC也是一种对比MVC方法，但它避免了视图私有信息的融合，其多层次特征学习框架可以更有效地使高层特征学习到所有视图的共同语义。0为了进一步验证我们的方法，我们基于Caltech构建了四个数据集，并测试了所有比较方法的性能。表3显示了在不同视图上的Caltech结果，从中我们可以得出以下观察结果：（1）大多数方法的聚类效果随着视图数量的增加而提高，即ACC从60%增加到80%。（2）与8种比较方法相比，我们的MFLVC在性能上大多数情况下表现最好，表明其鲁棒性。（3）一些方法在增加视图数量时获得了较差的结果。例如，RMSL、COMIC和EAMC在Caltech-5V上的ACC分别为35%、53%和31%，低于在Caltech-4V上的结果。(a) Epoch 0(b) Epoch 5(c) Epoch 10(d) Epoch 15(e) Epoch 0(f) Epoch 5(g) Epoch 10(h) Epoch 15(c) λ1 vs. λ2(d) τF vs. τL160570图2. 对比学习过程中低层特征（a-d）和高层特征（e-h）的可视化。0(a) 相似性 vs. 对比学习0(b) 损失 vs. 性能0图3.（a）特征对和标签对的相似性。（b）收敛性分析。（c）和（d）参数敏感性分析。0即59%，63%和35%。原因是每个视图的数据同时包含有用的公共语义和无意义的视图私有信息。视图包含大量的视图私有信息，可能增加了提取它们的公共语义的难度。这些观察结果进一步验证了我们的方法的有效性，该方法学习多层特征以减少视图私有信息的干扰。05. 模型分析05.1. 理解多层特征学习0为了研究提出的多层特征学习方法，我们以MNIST-USPS为例，可视化其训练过程。MNIST视图如图2所示，通过t-SNE[25]。可以发现在训练过程中，低层特征和高层特征的聚类结构变得清晰。低层特征的聚类不是很密集。这是因为低层特征通过重构目标保持了样本之间的多样性。相反，高层特征的聚类更密集，具有更好的低维流形。0此外，在图3（a）中，正特征对的相似性增加，而负特征对的相似性降低。这表明高层特征学习到的信息接近多个视图之间的公共语义。这些观察结果与我们的动机一致，即特征MLP可以过滤掉多个视图的视图私有信息，使输出的高层特征呈现出密集的形状。正标签对的相似性也在增加，这表明达到了语义标签的聚类一致性。0收敛性分析。很容易发现，L Z，L H，L Q和LP的目标函数，即方程（1，4，6，11）都是凸函数。如图3（b）所示，随着损失值的减小，聚类效果增强，表明MFLVC具有良好的收敛性。0参数敏感性分析。我们研究了是否需要超参数来平衡方程（7）中的损失组件，即L Z + λ 1 L H + λ 2 LQ。图3（c）显示了在10次独立运行中NMI的平均值，表明我们的模型对λ 1和λ2不敏感。这是因为我们的模型具有良好设计的多层特征学习框架，可以减少不同损失组件之间的干扰。LQLZLH and LPACCNMIACCNMI(A)✓0.6760.7770.7150.663(B)✓✓0.8910.9390.8250.690(C)✓✓0.9840.9620.9550.886(D)✓✓✓0.9950.9850.9890.966MNIST-USPSBDGPACCNMIACCNMI(a)X − Q✓0.6760.7770.7150.663(b)X − Z✓ − Q✓0.9210.8600.6520.498(c)XZHQ0.9480.8940.7420.654160580组件 MNIST-USPS BDGP0表4. 损失组件的消融研究。0（d）X - Z × - H � - Q � 0.995 0.985 0.989 0.9660表5. 对比学习结构的消融研究。“�”表示在特征上优化对比损失。0特征可以减少。在本文中，我们为所有使用的数据集设置λ1= 1.0和λ2 =1.0。此外，多视图对比学习包括两个温度参数，即公式（3）中特征对比损失的τF和公式（5）中标签对比损失的τL。图3（d）表明我们的模型对τF和τL的选择不敏感。根据经验，我们设置τF = 0.5和τL = 1.0。05.2. 消融研究0损失组成部分。我们对公式（7）和公式（11）中的损失组成部分进行了消融研究，以研究它们的有效性。表4显示了不同的损失组成部分和相应的实验结果。（A）LQ被优化以实现多视图聚类的基本目标，即学习聚类一致性。（B）LZ被优化以使低级特征能够重构多个视图。（C）LH被优化以学习高级特征，然后通过LP对语义标签进行微调。（D）我们方法的完整损失组成部分。从结果来看，（B）和（D）的性能优于（A）和（C），分别表明重构目标的重要性。特别是当模型只具有低级特征时，MNIST-USPS和BDGP上（B）的结果分别比（A）好约20％和10％。根据（C）和（D），我们可以发现学习到的高级特征在提高聚类效果方面起着最重要的作用。例如，MNIST-USPS和BDGP上（C）的结果分别比（A）好约30％和20％。对比学习结构。为了进一步验证我们的提议，我们在不同的网络结构上进行对比学习（即一致性目标）。如表5所示，（a）语义标签Q直接从输入特征X中学习。这种结构与[29, 40, 58]类似。0在一定程度上。直接将对比学习扩展到多视图场景会导致性能较差。（b）在X和Q之间，我们设置低级特征Z并对Q和Z进行对比学习。这种结构在某种程度上与[19, 21,39]类似，性能也受到限制。（c）基于Z，我们堆叠一个特征MLP来获得高级特征H，并对Z、H和Q进行对比学习。对于（b）和（c），也对Z执行重构目标。（b）和（c）在MNIST-USPS上取得了进展，因为MNIST-USPS的两个视图都是数字图像，它们几乎没有私有信息来影响学习性能。然而，在BDGP上，（b）和（c）无法很好地挖掘共同语义。原因是BDGP的两个视图是视觉特征和文本特征，它们具有很多私有信息。在相同的特征（即Z）上执行重构和一致性目标会导致性能较差。（d）我们仅在H和Q上执行对比学习，而在Z上保留重构目标。通过在不同的特征空间中执行一致性和重构目标，这种设置获得了最佳性能。这些实验证实了我们方法的有效性，并确认通过多级特征学习结构学习表示是有用的。06. 结论0在本文中，我们提出了一种用于对比多视图聚类的多级特征学习新框架。对于每个视图，所提出的框架以无融合的方式学习多个级别的特征，包括低级特征、高级特征和语义标签。这使得我们的模型能够学习所有视图之间的共同语义并减少视图私有信息的不利影响。对五个公共数据集的大量实验证明我们的方法获得了最先进的性能。0更广泛的影响.提出的框架学习了一个高级特征提取器和一个标签预测器,可以应用于下游任务, 如特征压缩,无监督标记和跨模态检索等. 但是,这项工作旨在提供一个通用框架,训练的模型可能受到数据固有偏差的影响,特别是在存在脏数据的情况下. 因此,未来的工作可以将我们的框架扩展到其他应用场景中.0致谢0这项工作得到了中国国家自然科学基金(编号61806043和编号61876046)和中国广西“百贵”创新与研究团队的部分支持. Lifang He得到了Lehigh的加速资助(编号S00010293).160590参考文献0[1] Mahdi Abavisani和Vishal M Patel.深度多模态子空间聚类网络. IEEE选定信号处理期刊,12(6):1601-1614, 2018. 10[2] Humam Alwassel, Dhruv Mahajan, Bruno Korbar, LorenzoTorresani, Bernard Ghanem和Du Tran.通过跨模态音频-视频聚类进行自监督学习. 在NeurIPS中,页9758-9770, 2019. 10[3] Yuki M Asano, Mandela Patrick, ChristianRupprecht和Andrea Vedaldi.用多模态自监督从头开始标记未

下载后可阅读完整内容，剩余1页未读，立即下载