端到端对抗注意力网络多模式聚类算法

71 浏览量更新于2023-10-24 收藏 866KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14619端到端对抗注意力网络多模式聚类算法周润武1，2沈毅东11中国科学院软件研究所计算机科学国家重点实验室2中国科学院大学，北京100049@ios.ac.cn摘要多模态聚类旨在通过探索来自多模态或视图的互补信息将数据聚类到不同的组中很少的工作学习多个模态的深度融合表示，并同时发现具有区分性损失的聚类结构本文提出了一个端到端的对抗注意力多模态聚类网络（EAMC），利用对抗学习和注意力机制分别调整潜在特征分布和量化模态的重要性。为了从联合训练中受益，我们引入了一个基于发散的聚类对象，它不仅鼓励聚类的分离和紧凑性，而且通过将输出空间的单纯形几何嵌入到损失中来享受清晰的聚类结构。该网络由模态特征学习、模态融合和聚类分配三个模块组成它可以通过基于批处理模式的优化从头开始训练，避免了自动编码器的预训练阶段.在5个真实数据集上的综合实验表明了该方法的优越性和有效性。1. 介绍随着数据采集技术的发展，多模态或视图数据已经成为现实应用中数据资源例如，在视觉数据中，图像可以由不同的描述符表示，例如SIFT、HoG和LBP，并且视频包含音频信号和视觉信号;在网络新闻中，消息可以由图片和文本传递。虽然每种模态都有其自身的信息和统计特性，但不同的模态通常具有相同的聚类结构。使用多模态数据来学习结构化分区的基本原理是，它们可以借助复杂的*通讯作者从模式中获取信息[33]。最近，多模态聚类在机器学习和计算机视觉社区中获得了重要的动力[3，47]。一个简单的方法来分组这种数据是首先将它们连接成单模态数据，然后诉诸于单模态聚类方法。然而，这种方法并不能保证良好的性能，甚至获得更差的结果。因此，主流的研究是学习低维的潜在表征，以便在潜在空间中达到模态的相互一致。最近，已经提出了各种多模态聚类方法，包括基于CCA的方法[7，39]，基于矩阵分解的方法[5，42，37]，基于子空间学习的方法[44，45，48]和基于图模型的方法[32，34]。虽然这些方法已经取得了可喜的成果，他们是非常有限的，由于使用浅和线性嵌入函数，这是不能够捕捉复杂数据的非线性性质。为了解决这个问题，已经提出了一些基于多核学习的方法[11，27]然而，选择合适的核函数是很困难的.随着深度神经网络（DNN）模型的快速发展，这些模型能够在单模态场景中捕获复杂特征，例如图像聚类，DNN越来越多地被用于多模态聚类任务。现有的基于DNN的多模态聚类方法分为两类。第一类把多模态特征学习和聚类分配看作是两个独立的过程.该分支的代表性方法是DCCA [2]和DMSC [1]。DCCA首先通过CCA最大化两个视图的投影深度特征之间的相关性，然后进行后续的K-means聚类。DMSC采用卷积神经网络进行多模态子空间学习，然后基于学习的亲和图进行谱聚类。这种两步学习策略可能会断开特征学习和聚类分配的密切相关的过程。直接影响是学习的表示不能友好地适应预定义的聚类算法。为了缩小这一差距，另一类将这两个过程统一为联合优化，14620化步骤。DAMC [25]简化了这一工作。它的工作原理是预训练多视图自动编码器，然后联合优化共识聚类质心、自动编码器网络和对抗网络。虽然DAMC取得了令人满意的成绩，但仍面临一些问题。一方面，它对每一个模态都一视同仁，而不考虑模态之间的质量差异，这使得它很难获得用于聚类的最佳潜在表示。另一方面，该方法中的聚类损失过度依赖于预处理阶段的良好初始化。此外，这种损失难以确保清晰的聚类结构，因为边缘样本被削弱，因此可能不会走向正确的聚类。总的来说，这条研究线处于起步阶段，至少有两个关键问题正在探索中：（1）如何学习跨多模态的(2)什么样的损失函数适合训练深度神经网络进行多模态聚类分析？本文提出了一种端到端的对抗性注意力多模态聚类（EAMC）方法，该方法将多模态特征学习、模态融合以及聚类分析统一到一个联合过程中。所提出的方法建立在对抗学习[14]、注意力机制[8]以及信息理论分歧度量[17]的概念上。具体来说，我们提出通过引入对抗正则化子来对齐不同模态的潜在特征分布。通过对抗过程，可以更有效地实现潜在空间中的模态不变性。我们认为，更好地对齐的模态分布有助于后续的融合，特别是当融合的特征是通过加权平均的潜在特征。此外，我们提出了量化的重要性，不同的形式，通过引入注意力层，自适应地分配权重，为每一个模态。此外，我们引入了一个基于发散度的聚类损失来指导网络的训练.我们明确定义的聚类损失鼓励类之间的此外，将softmax函数引入输出空间的精确几何性质嵌入到Cauchy-Schwartz散度中，避免了聚类划分的退化结构.还值得一提的是，与现有的深度多模态聚类方法相比，所提出的聚类模型可以从头开始训练，而无需基于自动编码器的预训练。图1显示了建议的网络架构的概述。通常，所提出的方法包括三个主要部分，即，模态特定特征学习、模态融合和聚类分配。模态特征学习用于在低维潜在空间中估计数据的相似性，充当特征编码器（或生成器）以揭示数据的非线性。模态融合由模态对齐和模态感知模块组成。具体地说，在模态对齐模块中，一组识别器和生成器之间进行最小-最大博弈来引导特征分布学习。同时，模态感知模块中部署了三个全连接层和一个sigmoid层来学习模态的权值。最后，增加了由两个全连接层和一个softmax层组成的簇分配层，以定义的损失进行网络训练。综上所述，多模态集群社区的主要贡献如下：• 一种深度端到端的多模态聚类方法，它结合了特定模态的特征学习，提出了一种将聚类和聚类分配合并为一个联合优化过程的方法。此外，首次将对抗学习和注意机制引入到模态融合过程中。• 定义了一种新的判别聚类损失来指导网络训练。这种损失明确鼓励集群的分离和紧凑性，并意味着-同时通过嵌入单纯形几何来确保清晰的簇结构• 在5个数据集上的实验结果表明了该方法的有效性和优越性。2. 相关作品在多模态聚类问题上有着重要的研究成果。从表示学习的角度来看，现有的多模态聚类方法可以分为两类，即，传统和深层的方法。传统的多模态聚类方法大致可以分为五个流。第一个流中的方法使用非负矩阵分解技术来寻找多模态数据中的共同潜在因子[46，42]。例如，Cai et al.[5]将多模态聚类公式化为具有跨不同模态的共享聚类指示矩阵的约束矩阵分解问题。第二种流中的方法采用自我表征的方式来表征样本之间的关系最近的一项工作[28]提出了同时学习一个共享的一致表示和一组用于多模态子空间聚类的视图特定表示。第三流中的方法利用降维技术首先学习低维子空间，然后进行现有的聚类算法得到结果[4，7]。对于这一分支，典型相关分析（CCA）[7]是多模态聚类的代表性方法，该方法将多模态高维数据投影到低维子空间中。14621D我我最大化相关性。第四流中的方法利用图模型进行多模态聚类[32，34]。这条线的基本思想是找到跨多个模态的一致性图，然后使用图切割算法，例如，谱聚类，在一致性图上得到聚类结果。上述方法的局限性在于它们使用的是浅的线性嵌入函数，不能反映复杂数据的非线性性质。最后一个流中的方法得到了内核技巧的支持来解决这个问题[13，24，40，11，27]。通常是一些预定义的内核函数，例如。高斯核，需要处理不同的模态。然后，这些核函数被线性或非线性地组合，以达到共识核。这个流的难点在于核函数的选择。深度神经网络越来越多地被利用架构，然后描述定义的损失函数。3.1. 网络架构所提出的网络架构包括模态特定特征学习、模态融合和聚类分配，如图1所示。(A) 模态特定特征学习多模态数据的不同统计特性表明，在数据空间中融合不同模态是相当困难的。鉴于此，我们设计了一个特定于模态的特征学习模块，将数据转换到低维的潜在空间。该模块执行特征学习的主要任务它还有一个目的是混淆判别器，我们将在后面讨论。具体来说，对于第v个模态，我们首先将相应的潜在特征编码为Hv=Ev（Xv;θv），其中Ev（. ）指的是在多模态聚类问题中，由于强大特征，转化能力。在早期阶段，Ngiam et al.[30]采用深度自动编码器网络架构来学习多模态数据的常见表示，并实现了第v个然后基于在Hv上，我们可以估计数据度量，例如，潜在空间中数据的高斯度量。形式上，它可以写成KV =exp（−||hv−hv||2/2σ2）。这里，hv表示i-我的天在言语和视觉任务中表现出色再见，安-Drew等人[2]提出了CCA的深度扩展（DCCA），以通过基于提取的深度特征最大化与CCA的相关性来学习公共表示最近，Wang et al.[39]通过合并DCCA和自动编码器开发了一种新的CCA变体。后来，Abavisani等人。[1]引入了深度多模态子空间聚类网络，以找到所有模态之间的共享亲和力。上述深度模型的缺点是特征学习和聚类这两个密切相关的任务是不相关的。为了使这两个任务相互受益，Li et al.[25]提出了一种用于多模态聚类的联合学习框架（DAMC），并实现了当前最先进的性能。本文提出的方法属于联合学习方法的范畴。一方面，我们的方法受到传统多模态聚类方法中的思想的启发，特别是关于权重学习方面[31，43，38]，已经发现这对聚类结果非常有影响。另一方面，我们的方法也受到了对抗学习在许多任务中的成功的启发，例如跨模态检索[36]，域适应[9]。此外，我们的方法特别受到单模态数据基于发散聚类的优越性的启发[17，20，35]。3. 该方法Hv的第n列（即，第i个样本），σ表示带宽。请注意，我们用随机i.i.d高斯权重约束编码器网络以避免数据的退化矩阵结构，这与现有的利用解码器网络的深度多模态聚类方法不同。这种设计选择从神经网络理论的最新先进工作中汲取灵感[12]。结果表明，当数据的内在维数与网络宽度成在实验中，这是可以满足的，因为[12]证明了数据的内在维度不会随着数据在网络中的传播而增加。(B) 模态融合模态融合模块用于融合不同模态的多种信息进行综合评价。在我们的模型中，该模块由模态对齐和模态感知子模块组成。模态对齐子模块用于对齐模态的潜在特征分布。它由V-1鉴别器组成具体地说，以第一模态为锚，我们在第一模态和第二模态之间分配一个锚。其中一个两两配对。对于每个潜在特征Hv（v = 2，3，...， V）从分布pv中得出，由θ v参数化的判别器D v旨在验证是否考虑对一组n个数据点进行聚类的问题它的实数据h1∈H1和虚数据h∈v∈Hv属于由V模态D ={X1，. Xv，. XV}分成c个聚类，其中Xv∈ Rdv×n表示来自第v个模态的维度d v的样本。我们建立一个终点-到端的对抗性注意力聚类网络，使之。在下文中，我们首先介绍所提出的网络相同的分布。在这个过程中，以交替的方式优化编码器网络Dv，以解决对抗性最小-最大问题[14]。通过这种方式，神经网络可以引导编码器网络学习相同的潜在特征分布。注意14622融合特征聚类层融合Mul重量Attention层Mul对抗性vFΣvΣθθ模式X核矩阵模态Y模态特定层潜在特征图1.所提出的EAMC网络的图示（这里我们以两种模态X和Y为例）。EAMC由模态特征学习模块、模态融合模块（模态对齐和模态感知）和聚类分配模块组成。特定模态特征学习是指学习数据的非线性特性，在潜在空间中估计数据的相似性。模态融合模块的目标是对齐特征分布，量化模态的重要性。最后，一个聚类分配层被应用到指导网络训练的歧视性损失。考虑所有可能的组合（最多2V）将大大增加网络训练的负担。引入模态感知子模块来学习不同模态的权重，其输入是级联特征h，其输出是V维向量w。一般来说，它由三个全连接层和一个softmax层组成。我们用以下公式描述3.2. 损失函数1) 融合损失。在我们的模型中，在生成器（编码器）和鉴别器之间进行最小-最大游戏，以将特征分布学习转向第一模态。用于此目的的相应优化目标可以表示为：VL=最小最大ΔE1[logD（h1）]+AdvVVe dv=2hp1vh=[h 1，h 2，...， h V]，（1）act =FC（h），（2）e =Softmax（ sigmoid（act）/τ），（3）w=平均值（e，dim=0）（4）Ehvp[log（1−Dv（hv））]（5）更重要的是其中[·]表示级联运算符;FC（·）表示3个完全连接的层;τ是校准因子。Latt=||Kf−Kc||2（六）Sigmoid函数与校准因子一起可以被视为一种技巧，以避免将接近一个分数分配给最相关的模态。为了简单起见，该模块中的参数表示为θa。此时，我们可以得到其中Kf是基于具有高斯核的融合特征计算的，并且Kc=wvKv。的额外影响（6）在度量层次上进一步考虑权重使得融合结果更加可靠。2) 群集损失。为了学好分区v进入分簇层，得到软分簇分配。(C) 簇指派为了从联合学习方法中受益，我们在网络中部署了一个由θc聚类层堆叠在融合层的顶部，融合层由两个全连接层和一个softmax层组成。softmax层输出软簇成员资格矩阵A= [αqi]，其中元素αqi∈（0，1）表示数据点q到聚类C岛然后，我们使用定义的损失来指导网络训练。鉴别器样本与公式：hf=wvhv. 然后，结构，最近的进展[25，41]通常使用Kullback-14623Leibler（KL）发散的损失，以指导聚类过程。它通过强调以高置信度分配的数据点来工作。这样的方法由于忽略了边缘样本而不必强制执行聚类紧性。在本节中，我们引入了一种新的基于Cauchy-Schwarz散度的聚类损失来解决这个问题。引入的聚类损失鼓励簇之间的分离和簇内的紧凑性同时，在优化过程中还明确地利用了输出空间的14624k−1DΣΣ我ev v11Dv1vΣΣ我SIMK不不b bbIjem1Here we firstly recap the definition of multiple-pdf gen-eralization of the Cauchy-Schwartz (CS)divergence[17]:所提出的EAMC通过交替优化以下过程来进行.Σ ΣΣ（θv，θ，θ）= argmin（L+Le-γL）（12）1Dsc=−logkehEhpi（pj（h））（p（h））E（p（h））eaCCθv，θa，θ cattAdvi=1j>i我ihpjj（七）θ=argmax（Lcvd+Latt -γLAdv）（13）其中k是分布的数目，pi和pj分别表示聚类Ci和Cj的概率密度函数（pdf）。一个大的分歧将导致良好的分离和紧凑的集群。根据数据驱动的方法[20]，最大化（7）实际上相当于最小化以下公式：算法1优化EAMC的伪代码初始化：批量多模态数据（大小为m）Db={X1，X2，...， XV} ∈ D;超参数γ和t;使用随机i.i.d高斯权重初始化编码器网络，以保持度量结构[12];k−11Dsc=i=1j>iαTKαj.αT KαiαTKαj（八）更新直至收敛：1：对于t步，2：更新参数θv、θa和θc（v = 1，2，...， V）通过降低它们的随机梯度：其中K是基于高斯核的数据度量矩阵矢量α1，α2，.， αk表示硬簇分配矩阵A∈Rn×k的列。在我们的体系结构中，我们将硬成员关系放松到软成员关系，以预-损失的可微性此外，为了避免退化的聚类分区，我们利用输出空间属性，即，Rk中的单形，3：θe<$θe-η·θv （ Lc+Latt−γLadv ） 4 ：θa<$θa-η·θam （Lc+Latt−γLadv ） 5 ：θc<$θc-η·θcm（Lc+Latt−γLadv）6：结束7：通过递增更新θv其随机梯度：8：θ←θ+η·v（L+L−γL）由softmax激活引起，以加强接近性d dθdmcattAdv的输出到一个角落的单纯形。具体地，我们通过以下形式将该几何结构集成到CS散度中9：返回集群分配矩阵A;4. 实验k−1D=1i=1j>iβTKβjβiKβiβjKβj（九）4.1. 实验装置DatasetsNUS-WIDE-C5（NWC）：一个图像-文本数据集，其中β i，β j是矩阵B = [ β qi ]的第i，第j列，其中βqi=exp（-||α q−ei||）的情况。这里ei表示单形的第i个角点通过这种方式，集群分配-元素向量将以不同的单纯形角为中心进行压缩。在实验中，K被替换为Kf。最后，我们希望聚类在n维观测空间中是正交的. 从数学上讲，它可以是配制为Dreg=triu（ATA）（10）其中triu（·）表示其辐角的严格上三角形元素之和现在，我们可以将总聚类损失写为Lc=Dsc+Dsim+Dreg（11）3.3. 优化培训算法中给出了详细的优化步骤1.一、从对抗优化的角度来看，θK.146255类4，000个对象（鸟，食物，太阳，塔，玩具）。每个类有800个对象，通过500维视觉码字向量和1000维注释向量。SentencesNYUv 2（RGB-D）：数据集包括1，449张图像，其中包含13个室内场景。每个图像都配有一段描述图像内容的标题。我们使用在ImageNet上预训练的ResNet-50来提取2048个维度的图像特征，使用在Wikipedia上通过skip-gram预训练的doc 2 vec来提取300个维度的文本特征。Pascal VOC：数据集包含9，963个图像-文本对，20个类。每个图像表示为512维的Gist特征向量，每个文本表示为399维的词频计数。我们挑选了5,649张只有一个物体的图像，我们的实验哥伦比亚消费者视频（CCV）：数据集包含9，317个YouTube视频，具有20个不同的语义类别。我们使用[18]提供的CCV子集（6773个视频），以及三个手工制作的功能：STIP特征采用5，000维词袋（BoW）表示，SIFT特征每两个14626秒，具有5，000维BoW表示，以及具有4，000维BoW表示的MFCC特征。MNIST：一个包含70，000个28×28像素样本的大规模手写数字数据集。第一种视图是原始灰度图像，另一种视图是给定的图像only highlighting the digit edge.表1提供了每个数据集的简要说明。数据集类型#样本#modal#类NWC图文4,00025RGB-D图文1,449213VOC图文5,649220CCV视频6,773320MNIST数字70,000210表1. 数据集描述评估矩阵聚类性能使用两个标准评估矩阵来测量，即，准确度（ACC）和归一化互信息（NMI）。对于这两个指标，值越高表示性能越好。有关这两个指标的更多详细信息请参见[22]。实施细节建议的网络架构是用PyTorch平台训练的。为了给真实数据集提供一种实用的方法，我们使用了一种通用的EAMC架构。对于所有类型的数据，我们首先将其转换为矢量表示，然后将其输入网络。在实验中，我们使用Adam求解器[21]，批量大小为100。训练是以编码器和判别器网络的学习率10- 3，注意力层的学习率10- 4和聚类层的学习率10- 5进行的对于每次迭代，我们重新排列小批的排序。网络的权重初始化如下[15]。核宽度σ设置为[16]之后每个批次内潜在代表之间的成对距离中位数的15%为了提高模型由于无监督的深度模型很容易陷入局部最小值，我们运行了20次EAMC，并报告了具有最低聚类损失的运行的准确性。为了评估我们的方法的性能，我们将其与以下方法进行比较：(A) 谱聚类（SC）。标准频谱聚类算法[29]对每个模态和级联模态进行。(B) 传统方法。1)RMKMC：鲁棒多视图k均值聚类（RMKMC）[5]在多个视图中搜索一致的聚类指标;2 ） tRLMvc ：基于张量的表示学习多视图聚类（tRLMvc）[10]将自表达张量学习和低维表示学习结合在一起，以捕获隐藏在多视图数据中的本质结构;3 ） CSMCS ：一致和特定的多视图子空间聚类（CSMCS）[28]制定了多视图使用共享一致表示和一组特定表示的自我表示属性;4）WMSC：加权多视图谱聚类（WMSC）[49]采用谱扰动理论来建模模态的权重; 5）MCGC：多视图消费图聚类（MCGC）[19]学习共识图，最大限度地减少不同视图之间的分歧，并限制拉普拉斯矩阵(C) 深层方法1)DCCA：深度正则化分析（DCCA）[2]学习两个视图的非线性变换，使得提取的特征高度线性相关 ; 2 ） DMSC ：深度多模态子空间聚类（DMSC）[1]提出了用于无监督多模态子空间聚类的基于卷积神经网络的方法; 3）DAMC：深度对抗多视图聚类（DAMC）[25]采用深度自动编码器来学习多个视图共享的潜在表示，同时利用对抗训练来进一步捕获数据分布。实验中采用了每种比较方法的默认参数。对于所有这些比较的方法，我们运行每个方法10次，并报告平均性能。对于后处理方法（ CSMCS ， tRLMvc ，WMSC，DCCA和DMSC），我们运行K-means聚类20次，并以最小损失报告结果。由于基于CCA的方法（CCA和DCCA）只能处理两种模态，因此我们根据它们的性能在CCV数据集上选择最好的两种模态。4.2. 绩效评价与基线比较实验结果如表2所示。可以看出，包括传统方法和深度方法在内的多模态聚类方法的聚类结果显著优于单模态（仅基于一个或级联模态）的聚类结果，这证明了融合多模态信息进行聚类的必要性。与传统的五种聚类方法相比，EAMC的聚类效果明显优于它们.例如，在NWC上，我们的模型分别增长了（ 94.5- 87.3 ） 7.2% ，（ 93.7-86.2 ） 7.5% 和（ 95.2-87.6）7.6%，就ACC、NMI和纯度而言，是第二好的方法。这背后的关键原因是，传统的方法受到了很大的限制，使用浅和线性嵌入函数，这是不能够捕捉到现实世界中的数据的复杂属性此外，与深层模型相比，我们的模型也显示出明显的优势。特别是，我们的方法优于联合学习方法DAMC，在所有四个数据集上都有明显的改进。我们将这一成功归功于模态之间的特征分布对齐和权重学习。大规模数据集上的聚类为了证明我们的模型在大规模数据集上的适用性，我们在MNIST数据集上进行了实验。所比较的14627V数据集NWCRGB-DVOCCCV度量ACCNMI纯度ACCNMI纯度ACCNMI纯度ACCNMI纯度SC（1）0.7120.7680.7470.3340.2970.3470.3840.3920.3790.1020.0050.104SC（2）0.6470.6890.6990.2970.3050.3260.4020.4110.3950.1880.1730.213SC（3）---------0.1130.0080.109SC（con）0.6520.6730.6860.3120.2860.3200.3720.3870.3820.0930.0740.102RMKMC0.7840.7930.7910.3790.3980.3970.4580.4690.4730.1760.1650.186tRLMvc0.8730.8490.8690.4450.4390.4600.5340.5470.5560.2120.2260.231CSMCS0.8240.8130.8290.3920.4140.4260.4880.4960.5170.1940.1860.198WMSC0.7980.7870.8160.4080.4250.4200.4710.4620.4770.2050.1960.208MCGC0.8530.8620.8760.4380.4470.4530.5270.5460.5390.2240.2160.240DCCA0.7840.7980.8090.3550.3620.3740.3970.4250.4330.1730.1820.186DMSC0.8770.8640.8760.4190.4260.4330.5410.5380.5660.1830.1940.196DAMC0.8910.9140.9160.4630.4750.4810.5600.5520.5830.2430.2310.264EAMC0.9450.9370.9520.4970.4990.5110.6070.6150.6280.2610.2660.271表2. NWC、RGB-D、VOC和CCV数据集的聚类结果。方法包括三个深基线模型，即，DCCA、DMSC和DAMC。其他方法由于其优化方法和有限的内存而无法在此数据集上扩展。受益于架构设计和损失函数，我们的模型能够支持基于批处理模式的优化，从而很容易地解决大规模的多模式聚类问题。如表3所示，EAMC在ACC和NMI中明显优于其他深度模型，这验证了所提出的模型在大规模数据集上的有效性。模型ACCNMI纯度DCCA0.4760.4430.492DMSC0.6530.6140.644DAMC0.6460.5940.657EAMC0.6680.6280.651表3. 大规模MNIST数据集上的聚类结果。4.3. 进一步评价成分研究我们训练了三个变量来检查对抗性和注意力成分的影响：（1）EAMC att表示通过去除EAMC中的对抗模块而获得的网络：（2）EAMC adv表示去掉EAMC中的注意模块后得到的网络;（3）EAMC none表示去掉EAMC中的对抗和注意模块后得到的网络。在移除注意力层之后，我们将相等的权重（即，wv=1）。表4显示了NWC数据集上的实验结果。在此可以提出以下一些重要的意见。首先，可以看出，EAMCatt和EAMCadv的性能明显优于EAMCnone此外，EAMC与三种变型相比，进一步提高了性能这些结果表明，对抗性和注意力组件是多媒体技术的关键技术选择模态聚类模型ACCNMI纯度EAMCatt0.9210.9170.932EAMCadv0.9080.8960.903EAMC无0.8710.8840.892EAMC0.9450.9370.952表4. NWC数据集的成分研究。损失分析我们通过实证分析聚类损失来评估不同术语的影响。表5报告了NWC和RGB-D数据集的准确度结果。首先，可以清楚地观察到，将项Dsc与Dsim组合大大提高了性能。此外，通过一起使用三个项，可以进一步提高性能。损失NWCRGB-DDSC0.8360.364Dsim0.8520.379Dsc+ Dsim0.9180.437Dsc+ Dreg0.8770.426Dsim+ Dreg0.8980.412Dsc+ Dsim+Dreg0.9450.497表5. NWC和RGB-D数据集不同的模态通常对最终的聚类结果有不同的贡献。为了清楚地看到这一事实，我们在表6中报告了权重得分。例如，在NWC上，标注向量的权值大于码字向量的权值，这反映了标注向量的模态性能够为聚类提供更多有用的信息。在MNIST数据集上，EAMC认为边缘模态在聚类中起着更重要的作用。在其余三个数据集中可以观察到类似的现象。表6中的结果与14628图2.每个模态的原始像素特征的可视化以及通过MNIST数据集上（a）第一模态的原始数字图像特征，（b）第二模态的边缘图像，（c）DMSC，（d）DAMC，以及（e）EAMC。图3.在MNIST数据集上的潜在特征上计算的核矩阵的可视化。从左到右，（a）边缘模态的核矩阵，（b）数字模态的核矩阵，（c）融合表示的核矩阵不同的模态通常对聚类结果具有不同的数据集模态-1模态-2模态-3关系NWC0.4380.562-2> 1RGB-D0.4670.533-2> 1VOC0.4830.517-2> 1CCV0.2570.3840.3592> 3> 1MNIST0.4770.523-2> 1表6.不同模态在五个数据集上聚类的权重得分符号可视化为了进一步评估所提出的模型相对于其他深度模型的优势，我们提供了MNIST数据集上聚类层潜在特征的t-SNE可视化。两个深度模型，即，选择DMSC和我们随机挑选2,000个样本，并可视化融合表示的二维嵌入特征。可视化结果如图2所示。很明显，EAMC给出了一个更清晰和紧凑的集群结构比基线模型。此外，我们还提供了一个可视化的内核矩阵计算的潜在表示。从图3中可以看出，融合表示的核矩阵反映了与其中在相应的潜在空间上计算边缘和数字模态的核矩阵。5. 结论在本文中，我们提出了一个端到端的对抗性注意力网络多模式聚类（EAMC）。该方法利用对抗性学习和注意力机制分别对齐潜在特征分布和量化模态的重要性。此外，引入区分性聚类损失，不仅鼓励聚类的分离和紧凑性，而且还享有清晰的聚类结构，以支持端到端的训练。所提出的网络由模态特定的特征学习，模态融合和聚类分配三个模块组成，可以从头开始训练，而无需额外的初始化组件。在5个真实数据集上的实验结果表明了该方法的优越性和有效性。鸣谢本研究得到国家973计划2014CB340301和国家自然科学基金资助6197023605的部分支持。14629引用[1] Mahdi Abavisani和Vishal M Patel。深度多模态子空间聚类网络。 IEEE Journal of Selected Topics in SignalProcessing，12（6）：1601[2] Galen Andrew，Raman Arora，Jeff Bilmes，and KarenLivescu.深度典型相关分析。在机器学习国际会议上，第1247-1255页，2013年。[3] 塔达斯·巴尔特鲁斯·艾提斯、柴坦尼亚·阿胡贾和路易斯-菲利普·莫伦西。多模态机器学习：一项调查和税收经济学。 IEEE Transactions on Pattern Analysis andMachine Intelligence，41（2）：423[4] Matthew B Blaschko和Christoph H Lampert。相关谱聚类。 2008 年 IEEE 计算机视觉和模式识别会议，第1IEEE，2008年。[5] 小彩，聂飞平，黄恒。大数据上的多视图k-均值聚类。在2013年第二十三届国际人工智能联合会议[6] 曹晓春、张长青、傅华珠、刘思和张华。多样性诱导的多视点子空间聚类。在IEEE计算机视觉和模式识别会议论文集，第586-594页[7] Kamalika Chaudhuri，Sham M Kakade，Karen Livescu和Karthik Sridharan。通过典型相关分析的多视图聚类。第 26届国际机器学习年会论文集，第 129-136页。ACM，2009年。[8] Liang-Jieh Chen，Yi Yang，Jiang Wang，Wei Xu，andAlan L Yuille.注意秤：尺度感知的语义图像分割。在IEEE计算机视觉和模式识别会议论文集，第3640-3649页[9] Xilun Chen ， Yu Sun ， Ben Athiwaratkun ， ClaireCardie，and Kilian Weinberger.用于跨语言情感分类的对抗深度平均网络。Transactions of the Association forComputational Linguistics，6：557-570，2018。[10] Miaomiao Cheng，Liping Jing，and Michael K Ng.基于张量的低维表示学习多视图聚类。IEEE Transactions onImage Processing，28（5）：2399[11] Liang Du，Peng Zhou，Lei Shi，Hanmo Wang，MingyuFan，Wenjian Wang，and Yi-Dong Shen.基于l21范数的鲁棒多核k均值算法2015年第24届国际人工智能联合会议[12] Raja Giryes，Guillermo Sapiro，and Alex M Bronstein.具有随机高斯权重的深度神经网络：通用分类策略？IEEE Transactions on Signal Processing ， 64 （ 13 ）：3444[13] Meh m etGönen和AdamAMa r golin。核k-means聚类的局部数据融合及其在癌症生物学中的应用神经信息处理系统进展，第1305-1313页，2014年[14] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。InAdvances神经信息处理系统，第2672-2680页，2014年。[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun. 深入研究整流器：超越人类对imagenet分类的水平。在IEEE计算机视觉国际会议论文集，第1026-1034页[16] 罗伯特 · 詹森核熵分量分析。 IEEE transactions onpattern analysis and machine intelligence，32（5）：847[17] Robert Jenssen，Jose C Principe，Deniz Erdogmus，andTorbjørn Eltoft. cauchy-schwarz分歧和parzen窗口：与图论和默瑟核的联系。富兰克林研究所杂志，343（6）：614-629，2006。[18] 姜玉刚，叶光南，张世福，丹尼尔 P 。 W. Ellis 和Alexander C.路易消费者视频理解：一个基准数据库和对人类和机器性能的评估。 ACMInternationalConference on Multimedia Retrieval，2011。[19] Zhan K，Nie F，Wang J，and Yang Y.多视图共识图聚类。 IEEEtransactionsonimageprocessing ： apublication of the IEEE Signal Processing Society，2019.[20] Michael Kampffmeyer ， FM Bianchi ， L Livi ， A-BSalberg，R Jenssen，et al.基于深度发散的聚类。2017年IEEE第27届信号处理机器学习国际研讨会（MLSP），第1-6页[21] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[22] Abhishek Kumar，Piyush Rai，and Hal Daume.共正则化多视图谱聚类。神经信息处理系统的进展，第1413-1421页，2011年。[23] Chen-Yu Lee ， Saining Xie ， Patrick Gallagher ，Zhengyou Zhang，and Zhuowen Tu.深度监督网络。人工智能和统计，第562-570页[24] Miaomiao Li，Xinwang Liu，Lei Wang，Yong Dou，Jianping Yin，and En Zhu.多核聚类与局部核对齐最大化。2016年。[25] Zhaoyang Li，Qianqian Wang，Zhiqiang Tao，QuansueGao，and Zhaohua Yang.深度对抗性多视图聚类。在IJCAI，第2952-2958页[26] Guangcan Liu ， Zhouchen Lin ， Shuicheng Yan ， JuSun，Yong Yu，and Yi Ma.基于低秩表示的子空间结构鲁棒恢复。 IEEE transactions on pattern analysis andmachine intelligence，35（1）：171[27] Xinwang Liu，Yong Dou，Jianping Yin，Lei Wang，andEn Zhu

下载后可阅读完整内容，剩余1页未读，立即下载