多模态数据表示学习中的TupleInfoNCE方法

103 浏览量更新于2023-10-14 收藏 985KB PDF 举报

对比学习

自监督学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

754基于TupleInfoNCE的刘云泽1、7范庆南3张上航4董浩5、6、8托马斯·芬克豪瑟2李毅1、21清华大学IIIS2谷歌研究院3斯坦福大学4UC Berkeley5 CFCS，CS Dept.，北京大学6AIIT、北京大学7西安电子科技大学8鹏程实验室摘要提出了一种基于对比损失的多模态数据表示学习方法传统的方法是对比不同的模态来学习它们之间共享的然而，这种方法可能无法学习可能对下游任务有用的模式之间的互补协同作用。另一种方法是将所有模态连接成元组，然后对比正元组和负元组对应。然而，这种做法可能只考虑较强的模式，而忽略较弱的模式。为了解决这些问题，我们提出了一个新的对比学习目标，TupleInfoNCE。它不仅基于正对应和负对应来对比元组，而且还通过使用描述不同场景的模态来组成新的负元组来对比元组。使用这些附加否定项进行训练鼓励学习模型检查同一元组中的模态之间的对应关系，确保不忽略弱模态。我们提供了一个基于互信息的理论解释，解释了为什么这种方法有效，我们提出了一个样本优化算法来生成正样本和负样本，以最大限度地提高训练效率。我们发现TupleInfoNCE在三个不同的下游任务上显著优于以前的技术水平。1. 介绍人类对世界的感知自然是多模态的。我们所看到的、听到的和感觉到的都包含着不同种类的信息。各种形态相互补充、相互消解，构成了对世界的表征。我们的目标是训练机器融合这种多模态输入，以自我监督的方式产生这种表示，而无需手动注释。越来越流行的自监督表示学习范式是对比学习，其通过优化对比损失和解决实例判别任务来学习特征表示[21，10，4]。最近元组增强超参数更新元组扩充阳性样本多模态特征编码器共享权重多模态输入锚点样品多模态特征编码器TupleInfoNCE元组干扰阴性样本共享权重多模态特征编码器无监督元组扰动超参数更新特征评估图1.示例优化的TupleInfoNCE概述一些工作已经探索了用于多模态表征学习的对比学习[28，1，18]。其中，大多数[28，1]学习跨模态嵌入空间然而，它们没有直接检查多模态的融合表示，未能充分利用多模态协同作用。为了解决这个问题，[18]提出了一个RGB-D表示学习框架来直接对比点像素对的对然而，它仅限于两种模式。而不是对比不同的数据模态，我们提出对比多模态输入元组，其中每个元组元素对应于一个模态。我们学习表示，以便描述同一场景的元组（多模态观测集）被聚集在一起，而来自不同场景的元组被分开。这比跨模态对比学习更普遍。它不仅支持提取跨模态的共享信息，还允许模态消除彼此的歧义并保持其特定信息，从而产生更好的融合表示。然而，对比元组并不像对比单个元素那样简单，特别是如果我们希望学习的表示对元组中每个元素的信息进行核心挑战是：“要对比哪个元组样本？“以前的研究人员[34，18]已经观察到，总是包含对应元素的对比元组755∼相同的场景可以收敛到惰性次优，其中网络仅依赖于最强的模态来进行场景辨别。因此，为了避免弱模态被忽略并促进模态融合，我们需要与更具挑战性的阴性样本进行此外，我们还需要优化正样本，以便对比学习可以保持正样本和锚样本之间的共享信息，同时抽象出讨厌的因素。正样本和锚样本之间的强变化通常导致较小的共享信息，但对讨厌的变量具有更大程度的不变性因此，需要适当的权衡。为了应对上述挑战，我们提出了一种名为TupleInfoNCE的新型对比学习目标（图1）。与流行的InfoNCE损失[21]不同，TupleInfoNCE被明确设计为促进多模态融合。TupleIn-foNCE利用经由增强锚点生成的正样本，并且它利用其元素不一定对应的挑战性负样本这些负样本鼓励学习模型检查输入元组中的元素之间的对应关系，确保不忽略弱模态和模态协同。为了生成这样的负样本，我们提出了一个元组干扰策略的理论基础，为什么它有帮助。TupleInfoNCE还引入了可优化的超参数来控制负样本和正样本分布。这允许通过超参数优化过程来优化样本。我们定义了关于这些超参数的奖励函数，并通过无监督特征评估来测量学习表示的质量。我们将无监督的特征评估放在一个优化循环中，更新这些超参数找到一个样本优化的TupleInfoNCE（图1）。我们在广泛的多模态融合任务上评估了TupleInfoNCE，包括NYUv 2 [26]上的多模态语义分割，SUN RGB-D [27]上的多模态对象检测以及CMU-MOSI[35]和CMU-MOSEI [36]上的多模态情感分析。我们证明了与以前最先进的多模态自监督表示学习方法相比的显著改进（NYUv 2上+4.7mIoU，SUN RGB-D上+1.2mAP@0.25，+1.0% acc 7在MOSI上，和在MOSEI上+0.5%acc72. 相关工作2.1. 自监督多模态学习自监督学习（SSL）使用辅助任务从原始数据中学习数据表示，而不使用额外的标签[30，12，20，8，31]，有助于提高下游任务的性能。最近，对SSL的研究利用了数据的多模态特性[6，2，28，9，1，18]。常用的策略是探索不同观点之间的自然对应关系，并使用对比学习（CL）通过将描述同一场景的视图推得更近，同时将不同场景的视图推得更远来学习表示[6，2，28，9，1]。我们将这一系列方法称为交叉模态嵌入，其重点是提取跨模态共享的信息，而不是直接检查融合的表示，未能充分探索多模态融合的模态协同作用。2.2. 对比表征学习CL是一种SSL，它带来了巨大的改进表示学习，受到越来越多根据数据的模态，它可以分为基于单模态的CL [5，11]和基于多模态的CL [1，18，28]。CL的一个未充分探索的挑战是如何选择硬阴性样本来构建阴性对[13，24，11，5]。大多数现有的方法要么增加批量大小，要么保持大的内存库，导致大的内存需求[10]。近年来，一些研究工作从互信息的角度研究合作学习。[29]认为，视图之间的MI应通过数据增强来减少，同时保持任务相关信息的完整性。[33]显示CL算法家族最大化多“视图”之间的MI下限我们建立在这个观察与选择对比样本的优化2.3. AutoMLAutoML被提出来自动创建优于手动设计的模型。神经结构搜索（NAS）[37，17，3]、数据扩充策略搜索[7，15]和损失函数搜索[14]的进展极大地提高了神经网络的性能。但是这些方法中的大多数都集中在监督学习设置上。最近，在无监督/自监督学习场景中开发AutoML技术引起了更多的关注[16，29，19]。UnNAS[16]显示了寻找具有自我监督的更好神经架构的潜力。InfoMin [29]和SelfAugment [19]探索如何在2D图像上搜索更好的CL数据增强在我们的工作中，我们专注于优化两个关键组成部分的多模态CL框架unsupervisedly-数据扩增和负采样策略，其中没有一个以前已经探索了通用的多模态输入。3. 重新审视InfoNCE在描述我们的方法之前，我们首先回顾了广泛用于对比表示学习的信息损失[21]，然后讨论了其对多模态输入的限制。给定锚随机变量x1，ip（x1），流行的对比学习框架旨在区分正样本x2，ip（x2|x1，i）来自阴性样本756ΣL月1月1月1月2月2月22，j2，j2，d（j）∼|∼∼2，j月22，d（j）2，jNj=1 f（x2，j，x1，i）212121|x2，j图2.信息图p（x2）. 这通常通过最小化In来实现新的TupleInfoNCE目标。我们利用元组干扰策略来生成具有挑战性的负样本，这可以防止网络懒惰并且只关注强模态。此外，我们引入了可优化的数据扩增，适用于锚样本的正样本生成。我们优化了阳性和阴性样本，以平衡每种模态所贡献的信息。所有这些都被纳入到建议的TupleInfoNCE目标，明确设计，以促进多模态融合。4.1.元组扰动和增强元组干扰生成具有挑战性的负样本对于学习有效的表示非常重要。foNCE损失：LNCE=−ElogΣf（x2，i，x1，i）Σ（1）在对比学习中，特别是在多模态融合设置的情况下，强模态倾向于支配学习的表示[18，34]。我们提出了一个其中f（x2，j，x1，i）是正的评分函数，通常为Cho-元组扰动策略，以生成负样本，其中不是所有的模态都是对应的，并且某些模态-感测为对数双线性模型。已经表明，最小化NCE相当于最大化互信息I（x2;x1）的下限。许多阴性样本需要适当地近似负分布领带展现不同的场景。给定一个锚样本（v1其积极样品（v1，…，VK、...、vk，…，vK）和、...、vK），我们亲p（x2）并收紧下限。将k-扰动负样本表示为在多模态输入的问题设置中，输入12，jK2，d（j）、...、其中d（·）是扰动函数样本可以表示为K元组t =（v1，v2，...，其中每个元素vk对应于一个模态，并且K表示正在考虑的模态的总数。学习多模态表示的直接方法是绘制锚样本t1，ip（t1）、它们的正样本t2，ip（t2t1，i）和负样本t2，ip（t2），然后优化InfoNCE目标。然而，以前的作品[34，18]观察到，即使K= 2，简单地从边缘分布p（t2）中提取负样本也不足以学习好的表示。弱从所述样本集产生随机索引负样本有K−1个模态¯vk以及来自不同场景的一个模态Vk。因此，为了正确地区分正样本与k个受干扰的负样本，所学习的表示必须对第k个模态的信息进行编码，因为K元组可能仅由于第k个模态的差异而变为负。k-干扰负样本在它们仅部分为负时变得特别具有挑战性例如 vk与vk非常相似。简单地把vk当作模式往往在很大程度上被忽视，模式之间的协同作用没有得到充分利用。当K >2时，当不同模态的信息量变化很大时，该问题变得图2提供了直观的解释。当一个模态vk与输入元组t中的剩余模态s¯vk相比信息量特别大时，即I（vk;vk）I（¯vk;¯vk），最大化I（t2;t1）的下限为不考虑其相关性的独立模态而其余模态不能完全抑制对数双线性模型中的这种部分负样本的得分。只有当网络告诉受扰模态vk与其余模态不一致，它是否可以完全抑制部分负样本。因此，k-干扰负样本鼓励探索每种模态与其余模态之间的相关性。I（vk，¯vk;vk，¯vk）将主要由模态主导-我们分别干扰每个模态并生成K个类型二二一特定信息I（vk;vk ¯vk，¯vk），它通常不如跨模态共享的信息I（vk;¯vk;vk;¯vk）重要。O强调特定于-阴性样本来增加香草InfoNCE ob-客观的这加强了多模态输入中每个特定模态我们使用αk来二二一强通道的形成可能会牺牲弱通道和学习过程中的通道协同。4. TupleInfoNCE为了减轻InfoNCE忽略弱模态和模态协同的局限性，我们提出了一个表示k个干扰负样本的比率。直观地说，我们使用的αk越大，我们就越强调第k个模态。元组扩增给定锚样本t1，我们将数据扩增分别应用于每个模态以生成正样本t2。应用的数据扩充（v、...757LLαβ|TNCE∼|∼k=0··TNCEk=122证明材料如图2所示，I（vk;¯vk）将22k=122TupleInfoNCE目标定义如下：LΣ--αβ22TNCE融合比NCE，我们从信息论的角度提供了一个理论分析。正如我们在第3节中提到的，最小化NCE相当于最大化I（t2;t1）的下限，这可能导致弱模态和模态协同被忽略。尽量减少相反，等于最大化I（t2;t1|β） +ΣKαkI（vk;¯vk）（请参见补充资料更加强调跨模式以鼓励模态协同并避免忽略弱模态。k-扰动负样本的比率αk起着平衡I（vk;¯vk）和I（t2;t1）的作用|β）。图3.用于RGB、深度和法线贴图融合的TupleInfoNCE目标的示例。对于模态vk将直接影响I（vk;vk）[29]，其中数据增强参数β直接影响I（t2; t1β），并进一步平衡各模态的信息贡献。4.3. 样品优化为元组干扰和增强设计的超参数α和β在TupleInfoNCE中起着关键作用二1粗略地测量了模态目标设计的信息贡献。每一组α和β将对应于一个vkin I（t2;t1）.为了进一步平衡每个模态在我们的融合表示中的贡献，我们用超参数β来参数化这些数据增强，并使β可针对不同模态进行优化。4.2.目标函数TupleInfoNCE目标被设计用于融合多模态输入元组t =（v1，v2，… vK）。给定一个随机样本t1，ip（t1），我们画出它的正样本t2，ipβ（t2t1，i），并且n∈i∈样本t2，j|j/=iqα（t2）服从“建议”分布，其中所有模态联系是一致的，但源于不同的场景，或者每个模态被干扰以促进模态协同。具体而言，我们以概率α0从p（t2）中采样负样本，以概率αk从p（¯vk）p（vk）中采样k-干扰dn-gative样本s，其中具体目标和完全优化αβ将产生多模态特征编码器gαβ。手动设置这些超参数是不可靠的，促使我们探索优化这些超参数的主要有两个挑战需要解决。首先是评估挑战：我们需要一种以无监督方式评估多模态特征编码器g αβ的质量的方法，因为大多数现有工作已经证明InfoNCE 损失本身不是一个好的评估器[29，19]。第二个是优化挑战：我们需要一个有效的优化策略，以避免彻底检查不同的超参数，并从零开始重复训练整个网络。我们将在第4.3.1节中解释如何处理这些挑战，以优化不同类型阴性样本的比率α，并在第4.3.2节中解释如何处理增强阳性样本的超参数β。二、二α kK是平衡不同类型的负样本的先验概率的集合，其总和为1。这基本上将我们的负样本分布改变为qα（t2）=α0p（t2）+Kαkp（¯vk）p（vk）。因此4.3.1优化阴性样本为了在无监督的情况下评估所学习的表示中的模态融合质量，我们建议使用crossmodal歧视作为替代任务。为了有效地优化α，αβΣlogf（t2，i，t1，i）Σ（2）月2 月1月1J2，jpβ（2我们采用一个双层优化方案，在LTNCE=−tE普雷特|不）的方式Σf（t（t）优化α和优化主Lαβ目的随着t 2，j|j/=iqα（t2）其中f（t2，j，tl，i）=exp（g（t2，j）g（tl，i）/τ），并且g（）表示多模态特征编码器，并且τ是温度参数。我们在图3中提供了TupleInfoNCE目标的示例。可以优化超参数α和β，以允许灵活控制下一节中介绍的不同模态的贡献。为了更好地理解为什么L更适合于多模态a固定的α。我们在下面详细说明这些设计。跨模态判别TupleInfoNCE与朴素InfoNCE的区别在于它更强调每个模态 vk 及其与其余模态v k的互信息 I（vk;¯vk）。为了学习一个好的表示，正确地覆盖I（vk;¯vk），我们提出了一个新的代理任务，跨模态歧视，寻找相应的¯vk只通过检查vk在一个holdout验证集。从数学上讲，我们第一代--共享权重共享权重齐心协力推开758m=1n不TNCE电话+1电话+1·A电话+1K{g电话+1RKMMMMM0KM00Mm=1nMm=1n样品B采样比值超参数nMLnl电话+1不B我阿尔法我∼|∼ΣgTNCE电话+1通过绘制M个随机元组来生成验证集{tm}M算法1：样本优化tm=（v1，v2，…vK）p（t）。对于每个模态vk，其增强版本表示为遵循由下式参数化的数据增强策略的v′kpζ（v′kvk）ζk然后，跨模态辨别任务被定义为，给定从增强验证集采样的任何v′k输入：初始化的多模态特征编码器g、初始化的分布（μα，σα）和（μβ，σβ）、总训练时期T、分布学习率η输出：最终多模态特征编码器gα*β*对于t= 1到T，做{v′k}M，在其中找到其对应的其余模态集合{¯vk}M。为了解决这个代理任务，对于一个v′k从扩充验证集{v′k}M中采样，我们Bα αm m=1K{αi}i=1通过分布N（μt，σ I）;首先计算它对应于¯vl的概率分别用每个αi和αexp（gαβ（v′k）·gαβ（¯vk）/τ）int{i}B;pk（gαβ）=n 1（3）电话+1i=1BnlΣMexp（gαβ（v′k）·gαβ（¯vk）/τ）使用等式5计算奖励{R（αi）}i=1;其中gαβ（·）表示我们的最佳多模态特征使用等式7更新μα;通过优化Lαβ训练的编码器并且τ是温度更新gt+1=gi;参数. 然后，第k模态的跨模态鉴别准确度可以计算为如果t是奇数，则样本B数据增强超参数β值M{βi}Bvia分布N（μ，σβI）;Ak（gαβ）=Σ（n=arg maxpk（gαβ））/M（4）n=1分别用每个βi和β t获取{gi}Bi=1哪里使用等式8计算奖励{R（βi）=}B;（）是一个指标函数。k（gαβ）大致表示-确保编码器gαβ捕获了多少I（vk;¯vk）决定最佳模型i=1i= argmaxjR（βj）;并提供了关于我们应该如何调整αk的线索更新μs更新g使用等式7;我阴性样本。然后，我们可以利用跨模态鉴别准确度，通过最大化以下奖励来优化αR（α）=ΣAk（gαβ）（5）endifreturngTt+1=gt+1;k=1适当地平衡不同模态的贡献1电话+1、...、GB{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F}我们评估每一项并且与下游语义推理任务具有高相关性，如第5.4节所示。注意，为了处理跨模态辨别任务中缺失的模态，我们采用了在补充材料。验证集上的编码器，并更新使用REINFORCE [32]的 α如下：1Bμ=μ+η R（α）log（p（α;μ，σ））（7）i=1现在我们描述如何通过一次网络训练有效地优化（α）。我们将优化问题写成如下：最大化R（α）=ΣAk（gαβ）其中p（αi;μ，σ）表示高斯分布的PDF。然后，我们选择具有最高奖励的编码器作为我们的gt+1，并继续下一个epoch。我们重复上述过程，直到收敛。k=1S.T. g αβ= arg minLαβ（g）（六）4.3.2优化阳性样本与优化α类似，需要一个奖励函数来i=1不如果t是偶数，m=1确定最佳模型i= arg maxjR（αj）;759k=0N{}NΣ这是一个标准的二层优化问题。受[14]的启发，我们采用了一种超参数优化策略，该策略在单次训练中交替优化α和g。具体来说，我们在优化过程中放松Kα k= 1的约束，并使用独立的多变量高斯（μ0，σI）来初始化α的分布。在每个训练时期t，我们对B超参数α1，…从分布（μt，σI）中提取α B，并分别训练我们当前的特征编码器gt，以生成B个新的编码器以相对于β的无监督方式评估我们的特征编码器gαβ。一种直接的方法是采用等式5中定义的总跨模态鉴别精度。通过实验，我们观察到两个现象，使这种简单的适应不能有效地优化β我们使用β和ζ分别表示用于训练和验证的数据增强参数，并且它们不必相同。①的人。如果我们手动将ζ设置为固定，则最大化总准确度的最佳β高度相关760Σask=1k=1k=1K第二（RRΣARRΣAΣ K一个kα β2并且不能生成真正好的阳性样本。2）的情况。如果我们将ζ设置为与β相同并一起优化它们，则当不应用数据增强时，我们通常会达到最佳的总准确度，尽管已经表明一定程度的数据增强对于对比学习很重要[4，29]。因此，β优化需要更好的奖励函数。我们重新编写我们的总跨模态鉴别准确度并针对目标下游任务进一步细化它们。在这种情况下，好的特性可以直接提高下游任务的性能我们分别在第5.1节，第5.2节和第5.3节中展示了三个流行的多模态任务的结果：NYUv 2 [26]上的语义分割，SUN RGB-D [27 ]上的3D对象检测以及MOSEI [36]和MOSI [35]上的情感分析在第5.4节中，广泛的消融研究、分析和目视检查-Kk=1 Ak（gαβ，ζ）以反映ζ的影响。相反提供了验证，以证明我们的系统的设计选择。手动设置ζ会产生鸡和蛋的问题，我们设置ζ=β并且只优化β。我们遵循[29]中的结论，并旨在使用强大的数据增强，这减少了每种模态的信息贡献，但使条件贡献的信息对细微差别的输入噪声更鲁棒我们观察到，当我们使用更强的增强时，总精度将降低，并且相对于β最小化Kk（g αβ，β）将有效地增加增强幅度。然而，如[29]中所讨论的，我们不应该在没有任何约束的情况下增加数据增强，并且存在一个最佳点，超过这个最佳点，更大的数据增强可能会损害表示学习。我们发现提供用于识别最佳点的线索，其中ζ*（β）=arg maxζ（g，ζ）表示最大化总跨模态辨别accu的最佳ζ活泼Kk用于用β训练的特征编码器。当β较弱时，我们凭经验发现ζ*（β）非常接近β;当β太强时，验证集上较小的增强参数将导致更高的总准确度，因此导致β和ζ*（β）之间的较大差异。我们提供实证研究支持这些发现在第5.4节。受上述观察的启发，我们将奖励函数设计为：5.1. NYUv2语义分割Setup. 我们首先在NYUv2 [26]上进行实验，看看我们的方法是否可以帮助多模态语义场景理解。NYUv 2包含1，449个室内RGB-D图像，其中795个用于训练，654个用于测试。我们在这项任务中使用三种模式：RGB、深度和法线贴图。我们采用的数据增强策略包括随机裁剪、旋转和颜色抖动。我们使用ESANet[25]，一个有效的基于ResNet的编码器，作为我们的骨干。我们使用常见的 40 类标签设置和平均 IoU（mIoU）作为评估指标。我们将我们的方法与从头开始的训练基线以及最新的自监督多模态表示学习方法进行了比较，包括CMC[28]，MMV FAC [1]和MISA [9]，这些方法都基于交叉模态嵌入。此外，我们还包括一个InfoNCE [21]基线，其中我们直接对比多模态输入元组，而无需元组干扰和样本优化。我们还包括监督预训练[25]方法以确保完整性。表1.NYUv2上的语义分割结果方法mIoUR（β）=1 −kΣ=1k（gαβ，β）K−λ β−ζ*（β）βmax其中λ是平衡参数，βmax表示用于归一化目的的预定义增强参数上限。（β）可以以与优化（α）相同的方式进行优化，并且我们在单个训练过程中交替优化β和g。我们进一步组合算法1中的（α）、（β）和多模态编码器g的优化，其中我们在历元数为偶数时更新α，并且在历元数为偶数时更新α。否则更新β5. 实验在本节中，我们通过迁移学习来评估我们的方法优化下游任务和数据集。具体地说，我们首先使用建议的TupleIn-foNCE在每个数据集上预训练我们的骨干，而不需要任何额外的数据。然后我们使用预先训练好的权重作为初始化一从零开始40.1Imagenet上的监督预训练50.3Scenenet上的监督预训练51.6CMC41.9MMV FAC42.5Misa43.4InfoNCE42.1我们48.1761结果表1显示，先前的最佳执行方法MISA [9]改进了分割mIoU了3. 比从头开始训练的基线高出3%。当使用InfoNCE [21]时，改善降至2。0%。我们的方法达到8. 与从头开始训练基线相比，改善0%。从40岁开始的改善。1%至48。1%确认我们可以产生更好的融合表示，以提高RGB-D场景的分割性能。值得注意的是，我们提出的TupleNCE虽然只在NYUv2上进行自我监督的预训练，但只比监督预训练方法低约3%7625.2. SUN RGB-D 3D物体检测Setup. 我们的第二个实验研究了如何将 Tuple-InfoNCE 用于 SUN RGB-D 数据集中的 3D 对象检测[27]。SUN RGB-D包含具有约5 K单视图RGB-D扫描的训练集和具有约5 K扫描的测试集扫描注释与amodal三维定向的边界框的对象从37个类别。我们在本实验中使用三种模式：3D点云，RGB颜色和高度。这里使用的数据增强是点云的旋转，RGB颜色的抖动和高度的随机噪声。我们使用VoteNet [22]作为我们的骨干，它利用PointNet++[23]来处理深度点云，并支持附加RGB或高度信息作为额外的输入。我们将我们的方法与包括InfoNCE [21]，CMC [28]和MISA [9]在内的基线方法进行了比较。我们使用mAP@0.25作为我们的评估指标。表2.SUN RGB-D上的3D物体检测结果方法mAP@0.25从零开始56.3InfoNCE56.8CMC56.5Misa56.7我们58.0结果表2示出了对象检测结果。我们发现，以前的自监督方法似乎难以处理3D任务：CMC和MISA在从头开始训练的基线上实现了非常有限的改进。InfoNCE[21]的改善也非常有限（0.5%），可能是因为过度强调来自强模态的模态特定信息可能会牺牲弱模态以及学习过程中的模态协同作用。相比之下，TupleInfoNCE实现了1。7%的mAP改进超过从头开始训练的基线，这是 InfoNCE 实现的改进的三倍多。我们的方法和InfoNCE之间的比较直接验证了所提出的TupleInfoNCE目标和样本优化机制的有效性。5.3. 多模态情绪分析Setup. 我们的第三个实验研究了MOSI [35]和MOSEI[36]数据集的多模态情感分析，两者都为每个话语提供了单词对齐的多模态信号（语言，视觉和声学）。MOSI包含2198个主观话语视频片段。用[-3，3]之间的连续意见分数手动注释话语，其中-3/+3表示强烈的消极/积极情绪。MOSEI是对MOSI的改进，具有更高数量的话语，样本、扬声器和主题的更大多样性在最近的最先进的多模态自监督表示学习方法MISA [9]之后，我们使用从模型中预提取的特征原始原始数据，这不允许用于数据扩充的直观方式。因此，我们在本实验中仅优化我们使用与MISA [ 9 ]相同的主干来进行公平的比较。我们使用二进制精度（Acc-2），7级精度（Acc-7），和F分数作为我们的评估指标。结果如表3和4所示，我们的方法在这些非常具有挑战性和竞争性的数据集上始终优于先前的方法-例如，与先前表现最好的方法MISA相比，Acc-7在MOSI上从42.3上升到43.3，在MOSEI上从52.2上升到52.7。由于这两种方法共享相同的网络主干，并且仅在学习融合表示的策略上有所不同，因此改进为我们的方法的有效性提供了强有力的证据。表3.MOSI上的多模态情感分析结果方法ACC-2ACC-7F-score从零开始83.040.082.8CMC83.339.583.0MMV FAC83.541.583.4Misa83.442.383.6InfoNCE83.140.582.8我们83.643.383.8表4.MOSEI上的多模态情感分析结果方法ACC-2ACC-7F-score从零开始82.551.882.3CMC83.350.884.1MMV FAC85.152.085.0Misa85.552.285.3InfoNCE83.552.083.4我们86.152.786.05.4. 进一步分析和讨论样本优化的有效性我们在进行样本优化和未进行样本优化的情况下进行消融研究，以量化其有效性。我们发现，在不优化负样本的情况下统一设置αk会导致NYUv 2语义分割任务下降1.7% mIoU，SUN RGB-D3D对象检测任务下降0.5 mAP，MOSI下降0.6 Acc-7，MOSEI下降0.4 Acc-7在没有如[28]中优化阳性样本的情况下手动设计数据增强策略我们还研究了优化的负采样策略以及数据增强策略。在NYUv2数据集上，我们发现RGB、深度和法线之间表现最好的2：1：1，这表明RGB在融合表示中被更多地强调。至于数据增强策略，虽然我们对NYUv2上的所有三种模态使用相同类型的数据增强，但最佳增强策略是使用最佳增强策略。763RRRRR−k=1−ΣAk=1ΣA图4.总跨模态识别准确度与下游任务性能之间的相关性参数因模态而异。考虑具有表示旋转角度的超参数的图像旋转，我们发现40度是RGB图像的最佳超参数，而10度是深度和法线图的最佳超参数。负样本优化的奖励设计我们在第4.3.1节中介绍了交叉模态鉴别作为负样本优化的替代任务，并认为等式5中的总交叉模态鉴别准确度（α）是一个很好的奖励函数。我们提供我们的经验验证在这里。我们改变k型阴性样本的比率αk，而保持其余类型的相对比率不变。我们通过固定的负采样率训练整个网络，并评估（α）和下游任务的性能如图4所示，调整不同类型的负样本的比例将影响替代任务的准确度（α），其与下游任务具有高度相关性。一种类型的阴性样本的比例过低或过高均导致低（α）。存在对应于最佳（α）的最佳点。实验表明，这个最佳点也对应于下游任务的最佳性能正样本优化的奖励设计我们在等式8中用于正样本优化的奖励函数由两个观察结果激发：最小化总的交叉模态识别精度Kk（g αβ，β）对β的影响将增大增强幅度;2）的情况。βζ*（β）2提供了用于识别最佳点的线索，超过该最佳点，较大的增强将损害表示学习我们提供了实证研究来验证图5中的这些观察结果。我们用不同的β从开始到结束训练网络，以评估在改变验证集上的数据增强参数ζ时，总的跨模态鉴别准确度如何变化我们还评估了在改变训练时间数据增强参数β时下游任务的性能如何变化。我们实验了两种类型的数据增强-图像旋转和图像裁剪，并获得一致的观察结果。Kk（gαβ，β）确实在增加的β。此外，ζ*（β）对应于每条曲线的峰值在第一行，当β很小时，它非常接近β一旦β超出了最佳点，即下游任务的最佳性能，ζ*（β）不再跟踪图5.实证研究证明正样本优化的奖励设计。在第一行中，我们显示了在改变增强参数ζ时验证集上的总跨模态判别准确度，并且使用不同的训练时间数据增强参数β获得了不同的曲线。第二行显示了下游任务的性能在改变β时如何变化。β和β值2.（2）（3）（4）（5）（6）（7）（8）（9）（10）（1 增加β。在实践中，我们发现我们的奖励函数足够强大，可以识别最佳训练时间数据增强参数对无信息模态的鲁棒TupleInfoNCE突出了容易被忽略的模态。一个明显的问题是，它是否对无信息的模态具有鲁棒性。我们在MOSEI多模态情感分析任务上进行了实验结果显示，使用这四种模式，我们实现了52.6的Acc-7，这仅为0。比以前低1%。四种模态之间的最终阴性样本比率大致为3（文本）：3（视频）：4（音频）：1（时间戳），表明我们的方法成功地识别出“时间戳”不是值得强调的东西。6. 结论本文提出了一种新的目标表示学习的多模态数据使用对比学习，Tu- pleInfoNCE。关键的想法是对比多模态的一个chor元组具有挑战性的负样本包含干扰的方式和更好的正样本，通过一个可优化的数据增强过程中获得。我们提供了一个理论基础，为什么TupleInfoNCE的作品，一个算法优化TupleInfoNCE与自我监督的方法来选择对比样本，和实验结果显示消融和国家的最先进的perfor-曼斯在广泛的多模态融合基准。764引用[1] Jean-BaptisteAlayrac ， AdriàRecasens ， RosaliaSchneider，ReljaArandjelo vic´，JasonRamapuram，Jef freyDeFauw ， Lu-cas Smaira ， Sander Dieleman ， andAndrew Zisserman.自监督多模态通用网络。arXiv预印本arXiv：2006.16228，2020。一、二、六[2] Relja Arandjelovic和Andrew Zisserman。会发出声音的物体。在欧洲计算机视觉会议（ECCV）的会议记录中，第435-451页，2018年。二个[3] Bowen Baker 、 Otkrist Gupta 、 Nikhil Naik 和 RameshRaskar。使用强化学习设计神经网络架构。arXiv预印本arXiv：1611.02167，2016。2[4] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offreyHinton.视觉表征对比学习的一个简单框架。国际机器学习会议，第1597-1607页。PMLR，2020年。1、6[5] Ching-Yao Chuang，Joshua Robinson，Lin Yen-Chen，Antonio Torralba ， and Stefanie Jegelka. 去偏见对比学习。arXiv预印本arXiv：2007.00224，2020。二个[6] Joon Son Chung和Andrew Zisserman。超时：在野外自动对口型。亚洲计算机视觉会议，第251-263页。施普林格，2016年。二个[7] Ekin D Cubuk ， Barret Zoph ， Dandelion Mane ， VijayVasude-van，and Quoc V Le.自动扩增：从数据中学习增强策略。arXiv预印本arXiv：1805.09501，2018。二个[8] Basura Fernando，Hakan Bilen，Efstratios Gavves，andStephen Gould.自监督视频表示学习与奇一网络。在IEEE计算机视觉和模式识别集，第3636-3645页二个[9] Devamanyu Hazarika 、 Roger Zimmermann 和 SoujanyaPoria。Misa：用于多模态情感分析的模态不变和特定表示。第28届ACM国际多媒体会议论文集，第1122-1131页，2020年。二六七[10] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，andRoss Girshick.用于无监督视觉表示学习的动量对比。在IEEE/CVF计算机视觉和模式识别会议论文集，第9729-9738页，2020年。一、二[11] 何志辉和努诺·瓦斯康塞洛斯。用对抗性例子进行对比学习。arXiv预印本arXiv：2010.12050，2020。二个[12] Tomas Jakab 、 Ankush Gupta 、 Hakan Bilen 和 AndreaVedaldi。通过条件图像生成的对象地标的无监督学习。arXiv预印本arXiv：1806.07823，2018。二个[13] Yannis Kalantidis，Mert Bulent Sariyildiz， Noe Pion，Philippe Weinzaepfel，and Diane Larlus.用于对比学习的硬负混合。arXiv预印本arXiv：2010.01028，2020。2[14] Chuming Li，Xin Yuan，Chen Lin，Minghao Guo，WeiWu，Junjie Yan，and Wanli Ouyang.Am-lfs：用于损失函数搜索的Automl在IEEE/CVF计算机视觉国际会议论文集，第8410-8419页，2019年。二、五[15] Sungbin Lim、Ildoo Kim、Taesup Kim、Chiheon Kim和Sungwoong Kim。快速自动扩增。NeurIPS，2019。二个[16] Chenxi Liu，Piotr Dollár，Kaiming He，Ross Girshick，Alan Yuille，and Saining Xie.神经结构搜索需要标签吗？欧洲计算机视觉会议，第798-813页。Springer，2020年。二个[17] Chenxi Liu，Barret Zoph，Maxim Neumann，JonathonShlens，Wei Hua，Li-Jia Li，Li Fei-Fei，Alan Yuille，Jonathan Huang，and Kevin Murphy.渐进式神经架构搜索。在欧洲计算机视觉会议（ECCV）的会议记录中，第19-34页，2018年。二个[18] Yunze Liu，Li Yi，Shanghang Zhang，Qingnan Fan，Thomas Funkhouser，and Hao Dong.P4 contrast：使用点像素对进行对比学习，用于rgb-d场景理解。arXiv预印

下载后可阅读完整内容，剩余1页未读，立即下载