多模态Transformer对缺失模态的鲁棒性研究及自动融合策略的优化方法

182 浏览量更新于2023-10-25 收藏 12.23MB PDF 举报

融合策略

自动搜索

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

100%100%100%100%55.30%100%100%100%30%31.243.6%100%0%100%0%35.036.7%100%100%100%100%91.90%100%100%100%30%65.928.3%100%0%100%0%71.522.2%100%100%100%100%70.20%100%100%100%30%60.214.2%100%0%100%0%56.319.8%181770多模态Transformer对缺失模态是否鲁棒？0马萌萌1 任健2 赵龙3 Davide Testuggine2 彭曦101 University of Delaware 2 Snap Inc. 3 Google Research0{mengma,xipeng}@udel.edu, jren@snap.com, longzh@google.com, davide.testuggine@gmail.com0摘要0由于缺失模态，从现实世界中收集的多模态数据往往是不完整的。因此，对于能够处理模态不完整数据的多模态模型非常受欢迎。最近，Transformer模型在处理多模态数据方面取得了巨大成功。然而，现有的工作仅限于架构设计或预训练策略；Transformer模型是否天然对缺失模态数据具有鲁棒性很少被研究。在本文中，我们首次全面调查了Transformer在模态不完整数据存在的情况下的行为。不出所料，我们发现Transformer模型对缺失模态非常敏感，而不同的模态融合策略将显著影响其鲁棒性。令我们惊讶的是，对于相同的Transformer模型，最佳融合策略是依赖于数据集的；不存在一种适用于所有情况的通用策略。基于这些发现，我们提出了一种通过自动搜索输入数据的最佳融合策略来提高Transformer模型鲁棒性的原则方法。在三个基准测试上的实验证实了所提方法的卓越性能。01. 引言0多模态Transformer正在成为各种任务中多模态学习的主要选择[7]，包括分类[21,29]、分割[34]和跨模型检索[18]。它们通过预训练和迁移[3]范式在这些任务上取得了更好的性能。尽管Transformer在处理多模态数据方面取得了显著成功，但它们通常需要模态完整的数据。由于隐私或安全限制，模态的完整性在现实世界中并不总是成立。例如，如果用户拒绝共享他们的私人位置，社交网络可能无法访问位置信息[20]；医疗应用程序0表1. 在MM-IMDb、UPMC Food-101和HatefulMemes上评估Transformer对缺失模态数据的鲁棒性。我们使用ViLT[18]作为骨干网络。请注意，当模态严重缺失时，多模态性能甚至比单模态性能更差（结果在灰色阴影中突出显示）。�报告的评估分数为F1-Macro（MM-IMDb）、准确率（UPMCFood-101）和AUROC（HatefulMemes）。较高的分数表示更好的结果。0数据集训练测试评估 � ∆ ↓0图像文本图像文本0MM-IMDb [2]0UPMC Food-101 [43]0Hateful Memes [17]0当患者不愿意接受风险或侵入性检查时，可能无法获得所有可用的记录[37]。因此，Transformer模型对缺失模态数据的鲁棒性非常重要，即模型的性能不会显著下降。尽管在现实世界中具有重要意义，但多模态Transformer对缺失模态的鲁棒性在文献中很少被研究。到目前为止，Transformer模型的研究主要集中在开发新的融合架构[29, 35,38]或探索更好的自监督学习任务[1, 6, 8, 47,48]。最近关于Transformer鲁棒性的工作主要集中在噪声输入而不是缺失模态上[23]。一个自然的问题是：Transformer模型对缺失模态数据是否鲁棒？我们在表1中通过多个数据集进行了实证评估。不出所料，我们发现Transformer模型在缺失模态数据的情况下性能显著下降。如图所示，当使用模态不完整的数据进行测试时，多模态性能下降，而且令人惊讶的是，当文本严重缺失时，多模态性能甚至比单模态性能更差，即只有30%的文本可用。181780表2. 在MM-IMDb和HatefulMemes上使用不同融合策略评估Transformer模型。早期融合指的是在第一层进行融合；后期融合指的是在最后一层进行融合。不同的融合策略会影响模型对缺失模态数据的鲁棒性。0数据集训练测试融合策略0图像文本图像文本早期后期0MM-IMDb 100% 100% 100% 100% 55.3 54.9 UPMC Food-101 100%100% 100% 100% 91.9 91.8 Hateful Memes 100% 100% 100% 100%70.2 64.50MM-IMDb 100% 100% 100% 30% 31.2 31.0 UPMC Food-101 100%100% 100% 30% 65.9 69.1 Hateful Memes 100% 100% 100% 30%60.2 57.80关于Transformer模型的先前工作已经表明，融合策略会影响计算复杂性和性能[3, 21,29]。另一个问题是：融合策略是否会影响Transformer对模态不完整数据的鲁棒性？毫不奇怪，我们观察到不同的融合策略会显著影响鲁棒性。令我们惊讶的是，最佳融合策略是依赖于数据集的；在存在模态不完整数据的情况下，不存在一个通用的适用于所有情况的策略。如表2所示，当使用缺失模态数据进行测试时，MM-IMDb和HatefulMemes更适合使用早期融合，而UPMCFood-101更适合使用后期融合。这激发我们通过多任务优化自动获得不同数据集的最佳融合策略来提高Transformer的鲁棒性。我们提出了一种新方法来实现这一目标。我们的主要思想是通过多任务优化来共同优化具有模态完整和模态不完整数据的Transformer模型。在此基础上，我们提出了一种搜索算法来获得不同数据集的最佳融合策略。总的来说，主要贡献如下：0•据我们所知，本文是首次研究Transformer对模态不完整数据的鲁棒性。0•我们观察到Transformer模型在缺失模态数据下明显下降。令人惊讶的是，最佳融合策略是依赖于数据集的；不存在一个适用于所有模态不完整数据情况的通用策略。0•我们通过多任务优化改进了Transformer模型的鲁棒性。为了进一步提高鲁棒性，我们开发了一种可微分的算法来获得最佳融合策略。0• 我们在MM-IMDb [2]、UPMC Food-101[43]和Hateful Memes[17]上进行了大量实验和消融研究，以支持我们的发现并验证我们的方法对缺失模态的鲁棒性。02. 相关工作0多模态学习。不同的模态，例如自然语言、视觉信号或声音信号，通常在内容上是互补的，但在共同概念上有重叠。多模态学习旨在利用每种模态的互补信息来提高各种计算机视觉任务的性能。多模态融合的一个关键方面是探索高效的多模态融合方法。像拼接这样的简单方法已经在[32,42]中广泛研究。为了实现高效的跨模态交互，Zadeh等人提出了一种张量融合[46]机制。在这一努力之后，提出了高效的低秩融合[25]来解决张量融合的指数维度爆炸问题。上述融合机制严重依赖于模态的完整性，使得在模态不完整的数据情况下无法进行多模态融合。因此，多模态学习中的另一个重要方向是构建对模态不完整数据具有鲁棒性的模型[27,39]。例如，Ma等人提出了一种基于贝叶斯元学习的方法来估计模态不完整数据的潜在特征。然而，现有的努力通常为每种模态采用特定的模型，例如用于图像的ResNet[12]和用于文本的LSTM[13]，这可能导致更多的架构决策和训练参数。相反，我们使用Transformer作为通用架构来共同建模每种模态，从而实现简单的设计和减少的训练参数。多模态Transformer。多模态Transformer已经在各种任务中使用，例如跨模型检索[18, 22]、动作识别[29]和图像分割[34,45]。它们相对于传统的骨干网络，例如ResNet[12]，具有几个优点，如灵活性和训练负载。对于多模态骨干网络来说，适应模态不完整样本的灵活性是至关重要的，因为现实世界的多模态数据往往由于缺失模态而不完整。传统的骨干网络[31,39]通常不具备灵活性。这些骨干网络通过拼接[32]、张量融合[46]和其他机制明确地融合每种模态的特征来输出联合多模态表示。然而，明确的融合需要所有模态的存在。缺少任何模态都将破坏训练流程。相反，多模态Transformer使用自注意机制[40]生成所有模态的整体表示，允许任何模态的缺失。在处理模态不完整样本时，它可以通过在注意力矩阵上应用掩码来忽略缺失的模态。因此，多模态Transformer在处理缺失模态方面更加灵活。此外，易于训练的模型对于多模态学习至关重要。传统的多模态骨干网络的训练负载随着模态数量的增加而增加。MFAS [30]✓47.825.642.148.4✓60.248.958.560.6CentralNet [41]✓—33.549.2—✓—45.957.5—ViLT [18]†✓51.835.048.051.1✓63.352.562.062.9MFAS [30]✓✓—55.762.5—CentralNet [41]✓✓63.956.163.163.9ViLT [18]†✓✓64.755.364.464.6BERT+LSTM [9]✓71.7✓84.4ViLT [18]†✓71.5✓84.4BERT+LSTM [9]✓✓92.5MMBT [15]✓✓92.1ViLT [18]†✓✓92.0181790表3. 在MM-IMDb [ 2]上的多标签分类得分（%），在不同设置下：使用完整模态进行训练和测试（100% 图像 + 100% 文本）；使用单一模态进行训练和测试（100%图像或 100% 文本）。† 表示我们的实现。0方法模态 F1 Micro F1 Macro F1 加权 F1 样本图像文本0由于骨干通常由特定模态的子模型组成，需要针对每个模态进行独立训练，因此我们的工作与动态神经网络相关，动态神经网络可以根据不同的输入自适应调整网络结构，从而在准确性、计算效率或灵活性方面获得明显的增益[ 11]。我们遵循Dynamic Depth [ 11]方法的精神。已经提出了许多方法来动态选择推理层以减少计算成本。我们的想法受到AdaShare [ 36]的启发，AdaShare侧重于学习在多任务学习中选择共享层的策略。它的主要思想是使用Gumbel Softmax Sampling[ 14 , 28]来学习策略和网络参数，而不依赖于ReinforcementLearning [ 44 ]或额外的策略网络[ 10]。然而，直接将Gumbel SoftmaxSampling应用于我们的问题会导致一个庞大的搜索空间和许多无效的策略。因此，我们开发了一种不使用GumbelSoftmax Sampling的高效方法。03. 多模态Transformer的分析03.1. 背景0本文重点研究采用Vision Transformer (ViT) [ 7]作为骨干的多模态Transformer。ViT由一系列L个Transformer层组成，每个层包含一个Multi-Head Attention(MHA)层、一个Multilayer Perceptron (MLP)和一个LayerNormalization (LN)。MHA在输入序列上计算点积注意力[ 40]，得到一个表示每个标记之间相似度的注意力矩阵。我们遵循视觉-语言Transformer [ 18]对数据进行预处理。输入文本通过一个词嵌入码书和一个位置嵌入码书映射为词嵌入。输入图像首先被分割成补丁，然后被展平为向量。然后，使用线性投影和位置嵌入将这些向量转换为潜在嵌入。图像和文本嵌入与它们对应的模态类型嵌入[ 15 ,18]进行整合。最终的多模态输入序列是视觉和文本嵌入的串联。0表4. 在UPMC Food-101 [ 43 ]上的分类准确率（%）。†表示我们的实现。0方法模态准确率图像文本0线性投影和位置嵌入。最后，图像和文本嵌入与它们对应的模态类型嵌入[ 15 , 18]进行整合。最终的多模态输入序列是视觉和文本嵌入的串联。03.2. 对缺失模态的鲁棒性0问题：Transformer模型对于模态不完整的数据具有鲁棒性吗？观察：不出所料，Transformer模型在模态不完整的数据下性能大幅下降。我们首先定义了如何衡量Transformer的鲁棒性。具体而言，我们采用两种不同的评估设置：一个“完整”测试集，其中包含完整的模态数据，和一个“缺失”测试集，其中包含缺失的模态数据。我们通过比较模型在“缺失”测试集和“完整”测试集上的性能来评估Transformer的鲁棒性：差异越小，鲁棒性越好。首先，我们经验证明，在存在缺失模态数据的情况下，模型性能会大幅下降。表1显示了在三个广泛使用的多模态数据集上的评估结果。如表所示，当只观察到30%的文本模态时，多模态性能分别下降了43.6%、28.3%和14.2%。此外，当模态严重缺失时，多模态性能甚至比MM-IMDb和UPMCFood-101上的单模态性能还要差。其次，我们观察到不同数据集上的模态重要性是不同的。我们使用单模态性能来表示每个模态的重要性。单模态性能的结果如表3、4和5所示。如表所示，在MM-IMDb和Food-101上，文本模态比图像模态更重要，而在HatefulMemes上，文本和图像的重要性相等。具体而言，在前两个数据集中，文本的性能高于图像。此外，单模态（文本）和全模态之间的性能差距比单模态（图像）和全模态之间的性能差距要小（10% vs.22%），表明文本是主导模态。相反，在HatefulMemes数据集中，文本和图像的性能相当。ViLT [18]†✓56.3✓58.3MMBT-Grid [15]∗✓✓67.3MMBT-Region [15]∗✓✓72.2ViLBERT [26]∗✓✓73.4ViLBERT CC [26]∗✓✓72.8Visual BERT [24]∗✓✓73.2ViLT [18]†✓✓70.2100%100%100%100%55.3100%100%0%100%47.4100%100%100%0%35.0100%100%100%100%70.2100%100%0%100%55.7100%100%100%0%54.9181800表5. Hateful Memes [ 17 ]未见测试集上的AUROC（%）。�表示来自恶意模因挑战的结果[ 16]。†表示我们的实现。0方法模态 AUROC 图像文本0单模态 � � 54.60多模态和单模态之间的性能差距很大（>20%），表明两种模态同样重要。最后，我们在实验中观察到Transformer模型倾向于过拟合于主导模态。具体来说，我们首先使用多模态数据训练模型，然后使用不同的单模态数据进行测试。然后我们检查单模态和多模态测试之间的性能差距-差距越大，过拟合越严重。实验结果如表6所示。如表所示，对于MM-IMDb数据集，仅文本测试的性能优于仅图像测试，这意味着仅文本测试更接近全模态测试。因此，仅文本测试的差距比仅图像测试小，表明在该数据集上训练的模型倾向于过拟合于文本模态。03.3. 最优融合策略0问题：融合策略会影响Transformer对于模态不完整数据的鲁棒性吗？观察：不同的融合策略确实会影响Transformer模型的鲁棒性。令人惊讶的是，最优融合策略是依赖于数据集的；在一般情况下不存在适用于所有情况的通用策略。通常存在两种广泛使用的融合策略：早期融合和晚期融合。对于早期融合，跨模态交互发生在早期层，确保模型具有足够的能力来利用多模态信息，但代价是更大的计算成本。对于晚期融合，跨模态交互发生在后期层，这显著降低了计算成本，但所得模型可能对于充分利用多模态信息的能力有限。如何确定融合的最优层仍然是一个未解决的问题[ 3]。现有的多模态Transformer解决方案采用固定的融合策略[ 18 , 21 , 24 , 26 , 33]。然而，一刀切的方法可能不是所有数据集上的最优选择。正如第1节讨论的那样，最优融合0表6. Transformer模型在MM-IMDb和HatefulMemes上过拟合问题的评估。Transformer模型倾向于过拟合于主导模态。0数据集训练测试评估图像文本图像文本0MM-IMDb0Hatful Memes0策略是依赖于数据集的。04. 鲁棒的多模态Transformer0在不失一般性的情况下，我们考虑一个包含两种模态的多模态数据集。形式上，令 D = � x 1 i , x 2 i , y i �0i表示多模态数据集，其中x 1 i和x 2i表示两种不同的模态，yi是相应的标签。我们的目标是提高Transformer对于模态不完整数据的鲁棒性，即模型的性能不会显著下降。为此，我们提出利用多任务优化和最优融合策略来提高鲁棒性。多任务学习。我们旨在提高Transformer模型处理模态不完整数据的性能。在缺失模态的情况下，训练数据是模态完整的，而测试样本是模态不完整的。这种差异激励我们在训练过程中将缺失模态数据纳入考虑。通过这样做，Transformer模型在对模态不完整数据进行预测时会更加自信，从而产生一个鲁棒的Transformer。关键思想是利用掩码机制在训练过程中“生成”模态不完整数据，并通过多任务优化同时优化Transformer模型与模态完整和模态不完整数据。我们的方法在对Transformer进行最小修改的情况下实现简单。最优融合策略。目标是自动搜索不同数据集上的最优融合策略。手动找到最优策略是不实际的，特别是对于大规模模型[ 5 ,7 , 47]，由于训练负载较重。然而，设计这样的算法在离散搜索空间的非可微性质[ 36]下是非平凡的。现有的方法，如强化学习（RL）[ 44]和策略网络（PN）[ 10]，要么在训练中效率低下，要么在模型中添加额外的参数。我们提出了一种可微分的方法，通过标准反向传播来获得融合策略。关键思想是学习一个策略来获取最优的融合层。具体来说，每个层都被分配一个策略参数1来决定是否进行融合。融合策略是01 策略参数与模型参数相比可以忽略不计。(a)(b)(c)(d)L = λ1Limg(x1; θ) + λ2Ltxt(x2; θ) + λ3Lit(x1, x2; θ), (1)2{x1i , x2i , yi} ∼ Dtr; {x1j, x2j, yj} ∼ Dval3θθ5for k = 0 to K1 do7θk+1 ← θk − γ∇θkLtr(x1i , x2i , s; θ)9θ∗θ12α ← α − β∇αLval(x1j, x2j, s; θ∗)minαLval(θ∗, α),s.t.θ∗ = argminθLtr(θ, α∗).(2)181810看人们如何爱你0词嵌入线性投影0Transformer编码器0图像和文本0仅文本仅图像0文本图像0文本0图像0任务特定的[ ]嵌入0图1. 左：我们模型的概述。右：不同任务的注意力掩码：(a) 无掩码的原始注意力；(b) 屏蔽跨模态注意力；(c)仅文本任务的屏蔽图像注意力[class]标记；(d) 仅图像任务的屏蔽文本注意力[class]标记。0从策略参数中进行采样。04.1. 通过多任务学习提高鲁棒性0在双模态数据集上，例如图像和文本，多任务学习可以有三个不同的任务：全模态（图像+文本）任务、仅图像任务和仅文本任务。令 f θ 表示由 θ参数化的Transformer。总损失函数定义如下：0其中 L img 是仅图像任务的损失；L txt 是仅文本任务的损失；L it是图像+文本任务的损失；λ 1 ，λ 2 和 λ 2是用于平衡每个损失的超参数。Transformer模型利用分类标记进行分类[ 18 , 40]。对于这三个任务，我们在Transformer模型中添加了三个分类标记。每个分类标记将为目标任务输出任务特定的嵌入。模型概述如图1左所示。026 , 40 ]生成用于分类的嵌入。对于这三个任务，我们在Transformer模型中添加了三个分类标记。每个分类标记将为目标任务输出任务特定的嵌入。模型概述如图1左所示。对于多任务学习，每个任务只能使用相应的模态进行分类，例如，仅使用文本模态进行文本任务。因此，我们在注意力矩阵上应用掩码，确保每个分类标记的输出嵌入只包含来自相应模态的信息。例如，在仅文本任务中，我们屏蔽了所有自注意力和图像之间以及文本之间的交叉注意力。注意力掩码如图1右所示。04.2. 寻找最优融合策略0首先介绍搜索问题的表达式。令 α = { α m } M m =1表示策略参数，其中 M是总层数。为了学习最优策略参数，我们将参数学习转化为一个双层优化问题。优化的目标是最小化验证集上的损失 Lval ( α , θ � ) ，其中0算法1：寻找最优融合策略。0输入：多模态数据集 D tr ，D val ；内层学习率 γ；外层学习率 β ；初始化的策略参数 α；迭代次数 K 。01 当未收敛时执行04 下层：06 使用方程式 3 通过 α 对策略 s 进行采样08 结束010 上层：011 使用方程式 3 通过 α 对策略 s 进行采样013 结束0最优权重 θ � 通过最小化训练损失 L tr ( θ , α � )获得。优化问题的表达式如下：0接下来，我们描述如何使用策略参数生成融合策略。现有的策略学习工作通常假设 α m是双变量[36]，导致搜索空间有 2M种可能的策略2。然而，搜索空间可以显著减少。在多模态融合中，通常从某一层开始进行融合，直到最后一层。按照惯例，我们将 α m 设置为单变量，导致搜索空间有 M个策略。设 Q 为一个下三角矩阵，所有非零元素都等于1，大小为 M ×M，表示所有策略。设 s 表示最终策略。为了得到一个策略，我们首先对策略参数进行softmax 处理，得到一个软策略：s s = softmax(α)。然后，我们使用差分技巧将 s s转换为硬策略：s h = onehot(s s)。最终策略可以通过使用硬策略 s h 从 Q中进行采样得到。02 对于每一层和总共 M 层，有两种动作：融合或不融合。In this section, we analyze the performance of our ap-proach on three multimodal datasets and aim to answer thefollowing questions: (1) Does the Transformer model per-form well with modal-complete data? (Sec. 5.3) (2) Doesthe proposed method improve the robustness of backboneagainst missing-modal data? (Sec. 5.4) (3) Why differentdatasets prefer different layers for multimodal fusion? (Sec.5.5) (4) What factors affect the effectiveness of our method?(Sec. 5.6)181820我们的方法显著减少了搜索空间，实现了可微分且易于训练的策略学习过程。整体方法如算法1所示。一旦学习到最优策略，我们固定策略以重新训练模型 θ，使用整个训练集。0s = �Q, s h�. (3)0在本节中，我们分析了我们的方法在三个多模态数据集上的性能，并旨在回答以下问题：(1) Transformer模型在模态完整数据上表现如何？(第5.3节) (2)所提出的方法是否提高了骨干网络对缺失模态数据的鲁棒性？(第5.4节)(3) 为什么不同的数据集偏好于不同的层进行多模态融合？(第5.5节) (4)什么因素影响了我们方法的有效性？(第5.6节)05. 实验05.1. 数据集和指标0数据集。MM-IMDb [2]包含两种模态：图像和文本。目标任务是使用图像、文本或两者预测电影的流派。这个任务是多标签分类，因为每部电影可能有多个流派。该数据集包含 25,956 个图像-文本对和 23 个类别。UPMCFood-101 [43] 是一个由文本和图像组成的分类数据集。UPMCFood-101 的类别与最大的公开可用食品图像数据集之一 ETHZFood-101 [4] 相同。在 UPMC Food-101中，图像和文本对是嘈杂的，因为所有图像都是在一个不受控制的环境中获取的。该数据集包含 90,704 个图像-文本对和 101个类别。Hateful Memes [17]是另一个具有挑战性的多模态数据集，重点是识别恶意模因中的仇恨言论。它被构建成使依赖单模态的模型失败，而多模态模型很可能表现良好：数据集中添加了具有挑战性的样本（“良性混淆因素”），以使依赖单模态信号更加困难。Hateful Memes 包含恰好10k 个模因。指标。对于 MM-IMDb数据集，我们按照之前的工作[15, 27, 41]，使用 F1 Micro、F1Macro、F1 Samples 和 F1 Weighted 来评估多标签分类。对于UPMC Food-101，类似于之前的工作[9,43]，我们计算分类准确率。对于 HatefulMemes，按照[17]，我们使用接收者操作特征曲线下的面积（AUROC）来评估模型性能。03 可微技巧：s h = onehot(s s) - s s.detach() + s s.0对于多标签分类，我们使用 MM-IMDb数据集，类似于之前的工作[15, 27, 41]，计算 F1 Micro、F1Macro、F1 Samples 和 F1 Weighted。对于 UPMCFood-101，类似于之前的工作[9, 43]，我们计算分类准确率。对于HatefulMemes，按照[17]，我们使用接收者操作特征曲线下的面积（AUROC）来评估模型性能。05.2. 实现细节0多模态骨干网络。我们使用 ViLT作为骨干网络，因为它代表了多模态 Transformer的常见设计。ViLT [18] 是一个纯 Transformer模型，不依赖于模态特定的子模型来提取特征，并且使用多个目标来预训练模型，例如图像文本匹配（ITM）和掩码语言建模（MLM）。输入。对于图像模态，我们将输入图像调整为 384 × 384。按照[7]，我们从输入图像中提取 32 ×32 的补丁，每个图像总共得到 12 × 12 = 144个补丁。对于文本模态，我们采用 bert-base-uncased分词器对文本输入进行分词。文本序列的最大长度在不同的数据集中各不相同：1024（MM-IMDb）、512（Food-101）和128（HatefulMemes）。网络训练。在所有实验中，我们使用 Adam优化器[19]，对于网络训练和策略学习使用不同的学习率。对于网络训练，基础学习率为 3 × 10^-5，权重衰减为 2 ×10^-2。对于策略学习，基础学习率为 3 ×10^-3，权重衰减为 3 × 10^-5。模型参数使用 ViLT [18]提供的预训练权重进行初始化。05.3. 完整测试集上的性能0我们将我们的模型与其他基线模型在“完整”评估设置下进行比较，其中观察到所有模态。在MM-IMDb、UPMCFood-101和HatefulMemes上分别报告结果，如表3、表4和表5所示。我们的结果要么是最先进的，要么与其他方法相当：在MM-IMDb上，与CentralNet相比，我们的F1加权值为64.4，而CentralNet为63.1；在UPMCFood-101上，与与我们最相似的模型MMBT相比，我们的准确率为92.0，而MMBT为92.1；在HatefulMemes上，我们的性能与MMBT相当（70.2 vs.72.2）。结果表明了我们模型的优越性。05.4. 缺失测试集上的性能0“缺失”测试集。我们遵循常规设置[39]，评估模型对缺失模态数据的鲁棒性，在该设置中，训练数据是模态完整的，而测试数据是模态不完整的。我们将完整模态的训练/测试集表示为100％图像+100％文本，将缺失模态的测试集表示为100％图像+η％文本，其中10%390%100%20253035404550556037.341.846.652.053.8 55.023.131.238.945.151.855.310%390%100%55606570758085909573.377.582.687.190.592.058.465.973.380.788.291.910%390%100%55.057.560.062.565.067.570.072.575.059.661.263.966.669.771.858.060.263.665.968.870.2181830观察到的文本（%）0F1宏平均0MM-IMDb的鲁棒性比较0图像和文本（我们的）图像和文本（基线）仅图像0观察到的文本（%）0准确率0UPMC Food-101的鲁棒性比较0图像和文本（我们的）图像和文本（基线）仅图像0观察到的文本（%）0AUCROC0Hateful Memes的鲁棒性比较0图像和文本（我们的）图像和文本（基线）仅图像0图2. Transformer在MM-IMDb [2]（左）、UPMC Food-101 [43]（中）和HatefulMemes数据集[17]（右）上的鲁棒性比较[18]。我们采用ViLT[18]作为骨干网络。模型使用100％文本+100％图像进行训练，并使用η％文本+100％图像进行测试。“仅图像”表示单模态设置-仅使用图像模态进行训练和测试。我们的方法显著提高了模型的鲁棒性，特别是在模态严重缺失的情况下。0η％是观察到的模态的百分比，η表示模态缺失的严重程度。η越小，模态缺失越严重。当η =0时，我们评估模型的单模态性能。对缺失模态的鲁棒性。我们比较了Transformer在三个多模态数据集上的鲁棒性。结果如图2所示。如图所示，我们的方法改善了具有主导模态的数据集上的Transformer鲁棒性。具体而言，在MM-IMDb和UPMCFood-101上，随着η的减小，模型性能下降。当文本模态严重缺失时，即仅有10％可用时，多模态性能甚至比单模态性能更差。例如，在MM-IMDb上，基线模型的F1宏平均为23.1，比单模态的35.0低34.0％；在UPMCFood-101上，基线模型的准确率为58.4，比单模态的73.3低18.3％。然而，在我们的方法中，当模态严重缺失时（仅观察到10％的文本模态），即在MM-IMDb上，我们的模型产生了37.3的F1宏平均，比单模态的35.0高6.6％；在UPMCFood-101上，我们的方法实现了73.3的准确率，比单模态的71.5高2.5％。我们的方法改善了具有同等重要模态的数据集上的Transformer鲁棒性。与MM-IMDb和UPMCFood-101不同，HatefulMemes数据集没有主导模态。我们观察到多模态性能始终优于单模态性能。在该数据集中，我们的方法在使用模态完整和模态不完整数据进行测试时优于基线模型。如图2所示，当仅观察到10％的文本时，我们的模型的AUROC为59.6，比基线（58.0）高2.8％；当0当观察到完整模态时，我们的模型比基准模型提高了2.3％。05.5. 最优融合策略分析0我们在图3中可视化了三个数据集的最优策略。我们观察到在MM-IMDb上更倾向于使用后期融合，而在仇恨迷因上更倾向于使用前期融合。学习到的策略与每个数据集的特点一致。回想一下，在第3.3节中，融合层的深度影响Transformer模型建模跨模态关系的能力。融合层越深，容量越低。在MM-IMDb上，主导模态文本（剧情描述）提供了比图像模态（海报）更多的电影类型细节。因此，模型采用后期融合策略是合理的，因为利用主导模态可以轻松解决预测任务，而仅通过建模跨模态关系只能带来边际增益。相反，仇恨迷因数据集通过向数据集中添加具有挑战性的样本（“良性混淆因素”）来使依赖于单一模态的模型失败。因此，为了处理这个数据集，模型应具有足够的能力来建模跨模态关系。对于一个依赖于两种模态进行准确预测的数据集，我们的方法学习早期融合策略是合理的。05.6. 消融研究0与新基准的比较。使用缺失模态进行训练是提高模型鲁棒性的一种简单方法。我们将此方法实现为新的基准。结果显示在表7中。我们的实验表明，这种简单的方法不起作用。如表所示，新基准的性能甚至比单模基准（仅图像）在Food-101和仇恨迷因上还要差。sion181840MM-IMDb的学习到的最优策略。0MM-IMDb：F1宏观 =23.3，仇恨迷因：AUROC = 58.0。0仇恨迷因的学习到的最优策略。0MM-IMDb：F1宏观 = 37.3。0仇恨迷因：AUROC = 59.6。0基准策略。0图像层文本层融合层0生活对于单身父亲克里斯∙加德纳来说是一场斗争...他和他的年幼儿子发现0他们自己独自一人，无处可去。经纪公司，职位...0“看看有多少人爱你”0MM-IMDb（传记，剧情）0仇恨迷因（仇恨）0图3.左：学习到的策略可视化。右：来自MM-IMDb和仇恨迷因的示例样本。后期融合在MM-IMDb上具有最佳的鲁棒性，而前期融合在仇恨迷因上导致最鲁棒的模型。报告的结果是使用以下设置获得的：使用100％图像+100％文本进行训练，使用100％图像+10％文本进行测试。0表7. 新基准的结果：使用100％图像+30％文本进行训练和测试。0方法 MM-IMDb Food-101 仇恨迷因0仅图像 31.2 65.9 60.2 新基准 40.4 44.3 59.70我们的方法 46.6 77.5 61.20表8. 在MM-IMDb上进行多任务学习和最优融合的消融研究。0方法训练测试 F1宏观0多任务优化策略图像文本图像文本0� 100％ 100％ 100％ 30％ 31.2 � 100％ 100％ 100％ 30％ 28.6 � �100％ 100％ 100％ 30％ 41.80� 100％ 100％ 100％ 10％ 22.6 � 100％ 100％ 100％ 10％ 17.3 � �100％ 100％ 100％ 10％ 37.30多任务学习和最优融合层的分析。我们进行实验验证了两种不同评估设置下每个组件的有效性，即30％或10％的文本可用。结果显示在表8中。两个组件都提高了Transformer的鲁棒性。此外，我们发现多任务学习的贡献大于融合策略。具体而言，当测试时只有10％的文本可用时，多任务学习的性能比最优融合策略提高了30％。关于注意力掩码的分析。在我们的方法中，我们在注意力矩阵上应用掩码，以确保分类标记仅从相应的模态中获取信息。我们研究了注意力掩码的效果。结果显示在表9中。我们观察到确保每个分类标记不从其他模态中获取信息是重要的。0表9.在MM-IMDb上进行多任务学习的注意力掩码效果的消融研究。0方法训练测试 F1宏平均0图像文本图像文本0无掩码 100% 100% 100% 10% 23.0 有掩码 100% 100%100% 10% 37.306. 结论0我们在实践中发现Transformer模型对缺失模态数据很敏感。令人惊讶的是，最佳融合策略是依赖于数据集的；在存在模态不完整数据的情况下，不存在一种通用策略。基于这些发现，我们通过多任务优化构建了一个鲁棒的Transformer。我们开发了一种算法，在不同数据集上自动搜索最佳融合策略。寻找最佳融合层和网络训练被形式化为一个双层优化问题。在多个基准数据集上的实验证实了我们方法的卓越鲁棒性。我们方法的局限性在于多任务学习只能确保多模态性能不低于单模

下载后可阅读完整内容，剩余1页未读，立即下载