多模态信息注入插件扩展预训练单峰模型用于图文多模态分类任务

112 浏览量更新于2023-10-25 收藏 812KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15492基于多模态信息注入的大规模预训练单峰模型扩展及其在图文多模态分类中的应用梁涛1，2林国胜3万明阳2李天瑞1马国军2吕丰茂1李1西南交通大学2IES、字节跳动的工程生产力3南洋理工大学{fengmaolv，taoliangdpg} @ 126.com{wanmingyang，maguojun}@bytedance.comgslin@ntu.edu.sgtrli@swjtu.edu.cn摘要针对下游任务微调预训练模型是深度学习的主流。然而，预先训练的模型仅限于通过来自特定模态的数据进行微调。例如，作为一个可视化模型，DenseNet不能直接将文本数据作为其输入。因此，尽管DenseNet或BERT等大型预训练模型在下游识别任务中具有很大的潜力本工作的重点是微调预训练的单峰模型与多模式输入的图像-文本对，并扩大他们的图像-文本多模式识别。为此，我们提出了多模态信息注入插件（MI2P），它连接到单峰模型的不同层（例如，DenseNet和BERT）。建议的MI2P单元提供了将其他模态的信息集成到单峰模型中的路径具体而言，MI2P通过学习视觉和文本特征之间的细粒度相关性来执行通过所提出的MI2P单元，我们可以通过将单词级文本特征关注到不同的视觉通道来将语言信息注入到视觉主干中，以及通过将通道级视觉特征关注到不同的文本单词来将视觉信息注入到语言主干中。借助MI2P附件，预训练的单峰模型可以扩展为处理多模态数据，而无需更改网络结构。1. 介绍在Twitter等社交媒体中，推文通常包含具有相同内容的文本和图像内容Correspondingauthor：F. Lv（电子邮件：fengmaolv@126.com）。除随着社交媒体使用的增加，大量多模态用户生成的内容可用于训练深度模型。很明显，通过使用来自视觉和语言模态的信息，多模态分类可以获得比单模态对应物更大的优势[22]。在过去的几年里，图像-文本多模态分类已被广泛应用于不同的社交媒体项目，如紧急响应[1，2]，情感识别[31]，假新闻发布，保护[25]等。图像-文本多模态分类的核心思想是将图像和文本融合在一起。一般来说，目前的工作图像-文本多模态识别可以分为两种策略。第一种策略主要包括两个单独的主干（例如，DenseNet或BERT）来处理每个模态，并对每个骨干产生的分类分数或高级特征进行多模态融合[1，7，15]。另一方面，第二种策略深入到主干的中间层，并对每个模态的细粒度中级特征执行多模态融合[13，16，17，29]。然而，目前沿着这条线的工作主要集中在同质设置上，其中模态只是相同输入的不同视图（例如，RGB和深度图像）[13，29，34]。由于图像和文本的中间层特征之间存在很强的异质性，第二种策略在多模态图像-文本融合任务中的研究较少。最近提出的多模态BERT可以基于Transformer的最新进展对视觉和语言模态的细粒度中级特征之间的模态间交互进行建模[12，16作为大型的预训练模型，多模态BERT可以被微调用于图像-文本多模态识别。先前的工作已经表明，有效的多模态分类算法需要考虑模态内处理和模态间交互[13，29]。15493具体来说，模态内处理需要从每个模态中提取出有区别的语义信息，这对于分类任务至关重要;而模态间交互则需要充分整合每个模态的一般来说，第一种策略通过保持单独的单峰骨干来处理每种模态，在模态内处理方面表现良好，但在建模充分的模态间交互方面存在弱点[1，7，15]。另一方面，来自第二策略的多模态BERT模型通过关注每个模态的细粒度令牌特征而在模态间交互中表现良好直接将从快速RCNN提取的区域特征作为视觉输入[17-尽管最近的PixelBERT提出利用端到端CNN主干来提取图像特征[12]，但是一旦每个模态的中级特征已经输入到Transformer层中，模态内处理仍然倾向于不均衡[29]。堆叠的Transformer层切断了CNN主干和最终预测之间的直接连接与预训练的多模态BERT模型相比，大型预训练的单峰模型（例如，DenseNet或BERT）-充分考虑了端到端的模态内处理，并具有从每个模态中提取有区别的语义信息的强大能力受上述讨论的启发，这项工作的重点是直接扩展的大型预训练的单峰模式的图像-文本多模态识别，考虑有效的模态内处理和模态间的相互作用。我们的核心思想是整合其他模态的特征，以增强单峰模型的中级特征。为此，我们提出了多模态信息注入插件（MI2P），它连接到单峰网络的中间层（例如，DenseNet或BERT）。为了弥合不同模态特征之间的异质性，MI2P通过学习视觉和文本特征之间的细粒度跨模态特征来执行跨模态特征转换。通过MI2P单元，语言信息可以通过将单词形式的文本特征加入不同的视觉通道而流入视觉中枢同样，视觉信息也可以通过不同文本词汇的通道视觉特征流入语言主干。通过将单峰骨干与附接的MI2P单元一起微调，注入的多峰信息可以适于以适当的方式增强中级特征，即，丰富了中层特征的语义模式，但不抑制其模态内加工。与现有的图像-文本多模态分类方法[1，9，14，17，18]相比，我们的方法可以更好地平衡模态间的交互和模态内的支持。切辛对于前一个目的，细粒度的跨模态交互在MI2P附件中显式建模。在实践中，视觉和文本模态通常在不同的抽象级别上相关（例如，在句子“大象用它的长鼻子从小溪喝水”中MI2P插件可以灵活地连接到单峰网络的多个层，以便对不同抽象级别的跨模式交互进行建模。对于后一个目的，我们的方法完全保留了大型预训练单峰模型的原始网络作为插件，MI2P单元不会抑制单峰模型的模态内处理。综上所述，这项工作的贡献有三个方面：我们建议通过引入多模态信息注入插件单元来扩展用于图像-文本多模态分类的大型预训练单峰模型。所提出的多模态识别的实现可以保留大型预训练的单峰模型的强大的模态内处理能力。我们的方法可以通过将MI2P单元附加到单峰模型的多个层来对不同抽象级别的跨模态交互进行建模，并考虑充分的模态间交互。我们的方法可以在不同的图像-文本多模态分类基准中获得最先进的性能。2. 相关作品2.1. 图文多模态分类图像-文本多模态分类旨在通过整合来自视觉和语言模态的信息来提高单峰对应物的性能[22]。在过去的几年里，多模态分类已被广泛应用于各种社交媒体项目，如紧急响应[1，2]，情感识别[31]，假新闻检测[25]等。根据模态集成的位置，我们可以将当前的多模态识别方法分为两种策略。第一种策略是主要的方法，它维护两个单独的骨干网络（例如，DenseNet或BERT）来处理每个模态，并通过加法[15]、外积[7]、交叉门控[1]、张量融合[33]等聚合操作对分类分数[8，30]或从每个骨干网络[1，4，7，15，33]产生的高级因此，第二种策略主要关注于在细粒度的中间层上执行多模态融合···15494我∈我我∈∈i=1我∈{}D{}∈每一种形态的特征[12，14，17特别是，最近提出的多模态BERT模型将Transformer层堆叠在图像和文本的中级特征上，并且可以针对图像-文本多模态识别进行微调[12，14，17，18]。注意机制可以对文本词汇和视觉标记之间的细粒度模态间2.2. 预训练预训练范式是导致深度学习取得巨大成功的主要原因之一。针对特定下游任务微调大型预训练模型目前是计算机视觉和自然语言处理领域的常见概念例如，深度卷积神经网络（例如，在ImageNet上预训练的ResNet [10]或DenseNet [11]已被广泛用作处理图像或视频等视觉信号的标准基线。近年来，还提出了各种不基于卷积运算的大型预训练模型[6，24]。另一方面，自然语言处理的最新进展也在很大程度上受到BERT [5]或XLNet [32]等大型预训练语言模型的推动。我们称上述模型为单峰模型，因为它们是用特定模态的语料库预先训练的，并且经过精心设计以处理该模态的特征。在过去的几年里，各种大型的预训练多模态模型（例如，PixelBERT [12]，VisualBERT [18]或VilT [16]）。这些模型通常被称为多模态BERT模型，因为它们最初受到BERT语言的启发。多模态BERT模型通常针对不同的下游任务进行微调，例如视觉问答或图像-文本检索[17，19]。3. 方法3.1. 问题陈述在图像-文本多模态分类中，每个样本与图像ZiRc×h ×w和文本描述Ti相Rli×d。符号li和d分别表示文本长度和特征尺寸视觉和文本模态都对应于类别标签Y i0，1，...，K.用=（Zi，Ti，Yi）N表示训练数据集。我们的目标是学习一个分类器h（Zi，T i），它可以通过整合来自视觉和语言模态的信息来对Y i做出很好的预测。3.2. 模型概述本文采用卷积神经网络（CNN）和BERT语言作为研究对象，因为它们已经被广泛认为是各自领域的标准基线。在我们的方法中，预训练的CNN和BERT分别扩展为图像-文本多模态识别我们将上述扩展的单模态模型分别称为多模态扩展CNN和多模态扩展BERT.多模态扩展模型的总体架构如图所示1.一、为了用语言模态武装CNN模型，我们首先将文本特征Ti通过外部预训练的BERT模型，并获得高水平的表示T'Rli×d。对于每个图像文本配对，我们通过连接到CNN的不同层的MI2P插件将T'集成到CNN主干上的Zi的信息流中（参见图1（a））。类似地，为了用图像模态武装语言BERT模型，我们首先将图像特征Z i通过外部预训练的CNN模型，并在聚合层Z'之前获得高级表示。Rc'× h'× w'。对于每个图像-文本对，我们通过附加到BERT的不同层的MI2P插件将Z'集成到跨语言BERT主干的Ti的信息流中（参见图1（b））。在微调过程中，单峰模型与附加的MI2P单元联合训练。注入的多模态信息可以适于适当地增强中间层特征3.3. 多模态信息注入插件为了扩展用于图像-文本多模态识别的大型预训练单峰模型，我们提出了MI2 P附件，该附件提供了集成来自其他模态的特征以增强单峰模型的中级由于不同模态之间的强烈异质性，来自其他模态的特征不能直接流入单峰骨干。为了弥合模态鸿沟，MI2P模块基于视觉和文本特征之间的细粒度跨模态交互来执行跨模态特征转换。在继续之前，我们需要弄清楚图像Zi和它的对应物Ti的中级特征是如何相互作用的。从图像特征的方面来看，特征图的每个通道与关于输入图像Zi的特定语义模式相关联。在多模态语境中，这些语义模式也由语言对应物Ti的文本词表达。因此，通道方式的视觉特征可以通过它们共享的语义模式与文本单词密切相关根据以上讨论，MI2P单元需要对通道方面的视觉特征与单词方面的文本特征之间的跨模态交互进行基于建模的跨模态交互，MI2P附件将通过将单词式文本特征关注到不同的视觉通道来将语言信息注入到单峰CNN模型中，以及通过将通道式视觉特征关注到不同的文本来15495.........我我×∈我我我我我∈我我我我我∈我√我我我我我焕光研发我∈∈预训练的CNN(a) 多模态扩展CNN。（b）多式联运扩展Bert.图1.所提出的方法的总体架构。其他模态的信息可以通过附加到单峰模型的不同层的MI2P单元单峰骨架与MI2P单元共同微调外部预训练模型的参数在训练阶段以蓝色显示。话作为插件，MI2P可以灵活地附加到多个层的单峰模型，以建模不同抽象级别的模式间的相互作用。我们的方法需要在单峰模型的原始网络结构的变化最小多模态扩展CNN。在这一部分中，我们详细介绍了如何扩展CNN骨干以实现多模态识别。对于由Zi和Ti组成的图像-文本对，式中，Z kRck× dv.对于h个注意力头，则Zk的维数将为ckhdv（h和dv的值需要满足条件hdv=hk wk）。然后我们重塑将Z k表示为Z kRck× hk× wk。可将Z_k看作T ′的交叉模态变换。T '的语义模式被注入到不同的视觉通道，根据建模的模态间的相互作用，并增强视觉每个通道中Zk的含量：Zk=Zk+<$Zk。我们会-我我我我们首先通过外部预训练BERT模型传递文本特征Ti，并获得高级表示T'Rli×d。然后，语言特征T'将是通过连接到CNN不同层的MI2P插件集成到CNN主干中。假设 MI2P 插件连接在 CNN 主干的第 k 层。用ZkRck×hk×wk表示CNN第kMI2P插件将语言特征T'集成到CNN主干中通过关注T'的词方面的文本特征到不同的视觉通道。为此，我们使用Zk来计算查询和T'来计算键和值。考虑到通道特征的空间特性，计算查询向量QkRck×dq，方法是在Zk的每个通道上使用dq内核执行卷积运算，然后通过平均池化聚合特征图（见图1）。第2（a）段）。键向量和值向量经由线性变换生成：K k=T'W k，V k=T'W k，在图中说明上述操作第2段（a）分段。为了在多个抽象层次上实现视觉和文本模态之间的模态间交互（参见第1节中的讨论），MI2P单元被连接到CNN主干的不同层。CNN主干与附接的MI2P单元一起微调。MI2P单元将接受培训，以适当的方式增强CNN骨干的中级功能，即，丰富了视觉通道的语义模式，但不抑制图像特征的模态内处理有了MI2P附件，单峰CNN可以通过整合文本中的语言信息来获得更好的识别性能。多模式扩展BERT。在这一部分中，我们详细介绍了如何扩展BERT语言以实现多模态识别.对于每个图像-文本对（Zi，Ti），我们首先将图像特征Zi通过外部预训练的CNN模型，并获得高级表示。哪里K ∈Rd×d和i i K i∈×IVZ项∈Rc'× h'× w'. 然后，图像特征Z'将跨模态注意操作的头被公式化如下：Zk = CAk（T'，Zk）il→vi i通过连接到BERT不同层的MI2P单元集成到BERT骨干网中。假设MI2P插件连接在第k层，语言BER T模型。记为Tk∈Rli×d，KKT（一）我的实际特点= softmax（QiDK）Vk，BERT的第k层。MI2P插件将视觉特征Z'集成到BERT主干中MI2PMI2PMI2P伯特骨架MI2P预先训练的BertMI2PMI2PCNN主干..................WKKVdv. 一个个体我'15496我我我我我我我我我×∈我我我 K我我 V我我QV√d转换文本特征平均合并跨通道注意内核CNN特征注入式文本特征变换视觉特征跨通道注意平均合并内核Bert特征注入视觉特征(a) MI2P单元连接到CNN模型。（b）与Bert模型相连的MI2P单位。图2.详细操作见MI2P附件。(a)MI2P附件注入T '的信息（即，语言模态）到CNN模型中。(b)对于语言BERT模式，MI2P附件注入Z '的信息（即，视觉模态）进入语言BERT模型，通道方式的视觉特征到单词方式的文本特征。通过关注Z'的通道视觉特征来区分不同的文本单词。为此，我们使用Tk来计算查询，使用Z'来计算键和值。操作类似于多模态扩展CNN中引入的操作。特别是，我们计算关键向量，Kk∈Rc'×dk，通过执行卷积运算，3.4. 后期融合策略多模态扩展CNN和BERT模型都可以独立地进行图像-文本多模态识别。为了进一步提高性能，我们还可以在扩展的单元上进行后期融合i“模态模型。不同的后期融合策略，包括dk个核，然后通过平均池化聚合特征图（见图11）。第2段（b）分段）。查询向量和值向量通过线性变换生成通常使用的分数融合（即，对分类分数求平均），特征连接（即，连接全局特征）和最近的交叉关注（即，文件Qk=Tk Wk，Vk=Z'W k，其中Z'∈Rc'×h'w'是通过交叉注意操作来排列连接的特征，由Z'整形，Wk∈ Rd× dq，Wk∈ Rh'w'× dv. 一个在-跨模态注意力操作的单独头部被公式化为：如果采用后期融合策略，则联合训练多模态扩展CNN和BERT模型。Tk = CAk（Z'，Tk）i v→l i iQkKkT= softmax（i）K）Vk，（二）4. 实验4.1. 实验装置我们在标准图文其中，Rli×dv. 在h个注意力头的情况下，时间Tk的维数将为lihdv（h和dv的值需要满足条件hdv=d）。Z'的语义模式被注入到不同的文本词根据建模的模态间的相互作用和增加的语言内容的Tk在每个词：Tk=Tk+Tk。上述多模态分类基准，包括Crisis- MMD [3]，Food 101 [28]和MM-IMDB [20]。危机MMD。该基准侧重于基于社交媒体帖子检测危机事件以进行应急响应[3]。在数据集中，每个样本都与通过在Twit中搜索主题标签收集的图像-推文对相我我我操作在图2（b）中示出。类似地，MI2P单元也被附加到语言BERT模型的不同层，考虑在多个抽象级别上对视觉和文本模态之间的模态间交互进行在与附加的MI2P单元一起进行微调后，语言BERT模型可以扩展为集成图像的视觉信息进行预测。之三.这个基准测试包含三个子任务。具体而言，task1主要侧重于识别社交媒体帖子是否为人道主义援助目的提供信息或不提供信息。在任务2中，目标是确认人道主义类别（即，基础设施损坏、车辆损坏、救援工作、受影响的个人和其他）。在任务3中，目标是评估严重性（即，严，严。在[1]中，在我们的实验中实现的15497表1.每个设置的不同数据分割中的样本编号设置训练分割验证拆分测试拆分危机MMD（任务1）960115731534危机MMD（任务2）2874477451危机MMD（任务3）2461529530食品10158131645221519MM-IMDB1555226087799表 2. 每个设置中使用的超参数。符号 Crisis-T1 表示CrisisMMD基准的task 1，依此类推。危机-T1危机-T2危机-T3食品101 IMDb批量128128128256128时期号50404010080学习率3.5e-52.5e-55e-57.5e-55e-5在社交媒体帖子中报道的损失。食物101.在这个基准测试中，每个样本都与从网页上抓取的食谱描述和从Google图像搜索获得的相应图像相关联[28]。网页已经通过html2text处理成原始文本。任务是从101个食品标签中对每个食谱图像对进行分类。MM-IMDB. 在该基准测试中，每个样本都与电影情节大纲和相应的电影海报相关联[20]。我们的目标是预测电影类型的基础上的情节海报对。与上面的设置不同，这个基准测试是一个多标签学习任务，因为每个电影可以有多个流派。表1显示了每个设置的不同数据分割中的样本数量我们实验中使用的数据确实不包含个人身份信息或攻击性内容。4.2. 实现细节我们采用在ImageNet [11]上预训练的DenseNet作为CNN骨干，并在BooksCorpus和英语维基百科[5]上预训练的标准BERT作为语言骨干。DenseNet包含五个密集块，我们将MI2P单元与前四个块的结尾相连。注意操作的注意头设置为8。BERT包含12个Transformer层，我们将MI2P单元附加到所有层。注意操作的注意头h被设置为12。其他重要的超参数如表2所示。我们采用亚当作为优化器。在训练过程中，学习率是固定的。在验证集上确定超参数。这些模型在24个T40GPU上训练。4.3. 性能比较我们提出的方法与原始的单峰网络（即，DenseNet和BERT语言），作为以及现有的最先进的图像-文本多模态分类方法，包括[1，7，12，14其中，工作[1，7，15，20，26]主要集中在对每个单峰骨干产生的全局特征进行多模态融合;工作[12，14，16，18]是最近提出的预训练的多模态BERT模型，可以对图像-文本多模态分类进行微调多模态BERT模型的注意机制可以用来描述细粒度的模态间交互。此外，我们还将我们的方法与分数融合（即，平均每个单峰模型的分类分数）和特征连接（即，连接由每个单峰主干产生的全局特征），其通常用作多峰识别任务的标准基线。危机MMD。我们在表3中展示了危机- MMD基准的比较。由于以前的工作已经在标准数据集上进行了更改，因此我们重现了比较基线的性能，以获得公平的一致性。与文献[1]一致，我们用分类精度、宏F1-score和加权F1-score来评价算法的性能。从表3中，我们可以得出以下结论。首先，单峰模型比多峰分类方法执行得更差。其次，我们提出的MI2P单元可以明显提高单峰模型的性能（参见MEBERT和ME DenseNet的性能）。此外，当我们分别将Score Fusion、Fea- ture Concat和Cross-attention与MEScore Fusion、ME Feature Concat和ME Cross-attention进行比较时，在多模态扩展模型上执行相同的后期融合策略可以获得比融合原始单峰模型更好的性能。性能的提高可以归因于在DenseNet和BERT的中间层中建模的最后，我们可以看到，大型预训练的多模态BERT模型对于多模态分类来说是一般来说，我们的方法始终优于比较基线，具有很大的性能增益。Food101 MM-IMDB. 我们在表4中显示了MM-IMDB和Food 101上的性能比较。同样地，我们也重现了比较基线的性能.与以前的工作[14，15]一致，我们通过Food101基准中的分类准确性指标和在MM-IMDB基准测试中的宏观F1分数和微观F1分数。在上述情况下也可以得出类似的结论。我们的方法可以始终优于比较基线。15498{}表3. CrisisMMD在分类准确性（%）、宏观F1评分（%）和加权F1评分（%）方面的比较。符号任务1任务2任务3表4.与MM-IMDB基准在宏观F1评分（%）和微观F1评分（%）方面的比较，以及与Food 101基准在分类准确性（%）方面的比较。表5.关于危机-MMD基准人道主义分类任务的消融研究。符号MI2P表示连接到相应的致密嵌段或变压器层的MI2P单元。方法MM-IMDB Food 1014.4. 分析宏F1微F1访问模型设计Acc（%）M-F1（%） W-F1（%）DenseNet+MI2P{2}DenseNet+MI2P{4}BERTBert +MI2 P{4-6}Bert +MI2 P{7-9}Bert +MI2 P{10-12}Bert +MI2 P{1-12}91.4 83.2 91.7三层的单峰骨干，这是符合我们的动机建模不同抽象层次的模式间的相互作用我们还对语言BERT模型进行了类似的消融研究，并得出了类似的观察结果（见下六行）。为了验证我们提出的ap的可扩展性消融研究。表5显示了CrisisMMD基准人道主义分类任务的消融研究。第一行显示单峰DenseNet的性能。在接下来的五行中，我们将MI2P单元连接到DenseNet主干的不同层。可以看出，将多模态信息注入到多模态系统中是有效的我们还通过将MI2P单元附加到其他大型预训练神经模型来进行实验 [ 10][12][13][14][15][16][17][18] 从表 6中，我们可以清楚地看到，所提出的MI2P单元再次大幅提高了单峰模型的性能。可视化。最后，我们展示可视化考试-ACCM-F1W-F1ACCM-F1W-F1ACCM-F1W-F单峰DenseNet81.679.181.283.460.587.062.952.366.1单峰BERT84.981.283.386.166.887.868.245.061.1分数融合88.283.585.386.954.088.971.253.566.3特征对比87.685.286.589.165.990.368.443.155.7交叉注意[1]88.487.688.790.067.890.272.960.169.7[26]第二十六话87.885.386.189.364.789.871.157.468.7GMU [20]87.284.685.788.764.389.170.657.168.2CBP [7]87.985.686.490.266.189.865.860.469.3CBGP [15]88.186.787.384.765.188.767.950.764.6MMBT [14]86.485.386.288.764.989.670.159.268.7VisualBERT [18]88.186.788.687.564.786.166.356.762.1PixelBERT [12]88.786.487.189.166.588.965.257.363.7VilT [16]87.685.188.086.761.287.267.658.465.0ME DenseNet89.389.188.690.775.891.671.361.572.1我是伯特90.389.889.391.483.291.772.161.472.6ME评分融合91.690.890.693.384.993.075.863.975.0ME功能联系人90.891.690.392.985.193.174.362.174.3ME交叉关注92.091.291.393.585.693.676.563.875.7单峰DenseNet37.346.760.8单峰BERT57.960.787.9分数融合59.361.689.3特征对比59.861.989.9交叉注意[1]60.463.891.3[26]第二十六话54.863.291.5GMU [20]53.962.790.6CBP [7]53.263.189.4CBGP [15]52.961.889.7MMBT [14]62.367.191.7VisualBERT [18]62.868.192.3PixelBERT [12]63.169.392.6VilT [16]63.068.692.9ME DenseNet61.466.390.6我是伯特62.667.591.9ME评分融合63.269.893.6ME功能联系人63.170.294.7ME交叉关注64.270.894.6DenseNet83.460.587.0DenseNet +MI2P{1}DenseNet +MI2P{3}88.187.387.988.467.865.366.168.288.787.188.288.6DenseNet +MI2P{1-4}Bert +MI2P{1-3}90.786.188.175.866.871.491.687.887.915499感谢德克萨斯国民警卫队帮助救援被洪水淹没的德克萨斯人。感谢德克萨斯国民警卫队帮助救援被洪水淹没的德克萨斯人。感谢德克萨斯国民警卫队帮助救援被洪水淹没的德克萨斯人。斯里兰卡洪水最新消息：安全出行。斯里兰卡洪水最新消息：安全出行。斯里兰卡洪水最新消息：安全出行。图3. CrisisMMD基准测试中参与的视觉通道和文本单词的可视化示例。我们通过观察连接到BERT的最后一个Transformer层的MI2P单元的模态间注意力权重来在CrisisMMD基准测试中，视觉通道和文本单词之间的建模模态间交互的应用。从图3、可以看出MI2P单元能够合理地模拟图像和文本之间的模态间交互。词特征的语义模式可以通过关注的通道视觉特征来丰富。5. 局限性和未来工作各种大型预训练模型（例如，视觉转换器（ViT）[6]、MLP混合器[24]和ConvMixer）是近年来提出的。我们不将我们的方法应用于这些模型，因为与CNN模型相比，它们尚未得到计算机视觉社区的广泛认可。此外，这些模型之所以有效的一些关键因素（例如，什么代表ViT中的我们未来的工作将尝试扩展这些新的多模态识别模型，使其具有可靠的可解释性。此外，我们还将通过将多模态信息集成到大的预训练声学模型（例如，SLU [27]和声学Transformer [35]）。6. 结论这项工作提出了扩大大型预训练的单峰模型的图像-文本多模态分类。为此，我们提出了MI2P插件，它可以灵活地附加到不同层的单峰模型。MI2P插件附件可以通过对表6.其他多模态扩展预训练模型在CrisMMD基准人道主义分类任务模型设计Acc（%）M-F1（%）W-F1（%）ResNet-50 83.9 61.4 87.6ME ResNet-5091.4 76.3 91.9XLNet 87.8 88.3ME XLNet92.1 84.6 92.8CLIP-Text-EncoderME CLIP-文本编码器90.4 76.2 90.2CLIP-Img-编码器84.3 60.3 84.1ME CLIP-Img-编码器89.6 74.7 90.1通道方式的视觉特征和单词方式的文本特征。与现有的图像-文本多模态分类方法相比，该方法能够更好地平衡模态间交互和模态内处理。我们进行了广泛的实验，不同的基准图像-文本多模态分类。鸣谢。这项工作是在T.梁先生曾于西南交通大学担任研究助理，导师为F. LV. F. Lv和T.梁对这项工作作出了同样的贡献。本工作得到了国家自然科学基金（No.62106204和62176221）、中央高校基础研究基金（ No.2682022CX 068 ）和四川省科技计划（No.2021YFS 0178）的资助。G. Lin15500引用[1] Mahdi Abavisani ， Liwei Wu ， Shengli Hu ， Joel R.Tejulult和Alejandro Jaimes。社交媒体中危机事件的多模态分类在CVPR中，第14667一、二、五、六、七[2] Mansi Agarwal，Maitree Leekha，Ramit Sawhney，andRa- jiv Ratn Shah.《危机-灾难：走向多模式损害分析：部署、挑战和评估》。在AAAI，第346-353页，2020年。一、二[3] Firoj Alam ， Ferda Ofli ， and Muhammad Imran.Crisismmd：来自自然灾害的多模态Twitter数据集。在网络和社交媒体国际会议（ICWSM）式上，第465-473页，2018年。5[4] Feiyu Chen ， Zhengxiao Sun ， Deqiang Ouyang ，Xueliang Liu，and Jie Shao.学习什么和什么时候放弃：会话中情感识别的自适应多模态和上下文动态在ACMMM中，第10642[5] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT：用于语言理解的深度双向变换器的预训练。在NAACL，第4171三、六[6] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图像值16x16个单词：用于大规模图像识别的变形金刚。ICLR，2021年。三、八[7] Akira Fukui ， Dong Huk Park ， Daylen Yang ， AnnaRohrbach，Trevor Darrell，and Marcus Rohrbach.多模态紧凑双线性池的视觉问题回答和视觉接地。参见EMNLP，第457-468页，2016年。一、二、六、七[8] 伊格纳齐奥·加洛，吉安马尔科·里亚，尼古拉·兰德罗，和里卡多·拉·格拉萨.基于BERT和cnns的UPMC food-101图像文本融合在IVCNZ，第1-6页，2020年。2[9] 韩宗博、张长青、傅华珠、周天一乔伊。可信多视图分类。ICLR，2021年。2[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。三、七[11] 高煌，刘庄，劳伦斯·范德马腾，和Kilian Q.温伯格密集连接的卷积网络。在CVPR中，第2261-2269页，2017年。三、六[12] Zhicheng Huang，Zhaoyang Zeng，Bei Liu ，DongmeiFu，and Jianlong Fu.Pixel-bert：通过深度多模态转换器将图像像素与文本对齐。 CoRR， abs/2004.00849 ，2020。一二三六七[13] 放大图片作者：Hamid Reza Vaezi Joze，Michael L.尤兹·佐利诺和小石田和仁。MMTM：用于CNN融合的多模态传输模块。在CVPR中，第13286-13296页，2020年。1[14] Douwe Kiela ， Suvrat Bhooshan ， Hamed Firooz ， andDavide Testuggine.用于图像和文本分类的受监督的多模式双转换器。在2019年NeurIPS的视觉接地交互和语言研讨会上。二三六七[15] DouweKiela ， EdouardGrave ， ArmandJoulin ，andToma'sMikolov.高效的大规模多模态分类。在SheilaA.McIlraith 和 Kilian Q.Weinberger ，编辑， AAAI ，第5198-5204页一、二、六、七[16] 金源在，孙博京，金一斗。Vilt：视觉和语言转换器Transformer，无需卷积或区域超视。在ICML，第139卷，第5583一二三六七[17] 李根、段南、方月见、龚明、姜大新。Unicoder-vl：一个通用的编码器，用于视觉和语言的跨模态预训练。在AAAI，第11336- 11344页，2020中。一、二、三[18] Liunian Harold Li ， Mark Yatskar ， Da Yin ， Cho-JuiHsieh，and Kai-Wei Chang. Visualbert：视觉和语言的简单而高效的基线。CoRR，abs/1908.03557，2019。一二三六七[19] Jiasen Lu ， Dhruv Batra ， Devi Parikh ， and StefanLee.Vilbert：视觉和语言任务的预训练任务不可知的视觉语言表示。在NeurIPS，第13-23页，2019年。一、二、三[20] John Edison Arevalo Ovalle ， Thirdly Solorio ， ManuelMontes-y-Go'mez，andFabioA. Gonz a'lez.用于信息融合的门控多模态单元在ICLR研讨会，2017年。五、六、七[21] Alec Radford、Jong Wook Kim、Chris Hallacy、AdityaRamesh 、 Gabriel Goh 、 Sandhini Agarwal 、 GirishSastry、Amanda Askell、Pamela Mishkin、Jack Clark、Gretchen Krueger和Ilya Sutskever。从自然语言监督中学习可转移的视觉模型在ICML，第139卷，第8748-8763页7[22] 作者：Dhanesh Ramachandram，Graham W.Taylor. 深度多模态学习：最新进展和趋势综述IEEE信号处理。麦格，34（6）：96-108，2017. 一、二[23] 郝坦和莫希特·班萨尔。LXMERT：从transformers学习跨模态编码器表示。在EMNLP中，第5099-5110页，2019年。1[24] 伊利亚岛 Tolstikhin ， Neil Houlsby ， AlexanderKolesnikov ， Lu- cas Beyer ， Xiaohua Zhai ， ThomasUnterthiner ， Jessica Yung ， Andreas Steiner ， DanielKeysers ， Jakob Uszkoreit ， Mario Lucic ， and AlexeyD

下载后可阅读完整内容，剩余1页未读，立即下载