基于全局傅里叶自注意力的多模态下游任务网络

95 浏览量更新于2023-10-16 收藏 13.37MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

52420GAFNet：一种基于全局傅里叶自注意力的新型多模态下游任务网络0Onkar Susladkar独立研究员0onkarsus13@gmail.com0Gayatri Deshmukh独立研究员0dgayatri9850@gmail.com0Dhruv Makwana独立研究员0dmakwana503@gmail.com0Sparsh Mittal印度卢尔卡工学院0sparsh.mittal@ece.iitr.ac.in0R Sai Chandra Teja独立研究员0saichandrateja@gmail.com0Rekha SinghalTCS研究员0rekha.singhal@tcs.com0摘要0在“视觉和语言”问题中，多模态输入同时进行处理，以实现图像和文本的组合视觉和文本理解。在本文中，我们讨论了在进行多模态学习时考虑特征空间和分布差异的必要性。我们通过深度学习和生成模型方法来解决这个问题。我们引入了一种新颖的网络，GAFNet（全局傅里叶自注意力网络），通过对三个图像-文本数据集（COCO、SBU和CC-3M）进行大规模预训练，实现在下游视觉和语言任务上的高性能。我们提出了一个GAF（全局傅里叶）模块，将多种模态集成到一个潜在空间中。GAF模块独立于模态类型，并允许在每个阶段组合共享表示。不同模态之间的关系的各种思考方式直接影响模型的设计。与以前的研究相比，我们的工作将视觉定位视为可预训练和可转移的质量，而不是必须从头开始训练的东西。我们展示了GAFNet是一个多功能网络，可用于广泛的下游任务。实验结果表明，我们的技术在CrisisMD数据集上实现了多模态分类的最新性能，并在COCO数据集上实现了图像生成。对于图像-文本检索，我们的技术实现了有竞争力的性能。01. 引言0多模态信息极大地提高了效果0本工作得到了印度卢尔卡工学院的部分支持，资助号FIG-100874。0多模态信息极大地提高了沟通的效果。无论是新闻文章还是教科书，文本、图像、音频和视频等多种模态使信息易于被广泛的受众获取。此外，在基于人工智能的决策系统中，多种模态可以提高预测性能[23, 18,5]。在多模态学习问题设置中，准备一个以每种模态作为输入的网络。训练一个连接每个网络的最终层的学习器，以创建所有模态的联合表示。然而，多模态学习中的一个挑战是模态之间的异质性，即不同模态之间的显著差异，如图像和文本之间的差异。不同模态的数据集可能具有不同的维度/结构和分布[33]。例如，在一条同时包含图像和文本的推文中，只有图像可能包含完整的信息，或者只有文本可能包含完整的信息。这被称为模态的不足；图1显示了一些例子。0“斗争是真实的。哈维的恢复对许多休斯敦人来说是艰难的。”0刚刚开始。请记住并保持耐心”0“美国海军舒适号响应波多黎各医院发电机故障”0(a) GT = 其他相关信息 (b) GT = 受影响的个体0图1.多模态推文的示例。在(a)和(b)中，地面真实性（GT）主要从文本和图像中推断出来。这显示了多模态学习的挑战。0同样，图像的序列长度可能为256，而文本的长度可能为四（“Wildfires strain Californiahospital”）。因此，它们的序列长度不匹配。文本中的一个单词可能对应图像的大部分，或者文本中的许多单词可能描述图像的一小部分。传统网络无法描述模态之间的显式关系。52430如果不同数据集之间的分布不同，就无法设计模态之间的一对一确定性映射。因此，我们需要使用诸如在创建确定性关系（规则）[27]后近似选择最接近的一个或使用域适应方法[33]等方法来学习非确定性关系。贡献：在本文中，我们提出了一种名为GAFNet的新颖且多功能的网络，它对多模态学习中的各种问题设置都有用。GAFNet使用一种名为GAF模块的新颖模块，在多模态场景中使用全局注意机制。GAF模块通过使用多模态的共享表示来避免由于模态不足而导致的模型崩溃。GAFNet有三个分支：图像、文本和一个将图像和文本表示组合在一起的中间分支。GAFNet分别使用视觉变换器（ViT）和BERT处理图像和文本输入。这些分支通过GAF块进行交互。GAF模块可以有效处理各种模态的维度、特征空间和分布之间的差异。GAF模块独立于输入模态的维度或结构工作。GAF模块获得一个适当的共享表示，集成了所有模态，并且比传统模型具有更好的准确性。为了在语义层面上捕捉模态不变的元素，我们在COCO、SBU和CC-3M三个数据集上对GAFNet进行预训练。虽然GAFNet可以用于各种多模态应用，但我们通过在三个任务上评估它来展示其效果：多模态推文分类（第5.1节）、文本引导下的图像生成（第5.2节）和图像-文本检索（第5.3节）。要将GAFNet用于其他任务，用户需要调整最后一个GAF块之后的层。我们展示了多模态学习如何增强生成模型。对于CrisisMMD数据集上的多模态分类和COCO数据集上的图像生成，GAFNet实现了SOTA（最先进）性能。对于图像-文本检索，在MSCOCO和Flickr30K数据集上，GAFNet实现了有竞争力的性能。02. 相关工作0在最近的多模态学习中，使用深度神经网络的方法已经成为主流[23, 27,4]。在多模态学习中，准备了一个以每个模态为输入的网络，并训练了一个连接每个网络的最终层的学习器，以创建所有模态的联合表示。基于自监督学习的成功，对于具有多个模态的任务，开发预训练目标的兴趣越来越大。0源代码可以从https://candlelabai.github.io/gaf获取0例如，CLIP[25]技术预测文本和图像之间的对应关系，从而产生一个与任务无关的模型，与任务特定的监督模型竞争，以利用来自文本的更广泛的监督来源。ALIGN[14]进一步扩大了CLIP，使用超过十亿个图像替代文本对的嘈杂数据集。首先使用目标检测器（例如Faster R-CNN[26]）捕获视觉特征，然后将提取的视觉特征和文本特征的串联应用于多层变换器[28]，以学习联合嵌入。SOHO[12]使用视觉词典从完整图片中提取紧凑的图像特征。这导致推理时间比基于区域的方法低近10倍。对于跨越一系列固定大小、不重叠的图片块的长程依赖关系，ViLT[17]完全丢弃了卷积视觉特征，利用视觉变换器[8]。Osolo等人[24]提出了一种基于变换器的图像字幕技术，它使用傅里叶变换来提高效率，同时需要更少的操作。虽然它提供了高性能，但对网络的归纳影响较低，因为它结合了来自频率和空间域的数据。03. 提出的GAFNet网络的架构0图2(a)显示了我们提出的网络的块图。该网络有三个分支：图像、文本和一个将图像和文本表示组合在一起的中间分支。GAFNet通过GAF块分别处理图像和文本输入，并且这些分支通过GAF块进行交互。对于图像模态，我们使用在Imagenet21M数据集上训练的预训练VisionTransformer（ViT）。对于文本模态，我们使用预训练的Bert-base-uncased[1]，或简称BERT。GAFNet使用相等数量（12个）的ViT、BERT和全局注意力傅里叶（GAF）块，以确保两种模态的贡献相等。该模型接收图像和文本表示作为输入。然后，对于每个表示，计算位置嵌入。这些图像和文本嵌入分别提供给初始的ViT和BERT块。与transformer一样，中间表示被用来构建三个矩阵，Q、K和V，分别对应于查询、键和值。这驱动了transformer的多头自注意块。GAFNet在每个步骤中在BERT和ViT块之间交换键和值。ViT和BERT使用交换的键向量和它们自己的查询向量的点积来获得对值向量的注意分布。这有助于文本和视觉表示之间的共同关注。这种共同关注使得每个ViT和BERT变换块能够交换信息。文本和视觉变换块的输出被馈送到GAF块中，该块协调了存在的信息KV ,VVHBK ,VBBprevAttention52440男孩站在街上0MLP0ViT块1 BERT块10ViT块20GAF 10BERT块20ViT块12 BERT块120图像嵌入0词嵌入MSA添加0添加0层归一化FFF块0来自ViT的HR0来自HR的0BERT0前一个的输出0GAF块02D FFT0MLP0添加0层归一化逆2D FFT0(a) GAFNet0(b) GAF块0(c) FFF块0ViT 1 BERT 10ViT 2 BERT 20ViT n BERT n0图像文本0(d) 之前的网络0GAF 20GAF 120S0Y0图2. (a) GAFNet架构 (b) GAF块 (HR=隐藏表示) (c) FFF块 (d) 之前网络的块图（ViLBERT）[22]0通过在语言和视觉中执行跨模态学习来实现。GAF块将FFF块纳入其中，该块使用频率域中的特征向量来分析多模态频率分布。03.1. 提出的“全局注意力傅里叶”（GAF）块0我们通过将全局注意力机制集成到提出的网络中来实现跨模态学习。为此，我们设计了一种新颖的GAF块，其中包括多头自注意（MSA）、层归一化和傅里叶前馈块。GAF考虑了ViT和BERT变换块的隐藏状态，并创建包含图像和文本表示信息的上下文向量。第一个GAF块接受三个输入：(1)来自第一个ViT块的隐藏表示，作为MSA的键和值。(2)通过前馈层传输的图像和文本位置嵌入的堆叠表示。(3)第一个BERT块的隐藏表示，作为MSA的查询。对于其余的GAF块，来自相应ViT块的隐藏表示作为MSA的键和值。相反，前一个GAF块的输出和来自相应BERT块的隐藏表示作为MSA的查询。这在图2(b)中显示。设 H V ， H B 和 H prev分别为来自ViT、BERT和前一个GAF块的隐藏表示。 H V作为MSA的键和值，而 H B 和 H prev的相加作为查询。相加后得到的向量为 H fusion ，即 Hfusion = H B + H prev。GAF块中的MSA实现了注意力，识别了两种模态（图像和文本）之间的一致性。如上所述，MSA从相关的BERT、ViT和前一个GAF块获取中间的视觉和语言描述。为了0使用这些中间表示，HV通过键（K（.））和值（V（.））的线性变换函数进行传递，而Hfusion通过查询（q（.））的线性变换函数进行传递。然后，它们作为键、查询和值传递给MSA。这个线性变换函数是在训练过程中进行训练的前馈层，以使键、查询和值向量能够学习并帮助跨模态提供注意力。多头自注意力块（MSA）接收来自每个模态的键、查询和值作为输入。结果，注意力块为每个模态生成了基于其他模态的注意力池化特征（参见下面给出的方程式1），即在视觉流中执行以图像为条件的语言注意力，在语言流中执行以语言为条件的图像注意力。设N为MSA中的注意力头数（本文中使用N=8）。然后，0f Attention = Softmax（k（H V）0N）× v（H V）0（1）这有助于发现不同模态之间的内部关系。基于此，可以在模态之间传递上下文线索。从MSA的输出中，我们得到S = LN（f Attention + Hfusion），其中LN表示层归一化。这被馈送到傅里叶前馈（FFF）块（图2(c)）。该块学习文本和图像模态之间的多样关系，进一步提高了网络的学习能力。在FFF块中，对S应用二维傅里叶变换：沿序列维度进行一维FFT，沿嵌入维度进行一维FFT。这提供了融合的视觉和语言序列的频率分布。2DFFT块的输出为Y =�（FFT（S）），其中�表示只保留结果的实部，并且GAFNetCOCO0.11 M0.55 M0.45 MSBU0.86 M0.86 M-CC-3M2.9 M2.9 M-52450FFT是快速傅里叶变换。我们将Y传递给MLP（多层感知器），然后进行残差连接和层归一化（LN），以使这些频率特征可学习。请注意，我们将MLP和前馈层视为同义词。0F F ourier = LN（MLP（Y）+ Y）（2）0因为应用方程式2后得到的输出特征处于频域，所以我们需要将它们转换为空间域，然后再传递给下一个块。因此，我们对计算得到的特征执行二维逆FFT，如图2(c)所示。0F inverse = �（IFFT（F F ourier））（3）0总体而言，在GAF中，MSA关注跨模态特征，FFF块专注于高级特征。将GAFNet（图2(a)）与最近的一项名为ViLBERT（图2(d)）的工作进行比较，我们可以看到GAFNet在输入端连接图像和文本嵌入，并引入了新的GAF块以更好地共享两种模态的表示。04. 预训练0人类有多种感知世界的方式。即使一个通道有噪声或缺失，周围的基本元素仍然可以被检测到，因为它们经常出现在许多通道中。例如，可以通过语言和视觉来描述一匹马。我们使用不同的预训练技术使GAFNet能够在语义层面上捕捉模态不变的元素。我们现在解释如何使用三种预训练技术（即掩码语言建模（MLM）、图像文本匹配（ITM）和目标检测（OD））对GAFNet模型进行预训练。图3显示了我们的预训练方法。在5个RTX 2080GPU上，对这三个数据集进行预训练需要近20天的时间。0男孩街0是/否0边界框回归0类别概率0分类0 这个正站在上。0块0嵌入0词0嵌入0图3. 预训练方法0每个图像区域都被注释为一个区域名称，比如“穿粉色裙子的女孩”。这些注释被用于0这个任务的预训练数据被用作预训练数据。表1显示了用于GAFNet预训练的数据集1。0表1. 用于预训练任务的数据集0数据集图像标题注释0遮蔽语言建模：使用MLM方法通过重构被遮蔽元素来把握图像和文本模态，这意味着MLM基于视觉概念对文本的遮蔽词进行预测。我们选择35%的输入标记被随机遮蔽的概率。模型使用所有其他未遮蔽的标记和视觉线索来预测这些被遮蔽的标记。为了完成这个任务，我们将GAFNet网络的最后一个GAF块的输出作为输入，通过一个带有线性层、SiLU激活层和另一个线性层的MLM进行运算。最后一个线性层通过应用softmax函数生成一个输出向量。设f(V,T)为GAFNet，其中V是模型的视觉输入，T是遮蔽文本的输入。M(f(V,T))是MLM函数，用于预测遮蔽标记t的概率。设y为一个独热分布，其中t的真实标记的概率为1。我们通过以下公式减小交叉熵损失：L MLM = - �0x ∈ M,V y x × log M ( f ( V x , T x ))图像-文本匹配（ITM）：为了创建一种在各种语言中都普遍存在的视觉和语言表示，修改了ITM方法。它预测文本和图像是否匹配。一个陈述和几个图像区域作为ITM的输入，输出是一个二进制标签，表示输入是否匹配。在训练过程中，我们从数据集中选择正样本和负样本(V,T)。对于配对样本中的图像和文本，我们将其与其他样本中随机选择的图像和文本进行交换，生成负样本。将这个视觉和文本配对输入给GAFNet，从最后一个GAF块中获取输出向量作为输入图像-文本组合的联合表示。计算了序列长度轴上的均值后，将结果向量传递给ITM分支。ITM分支由一个MLP层和一个sigmoid函数组成，它们预测一个介于0和1之间的分数。设I(.)为ITM分类器的函数，y为真实标签向量。对于相应的标签，通过二元交叉熵计算损失L IT M：01在SBU和CC3M数据集上，只进行了MLM和ITM，因为这两个数据集没有边界框信息。COCO数据集提供文本、视觉和边界框信息；因此，模型的预训练使用了这里描述的三种方法。DenseNet [11]81.5779.1281.2283.4460.4586.96BERT [7]84.981.1983.386.0966.8387.83MMBT [15]82.4881.2782.1585.8264.7888.66ViLBERT [22]92.9990.9291.2390.9770.7693.93SSE-Cross-BERT-DenseNet [2]89.3388.0989.3591.1468.4191.82GAFNet94.719294.3593.9973.8695.34LIT M = −�xϵT,Vyx × log I(f(Vx, Tx))+ (1 − yx) × log(1 − I(f(Vx, Tx)))(4)52460表2. CrisisMMD数据集上的多模态分类结果（acc =准确率）0模型信息任务人道主义分类任务0准确率宏F1 加权F1 准确率宏F1 加权F10紧凑双线性池化 [10] 88.12 86.18 87.61 89.3 67.18 90.330紧凑双线性门控池化 [16] 88.76 87.5 88.8 85.34 65.95 89.420得分融合 88.16 83.46 85.26 86.96 54.01 88.960特征融合 87.56 85.2 86.55 89.17 67.28 91.40目标检测（OD）：在这个预训练操作中，我们执行文本感知的目标识别，以获取目标的高级语义信息。这使得模型能够充分了解图像各个区域中对象之间的精确关系，并使用文本信息来区分各种物体。给定图片和文本的表示，我们允许模型估计视觉概念的边界框（bbox）。我们希望模型能够通过在同一张图片中找到几个视觉概念来更有效地学习细粒度的视觉-语言相关性。目标检测模块包含两个分支，即目标分类分支和bbox回归器分支（参见图3）。GAFNet的输出 f ( V, T )被馈送到分类和bbox预测分支，分别生成类别概率和锚框。这使得GAFNet能够识别图像中目标的类别和具体位置。如图9所示，这使得模型能够学习到精确定位棕色狗并将其与黑白狗区分开的特征。设 O ( . )为预测bbox坐标的回归器函数。设 Y BB为bbox的真实坐标。回归器函数使用IOU损失 L IOU定义为 L IOU = � P ( f ( V, T )) × IOU ( O ( f ( V, T )) , YBB ) 。设 P ( . ) 为预测(1) 锚中目标存在的置信度和(2)目标类别的分类概率的概率分布函数。相应的损失函数为(1)L Confidence = � − p c × log P ( f ( V, T )) confidence，其中 p c 是真实的置信度得分。(2) L Classification = �− log P ( f ( V, T )) class 。目标检测预训练的总损失（ LOD ）计算如下：0L OD = L IOU + L Confidence + L Classification 总体上，损失函数 L MLM ， L ITM 和 L OD 被相加以得到最终的损失函数，并且网络联合训练 MLM、ITM 和 OD任务。TotalLoss pre − training = L MLM + L IT M + L OD05. 结果05.1. 多模态分类0对于多模态分类，我们在CrisisMMD数据集[3]上评估了GAFNet。该数据集包含了带有相应注释的多模态推文（图像和文本对）。我们在CrisisMMD数据集的“信息性分类”类型中使用二元交叉熵损失，而在“人道主义分类”类型中使用分类交叉熵损失。初始学习率为0.0001，使用余弦退火调度器。训练进行了60个时期，使用批量大小为24和AdamW优化器。我们使用了多种数据增强方法，包括垂直翻转、水平翻转、随机旋转、畸变等。0野火对加利福尼亚医院造成压力0概率输入0输入0图4. 多模态分类的架构0图4显示了我们的模型在执行多模态分类时的变化。这里，最后一个GAF块的输出被送入前馈层，然后应用softmax函数以获得类别概率。在这个数据集中，不同类别的样本数量差异很大。表2中考虑了加权F1分数、准确率和宏F1分数来评估这个类别不平衡问题。GAFNet在性能上明显优于基线模型和先前提出的模型G (s)(a)(b)LGAN(G, D) = Es,y[log(D(s, y))]+ Es,t[log(1 − D(s, G(M(s, t), Dec))](5)S-3.39S-ControlGAN [19]11.56 ± 0.16 80.43 ± 2.79RefinedGAN [20]15.960.16 83.231.37GAFNet19.04 ± 0.12 88.24 ± 1.0152470在所有指标上，GAFNet在两个任务上都提供了相当不错的Macro F1和WeightedF1得分。需要注意的是，GAFNet的结果是使用FFT和预训练得到的。05.2. 图像生成0图5显示了图像生成架构的高级表示。生成器使用编码器-解码器架构，编码器为GAFNet，解码器为pix2pix GAN[13]。生成器的输入为文本描述 t 和分割掩码s；判别器的输入为 s 和未知图像（可以是 y 或 g ( s, t)）。使用给定的参数，生成了一个以 t 和 s为条件的合成图像。通过将文本信息纳入生成过程并使用GAFNet作为编码器，我们在掩码的相关语义区域和图像创建方面建立了精确的连接。采用Patch-GAN判别器作为判别器。0三个色彩斑斓的风筝0在空蓝天中飞翔。0GAFNet（编码器）0判别器（D）0生成器（G）0伪造0掩码（s）0真实图像（y）0掩码（s）0判别器（D）0真实0解码器0PatchGAN判别器0PatchGAN判别器0图5. 提出的图像生成方法0与其将整个图像标识为真实或伪造，该判别器将特定的（N×N）块作为真实或伪造进行分类。这样做会施加更多限制，从而促进更精细的高频细节。该模型的训练使用了对抗和生成器像素对像素损失的混合。令 M ( . )为编码器函数（GAFNet），Dec ( . )为解码器函数。因此，生成器（ G ( . ) ）是 M 和 Dec的函数。设 D 为判别器，y为真实图像。那么，生成器损失与判别器损失之间的关系是条件对抗损失（ L GAN ( G, D ) ），如下所示：0由于生成器用于合成图像生成，我们使用L1损失作为该任务的损失，定义为 L L 1 ( G ) = E s,t,y [ ∥ y − G ( M ( s, t ) ,Dec ) ∥]。将这两个损失函数结合起来得到最终损失，如下所示：0G � = arg min G max D L GAN ( G, D ) + λL L 1 ( G )整个系统逐渐发展出与提供的描述语义匹配的区域视觉特征，并生成符合分割掩码描述的全局结构的高质量照片。0表3. COCO数据集上的Inception Score（IS）和Rprecision（R-prcn）0方法 IS R-prcn (%)0真实图像 27 . 41 ± 0 . 59 -0没有POS的RefinedGAN 16 . 49 ± 0 . 18 84 . 01 ± 1 .590结果：我们在生成器上使用L1和SSIM损失，对抗训练使用二元交叉熵损失。初始学习率为0.0002，采用余弦退火调度器。训练共进行150个epoch，批量大小为12，优化器为AdamW。我们使用InceptionScore（IS）和Rprecision作为评估指标。表3展示了在COCO数据集上的图像到图像翻译结果。显然，GAFNet在IS和R-prcn指标上都优于之前的网络。这表明GAFNet能够生成高度准确且具有高多样性的图像。此外，需要注意的是，没有POS（词性）的RefinedGAN表现比RefinedGAN更好。这表明非语义词和视觉特征之间形成的无用的联系以及这些无价值的联系如何降低合成输出的质量。0（a）ViLBERT的输出（b）GAFNet的输出0图6.比较ViLBERT和GAFNet生成文本“蓝色条纹校车停在草地上”的图像0图6比较了GAFNet和ViLBERT在COCO数据集上生成的样本图像。由于两个模型都可以学习100%的语义一致性，因此两者都会创建一个站在绿地上的蓝色公交车。然而，ViLBERT会产生扭曲的纹理，而GAFNet会产生更真实、高质量的图像。ViLBERT在文本和视觉模态之间的共同注意力帮助它从两个模态中学习。然而，它无法产生具有清晰细节的图像。这就是GAFNet的优势所在。GAFNet可以通过使用全局注意力更有效地学习跨模态。 52480在GAF块中引入了全局注意力。可以看出，GAFNet可以学习颜色和纹理。GAFNet精确地生成了蓝色的公交车，并且图像的纹理和质量优于ViLBERT生成的图像。由于ViLBERT和GAFNet都是在相同的数据集分布上进行训练的，它们在提供文本和二进制掩膜作为输入时都试图创建一个类似的图像。这就是为什么图6显示了可比较的结果。然而，就图像质量而言，GAFNet创建的图像具有更高的色彩和对比度。这是因为GAF块关注视觉和语言流，并学习图像的每个方面，包括颜色、对比度和结构。如图7所示，当将黑色图像（即只有背景没有掩膜）和文本作为输入时，ViLBERT和GAFNet都会生成不同的图像。在这里，GAFNet明显优于ViLBERT。0句子 ViLBERT GAFNet0站在山顶上的人0自行车在路上0鸟在粉红色的天空中飞翔0火箭在天空中0图7. ViLBERT和GAFNet生成各种文本的图像比较0图8显示了GAFNet在COCO数据集上的输出。GAFNet可以生成具有真实物体的高分辨率图像。此外，模型生成的合成结果与给定的文本描述完全一致。从图8可以看出，由风筝的分割掩膜生成的图像与给定的文本“三只色彩斑斓的风筝在空荡的蓝天中飞翔”相匹配。在RTX 2080GPU上，对于批量大小为6，图像生成需要2.8秒。0文本白色公交车停在街上。0蓝色的公交车正在穿过马路。0三只色彩斑斓的风筝在空荡的蓝天中飞翔。0分割0掩膜0图像0生成的0图8. GAFNet在COCO数据集上的图像生成输出。05.3. 图像-文本检索0图9显示了具有相关短语的图像的Grad-CAM可视化示例。显然，GAFNet具有很强的理解能力。即使文本描述只有一个词的差异，它也能预测图像中的正确区域。此外，GAFNet可以将文本中的每个单词与匹配的图像区域对齐。GAFNet可以关注由单词表示的区域（例如，“黑白狗”与“棕色狗”）。0黑白狗坐在长椅后面。0棕色的狗0坐在草地上0（a）0（b）0这个人坐在木椅上。（c）0一个人手里拿着南瓜。0图9.句子和特定单词及相应的Grad-CAM可视化（在未见过的图像上）0表4显示了MSCOCO和Flickr30K数据集上的图像-文本检索结果。UNITER和VinVL基于对象中心特征，而ALIGN、METER和AL-BEF基于整体图像特征。GAFNet表现出色。R@1 R@5 R@10 R@1 R@5 R@10 R@1 R@5 R@10 R@1 R@5 R@10UNITER [6]300M4M65.7 88.693.852.9 79.98887.39899.275.694.196.8METER-Swin [9]380M4M739296.354.9 81.489.392.49999.57995.698ALBEF [21]210M4M73.1 91.49656.8 81.589.294.3 99.499.882.896.798.4METER-CLIP380M4M76.2 93.296.857.1 82.790.194.3 99.699.982.296.398.4VinVL [32]550M5.6M 75.4 92.996.258.8 83.590.3--ALIGN [14]490M1.8B7793.596.959.9 83.389.895.3 99.810084.997.498.6ALBEF [21]210M14M 77.6 94.397.260.7 84.390.595.9 99.810085.697.598.9X-VLM [31]216M4M80.4 95.598.263.1 85.791.696.8 99.810086.197.498.7X-VLM [31]216M16M 81.2 95.698.263.4 85.891.597.110010086.997.398.7TCL [30]-4M75.6 92.896.759.0 83.289.994.9 99.599.884.096.798.5GAFNet337M4M 79.81 94.8 98.65 60.29 85.292.795.9 98.99 99.08 86.21 97.12 98.3252490表4. 不同模型的召回率（#PTI=预训练图像，TR/IR=文本/图像检索）0方法 #参数 #PTI MSCOCO（5K测试集） Flickr30K（1K测试集）0表5. 多模态分类的消融研究结果（acc=准确率，M-F1=宏F1，W-F1=加权F1）0模型信息任务人道主义分类任务准确率宏F1 加权F1 准确率宏F1 加权F10GAFNet（无FFT，无预训练） 90.23 89.3 90.01 88.7 70.77 91.910GAFNet（无预训练） 92.8 90.01 91.7 92.6 71.48 93.310GAFNet（无预训练）在4M配置中的表现优于METER-Swin，尽管之前的方法要么有更多的参数，要么有更多的训练数据。METER还提供了一项实证研究，证明了视觉骨干在模型性能中的重要性。METER在从SwinTransformer到CLIP-ViT的检索任务得分方面显著提高。05.4. 消融研究05.4.1 多模态分类0如表5所示，在跳过FFT和预训练的情况下，准确率和加权F1得分几乎下降了4%。因此，FFT和预训练对于模型区分低频和高频特征至关重要。同样，在使用FFT但跳过预训练的情况下，准确率和宏F1得分下降了2%，这显示了FFT在该模型中的重要性。05.4.2 图像生成0如表6所示，在不进行预训练的情况下，IS和R-prcn都下降了2%。显然，预训练有助于学习特征的重要性，理解视觉特征与文本语义含义之间的联系。0表6. COCO上的Inception Score（IS）和Rprecision（R-prcn）0方法IS R-prcn（%）0GAFNet（无预训练） 17 . 01 ± 0 . 28 85 . 61 ± 1 . 1906. 结论0本文提出了GAFNet，一种同时从图像和文本模态学习表示的预训练网络。通过全局注意力GAF块，GAFNet准确地关注图像和文本模态信息。此外，它在前馈层中使用傅里叶变换全面捕捉不同模态之间的语义关系。GAF模块提供了一种简单的方式，将传统模态分支中的共享表示与双向共享表示相结合。我们还证明，向GAFNet添加几层可以简单地将GAFNet的优势扩展到广泛的跨模态任务。GAFNet在图像生成、多模态分类和图像-文本检索等广泛应用中提供了最先进或有竞争力的结果。我们未来的工作将集中在增加模态数量（例如音频、类别）。0参考文献0[1] https://huggingface.co/bert-base-uncased. [2] MahdiAbavisani, Liwei Wu, Shengli Hu, Joel Tetreault, andAlejandro Jaimes.社交媒体中危机事件的多模态分类。IEEE/CVF会议论文集52500计算机视觉与模式识别会议，页码14679-14689，2020年。0[3] Firoj Alam, Ferda Ofli, and Muhammad Imran. Crisismmd:自然灾害中的多模态Twitter数据集。第十二届国际AAAI网络和社交媒体会议，2018年。0[4] Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, MargaretMitchell, Dhruv Batra, C Lawrence Zitnick, and Devi Parikh.Vqa:视觉问答。IEEE国际计算机视觉会议论文集，页码2425-2433，2015年。0[5] Tadas Baltruˇsaitis, Chaitanya Ahuja, and Louis-PhilippeMorency.多模态机器学习：调查与分类。IEEE模式分析与机器智能交易，41(2):423-443，2018年。0[6] Yen-Chun Chen, Linjie Li, Licheng Yu, Ahmed El Kholy,Faisal Ahmed, Zhe Gan, Yu Cheng, and Jingjing Liu. Uniter:通用图像-文本表示学习。欧洲计算机视觉会议，页码104-120。Springer，2020年。0[7] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and KristinaToutanova. Bert:预训练的深度双向转换器用于语言理解。arXiv预印本arXiv:1810.04805，2018年。0[8] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov,Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner,Mostafa Dehghani, Matthias Minderer, Georg Heigold,SylvainGelly等。一张图片等于16x16个单词：大规模图像识别的转换器。arXiv预印本arXiv:2010.11929，2020年。0[9] Zi-Yi Dou, Yichong Xu, Zhe Gan, Jianfeng Wang,Shuohang Wang, Lijuan Wang, Chenguang Zhu, PengchuanZhang, Lu Yuan, NanyunPeng等。训练端到端视觉语言转换器的实证研究。IEEE/CVF计算机视觉与模式识别会议论文集，页码18166-18176，2022年。0[10] Akira Fukui, Dong Huk Park, Daylen Yang, AnnaRohrbach, Trevor Darrell, and Marcus Rohrbach.多模态紧凑双线性汇聚用于视觉问答和视觉定位。arXiv预印本arXiv:1606.01847，2016年。0[11] Gao Huang, Zhuang Liu, Laurens Van Der Maaten, andKilian Q Weinberger.密集连接卷积网络。IEEE计算机视觉与模式识别会议论文集，页码4700-4708，2017年。0[12] Zhicheng Huang, Zhaoyang Zeng, Yupan Huang, Bei Liu,Dongmei Fu, and Jianlong Fu.超越常规：端到端预训练用于视觉语言表示学习。IEEE/CVF计算机视觉与模式识别会议论文集，页码12976-12985，2021年。0[13] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei AEfros.条件对抗网络的图像到图像转换。IEEE计算机视觉与模式识别会议论文集，页码1125-1134，2017年。0[14] Chao Jia, Yinfei Yang, Ye Xia, Yi-Ting Chen, ZaranaParekh, Hieu Pham, Quoc Le, Yun-Hsuan Sung, Zhen Li, andTom Duerig.通过嘈杂文本监督扩展视觉和视觉语言表示学习。国际会议0机器学习会议，页码4904-4916。PMLR，2021年。0[15] Douwe Kiela, Suvrat Bhooshan, Hamed Firooz, EthanPerez, and Davide Testuggine.监督多模态双向

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于全局傅里叶自注意力的多模态下游任务网络

基于注意力的多尺度水下图像增强网络.docx

给出一个基于离散傅立叶变换的拉普拉斯机制差分隐私保护python实现代码

基于傅立叶变换时的衰减

基于傅立叶变换的matlab图像处理

傅立叶变换，离散傅立叶变换，快速傅立叶变换的区别。

用python实现一种基于离散傅立叶变换的图像差分隐私保护算法，可通过隐私预算控制噪声规模，保证隐私安全性

方位角方向上做傅里叶变换生成的傅里叶模态

multisim傅立叶分析

傅立叶变换 短时傅立叶变换

基于离散傅立叶变换的拉普拉斯机制差分隐私保护，生成类似二维码的图像，python实现

傅立叶单相素matlab

基于单像素成像的傅立叶域采样显微成像matlab

全波离散傅立叶和递推离散傅立叶算法举例

torch 傅立叶变换

阶跃函数原图像及傅立叶变换图像，以及阶跃函数傅立叶逆变换图像matlab代码

漫画傅立叶解析.pdf

matlab傅立叶变换

试简述傅立叶变换、加窗傅立叶变换、小波变换与拉氏变换的关系。

多项式乘法傅立叶变换c++

python傅立叶变换

最新资源

傅立叶变换短时傅立叶变换