没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2255获取更多论文视觉语言变换器Aisha Urooj Khan1[0000−0001−6521−2512],Hilde Kuehne2,3[0000−0003−1079−4441],Chuang Gan3[0000−0003−4031−5886],Niels Da VitoriaLobo1[0000−0001−5354−2805],和穆巴拉克沙阿一世[0000−0001−6172−5572]1University of Central Florida,Orlando,FL,USA2歌德大学法兰克福,法兰克福,黑森州,德国3麻省理工学院-IBM沃森人工智能实验室,美国马萨诸塞州剑桥抽象的。用于视觉语言表示学习的Transformers已经引起了人们的极大兴趣,并在视觉问题回答(VQA)和接地方面表现出了巨大的性能。但是,大多数在这些任务中表现良好的系统仍然依赖于在训练期间预先训练的对象检测器,这限制了它们对这些检测器可用的对象类别的适用性。 为了缓解这一限制,下面的文章集中在变压器中的视觉问答的背景下,弱监督接地的问题。 该方法通过在视觉编码器中对每个视觉标记进行分组来利用胶囊,并使用来自语言自我注意层的激活作为文本引导的选择模块,以在将这些胶囊转发到下一层之前对其进行屏蔽。 我们评估我们的方法上具有挑战性的GQA以及VQA-HAT数据集VQA接地。我们的实验表明:虽然从标准Transformer架构中删除掩蔽对象的信息会导致性能显着下降,但胶囊的集成显着提高了此类系统的接地能力,并提供了与该领域其他方法相比新的最先进的结果4。关键词:视觉背景,视觉问答,视觉与语言1介绍使VQA系统能够解释对于各种应用都很重要,例如帮助视力受损的人导航[17,67]或帮助放射科医生早期诊断致命疾病[1,68]。在这些应用中,仅产生良好应答精度的系统是不够的。相反,用于此类用途的VQA系统在理想情况下还应提供答案验证机制,接地是获得这种直接验证的令人信服的方法4代码将在https://github.com/aurooj/WSG-VQA-VLTransformersarXiv:2207.02334v1 [cs.CV] 2022年7+v:mala2255获取更多论文2A. Urooj等人图1:(a)提出的架构:给定问题-图像对,网格特征用于使用胶囊编码层获得视觉胶囊。然后使用文本Transformer层的[CLS]标记的输出嵌入进行胶囊特征选择。然后将具有位置信息的所选胶囊编码输入到视觉编码器。我们使用每个文本Transformer层的句子嵌入来为每个视觉Transformer层选择胶囊。然后,所选择的胶囊与视觉编码器中前一层的输出一起输入到下一个视觉Transformer层。最后,交叉注意块允许两种模式之间的细粒度交互来预测答案。(b)建议的视觉语言Transformer与VQA的注意监管 我们看看最后一层头上的[IMG]令牌的自我注意力。这些映射表明,该模型自动学习将相关对象接地,从而导致弱监督接地VQA(GVQA)。 蓝色框是基本事实,橙色框是预测框。在自然语言处理和多模态理解取得成功之后,各种基于transformer的方法被引入视觉和语言的联合表示学习以及各自的下游任务,包括VQA。这些方法,例如,[37,43,60]通常基于由预先训练的对象检测器[29]生成的检测对象的区域掩模进行训练。在输入时间提供对象掩模的假设将检测限制为仅预训练的对象,并且存在丢失图像上下文信息的风险无检测器方法避免了这种对预训练对象类的偏见,同时更简单,更快,因为它们不需要从预训练对象检测器中提取基于区域的特征。因此,其他工作[10,24,31,52]集中在消除对对象检测器的依赖性,同时实现相当的性能(如果不是更好的话)(例如,检索和VQA任务)。之间+v:mala2255获取更多论文视觉语言转换器3中VQA的弱监督接地这些,[10]和[52]也通过定性示例显示了良好的视觉表示,但没有提供对其答案(或问题)基础能力的评估在这项工作中,我们要解决这个问题,并专注于在视觉语言Transformer为基础的系统中的VQA任务的弱监督接地的问题与无检测器参考表达式接地[7,41,64]相比,VQA打破了区域描述始终是输入短语的一部分的假设,因为答案词可能不存在于输入问题中。因此,仅仅学习文本和图像特征之间的直接映射是不够的,还需要处理多个图像-文本映射步骤,它们之间的正确关系为了解决VQA接地变压器为基础的架构与问答监督的任务,我们提出了一个通用的扩展的视觉语言转换器的视觉编码器部分的视觉胶囊层的基础上,连同文本引导的选择模块。胶囊网络学习将神经元分组为视觉实体。因此,他们试图捕捉实体(对象)和它们之间的关系,在各种视觉检测和分割任务上取得了有希望的结果[13,14,34]。为了在transformers的上下文中利用这种能力,我们将输入以及中间层的特征令牌转移到胶囊编码,其中最相关的将由并行语言编码器的文本令牌选择。我们建议将Transformer层与这种掩蔽的残留胶囊编码交织。该扩展提供了视觉输入路由和基于文本的掩蔽的组合,其显著地提高了此类系统的视觉基础能力。我们评估现有的方法,以及具有挑战性的GQA和VQA-HAT数据集上提出的方法。为此,我们考虑从这些方法中获得的注意力输出,并根据各种指标进行评估,即重叠,交集和指向游戏的准确性。我们对原始架构的研究结果显示,任务准确性和现有方法的基础之间存在显着差距,这表明现有的视觉语言系统远远没有学习到实际的基础表示。所提出的方法弥合了差距,并在重叠,交集和指向游戏精度方面优于最佳竞争者,在不使用注意力监督的方法中,它在VQA-HAT[8]数据集上也实现了最佳性能(就平均秩相关性得分而言)。我们总结了我们的架构的贡献如下:a)我们提出了一个胶囊编码层来生成基于胶囊的视觉令牌的变压器;b)我们提出了一种具有残余连接的文本引导的胶囊选择,以在每个编码步骤引导视觉特征;以及c)我们提出了可以集成在各种视觉语言架构中的通用2相关工作视觉语言表征学习。学习健壮的视觉语言表示是目前一个活跃的研究领域[30],并取得了令人印象深刻的进展+v:mala2255获取更多论文∈凌晨4 Urooj等人下游任务,包括VQA [6,35,37,38,42,43,46,59,60]。这些方法中的大部分依赖于使下游任务更简单的对象检测。一些作品试图避免这种对对象检测的依赖性,并使用空间特征或图像块显示出相当的性能[23,24,31,36]。我们的工作也属于后一类,并使用网格特征作为输入。弱监督接地和VQA。弱监督视觉接地是很好地研究了图像中的短语接地[3,5,7,9,41,61,64]。很少有作品也专注于视频中的短语接地[22,58,65]。然而,很少注意已经支付给VQA接地尽管有意义的许多关键应用。 有许多作品使问题视觉接地[48,53,57,62,70,71],但只有少数作品专注于评估他们的接地能力[8,26,28,51,55,57]。 GQA利用来自Visual Genome数据集的场景图,为问题和答案提供视觉基础标签,从而可以评估VQA逻辑基础。最近,xGQA[49]作为GQA基准的多语言版本被引入GQA[26]和[28]讨论了接地能力VQA系统的评估另一方面,VQA-HAT[8]提供了人类注意力地图,用于在游戏启发的注意力注释设置中回答 一些方法[44,51,66]评估他们的系统在VQA-HAT上机器生成的注意力和人类注意力地图之间的相关性。然而,随着转换器的出现,如当前的SOTA,重点转向VQA任务的这些系统的接地能力。不幸的是,这些基于变压器的方法还没有集中在弱监督接地的评估然而,只有少数真实世界的数据集提供接地标签,这使得这项任务具有挑战性。因此,我们微调现有的三个检测器免费Transformer的方法GQA和评估他们的弱接地任务。变形金刚胶囊有几个工程谁集中在结合变压器和胶囊的想法[12,16,40,45,47,50,63]。例如,[63]研究文本摘要,图像处理和3D视觉任务;[47,50]使用胶囊变压器架构进行图像分类,[40]使用胶囊变压器进行股票走势预测。 据我们所知,还没有人研究过VQA接地用的电容器与变压器的组合。3提议的方法给定一个包含图像I和问题Q的输入图像-问题对,我们希望仅使用VQA监督来定位相关的问题和答案对象我们从两个流的视觉语言模型开始,其中语言编码器Le引导视觉编码器Ve的输入和中间再现。 语言编码器Le的输入文本是来自词汇表V的单词标记的序列,在单词标记的开始和结束处附加有特殊标记[CLS]和[SEP]。作为视觉编码器的输入,我们的模型将卷积特征作为图像嵌入。卷积特征XR_h×W×D_1是从预先训练的ResNet模型,h,w是特征高度和宽度,d1是+v:mala2255获取更多论文CLSjmcjmcCLSjmcCLSVJMCVQA在Vision-LanguageTransformers 5(a) 胶囊编码层(b)胶囊层图2:(a)胶囊编码层:网格特征X′∈Rh×w×d被变换为每个空间位置的胶囊X c。输出嵌入h1[2019 - 05-15][2019 - 05 - 15][2019 - 05 - 15]第一文本编码器层生成用于胶囊选择的掩码M1所选胶囊1沿胶囊维度展平,以获得一组视觉标记(长度为h w)其中每个令牌由x1表 示 ,j ={1,2,.,hw}; x1∈Rdc,其中dc=胶囊然后,使用完全连接的层对维度D进行上采样以建模维度D。位置嵌入被添加到视觉标记中,特殊标记[IMG]位于位置0.然后将输出封装体编码输入到可视Transformer,以供将来执行步骤。(b)胶囊层:类似于胶囊编码,输入令牌X′首先是转化为胶囊Xc。对应于[CLS]标记的输出要素h i从文本编码器,层i学习视觉编码器中的层i处的特定胶囊的存在概率。该掩码mi选择对应于文本编码器层i处的关注单词的胶囊。然后将得到的胶囊压平并进行上采样(表示为dbyxxi),并将d添加到先前视觉变换器的输出hi-1中l ayeri− 1tooobtaininputfeatureshi−1forthenextvisualtransformerl ayeri.提取的特征尺寸。然后,2D卷积层产生大小为Rh×w×d的嵌入X ′,其中d是模型维度大小。 这些输入嵌入用于产生如第3.2节中所解释的胶囊编码Xc。在下文中,我们首先解释在SEC中使用胶囊的动机。3.1节中的胶囊编码细节。3.2节中胶囊的文本引导选择3.3,以及基于文本的剩余连接。三点四 我们在结束本节时概述了第二节中的预训练过程。并在第3.5节中描述VQA下游任务的详细信息4.1.3.1胶囊网络心理学中存在大量令人信服的证据,人类通过对部分和整体之间的视点不变空间关系进行建模,将视觉场景解析为部分-整体层次结构[18,27]神经网络可以像人类一样从理解图像中获益,从而变得更加透明和可解释。然而,标准NN缺乏这种动态表示每个图像的不同部分-整体层次树结构的能力[19]。这种无能促使人们引入了一种称为胶囊网络的模型[20],后来在[56]中正式化。 胶囊网络是一种神经网络,它被设计为比卷积神经网络(CNN)更明确地建模部分-整体层次关系,通过使用神经元组来编码实体并学习这些实体之间的关系。X+v:mala2255获取更多论文∈∈×××--∈ ××∗ ∈∈CLSCLS早上6 Urooj等人胶囊的有前途的性能可以归因于它们通过不同胶囊层之间的协议路由[56]来学习对象实体的部分-整体关系的能力胶囊由一组神经元表示;每个胶囊层由多个胶囊组成,多个胶囊层可以堆叠在一起。胶囊路由是在相邻胶囊层之间发生的非线性、迭代和类聚类过程,通过迭代地校准路由系数γ,将层n中的部分胶囊i动态分配给层n + 1中的对象胶囊j [54]。 与大多数以前的作品使用对象类的损失来学习一组胶囊类不同,我们没有任何可用于胶囊的对象级监督,而是通过将胶囊交错作为变压器内的中间层来结合变压器和胶囊的功能,并使用VQA监督将视觉实体建模为胶囊。3.2胶囊编码我们使用矩阵胶囊[21]如下:给定图像嵌入X′Rh×w×d,矩阵胶囊XcRh×w×dc,如图2(a)所示,如下所示:图像嵌入X′输入到卷积层,产生主胶囊Xp,其中每个胶囊具有大小为K K的姿态矩阵和激活权重。 主胶囊层为每个空间位置输出Cp个胶囊。姿态的输出维数为Rh×w×Cp×K×K,激活的输出维数为是Rh×w×Cp×1。为了将每个胶囊视为单独的实体,姿态矩阵和对于每个胶囊将激活分组在一起因此,初级胶囊Xp的尺寸为Rh×w×dp,其中dp=Cp(K K+1)。然后,主胶囊通过EM路由层以投票给下一层中的胶囊 假设我们在下一层中有Cv个胶囊,路由产生胶囊编码Xc,其中XcRh×w×dc,dc=Cv(K K+1)。我们在两层中使用相同数量的胶囊,即, C = Cp= Cv。我们的系统采用胶囊表示Xc作为视觉嵌入。由于transformers将一系列标记作为输入,因此我们将胶囊嵌入在空间维度上进行扁平化,以获得长度为hw的视觉标记序列,其中每个视觉标记由xjRdc表示,其中j为1,2,.,hw。然后,将一个特殊的可训练令牌[IMG]连接到这些令牌,以形成最终的视觉记号集[IMG],x1,x2,.,xhw.可学习的位置嵌入是添加到这些视觉标记中,以保持序列中空间位置的概念除[IMG]外,每个视觉标记都由C胶囊表示。3.3文本引导胶囊选择由于语言编码器在每一层处理不同的单词,因此我们根据每个视觉编码器层的文本表示来选择视觉胶囊设hi为第i个文本编码器层;我们将特征输出h1与来自第一个文本编码器层和输入到一个完全连接的层。输出是Clogits,后跟softmax函数,以学习出席的存在概率m1∈RC+v:mala2255获取更多论文MCCLSCLSCLSjmcVJvjmcjmcjmcVJjmcMC视觉语言转换器7中VQA的弱监督接地第一层的单词将此掩码应用于Xc以选择相应的胶囊,屏蔽掉其余部分,得到屏蔽的胶囊表示X1。m1= softmax(m(h1))。(一)1=m1<$Xc(2)屏蔽仅应用于视觉标记xj,而不影响[IMG]token.3.4基于文本的剩余连接为了保持中间层之间的胶囊表示,我们通过剩余连接将胶囊添加到每个中间视觉编码器层的输入输入到中间层的胶囊也是基于从文本编码器输出的中间特征来选择的。设mi为概率掩模对于来自第i层的文本特征输出h i中的参与词:mi=softmax(m(hi)),则i ∈ {1,2,., L},(3)并且xi表示具有使用掩码Mi选择的可视胶囊的第j个令牌。国际新闻通讯社=miXc,(4)第i个视觉编码器层从第(i-1)层获取特征,特征hi用于第j个位置。 设f i为视觉编码器中的第i层。的输出和输入遵循以下符号:hi= f i(hi−1)。(五)vjvv j为了保持从文本到图像的推理流程,我们建议添加残差通过将xi添加到ith的输入,从第j个编码器层。然而,xi∈Rdc和hi−1∈Rd。我们使用全连接层σ将xi上采样到维度大小d并得到上采样的基于胶囊的特征向量x∈Rd。视频的输入编码器层将如下:hi−1=fi(hi−1+xi)的。(六)vjvjj mc然后将来自两个编码器的输出特征序列输入到我们的交叉注意模块,该模块允许两种模态之间的标记级注意。在交叉关注之后,对应于[CLS]和[IMG]标记的聚合特征输出被输入到特征池层,然后是用于预训练和下游任务的相应分类器。我们在补充中详细讨论了特定于模态的编码器,特征池和交叉注意的实现。XX+v:mala2255获取更多论文∼早上8 Urooj等人3.5培训为了表现良好,transformers需要在对下游任务进行微调之前对大规模数据集进行预训练,即,在我们的案例中,GQA和VQA-HAT因此,我们首先在三个预训练任务上预训练我们的capsules-transformer主干:图像-文本匹配(ITM),掩蔽语言建模(MLM)和视觉问答(VQA)。该系统分为两个阶段进行预训练:首先,我们对特定于模态的编码器进行联合训练,仅用于学习文本引导的胶囊表示;在编码器中学习的表示在预训练的第二阶段保持固定,我们在模态编码器的顶部添加交叉注意块,允许文本特征和视觉特征之间的令牌级交互。虽然预训练的第一阶段使用来自文本和视觉编码器的池化特征,但第二阶段在交叉注意之后池化特征:因此,第二阶段预训练任务使用跨模态输入作为语言和图像特征。有关我们方法背景下的预训练任务的详细信息,请参见补充资料中的第1.2节。我们最终微调了预训练的capsules-transformer骨干,以解决VQA作为我们的下游任务。4实验和结果4.1数据集前期训练。我们使用MSCOCO[39]和Visual Genome[33]来预训练我们的骨干。我们使用与[60]相同的数据,其中还包括基于MSCOCO的VQA 数据集:Visual7W,VQAv2.0和GQA。然而,我们从预训练和微调中排除了GQA验证集,因为我们评估了这个集的基础我们使用MSCOCO和VG的训练集与7.5M的图像对进行预训练。MSCOCO val set用于验证预训练任务。下游我们考虑下游任务的两个数据集,GQA [26]和VQA-HAT [8]。GQA以组合问题回答的形式提出视觉推理它需要多跳推理来回答这个问题,所以GQA是VQA的一个特例GQA在关系、空间和多跳推理问题的覆盖方面比VQA 2.0更加多样化它有22M QA对和113K图像。GQA为问题和答案对象提供了地面实况框,使其成为我们任务的合适测试平台。VQA-HAT数据集为VQA任务提供了人类注意力地图该数据集基于VQA v1.0[2]数据集,在验证集中提供了1374个QA对和488个图像。为了评估这个数据集,我们在VQA v1.0上训练了我们的系统。VQA训练集的答案词汇具有长尾分布。我们遵循以前的作品[2,8],并使用1000个最常见的答案。 我们首先将训练数据(248,349个QA对)和验证数据(121,512个QA对)结合起来,得到总共368487个QA对。然后,我们过滤出的问题与词汇表外的答案产生318827问答对。+v:mala2255获取更多论文−−× ×−VQA在Vision-LanguageTransformers 94.2评估指标对于GQA,VQA准确度报告任务准确度。对于transformers上的接地任务,我们将注意力分数从[IMG] token到所有头部的最后一个交叉注意层的答案基础性能根据以下方面进行评估:重叠-答案对象的地面实况边界框与检测到的注意区域之间的重叠根据精确度(P)、召回率(R)和F1分数(F1)进行 P、R和F1评分。指点游戏-对于指向游戏,我们认为从每个头部检测到的点作为分布的一部分,并对这些点进行k-均值聚类(k=1)聚类中心被认为是从系统中检测到的点对于VQA-HAT,我们报告了系统生成的注意力和人类注意力地图之间的平均等级相关性,以与以前的方法进行比较。4.3实施细节。我 们 在 文 本 和 图 像 编 码 器 中 使 用 L=5 层 , 在 交 叉 注 意 模 块 中 使 用 2 层 。Transformer编码器层具有与BERT相同的配置,具有12个磁头和特征尺寸d=768。批量大小为1024,学习率lr=1e4用于预训练。第一阶段预训练在第二阶段,进行20个epoch,并进一步训练10-15个epoch。我们使用Imagenet预训练的ResNet模型来提取尺寸的特征7 72048年 对于GQA的微调,我们使用批量大小=32,lr = 1e55-10个训练周期。对于VQA-HAT,我们使用批量大小=64,lr=4e5训练了20个时期。为了评估接地结果,我们遵循DINO[4]的最佳实践,并从最后一个交叉注意层中获取注意力地图。为了计算GQA的重叠和IOU,我们使用0.5的注意力阈值对注意力图进行阈值处理,以获得高注意力区域。每个连接区域被认为是一个检测。对于指向游戏,我们找到了一个单一的集群中心最大的关注点,我们忽略了指向游戏的空地面实况地图的测试样本,因为没有地面实况边界框来检查命中或未命中。对于VQA-HAT评估,我们遵循[8]并使用生成的注意力图和地面真实值之间的平均秩相关性。4.4与最新技术水平的我们将我们的方法的性能与弱监督VQA接地和VQA领域的其他最佳方法进行了比较,即MAC[25]和MAC-Caps[28]作为视觉推理架构的表示,LXMERT[60],ViLT[31]和ALBEF[36]作为没有对象特征的最先进的Transformer架构。+v:mala2255获取更多论文↑××↑↑↑↑↑↑↑上午10 Urooj等人方法层指向游戏帐户随机-18.80中心-33.30[25]第二十五话是说8.90[28]第二十八话是说28.46LXMERT[60]最后29.00ALBEF[36]-GC最后32.13[36]第三十六话最后32.11ViLT[31]最后11.99Ours-no-init(C=16)最后34.59Ours-no-init(C=32)最后34.43Ours-nogqa(C=32)最后37.04表1:GQA的指向游戏准确性。对于MAC和MAC-Caps,使用推理步骤上的对于基于transformer的方法,来自所有头部的最大然后,聚类中心用于指向游戏评估。对于ALBEF,GC=GradCAM输出,ATN=注意力输出。Ours-no-init是带有残余连接的完整模型,从头开始训练,Ours-nogqa在预训练阶段不使用GQA样本数字以百分比报告对于LXMERT,我们采用提供的骨干对对象特征进行预训练,并使用GQA上大小为32 32 3的在ViLT的情况下,我们使用提供的预先训练的骨干并在GQA上对其进行微调。在ViLT之后,我们使用图像和单词标记之间的余弦相似性来生成热图,以评估所有三个指标的相似性分数以及对接地性能的原始关注。对于ALBEF,我们报告了最后一层以及第8层的结果,第8层专门用于使用gradcam的可视化以及原始注意力地图进行接地[36]GQA我们首先看一下我们对GQA的评估结果,表1中考虑了指向游戏的准确性,表2中考虑了重叠和IOU。我们的方法优于MAC和MAC-Caps的答案接地上最后的注意力地图。我们实现了16.47%的绝对增益(重叠F1分数)和2.67%的增加IOU F1分数,并提高了25.69%,在指向游戏的准确性MAC。与MAC-Caps相比,我们的最佳方法(C=16,无初始化)将重叠F1分数提高了15.71%,IOU F1分数提高了2.32%,指向游戏准确性提高了6.13%。对于问题基础,观察到类似的性能增益,重叠F1分数提高了38.2%,IOU F1分数提高了3.67%。为了评估在图像块上微调的LXMERT(LXMERT-块),我们从最后一个跨模态层获取注意力得分图我们比LXMERT提高了12.01%的绝对分数,相对于F1分数,2.23%w.r.t. IOU F1得分和5.43%的指向游戏准确性增益。对于问题基础,LXMERT实现了重叠F1分数:43.08%(与我们的59.69%)和IOU F1-评分4.62%(与我们的5.96%)。ViLT的VQA准确率为66.33%,优于所有方法然而,在接地任务上,它展示了所有指标的最低性能+v:mala2255获取更多论文视觉语言转换器中VQA的弱监督接地11重叠IOU方法目标骨干预训练层Acc.P R F1PRF1[25]第二十五话57.09 5.050.76 3.70 1.27[28]第28话55.13 5.4627.99.130.97 4.94 1.62LXMERT贴片更快的RCNN MSCO,VG last48.65 7.130.95 8.66 1.71[36]第三十六话 V i T +BERT最后64.16 6.94 99.92 12.98 0.89 13.43 1.67[36]第三十六话一ViT+BERT摩根士丹利资本国际,VG,最后64.20 5.13 99.929.75 0.64 12.98 1.21[36]第三十六话 V i T +BERT海湾合作委员会战略局8 64.20 4.41 99.928.44 0.54 12.85 1.04[36]第三十六话ViT+BERT 8 64.20 4.82 99.929.19 0.60 12.88 1.14[32]第三十二话:最后一个cos 66.33 0.346.130.650.040.63 0.07ViLT [32]一ViTSBU,GCC last-ATN4.100.530.081.200.15我们的(C=16)一ResNet摩根士丹利资本国际,VG最后56.6514.53 85.4724.84 2.3013.61 3.94[25]第二十五话QResNet-last57.09 10.79 16.382.09 1.67[28]第二十八话QResNet-last55.13 17.392.96 2.29LXMERT贴片Q更快的RCNN MSCO,VG last48.65 32.466.87 4.62ALBEF[36]-GCQViT+BERT最后64.20 22.15 99.909.22 3.24[36]第三十六话QViT+BERT MSCO,VG,last64.20 16.50 99.90 28.338.90 2.43ALBEF[36]-GCQViT+BERTSBU,GCC 864.20 14.218.71 2.09[36]第三十六话QViT+BERT 864.20 15.518.77 2.27ViLT [32]ViLT [32]QQViTViTMSCO、VG、SBU、GCC最后一个cos 66.33 1.025.641.730.10最后-ATN 66.33 0.341.560.56零点零八0.540.380.170.14表2:GQA验证集的结果(最后一层)。所有的方法进行了评估弱VQA接地任务。对于基于transformer的模型,注意力在所有头部上平均结果基于答案(A)和问题(Q)中引用的对象的基础。C=胶囊数量,我们报告了C=16的最佳模型的结果。更多变体请参见表4。对于ViLT,我们使用余弦相似性(cos.)文本和图像特征之间的关系,以及作者提出的原始注意力分数(ATN)。对于ALBEF,GC是用于评估的gradcam输出,ATN是注意力输出。ALBEF使用第8层作为接地层,我们也报告了该层的接地性能我们的方法优于重叠F1分数和IOU F1分数的所有基线更多详情请参见第4.4节。数字以百分比报告。(表1:第7行,表2:第8-9行)。在问题基础任务中也观察到类似的行为。ALBEF使用GradCAM生成可视化。我们使用GradCAM输出和注意力地图与ALBEF进行比较。ALBEF有很高的召回率(R)无论是在重叠和IOU方面然而,它缺乏精确度(P),导致两个指标的F1分数较低。我们最好的模型在回答接地和问题接地方面都优于ALBEF-VQA。VQA-HAT我们在VQA-HAT数据集上进一步评估我们的系统。为此,我们遵循VQA-HAT协议,将人类注意力图和系统输出的注意力图调整为14 x14的通用分辨率。然后我们对他们俩进行排名。VQA-HAT val set为每个问题提供了三个人类注意力地图我们计算生成的注意力图与每个人类注意力图的等级相关性,并取平均值。报告了所有QA对的平均等级相关分数我们的(C=16)QResNet摩根士丹利资本国际,VG最后56.6547.0381.6759.69 4.728.08 5.96+v:mala2255获取更多论文±12 A. Urooj等人平均秩相关法随机0.000 0.001人0.623 ±0.003无监督SAN[66] 0.249 ± 0.004HieCoAtt[44]0.264 ± 0.004我们的(C=16)0.479±0.0001监督HAN[51]0.668 ± 0.001表3:VQA-HAT val数据集的结果无监督:无注意力监督,监督:使用注意细化。图3:VQA-HAT数据集的成功案例。VQA-HAT为每个图像提供3个人类注意力图。在这里,我们展示了最佳匹配的地面实况地图(GT HAT)。我们将我们在VQA-HAT上的方法与三种不同的基线进行比较:SAN[66]和HieCoAtt[44]作为无监督的无边界框系统,以及HAN[51]在训练期间使用注意力监督。评价结果见表3。它表明,所提出的系统是能够显着优于这两种方法使用VQA只监督。在训练过程中没有任何注意力监督,我们能够缩小无监督方法与HAN等方法之间的差距,HAN在训练过程中使用人类地面真实注意力地图。图3显示了VQA-HAT上的成功案例,将我们生成的注意力结果与最接近的人类注意力地图进行了比较。+v:mala2255获取更多论文↓视觉语言转换器中VQA的弱监督接地13重叠借条指向方法Acc.PRF1P R F1游戏(1)无跳跃(C=32)五十六点八三|11.06 77.60 19.37 |1.39 9.852.4329.81(2)w/skip(C=32)五十五点四十一分|10.09 71.95 17.70 |1.4110.09 2.4734.43(3)w/skip(C=16)56.65 |14.53 85.47 24.84 |2.30 13.61 3.9434.59(4)w/skip(C=24)56.26 |10.90 74.03 19.00 |1.54 10.56 2.6931.08(5)w/skip(C=32)五十五点四十一分|10.09 71.95 17.70 |1.4110.09 2.4734.43(6)w/skip(C=48)53.65 |10.28 68.94 17.89 |1.59 10.73 2.7829.70(7)无初始化(C=32)五十五点四十一分|10.09 71.95 17.70 |1.4110.09 2.4734.43(8)维生素E初始值(C=32)58.86 |11.11 74.67 19.34 |1.55 10.44 2.69 27.06表4:GQA验证集上申报架构设计选择的消融。采用最后一层Transformer中所有头的平均关注度来评估接地性能。我们用C=32个胶囊进行消融研究,除了第3-6行,我们用不同数量的胶囊训练所提出的架构消融(1)no skip是我们的系统,没有剩余连接,(2)w/skip是完整的模型。图7和图8是来自预先训练的视觉(ViT)和文本(BERT)转换器的权重初始化的消融。4.5消融和分析剩余连接的影响 我们将完整系统与无残余连接的消融变体进行比较。我们观察到重叠方面的性能下降在没有剩余连接的情况下,指向游戏的准确率低于有剩余连接的游戏(4.62%)。我们的结论是,使用剩余连接是有益的指向游戏。胶囊数量我们用不同数量的胶囊消融我们的系统。我们用C=16、24、32和48个胶囊训练所提出的系统。我们观察到,胶囊数量的增加不仅降低了VQA的准确性,而且在精度,召回率和F1分数方面损害了重叠和IOU。因此,我们最好的方法是使用16个具有剩余连接的胶囊,并从头开始进行预训练。ViT+ BERT+ Ours。ViLT和ALBEF从ViT和/或BERT权重初始化它们的图像和文本编码器。虽然我们的模型比这两个模型都浅(与ViLT和ALBEF中的12层相比,模态特定编码器中的5层),但我们尝试使用BERT权重初始化我们的文本编码器,并使用最后5层的ViT权重初始化图像编码器我们发现VQA精度有所提高(58.86% vs. 56.65%),但会损害接地性能。4.6定性分析在图4中,我们展示了我们的方法与基线方法的一些定性比较对于所有的例子,包括我们的系统预测错误答案的例子,基础注意力是正确的(第1、4和5行)。而且,这些答案似乎是合理的。例如,在第3行中,正确的答案是“aircraft”,我们的方法预测它是具有正确定位的总的来说,我们注意到,与我们的方法相比,基线要么参加了大多+v:mala2255获取更多论文14 A. Urooj等人图4:定性比较:每行显示输入示例,最后一层的注意力可视化(所有头部的平均值)以及所有方法的预测答案。第1列显示了问题和真实答案,第2列是输入图像,第3列显示了我们的方法输出的注意力,第4-7列是基线的结果。蓝色框是答案对象的真实边界框,橙色框是每个系统中检测到的区域。我们可以看到,即使预测与地面真实答案不匹配,我们的答案也与合理的预测答案相关(第3-5行)。在第4行中,问题是模糊的;因此我们可以说,除了LXMERT,所有方法都选择了正确的答案。ALBEF将注意力分散在所有图像上,这解释了它在重叠和IOU方面实现的高召回率。更多详细信息和讨论请参见第4.6节。最好用彩色看。图像(第1、3和5行中的ALBEF,这解释了表2中的高召回率),或生成小的注意力图(MAC-Caps,ViLT)或看图像的错误部分(LXMERT)。更多的例子和分析在补充文件中5结论在这项工作中,我们展示了VQA的准确性和现有的SOTA变压器为基础的方法的接地能力之间的权衡我们建议使用文本引导的胶囊表示结合Transformer编码器层。我们的结果表明,所有接地指标的所有基线都有显着改善大量的实验证明了所提出的系统的有效性超过基线。+v:mala2255获取更多论文视觉语言转换器中VQA的弱监督接地15引用1. Abacha,A.B.,Hasan,S.A.,达特拉,V.V.,刘杰,Demner-Fushman,D.,Müller , H. : Vqa-med : imageclef 2019 上 的 医 学 视 觉 问 答 任 务 概 述 CLEF(Working Notes)2(2019)2. Antol,S.,阿格拉瓦尔,A.,卢,J,Mitchell,M.,Batra,D.,Zitnick,C.L.,Parikh,D.:VQA:可视化问答。在:IEEE计算机视觉国际会议论文集。pp. 24253. Arbelle,A.,Doveh,S.,阿尔法西,A.,Shtok,J.,Lev,G.,Schwartz,E.,Kuehne,H.,Levi,H. B.,Sattigeri,P.,潘达河,等:无检波器弱监督隔离接地arXiv预印本arXiv:2104.09829(2021)4. Caron,M.,Touvron,H.,米斯拉岛,Jégou,H.,Mairal,J.,Bojanowski,P.,Joulin,A.:自监督视觉转换器的新兴特性(2021)5. 陈凯,高,J.,内华达河:弱监督短语接地的知识辅助一致性。IEEE计算机视觉与模式识别会议论文集。pp. 40426. Chen,Y.C.,Li,L.,Yu,L.,(1991 - 1995),美国,El Kholy,A.,Ahmed,F.,Gan,Z.,郑,Y.,Liu,J.:Uniter:学习通用图像-文本表示(2019)7. 陈志,马,L.,Luo,W.,黄嘉琪:弱监督时空背景下的视频自然语句arXiv预印本arXiv:1906.02549(2019)8. Das,A.,Agrawal,H.,Zitnick,C.L.,Parikh,D.,巴特拉,D.:人类在视觉问题处理中的注意力:人类和深度网络看的是同一个区域吗自然语言处理经验方法会议(EMNLP)(2016)9. Datta,S.,Sikka,K.,罗伊,A.,Ahuja,K.,Parikh,D.,Divakaran,A.:Align2ground:由图像标题对齐引导的弱监督短语接地。在:IEEE/CVF计算机视觉国际会议上。pp. 260110. Desai , K. , Johnson , J. : VirTex : Learning Visual Representations fromTextual Annotations.在:CVPR(2021)11. Devlin,J.,Chang,M.W.,Lee,K.,Toutanova,K.:Bert:用于语言理解的
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功