没有合适的资源?快使用搜索试试~ 我知道了~
2074TRAR:在Transformer中路由注意广度以实现可视化问答周毅毅12,田河任12,晁阳朱12,苏小帅12*,刘建庄3,丁兴浩2,徐明亮4,季荣荣121厦门大学信息学院媒体分析与计算实验室2厦门大学信息学院3华为诺亚{zhouyiyi,xssun,dxh,rrji} @ xmu.edu.cn,{rentianhe,cyzhu} @ stu.xmu.edu.cn刘建庄@ huawei.com,iexumingliang@zzu.edu.cn摘要由于Transformer及其变体在全局依赖建模方面的卓越能力,它已成为许多视觉和语言任务的首选。然而 , 在 诸 如 视 觉 问 答 ( VQA ) 和 指 称 表 达 理 解(REC)的任务中,多模态预测通常需要从宏观到微观的视觉信息。因此,如何在Transformer中动态调度全局和局部依赖建模已成为一个新的课题。在这篇文章中,我们提出了一个依赖于示例的路由方案,称为Transformer路由(TRAR)来解决这个问题1。具体来说,在TRAR中,每个可视化Transformer层都配备了一个具有不同注意广度的路由模块。该模型可以根据前一步推理的结果动态地选择相应的注意力,从而为每个实例制定最优的路由路径。值得注意的是,通过仔细的设计,TRAR可以将额外的计算和内存开销减少到几乎可以忽略不计。为了验证TRAR,我们在VQA和REC的五个基准数据集上进行了广泛的实验,并实现了比标准变压器和一堆最先进的方法更优越的性能增益。1. 介绍在自然语言处理领域[60,10,74,9,27]中占据主导地位之后,Transformer [60]也成为许多视觉和语言(VL)任务的首选[14,7,30]。越来越多的研究者[3971,79,58,22]遵循Transformer*通讯作者。1源代码:https://github.com/rentainhe/TRAR-VQA/标准Transformer预测:绿色消防栓附近的石头是什么颜色的TRAR预测:布朗图1:我们的Transformer Routing(TRAR)和传统静态Transformer的图示。圆圈表示自我注意模块,它们的颜色代表不同的注意广度(感受野)。TRAR可以为每个示例动态地调度注意广度。提出各种多模态网络,在各种基准上实现新的最先进性能[14,30,28,7]。他们的成功很大程度上归功于自我注意的超全局依赖模型,它不仅可以捕捉模态之间的关系,而且可以促进视觉和语言的对齐。然而,在视觉问题回答(VQA)[14]和指称表达理解(REC)[30]等V-L任务中,多通道推理往往需要来自不同感受野的视觉注意。如图为了回答这个问题,模型不仅要理解整体语义,更重要的是,它还需要捕获局部关系。在这种情况下,仅仅依靠SA中的全局依赖建模仍然不足以满足这样的要求。这一发现也得到了最近发展的im-年龄变形金刚[38,62]这样的问题在端到端的多模态推理中变得更加突出在Jiang等人之后。 [25]揭示了良好的预训练网格特征也可以具有表达性去2075为了提高可写入能力,最近的努力[22,41,76]已经开始重新追求单级VL模型的设计。然而,与广泛使用的检测特征[2]相比,网格特征的语义信息更加碎片化。因此,SA的全局依赖性建模更有可能在注意期间引入噪声,从而干扰模型推断,例如关联不相关的区域。为了解决这个问题,帮助Transformer网络探索不同的注意力跨度已经成为一个新兴的需求。一个直观的解决方案是建立一个动态的混合网络,其中每一层都有一组不同感受野的注意力模块。然后,模型可以选择合适的,根据给定的例子。然而,这种解决方案的直接应用可能会适得其反,因为额外的参数和计算将进一步加剧模型成本,这已经是Transformer [27]的主要批评。在本文中,我们提出了一种新的轻量级路由方案称为Transformer路由(TRAR),它实现了自动选择的注意力与可忽略的额外计算和内存开销。具体来说,TRAR为每个视觉SA层配备了一个路径控制器,以根据前一步的输出预测下一个注意广度(或感受野)[45]。为了解决冗余参数和计算的问题,TRAR将SA视为密集连接图的特征更新函数[79],并为定义的注意广度构建不同的邻接掩码。之后,模块选择的任务定义可以转换为掩模选择的任务定义,在很大程度上减少了额外的成本。为了验证TRAR,我们将其应用于两个多模态任务VQA和REC的单阶段Trans- former网络,并在五个基准 数 据 集 VQA2.0 [14] , CLVER [28] , RefCOCO[68],Ref-2010 [10]上进行了广泛的实验COCO+ [68]和RefCOCOg [43]。实验结果不仅证实了TRAR在故障Transformer网络上的优点,而且还在多个基准测试2 上 显 示 了 新 的SOTA 性 能,例如, VQA2.0 [14]为72.7,RefCOCOg [43]为68.9。总之,本文的主要贡献有三个方面:• 我们揭示了注意广度的问题,这是至关重要的端到端的变压器的发展。• 我 们 提 出 了 第 一 个 示 例 依 赖 的 路 由 方 案 的Transformer动态调度全局和局部的注意力,这需要可以忽略不计的额外计算和内存开销。• 建议的TRAR有助于单级变压器2单个模型没有进行大规模BERT风格的预训练。在VQA和REC的多个基准数据集上实现新的SOTA性能。2. 相关工作2.1. 视觉问题回答视觉问答(VQA)是基于给定图像回答人类问题的任务。它是-10被认为是一个具有固定类别的分类任务[3,14,28]。VQA的快速发展得到了各种基准数据集[1,3,14,28,29,32,52]和方法[13,59,66,67]的出现的支持。72、54、46、77、78、79、80]。随着Trans-former网络的流行[60],VQA的最新进展也诉诸于堆叠多个注意力层,例如,双线性注意层[31]或自我注意层[71],用于捕获模态内和跨模态的关系。NLP [11]中大规模无监督预训练的成功进一步推动了Transformer及其变体在VQA中的普及,导致大规模VL预训练的新趋势[39,40,58,55,22]。2.2. 指称表达理解指称表达理解(REC)是一项基于给定的自然语言表达在图像中定位(定位)目标区域的任务[30],也称为视觉定位。近年来,随着一系列方法的快速发展[6,49,20,19,69,67,76,41],可以大致分为两大类。第一种是多阶段建模[6,49,20,19,69,67],它通常将REC视为度量学习问题,即基于给定表达式从一组建议/对象中选择最佳区域。在这些方法中,构建了两种模态的联合嵌入网络,用于计算每个区域-表达对的匹配度[67]。另一种是单阶段建模,[65,76,41,64],其将REC视为语言引导的检测任务。这些方法通常将语言编码器嵌入到YOLOv3 [51]等检测网络中,并执行多模态回归以获得所指对象。在本文中,我们主要集中在单级建模的REC。2.3. 动态神经网络动态神经网络是深度学习中的一个新兴研究与传统的静态网络结构不同,动态网络可以在推理过程中使其结构或参数适应给定的示例,从而产生吸引人的特性,如更好的表示能力、自适应性、兼容性和通用性[15]。根据体系结构设计,动态网络的研究可以分为三个主要方向,2076不∈∈不n√d√dD,(3)αiSoftmax√dDini=0时图2:一级变压器的拟议Transformer路由(TRAR)方案的框架解码层的不同颜色表示不同跨度的视觉注意力通过TRAR,Transformer可以动态选择每一步的视觉注意广度,从而形成每个示例的最优推理路径。它们是用于网络提前退出[5]或跳层[35,61]的动态深度、用于跳过神经元[4]或信道[37]的动态宽度、以及用于多分支或树结构网络[21,34,63]的动态路由。我们的方法属于最后一个方向。大多数现有的动态路由模型[34,63]都建立在超级网络上,其中每个路由选项都是一个独立的模块。虽然可以通过分类选择或预算约束来保持推理效率[34],但网络参数和计算在训练期间非常冗余,这导致对实验资源的巨大需求。然而,从Eq。1我们可以看到这样的路由方案不可避免地会使网络变得非常繁琐,并且大大加剧了训练开销此外,由于SA中的点积操作,Trans- former长期以来一直因其昂贵的计算和内存占用而受到批评[27]。在这种情况下,优化路径路由的定义以减轻实验负担是至关重要的通过重新审视标准自我关注的定义,定义为:X′=SA(X)=AXWv,. (XWq)XWkΣ3. Transformer路由(二)所提出的Transformer路由(TRAR)的框架在图中给出。2.在下面的小节中,我们将介绍它的路由过程,路径控制器,注意广度,优化和网络结构。3.1. 路由过程为了实现每个示例的动态路由(选择)的目标,直观的解决方案是创建多分支网络结构,其中每一层都配备有不同设置的模块。具体来说,鉴于fea-最后一个推理步骤X∈Rn×d的结果和路由我们可以看到,当ARn×n被视为加权邻接矩阵[79]时,SA可以被视为全连通图的特征更新函数。在这种情况下,为了获得不同注意广度的特征,我们只需要限制每个输入元素的图连接。它可以通过在点积运算之后放置一个邻接掩模DRn×n来实现,该掩模用于计算所有元件之间的耦合系数。其配方为:. (XWq)XWk空间,F =[F0,...,Fn],其中n表示fea-tures和d是特征尺寸,下推断步骤X′通过以下获得:X′=<$αiFi(X),(1)其中D的值是二进制的,并且如果它们是在目标元素3的注意范围内。因此,注意力只在定义的范围内进行。基于等式在图3中,用于SA的路由层然后被定义为:i=0时Σ。(XWq)TXWkΣ路径控制器(在第3.2节中描述),F是一组模-ules. 在测试过程中,α可以被二进制化为硬选择,或保持连续以获得软路由[34]。(四)3在部署期间,零值将被一个较大的负值替换。消防栓附近的石头是什么颜色的?GLoVe+LSTM...语言编码器CNN多模态路由解码器预测器A=Softmax、A=Softmaxα是由预测的路径(选择)概率哪里SAR(X)=XWv,2077××××LJJ其中Wq、Wk和Wv可以在不同SA层之间共享,从而减小参数大小。然而,Eq。4仍然是计算昂贵的。因此,我们进一步将模块选择的问题简化为相邻掩码D的选择,定义为:Tn. (XWq)XWkΣΣDSAR(X)=Softmax√i=0时 αiDi XWv.(五)从等式 5我们可以看到额外的计算并且存储器占用可以减少到几乎为0,并且仍然可以实现从不同注意广度中选择特征XiXtXiXt3.2. 路径控制器在TRAR中,每个视觉SA层配备有路径控制器以预测路由选择的概率,即,模块选择。具体地,给定输入特征X∈Rn×d,路径概率α∈Rn被定义为:α=Softmax( MLP(fatt)),(6)f att= AttentionPool(X)。这里,MLP指的是多层预测器,AttentionPool是基于注意力的池化方法[71]。当量6可以由其他控制器设计(如门控功能[34])代替。但在实验中,我们发现这种基于softmax的预测器更有效。3.3. 注意广度注意广度表示注意力特征的感受野,其定义在自然语言处理(NLP)和计算机视觉(CV)社区中并不新鲜[57,45,50]。在计算机视觉中,Parmar et al. [45]借用了卷积的滑动窗口设计,以使每个视觉区域在受约束的感受野内与其相邻区域相互作用,例如,3 3或5 5。我们的定义与它类似,除了我们使用来自图拓扑[12]的序邻域的概念来表示不同程度的注意广度,例如, 一阶邻域等于3 3,二阶邻域等于5 5,以此类推.该定义允许大多数元素位于at的中心。(a) 标准(b)TRAR图3:我们的路由模块在多模态解码层[71]上的实现的图示。Xi和Xt分别表示视觉和文本特征。SAR是SA路由层。Add Norm分别表示加法和层归一化,FFN是前馈网络[60]。argminw,ztrain(w,z),其中w和z分别是Transformer和控制器的权重。在测试期间,不同注意广度的特征被动态地组合,这类似于大多数软路由方案[34]。由于软路由不需要额外的超参数调整,因此相对容易训练。效率也不受动态特征聚集的影响,如第2节中所分析的第3.1条硬路由。硬路由是为了实现二进制路径选择,可以进一步引入特定的CUDA内核[45,50]来加速模型推理。然而,分类路由使得控制器的权重不可微,并且直接将软路由的结果二值化可能导致训练和测试之间的特征间隙。为了解决这个问题,我们引入了Gumbel-max技巧[24]来实现差分路径路由,即,替换等式中的softmax。5Gumbel softmax:张力跨度,这在理论上也与exp((log(πi)+gi)/τ)(七)第节中定义的路由过程。第3.1条αi=Σ、exp((log(π)+g)/τ)3.4. 优化在 本 文 中 , 我 们 提 供 了 两 种 类 型 的 推 理 方 法TRAR,即软路由和硬路由。软路由。如等式1所示。5.通过应用软极大函数,我们将路由路径的范畴选择放宽为一个连续可微的运算 。 然 后 , 控 制 器 权 重 可 以 根 据 任 务 目 标 与Transformer权重联合优化,即、其中gi是从Gumbel(0,1)[24]中提取的i.i.d样本,τ是softmax温度,π是对数softmax概率。在初始训练阶段,τ被设置为较大的值,例如,10,并将随着训练的进行而减少。当τ接近0时,Gumbel softmax变为one-hot,这与分类分布相同。在优化方面,我们可以使用链式规则来计算从Transformer网络到控制器的路径梯度。添加规范FFN添加标准SA添加标准SAQKV添加规范FFN添加标准SA添加标准SARQKVJ2078××××× ××3.5. 网络结构我们基于[71]提出的代表性多模态Transformer(也称为MCAN)构建路由网络。具体地说,类似于标准的Trans- former [60],MCAN具有六个编码层,用于对LSTM [17]提取的语言特征进行建模,以及六个解码层,用于同时处理视觉特征和在部署过程中,我们将可视SA模块替换为建议的路由模块,即,当量5,如图所示。3.第三章。在VQA中,路由网络使用卷积神经网络(CNN),例 如 , ResNetx-101 [25] , 作 为 视 觉 骨 干 。 在Transformer 的 语 言 和 视 觉 输 出 之 后 添 加 了 两 个AttentionPooling层[71],其中两种模态的注意力特征向量被组合为联合表示,然后是用于多标签分类的多层预测器。REC的网络结构类似于VQA的网络结构。不同之处在于,我们应用了额外的多尺度融合方案[41]来增强网格特征的描述能力,遵循[41]中的设置。对于REC,我们使用YOLOv3 [51]的回归层作为预测因子。4. 实验为了验证所提出的TRAR,我们将其应用于两个高度竞争的V L任务,即视觉问题回答(VQA)[14]和指称表达理解[30](REC,也称为视觉接地),并在五个基准数据集上进行了广泛的实验,VQA 2.0 [14],CLVER [28] , RefCOCO [68] , Ref-2010 [14] , Ref-COCO [16],Ref-COCO [17],Ref-COCO [18],Ref-COCO [19]。COCO+ [68]和RefCOCOg [43]。4.1. 数据集VQA2.0[14]是基于VQA1.0 [3]开发的广泛使用的VQA基准数据集。它还使用来自MS-COCO [52]的图像,并且具有大约1,105,904个VQA示例,其中分别有443,757、214,254和447,793个示例用于训练、验证和测试。与VQA 1.0相比,数据集分布更加均衡。RefCOCO(UNC RefExp)[68]在MS-COCO [36]的19,994个图像中有50,000个边界框的142,210个引用表达式,这些图像被分为训练,验证,测试A和测试B,分别具有120,624,10,834,5,657和5,095个样本。这些表达通常是短句,平均长度为3.5个单词。测试A是关于人的,而测试B是关于物体的。RefCOCO+[68]在来自MS-COCO的19,992个图像中具有49,856个框的141,564个表达式。它也被分为序列(120,191)、val(10,758)、测试A(5726)和测试B(4,889)的分段。与RefCOCO相比,它的表达式包括比绝对位置更多的外观(属性)[30]来描述目标框。RefCOCOg(Google RefExp)[43]在MS-COCO的25,799个图像中有49,822个框的95,010个表达式。该分割分别具有85,474和9,536个样本用于训练和由于测试集未发布,我们使用val分割的UNC分区[68,67]进 行 验 证 和 测 试 。 与 上 述 两 个 数 据 集 相 比 ,RefCOCOg中的表达式以非交互方式收集,长度更长(平均8.4个单词)。CLEVR [28]是Johnson等人引入的合成VQA数据集。[28],旨在检查各种推理技能,例如、关系和计数。它包含70K图像和700K问题。公制。对于VQA2.0,我们使用VQA准确度[3]作为评估指标,而在CLEVR上,使用分类准确度。对于REC基准测试,我们遵循[30]中的设置,使用IoU准确性作为度量,即,当预测的边界框和地面实况边界框之间的重叠度(IoU)大于0.5时,预测是正确的4.2. 执行大多数VQA和REC的TRAR部署是相似的。LSTM[17]用作语言编码器,其维度设置为512。输入文本单词由GLOVE [47]嵌入初始化,其维度为256.所有transformer都有6个编码层用于语言建模,6个解码层用于视觉注意和多模态交互[71]。自我注意力和FFN的维度分别为512和2,048,注意力头数为8。对于路径控制器,其隐藏维度为1,024。对于GumbelSoftmax,温度τ的最大值设置为10.0,而最小值为0.1。τ更新人:τi=τmax−(τmax−τmini)*i/(m−1),(8)其中i表示第i个时期,并且m是总训练时期的数量。在VQA2.0上,视觉骨干是ResNext152 [25]在VisualGenome[32]上预训练的。它的网格特征首先是填充到16 × 16的规模,然后通过步长为2的内核大小2进行池化。所以变压器的分辨率是8 8.我们定义了3个邻接掩码,其邻域顺序为1、2、3,对应于3 3、55和77的大小。在CLEVR上,主干是数据集提供的ResNet-101[16],其特征的分辨率为13 13。 我们在CLEVR上使用第一和第三的训练时期的数量VQA和CLEVR分别为13和16,其中前三个时期是模式变暖。批量大小设置为64。学习率都被设置为1e -4,其在第10、13和15个时期衰减0.2。在三个REC数据集上,我们使用DarkNet [51]作为骨干。为了与SOTA方法进行公平比较[73,67,2079××VQAREC表1:VQA2.0valset和RefCOCO。* 表示仅计算参数-表3:与VQA2.0上的最新技术水平的比较,其中具有单个模型并且没有大规模预训练。测量Transformer的尺寸。 [18]这是一个很好的例子。计算效率表2:路由选项w.r.t. VQA2.0val集合和RefCOCOval集合上的邻域或- ders。0* 表示未使用掩码。订单TRARSTRARHTRARSTRARH[0*]67.367.375.875.8[0,1]67.667.576.276.5[0,1,2]67.767.676.776.9[0,1,2,3]67.667.677.676.1[0,1,2,3,4]--77.577.364],我们测试了两个主干,它们分别在完整和不完整的MSCOCO数据集[67]上进行了预训练。我们使用Layer26、Layer43和最后一层的输出作为输入视觉特征,由多尺度融合模块[41]处理,输出尺度为十三十三第一、第二、第三和第四顺序的邻接掩码用于TRAR。批量大小设置为64,训练时期的数量为45,其中3个用于模型加热。 学习率都设置为1e -4,即在第20和30个历元衰变。4.3. 实验分析消融术。我们首先将建议的TRAR与VQA和REC上的一组基线进行比较,其结果见表1。1.在选项卡中。Base表示默认的多模式Transformer,并且Routing是指在等式1中定义的传统路由方案。1. Routing_W_S表示Routing的权重共享设置,如等式(1)中所定义。4.具有 软 路 由 和 硬 路 由 的 TRAR 分 别 被 表 示 为 TRARS 和TRARH。从Tab。1,我们可以观察到所有路由方案都可以为Transformer带来性能改进,最高可提高+4%*具有分辨率为16 × 16的网格特征。RefCOCO测试A改进这样的结果验证了我们的注意广度路由的动机。值得注意的是,参数大小和计算TRAR的额外成本非常小。相比之下,传统的路由方案,即,路由,分别增加约66%和184%。更重要的是,在大多数指标上,TRAR可以稍微优于Routing和RoutingWS,显示其在模型训练中的更好的效率。这些观察结果有力地证实了TRAR的优点。我们还研究了TRAR的路由空间的影响,即。,邻域顺序的选择,如Tab. 2.第一个观察结果是添加局部注意力掩模,即,1阶,可以导致明显的性能改善,这验证了局部依赖性建模在VQA和REC中的重要性。我们还发现,高阶掩模的好处不太明显,其接收场接近标准SA。另一个发现是TRAR在高分辨率特征图上工作得更好,例如。REC的那些,具有13 13的标度。这样的优点也在CLEVR的实验中得到证实,如表1中所示。4.第一章与SOTA比较。在VQA2.0上进一步比较了TRAR和SOTA方法。结果见表。3.第三章。可以看出,TRAR不仅表现优于这些变形金刚,而且在这个竞争激烈的基准上达到了新的SOTA我们还在其他广泛使用的基准CLEVR [28]上验证了TRAR,其结果见表4。CLEVR是一个专注于视觉推理的数据集,与VQA2.0相比,问题通常更长,更复杂在CLEVR上,TRAR的性能增益变得更加明显,这进一步证实了路由注意广度的有效性。与REC的SOTA方法的比较结果如下Test-dev测方法所有是/否Num.别人所有[59]第五十九话65.3281.8244.2157.2665.67Pythia [26]68.49----BAN [31]70.0485.4254.0460.5270.35[46]第四十六话70.2286.0953.3260.4970.34ReGAT [33]70.2786.0854.4260.3370.58MCAN [71]70.6386.8253.2660.7270.90[79]第十九话71.1686.8754.2961.5671.50MMNAS [70]71.2487.2755.6861.0571.46基地71.4587.4353.8061.81-TRARS72.0087.4354.6962.72-TRARH71.8287.4953.8462.52-VQA段*MAdds所有是/否Num.基地45M2.8G67.385.049.1路由67M8.0G67.785.350.3路由WS45M8.0G67.585.149.4TRARS45M2.8G67.785.249.6TRARH45M2.8G67.685.249.9REC段MAddsVal种皮TestB基地45M2.8G75.877.068.5路由73M9.2G75.178.470.0路由WS45M9.2G75.578.769.8TRARS45M2.8G77.680.170.7TRARH45M2.8G77.379.670.42080表4:与CLEVR最新技术水平的比较* 表示使用程序注释方法整体计数存在组件编号查询属性补偿属性人类[28]92.6086.7096.6086.4095.0096.00电影[48]97.6094.5099.2093.8099.2099.0[53]*97.7096.0098.7098.0098.4097.60[56]*98.3096.5098.8098.4099.1099.0[44]*98.7096.8098.9099.1099.4099.60MAC [23]98.9097.2099.5099.4099.3099.50NS-CL [42]98.9098.2098.8099.0099.3099.10基地98.5496.3499.2498.6099.4398.93TRARS99.0097.5399.5599.1099.6699.12TRARH99.1097.6599.5499.4299.6299.40表5:与Ref-COCO、RefCOCO+和RefCOCOg的现有技术的比较。* 表示在完整的MS-COCO数据集上预训练RefCOCORefCOCO+ RefCOCOg如Tab所示。5.从该表中,我们可以首先观察到TRAR相对于Transformer的性能增益在REC上更明显,例如,RefCOCO+测试A的+9%。同时,与现有的单阶段SOTA相比,TRAR在性能上也表现出明显的优势,表明其对V L任务的泛化能力。与效率较低的两阶段方法相比,TRAR的总体性能仍然是优越的。总之,这些结果极大地验证了TRAR的有效性。我们相信其对越南社区的贡献是重大的。(a) VQA2.0(b)CLVER(c)RefCOCO图4:具有硬路由(TRARH)和软路由(TRARS)的TRAR的路由熵的变化。4.4. 定性分析图4描绘了TRAR的路由熵的变化。从该图中,我们可以看到,在短时间的训练之后,软路由和硬路由的熵显著下降,表明该模型已经能够选择注意广度。不同之处在于,随着训练的进行,软路由的熵将变得稳定,而硬路由的熵将继续减小,直到它接近零。为了更深入地理解TRAR的推理过程,我们还在图1中对推理过程中的注意力进行了可视化。5.我们将其结果与第一子图中的标准Transformer的结果进行比较。可以看出,Transformer的注意力往往是发散性和随机性的,很容易将目标区域与不相关的区域联系起来,正如我们在第二节中分析的那样1.一、以第一个例子为例,给定公交车的目标区域,Transformer相比之下,从这些示例中,我们可以看到TRAR可以基于前一步的输出动态地选择注意广度,这与其目标一致。同时,这种注意路由方案也可以提高自注意建模的容错性从第二子图的第一示例可以看出,TRAR也可以容易地注意到不正确的区域。两步种皮TestB种皮TestBVal测试监听器[69]73.164.960.049.659.359.2VarCN [75]73.367.458.453.2--PAtt[81]*75.365.561.350.8--[73]*76.967.560.049.6--床垫网[67]80.469.370.356.066.767.0一步种皮TestB种皮TestBVal测试FAOA[65]74.966.361.949.559.458.9SSG [8]*76.567.562.149.3-58.8RSC [64]*80.572.368.456.867.367.2GIN [76]78.772.767.254.262.762.3GIN [76]81.177.365.557.465.565.6基地77.068.462.351.962.962.3TRARS80.170.767.954.964.164.2TRARH79.671.365.153.563.362.5TRARS *81.478.669.156.168.968.3TRARH *81.577.366.957.866.165.82081TRAR:自行车架TRAR:徒步旅行(1) 问:什么在上演公共汽车的前面?Transformer:标志(2)问:受试者在做什么?(a) TRAR与Transformer的比较Transformer:立式(1)问:门上面的画叫什么?预测:涂鸦G.T:涂鸦(4) Q:紫色小块左边有一个绿色大物体;和那个紫色的橡胶形状一样吗?预测:没有G.T:没有(2)问:有没有男孩?预测:是的G.T:是的(5) 问:大的发光物体的颜色和小球的颜色一样吗预测:没有G.T:没有(3) 问:三明治上的绿色物质是什么预测:生菜G.T:生菜(6) 问:灰色圆柱体和小球的材质是一样的吗预测:是的G.T:是的(7) Exp:Man on the Ground(8) Exp:Kid in front(9)Exp:Guy with the bat(b) 关于VQA和REC的注意事项图5:TRAR中注意力的可视化。由红色框包围的区域表示所选网格的注意广度,即, 有红点的那个。TRAR可以帮助模型使用不同的注意力跨度来调度全局和局部依赖建模。但是,随着路径路由的进展,它的注意力可以调整到正确的区域,帮助模型回答问题。这些吸引人的性质也在REC的实施例中得到证实。5. 结论在本文中,我们研究了两个视觉和语言任务,即VQA和REC的Transformer的依赖建模。这两项任务通常需要来自不同感受野的为此,我们提出了一个轻量级 的 和 有 效 的 路 由 方 案 , 称 为 Transformer 路 由(TRAR),以帮助模型动态地选择每个例子的注意广度。特别是,TRAR将模块选择问题转化为选择注意掩码之一,从而使得附加的计算和存储器开销可以忽略。为了验证TRAR,我们在5个基准数据集上进行了大量的实验,实验结果大大证实了TRAR的优点。鸣 谢 本 工 作 得 到 国 家 杰 出 青 年 科 学 基 金( No.62025603 ) 、 国 家 自 然 科 学 基 金( No.U1705262 ) 、 国 家 自 然 科 学 基 金(No.1705263)、国家自然科学基金(No.1705262)的 资 助 。 62072386 , 编 号 62072387 号 62072389 、62002305、61772443、61802324国家博士后科学基金(2021T40397)、广东省基础与2082应用基础研究基金(2019B1515120049)和中央高校基础研究基金(2019B1515120049)。20720200077号20720200090号20720200091)。2083引用[1] Aishwarya Agrawal , Dhruv Batra , Devi Parikh , andAnirud- dha Kembhavi.不要只是假设;看一看并回答:有视觉问答的前科。CVPR,2018年。[2] Peter Anderson,Xiaodong He,Chris Buehler,DamienTeney,Mark Johnson,Stephen Gould,and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在IEEE Conf. Comput.目视患者记录,2018年。[3] Stanislaw Antol , Aishwarya Agrawal , Jiasen Lu ,Margaret Mitchell,Dhruv Batra,C Lawrence Zitnick,and Devi Parikh.Vqa:可视化问答。在国际会议计算中目视,2015年。[4] Emmanuel Bengio ,Pierre-Luc Bacon ,Joelle Pineau ,and Doina Precup.用于更快模型的神经网络条件计算。arXiv预印本arXiv:1511.06297,2015。[5] Tolga Bolukbasi , Joseph Wang , Ofer Dekel , andVenkatesh Saligrama.用于高效推理的自适应神经网络。国际机器学习会议,第527-536页。PMLR,2017年。[6] Kan Chen,Rama Kovvuri,and Ram Nevatia.查询引导的回归网络与上下文政策的短语接地- ing。国际计算机视觉会议,第824-832页[7] XinleiChen , Hao Fang , Tsung-Yi Lin , RamakrishnaVedan-tam , SaurabhGupta , PiotrDol la´r , andCL awrenceZitnick. Microsoft coco字幕:数据收集和评估服务器。arXiv预印本arXiv:1504.00325,2015。[8] Xinpeng Chen,Lin Ma,Jingyuan Chen,Zequn Jie,Wei Liu,and Jiebo Luo.单级接地网实时引用表达式的压缩。arXiv预印本arXiv:1812.03426,2018。[9] Zihang Dai , Zhilin Yang , Yiming Yang , JaimeCarbonell,Quoc V Le,and Ruslan Salakhutdinov.变压器-xl:超越固定长度上下文的注意语言模型。arXiv预印本arXiv:1901.02860,2019。[10] Jacob Devlin,Chang,Kristina Toutanova。Bert:为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv:1810.04805,2018。[11] Jacob Devlin,Chang,Kristina Toutanova。Bert:用于语言理解的深度双向变换器的预训练。NAACL,第4171- 4186页[12] Olivier Duchenne , Francis Bach , In-So Kweon , andJean Ponce. 基 于 张 量 的 高 阶 图 匹 配 算 法 。 IEEETransactionsonPatternAnalysisandMachineIntelligence,33(12):2383[13] Akira Fukui , Dong Huk Park , Daylen Yang , AnnaRohrbach,Trevor Darrell,and Marcus Rohrbach.多模态紧凑双线性池的视觉问题回答和视觉接地。arXiv预印本arXiv:1606.01847,2016。[14] Yash Goyal、Tejas Khot、Douglas Summersstay、DhruvBatra和Devi Parikh。让vqa中的v变得重要:提升图像理解在视觉问答中的作用。在IEEE Conf. Comput.目视模式识别,2017年。[15] Yizeng Han , Gao Huang , Shiji Song , Le Yang ,Honghui Wang,and Yulin Wang.动态神经网络:一份调查报告。arXiv预印本arXiv:2102.04906,2021。[16] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun. 用 于 图 像 识 别 的 深 度 残 差 学 习 在 IEEE Conf.Comput.目视模式识别,第770-778页[17] Sepp Hochreiter和Jurgen Schmidhuber。长短期记忆。神经计算,1997年。[18] Andrew G Howard,Menglong Zhu,Bo Chen,DmitryKalenichenko,Weijun Wang,Tobias Weyand,MarcoAn- dreetto,and Hartwig Adam. Mobilenets:用于移动视觉应
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功