没有合适的资源?快使用搜索试试~ 我知道了~
可视化接地的多模态动态图形Transformer
15534可视化接地的多模态动态图形Transformer陈思佳,李宝春多伦多大学电气与计算机工程sjia. mail.utoronto.ca,bli@ece.toronto.edu摘要视觉基础(VG)旨在将图像的正确我们发现,现有的VG方法被困的单阶段接地过程,执行一个单独的评估和排名精心准备的地区。它们的性能取决于可定位区域的密度和质量,并且由于不能连续地优化所定位的区域而为了解决这些问题,我们建议将VG改造成一个逐步优化的视觉语义对齐过程。我们提出的多模态动态图Transformer(M-DGT)通过建立以区域为节点、以它们的语义关系为边的动态图结构来实现这一点。从几个随机初始化的区域开始,M-DGT能够进行可持续的调整(即,2D空间变换和删除)到图的节点和边,从而有效地收缩图以接近地面实况区域。实验表明,在平均48个框作为初始化的情况下,M-DGT在Flickr 30 k实体和RefCOCO数据集上的性能在准确性和Intersect over Union(IOU)分数方面都大大优于先前最先进的方法。此外,引入M-DGT对现有方法的预测区域进行优化,可以进一步显著提高其性能。源代码可在https://github.com/iQua/M-DGT获得。1. 介绍视觉基础(VG)是计算机视觉与自然语言处理交叉学科中的一个重要课题。重点是从给定的图像和句子中对齐语义上一致的短语-区域对,一般的视觉基础问题可以扩展到短语定位[5,9,36]和指涉表达式组合。[17,28].然后,包括翻译在内的任务[24],跨模态检索[14],图像标题[5,39]和视觉查询回答[1,38]可以受益于对齐的短语-区域对。虽然近年来已经有了重大突破,但我们注意到,所提出的最先进的VG方法[3,6,7,16,18,20,27,28,42,46]的主体遵循一步评估和排名匹配体系结构。使用这种架构的方法评估图像中的区域以选择正确的区域,这是一个单次执行的过程,无需连续优化。现有的工作[16,19,20,27,42]依赖于区域建议建立基于候选区域的模型,并从这些区域进行一次预测。在一些具有神经注意力机制的作品[6,18,43]中,注意力分数被分配给粗略区域,这些区域被细化一次以生成接地盒。这种结构的固有问题是,一步解决复杂的非线性匹配问题会导致局部最优导致区域-短语匹配结果不佳,从而导致短语匹配区域无法进一步调整。例如,如果在预测区域和地面实况区域之间存在显著偏差,则现有工作不能调整区域以接近目标。我们的实验证明了这一点,因为这些作品的准确性随着Intersect over Union(IOU)阈值的增加而大幅下降。最近的一些作品[9,33,41]试图通过引入渐进学习的思想来缓解这种匹配架构中的问题。Dogan等人。[9]通过顺序执行短语接地实现了这一点,而Sun等人。 [33]提出了通过强化学习迭代缩小检测区域以定位目标的想法。然而,它们仍然被困在一步匹配体系结构中,因为在学习过程中任何匹配步骤的失败最终都会产生差的结果。在这项工作中,我们打破了这种设计的限制,提出了一个基于搜索的视觉接地机制。更具体地说,我们将VG改造成一个逐步优化的视觉语义对齐过程。通过这样做,可以连续地优化简单初始化区域以接近目标区域。为了实现这一目标15535⊂∈∈主要的挑战是以所需的最小成本将每个区域中的信息从本地传递到全球。受著作[16,20,40]的启发,空间区域和多模态输入中的高度结构化信息可以通过图论建模。基于这些见解,我们提出了一个多模态的D-DGT变换器(M-DGT),该框架将区域视为节点,将语义关系视为边,使得逐步接近地面真值区域的过程等同于图的变换。M-DGT首先从几个简单的初始化区域构造一个图,然后根据多模态信息和图的特征不断变换节点和对应于目标图的节点的图像区域与查询中的语义最对齐。M-DGT采用基于图的渐进式搜索方法,在后续学习中不断修正前一次变换的偏差,减轻变换失败对最终结果的影响,提高了鲁棒性。此外,M-DGT通过在多模态图结构中对区域之间的空间关系和跨模态本文的原创性贡献如下。首先,我们将VG重新定义为一个渐进优化的视觉语义对齐过程,使得VG可以被分解为易于渐进求解的子问题。其次,我们提出了一种新的多模态动态图Transformer(M-DGT),将搜索匹配区域-文本的过程第三,M-DGT快速、准确,通用性强。从几个简单的初始化区域开始,我们的框架可以逐渐获得更紧密的短语匹配区域,而不会丢失目标,使其能够在任意数据集上工作。最后,在两个任务中,包括Flickr 30 k实体上的短语本地化和三个RefCOCO数据集上的引用表达理解,M-DGT不仅实现了最先进的精度,而且还产生了具有高Intersect overUnion(IOU)分数的边界框。2. 相关工作视觉基础(VG)的更广泛定义包括短语定位[3,9,16,19,20,27,28,29,36,42,46]和所指的表达理解[6、16、21、24、37、43、45]。短语定位的目的是从给定的图像和句子中提取语义对齐的短语-区域对引用表达式理解需要模型通过指定图像中的相应区域来响应查询。VG最近的工作遵循非常相似的一步评估和排名匹配架构。Es-特别是由作品[16,27,29,36,46]所示,该模型被训练以评估准备好的区域并为查询选择正确的区域。通过使用对象提议方法或预先训练的对象检测方法(例如RCNN [31]和自下而上的注意力[1])生成候选区域。然后,大多数作品利用排名功能[22,25,36],如最大边缘排名损失,从这些候选查询中找到匹配的区域查询[42]提出了一种通过将文本查询嵌入到YOLOv3 [ 30 ]中的一步方法然而,这样的方法仍然基于高密度初始化盒进行单个预测。其他注意力方法,包括[24,26,43],从各种多模态数据中提取注意力以突出目标区域,然后进行一次细化以获得边界框。最近的作品倾向于基于渐进学习的思想来建模VG。作品[4,6,9,11,18,33,41]设计了模型,以逐渐调整预测区域或注意力分数来调整边界框以定位匹配的区域-文本对。[9]将短语接地重新表述为序列标记任务,而[4]则提出利用语义关系迭代推理并建立估计。与我们的主要想法最相关的是作品[11]和[33]。他们利用渐进式边界框细化架构来调整框,使其更接近地面实况。具体来说,在工作[33]中,作者将VG形式化为图像级收缩过程的序列,从而在每次迭代中调整图像块以逐渐接近目标。然后,我们的工作也受到工作的激励[7]。他们提出,一个简单的Transformer编码器层堆栈是学习多模态对应关系的有效方法。近年来,广泛使用的图形结构[38,48]也被引入到许多最先进的方法[16,20,37]中的视觉接地域。由于图是组织多模态信息中结构化关系的一种自然方式,因此本文建立了视觉静态图和语言静态图。然后,提出了高级工具,包括图形注意机制[37],图形匹配技术[16,203. 问题设置和概述以文本查询t和原始图像M R H×W作为输入的视觉基础的目标是定位与查询中的P个短语具有相同语义的正确图像区域L M。 我们的目标是学习一个视觉基础模型,可以逐渐调整一组初始的边界框,以产生最紧密的视觉区域的文本查询。这些边界框B =(b1,b2,...,bZ)R Z×4大致为生成以覆盖整个图像而没有重叠。因此,在本发明中,地面实况区域和这些信息之间的大偏差15536G∈∈×.Σbo,F不,Fo我.我我M-DGT组件外部模块匹配分数×修剪图1.我们提出的用于视觉接地的M-DGT的管道概述。M-DGT通过多模态动态图结构,使初始化盒逐步逼近目标区域。这是通过节点Transformer和图形Transformer来实现的,它们被平滑地组合在一起以进行端到端训练。候选项B使得不可能使用单独的评估和排名过程来预测匹配的区域短语对。因此,我们将视觉基础重新表述为索引为o的迭代搜索过程。我们的迭代模型被设计成调整B的坐标以渐进地获得正确的区域我们将其称为渐进优化的视觉-语义对齐学习。在这样的迭代学习过程中存在三个问题。首先,2D转换学习过程应该被建模为依赖于多模态的上下文语义和相对空间信息。其次,由预测的2D变换系数调整的B应该在每次迭代中接近相应的第三,需要高效率。M-DGT通过节点变换器Transformer调整节点,通过图形变换器Transformer细化图形布局,逐步高效地获得为了有效地训练M-DGT,我们还提出了一种迭代感知的训练方法。4.1. 多模态图的构造给定一个图像和文本查询,M-DGT的第一阶段是多模态图构造模块,该模块基于边界框和语义关系生成图。基本上,图中的每个节点νi对应于图像中的一个边界框。因此,节点在图中的位置由其边界框bo的中心ci=(yc,xc)确定。视觉特征在这项工作中,我们解决这些问题的背景下,通过应用roiAlign获得节点的Fbo∈Rdb多模态图结构G通过显式建模io边界框作为节点ν,多模态语义关系作为边E。我们通过开发节点Transformer实例化了有效的多模态区域语义推理,用于图中的2D变换学习。我们的进一步的模块,由注意力机制支持的图Transformer,通过修剪图的节点和边来减轻迭代过程中的接地歧义。此外,效率我们的框架也受益于这种不断减小的图尺度。图形结构,包括布局和[12]对于主干视觉有限元上的单标度盒bi真地图FIR H'×W'×C.此外,我们插入文本到每个节点,以促进区域语义推理。 文本特征表示为F tRP×dt,其中每个p短语特征通过对BERT[8]产生的最后一层标记级向量进行平均来获得。此外,通过线性投影,视觉和文本特征被映射到维度为d的公共空间。最后,在.图G包含空间和多模态信息,即,我B节点/边的信息,迭代O上的变化,使我们的框架4. 模型架构我们现在详细介绍我们的多模态动态图Transformer(M-DGT)中的组件设计。如图1中整个模型流水线的概述所示,M-DGT通过动态图结构对逐步优化的视觉语义对齐过程进行建模。具体地说,当o=0时,具有单个尺度的初始框集128、步幅128和恒定的宽高比(1,1)被生成以覆盖图像。至于边,每个盒子都连接到它最近的邻居。我们将介绍-附录第3节中的尾部。当o >0时,如图1所示,这些现有的节点和边仅被变换和修剪以有助于视觉基础。4.2. 节点Transformer节点Transformer在所建立的具有节点特征bo、Ft、Fbo的多模态图上进行操作,旨在将左边的西装F不BoFBo多模态图构造节点Transformer022第四章b、F、F4不BOO847(b8o,Ft,Fb8o)1ν我节点感知νN交叉模态编码器Bo空间感知解码器FI我≡宽×高BoBo+1局部图布局注意事项子图聚合图形Transformer41b8o+184712240ROIAlign语言嵌入节点idCNNu15537a47−0a47−47a47− 1毫米a47−22毫米^F.Σ^^不不量a∈∈IJi和节点j不不不我W'H'W'H'W'H'W'H'Fi=norm(hT→I+Fv)。我|ximin−xjmin|、|yimin−yjmin|,Δwi,ΔhiX^不∈ ∈∈∈tBN,iF表示节点i及其邻居Ni的响应分数,uihT→I短语P。然后,我们得到多模态语义匹配节点i及其邻居节点j的X得分aij如下:不公式1F我等式2:aexp.ΣPuexp[ci]sjXiBN,is=1,(二)ai∈RP×(Ni+1)^aij=0k∈(Ni,i)expPs=1 uisexp[ci]sk其中j∈(N,i)。一 ∈R(Ni+1).i^i、 作为注意力得分,图2.节点感知的跨模态en图2的右上角呈现了直接的示例。 为节点编码器为简洁起见,此处未展示位置编码层、范数子层及FFN节点的图形布局i和j对应于边界框bi和bj,aij埃森,埃森47而其邻居N47作为示例在右下角示出。从整体上衡量多模态语义相似性这两个边界框在P短语上。空间感知解码器 一旦获得所有的关注面-托尔斯河 和跨模态融合特征Fi对于每个节点i,形成边界框的空间位置和坐标以接近地面实况区域。为了实现这一点,我们引入了节点感知的跨模态编码器来融合多模态信息,并基于语义间关系生成节点属性。进一步,空间感知解码器建立节点和边特征,实现节点变换回归.为了简洁起见,我们在以下讨论中省略迭代指数o而节点感知的跨模态编码器。如图中的彩色区域所示。2,对于具有视觉特征Fbi的节点νi,我们计算相应的值向量并查询vec-定义为Fv=FbWI和Fq=FbWI。对于文本查询,空间感知解码器通过在通用GNN方法中执行传播模型来基于隐藏表示h′i进行2D变换回归[35]。在我们的M-DGT中,每个节点中的包围盒的空间信息对于进行语义推理和学习包围盒变换以接近地面实况区域是至关重要的。由于图结构中的每个节点都与其他节点相连,因此节点之间的相对空间一个直接的直觉是,包含地面实况边界框的节点可以将其他节点拉到其正确的区域。因此,我们提出了空间感知表示h′i,biivbiiq介绍了每个节点和模型的空间信息,特征FtRP×d,值、键和查询向量分别为FvRP×d、FqRP×d和FkRP×d。如图所示2、我们计算了文本到视觉的fea-FqFk'当 hT→I=softmax ( u ) FX 时 ,比 鲁比群岛提取相对空间信息作为边缘特征。对于节点的空间特征,我们利用文献[42]中使用的空间坐标。具体地,对于具有视觉fea的大小为H′和W′的网格IITID节点i和P短语与Fk′的匹配得分是Fk的转置。匹配分数的一个示例由图1中的红框示出。那么我们就可以直接利用ture 地图, 我们 第一 计算 的 相应位置(mi,ni),mi[0,H′],ni[0,W′]g=.ni,mi,ni+0. 5,mi+0。5,ni+1,mi+1,1,1个。Weibi投影h=g W,其中W 是可训练的参数然后,受图注意力网络[35]的启发,我们计算节点i及其Etersgiig g连接的邻居节点Ni作为它们对文本查询的响应首先,我们计算节点i和它的邻居N1到P短语如下:对于节点i与其邻居之间的边要素,J. ∈Ni,我们计算它们的空间关系为gij=ΔwiΔhiΔwjΔhj其中Δwi =FXFX′ximax−ximin和Δhi =yimax−yimin。然后,gijtBNi,i(一)被映射到一个高维表示,ai=softmax(ci),ci=softmax(ci)伊季报 =gij We.因此,eij是边缘特征,其中,F X和F X的计算如图所示。二、的我ci的形状为P×(Ni+1)。ai∈RP×(Ni+1)的每行p节点i和j。最后,将空间信息与多模态特征融合得到节点特征hi= Fi<$hgi.)F节点. 下方的实线框剩余连接以获得多模态特征,然后通过使用线性映射将该向量映射到特征空间。)tFv∈R1×d biFq∈R1×d biFk∈RP×dtFq∈RP×dtFv∈RP×dtq k′softmax(FtFtD东凤企业股份有限公司Fk ′sof tmax(BNi,iBNi,iDFv∈R(Ni+1)×dBNi,iFk∈R(Ni+1)×dBNi,i东凤企业股份有限公司∈R(Ni+1)×dBNi,i15538×ǁ·| |||.Σ−∈∈×G1∈G122IRN+1KIR|E|Σ联系我们然后,我们提出的空间感知表示h′i计算为:h′i=σ<$a ijW[Wfhi<$Weij]<$(3)j∈(Ni,i)其中是级联运算,σ()是非线性函数。受工作[15]的启发,我们的M-DGT中的节点2D变换被定义为在齐次坐标中由乘法表示的2D空间中具有平移和缩放的仿射变换此外,仿射变换可以用参数化形式来公式化。详细情况见附录。我们具有2D变换系数[s1,s2,r1,r2],其中S1、S2是缩放系数,R1、R2是平移协方差。系数 对于坐标x,y,新坐标为然后利用子图聚合方法将多个调整后的局部布局进行整合如图3所示,我们的方法中使用的这种局部布局是由每个节点i及其连接的邻居构造的。因此,对于具有ν个节点的图,可以存在ν个局部布局。受工作[47]的启发,该工作通过从候选集合中选择边类型来构建新的元路径图在具有相应局部布局的每个节点i中,我们构造包含所有可能的邻居节点和边组合的集合Ai然后,Ai的第r个元素表示一个可能的局部布局Air,其被称为原始局部布局的一个可能的变换如图 3,我们首先使用函数fv(Air)=concathir,eir来获得每个Air的特征,其计算如下:x′=sx+r,y′=sy+ r.h=1μm1h,e=e因此,以空间感知表示作为输入,我们的解码器在节点i中的学习目标被建模IRk∈{Nir,i}尼尔,我ij∈ENir,i(五)转换回归函数。其中,Nir是节点i的第r个局部布局中的节点r1i,r2i,s1i,s2i =tanh(WD(4)而E Nir是对应的边。我们有hir∈R2d和eij∈Rds.哪里 WD是 的 可训练 参数 的 完全-然后,计算得分张量W φ i∈R1 × 1 ×|A我|连通网络,最终变换系数为s′1i,s′2i[0. 五一5]和r1′i,r2′i[ 0的情况。2,0。2],从而保证了2D trans.com的稳定性。阵4.3. 图形Transformer1×1转换softmax魏齐齐图3.图Transformer在节点i的局部布局上的操作。图形Transformer层通过对邻接矩阵和节点执行布局注意机制来从一组候选局部图形布局Ai中软选择与计算机视觉和自然语言处理中使用的变换器[34]不同,我们提出的图变换器的作用是修剪节点和边,从而变换图结构。通过删除节点和边来调整图的结构,以促进学习过程是一个NP-难问题。因此,我们提出了局部图布局注意机制,而不是直接处理整个图,以便图Transformer修剪局部布局其中,WA是可训练权重。我们的图Transformer通过与来自softmax(Wφi)的非负权重进行11卷积来实现从局部布局Ai中的软选择。最终局部布局Qi的公式为:Qi=φ(Ai,softmax(Wφi))(6)其中φ是卷积层。这可以被视为信道注意力池。我们的子图聚合方法主要利用硬投票集成的思想来确定目标变换图o+1。首先,我们选择具有最高关注度得分的Qir作为节点i对目标变换后的局部布局的投票然后,预-极限变换图是图中所有对νi ν的Qir的积分O. 最后,一旦超过一半的邻居在其投票中删除节点/边,则将从该初步变换的图中修剪节点和因此,这种图修剪方法直接导致删除丰富和无用的包围盒和语义关系,以促进高效和有效的学习。4.4. 培养目标我们的基于迭代的M-DGT旨在学习每次迭代中每个节点的2D变换系数,从而变换边界框以逐步接近地面真实区域。为此,我们提出了一种迭代相关训练(IRT)方法,××AifV一WIJ15539.Σ−o1+e我我O型分支[Huber(r1i,r2i,s1i,s2iSeqGROUND [9]ResNet 50更快的R-CNN N=200 LSTM 61.06-CITE [27] VGG 16更快的R-CNN N=200Word 2 vec,FV 61.89184r1i,r2i,s1i,s2iEDP=1h在每次迭代中基于变换损失函数优化参数。对于每个查询短语p,我们计算Huber损失表1.与Flickr30k实体[ 29 ]测试集上最先进的方法在前1短语接地准确性(%)方面的比较,IOU阈值为0。五、预测的变换系数和地面真值系数(rp,rp,sp,sp)。然后,对于节点i,其损失方法视觉骨干区域提案语言Acc@0.5时间(ms)˜1˜2 ˜1˜2、CCA [29] VGG19 Edgebox N=200 Word2vec,FV 50.89-TW36])IPP PPp.PPPIPp. 然后SPC+PPC [28]ResNet101 Edgebox N=200 Word2vec,FV 55.85-QRC Net [3] VGG19 Faster R-CNN [31] N=100 LSTM 65.14-2D转换边界框之间的GIOU评分[32]bi,以及短语p的地面真值区域Lp表示为G10IP。期望节点i和p短语的匹配得分u_ip接近gou_ip。基于此,节点i的变换损失函数为l i=Puiplip+lsmooth−l1(ui,gioui),其中lsmooth−l1是一般平滑L1损失。我们的IRT的主要结构是由强化学习中的重放缓冲机制驱动的[13]。其核心思想是在每个迭代步骤中训练整个M-DGT,而不是在最后计算一次梯度。但是,我们不会在每次迭代中解耦更新但是分配一个迭代相关的衰减因子α=1到了trans-DDPN [46] ResNet101 Faster R-CNN N=100 LSTM 73.3 196SL-CCRF [19]ResNet50自底向上注意力[1] N=100 LSTM 74.69-VS-graph [16] VGG16 Faster R-CNN N=100 LSTM 76.87-LCMCG [20]ResNet 101更快的R-CNN N=100 Bert 76.74-FAOS-FV [42]Darknet53无Word2vec,FV68. 3816FAOS-Bert [42]Darknet53无Bert 68.69 38VGTR [10] ResNet101 None LSTM 75.25 50M-DGT FV ResNet 50无字2 vec,FV 78.21 67M-DGT LSTMResNet50 None LSTM 77.67 74M-DGT Bert ResNet18无Bert 77. 02 66M-DGT Bert ResNet50无Bert 79. 32 91M-DGT Bert ResNet 101无Bert79. 97(↑ 4. 72%)108表2. Flickr30k实体数据测试集中类别的相应准确度(%方法人服装身体部位动物车辆文书场景其他第0次迭代中的地层损失函数L0最后,过度-我们的模型在每次迭代o中的所有损失定义为αlo5. 评价我们在四个公开可用的数据集上评估了我们的M-DGT方法,包括Flickr 30 k Entities [29]和Ref-COCO[44],RefCOCO+ [44]和RefCOCOg [23]。 的M-DGT有48个粗略初始化的盒子和7个迭代次数,与最先进的方法进行了比较,表3. 与RefCOCO [44]、RefCOCO+ [44]和RefCOCOg [23]的最新方法在IOU阈值0的前1准确性方面的比较。五、这些领先的方法的最好的报告结果。在 IOU 阈 值 为 0 的 情 况 下 的 准 确 性 。 5 ( 即 ,Acc@0.5)。然后,在烧蚀实验中,根据不同的迭代次数(即,3、5、7、9)、M-DGT中的组件的不同组合最后,利用M-DGT作为插件,对已有优秀作品的预测边界框进行优化由于篇幅所限,我们在附录的6.3小节中描述了实现细节。5.1. 全球绩效全球精确度。如表1、表3和图4所示,我们的M-DGT的性能明显优于其他方法,并达到了最先进的精度。方法ValReferCOCOReferCOCO+ReferCOCOgTestA测 试 B确认种皮测试B确认测试在列出的基准数据集中具体而言,在Flickr 30 K实体数据集的短语接地任务中,M-DGT达到79。97%的前一名准确率。同时,在具有高度语义推理要求的Re-fCOCO数据集中,M-DGT获得了最高的准确率85。374%,七十018%,79. 在三个数据集上分别为213%。此外,我们认为,M-DGT可以为文本产生更紧密的预测区域查询,这反映在高IOU阈值下保持高准确性,如我们的详细性能所示IOU阈值下的比较范围从0. 35比0 9附录第7.2节。在与依赖于区域建议的两阶段方法的公平比较中,M-DGT 的准 确性 优于最 佳方法LCMCG [20] 3。在Flickr30K实体数据集上为23%,为2。69%,2. 32%,3。分别比三个RefCOCO数据集的VS图[16]高48%此外 , 我 们 的 M-DGT 是 4 。 比 最 佳 一 步 法 VGTR 高72%[10]。这表明M-嵌入函数lh对于第p个查询短语,定义为=VGG19边缘框N=200 Word2vec,FV 51.05 305[第29话]64.7346.8817.2165.8368.7537.6551.3931.77SPC+PPC [28]71.6950.9525.2476.2566.535.851.5135.98QRC Net [3]76.3259.5825.2480.578.2550.6267.1243.6SeqGROUND [9]76.0256.9426.1875.566639.3668.6940.6CITE [27]. 七十三点二十52.34. 30.5976.2575.75. 四十八点一刻55.6442.83SL-CCRF [19]84.4178.5146.74. 八十八点八九81.4164.9775.9557.57LCMCG [20]86.8279.9253.5490.7384.7563.5877.1258.65VS-图[16]86.5779.9252.7791.8985.2558.6478.7859.04M-DGT FV87.7979.1255.2189.0288.2065.9779.0359.70M-DGT LSTM89.1078.0655.1788.9088.2865.5078.7758.12[第21话]-74.0473.43-60.2655.0355.0355.03SLR [45]77.4876.5878.9460.561.3958.1169.9369.03VGTR [10]79.2082.3273.7863.9170.0956.5162.2867.23MAttNet [43]76.6581.1469.9965.3371.6256.0266.5867.27[24]第二十四话81.6780.8181.3264.1866.3161.46--[6]第六话81.2781.1780.0165.5668.7660.63--LGRANs [37]8281.2084.0066.667.665.575.474.7VS-图[16]82.6882.0684.2467.7069.3465.7475.7375.31TransVG [7]81.0282.7278.3564.8270.7056.9467.0267.73ResNet50:M-DGT FV83.1482.484.2668.4769.3166.7676.9176.3M-DGT LSTM82.9581.8484.1367.0169.1666.0375.9375.54M-DGT Bert84.0583.685.8668.9170.7667.3377.9177.16ResNet101:M-DGT LSTM83.9883.0185.2468.3170.0667.1476.8376.34M-DGT Bert85.3784.8287.1170.0272.2668.9279.2179.0615540Flickr 30k实体ReferCOCO ReferCOCO+ ReferCOCOg图4.我们的M-DGT成功案例来自三个数据集的挑战性实例。地面实况区域由黑框绘制。例如,从Flickr30k实体,从左到右,查询是一个穿着白色蓝色袖子和金色头盔的棒球运动员正在挥杆击球,一群游客摆姿势拍照,一家出售夏季装饰品的冰淇淋店外的人,三个女孩正在围栏前的田野上跑步。对于实线右侧的实例,对应的查询是:对于ReferCOCO,中间男孩和穿灰色T恤的小孩前面的电视,对于ReferCOCO+,背景中的男人和网前的家伙,以及对于ReferCOCOg,一个女人,她有棕色头发和酒红色衬衫,手里拿着wi-mote站在壁炉前面,剪刀从左数第二个.DGT与渐进搜索可以不断优化边界框,从而防止接地过程中受到阻碍的前一阶段的失败,如坏的候选区域或不适当的注意力分配。此外,如图5所示,M-DGT可以通过多模态图Transformer结构来充分地建模空间和语义关系,从而促进边界框的检测和精细调整。这进一步通过Flickr30K实体数据集的许多类别中的最高准确度得到验证,特别是表2中所示的个人和身体部位。效率和通用性。与其他依赖于外部训练模型提供的数百个精心准备的区域的方法相比,我们的框架可以直接基于48个粗略初始化的盒子进行训练,以实现最佳性能。此外,如表1中所示,我们的M-DGT仅花费108ms用于推断,这与也不依赖于区域提议的那些方法相比呈现出有竞争力的效率此外,正如我们在图中看到的。5. M-DGT连续去除过量或无用的边和节点,以减少所需的计算。然后,由于我们的M-DGT使用的唯一框初始化方法是生成可以覆盖图像的单尺度框这有助于M-DGT的高度通用性。5.2. 消融实验如表4所示,我们首先研究了M-DGT直接在FasterR-CNN [31](FR)和Bottom-Up Attention [1](BA)提供的区域建议上工作的性能。与M-DGT相比,在简单地初始化盒子以覆盖图像的情况下,M-DGTFR和M-DGT BA方法都具有相对较低的准确性和较高的推理时间。主要原因是进一步的接地过程可能被不覆盖目标区域的不良区域候选者阻碍。这表明了我们的想法的必要性,逐步搜索目标区域从简单的初始化盒在渐进的方式。然后,我们进行实验的组件烧蚀。工作[2]中的通用Transformer被用作我们提出的节点Transformer(NT)的 替代。 在没 有迭代 相关训 练(IRT)的情况下,M-DGT仅在最终迭代中被优化一次。实验结果证明了节点Transformer在提高性能方面的有效性。图Transformer有助于准确性和效率,因为它减小了图的规模并消除了语义歧义。具体来说,用IRT训练我们的M-DGT对于保持高水平的性能是重要的然而,IRT的效率贡献尚不清楚。最后,更多的迭代显著地提高了接地精度,但是在第7次迭代之后,性能没有改善甚至5.3. 插件实验我们进一步利用M-DGT作为插件在结束前的国家的最先进的更具体地,用通过这些方法预测的边界框来初始化框B表5中的结果表明,我们的M-DGT可以调整这些方法的输出,以提高精度。所列方法的准确度提高了1。12,1。284,0。在Flickr30k实体、RefCOCO和RefCOCO+数据集上分别为964。这证明了我们的M-15541O=1O=2O=4O=5O=7一个女人和一个孩子走在一条长满树叶的人行道上,朝着两个骑马的人走去。O=1O=3O=5O=6O=8左边的人O=1O=2O=4O=6O=7睡猫O= 1O= 3O= 5O= 6O= 8猫坐的陶罐图5.在M-DGT的每次迭代中,对来自三个数据集的实例进行图变换。M-DGT通过实现图的变换,实现了高效的基于搜索的渐进式视觉基础。因此,在每个子图的第二行中示出的动态图等效于边界框第一个、第二个、第三个和第四个实例分 别 来 自 Flickr30k 实 体 RefCOCO 、 RefCOCO+ 和RefCOCOg。DGT具有可持续的调整能力,从而调整不准确的边界框以到达地面实况区域。然而,这些方法的改进精度仍然低于我们的完整M-DGT。这些有限的改进表明,M-DGT的一个缺点是,一旦初始框集合不覆盖地面实况区域,则无法获得用于查询的正确区域。6. 结论我们已经提出了基于搜索的机制来重新建模的视觉接地到一个逐步优化的视觉语义对齐过程。将视觉区域表4.Flickr 30 k实体数据集中M-DGT的消融研究M-DGT使用组 件 的 不 同 组 合 , 包 括 节 点 Transformer ( NT ) 、 图 形Transformer(GT)和迭代相关训练(IRT)。不同迭代次数下M-DGT的性能使用区域建议的方法区域提案Acc@0.5时间(ms)M-DGT FRFaster R-CNN74.901268M-DGT BA底向上的注意76.162256组件消融NTGTIRTAcc@0.5时间(ms)C71.47177C72.2171C69.3284CC77.9101CC76.526175CC76.80357不同迭代次数M-DGT(3)69.81561M-DGT(5)75.55275M-DGT(7)79.31791M-DGT(9)79.315129表5. IOU阈值下的准确度为0。5.使用M-DGT作为插件,进一步调整前导方法的预测边界框。数据集SL-CCRF [19]LCMCG [20]VS-图[16]Flickr30kVal↑1.13↑1.26↑0.98数据集[6]第六话LGRANs [37]VS-图[16]RefCOCOVal↑1.31↑1.48↑0.96种皮↑1.03↑1.21↑0.93TestB↑1.32↑1.06↑1.2RefCOCO+Val↑0.96↑0.83↑1.05种皮↑0.89↑0.77↑1.06TestB↑1.04↑0.98↑1.1以查询语义为节点,以空间关系为边,提出的多模态动态图变换器(M-DGT)可以将这一过程建模为图变换。M-DGT可以不断调整节点和边,将动态图缩小到目标布局,使相应的框逐步接近地面实况区域。在平均48个简单初始化框的情况下,M-DGT在Flickr 30 k实体和三个RefCOCO数据集上的准确性和IOU分数方面的性能显著优于替代的最先进的方法。此外,我们的分析表明,M-DGT可以大大优化现有方法的预测在未来的工作中,我们计划在学习过程中生成的图之间的关系建模。15542引用[1] Peter Anderson,Xiaodong He,Chris Buehler,DamienTeney,Mark Johnson,Stephen Gould,and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在IEEE计算机视觉和模式识别会议论文集,第6077-6086页,2018年。一、二、六、七[2] Nicolas Carion , Francisco Massa , Gabriel Synnaeve ,NicolasUsunier,Alexander Kirillov,and Sergey Zagoruyko.使用变压器进行端到端对象检测在European Conference onComputer Vision中,第213-229页Springer,2020年。7[3] Kan Chen,Rama Kovvuri,and Ram Nevatia. 查询引导回归网络与上下文政策的短语接地。在IEEE计算机视觉国际会议论文集,第824-832页,2017年。一、二、六[4] Xinlei Chen,Li-Jia Li,Li Fei-Fei,and Abhinav Gupta.它-超越卷积的视觉推理。在IEEE计算机视觉和模式识别会议论文集,第7239-7248页,2018年。2[5] Samyak Datta , Karan Sikka , Anirban Roy , KarunaAhuja,Devi Parikh和Ajay Divakaran。Align2ground:由图像标题对齐引导的弱监督短语接地在IEEE计算机视觉国际会议论文集,第2601-2610页,2019年。1[6] Chaorui Deng,Qi Wu,Qingyao Wu,Fuyuan Hu,FanLyu,和Mingkui Tan。通过累积注意力的视觉基础。在IEEE计算机视觉和模式识别会议论文集,第7746-7755页,2018年。1、二、六、八[7] Jiajun Deng , Zhengyuan Yang , Tianlang Chen ,Wengang Zhou,and Houqiang Li.Transvg:端到端的视觉接地与变压器。在IEEE/CVF计算机视觉国际会议论文集,第1769- 1779页,2021年。一、二、六[8] Jacob Devlin、Ming-Wei Chang、Kenton Le
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功