没有合适的资源?快使用搜索试试~ 我知道了~
19659协同转换器用于接地态势识别Junhyeong Cho1Youngseok Yoon1Suha Kwak1,2POSTECH CSE部门1POSTECH人工智能研究生院2{junhyeong99,yys8646,suha.kwak} @ postech.ac.kr摘要接地的情况识别是预测的主要活动,在活动中扮演某些角色的实体,并在给定的图像中的实体的边界框接地的任务。为了有效地处理这一具有挑战性的任务,我们引入了一种新的方法,其中活动分类和实体估计的两个过程为了实现这一想法,我们提出了协同式扫视-凝视变换器(CoFormer),它由两个模块组成:用于活动分类的扫视变换器和用于实体估计的凝视变换器。Glance Transformer在分析实体及其关系的Gaze Transformer 的 帮 助 下 预 测 主 要 活 动 , 而 GazeTransformer通过仅关注与Glance Transformer预测的活动相关的实体来估计接地实体。我们的CoFormer在SWiG数据集上的所有评估指标上都达到了最先进的水平。训练代码和模型权重可在https://github.com/jhcho99/CoFormer获得。1. 介绍正如卡尼曼的认知理论所述,人类通过双重思维系统做出决策[13]。这两个系统是已知的串联工作,并相互补充[8,26]。考虑一个全面的场景理解任务作为这种决策的具体示例。如图1所示,人类快速浏览以了解正在发生的事情,然后慢慢注视细节以分析涉及哪些对象以及它们之间的关系。这两个过程是相互支持的,理解所涉及的对象及其关系导致对场景中所描绘的事件的更准确的识别。受此启发,我们提出了一个协作框架,该框架利用了接地情况识别(GSR)的两个过程[27]。GSR是一种综合性的场景理解任务,最近作为情景识别(SR)的扩展引入[38]。SR的目标是生成一个结构化的图像摘要,描述主要活动和实体中扮演某些角色,狗户外丝带...一眼目光拽图1.综合场景理解的两个过程。Glance指出正在发生的事情,Gaze分析参与主要活动的实体及其关系。在我们的CoFormer中,这两个过程是互动和互补的。activity,其中每个activity的角色由一个名为FrameNet的词法数据库预定义[7]。在GSR中,这些涉及的实体与边界框一起接地;图2给出了GSR的示例结果。遵循惯例,本文中我们称活动动词和实体名词文中介绍了SR和GSR的通用流水线,ture [3,4,18,25,27,30,37,38]类似于两个过程:预测一个动词(Glance),然后为与预测的动词相关的每个角色估计一个名词(Gaze)。关于这个流水线,预测动词的正确性是极其重要的,因为名词估计完全取决于预测动词。如果动词预测的结果是不正确的,那么被估计的名词也不可能是正确的,因为被预测的动词决定了角色的集合,即,名词估计的基础。此外,动词预测是具有挑战性的,因为动词是高度抽象的,并且同一动词的情况可能会发生显著变化,如图2所示。尽管动词预测的重要性和困难性,但动词预测一直是以幼稚的方式进行的,在卷积神经网络(CNN)之上使用单个分类器,其仅与Glance类似。现有的方法允许Glance通过通知预测的动词来辅助凝视,但反之亦然;这可能会限制动词预测的性能,从而限制整个管道的性能。我们通过一个协作框架来解决上述问题,该框架使Glance和Gaze能够相互作用和互补19660⟨⟩饮用剂液体容器地方剂液体容器地方人啤酒玻璃房间狗水瓶外面图2.两个接地情况识别的例子[27]。这些句子显示了同一个动词的不同情况。对方.为了充分利用该框架,我们提出了由如图3所示的扫视变换器和注视变换器组成的协作扫视-注视变换器(CoFormer)。Glance transformer Transformer通过自我注意聚集图像特征来预测动词,Gaze transformerTransformer通过允许每个角色通过自我注意和交叉注意关注其相关图像区域来估计名词及其背景。如图3所示,在我们的CoFormer中有两个凝视步骤。凝视-步骤1 Transformer估计所有角色候选人的名词,并协助Glance Transformer进行更准确的动词预测。同时,凝视-步骤2 Transformer通过利用Glance Transformer获得的聚合图像特征来估计与预测动词相关联的每个角色的名词及其接地。Glance和Gaze转换器之间的协作关系导致对GSR的更准确的动词和接地在CoFormer中,Gaze-Step1通过分析涉及的名词及其关系来支持Glance,从而实现名词感知的动词预测。Glance通过通知预测的动词来帮助凝视步骤2,这减少了接地名词预测中考虑的角色候选人捐款. (i)我们提出了一个合作框架,其中动词预测和名词估计的两个过程是互动和互补的,这是GSR的新。(ii)我们的方法在SWiG数据集上的每个评估指标中都达到了最先进的精度。(iii)我们通过进行广泛的实验并提供深入的分析来证明CoFormer的有效性。2. 相关工作人、物、互动。但是,评价自然语言字幕的质量并不是直截了当的,三胞胎的表现力有限为了克服这些限制,Yatskaret al.[38]引入SR和imSitu数据集。基于来自FrameNet [7]的语言源,SR具有更强的表达能力,其质量评估是直接的。GSR建立在SR的基础上,通过额外估计边界盒接地。情况识别。Yatskar等人[38]提出了一种连续随机场[16]模型,并提出了一种语义增强的十元合成方法[37]。Mallya和Lazebnik [25]采用递归神经网络来以预定义的顺序捕获角色关系。Li等[18]提出了一个门控图神经网络(GGNN)[19],以更灵活的方式捕捉关系为了学习依赖于输入图像的上下文感知角色关系,Suhail和Sigal[30]将混合核方法应用于GGNN。Cooray等人[4]采用相互依赖的查询来捕获角色关系,并提出了一个动词模型,该模型考虑了两个预定义角色中的名词;他们基于两个名词构建了一个查询,用于动词预测。与此相比,CoFormer考虑了所有角色候选人的名词,以进行准确的动词预测。接地情况识别。 Pratt等人[27]提出了GSR和SWiG数据集,并提出了两个模型:独立情景定位器(ISL)和联合情景定位器(JSL)。他们首先使用CNN主干上的单个分类器预测动词在这两个模型中,LSTM [11]生成输出特征以预定义的序列顺序预测名词,而RetinaNet[21]估计它们的接地。ISL分别预测名词及其背景,JSL联合预测它们。Cho等人[3]提出了一种Transformer编码器-解码器架构,其中编码器有效地捕获用于动词预测的高级语义特征,解码器灵活地学习角色关系。与这些模型相比,CoFormer利用涉及的名词及其关系,通过transformers进行准确的动词预测Transformer体系结构。变形金刚[31]在视觉任务中取得了显着的成功[1,2,6,9,15,17,22,24]。Dosovitskiy 等 人 [6] 提 出 了 一 种 用 于 图 像 分 类 的Transformer编码器架构,通过在编码器中使用可学习令牌Carion等人[1]提出了一种Transformer编码器-解码器架构,用于通过使用视觉推理,如图像字幕[2,9,12,32、39], 场景图生成[14,24,35,36],以及人-物体交互检测[15,20,33,40]已经被广泛研究用于图像的全面理解给定一幅图像,图像字幕旨在使用自然语言描述活动和实体,场景图生成或人-物交互检测旨在捕获一组三元组,即主语、谓语、宾语或解码器中固定数量的可学习查询。这种可学习的查询已被广泛用于提取其他Transformer架构中的特征[15,17,22]。与其他变换器相比,CoFormer采用两个可学习的标记,通过自注意力聚合不同类型的特征。此外,CoFormer通过显式地利用由两个编码器和一个分类器获得的预测结果来构造不同数量的可学习查询19661R R∈ N∈E ∈RR {}联系我们|R |{\fn黑体\fs22\bord1\shad0\3aHBE\4aH00\fscx67\fscy66\2cHFFFFFF\3cH808080}F{|∈ R∈ N <${<$}∈割草剂项目工具地方男孩草割草机后院FFN动词FFNNounFFN BoxFFN BoxExistNNNNNCLALASSSIIFEIERSR……一眼Transformer凝视-步骤1Transformer凝视-步骤2Transformer…扁平化图像功能IL令牌RL令牌角色令牌所选角色令牌动词令牌位置编码CNN特征提取动词预测固定名词预测预测结果图3. 共聚焦扫视-凝视变换成形器(CoFormer)的总体架构。Glance Transformer借助Gaze-Step 1 Transformer预测动词,Gaze-Step 1通过利用角色特征分析名词及其关系,而Gaze-Step 2 Transformer则估计与预测动词相关联的角色的接地名词。预测结果由前馈网络(FFNs)获得。在推理时,将忽略位于Gaze-Step1 Transformer顶部的两个名词分类器的结果。3. 方法任务定义。GSR假设动词V、名词N和角色R的离散集合。每个动词v∈ V都与名词估计动词预测从FrameNet [7]导出的框架,其中框架定义与动词相关联的角色v的集合。例如,动词Mowing与框架配对,该框架定义角色集Mowing=Agent,Item,Tool,Place,如图3所示。 每个角色r v都由一个名词n完成,名词n由一个边界框bR4接地,称为接地名词。从形式上讲,已完成的角色集是v=(ri,ni,bi)riv,nin,biR4b对于i= 1,…,v;n和b表示未知和不接地。GSR的输出是由S=(v,Fv)表示的接地情况。3.1. 整体架构CoFormer预测一个动词,然后估计接地名词,如图3所示。如图5所示,我们的转换器由常见的构建块、编码器和解码器组成,其架构如图6所示。为了简单起见,我们在本文的剩余部分中将Step1表示为S1,将Step2表示为S2概况. 给定一幅图像,CoFormer通过CNN主干和扁平化操作提取扁平化的图像特征,这些特征作为输入馈送到Glance Transformer和Gaze-S1 Transformer。从这些转换器中,对应于图像外观(IL)和角色外观(RL)令牌的输出特征用于动词预测。考虑到预测的动词,凝视-S2 Transformer估计接地名词与预测的动词相关联的角色,利用图像特征的一瞥Transformer。图4显示了模块之间的协作关系;用于动词预测和名词估计的transformers在 CoFormer中是交互和互补的。图4. CoFormer中的互动和互补过程(a) RL标记特征,(b)预测动词,(c)损失梯度。一瞥Transformer。该Transformer由一个编码器组成,该编码器将扁平化的图像特征和可学习的IL令牌作为输入。IL token捕捉动词预测的基本特征,而GlanceTransformer则通过自我注意聚合图像特征。凝视-S1 Transformer。 该Transformer由解码器和编码器组成。解码器将平坦化的图像特征和可学习的角色令牌作为输入,其中角色令牌对应于所有角色候选者。该模块通过角色令牌从图像特征中提取角色特征。然后,编码器将角色特征和可学习的RL令牌作为输入。RL标记捕捉涉及的名词及其关系用于动词预测,而编码器通过自我注意聚集角色特征。凝视-S2 Transformer。该Transformer由单个解码器组成,该解码器将从Glance Transformer获得的可学习标记和聚集的图像特征作为输入。输入标记对应于预测的动词及其相关联的角色。 注意,动词标记被添加到角色标记中,如图5所示;对预测动词的条件化显著地减少了角色的搜索空间,例如,MowingTool的搜索空间比Tool小得多。Gaze-S2 Transformer从聚集的图像特征中提取角色特征,并将提取的角色特征用于接地名词预测。(一)(b)第(1)款一眼凝视-S2(c)第(1)款凝视-S1196623×前馈网络层规范多头交叉注意V K QX′层规范多头自注意V K Q层规范×× ××∈E ∈R∈...编码器(功能聚合)…IL令牌扁平化图像特征(a) 扫视Transformer(b)凝视图5.CoFormer中的Transformer架构由公共构建块、编码器和解码器组成3.2. 特征提取给定一个输入图像,单个CNN主干提取大小为h wc的图像特征,其中h w是分辨率,c是通道数。然后,11卷积之后是平坦化操作,产生平坦化的图像特征XF∈Rhw×d,其中d是渠道 展平的图像特征XF作为输入被馈送至 Glance Transformer ( 图 5 ( a ) ) 和 Gaze-S1Transformer(图5(b))。对于平坦化的图像特征XF,引入位置编码以保留空间信息。如图6所示,位置编码被添加到编码器中自注意层的查询和键,以及解码器中交叉注意层的键。3.3. 动词预测Glance Transformer中的编码器的输入通过图像特征XF和可学习IL令牌的级联来获得。IL标记捕捉动词预测的基本特征,而编码器通过自我注意聚集图像作为其输出,X(a) 编码器位置编码位置编码X(b) 解码器生成聚合图像特征XARhw×d和IL令牌特征。对于聚集的图像特征XA,应用位置编码。Gaze-S1 Transformer支持Glance Transformer,以实现更准确的动词预测,同时为所有角色候选人预测名词。具体地说,Gaze-S1 Transformer的解码器获取平坦化的图像特征XF和对应于所有预定义角色的可学习角色令牌;每个角色令牌嵌入由wrRd,其中R。该解码器通过对角色标记的自关注和标记与图像特征之间的交叉关注来提取角色特征。Gaze-S1 Transformer中编码器的输入是通过提取的角色特征和可学习的RL to-ken的关联来获得的RL标记从所有角色候选者中捕获所涉及的名词及其关系,而编码器将图6.编码器和解码器的详细架构我们为这两个模块使用预层归一化[34]编码器通过对X的自关注来执行特征聚合,并且解码器通过对X的自关注以及X和X′之间的交叉关注来执行特征提取。通过自我关注的角色特征对于该编码器,位置编码不被添加到自注意层处的查询和键,因为角色在GSR中是置换不变的关于凝视-S1 Transformer,提取和聚合的角色特征作为输入馈送到名词分类器;这些分类器是辅助模块,并且它们的结果在推理时被忽略。请注意,凝 视 -S1 Transformer 通 过 RL 标 记 功 能 帮 助 GlanceTransformer,该功能知道所涉及的名词及其关系。解码器(特征提取)所选角色令牌动词标记聚合图像特征……解码器(特征提取)编码器(功能聚合)……角色令牌扁平化图像特征RL代币3×前馈网络层规范多头自注意V K Q层规范……19663∈ ∈ R∈∈E ∈R∅E ∈RΣǁE ∈R1Σ。ˆIL标记特征和RL标记特征被级联,然后作为输入被馈送到用于动词分类的前馈网络(FFN),该网络由具有激活函数的可学习线性层组成动词分类器FFNVerb后跟softmax函数产生动词概率分布pv,其用于估计最可能的动词v=argmaxvpv。被预测的动词动词支持凝视-S2Transformer,这样Transformer就只关注与被预测的动词相关的角色,并在结果中更准确地估计它们的接地名词。3.4. 固定名词预测来自Glance变换器的聚合图像特征XA作为输入被馈送到Gaze-S2 Transformer(图5(c))。该Transformer中的解码器将图像特征XA和帧角色查询作为输入。具体而言,对于预测动词v_erb_v_e的框架中的每个角色r,其框架角色查询qrRd通过将可学习角色令牌嵌入wrRd和可学习动词添加到ken嵌入wv_e来RD岛例如,qr=wr+wv对于rv. 解码器通过对框架角色查询的自关注和查询与图像特征之间的交叉关注来提取角色特征,以从与角色相关的角色中捕获所涉及的名词及其关系。这些提取的角色特征用于接地名词预测。请注意,此任务需要预测每个角色的名词、边界框和框的存在。因此,我们采用三个前馈网络FFN名词,动词分类丢失。 动词分类损失是动词概率分布pv和地面真实动词分布之间的交叉熵。名词分类损失。如图3所示,CoFormer有三个名词分类器;其中两个放置在Gaze-S1 Transformer的顶部,另一个与Gaze-S2 Transformer合并。对于每个名词分类器,我们计算每个角色r的其中v是地面实况ver b。计算出的跨部门损失是一个平均的角色Rv。请注意,我们只为ground-truthverbv的框架中的角色训练角色令牌,因为名词注释是与数据集中的verbv相关联的角色的g i v en。框存在预测损失。为了处理没有地面实况框的角色(即,b),例如,通过遮挡,CoFormer估计每个角色r的盒子存在概率pbrv. 框e存在预测损失是概率p br与地面实况框e存在之间的交叉熵,其是在r rr上的平均值。箱回归损失。 我们使用L1损失和GIoU[28 ]第28话回归设br表示地面真值框的中心坐标、高度和宽度相对于给定图像大小的形式。 在盒回归损失的计算中,我们忽略了没有地面实况盒的角色(即,b)。L1盒回归损失L1计算如下:FFN盒 FFNBoxExist这些角色的特点是-LL1 =1b|R˜|-br第一章(1)提出名词分类,边界框估计,和框存在预测,分别。这些FFN中的每一个都由具有激活函数的可学习线性层组成。对于每个角色rv,FFN名词后面跟着一个软最大函数,产生一个名词概率分布pnr。FFNBox后跟sigmoid函数产生一个边界-r∈R其中R={r|br/=<$b,对于r∈Rv<$}。为了计算GIoU损失,GIoU(·)首先由下式计算:GIoU(b′r,b′r)ingboxb<$r∈[0,1]4表示中心坐标,|C(b ′,b ′)\(b ′ b ′)| |C(b′,bˆ′)\(b′∪bˆ′)|nates,高度和宽度相对于输入图像大小。的可以将预测的框b*r变换为左上方,=r r|b′r∪bˆ′r|R r r|C(b′r,b′r)|(2)右下坐标b∈R4。FFNBoxExist如下其中b′表示左上和右下坐标通过sigmoid函数产生盒子存在概率r′ˆ′p∈[0,1].如果p<0的情况。5,则忽略预测框b“。由br变换而来,C(br,br)表示最小brb r包围b′的r盒B′。GIoU盒回归注意,预测的verbvector经由框架角色查询的构造来辅助Gaze-S2Transformer,而从Gaze-S2 Transformer传播的损耗梯度经由框架角色查询的构造来辅助Gaze-S2transformer。R r损失LGIoU然后通过下式计算:L=1 − GIoU(b′,b′)<$.(三)聚集的图像特征XA使得Glance Transformer能够隐式地考虑所涉及的名词。GIoU|R˜|R rr∈R3.5. 培训合作伙伴预测的动词、名词和边界框用于计算损失以训练CoFormer。在训练时,我们构建框架角色查询的基础上,地面真理动词稳定训练的凝视-S2 Transformer。请参阅补充材料了解更多培训详情。4. 实验在SWiG数据集[27]上评估CoFormer,该数据集是通过向imSitu数据集[38]添加框注释构建的。imSitu数据集包含75K,25K和25K图像,分别用于训练,开发和测试集该数据集包含504个动词,11K个名词和190个角色。R−19664前1位预测值动词前5名预测值动词基础真值动词设置方法动词值全值grnd值grnd全值动词值全值grnd值grnd全值值全值grnd值grnd全值态势识别方法通用报告格式[38]32.2524.5614.28––58.6442.6822.75––65.9029.50––CRF w/数据8月[37]34.2026.5615.61––62.2146.7225.66––70.8034.82––[25]第二十五话36.1127.7416.60––63.1147.0926.48––70.4835.56––[第18话]36.9327.5219.15––61.8045.2329.98––68.8941.07––devCAQ w/RE-VGG [4]37.9630.1518.58––64.9950.3029.17––73.6238.71––[30]第三十话43.2135.1819.46––68.5556.3230.56––73.1441.68––接地情况识别方法[27]第二十七话38.8330.4718.2322.477.6465.7450.2928.5936.9011.6672.7737.4952.9215.00JSL [27]39.6031.1818.8525.0310.1667.7152.0629.7341.2515.0773.5338.3257.5019.29GSRTR [3]41.0632.5219.6326.0410.4469.4653.6930.6642.6115.9874.2739.2458.3320.19CoFormer(Ours)44.4135.8722.4729.3712.9472.9857.5834.0946.7019.0676.1742.1161.1523.09态势识别方法通用报告格式[38]32.3424.6414.19––58.8842.7622.55––65.6628.96––CRF w/数据8月[37]34.1226.4515.51––62.5946.8825.46––70.4434.38––[25]第二十五话35.9027.4516.36––63.0846.8826.06––70.2735.25––[第18话]36.7227.5219.25––61.9045.3929.96––69.1641.36––测试CAQ w/RE-VGG [4]38.1930.2318.47––65.0550.2128.93––73.4138.52––[30]第三十话43.2735.4119.38––68.7255.6230.29––72.9242.35––接地情况识别方法[27]第二十七话39.3630.0918.6222.737.7265.5150.1628.4736.6011.5672.4237.1052.1914.58JSL [27]39.9431.4418.8724.869.6667.6051.8829.3940.6014.7273.2137.8256.5718.45GSRTR [3]40.6332.1519.2825.4910.1069.8154.1331.0142.5015.8874.1139.0057.4519.67CoFormer(Ours)44.6635.9822.2229.0512.2173.3157.7633.9846.2518.3775.9541.8760.1122.12表1.定量评价SR和GSR方法SR模型在imSitu数据集上进行评估,GSR模型在SWiG数据集上进行评估。两个数据集之间的唯一区别是边界框注释的存在。前1预测动词前5名预测动词基础真值动词方法动词值grnd值动词值grnd值值全值grnd值grnd全值不带凝视-S1 Transformer42.4634.2128.2370.8955.4745.3476.0241.9661.2123.15不带凝视-S2 Transformer43.0231.2423.2771.1751.7036.5969.6832.9448.4413.05Gaze-S1 Transformer上无名词分类器41.3033.3327.5069.7655.0544.9675.9741.9461.3223.39无从凝视-S2 Transformer到扫视Transformer的梯度流42.9633.8225.7770.9754.5941.1173.9138.5955.1017.10凝视中无动词标记-S2Transformer44.3635.5729.1672.8456.7946.1974.5339.8360.0721.83CoFormer(Ours)44.4135.8729.3772.9857.5846.7076.1742.1161.1523.09表2.SWiG开发套件上CoFormer的消融研究在我们的模型中使用的不同组件的贡献进行评估。动词框架中的角色数量从1到6.每个图像都与一个动词的注释配对,每个角色有三个来自三个不同注释者的三个名词除了这个注释之外,SWiG数据集还为每个角色(除了角色Place)提供了一个4.1. 评估指标指标详细信息。动词的预测准确率用动词来衡量,名词的预测准确率用值和全值来衡量,而接地名词的预测准确率用全值和全值来衡量。关于名词度量,value度量名词对于每个角色是否正确,并且value-all度量所有名词对于帧中的整个角色是否同时正确。如果预测的名词与三个注释者给出的三个名词注释中的任何一个匹配,则认为名词预测正确。对于接地名词指标,标记值衡量名词及其接地是否正确对于每一个角色,和manded-value-all衡量是否所有名词和它们的接地是正确的整个角色在一个帧同时。如果预测的框存在是正确的,并且预测的边界框与框注释的交集大于并集(IoU)值至少为0.5,则接地预测被认为是正确的请注意,上述指标是按动词计算的,然后对所有动词进行平均,因为框架中的角色数量取决于动词,并且每个动词可能与数据集中不同数量的样本相关联评估设置。本文提出了三种评价设置:前1预测动词、前5预测动词和基础真值动词。在前1预测动词设置中,如果前1预测动词不正确,则被预测的名词及其背景被认为是不正确的。在前5个预测动词设置中,如果基础真值动词不包含在前5个预测动词中,则被预测的名词及其基础被认为是不正确的。在根据真值动词设置中,被预测的名词及其根据是通过根据真值动词的条件作用而获得的19665××图像角色#1角色#2角色#3角色#4预测地方工具项目剂街地方推车工具人项目马剂Cartingl地点太参考剂∅地方人剂绘图笔工具市参考(a) 注意力分数(IL令牌)(b) 注意力分数(RL令牌)(c) 注意力得分(框架-角色评分)图7.从IL标记到图像特征,从RL标记到角色特征,以及框架角色查询的注意力得分。我们可视化的注意力分数计算的最后一个自我关注层的编码器在Glance Transformer,编码器在Gaze-S1 Transformer,和解码器在Gaze-S2 Transformer,分别。较高的注意力分数在图像上以红色突出显示。图8.从框架角色查询到图像特征的注意力得分。我们在Gaze-S2 Transformer中可视化从解码器的最后一个交叉注意层计算的注意力分数。较高的注意力分数在图像上以红色突出显示。4.2. 实现细节我们使用ResNet-50 [10]在ImageNet [5]上预训练作为CNN骨干,遵循GSR中的现有模型[3,27]。给定一幅图像,CNN主干提取大小为h w c的图像特征,其中 h , w=22 , c=2048 。 每 个 令 牌 的 嵌 入 维 数 为d=512。 我们使用AdamW优化器[23],具有10−4的权重衰减,β1=0。9,且β2=0。999我们以10−4的学习率(CNN主干为10−5)训练CoFormer,在第30个时期减少了10倍。在四个RTX 3090 GPU上训练批量大小为16的CoFormer40个epochs大约需要30个补充材料中提供了包括损失系数在内的完整细节。4.3. 定量评价CoFormer在所有评价中均达到了最先进水平,如表1所示。现有的SR模型[4,18,25,30]使用至少两个VGG-16 [29]主干,GSR模型[27]使用两个ResNet-50[10]主干进行动词和名词预测,而CoFormer仅使用单个ResNet-50主干。与GSRTR [3]相比,动词预测准确率提高了3.35%~ 4.03% p,名词预测准确率提高了1.84%~ 3.89% p,接地名词预测准确率提高了2.11%~4.09% p。这些结果表明,所提出的合作框架是有效的GSR。0.010.0080.0050.003地方项目厨房面包0.0150.008剂物质地方0.60.50.40.30.20.1剂物质地方0.60.50.40.30.20.1装饰项目剂放置蛋糕糖霜人∅0.0020.005刀手工具剂地方物质剂地方物质剂19666浇水拍打剥离浸渍抓剂接收者工具地方剂身体部位地方剂项目工具地方剂项目物质地方剂受害者地方女童花喷壶花园鸟翼水人苹果刀∅人草莓巧克力表猫树户外爬着色斩波填鸭式抓剂障碍工具地方剂项目工具地方剂项目工具地方剂主题容器地方剂捕获项目工具地方人岩石手户外孩子纸蜡笔表人洋葱刀案板松鼠螺母嘴户外狗飞盘嘴公园图9.预测结果。虚线框表示不正确的接地预测。不正确的名词预测以灰色突出显示消融研究。我们分析了CoFormer中不同组分的影响,如表2所示。当我们在不使用Gaze-S1 Transformer或Gaze-S2 Transformer的情况下训练我们的模型时,动词预测或接地名词预测的准确率大大降低,这证明了协作框架的有效性。训练我们的CoFormer而不使用放置在Gaze-S1 Transformer顶部的两个名词分类器会导致动词预测准确率的显着下降在这种情况下,角色特征很难学习到所涉及的名词及其关系,而Gaze-S1Transformer中的编码器则通过自关注来聚合角色特征为了弄清楚Gaze-S2 Transformer是否如表2的第四行中所 示 , 动 词 预 测 准 确 度 下 降 , 这 表 明 凝 视 -S2Transformer经由通过聚合图像特征的损失梯度来支持扫视Transformer。在CoFormer中,每个框架角色查询都是通过添加角色到- ken嵌入和动词标记嵌入来构造的。我们研究它是如何有效的训练CoFormer不使用动词-肯嵌入的框架角色查询的建设。表2的第五行显示了接地名词预测准确率下降,这表明动词标记嵌入有助于接地名词预测。4.4. 定性评价我们将CoFormer的注意力层中计算的注意力分数可视化。 图7(a)显示了IL to- ken捕捉到的基本特征,以估计两个划船图像的动词。图7(b)显示了RL to-ken在地面实况框架中对角色的关注动词,并且分类结果来自放置在Gaze-S1 Transformer中的编码器顶部的名词分类器;190个角色中的注意力分数总和为1。这表明,RL令牌有效地捕捉涉及的名词 和 它 们 的 关 系 , 通 过 自 我 注 意 力 在 Gaze-S1Transformer的编码器。图7(c)显示了如何通过框架角色查询上的自我关注来捕获角色关系,这表明如果图像中的情况相似,则CoFormer类似地捕获关系;每列中的关注分数总和为1图8显示了框架角色查询关注的局部区域图9显示了CoFormer在SWiG测试集上的预测结果第一行显示正确的预测,第二行显示几个不正确的预测。5. 结论我们提出了一个合作框架GSR,动词预测和名词估计的两个过程相互作用,相辅相成。使用这个框架,我们提出了CoFormer,它在SWiG数据集上的所有评估指标中都我们还深入分析了CoFormer如何引起对图像的关注,并捕获与消融研究的角色关系,以影响我们模型中使用的不同组件CoFormer的一个局限性是,该模型有时会预测具有极端纵横比或小尺度的盒子将在今后的工作中探讨这一问题。谢谢。这项工作得到了韩国科学和信息通信技术部资助的NRF赠款和IITP赠款的支持(NRF-2021 R1 A2 C3012728,No.2019-0-01906 Artificial Intel- ligence Graduate School19667引用[1] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。端到端的目标检测与变压器。在欧洲计算机视觉会议(ECCV)的会议记录中,第213-229页,2020年。2[2] 陈龙,姜志宏,萧军,刘伟。具有动词特定语义角色的类人可控图像字幕在IEEE/CVF计算机视觉和模式识别会议(CVPR)集,第16846-16856页2[3] Junhyeong Cho,Youngseok Yoon,Hyeonjun Lee和SuhaKwak。接地情况识别与变压器。英国机器视觉会议(BMVC),2021年。一、二、六、七[4] Thilini Cooray,Ngai-Man Cheung,and Wei Lu.基于注意力的情境感知推理情境识别。在IEEE/CVF计算机视觉和模式识别会议(CVPR)的会议记录中,第4736-4745页,2020年。一、二、六、七[5] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. ImageNet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,第248-255页7[6] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图像值得16x16字:大规模图像识别的变形金刚在国际学习代表会议(ICLR),2021年。2[7] 作者:Charles J. Johnson和Miriam R.L.派崔克Framenet的背景国际词典学杂志,16(3):235-250,2003.一、二、三[8] 本杰明·加德纳和阿曼达·L.钢筋习惯形成与行为改变。牛津心理学研究百科全书,2019年。1[9] 郭龙腾,刘静,朱欣欣,姚鹏,卢世晨,卢汉青。用于图像字幕的归一化和几何感知IEEE/CVF计算机视觉和模式识别会议(CVPR),2020年。2[10] 何、开明、张、项羽、任、少卿、孙、建。用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,第770-778页7[11] SeppHochr eiter 和 J ür genSchmidhube r. 长 短 期 记忆.Neural Computation,9(8):1735-1780,1997. 2[12] Lun Huang,Wenmin Wang,Jie Chen,and Xiao-YongWei.注意力集中在图像字幕上。在IEEE/CVF计算机视觉国际会议(ICCV)的会议记录中,第4634-4643页2[13] 丹尼尔·卡尼曼。有限理性的地图:行为经济学的美国经济评论,93(5):1449-1475,2003. 1[14] Siddhesh Khandelwal , Mohammed Suhail , and LeonidSi-gal.分段接地场景图形生成。在IEEE/CVF计算机视觉国际会议(ICCV)的会议记录中,第15879-15889页,2021年。2[15] Bumsoo Kim , Junhyun Lee , Jaewoo Kang , Eun-SolKim和Hyunwoo J. Kim。HOTR:端到端人机交互检测与变压器。在IEEE/CVF计算机视觉和模式识别会议(CVPR)的会议记录中,第74-83页,2021年。2[16] 约翰·拉弗蒂安德鲁·麦卡勒姆费尔南多·佩
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- OptiX传输试题与SDH基础知识
- C++Builder函数详解与应用
- Linux shell (bash) 文件与字符串比较运算符详解
- Adam Gawne-Cain解读英文版WKT格式与常见投影标准
- dos命令详解:基础操作与网络测试必备
- Windows 蓝屏代码解析与处理指南
- PSoC CY8C24533在电动自行车控制器设计中的应用
- PHP整合FCKeditor网页编辑器教程
- Java Swing计算器源码示例:初学者入门教程
- Eclipse平台上的可视化开发:使用VEP与SWT
- 软件工程CASE工具实践指南
- AIX LVM详解:网络存储架构与管理
- 递归算法解析:文件系统、XML与树图
- 使用Struts2与MySQL构建Web登录验证教程
- PHP5 CLI模式:用PHP编写Shell脚本教程
- MyBatis与Spring完美整合:1.0.0-RC3详解
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功