没有合适的资源?快使用搜索试试~ 我知道了~
2611建议注意事项L++ification培训输出推理匹配分数语言注意疑问:左边的白衣男子拿着球棒。自适应重构网络在弱监督参考表达式接地中的应用刘学静1,2,李亮* 1,王淑慧1,查正军3,孟德超1,2,黄庆明2,1,41Intell重点实验室. Info.过程.,计算机研究所技术人员:中国科学院,北京2中国科学院大学,中国3中国科学技术大学,中国合肥4鹏程实验室,深圳,中国{xuejing.liu,liang.li,dechao.meng}@ vipl.ict.ac.cn,wangshuhui@ict.ac.cn,zhazj@ustc.edu.cn,qmhuang@ucas.ac.cn摘要弱监督指称表达式基础的目的是根据语言查询定位图像中的指称对象,其中指称对象与查询之间的映射在训练阶段是未知的为了解决这个问题,我们提出了一种新的端到端自适应重建网络(ARN)。它以自适应的方式建立图像区域建议和查询之间的对应关系:适应性接地和协作重建。具体来说,我们首先提取主题,位置和上下文特征来表示propos- als和查询分别。然后,我们设计了自适应接地模块,计算每个建议和查询之间的匹配得分的层次注意力模型。最后,基于注意力分数和建议特征,我们重建输入查询的语言重建损失,自适应重建损失,和属性分类损失的协作损失。这种自适应机制有助于我们的模型减轻不同指称表达式的差异。在四个大规模数据集上的实验表明,ARN的性能大大优于现有的最先进的方法定性结果表明,建议的ARN可以更好地处理的情况下,多个对象的一个特定的类别位于一起1。1. 介绍引用表达接地(REG),也称为短语本地化,已经引起了人们对COM和COM的兴趣*通讯作者。1代码可在https://github.com/GingL/ARN输入图像主题输入查询图1.自适应重建网络(ARN)。给定查询和具有区域建议的图像,ARN通过自适应接地和协作重建来定位参考对象计算机视觉和自然语言处理[24,14,29,41,39、19、38、36]。给定一个自然语言的查询(指称表达)和一幅图像,REG的任务是找到指称对象的对应位置。REG可以广泛用于交互式应用,例如机器人导航[31,1],视觉问答[6,10]或照片编辑[5]。以监督的方式训练REG模型需要昂贵的注释数据,这些注释数据显式地绘制输入查询与图像中对应的对象建议之间的连接。此外,受训练数据的限制,监督REG模型只能处理某些类别的接地,这不能满足实际应用的需求。在这里,我们将重点放在弱-0.210.020.230.240.200.370.360.150.100.020.480.020.070.420.01白衣人位置左侧上下文拿着球棒2612在一个实施例中,该方法可以被用于改进的REG任务,其中仅图像-查询对被用于训练,而没有查询和对象提议之间的映射信息。以前的弱监督方法[29,2,44]通过重建输入查询来学习接地。Xiaoet al. [37]基于图像-短语对和语言结构生成注意力掩码来定位语言查询Zhao等人。 [45]试图通过搜索整个图像来找到参考对象的位置上述方法仅在接地和重构期间利用提案的视觉外观特征。然而,它们忽略了指称对象的位置和上下文的区别信息如图1、在“左边白衣人拿着球棒”的疑问句中,除了主语(“白衣人”)之外,位置(“左边”)和语境(“拿着球棒”)也是区分指称对象的重要因素。最近Yuet al. [41]发现人们在指称一个对象时倾向于使用不同的句法结构,这就带来了不同指称表达方式的差异。德-英图。1作为示例,如果查询仅是“man inblack”,则可以仅使用主题特征来同样,因此,基于引用表达式中存在什么特征来触发接地根据这些观察,我们提出了一种新的端到端弱监督REG方法,称为自适应重建网络(ARN)。它以一种自适应的方式学习图像区域建议与主题、位置和上下文信息查询图1示出了ARN的流水线,其由两个模块组成:自适应接地和协作重建。自适应接地。首先,我们提取的主题,位置,和上下文特征的查询和每个区域的建议在一个图像。具体来说,对于查询,我们引入了一个递归网络来将其解析为这三个特征。对于一个提议,我们通过Faster R-CNN [28]提取其视觉外观特征作为主题特征此外,建议的位置特征包括绝对位置和与图像中相同类别的其他建议的相对位置。此外,不同指称表达的差异。合作重建。我们设计了一个协作的损失,以更好地制定弱监督接地的测量损失函数由以下三个部分导出。语言重构直接重构输入查询的基础上的细心建议的特点。自适应重构分别对主体、位置和上下文的注意隐藏特征进行重构属性分类利用候选提案对主题的属性信息来提高其基础能力。ARN的两个模块都可以以端到端的方式进行训练。在推理阶段,ARN只利用顺应性背景来定位所指,而不涉及指称.总之,本文的主要贡献有三个方面:• 我们提出了一个端到端的自适应重建网络模型之间的映射输入查询以及基于主题、位置和上下文特征的图像ARN通过层次注意自适应地对候选建议进行推理,从而减少不同指称表达的差异。• 我们设计了一个协同重构模块,根据匹配得分和提案特点。语言重建,自适应重建和属性分类的协同损失制定的自适应接地的测量。• 在RefCLEF和三个MS-COCO数据集上的对比实验表明,该算法在弱超分辨率下取得了最佳的结果注册表任务。2. 相关工作参照表达接地(REG)。REG[15,25,9,24,42,43,4,22]也被称为指称表达式理解或短语定位,这是指称表达式生成的逆任务REG的目标是定位图像中由自由形式的自然语言查询描述的相应对象。给定图像I、查询q和区域提议集合{ri}N,建议是通过连接视觉和相关的,REG选择最匹配的区域ri=1根据积极的位置特点,其周围的建议。第二、我们提出了自适应接地模块来计算每个建议和查询之间的匹配分数由一个神经注意力模型。第一注意力有助于分别针对每个提议生成关于主题、位置和上下文的注意力分数第二个算法根据查询的语法结构进一步学习上述三个成分的注意力得分。该模块可以缓解查询. 大多数REG方法可以大致分为两种。一种是基于CNN-LSTM的编码器-解码器结构,以建模P(q|[24,42,27,14,23,18,30]。另一种是联合视觉语言嵌入框架模型P(q,r)。在训练过程中,监督是对象建议和引用表达式对(ri,qi)[29,33,21,3,41,17,34]。 最近,MattNet [41]采用了有监督REG2613定位STLWTLHbrWbrHW·H 、 表示左上方、下=J J˜拉克里尔(1,1,2,2,)������地址:Subj ect���电话:Location���电话:Cont extCNN���˜���LL���˜���+LLC���˜���LSTMLL左边一个穿白衣服的人拿着球棒CLSTM L语言学习���˜���C���˜���C+���˜���C左边一个穿白衣服的人拿着球棒Bi-LSTMFC注意了,先生们图:左边的白衣男子手持球棒左边的白衣男子手持球棒c:左手拿着球棒的白衣男子(a) 视觉特征编码。(b) 语言特征编码。(c) 自适应接地。(d) 合作重建。图2.建议的ARN的网络架构它包括特征编码(第3.1节),自适应接地(第3.2节)和协作重建(第3.3节)。协作重构模块包含三个损失:属性分类损失、自适应重构损失(包括自适应语言重构和自适应视觉重构损失)和语言重构损失。从外部网络预先提取视觉特征 语言特征编码、自适应接地和协作重建被训练成端到端网络。在推理期间不需要重构模块。ATT:注意层。加:加运算。矩阵:元素向量乘法。C:向量级联。并得到最先进的结果。 以上特征证明被公式化如下。 给定图像I,查询q在接地任务中有效,这也被用来以及一组区域建议{ri}N,我们的目标是选择作为我们方法中的原始特征表示但最佳匹配区域ri=1根据查询,我们设计了合作重建,监督学习和弱监督学习之间的差距,在弱监督REG上取得了令人印象深刻的结果。弱监督引用表达式基础。弱监督REG只具有图像级的对应关系,图像区域与指称表达式之间没有映射关系。为了解决这个问题,Rohrbach et al. [29]提出了一个框架,该框架通过注意机制重构给定的指称表达式来学习接地。基于此框架,Chen等人 [2]设计了知识辅助的一致性网络,该网络重构了输入查询和建议Xiaoet al. [37]以空间注意掩码的形式对任意语言短语进行了研究,并提出了一种具有区分性和结构性损失的网络。与从一组区域建议中选择最佳区域不同,Zhao等人。 [45]提出了多尺度锚定Transformer网络,它可以通过将区域建议作为锚来搜索整个空间特征图,以获得更准确的位置。Zhang等人。 [44]提出了一种变分贝叶斯方法来利用所指对象和上下文之间的关系。3. 方法我们提出了一个自适应重建网络(ARN)来接地的查询所描述的目标建议,知道任何(q,ri)对。 ARN选择最有可能建议通过自适应接地,然后重建其对应的查询与协作损失。整个网络架构如图所示。二、3.1. 特征编码3.1.1RoI特征对于每个对象建议ri,提取主题、位置和上下文特征,如图1B所示。第2段(a)分段。主题特征作为提案的视觉外观特征被提取。我们基于ResNet [13]为每个图像运行Faster R-CNN的前向传播 , 并 将 其 C3 和 C4 特 征 裁 剪 为 主 题 特 征 ri=fCNN(ri)。C3特征表示较低级别的特征,例如颜色和形状,而C4特征包含较高级别的表示。位置特征由绝对位置和与图像中同类对象的相对位置组成。在[42,43,41]之后,每个提议的绝对位置特征被解码为5维向量x,y,x ,y ,w·h正确的位置和相对面积的建议,以整个图像。相对位置特征指示提议与相同类别的5个周围提议之间的相对位置信息。对于每一个周围的建议,我们计算其偏移和面积比可以-弱监督场景,其中训练数据不具有区域查询对应性。 这个问题可以ij[xtl][△ytl]hi[△xbr]wi[△ybr]hiw hΣ双日期:δrij,ij,ij,ij,.Lwiwihi2614图像ΣΣCCt=1SLLL[△xtl]ij,[△ytl]ij,[△xbr]ij,[△ybr]ij,wjhjXXSLr~i˜δm=自适应重建损失利用三个隐藏向量最后,我们将上面的绝对和相对位置特征连接到提案的位置特征中,这是一个30维向量:ri=ri;δri。上下文特性表示候选人的建议和环境。 [41]我们选择5个周围的建议作为每个建议的相对建议每个建议的特征由C4特征v ij=f CNN(r j)及其相对位置特征组成。 相对位置特征被编码为f= f:最小特征为rij=[vij;δmij]。从大约5个提议-als,我们选择对查询作为最后的关系对象,表示为r_i。(一)(b)第(1)款3.1.2引用表达式功能对应于RoI特征,查询特征也通过注意机制被分离为主题qs、位置ql和上下文qc,如图1B所示第2段(b)分段。给定查询q={w,t}T,首先q中的每个词被独热编码并映射到词嵌入et。然后,单词embeddingett被馈送到双向LSTM中。的→−←−图3.(a)自适应重建和(b)语言重建的示意图。通过双向LSTM从查询中提取语言特征。以主题为例,首先将ri和qs连接成一个向量。然后将该向量馈送到建议注意力中,该建议注意力是一个两层感知器,以 获 得 相 应 的 匹 配 分 数 。 在 Eq 中 省 略 了 偏 差 。(三)、最终表示ht=[ht,ht]是以下的级联:两个方向的隐藏向量字参加在si=fATT。qx,ri=W2φReLU.W1[qx,r~i]Σ,x∈(s,l,c)每个查询通过注意力机制更好地表示主题、位置带学科特色作为示例,其最终隐藏表示是calcu。xX x我们使用softmax将分数归一化。(三)如下所示s i= softmaxi. siΣ,x∈(s,l,c)(4)mt=fc(ht),α t= softmax t(m t),q s=Σα t e t。不(一)总分是根据语言注意力计算的,语言注意力是三个分项得分的线性组合。最终得分表示考虑主题、位置和上下文的区域i匹配查询q的概率。基于查询计算权重。位置特征ql和上下文特征qc可以是ob-c。使用相同的机制。 另外,三个不同的Si=Ws si+Wl si+Wcsi(五)T S L C根据双向LSTM的隐藏状态向量计算主题、位置和上下文的权重。[ws,wl,wc]= softmaxw(fc([h0,hT]))(2)3.2. 自适应接地基于主题,位置和上下文特征的建议和查询,ARN本地化的查询,通过一个层次化的注意力模型。第一关注度是建议关注度,其分别根据主题、位置和上下文计算建议与查询之间的匹配分数。第二个注意力是语言注意力,其基于查询为主题、位置和上下文分配不同的权重以减轻查询中的变化详细的过程可以在图中看到。 2(c)、ri、ri和C 是从该区域提取的视觉特征。3.3. 合作重建在弱监督训练阶段,由于图像的查询和建议之间没有映射数据,因此采用协同重建的方法来形成接地测量。协同损失设计有三个损失,如图所示。第2段(d)分段。自适应重建分别重建主体、位置和上下文的注意隐藏特征。语言重构是根据建议的关注特征直接重构输入查询。属性分类利用参考建议的属性信息3.3.1自适应重建损失一个人在持球时留下了一根球棒左边一个穿白衣服的人拿着球棒有人守着白方留下一个球棒左边一个穿白衣服的人拿着球棒重建分解重建指示指示重建分解. 的IJwihiwihiwihi2615通过CNN的图像。qs、ql和qc代表(主题、位置、上下文)以弥合2616ΣNNNNΣSLCSLCSLCvisReLUvSLvC˜ ˜˜t st lt ct vis输入查询和建议,如图所示。3(a)显示。这种损失包括两个子损失,自适应视觉重建损失和自适应语言重建损失。这是受重建不同语言语言重构网络旨在最大化由LSTM生成的地面实况查询的似然,如等式(1)所示。(12)节目B是批量。B使用建议的相应特征的查询可以更好地-ter处理数据集中不同表达式之间的差异。自适应视觉重建损失是重新损失艾伦 =−1lo g(P(q)|fBb=1艾伦))(12)使用特征pro_i,ri和ri构造查询特征qs,ql和qc。我们首先计算不同视觉特征和匹配分数的加权和。最终的自适应重建损失是语言重建损失和视觉再现损失的加权和。α和β是定义两种损失的在这种自适应重建中,vs=Siri,i=1vl=Siri,i=1vc=Sirii=1(六)损失,语言和视觉重建损失是不可或缺的。然后将来自关注建议的建议特征的聚合馈送到全连接层中以获得与语言特征相同的维度。vs=FC(vs),v_l=F_ C(v~l),vc=FC(vc)(7)然后我们使用细心的建议特征vs,vl和vc为了重建所提取的语言特征q、q和q,损失adp=α损失avis+β损失alan(13)3.3.2语言重建损失第二个重建损失是基于关注建议特征直接重建输入查询,如图3(b)所示。首先,原始建议特征r~i、r~i和r~i的级联被馈送到一层感知器中。从原始查询。均方误差(MSE)标准,以尽量减少建议之间的距离fea-ri=φ。W(Σr~i,r~i,r~iΣ)+bΣ(14)结构和语言特征。Lx=MSE(vx,qx),x∈(s,l,c)(8)然后根据总得分计算建议特征的加权和最终的自适应视觉重建损失是主体重建损失、位置重建损失和上下文重建损失的加权和。的fvis=ΣSirii=1(十五)基于查询计算权重,如子部分3.1.2显示。损失avis=ws Ls+wl Ll+wc Lc(9)然而,语言特征提取网络与接地和重建网络一起训练到基于融合的建议特征,生成查询通过LSTMP(q|fvis)=fLSTM(fvis)(16)12个。B为了尽快达到收敛,可以将网络参数粗略地设置为零,使得网络不能学习视觉模态之间的对应关系。损失LAN=−1lo g(P(q)|fBb=1vis))(17)和语言模态。为了避免这种情况,我们增加了一个自适应的语言重建损失,它利用语言特征qs,ql和qc来重建原始查询。首先,我们连接qs,ql和qc,然后将其馈送到一层感知器中。falan=ΦReLU(Wl([qs,ql,qc])+bl) (10)基于融合的语言特征flan,我们通过LSTM重构输入查询这是受到查询生成方法[7,32]的启发 语言特征flan仅在第一时间步被馈送到一层LSTM中。P(q|falan)=fLSTM(falan)(11)2617S˜与自适应重构相比,构造直接重构输入查询,因此在训练期间不会丢失任何有用的语言信息。3.3.3属性分类损失如在先前的方法[40,35,41]中所提到的,属性信息对于区分相同类别的对象很重要。在这里,我们在模型中添加了一个属性分类分支。根据[41],通过外部语言解析器[15]提取属性标签。建议的主题特征ri用于属性分类。由于每个查询都有多个属性标签,我们使用二进制交叉熵损失的多标签分类。2618Lossatt=fBCE(yij,pij)(18)我们使用属性标签出现频率的倒数作为这种损失的权重,以缓解不平衡的数据。3.4. 训练和推理用端到端的策略训练指称表情特征提取网络、接地网络和重构网络。在训练过程中,只有带有属性词的查询才经过属性分类分支。在推理时,不再需要重构模块。我们将图像和查询输入网络,并在接地模块中获得最终得分最大的最相关提案j=arg maxf(p,ri)(19)我最终的合作重建损失为:损失=损失adp+γ损失lan+λ损失att(20)4. 实验4.1. 数据集我们评估我们的方法四个流行的基准参考表达接地。RefCOCO [42]. 该数据集包含来自MSCOCO的19,994张图像中的50,000个对象的142,209个查询[20]。数据 集 分 为 训 练 、 验 证 、 测 试 A 和 测 试 B , 分 别 有16,994、1,500、750和750张图像测试A包含多个人,而测试B包含多个对象。每个图像包含至少2个相同对象类别的对象。RefCOCO+ [42]。它在来自MSCOCO的19,992个图像中有141,564个查询,涉及49,856个引用[20]。与RefCOCO不同,该数据集中的查询不允许使用位置来描述引用。分裂是16992,分别用于训练、验证、测试A和测试B的 1,500、750和750个图像每个图像包含该数据集中相同对象类别的2个或更多对象。参考COCOg [24]。它对MSCOCO中的25,799个图像中的49,822个对象进行了95,010次查询[20]。它具有包含外观和位置的较长查询来描述引用。耳朵。分割为21,149和4,650张图像用于训练和验证。RefCOCOg没有开放测试拆分。图像被选择为包含相同类别的2至4个对象参考CLEF [15]。它包含来自IAPR TC-12数据集[11]和SAIAPR-12数据集[8]的20,000个注释图像。数据集包括一些模糊的查询,例如any-where. 它也有一些错误的注释图像重新-gions。 数据集分为9,000、1,000和10,000用于训练、验证和测试的图像,以与[29]进行公平比较。使用边缘框[46]为每个图像提供100个边界框建议[14]。图像包含相同对象类别的2到4个对象。所有查询的最大长度为19个字。4.2. 实验装置4.2.1实现细节所提出的ARN通过Adam [16]算法进行训练训练迭代高达30,000次,批量大小为单个图像。每个图像具有无限数量的注释查询。ResNet是我们针对RoI视觉特征的主要特征提取器我们采用EdgeBoxe [46]为Ref- CLEF数据集生成100个区域建议,以便与[29,2]进行公平比较。此外,我们还展示了基于Faster R-CNN检测到的对象的性能。值得注意的是,我们没有提取RefCLEF数据集的上下文特征。由于在数据集的每个图像中存在100个区域提议,因此从5个周围提议中选择一个作为候选提议的上下文是不合理的4.2.2度量通过计算所选区域与地面实况的交并比(IoU)来评价网络性能。如果IoU得分大于0.5,则预测区域被视为正确接地。4.3. 结果4.3.1RefCOCO数据集性 能 分 析 : 表 1 报 告 了 RefCOCO 、 RefCOCO+ 和RefCOCOg数据集的结果。我们将所提出的ARN与这些数据集上唯一公布的非监督结果进行了比较[44]。我们可以得到以下发现。首先,自适应重建在包含多个人的testA上表现更好。语言重构在包含多个其他对象的testB上实现了更好的性能其次,协作损失在所有测试中都是次优的,这表明它可以更好地处理不同类型的数据集。我们还展示了使用Faster R-CNN检测到的对象提案由于检测错误,性能下降。消融研究:表2报告了不同设置下RefCOCO数据集的结 果 。 α 、 β 、 γ 、 λ 分 别 表 示 Lossavis 、 Lossalan 、Losslan、Lossatt上的权重。该比例是根据不同损失的数量级确定的。我们发现,当损失lan占一个更显着的合作损失的一部分,性能testA将大大下降。而当propor-2619表1. RefCOCO数据集上的准确度(IoU>0.5)。最好的结果。红色:第二好的结果。蓝色:VC的最佳结果。方法设置RefCOCORefCOCO+参考COCOgVal种皮testBVal种皮testBValVC无注册-13.5921.65-18.7924.1425.14VC--17.3420.98-23.2424.9133.79VCw/oα-33.2930.13-34.6031.5830.26VC(det)无注册-17.1422.30-19.7424.0528.14VC(det)--20.9121.77-25.7925.5433.66VC(det)w/oα-32.6827.22-34.6828.1029.65ARNLadp+L att33.0736.4329.0933.5336.4029.2333.19ARNLlan+L att38.0535.2736.4734.5134.4036.1239.62ARNLlan+L adp33.6035.6531.4834.4035.5432.6034.50ARN(det)Llan+L adp31.5835.5028.3231.7334.2329.3532.60ARNLlan+L adp+L att34.2636.0133.0734.5336.0133.7534.66ARN(det)Llan+L adp+L att32.1735.3530.2832.7834.3532.1333.09表2. RefCOCO数据集上的Albation研究。设置RefCOCORefCOCO+参考COCOgαβγλVal种皮testBVal种皮testBVal情况1111032.9236.4029.2633.0636.3429.6033.08壳体20.0111134.3236.2433.0535.6036.9233.0934.44壳体30.0115134.2636.0133.0734.5336.0133.7534.66壳体40.01110134.1835.8332.2932.3933.3932.8934.24壳体50.01115129.0927.1333.0929.9727.9833.9934.94壳体60.01120129.8727.8633.0529.2025.5735.2834.60动物最左边的牛在右边的长颈鹿在右边最高的长颈鹿停在摩托车斑马在另一只斑马一个穿黑衣服的女人在一个穿红衬衫的一个穿蓝衬衫打网球的中间圆环右边最大的钟最大羔羊袋子放在最右边图4. MSCOCO数据集上的定性结果。边界框颜色的表示如下。纯白色:地面真相蓝色虚线:预测的建议;黄色虚线:背景2620表3.RefCLEF数据集的准确度(IoU> 0.5)方法IOULRCN [7]8.59咖啡-7 K [12]10.38[29]第二十九话10.70MATN [45]13.61VC [44]14.11VC w/oα [44]14.50KAC Net [2]15.83损失航线21.86ARN(LAN损耗+ADP损耗)25.35ARN(损失LAN+损失ADP+损失ATT)26.19损失adp的作用越大,测试B中的结果将是一个灾难。在参数搜索之后,我们发现case5中的设置在所有数据集上都获得了良好的结果。4.3.2RefCLEF数据集性能分析:我们比较我们的自适应重构网络(ARN)与最先进的监督引用表达式接地方法。表3报告了RefCLEF数据集的结果。我们可以看到,ARN比最先进的结果高出10.36%。我们可以有以下的观察。首先,在只有语言重建损失的情况下,我们的方法比最先进的结果高出6.03%,这表明我们提出的自适应接地模块有效。第二,加入我们提出的自适应重建模块,性能实现了另一个3.49%的增加相比,只有语言重建损失。第三,属性分类损失也有助于定位,性能比以前的结果提高了0.84%。消融术研究:我们通过运行烧蚀实验研究每个损失模块的好处。表4报告了RefCLEF数据集上不同损失比例的结果。α、β、γ、λ分别表示Lossavis、Lossalan、Losslan、Lossatt上的权重。首先基于量级将自适应视觉重建损失设置为0.001我们可以进行以下烧蚀实验。我们改变了损失avis和损失alan的比例,在情况2和情况3相比,情况1,分别。我们发现当α为0.001时,由于Lossavis的量级不同,结果较好。通过案例1与案例6、案例4与案例5的对比分析表明,属性分类损失可以改善接地效果。案例6、案例7、案例8和案例9表明,当Losslan的比例为30时,网络的性能会更好。但是,当我们在案例10中只使用Losslan时,结果不如Lossadp和Losslan的组合。表4. RefCLEF数据集上的消融研究。α βγλVal情况10.001110024.14壳体20.01110021.83壳体30.001 1010022.55壳体40.00111022.34壳体50.00111125.35壳体60.001110124.34壳体70.001120124.76壳体80.001130126.19壳体90.001140125.53壳体100 01021.864.3.3定性结果图图4示出了RefCOCO、RefCOCO+和RefCOCOg数据集上的定性示例预测查询显示在相应图像下方。基础事实、基础建议和上下文建议分别表示为实线白色、虚线蓝色和虚线黄色。第一行显示基于同一图像中的不同查询的结果。提出的ARN能够正确处理位置信息。第二行显示了具有上下文信息的一些示例。ARN正确地接地的引用对象和上下文对象。第三行显示了一些困难的示例,其中存在同一类别的多个对象。实验结果表明,该方法可以有效地解决包含多个同类对象的硬接地问题。5. 结论为了解决弱监督的指称表达式接地问题,我们提出了一种新的端到端自适应重构网络。ARN通过自适应接地和协作重建,在主题、位置和上下文信息上对图像建议和查询之间的特别地,设计了一个分层注意力模型,以自适应地接地的建议与建议注意和语言注意的查询。该模型通过最小化协作重构损失来训练,其中包括语言重构损失、自适应重构损失和属性分类损失。实验结果表明,该方法在Ref-CLEF、RefCOCO、RefCOCO+和RefCOCOg数据集上的性能都有显著提高鸣谢。这项工作得到了中国国家自然科学基金的部分支持:61771457、61732007、61772494、61672497、61622211、61836002、61472389、61620106009和U1636214,部分由前沿科学重点研究计划,CAS:QYZDJ-SSW-SYS 013,中央高校基础研究基金WK 2100100030。2621引用[1] Peter Anderson,Qi Wu,Damien Teney,Jake Bruce,Mark Johnson ,Ni k oSünderhauf,IanD. Reid,StephenGould ,andAnton van den Hengel.视觉和语言导航:在真实环境中解释视觉基础的导航指令。在CVPR中,第3674-3683页。IEEE计算机学会,2018年。[2] Kan Chen,Jiyang Gao,and Ram Nevatia.弱监督短语接地的知识辅助一致性。在CVPR中,第4042-4050页。IEEE计算机学会,2018年。[3] Kan Chen,Rama Kovvuri,and Ram Nevatia.查询引导的回归网络与上下文策略的短语接地。在ICCV,第824-832页中。IEEE计算机学会,2017年。[4] Xinpeng Chen,Lin Ma,Jingyuan Chen,Zequn Jie,Wei Liu,and Jiebo Luo.单级接地网实时引用表达式计算。CoRR,abs/1812.03426,2018。[5] ChengMing-Ming,Shuai Zheng,Wen-Yan Lin,VibhavVi- neet,Paul Sturgess,Nigel Crook,Niloy J.米特拉和菲利普H. S.乇图片说明:语言引导的图像解析。ACM事务处理图表,34(1):3:1[6] Abhishek Das、Samyak Datta、Georgia Gkioxari、StefanLee、Devi Parikh和Dhruv Batra。具身问答。在CVPR中,第1-10页。IEEE计算机学会,2018年。[7] JeffDonahue 、 LisaAnneHendricks、SergioGuadarrama、MarcusRohrbach、SubhashiniVenugopalan、Trevor Darrell和Kate Saenko。用于视觉识别和描述的长期递归卷积网络在CVPR中,第2625-2634页IEEE计算机学会,2015年。[8] 放大图片作者:HugoJairEscalante,CarlosA.她也是我是A放大图片作者:AurelioL 'pez-L' pez,ManuelMontes-y-G'mez , EduardoF.Morales , LuisEnriqueSucar ,LuisVillasenumberorPineda,and Michael Grubinger.分段和注释的IAPR TC-12基准。计算机视觉和图像理解,114(4):419[9] Nicholas FitzGerald、Yoav Artzi和Luke S. Zettlemoyer学习逻辑形式上的分布,用于指代表达式生成。参见EMNLP,第1914-1925页。ACL,2013年。[10] Daniel Gordon , Aniruddha Kembhavi , MohammadRaste-gari,Joseph Redmon,Dieter Fox,and Ali Farhadi.IQA:交互式环境中的视觉问题回答。在CVPR中,第4089-4098页。IEEE计算机学会,2018年。[11] Michael Grubinger,Paul Clough,Henning Mller,andThomas Deselaers. iapr tc12基准测试:一种新的可视化信息系统评价资源。2006年10月,Ontoimage研讨会[12] Sergio Guadarrama 、Erik Roxley、Kate Saenko、NingZhang、Ryan Farrell、Jeff Donahue和Trevor Darrell。开放式词汇表对象检索。机器人:科学与系统,2014年。[13] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,第770-778页中。IEEE计算机学会,2016年。[14] Ronghang Hu , Huazhe Xu , Marcus Rohrbach , JiashiFeng,Kate Saenko,and Trevor Darrell.自然语言对象检索在CVPR中,第4555IEEE计算机协会,2016年。[15] Sahar Kazemzadeh 、 Vicente Ordonez 、 Mark Matten 和Tamara L.伯格。推荐游戏:在自然景物的照相照片中提到物体的。见EMNLP,第787ACL,2014年。[16] Diederik P. Kingma和Jimmy Ba。Adam:随机最佳化的方法。CoRR,abs/1412.6980,2014。[17] Liang Li,Shuqiang Jiang,and Qingming Huang.通过混合范数正则化学习图像理解的层次语义描述。IEEETrans. Multimedia,14(5):1401[18] Liang Li , Shuqiang Jiang , Zheng-Jun Zha , ZhipengWu,and Qingming Huang. 通过显著性引导的视觉匹配进行部分重复图像检索。IEEE MultiMedia,20(3):13[19] Liang Li,Shuhui Wang,Shuqiang Jiang,and QingmingHuang.用于弱监督多标签图像分类的注意递归神经网络。在ACM多媒体,第1092-1100页[20] 作者:Michael Maire,Serge J. Belongie,James Hays,PietroPerona,Dev aRamanan,PiotrDol la'r,andC.劳伦斯·齐尼克。Microsoft COCO:在上下文中常见的 对 象 。 在 ECCV ( 5 ) , Lecture Notes in ComputerScience的第8693卷,第740-755页中。Springer,2014.[21] Jingyu Liu,Liang Wang,Ming-Hsuan Yang.通过属性引用表达式生成和理解。在ICCV,第4866-4874页中。IEEE计算机学会,2017年。[22] Xuejing Liu,Liang Li,Shuhui Wang,Zheng-Jun Zha,Li Su,and Qingming Huang.知识引导的弱监督指称表达式接地的成对重构网络在ACM多媒体,2019年。[23] Ruotian Luo和Gregory Shakhnarovich。理解引导的指称表达。在CVPR中,第3125-3134页。IEEE计算机学会,2017年。[24] 毛俊华,黄强,亚历山大·托舍夫,Oana Camburu,Alan L. Yuille和Kevin Murphy无歧义对象描述的生成和理解。在CVPR中,第11-20页。IEEE计算机学会,2016年。[25] Margaret Mitchell,Kees van Deemter,and Ehud Reiter.生成引用可见对象的表达式。在HLT-NAACL,第1174-1184页中。计算语言学协会,2013年。[26] 圭多·F Montu'f ar, Razv anPascanu, KyungHyunCho ,andYoshua Bengio.关于深度神经网络线性区域的数量。在NIPS,第2924-2932页[27] 瓦伦湾弗拉德?纳加拉贾Morariu和Larry S.戴维斯为引用 表 达 式 理 解 建 模 对 象 之 间 的 上 下 文 。 在 ECCV(4),Lecture Notes in Computer Science的第9908卷,第792-807页中。施普林格,2016年。[28] 任少卿,何开明,Ross B.Girshick和Jian Sun。更快的R-CNN:朝向利用区域建议网络的实时对象检测。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- ASP.NET数据库高级操作:SQLHelper与数据源控件
- Windows98/2000驱动程序开发指南
- FreeMarker入门到精通教程
- 1800mm冷轧机板形控制性能仿真分析
- 经验模式分解:非平稳信号处理的新突破
- Spring框架3.0官方参考文档:依赖注入与核心模块解析
- 电阻器与电位器详解:类型、命名与应用
- Office技巧大揭秘:Word、Excel、PPT高效操作
- TCS3200D: 可编程色彩光频转换器解析
- 基于TCS230的精准便携式调色仪系统设计详解
- WiMAX与LTE:谁将引领移动宽带互联网?
- SAS-2.1规范草案:串行连接SCSI技术标准
- C#编程学习:手机电子书TXT版
- SQL全效操作指南:数据、控制与程序化
- 单片机复位电路设计与电源干扰处理
- CS5460A单相功率电能芯片:原理、应用与精度分析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功