Cops-Ref数据集中的组合指称表达式理解

147 浏览量更新于2023-10-25 收藏 1.16MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10086Cops-Ref：一个新的组合指称表达式理解陈振芳1王鹏2马琳3王君怡. Wong1Qi Wu4†1香港大学2卧龙岗大学3腾讯人工智能实验室4澳大利亚阿德莱德大学机器人视觉中心1{zfchen，kykwong}@cs.hku.hk2pengw@uow.edu.au3forest.gmail.com4adelaide.edu.au休息推理树：猫（左边，睡着了）−→毛巾（白色）表情：左边的猫正在白色毛巾上睡觉。(a) 带有目标“猫”的图像(b) 不同类别(c) 用“猫”来分散注意力(d) “睡猫”的干扰(e) 带“猫”和“毛巾”的干扰器图1：来自新Cops-Ref数据集的组合引用表达式理解示例。任务需要一个模型从一组图像中识别出一个由合成指称表达式描述的目标对象，这组图像不仅包括目标图像，而且还包括一些具有不同干扰因素的其他图像。目标/相关/干扰区域分别由绿色/黄色/蓝色框标记关于推理树的更多细节可以在第二节中看到第3.1条摘要指称表达理解（REF）的目的是通过自然语言表达来识别场景中的特定对象。它需要在文本和视觉域上进行联合推理来解决问题。然而，一些流行的指称表达数据集未能提供用于评估模型的推理能力的理想测试床，这主要是因为1）它们的表达通常仅描述对象的一些简单独特属性，以及2）它们的图像包含有限的分散信息。为了弥补这一差距，我们提出了一个新的数据集的视觉推理的上下文中提到的表达式的compression有两个主要特点。首先，我们设计了一个新颖的表达式引擎，它可以渲染各种推理逻辑，这些逻辑可以灵活地与丰富的视觉特性相结合，以生成具有不同组成的表达式。其次，为了更好地利用表达式中包含的完整推理链，我们提出了一种新的测试设置，通过添加额外的分散注意力的图像，其中包含与所指对象共享相似属性的对象，从而最小化*在振芳访问阿德莱德大学时所做的工作。†通讯作者。无推理跨域比对的成功率。我们评估了几个国家的最先进的REF模型，但发现没有一个可以实现有前途的性能。提出的模块化硬挖掘策略表现最好，但仍有很大的改进空间。数据集和代码可从以下网址获得：https://github.com/zfchenUnique/Cops-Ref.1. 介绍近年来，需要高级推理的计算机视觉任务引起了人们极大的兴趣. 视觉问答（VQA）[14，8]和视觉对话（VD）[5，20]是这种趋势的典型示例，其中系统通过在文本和视觉域上联合推理来回答基于图像的自由形式的问题。实现人工智能这一终极目标的先决条件是能够将语言中包含的丰富语言元素与图像的视觉内容结合起来指称表情理解就是这样一种视觉基础任务，其目标是通过自然语言中的一个阶段性表情来识别场景中的特定对象。许多数据集[17，29，45]已经为这项任务构建，在此之上，各种模型-10087[27，35，44]已开发。然而，这些流行的数据集[17，29，45]不能作为评估REF模型推理能力的理想测试床。首先，这些表达通常是简单和简短的，主要集中在所指对象的一些独特属性上，如对象类别，属性或一些简单的关系。例如，像“戴眼镜的女孩”和“坐在桌子旁边的男人”这样的表达只涉及一些肤浅的推理其次，现有数据集中的许多图像只包含有限的分散注意力的信息（例如，仅包含两个或三个相同类别的对象），并且不需要复杂的推理。例如，尽管我们得到了一个复杂的表达式“左边的猫正在睡觉，在白毛巾上休息。“来定位图中所示的示例图像中的目标猫。1（a），我们仍然有很高的成功机会，即使我们只使用一个简单的表达式'The cat on the left '作为查询。另一个不可忽视的问题是数据集偏差。正如Ciriket al. [4]，忽略表达式但仅使用图像作为输入的系统仍然可以大大优于随机猜测。最近，提出了一种用于引用表达的合成数据集，称为CLEVR-Ref+[26]，以促进视觉推理的诊断。然而，这个数据集牺牲了视觉真实性和语义丰富性，只描述了一些简单的形状和属性。为了解决上述问题，我们提出了一个新的具有挑战性的数据集的视觉推理的背景下，指的表达理解。我们的数据集是建立在GQA [14]中的真实世界图像之上的，因此它与视觉现实主义和语义丰富性有关。我们数据集的关键设计了与、或、序、同、非、链六种推理逻辑，可以灵活地与丰富的视觉信息（如，对象类别、视觉属性、位置信息和对象交互）来生成具有变化的组合性级别的表达式。此外，为了克服对象类别和数据集偏差的稀疏出现，我们设计了一个新的测试设置，通过添加分散注意力的图像，这些图像包含与所指对象共享相似视觉属性的对象（例如，相同的对象类别和相似的属性）。与数据集一起，提出了一个名为COmPositional Referring expression comprehension（Cops-Ref）的新REF任务，该任务需要一个模型来定位由一组视觉上相似的图像中的华丽表情描述的区域。使用新的数据集和任务，可以最小化无推理跨域对齐的成功率。我们在我们提出的Cops-Ref数据集上评估了各种最先进的REF模型，但我们发现它们都不能达到令人满意的性能。提出了一种模块化的硬挖掘策略，体现不同视觉特性的样品。它在Cops-Ref任务上实现了最佳性能，但仍有很大的改进空间。本文的贡献可以概括为以下几点：1）我们提出了一个新的具有挑战性的任务Cops-Ref，它需要一个模型来从一组具有相似视觉属性的对象的图像中定位所指对象; 2）在真实图像的基础上建立了一个新的数据集，该数据集兼顾了图像的视觉真实性和语义的丰富性，可以补充合成推理数据集，更严格地评估模型的推理能力; 3）设计了一种新颖的表情引擎，支持多种推理逻辑，可以灵活地与丰富的视觉刺激相结合，生成具有不同组合性的表情; 4）对REF模型进行了综合评价，其中模块化硬挖掘策略表现最好，但仍有较大的改进空间。2. 相关工作引用表达式数据集。朝向解决REF任务，许多数据集[17，29，33，45，3]已经通过要求注释者提供描述图像区域的表达式来构造。然而，这种方法不仅劳动强度大，而且难以控制标注质量，而且数据集中的大部分查询都可以通过对对象类别、属性和浅层关系的简单推理来解决。受VQA [43，28]的合成数据集CLEVR [15]的启发，Liu等人[26]建立了一个合成的REF数据集，称为CLEVR-Ref+，通过合成图像和实验。然而，在[14]中已经注意到，CLEVR中的图像只有少数对象类，属性和空间关系，对于VQA来说太简单了。这种合成图像是否具有足够的代表性以反映真实世界图像的复杂性是值得最近，Hudson和Manning [14]提出了一个新的VQA数据集GQA，它为真实世界的图像提供场景图注释。通过利用场景图注释和进一步的数据清理，我们贡献了一个新的数据集名为Cops-Ref的引用表达式，其中不仅包含具有复杂推理链的区域表达式对理解整个表情，区分图像中细微的视觉差异，需要较强的推理能力。请注意，GQA还提供了针对问题定位相关区域的实验，但它仅被视为评估VQA任务的指标，而不是针对REF任务。在他们的设置中，既不考虑表情，也不考虑干扰物参考表达模型。指称表达式[7，12，13，19，29，30，36，40，41，42，6]引起了人们的极大关注。Karpathy和Fei-Fei [16]通过多实例学习来学习文本和区域之间的视觉对齐。Rohrbach等人[35]通过使用注意力机制重建句子来[45、32、46]10088指数形式推理树范例模板表达式示例1链版本0obj0（att0）−−→obj1（att1）rel1−−→obj2（att2）att0>也就是rel0>att1>即rel1> att2>< obj2>。那个年轻的女孩正在触摸圆桌上的涂了釉的甜甜圈。2和−−re−l−0→obj1（att1）obj0（att0）−→obj2（att2）att0>< rel0>att1>< obj1>并且rel1> att2>< obj2>。建筑物附近的白色栅栏在那个走路的女人后面3或−−re−l−0→obj1（att1）obj0（att0）−→obj2（att2）att0>< rel0>att1>< obj1>或rel1> att2>< obj2>。黑色箱子后面的绿色箱子行李箱或黄色行李箱附近。4秩序obj0（idx，dir，att0）dir>中的idx>< obj0>是att0>。左边第一个杯子是红色的。5相同obj−s−am−e−c→at obj0 1有同一只猫的物体如obj1>。和你的颜色一样的包毛衣。6不对象0（不是属性0）不是att0>的obj0>。不是红色的苹果。表1：表达式逻辑形式的示例。对象的属性用（）来约束，对象之间的关系显示在→−上。 obj0表示目标对象，而obj1、2表示相关对象。在t0，1，2和rel0，1，2分别表示相应的利用上下文信息来为表达打下基础Yu等人[44] Liuet al.[25]分别使用模块化网络和神经模块树网络来匹配更好的结构语义。继[44]，Wanget al. [39] Liuet al. [27]通过观察相邻区域和跨模态注意力引导的时代来提高推理能力。与以往的研究主要集中在对单个图像中的简短表情进行研究不同，本文研究的是多幅相似图像中的复杂表情，这对视觉推理能力的要求更高，也基于文本的图像检索。基于文本的图像检索从由文本描述描述的图库中返回相关图像[1，9，22，23，24，33，37，38，11，2]。与基于文本的图像检索不同，Cops-Ref侧重于细粒度的区域级匹配。Cops-Ref中的分散区域在语义上与目标图像中的相关区域更相似，只有细微的差异。这种细粒度和区域级的相似性要求具有更强推理能力的模型来为流表达式提供基础。3. Cops-Ref数据集和任务以前的自然图像引用表达式数据集[17，29，45]通常只需要识别对象，属性和简单关系的能力。除了这种简单的能力，Cops-Ref还测量了更深层次的推理能力，如逻辑和关系推理。与以前的数据集相比，它有两个主要特点，即1）华丽的和组成的表达，需要复杂的推理能力来理解，2）具有挑战性的测试设置，包括受控的干扰物与相似的视觉属性的参考。图1显示了我们数据集的一个典型示例。在下面的小节中，我们首先介绍数据集的构建，包括生成表达式（第二节）。3.1），发现干扰（第3.1节）。3.2）和后处理（第3.2节）。3.3）。然后，我们分析数据集的统计数据，并在第二节中正式定义任务3.4和Sec.三点五3.1. 表达式引擎表达引擎是构建数据集的关键，负责为每个描述的区域生成语法正确、明确和华丽的表达，并具有各种组合性。我们提出了一种基于逻辑形式的场景图表达式生成方法。具体地说，给定一个要描述的区域，我们首先从预定义的逻辑族中选择一个逻辑形式，并为其获得文本模板然后以场景图中的目标对象节点为根，将其扩展为文本模板所需的特定推理树。最后，我们用从推理树解析的内容填充文本模板并产生表达式。在下面的段落中，我们将详细介绍这三个步骤。表达式逻辑形式。Expression logic forms sum- marisethe abstract logics and provide specific structures for theexpressions. 它们中的每一个都与几个文本模板相关联具体地说，我们定义了六种表达式逻辑形式，即链、与、或、序、同、非. 这些高级逻辑形式为目标对象提供不同的具体地说，链，和/或描述目标对象和其他相关对象之间的关系。链形式考虑由链连接的相关对象的序列，而与形式指示目标对象必须与另外两个对象具有某些特定关系，或形式仅需要填充两个关系中的一个。订单形式提供了目标对象与同一类别的相同的表单显示目标对象与相关对象共享相同的属性非形式表示目标对象中不存在某个属性或关系。这些基本逻辑形式可以进一步相互组合，产生更复杂的组合表达式。逻辑表单及其模板如表1所示。Although these logic forms cannot fully reflect thecom-10089自然语言的复杂性、所涵盖的基本逻辑单元及其灵活的组合方式足以衡量一个模型的推理能力。此外，实验结果表明，从Cops-Ref数据集学习的知识可以直接应用于以前的人类注释数据集，如refCOCO。推理树解析。而表达式逻辑形式定义表达式的结构，密集的场景图形提供相应的语义内容。我们使用[14，21]中提供的场景图来表示图像的内部语义结构。每个节点表示一个对象，节点之间的边表示它们之间的关系。不同表达逻辑形式的文本模板需要不同的语义内容作为输入，可以从场景图中提取不同结构的推理树来表示。表1显示了每个表单的推理树的实例、它们对应的文本模板和表达式示例。具体来说，对于链，和或形式，我们简单地从场景图中解析所需的语义推理树。对于订单形式，我们根据绑定框的中心坐标从左到右（反之亦然）对具有相同对象类别的所有区域进行由于顺序约束相当弱（例如，‘类似地，对于非形式，我们遍历整个场景图并收集存在于同一类别的所有对象中但不在目标对象中的对于同一形式，我们找到只有目标对象和相关对象才具有的属性在同一表格中使用的属性类别包括颜色、形状、材料、性别和图案。表达式生成。用表达式逻辑形式和已解析的推理树，表达式引擎可以通过用来自推理树的内容填充表达式逻辑表单的文本模板来生成灵活的表达式。例如，给定订单和文本模板（如index> object> fromdirection>），表达式引擎可以为推理树生成“左它还可以通过向推理树中添加更多的属性或节点来生成更华丽的表达式。例如，它可以产生的左侧扩展推理树，玻璃（第一，左，清晰）-肉汁3.2. 发现令人分心的图像在测试阶段引入分散注意力的图像是我们提出的数据集的另一个重要特征。它提供更复杂的视觉推理上下文，并减少数据集偏差。包含令人分心的图像保证了只有能够对完整的表达进行推理并区分细微的视觉差异的REF模型才能实现良好的性能。我们定义了四种类型的分散注意力的图像，即：1. DiffCat：包含不同对象的图像类别作为目标对象。2. Cat：包含与目标对象类别相同的对象的图像。3. 类别属性：包含与目标对象具有相同类别和属性的对象的图像。4. Cat cat：包含推理树中所有对象但关系不同的图像。这些干扰子可以用于评价REF模型的不同方面，如对象识别、属性识别和关系提取等。它们迫使模型完全理解华丽和组成的表达，以实现良好的性能。对于验证集和测试集中的每个表达式，我们在每个干扰因素下提供3个干扰图像，除了包含地面实况目标的图像。我们简单地丢弃那些我们找不到足够干扰项的区域-表达对。图1示出了针对给定表情的不同类型的分散注意力的图像的示例。3.3. 后处理和平衡我们使用从wordNet [31]解析的同义词来进一步提高表达式的多样性。此外，我们重新移动了针对难以移动的类的表达式。由规则的矩形框（例如，‘面积小于整个图像的1%的区域我们还注意到GQA中的一些场景图注释是不正确或不完整的（例如，缺少对某些对象的注释-/属性/关系）。它们可以使分散注意力的图像中的某些区域也在语义上匹配表达式。为了避免干扰项中的这种噪声，我们手动检查测试集中的表情和图像，并丢弃这些带有噪声的对。我们还发现一些简单的关系，如为了解决这些偏见问题，我们采取了两种策略：1）我们基于与频率的倒数成正比的概率对每个节点的关系进行采样，对最频繁的关系进行下采样，并丰富表达式的多样性; 2）我们放弃那些仅包含简单空间关系的表达式区域。3.4. 数据集的统计经过上述处理和平衡，我们在75，299张图像上拥有148，712个表情和1，307，885个区域，使我们的数据集成为当前最大的真实世界图像数据集，用于引用表情。平均长度10090(a)最常见的对象名称（b）最常见的属性（c）最常见的关系图2：Cops-Ref最常见的对象名称、属性和关系单词的大小表示频率。可以在Sec找到。我们在补充材料中提供了更多的数据示例和详细的统计数据。3.5. 任务给定一个自然语言指称表达式和一个集合，表2：refCOCO的统计比较[45]，参考-COCOg [29]、ClEVR-Ref+[26]和Cops-Ref关于对象类别的数量、属性的数量、关系的数量、表达式的平均长度、对象候选的平均数量和对于每个表达式具有相同类别的对象候选的平均数量。表达式的数量为14.4，词汇量为1，596。由于GQA数据集的测试集的场景图标注没有公开发布，我们使用GQA的验证集来构造我们的测试集。新的验证集所提出的Cops-Ref任务需要一个模型来定位由表达式描述的目标区域与之前的REF任务[17，29]相比，Cops-Ref需要更好地理解更长和更华丽的表达，以及区分分心图像的细微差异的能力。这就要求REF模型在对象检测、属性识别和关系抽取等方面具有较强的推理能力。通常，给定N个图像和查询表达式q，Cops-Ref任务通过下式来识别目标区域ri，j从GQA的训练数据中分离出来，以监控模型的训练过程。有119，603/16，524/12，586rimax，jmax=arg maxri，j，i∈[1，N]，j∈[1，Ji]s（ri，j|（q）、（1）分别用于训练/验证/测试的表达式由于场景图的密集注释，所提出的数据集包含用于对象类别、属性和关系的细粒度注释。入门级对象类别、属性和关系的数量分别为508、601和299。我们在图中显示了最常见的对象名称、属性和关系。二、我们可以看到不同的对象类别，其中最常见的属性是颜色（例如‘‘我们在表21中比较了所提出的Cops-Ref数据集与三个广泛使用的参考数据集 refCOCO [45] 、refCOCOg [29]和CLEVR-Ref + [26]的统计数据。如表2所示，所提出的数据集享有不同的对象类别、属性和关系。此外，它提供了相当长的表达式和更多的候选对象的相同/不同类别的目标对象。我们的表达式的平均长度比CLEVR-Ref+短，但我们发现即使在干扰物存在的情况下，也没有必要使用较长的表达式来区分真实世界图像中的目标对象关于数据集偏倚和基线结果的其中I i表示第i幅图像，ri，j是来自Ii的第j个区域，Ji是Ii，s（ri，j ）中的区域的数目|q）表示ri，j和q之间的匹配分数。请注意，在我们的实验设置中，我们在训练期间不使用分散注意力的图像，因为它们通常在现实世界中不可用或难以收集。而且，我们更容易遵循原来的培训策略在[22，27，44，35]中重新训练和评估模型。4. 模型虽然Cops-Ref是一项新任务，需要从一组图像而不是单个图像中定位一个区域，但通过将查询表达式与图像集中的每个对象密集匹配并选择具有最高匹配分数的一个作为引用结果，可以将现有REF模型直接应用于该新任务。MattNet [44]是解决REF任务的流行骨干模型，因为它在建模查询表达式的不同模块方面具有非凡的能力，包括主题（ sub ），位置（ loc ）和关系（rel）。具体而言，MattNet通过以下方式估计表达式q和第j个区域rj之间的匹配分数：Σs（rj |q）= wmds（rj |qmd），（2）MD1Cops-Ref和refCOCO的对象范畴定义是不同层次的。Cops-Ref确实包含了refCOCO中不存在的更多样化的对象类别，如其中md∈ {sub，loc，rel}，wmd是md模块的学习权重，qmd是模块短语嵌入。关于MattNet的更多细节可以在[44]中找到。对象目录Att.Num.Rel.Num.Exp.长度CandNum.猫坎德Num.refCOCO801--3.510.64.9refCOCOg80--8.58.22.6CLEVR-Ref+312522.4--Cops-Ref50860129914.4262.520.310091Mi、jm，nnn给定一个正对（rm，qm），Mat-tNet的整个模型通过排名损失进行优化，由下式给出：我们的总损失是L=L秩+L矿，其中L秩目标是区分分散注意力的消极区域，L秩Σ=（[−s（rmM|qm）+s（rm|qn）]++（三）在相同图像内的表达，并且L挖掘目标在于区分相同图像内的相似否定区域和表达。[−s（rm|qm）+s（ro|qm）]+），其中ro和qn是与rm和qm相同的图像中的其他随机未对齐区域和表达式，m是边缘，[x]+=max（x，0）。该损失函数适用于REF任务，并且可以成功地区分同一图像中对齐的区域-表达对与未对齐的区域-表达然而，当涉及Cops-Ref任务时，它具有无法识别其他图像中具有相似视觉属性的硬否定示例的限制，因为MattNet的训练不考虑其他图像中的硬否定区域和表达。针对这一问题，提出了一种基于MattNet的模块化硬挖掘训练策略模块化硬采矿战略。为了提高能力-MattNet的能力来区分分散注意力的图像中的硬负区域，我们需要在其他图像中采样分散注意力的区域/表情作为负训练示例。然而，由于Cops-Ref的训练集中有119，603个表情和797，595个区域，如何有效地挖掘出难否定区域和表情成为一个挑战。为了应对这一挑战，我们建议使用模块短语嵌入qmd的相似性作为先验，以在其他模块中对硬否定示例进行采样图像，其中md∈ {sub，loc，rel}。具体地，对于第m个区域-表情对，我们首先提取其模化表情特征{qmd}，并计算它们与具有相同对象类别的第n个区域-表情对的模化表情特征的相似度我们定义采样第n个区域表达对的概率为负，tive pair byMDMDMD其他图像。这种模块化的硬挖掘策略是有效的，因为它可以在包含目标区域-表情对的图像之外挖掘硬否定区域-表情对。另外，挖掘区域与目标具有相似的属性，这就要求有较强的推理能力来区分.It is also efficient since itonly requires the expressions as input without the need forloading images into memory.它使模型能够在大约29秒的时间内扫描训练集中的所有表情。在训练期间，我们每50次迭代更新样本概率pmd我们将所提出的硬挖掘模型与原始MattNet区分开来，称之为MattNet-Mine。5. 实验在本节中，我们进行了大量的实验来分析Cops-Ref数据集，并将我们提出的模型与SOTA REF模型进行比较。我们首先研究了偏置影响和传输性能。然后，我们将建议的MattNet-Mine的性能与基线进行比较。我们还提供了广泛的分析，包括“检索”+“REF”来处理任务，对逻辑形式和表达式长度的性能。最后，我们提供了一个abla- tion研究我们的挖掘策略的干扰。在我们开始之前，我们会介绍实验设置。5.1. 实验设置实施详情。在MattNet [44]和CM-Att-RNN [27]之后，我们通过基于res 101的Faster-RCNN [10，34]在COCO[24]上预训练来提取视觉特征。对于句子中的每个单词，我们都用一个-热词嵌入我们和亚当一起训练所有的模型sm，n=f（qm，qn），exp（smd）（四）优化器[18]，直到验证集的准确性停止提高。我们设置文本的最大时间步长-MDm，n = NC=NCn=1，mm，n，nexp（smd）编码器为30。少于30个单词的表达是其中f是用于估计两个表情特征之间的相似性的函数，并且NC是与训练集中的第m个区域-表情对具有相同对象类别的区域-表情对的数量为了简单起见，我们使用余弦相似性作为f的实例。我们为每个阳性区域-表达对挖掘硬干扰区域和表达，并将这些干扰区域作为硬阴性示例发送到排名损失。形式上，我们的模块化硬采矿损失是Σ ΣLmine=（[−s（rm|qm）+s（rm|qmd）]++M中文（简体）[−s（rm|qm）+s（rmd|qm）]+），其中rmd和qmd是采样的区域表达式对有衬垫的。对于超参数的其他设置，我们保留它们与原始MattNet相同，避免了繁琐的参数微调。对于提出的MattNet-Mine，我们首先通过排名损失Lrank对其进行预训练，以获得合理的模块注意短语嵌入，然后进行微调同时具有Lmine和Lrank的模型遵循之前的REF模型，如[27，39，44]，我们使用地面实况对象边界框作为建议。我们认为这是正确的如果模型成功地在从相似图像集合中提出的所有建议中选择了由表达式所指向评估设置。表3显示了不同的实验设置。Full表示添加所有干扰项时的情况，而WithoutDist表示未添加干扰项n n{pmd}NC作为一个priorDiffCat、Cat和Cat attr分别表示m，nn=1，m np10092方法充分DiffCat猫猫属性猫猫无距离机会0.41.71.81.91.76.6GroundeR [35]19.160.238.535.738.975.7Deaf-Grounde2.27.77.98.08.027.1洗牌-地面13.141.828.627.227.658.5目标-属性-基础15.253.132.629.632.768.8MattNet-refCOCO8.722.717.016.718.942.4[第44话]26.369.145.242.545.877.9[27]第二十七话28.071.347.143.448.480.4[22]第二十二话18.8-----MattNet-Mine33.870.554.446.852.078.4表3：Cops-Ref数据集上基线和最新模型的结果MattNet-refCOCO是在refCOCO上训练的当添加特定类型的干扰项时的情况，包括不包含与目标对象相同类别的对象的干扰图像、包含相同类别的对象的图像、包含相同类别的对象的图像、以及包含推理树中的所有对象但具有不同关系的属性和图像5.2. 数据集分析偏倚分析。受Cirik etal. [4]，我们用类似的方法来分析Cops-Ref的偏倚问题。排除特定车型的影响或机制，我们选择GroundeR [35]，这是最简单的CNN-RNN基准模型用于引用表达。我们训练了GroundeR模型的几个变体，包括使用全零向量屏蔽GroundeR的语言输入的M-GroundeR，打乱表达式中单词序列顺序的shuffle-GroundeR和仅保留文本输入的名词和表 3 的上部分显示了偏差实验的结果。 Deaf-GroundeR，一个只包含图像的模型比“Chance”模型获得了更好的性能，“Chance”模型从图像中随机选择一个区域。我们观察到，Deaf-GroundeR可以过滤掉一些不相关的区域，为那些在训练集和测试集中经常出现的类别，如“女人”和“衬衫”的区域提供更高的匹配分数这表明，像ref- COCOg [29]这样的先前数据集中的统计偏差问题也存在于我们的数据集中。然而，比较WithoutDist和Full的结果，我们看到，当添加干扰项时，偏倚性能变得低得多此外，Cops-Ref中的偏倚问题不如 refCOCOg 中的严重。 Deaf-GroundeR 在Full情况下仅达到2.2的准确度，而类似的Cirik等人[4]还指出，打乱表达式的顺序和屏蔽掉其他不是名词或形容词的单词对refCOCOg的性能影响很小，分别只导致4%和3%的相对下降。这表明，模型不需要很强的推理能力，整个句子处理任务。然而，在Cops-Ref中，比较Shuffle-GroundeR 和 Obj-Att-GroundeR 与 GroundeR 在Full情况下，我们观察到的相对下降分别为31%和20%。这表明句法结构和句法关系在Cops-Ref中对绩效的提高起着更重要的作用。传输性能。我们直接将在refCOCO上训练的MattNet[44] 模型应用于我们的 Cops-Ref ，并且在WithoutDist和Full情况下分别仅达到42.4和8.7的准确度。这表明我们的数据集和任务更加复杂和具有挑战性。相比之下，在Cops-Ref上训练的MattNet可以在refCOCO的testA和testB分裂上实现56.5和64.5的准确度，分别约为在refCOCO上训练的原始模型的65.7%和76.4%。这证明了我们的合成实验的真实性，并且从Cops-Ref中学到的知识可以直接转移到像refCOCO这样的真实数据集，而从refCOCO中获得的推理能力不能解决我们的Cops-Ref任务。5.3. 总体评价我们使用三条基线评估所提出的Cops-Ref任务，即GroundeR [35] ， MattNet [44] 和 CM-Att-Ref [27] 。GroundeR是一个简单的CNN-RNN基线。MattNet是最受欢迎的REF模型之一，而CM-Att-Bit是本次提交时REF中最先进的模型我们对相似图像集中的每个图像上的表情进行密集接地，并选择得分最高的区域作为接地结果。REF模型的性能。表3报告了所有基线的准确性和拟定的 MattNet-Mine 。我们有以下几点意见。 (1) 从GroundeR [35]到MattNet [44]，从MattNet [44]到CM-Att-[27] ，性能逐渐增加。这与其在 refCOCO 、refCOCO+和refCOCOg上的性能一致[17，29]。(2)当添加包含相同对象类别的对象的分散注意力的图像时，这些REF模型的性能急剧下降，特别是在Full情况下。在4种干扰源中，区分猫对学习成绩的影响最小，猫属性对学习成绩的影响最大。这意味着现有的10093百分之七十MattNet MattNet-Mine CM-Att-Mine60.0%百分之五十40.0%30.0%20.0%10.0%百分之零点零链和/或顺序相同注释图3：不同逻辑形式的表达式的准确性。方法充分DiffCat猫猫属性猫猫MattNet26.369.145.242.545.8随机27.671.647.443.547.3类感知的32.270.353.246.151.4句子模拟32.370.453.646.451.2模块特定33.870.554.446.852.0表4：不同硬采矿策略的消融研究。5.4. 牵引器开采的烧蚀研究我们进行了一项消融研究，针对Cops-Ref任务的硬性负面挖掘策略。具体地，我们通过替换等式中的qmd和rmd五是以不同的视角，n n图4：不同长度表达式的准确性。REF模型强烈依赖于对象和属性识别来定位目标区域。(3)与原始MattNet[44]相比，我们的MattNet-Mine显示有所改进所有情况下的性能，特别是对于包含了细粒度的相似干扰物这证明了拟议的硬采矿战略的有效性。实施“创业”+“参考”战略。我们还评估了另一种策略来解决这个问题，我们首先使用基于文本的图像检索模型来选择一个im，年龄与最高的匹配分数，然后地面的查询表达式在选定的图像。我们使用SCAN（t2i）[22]作为其出色性能的检索模型，并使用MattNet在返回的图像中为表达式提供基础在Full情况下，我们实现了18.8的准确度。与表3中的其他模型相比，我们认为这可能是由于这样一个事实，即密集地指在每个图像中的表达式提供了更细粒度的区域级匹配比检索模型。不同逻辑形式的表现。我们在图中展示了每种逻辑形式的表达式3 .第三章。我们可以看出，虽然chain、and、or和same形式的表达式具有相似的精度，但order和not形式分别具有最好和第二好的精度。我们认为这是因为：1）序与非形式的推理逻辑树比链、与或（见表1）等形式的推理逻辑树简单; 2）序形式提供了目标对象与同一图像中同类相关对象之间的特定相对空间位置不同语言的表现。我们根据表达式中的单词数量将表达式分为三类，即短（少于10个单词），中（10-20字）和长（20字以上），分别测试。如图4.我们发现，中间组的被试具有最好的准确性。我们怀疑短表达式提供有限的文本信息来区分分散注意力的区域，而长表达式通常包含复杂的逻辑或语义，需要更强的推理能力。gion和表达式。“Random” means using以及从整个数据集中随机选择的表达式，而不管对象类别。 “Sentence-sim”是指基于全局表情特征的相似性采样的区域-表情对。我们将全局表达式特征定义为表达式中所有单词的平均嵌入。“Module-Specific” meansthe proposed modular specific hard mining strategy basedon the similarity of the modular expression表4显示了消融研究结果。与原始MattNet相比然而，与其他挖掘策略相比，它在Full“Class- awre”boosts the performance under the case where “Sentence-sim”6. 结论现有的引用表达式数据集中的表达式通常只描述对象的一些简单的区别属性，不能充分评价模型在本文中，我们提出了一个新的具有挑战性的数据集，命名为Cops-Ref，引用表达式压缩。新的数据集涵盖了各种推理逻辑，可以灵活地与丰富的视觉属性相结合。此外，为了更好地利用表达式中体现的完整推理链，我们通过添加一些额外的分散注意力的图像提出了一个新的测试设置。这个新提出的数据集的偏差较小，我们发现现有的最先进的模型未能显示出有希望的结果。然后，我们提出了一个基于模块化的硬挖掘策略，实现了最佳性能，但仍然远远不够完美。我们希望Cops-Ref数据集和任务能够引起更多的研究关注，并成为该领域的新基准。58.5%49.7%53.4%百分之三十二点二百分之二十八点三百分之二十五点八百分之二十点五22.2%百分之二十二点八24.0%百分之十七点一百分之十八点九35.4%百分之三十一点九百分之三十一点七百分之百分之十七点九ACC35.0%30.0%25.0%20.0%百分之十五点零10.0%百分之零点零短中长MattNetMattNet-MineCM-属性-参数ACC10094引用[1] Kobus Barnard，Pinar Duygulu，David Forsyth，Nandode Freitas，David M Blei，and Michael I Jordan.匹配文字和图片。机器学习研究杂志，2003年。3[2] Zhenfang Chen，Lin Ma，Wenhan Luo，Peng Tang，and Kwan-Yee K Wong.看起来更接近地面：视频中句子的弱监督时间背景。arXiv预印本arXiv：2001.09308，2020。3[3] Zhenfang Chen，Lin Ma，Wenhan Luo，and Kwan-YeeK Wong.视频中弱监督的时空接地在Proc.57th AnnualMeeting of the Association for Computational Linguistics，Florence，Italy，2019年7月2[4] Volkan Cirik ， Louis-Philippe Mohammed ， and TaylorBerg- Kirkpatrick.视觉指称表达识别：系统到底在学习什么？在NAACL，2018年。二、七[5] Abhishek Das ， Satwik Kottur ， Khushi Gupta ， AviSingh ， Deshraj Yadav ， Jose´ M.F. Moura ， DeviParikh，and Dhruv Batra.可视对话框。在CVPR，2017年。1[6] Chaorui Deng，Qi Wu，Qingyao Wu，Fuyuan Hu，FanLyu，and Mingkui Tan.通过累积注意力的视觉基础。在IEEE计算机视觉和模式识别会议论文集，第7746-7755页，2018年。2[7] Pelin

下载后可阅读完整内容，剩余1页未读，立即下载