CLEVR-Ref:一个用于指代表达理解的合成diagnostic数据集

63 浏览量更新于2023-10-17 收藏 844KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1CLEVR-Ref+：用指称表达式刘润涛1，刘晨曦2（），白宇彤3，Alan Yuille21北京大学2约翰霍普金斯大学3西北工业大学runtao219@gmail.comcxliu@jhu.edualan.l. gmail.comytongbai@gmail.com摘要参考目标检测和参考图像分割是一个需要视觉信息和自然语言共同理解的重要课题。然而，有证据表明，当前的基准数据集存在偏差，并且当前最先进的模型无法在其中间推理过程中进行评估。为了解决这些问题并补充视觉问答中的类似努力，我们构建了CLEVR-Ref+，一个用于指代表达理解的合成diagnostic数据集。对象的精确位置和属性是可读的，引用表达式自动与函数程序相关联。合成性质允许控制数据集偏差（通过采样策略），并且模块化程序允许在没有人类注释者的情况下进行中间推理。除了在CLEVR-Ref+上评估几个最先进的模型外，我们还提出了IEP-Ref，这是一种模块网络方法，在我们的数据集上显著优于其他模型特别是，我们使用IEP-Ref提出了两个有趣且重要的发现：（1）训练将特征映射转换为分割掩码的模块可以连接到任何中间模块，以逐步揭示整个推理过程;（2）即使所有训练数据都至少有一个对象引用，IEP-Ref也可以正确地预测无前景，当呈现虚假前提引用表达式时。据我们所知，这是第一个直接和定量的证据，证明神经模块的行为方式。11. 介绍视觉和自然语言的联合理解一直是一个重要的研究方向。虽然图像字幕[17，5，25，22]专注于生成一个句子，图像是唯一的输入，但视觉问答（VQA）[2，6，37]和引用表达式（REF）[24，13]需要在生成输出之前理解图像和句子。在本文中，我们重点参考-1 关于 CLEVR-Ref+ 和 IEP-Ref+ 的所有数据和代码已在www.example.com 上发布 https://cs.jhu.edu/ 请参见cxliu/2019/clevr-ref+环表达式，这是从自然语言中识别给定场景中的特定对象（以分割掩码或边界框的形式）。为了研究指称表达，已经提出了各种数据集[24，34，18]。这些是由众包工作者注释的真实世界图像。这些数据集的优势在于，它们在一定程度上反映了现实世界的复杂性和细微差别。但不可避免的是，它们也有局限性。首先，它们通常表现出强烈的偏见，可能被模型利用[3]。粗略地说，这意味着简单地选择显著的前景对象（即，丢弃引用表达式）将产生比随机高得多的基线。这使人们对当前REF模型的真正理解水平产生了怀疑。第二，只能对最终的分割模板或包围盒进行评估，而不能进行中间的逐步推理过程。例如，对于“红色行李箱左边的女人”这一指称表达，合理的推理过程应该是首先找到图像中的所有行李箱，然后识别出其中的红色行李箱，最后分割出其左边的女人。显然，这需要更高质量的注释，而这些注释目前是不可用的，也很难收集。为了解决这些问题并在视觉问题回答中做出类似的努力CLEVR [15]），我们提出了CLEVR-Ref+，一个用于引用表达式的合成诊断数据集。使用合成数据集的优点是我们可以完全控制场景，并且可以通过采用统一的采样策略来最小化数据集偏差。此外，指称表达现在自动标注了真正的潜在推理过程，因此逐步分析变得更加合理。我们在构建CLEVR-Ref+的过程中做了很多努力，以确保它能够很好地适应和适用于指称表达任务。首先，我们将CLEVR中的原问句其次，我们将输出空间从文本答案（以单词的形式）更改为引用对象（以分割掩码或边界框的形式）。第三，我们分析了来自真实世界REF数据集的统计数据，发现有一些常见的指称表达式41854186在前面第二个大物体后面和左边第一个大球体右边的大物体任何其他与右数第五个相同大小的东西图1：来自我们CLEVR-Ref+数据集的示例。我们使用与CLEVR [15]中提供的场景相同的场景。我们没有询问关于场景的问题，而是要求模型返回一个边界框（如左图所示）或基于给定的引用表达式返回一个分割掩码（可能是多个对象;如右图所示）(e.g. 、 “The second sphere from left”) that are notincluded in 在我们的CLEVR-Ref+中，我们添加了对这些类型的表达式的支持，以更好地匹配现实世界中使用的各种引用表达式。我们在我们的CLEVR-Ref+数据集上测试了几种最先进的引用表达模型。这包括为参考分割[21]和检测[35，33]设计的那些。除了像以前的数据集一样评估整体IoU和准确性外，我们现在可以在子类别方面进行更详细的细分和分析。例如，我们发现，对于模型来说，理解有序性特别困难这可能是未来重要的研究方向。除了诊断这些现有的模型，我们还提出了IEP-Ref，一种基于IEP [16]的神经模块网络[1]解决方案实验结果表明，IEP-Ref模型在CLEVR-Ref+上具有良好的性能，其明确的、分步的功能程序和模块网络执行引擎，表明了组合性的重要性。非常有趣的是，我们发现，在将最后一个模块输出转换为分割掩码时训练的模块是通用的，并且当附加到中间模块输出时可以产生优秀的人类可解释的分割掩码，从而揭示整个推理过程。我们相信我们的是第一个展示神经模块网络进行的视觉推理过程的清晰可视化，而不是梯度范数[16]或软注意力图[27，9]。总之，我们的论文做出了以下贡献：• 我们构建了CLEVR-Ref+，这是一个用于参考表达任务的合成诊断数据集，它补充了现有的真实世界数据集。• 我们在CLEVR-Ref+上测试和诊断了几种最先进的引用表达模型，包括我们提出的明确捕获复合性的IEP-Ref。• 在IEP-Ref中训练的分割模块可以简单地插入到模块网络中的所有中间步骤中，以产生清晰地揭示网络推理过程的2. 相关作品2.1. 指称词语指称表达是指图像中特定对象的句子指称表达的理解在机器人学和人机交互中有着重要的应用近年来，许多深度学习模型已经被开发出来。一些作品集中在检测，即。返回一个包含被引用对象的边界框。[24，13]通过使用生成式字幕模型对每个边界框建议进行[31]通过使用注意力机制重建描述，学习了描述和图像区域之间的对齐。[34，28]研究了语境对指称表达的重要性。[23]使用了一个区分理解模型来改进指称表达的生成。[35]显示了通过纳入再学习的额外收益。[11，33]使用学习的解析器和模块网络来更好地匹配结构化语义。也有专注于细分的作品，即。重新旋转分割掩模。[12]使用FCN特征与LSTM特征连接以产生逐像素的二进制分割。[21]除了纯语言LSTM之外，还使用了卷积LSTM来促进中间分割信念的传播。[20，26]改进后[21]通过进行更多的架构改进。2.2. 数据集偏倚和诊断数据集在视觉问答中，尽管提出了令人兴奋的模型，并且在基准数据集上的准确性正在稳步提高，但人们对4187表1：将问题转换为指称表达的示例类别问题（CLEVR）引用表达式（CLEVR-Ref+）基本有多少个青色立方体青色立方体。空间关系棕色球体的左边有绿色的圆柱体吗？与逻辑有多少个绿色球体既在红色圆柱体的前面又留给黄色立方体？或逻辑有没有圆柱体是紫色金属物体或红色哑光小东西？有没有其他的东西和红色球体的大小一样？大橡胶圆筒后面的棕色闪亮物体比灰色块多吗？比较小球和大球体前面的小圆柱体的颜色是否相同？棕色球体左边的绿色圆柱体绿色的球体都在红色圆柱体的前面，而黄色立方体的左边。紫色金属物体或红色哑光小东西。与红色球体大小相同的事物/物体。--数据集偏差问题[36，7]，这意味着模型可能会严重利用训练/测试数据中的不平衡分布。最近，[3]表明数据集偏倚也存在于引用表达数据集中[24，18，34]。例如，[3]报告说，当丢弃引用表达式并仅基于图像时，性能显着高于随机。理想情况下，数据集应该是无偏的，这样性能才能忠实地反映模型但是当处理真实世界的图像和人类注释的指称表达式时，这是很难一个可能的解决方案是使用合成数据集。事实上，这是CLEVR [15]所采取的路径，这是VQA的诊断数据集。在那里，对象被放置在2D平面上，并且在形状，颜色，大小和材料方面只有少量的选择。问答对也是使用精心设计的模板合成的。结合统一的采样策略，这种设计可以减轻数据集偏差，并揭示模型我们通过将 CLEVR 重新用于指称表达任务来构建我们的CLEVR-Ref+数据集。现在有几种方法在CLEVR上实现了近乎完美的精度[16，10，29，32，27，14，9]。除了报告VQA的准确性外，他们通常还尝试通过可视化来解释然而，这些可视化的质量与VQA的高精度不我们怀疑主要原因是这些模型被训练的领域（即文本答案）不同于这些模型被诊断的领域（即，注意图像）。幸运的是，在指称表达中，这两个域是可以互换的。请注意，CLEVR也适用于[9]中的指称表达，但他们专注于促进VQA，而不是引入扩展（第3.3节），评估最先进的模型（第4.1节），并直接促进视觉推理的诊断（第4.3节）。3. CLEVR-Ref+数据集CLEVR-Ref+使用与CLEVR完全相同的场景（训练集中有70 K图像，验证和测试集中有15 K图像），每个图像与10个参考表达式相关联由于CLEVR是一个VQA数据集，我们首先将问题改为引用表达式（第3.1节），并将答案改为引用对象（第3.2节）。然后，我们对模块集（第3.3节）进行了重要的添加，并对采样程序（第3.4节）进行了必要的更改。最后，我们区分了是否引用了多个对象（3.5节）。3.1. 从疑问句到指称表达CLEVR中提供了模板，以便可以同时生成问题和与之相关的功能程序我们注意到，在许多情况下，问题的一部分确实是一个引用表达式，因为我们需要首先确定感兴趣的对象，然后再询问它们的属性（例如，颜色或数字）。在表1中，我们提供了如何将问题模板更改为相应的引用表达式模板的示例，通常是通过选择子集。相关的功能程序也相应地进行了调整。例如，对于最初的类别因此，它们不包括在CLEVR-Ref+的模板3.2. 从应答到引用对象在引用表达式中，输出不再是文本答案，而是边界框或分段掩码。由于我们知道场景中对象的确切3D位置和属性，因此我们可以遵循地面实况函数，4188表2：RefCOCO+中的频繁类别和单词[34]。类别例词频率对象衬衫，头，椅子，帽子，披萨63.66%人类男人，女人，男孩，女孩，人42.54%颜色白色，黑色，蓝色，红色，绿色38.76%空间后面，后面23.86%动物斑马，大象，马，熊百分之十五点三六属性大的，条纹的，小的，格子的，长的10.55%行动站着，拿着，看着百分之十点三四序数最接近，最远，第一，第三5.797%比较更小，更高，更矮，更老5.247%可见完全可见，几乎看不见4.639%与引用表达式相关联的逻辑程序，以识别哪些对象正在被引用。事实上，我们不仅可以在最后（在真实世界的数据集中也可用）这样做，而且可以在每个中间步骤（在真实世界的数据集中不可用）这样做。当我们在后面逐步检查和评估视觉推理过程时，这将变得很有用。在找到参考对象后，我们将它们投影回图像平面，以获得地面真值边界框和分割掩码。这种自动注释是通过软件Blender渲染完成的。对于被遮挡的对象，只有可见部分被视为地面实况。3.3. 模块添加我们希望我们生成的指称表达能够代表现实世界中使用的指称表达。然而，由于任务不再相同，我们怀疑直接从CLEVR继承的模板中可能缺少一些频繁的引用模式。为此，我们分析了来自真实世界引用表达式数据集RefCOCO+ [34]的统计数据，如表2所示。我们首先按照频率对这些指称表达中的词进行然后，从最频繁的词开始，我们根据经验将这些词归类。毫不奇怪，表示物体或人的名词是最常见的。然而，沿着列表往下看，我们发现“序数”（例如，“第二个女人从左边”）和“可见”（例如。 “The barely seenbackpack”）cat-egories可以回忆起超过10%的句子，但不包括在现有的模板中。此外，使用计算机程序来定义它们确实是可能的，因为在含义上没有歧义。我们将这两个新模块添加到CLEVR-Ref+功能目录中。在一个功能程序中，这两个模块可以在描述颜色、材料、尺寸或形状时插入。作为示例，在我们的数据集中，我们定义一个对象如果前景对象的遮罩占据其边界框区域的20%以上，则为部分可见。要使对象完全可见，此值必须正好为0。我们不描述可见性时，有一个模棱两可的情况（即。该值在0和0.2之间）。3.4. 生成过程为场景生成引用表达式在概念上是简单和直观的。该过程可概括为以下几个步骤：1. 随机选择一个引用表达式族2.2. 从此族中随机选择一个文本样板3. 按照功能程序，并选择随机值时，遇到模板参数3.4. 当某些标准失败时，即样本指称表达不适合给定场景;返回时，整个功能程序遵循通过。我们在很大程度上遵循CLEVR的生成过程，但有一些重要的变化：• 为了平衡不同类别（表1中列出的类别）中引用表达式的数量，我们将引用表达式家族数量较少的类别中的抽样概率加倍。• 在描述一组对象的属性时，我们不会同时使用Ordinal和Visible这是因为将一个物体称为• 最初，在描述一组对象的属性时，会翻转四个公平的硬币来确定是否包括颜色，材料，大小，形状。因此，通常会选择多个属性，只有极少数对象在这些过滤器中幸存。我们根据经验发现，这使得系统很容易简单地从直接描述目标对象的属性中选择正确的对象。为了解决这个问题，我们首先枚举这些属性的所有可能的组合，并计算每种可能性有多少对象将存活。然后，我们从这些可能数量的生存者中均匀采样，然后进行另一次均匀采样以找到属性的组合这将确保在每组滤波之后对象数量的较大变化，并防止接近退化的解决方案。• 在函数式程序结束时，我们验证是否至少有一个对象被引用;否则拒绝。引用表达式家族包含一个用于构造函数程序的模板和几个文本模板，这些模板提供了用自然语言表达这些程序的多种3例如，左/右/前/后;大的/小的;金属的/橡胶的4189表3：CLEVR-Ref+上的参考对象检测和参考图像分割结果。我们评估了三个现有的模型，以及IEP-Ref，我们改编自其VQA对应。基本0-相关空间关系1-关联2-关联3-关联逻辑和或相同准确性IoUSLR [35]0.6270.5690.5700.5840.594 0.7010.4440.577-MAttNet [33]0.5660.6230.6340.6240.723 0.7370.4540.609-马绍尔群岛[21]0.8220.7130.7360.7150.5850.6790.251-0.561IEP-Ref（GT）0.9280.8950.9080.9080.8790.8810.647-0.816IEP-Ref（700 K程序）0.9200.8840.9020.8980.8600.8690.636-0.806IEP-Ref（18 K程序）0.9070.8580.8740.8620.8290.8470.605-0.782IEP-Ref（9 K程序）0.9100.8580.8470.8110.7780.7910.626-0.7603.5. 多对象和单对象引用如第3.4节所述，CLEVR-Ref+中的每个引用表达式可以引用场景中的一个或多个对象。我们相信这是更通用的设置，并且模型应该具有处理被引用的不同数量的对象的灵活性。这已经通过参考图像分割系统来处理和支持。然而，我们注意到，基于检测的系统通常被设计为返回单个对象而不是多个对象，大概是因为这是如何创建检测数据集[24，34]的。因此，对于基于检测的方法，我们评估CLEVR-Ref+的子集，其中仅涉及单个对象。这个子集总共包含222，569个引用表达式（占整个数据集的32%）。4. 实验4.1. 模型和实现细节在所有模型中，我们将输入图像的大小调整为320×320，以建立公平的比较。这些模型的公开可用代码以最小的变化使用，以适应我们的CLEVR- Ref+数据集。研究和测试了以下引用表达模型：这是一个检测模型，包括一个生成模型（扬声器），一个判别模型（听众），以及一个强化学习组件，使进一步的改进。在训练主模型之前，需要首先训练视觉语言相似度模型。我们使用Adam优化器[19]，学习率4 e-4，批量大小32用于视觉语言相似性模型和主模型。MAttNet [33]这也是一个检测模型，它使用三个模块化网络分别捕获主题，位置和关系特征。软注意机制用于返回候选区域的总得分。我们使用学习率4 e-4和批量大小15。经常性多模态相互作用（RMI）[21]这是一分割模型除此之外，还将引用-为了将环表达式LSTM嵌入图像特征，RMI还使用卷积LSTM来促进在逐字读取引用表达式时的分割信念的传播。我们使用Adam优化器，学习率2.5e-4，批量大小3，权重衰减5e-4。IEP-Ref这是一个我们从IEP [16]中改编的分割模型，它是为VQA设计的。这个想法是使用LSTM程序生成器将引用表达式转换为一系列结构化的模块，每个模块都由一个小CNN参数化。通过执行这个动态构造的神经网络（在末端具有特殊的Segment模块;参见其体系结构的补充材料），IEP-Ref模仿潜在的视觉推理过程。对于输入视觉特征，我们使用ResNet101 [8]在ImageNet [4]上预训练的conv4阶段的最后一层，大小为1024× 20× 20。在[16]之后，这部分没有微调。我们尝试了三种设置，使用9 K/18 K/700 K地面实况程序来训练LSTM程序生成器（Adam optimizer，学习率5e-4，批量大小64;对于9 K设置为20，000次迭代，对于18 K和700 K设置为32，000次迭代）。预测程序的精度分别为0.873、0.971、0.993。对于第四个设置，我们简单地使用地面实况程序4。执行引擎使用学习率1e-4和Adam优化器训练30个epoch。4.2. 结果和分析4.2.1总体评价实验结果总结于表3中。通过准确度（即，预测是否在给定的候选中分割模型通过 Intersection over Union（ IoU ）进行评估，其中 IEP-Ref 的性能明显优于RMI。这表明了在引用表达式中建模组合性的重要性我们现在对各个方面进行更详细的分析4这是我们的默认IEP-Ref设置，除非另有说明。4190ACC1.000.750.500.250.00IOU1.000.750.500.250.00颜色形状尺寸材质顺序可见单反MAttNetRMIIEP-Ref排除包括图2：分析不同模型的基本引用能力。“包括”是指在引用过程中涉及模块时的平均性能。“不”是指其他情况。因此，高访问IoU访问IoU1.000.750.500 1 2 31.000.750.500 1 23单反MAttNetRMIIEP-Ref1.000.750.500.250.001.000.750.500.250.00单反MAttNetRMIIEP-Ref链树图3：分析不同模型的空间推理能力横轴是空间关系的数量。图4：推理拓扑的影响（链与树）对引用检测或分割性能的影响。访问IoU4.2.2基本参考能力我们从最简单的形式开始：通过对象属性的直接描述来引用（例如，《蓝色的大球体》（The Big BlueSphere）具体地，这对应于在CLEVR-Ref+中，共有6种类型的属性可以帮助我们定位特定对象：颜色大小形状1.000.750.500.250.001.000.750.500.250.00单反MAttNetRMIIEP-Ref空间相同物质性、有序性和可见性。在图2中，我们显示了各种方法在“0-Relate”引用表达式上在检测模型中，我们发现，当引用表达式包含颜色，形状和可见性的描述时，准确率较高。一个合理的推测是，这些概念比其他概念更容易学习。然而，对于细分，“排除”和“包含”之间的性能差距虽然不清楚哪一个概念最容易学习，但似乎没有争议的是，有序性是最难的。特别地，对于RMI，如果表达式不需要序数，则IoU为0.91，如果需要序数，则IoU为0.27。其他型号不会受到太大的影响，但也会经历显著的下降。我们怀疑这是因为序性需要全局上下文，而其他的是局部属性。4.2.3空间推理能力除了直接描述属性之外，通过对象的空间位置来引用对象也是常见的在这里，我们讨论了参照表达模型是否能够理解图5：关系类型的影响（空间与相同），从而导致检测或分割性能。（可能是多个步骤）相对空间关系，例如“留给红色立方体的对象”。在表3中，这对应于结果示于图3中。一般来说，我们观察到一个小的下降时，指涉ex-costs开始包括空间推理。然而，需要1、2、3步空间推理的指称表达之间似乎没有显著差异。这似乎表明，一旦模型掌握了空间推理，成功地多次应用它几乎没有什么麻烦4.2.4不同的推理拓扑在CLEVR- Ref+中有两个引用表达式拓扑：链式结构和树形结构。直观地说，链式结构只有一条推理路径，而树形结构在合并之前需要遵循两条这样的路径。在图4中，我们比较了具有两个顺序空间关系的引用表达式0.720.570.590.63零点九一0.880.740.59零点九一0.740.650.250.570.630.440.450.850.620.690.540.72 0.720.600.530.620.640.630.540.630.630.640.530.920.990.620.551.00 0.970.620.560.93零点九二0.830.860.93零点九四0.82零点八五0.950.810.86零点九二0.92零点九四0.82零点八五0.910.970.690.270.910.930.970.834191场景滤镜大小颜色顺序棕色大首先，从右场景滤镜滤镜形状序数气缸第二，从右过滤材料金属场景滤镜大小大右边第一个棕色的大东西场景过滤器材质过滤器可唯一相同橡胶部分大小金属的东西，是第二个圆柱体（S）从右或与部分可见的橡胶物体大小相同的任何其他物体场景滤镜大小材质形状过滤序数唯一关联小橡胶立方体第二，从左起左相交滤波器材料橡胶场景过滤器形状过滤序数唯一关联立方体首先，从前面前橡胶物体位于第一个立方体的前面，第二个小橡胶立方体的左边图6：四个例子（两个链结构，两个树结构）逐步检查IEP-Ref视觉推理。IOU1.000.750.500.250.00IoU InIoU输出过滤颜色过滤材料过滤序数滤波器形状滤波器大小过滤器可见相交联合唯一关系相同颜色相同材料相同形状相同尺寸场景图7：CLEVR-Ref+验证集上每个IEP-Ref模块进出的平均IoU请注意，这里IoU不仅在最后计算，而且在所有中间步骤都计算。这表明IoU在整个视觉推理过程中保持较高水平。在文本中讨论了用暗红色标记的模块中的巨大差异。船舶与每个分支上的一个与和连接。这两个模板的长度和复杂性大致相同，因此比较的重点是拓扑结构。虽然四种模型之间并不一致，但树型结构的指称表达通常比链型结构的指称表达更难。这与[15]中的结果一致4.2.5不同的关系类型CLEVR-Ref+中有两种关系。一个是空间关系，包括短语，如第4.2.3条）。另一种是同属性关系，需要识别和记忆另一个对象的特定属性，例如。“与金属球颜色相同的大块”。在图5中，我们研究了关系类型是否会对性能产生影响。我们将“2-Relate”列与表3中的“Same”列进行比较所有模型在相同属性关系-船舶类型上的表现都要差得多与序数类似，相同属性需要全局上下文。0.92 0.89 0.920.930.960.930.930.920.930.910.900.900.850.820.870.901.000.960.670.690.710.720.570.280.030.03 0.040.04 0.04 0.0441924.3. 视觉推理在4.2节中讨论的所有结果都是关于视觉推理过程的终点.我们认为，为了相信指称表达系统所做的预测，同样重要的是要确保中介语的准确性。diate推理步骤是有意义的。CLEVR-Ref+适用这是因为：（1）指称表达式的语义是模块化的，以及（2）在所有中间步骤处的指称基础事实可以自动获得（即，不需要人工注释器）。在训练我们的IEP-Ref模型时，最后总是有一个Segment模块，将128通道的特征映射转换为1通道的分割掩码。在测试时，我们只需将经过训练的Segment模块附加到所有中间模块的输出。这是可能的，因为所有模块具有相同数量的输入通道和输出通道（128）。这种技术在VQA设置中没有帮助，因为在那里结束模块（例如，计数，等于）丢弃可视化所需的空间维度。我们发现这种技术效果很好。在图- ure6中，我们提供了四个定性的例子与各种拓扑结构和模块。我们注意到，除了Unique模块5之外，所有模块都在执行其预期功能。然而，再过一个模块后，分割掩码再次变得正常。图7中的定量分析证实了这一观察结果：平均而言，在每个Unique模块之后，IoU下降0.66;但是在每个Same或Relate模块之后，IoU显著增加，并且根据模板，这些是唯一可能在Unique之后出现的模块。我们推测，网络已经学会了某种机制，将Unique视为Same和Relate功能的4.4. 虚假的指称表达实际上，指称表达系统可能面对各种文本输入，并且并非所有文本输入都有意义。当出现一个做出错误假设的指称表达时（例如，我们测试IEP-Ref处理这些错误前提指称表达式的能力（参见[30]）。请注意，在训练期间不会出现此类表达式。我们生成10，000个引用表达式，它们在末尾引用零个对象。定性（见图8），它是重新确保看到中间模块正确地做他们的工作，并在最后一步作出无前景预测。定量，IEP-Ref预测前景为0[5]它应该只是简单地传递前面提到的对象，但从我们观察到的情况来看，它的行为最类似于选择前面提到的对象的补充，尽管这远非一致。图8：我们的IEP-Ref模型可以正确处理假前提引用表达式，即使它们在训练过程中没有出现。像素大于1/ 4的时间，并且≤8个前景像素大于1/ 3的时间。5. 结论在本文中，我们建立了CLEVR-Ref+数据集，以补充现有的引用表达式。通过选择合成设置，优点是可以最小化数据集偏差，并且地面实况视觉推理过程是容易获得的。我们在CLEVR-Ref+上评估了几种最先进的参考对象检测和参考图像分割模型。此外，我们提出了IEP-Ref模型，该模型使用模块网络方法，并在很大程度上优于竞争方法详细分析了这些模型的优缺点.特别是，我们发现序数和同属性关系似乎是最难掌握的概念。除了最终分割掩码的正确性之外，推理过程的正确性也很重要。我们发现IEP-Ref提供了一种简单而自然的方式来揭示这一过程：只需将Segment模块连接到每个中间步骤。我们的定量评估也显示了中间步骤的高IoU，证明神经模块确实已经学会了它们应该做的工作。另一个证据是IEP-Ref可以正确处理假前提指称表达式。展望未来，我们有兴趣看看这些发现是否会转移并激发更好的真实数据模型鸣谢本研究得到了NSF奖项CCF-1317376和ONR N 00014 -12-1-0883的支持。场景滤镜大小材质形状可见大金属立方充场景滤镜滤镜色材紫色金属联合过滤器尺寸大场景滤镜滤镜色形紫色气缸4193引用[1] J. Andreas，M. Rohrbach，T. Darrell和D.克莱恩神经模块网络。在CVPR，第39-48页。IEEE计算机学会，2016年。2[2] S. Antol，A. Agrawal，J. Lu，M.米切尔，D。巴特拉角L. zitnick和D.帕里克VQA：可视化问答。见ICCV，第2425-2433页。IEEE计算机学会，2015年。1[3] 诉契里克湖Mod，和T.伯格-柯克帕特里克视觉指称表达识别：系统到底在学习什么？参见 NAACL-HLT（2），第781计算机语言学协会，2018年第1、3条[4] J. Deng，W.东河，巴西-地索赫尔湖Li，K. Li和F.李Ima-genet：一个大规模的分层图像数据库。在CVPR，第248-255页中。IEEE计算机学会，2009年。5[5] 多纳休湖A. Hendricks，S. Guadarrama，M. 罗尔巴赫S. Venugopalan，T.Darrell和K.萨恩科用于视觉识别和描述的长期在CVPR中，第2625-2634页。IEEE计算机学会，2015年。1[6] H. Gao，J. Mao，J. Zhou，Z.黄湖，澳-地Wang和W.徐你在跟机器说话吗？多语言图像问题的数据集和方法。在NIPS，第2296-2304页，2015年。1[7] Y. 戈亚尔 T. 霍特 D. 萨默斯-留下来 D. 巴特拉和D.帕里克使VQA中的V变得重要：提升图像理解在视觉问答中的作用。在CVPR中，第6325-6334页。IEEE计算机学会，2017年。3[8] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，第770-778页中。IEEE计算机学会，2016年。5[9] R. Hu，J. Andreas，T. Darrell和K.萨恩科通过堆栈神经模块网络进行可解释的神经计算。在ECCV（7），Lecture Notes in Computer Science的第11211卷，第55-71页中Springer，2018. 二、三[10] R. Hu，J. Andreas，M. Rohrbach，T. Darrell和K.萨恩科学习推理：用于可视问答的端到端模块网络。见ICCV，第804-813页。IEEE计算机协会，2017年。3[11] R. Hu，M. Rohrbach，J. Andreas，T. Darrell和K.萨恩科用组合模块网络建模指称表达式中的关系.在CVPR中，第4418IEEE计算机学会，2017年。2[12] R. Hu，M. Rohrbach和T.达雷尔。从自然语言表达式中分割。在 ECCV （ 1 ）， Lecture Notes in ComputerScience的第9905卷，第108施普林格，2016年。2[13] R. Hu，H.Xu，M.Rohrbach，J.Feng，K.Saenko和T.达雷尔。自然语言对象检索。在CVPR中，第4555-4564页。IEEE计算机学会，2016年。一、二[14] D. A. Hudson和C. D.曼宁用于机器推理的组合注意力网络。CoRR，abs/1803.03067，2018。3[15] J. 约翰逊湾哈里哈兰湖范德马滕湖Fei-Fei，C.L. Zitnick和R. B.娘娘腔。CLEVR：用于合成语言和基本视觉推理的诊断数据集。见CVPR，第1988-1997页。IEEE计算机学会，2017年。一、二、三、七[16] J. Johnson，B.哈里哈兰湖van der Maaten，J.霍夫曼L. Fei-Fei，C. L. Zitnick和R. B.娘娘腔。推理和执行程序的视觉推理。在ICCV，第3008-3017页。IEEE计算机学会，2017年。二三五[17] A. Karpathy和F.李用于生成图像描述的深度视觉语义对齐。在CVPR中，第3128IEEE计算机学会，2015年。1[18] S. Kazemzadeh，V. Ordonez M. Matten和T. L.伯格。推荐游戏：指自然景物照片中的物体。见EMNLP，第787-798页。ACL，2014年。第1、3条[19] D. P. Kingma 和J. BA. Adam ：随机最佳化的方法。CoRR，abs/1412.6980，2014。5[20] R. Li，K.李，Y. C.郭，M. Shu，X. Qi，X. Shen和J.贾利用递归细化网络进行参考图像分割. 在CVPR中，第5745IEEE计算机学会，2018年。2[21] C. Liu，Z.Lin，X.Shen，J.Yang，X.Lu和A.L. 尤尔。参考图像分割的再流多模态交互。见ICCV，第1280-1289页。IEEE计算机学会，2017年。二、五[22] C. Liu，J. Mao，F. Sha，和A. L.尤尔。神经图像字幕的注意正确性在AAAI，第4176AAAI Press，2017. 1[23] R. Luo和G.沙赫纳洛维奇理解引导的指称表达。在CVPR中，第3125-3134页。IEEE计算机协会，2017年。2[24] J. 毛，J.Huang，黄背天蛾A.托舍夫岛Camburu，A.L. 尤尔，还有K. 墨菲无歧义对象描述的生成和理解在CVPR中，第11-20页。IEEE计算机学会，2016年。一、二、三、五[25] J. Mao，W. Xu，Y. Yang，J. Wang，and A. L.尤尔。使用多模态递归神经网络（M- RNN）的深度字幕。CoRR，abs/1412.6632，2014年。1[26] E. Ma r g f o y-Tua y，J. C. 佩雷兹，E. Bojiang和P.Arbe la'ez. 自然语言查询引导的动态多模态实例分割在ECCV（11），卷11215的Lec- ture Notes in ComputerScience，第656-672页中。Springer，2018. 2[27] D. Mascharka山口特兰河，巴西-地Soklaski和A.玛朱达尔透明设计：缩小视觉推理中的可理解性和可解释性之间的差距。CoRR，abs/1803.05268，2018。二、三[28] 诉K. 纳加拉贾河谷I. Morariu和L.S. 戴维斯对象间的上下文建模，用于引用表达式理解.在ECCV（4），Lecture Notes in Computer Science的第9908卷，第792-807页中。施普林格，2016年。2[29] E. Perez，F. Strub，H.德弗里斯河谷Dumoulin和A. C.考维尔电影：一般条件层的视觉推理.在AAAI，第3942-3951页中。AAAI Press，2018. 3[30] A. Ray，G. Christie，M. Bansal，D. Batra和D.帕里克VQA中的问题相关性：识别非视觉和错误前提问题。见EMNLP，第919-924页。计算语言学协会，2016年。84194[31] A. 罗尔巴赫 M. 罗尔巴赫 R. 胡 T. Darrell和B.席勒通过重构实现文本短语在图像中的扎根。在ECCV （ 1 ）， Lecture Notes in Computer Science 的第9905卷，第817-834页中施普林格，2016年。2[32] A. Santoro，D. Raposo，D. G. T. Barrett，M. 马林诺夫斯基R. Pascanu，P. Battaglia，and T. Lillicrap一个用于关系推理的简单神经网络模型。在NIPS，第4974-4983页，2017年。3[33] L. Yu，Z.Lin，X.Shen，J.Yang，X.卢，M.Bansal和T.L.伯格。Mattnet：指涉表达理解的模块化注意网络。在CVPR中。IEEE计算机学会，2018年。二、五[34] L. Yu，P.Poirson，S.Yang，杨树A.C. Berg和T.L. 伯格。指称表达中的修饰语境.在ECCV（2），LectureNotes in Computer Science的第9906卷，第69施普林格，2016年。一、二、三、四、五[35] L. Yu，H.谭，M。Bansal和T. L.伯格。一种用于指称表达的说话人-发话人-发话人联合模型在CVPR中，第3521-3529页IEEE计算机学会，2017年。二、五[36] P. Zhang， Y. 戈亚尔 D. 萨默斯-留下来 D. Batra和D.帕里克阴阳：平衡

下载后可阅读完整内容，剩余1页未读，立即下载