GQA：一个新的真实世界视觉推理和组合问题的数据集

200 浏览量更新于2023-10-19 收藏 1.74MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6700GQA：一个新的用于真实世界视觉推理和组合问题分类的数据集visualreasoning.net德鲁哈德逊斯坦福大学353 Serra Mall，Stanford，CA94305dorarad@cs.stanford.eduChristopher D. 曼宁斯坦福大学353 Serra Mall，Stanford，CA94305manning@cs.stanford.edu摘要我们介绍了GQA，一个新的数据集，用于现实世界的视觉推理和组合问题回答，试图解决以前的VQA数据集的关键缺点。我们已经开发了一个强大而健壮的问题引擎，它利用Visual Genome场景图结构来创建22M不同的推理问题，这些问题都带有表示其语义的功能程序。我们使用的程序来获得严格的控制答案分布，并提出了一个新的可调平滑技术，以减轻问题的偏见。伴随数据集的是一套新的指标，用于评估一致性，接地和可扩展性等基本质量对基线以及最先进的模型进行仔细分析，为不同的问题类型和拓扑提供细粒度的结果虽然盲LSTM仅获得42.1%，强VQA模型获得54.1%，但人类性能最高可达89.3%，为新研究提供了充分的探索机会我们希望GQA能够为下一代模型提供一个支持资源，增强鲁棒性，提高一致性，并加深对视觉和语言的语义理解。1. 介绍要回答一个好的问题，光靠聪明的猜测是不够的。吸收知识并利用知识进行推理的能力是人工智能的圣杯之一这一目标的一个具体形式体现在可视化问题查询（VQA）任务中，其中系统必须通过对呈现的图像进行推理来回答这项任务需要一套丰富的能力，如物体识别，常识理解和关系提取，跨越视觉和语言领域。近年来，它在整个研究界引起了极大的兴趣，变得非常重要。图1：来自新GQA数据集的示例，用于视觉推理和组合问题回答：碗在青苹果的右边吗？图中哪种水果是圆的？右边的水果是什么颜色的，红色还是绿色？苹果左边的碗里有牛奶吗？受欢迎的全面，与主机的数据集正在建设[3，9，13，36，17]和众多的模型被赞成，[4，33，5，8，10]。任务的多模式性质和解决不同问题所需的技能多样性使得VQA特别具有挑战性。然而，设计一个好的测试，将反映其全部质量和复杂性可能不是那么微不足道。尽管该领域最近取得了长足的进步，但通过一系列研究已经确定，现有基准存在严重的脆弱性，这使得它们在测量视觉理解能力的实际程度时非常不可靠[34，9，1，7，2，11，16]。当前基准测试的缺陷中最值得注意的是在整个数据中显示的强大而普遍的现实世界先验[34，9，2]这些反过来又被6701VQA模型，其变得严重依赖于答案分布中的这种统计偏差和趋势从语言和语义的角度来看，许多问题的简单性加剧了这种情况，实际上很少需要超越对象识别的东西[28]。因此，早期的基准导致了对场景理解状态的夸大感，严重降低了它们的可信度[32]。除此之外，由于缺乏关于问题结构和内容的注释，因此很难理解影响模型行为和性能的因素为了解决这些缺点，在保留真实世界图像的视觉和语义丰富性的同时，我们引入了GQA，这是一种用于视觉推理和组合问题回答的新数据集。我们已经开发并精心完善了一个强大的问题引擎，利用内容：通过可视化基因组场景图提供的关于对象，属性和关系的信息[17]，以及结构：一个新创建的广泛的语言语法，它耦合了数百个结构模式和详细的词汇语义资源。它们一起组合在我们的引擎中，生成超过2200万个新颖而多样化的问题，这些问题都以函数程序的形式进行结构化表示，指定其内容和语义，并以图像场景图为视觉基础GQA问题涉及各种推理技巧，特别是多步推理。我们进一步使用相关的语义表示来大大减少数据集内的偏差，并控制其问题类型组成，对其进行下采样以创建1.7M平衡数据集。与VQA 2.0相反，在这里，我们不仅平衡二元问题，而且还平衡开放问题，通过应用可调平滑技术，使每个问题组的答案分布就像一个精心设计的考试，我们的基准使受过教育的猜测策略远远没有那么有价值，而是要求对视觉和语言内容进行更精细的描述。除了数据集，我们还设计了一套新的度量标准，包括一致性、有效性、可扩展性、基础和分布分数，以补充通常用于评估方法性能的标准准确性度量事实上，研究表明，仅准确性度量无法解释模型所展示的一系列异常行为，例如忽略关键问题词或关注不相关的图像区域[1，7]。其他的研究工作则认为需要设计新的评估方法和技术，以更好地了解系统的内部工作[16，29，30，15]。事实上，除了提供新的度量标准之外，GQA甚至可以直接支持更可解释的模型的开发，因为它提供了一段时间的解释，其证实每个答案，并且进一步将来自问题和回答两者的每个词与指向图像中的相关区域的视觉指针相关联，本质上类似于Zhu等人的数据集。[36]，Parket al. [26]和Liet al. [19]第10段。这些反过来又可以作为一个强有力的监督信号，以增强透明度和可访问性来训练模型GQA结合了这两个世界的最佳之处，一方面具有明确定义和清晰的语义表示，但另一方面享受真实世界图像的语义和视觉丰富性。我们的三大贡献是(1)GQA数据集作为研究视觉推理的资源：（2）开发了一种有效的方法来生成大量语义变化的问题，该方法将场景图表示与计算语言学方法结合起来;（3）GQA的新指标，允许更好地评估系统成功和失败模式，如通过对该任务的现有模型的综合性能分析所证明的。我们希望GQA数据集将为开发新方法提供肥沃的土壤，从而推动问题回答和视觉推理的边界2. 相关工作近年来，视觉理解取得了巨大的进步。如第1节[9，34，2，13]所述，已进行多次尝试以减轻VQA数据集的系统性偏倚，但未能提供充分的解决方案：一些方法在约束和合成图像上操作[34，13]，忽略了自然照片提供的真实性和多样性。与此同时，Goyalet al.[9]将VQA 1.0中的大多数问题与一对相似的图片相关联，从而得到不同的答案。虽然提供了部分救济，这种技术未能解决开放性问题，使他们的答案分布在很大程度上不平衡。事实上，由于注释过程的限制，该方法无法覆盖29%的问题，即使在二进制问题中仍然存在偏见。1在另一个极端，Agrawalet al. [2]将问题划分为训练集和验证集，使得它们各自的答案分布有意地变得不同。虽然毫无疑问具有挑战性，但这些对抗性的设置会惩罚模型，也许是不公平的，因为它学习了训练数据的显着属性。在没有其他信息的情况下，做出有根据的猜测是合理的选择- 机器和人都追求的有效和有益的策略[24，6，23]。我们本质上需要的是一个平衡的测试，它对这种游戏策略更具弹性，就像我们努力通过GQA实现的那样。1对于VQA 1.0，盲模型的准确率达到50%，甚至不考虑任何图像[3]。同样，对于VQA 2.0，这些模型分别正确回答了67%和27%的二元和开放问题[9]。6702图2：GQA构建过程概述给定一个图像，它的对象，属性和关系的场景图注释每个问题都有一个标准的自然语言形式和一个表示其语义的函数程序。更多详情请参见第3节。在创建GQA时，我们从CLEVR任务中汲取了灵感[13]，该任务由合成图像的组成问题组成。然而，它的人工性质和低多样性，只有少数对象类和属性，使得它特别容易被记忆的所有组合，从而降低其有效程度的组合。相反，GQA在真实图像和大的语义空间上操作，使其更具挑战性。尽管我们的问题不像其他VQA数据集那样自然[9，36]，但它们显示了丰富的词汇和多样化的语言和语法结构。事实上，它们可以作为一个更干净的基准，以更受控和全面的方式评估模型，如下所述。问题生成的任务已在早期的工作中进行了探讨，主要是为了增加数据。与GQA相反，这些数据集要么规模很小，[22]或者只使用有限的对象集和少数非组合模板[15，21]。最近提出了视觉问题生成的神经替代方案[25，12，35]，但它们旨在创建关于图像更广泛背景的吸引人但可能不准确的问题的完全不同的目标，例如可能导致或导致所描绘场景的主观诱发感觉或推测事件[25]。3. GQA数据集GQA数据集围绕现实世界的推理，场景理解和组合问题回答。它由113K图像和22M各种类型和不同组合度的问题组成，测量了一系列推理技能的性能，如对象和属性识别，传递关系跟踪，空间rea，逻辑推理和比较。图2提供了GQA组件和生成过程的简要概述，图3显示了数据集中的多个实例该数据集以及更多信息可在visualreasoning.net上获得。图像、问题和相应的答案都伴随着匹配的语义表示：每个图像都用密集的场景图[14，17]进行注释，表示它包含的对象，属性和关系。每个问题都与一个功能程序相关联，该程序列出了得出答案所需执行的一系列推理步骤。每个答案都用文字和视觉理由来增强，指向图像中的相关区域。图像和问题的结构化表示和详细注释提供了多种优势。它们可以对答案分布进行严格控制，这使我们能够创建一组平衡的挑战性问题，并支持制定一套新的指标，旨在更深入地了解模型它们促进了沿着问题类型和拓扑结构的各个轴的性能评估，并可能为开发具有更接地和透明的知识表示和推理的新方法我们继续描述GQA问题引擎和四步数据集构建管道：首先，我们彻底清理，规范化，巩固和增强链接到每个图像的视觉基因组场景图[17]。然后，我们遍历图中的对象和关系，并将它们与从VQA2.0 [9]和随机概率语法规则，以产生语义丰富和多样化的问题集。在第三阶段，我们使用潜在的语义形式，以减少双-6703在条件答案分布中，导致一个平衡的数据集，对捷径和猜测更强大。最后，我们讨论了问题的功能表示，并解释了我们如何使用它来计算问题之间的蕴涵，支持新的评估指标。3.1. 场景图规范化我们创建GQA数据集的起点是可视化基因组场景图注释[17]，该注释涵盖来自COCO [20]和Flickr [31]的113k图像。2场景图用作图像的形式化表示：每个节点表示一个对象，即图像中的可视实体，如人、苹果、草或云。它链接到一个边界框，指定其位置和大小，并标记了大约1 -3个属性，对象的属性：例如，在一个实施例中，它的颜色、形状、材料或活动。宾语由关系边连接，表示动作（动词）、空间关系（介词）和比较级。场景图使用自由形式的自然语言进行注释。为了使用它们生成问题，我们首先必须规范化图形及其词汇表。我们在这里提供了一个简短的概述规范化过程，并提出了更详细的说明，在附录。首先，我们创建一个干净的，巩固的和明确的本体图与2690类，包括各种对象，属性和关系。我们进一步增加语义和语言信息，这将有助于我们创造语法问题。然后，我们修剪不准确或不自然的边缘，使用对象检测置信度，n-gram频率，共现统计，词嵌入距离，基于类别的规则和手动cu- ration的组合。最后，我们丰富了图的位置信息（绝对和相对）以及语义属性（位置，天气）。到该阶段结束时，所得到的场景图对于节点和边都具有干净、统一、丰富和明确的3.2. 问题引擎在我们的管道的核心是问题引擎，负责生产多样化，相关和语法的问题与不同程度的组合。生成过程利用两种资源：一个是场景图，它为引擎提供了丰富的内容信息，包括对象、属性和关系;另一个是结构模式，一个塑造内容的模具，把它铸造成一个问题。我们的引擎运行超过524个模式，跨越117个问题组，和1878个答案，这是基于场景图。每个组与三个组件相关联：（1）一个表示其语义的函数程序;（2）一组用自然语言表达的文本改写，2我们扩展了Visual Genome数据集，通过众包收集了5k个隐藏场景图，用于测试集。A1. 桌面上的托盘是黑色的还是浅棕色的？浅棕色A2. 餐巾和杯子的颜色是一样的是的A3. 这张小桌子是椭圆形的还是木制的？是的A4. 杯子上面的托盘左边有水果吗？是的A5。桌子上托盘的左边有杯子吗？没有B1。坐在里面的棕色动物是什么？框B2. 这个大集装箱是用什么做的？纸板B3. 盒子里是什么动物？熊B4. 绿色门右边有一个包吗？没有B5. 塑料袋里有盒子吗？没有图3：来自GQA数据集的问题示例。乌拉尔语言，例如，“什么|你认为是哪种<类型的？ theObject>？"; (3)一对简短的回答和一对冗长的回答：例如，在一个实施例中，<属性>和<<<属性>。”分别3我们从250个手动构建的模式的种子集开始，并通过对本体中的单词进行模板化，使用来自VQA 1.0 [3]的274个自然模式对其进行扩展。4为了增加问题的多样性，除了使用对象和属性的同义词外，我们还将概率部分纳入模式中，例如可选短语[x]和替代表达式（x|y），随机实例化。值得注意的是，模式并没有严格限制每个问题的结构或深度，而只是概述了它们的高级形式，因为许多模板字段可以用嵌套的组合引用填充。例如，在上面的模式中，我们可以替换与为了实现这种组合性，我们为每个对象计算一组候选引用，这些引用可以是直接的，例如，熊，这种动物，或间接的，使用修饰语，例如，左边的白熊在树后面，那只穿着外套的熊。当物体的唯一性可以被物体探测器确信地确认时，使用直接参考，使得相应的参考明确。或者，我们使用间接引用，导致多步骤的问题，因为不同的3请注意，长答案可以作为文本的理由，特别是对于需要增加推理的问题，如逻辑推理，其中一个问题，如“图片中有一个红苹果吗？” 可能有答案：不，有一个苹果，但它是绿色的4例如，VQA 1.0中的问答对，如“苹果是什么颜色？red<<<”在模板化后变成“What type> is> the object>？<属性>6704图4：不同问题类型之间的蕴涵关系示例。更多详情请参见第3.3节。谁在看窗前穿红外套的动物？从而大大增加了患者这是自动生成组合问题背后的关键因素最后，我们计算一组诱饵的场景图形元素。事实上，有些疑问句，如否定疑问句或涉及逻辑推理的疑问句，涉及对象的缺失或不正确的属性。例如，苹果是绿色的吗？红苹果，还是那女孩在吃冰淇淋吗？她其实是在吃蛋糕给定一个三元组（s，r，o），（例如（Girl，eatingg，CAKEE）我们选择一个干扰项Ok，考虑它与S有关的可能性以及它在所描绘的场景中的其他对象的上下文中共同出现的可能性。一个类似的技术被应用在选择属性诱饵（例如，青苹果）。在选择干扰项时，我们会将我们认为太相似的候选项排除在外（例如：粉红色和橙色），基于本体中每个概念的手动定义的列表准备好所有资源：（1）干净的场景图，（2）结构模式，（3）对象引用和（4）诱饵，我们可以继续生成问题！我们遍历图，对于每个对象，对象属性对或主体关系对象三元组，我们通过实例化随机选择的问题模式产生相关问题，例如。<<“Whator ？”，填充所有字段，例如，生成问题：“桌上的苹果是什么颜色的，红的还是绿的？”“.在选择对象参照时，我们避免选择那些揭示答案或重复信息的参照，例如。“红苹果是什么颜色的？”“或者“蛋糕左边苹果旁边的甜点是什么？“.我们也避免询问那些倾向于对同一个对象有多个实例的关系，例如询问桌子上有什么物体，因为可能有多个有效答案。在这个阶段结束时，我们获得了22M个有趣的，具有挑战性的和语法的问题，涉及到图像的每个方面。3.3. 功能表示与蕴涵每个问题模式都与一个功能程序形式的结构化表示相关联例如，问题是白色背景上的苹果是什么颜色桌子？在语义上等同于以下程序：select：table→filter： white→relate（subject，on）：apple→query：color.正如我们所看到的，这些程序是由原子操作组成的，如对象选择，沿关系边遍历或属性验证，然后将它们链接在一起以创建具有挑战性的推理问题。语义上明确的表示提供了多种优势，自由形式的不受限制的问题。首先，它们能够通过沿着问题文本和语义长度、类型和拓扑的不同轴解剖方法的性能来全面评估方法，从而有助于诊断它们的成功和失败模式（第4.2节）。其次，它们帮助我们平衡数据集分布，减轻其问题条件先验，并防止有根据的猜测（第3.4节）。最后，它们允许我们识别不同问题之间的蕴涵和等价关系：知道这个问题的答案苹果是什么颜色？让一个连贯的学习者推断出问题的答案苹果是红的吗？是绿色的吗？这一点尤其适用于涉及逻辑推理的问题，如或和运算或空间推理，例如：左右。正如第4.4节中进一步讨论的那样，与广泛但可能误导的准确性度量相比，该蕴涵我们定义了各种功能程序之间的直接蕴涵关系，并使用这些递归计算所有的问题，可以从一个给定的源蕴涵。补充资料中提供了函数、其相关问题类型以及它们之间的蕴涵3.4. 取样和平衡现有VQA数据集的主要问题之一是普遍存在的问题条件偏差，这使得学习者在没有真正理解当前图像的情况下进行有根据的猜测然而，问题语义的精确表示可以允许对这些偏差进行更严格的控制，从而有可能极大地解决问题。我们利用这一观察结果，并使用每个问题附带的函数程序来平滑答案分布。给定一个问题苹果是什么颜色的？.当地标签进一步考虑了问题的主要主题，例如苹果色或桌面材质。我们使用这些标签将问题划分为组，并在两个粒度级别内平滑每组的答案分布，首先是全局，然后是局部。对于每个组，我们首先计算其答案分布6705图5：平衡过程的可视化。平衡前（左）和平衡后（中）的条件答案分布选择问题组。我们显示了前10个答案，其中列高对应于每个答案的相对频率。我们可以看到，在左边的分布是严重偏置的，而在中间，它更均匀，尾部更重，同时有意保留原始的现实世界的趋势，直到可调的程度。右图：平衡过程的图解。P，然后我们对每个组进行下采样（形式上，使用拒绝采样），以拟合通过以下过程导出的更平滑的答案分布Q：我们以降频顺序对该组的答案进行加权，并将P的头部重新加权到当前迭代，当我们遍历答案时重复此操作，迭代这确保了基于相对频率的答案排名保持不变。这种方案的优点是它保留了一般的现实世界的趋势，将它们平滑到一个可调的程度，使基准更具挑战性和更少的偏见。有关可视化，请参见图5，有关手术的精确描述，请参见补充资料。由于平衡是在两个粒度级别上执行的，因此所获得的答案分布在局部和全局上都更加均匀从数量上看，答案分布的熵增加了72%，证实了这一阶段的成功。最后，我们根据问题的类型对问题进行下采样，以控制数据集的类型组成，并过滤掉语义上与前题过于相似的冗余问题。我们将数据集分为70%的训练，10%的验证，10%的测试和10%的挑战，确保关于给定图像的所有问题都出现在同一个分割中。4. 分析和基线实验在下文中，我们提供了对GQA数据集的分析，并评估了基线、最先进模型和人类受试者的性能，揭示了与后者的巨大差距。为了建立GQA问题的多样性和真实性，我们测试了GQA和VQA数据集之间的传输性能。然后，我们引入新的指标，补充我们的数据集，提出定量结果并讨论其含义和优点。在接下来的时间里，我们在GQA和流行的VQA 2.0数据集[9]之间进行了头对头的比较，并对当前表现最好的模型MAC [10]进行了进一步的诊断，沿着多个轴对其进行了评估，如训练集大小，问题长度和组合度。4.1. 数据集分析和比较GQA数据集由113，018张图像上的22，669，678个问题组成，这些问题涵盖了广泛的推理技能，并且在长度和所需推理步骤的数量上各不相同（图6）。该数据集的词汇量为3097个单词和1878个可能的答案。虽然比自然语言数据集小，但进一步的调查显示，它分别覆盖了88.8%和70.6%的VQA问题和答案，证实了其广泛的多样性。补充资料中提供了广泛我们将每个问题与两种类型相关联：结构和语义。结构类型是从问题的函数程序中的最后一个操作派生出来的可以(1)验证是/否问题，（2）查询所有未决问题，（3）选择呈现两个可供选择的备选方案的问题，例如，“是红色还是蓝色？“; （4）逻辑性的，涉及逻辑推理;（5）比较两个或两个以上对象之间的比较问题。语义类型指的是问题的主要主题：（1）对象：对于存在性问题，（2）属性：考虑对象的属性或位置，（3）范畴：与某个类中的对象标识有关，（4）关系：对于询问所描述关系的主体或客体的问题（例如，“那女孩穿的是什么？“），以及（5）全局：关于场景的整体属性，诸如天气或地点。如图6所示，问题67064.2. 基线实验我们在GQA上分析了各种各样的模型以及人类受试者。评价结果见表1。基线包括一个GQA结构类型选择12%逻辑百分之十查询比较53%3%验证22%GQA语义类型对象全球11%百分之三类别关系6%百分之五十二属性28%GQA语义步骤四级以上13百2百基于问题组（局部或全局）的先验模型，返回每个组的最常见答案，如第3.3节所定义。我们可以看到，他们都达到了17.82%-41.07%的低结果对于LSTM模型，对特定问题类型的解释表明，它对开放式查询问题的实现率仅为22.7%，并不比二进制问题类型的机会高得多。我们还评估了自下而上的注意力模型的性能[4]0.40.30.20.10问题分布（按#字）VQAV7WCLEVR-人CLEVRGQA0 5 10 15 20 25 30字数2017年VQA挑战和MAC模型[10] -CLEVR的最先进的成分注意力模型[13]。虽然超过了基线，但它们仍然表现良好，低于人类的分数5，为视觉推理领域的进一步研究提供了充足的机会。4.3. 传递性能我们测试了GQA和VQA数据集之间的传输性能，在一个数据集上进行训练，在另一个数据集上进行测试相比之下，LSTM+CNN为51.6%，MAC为68.3%，两者都在VQA上训练和测试。这些相当好的结果证明了GQA问题的真实性和多样性，表明数据集可以作为类人问题的良好代理相比之下，在VQA上训练的MAC在微调之前在 GQA 上获得 39.8% ，在微调之后获得46.5%，这说明了GQA带来的进一步挑战。4.4. 新的评估除了标准的准确性度量和我们的数据集支持的更详细的基于类型的诊断之外，我们还引入了五个新的度量来进一步深入了解视觉推理方法，并指出我们认为连贯推理模型应该拥有的缺失功能。一致性此指标测量不同问题的响应一致性。回想一下，在3.3节中，我们使用问题的语义表示来推导它们之间的等价和蕴涵关系。当被提出一个新的问题时，任何学习者都不应该与之前的答案相矛盾。它不应该对一个它刚刚确定为红色的苹果的新问题回答绿色。对于每个问题-答案对（q，a），我们定义一个集合Eq=q1，q2，. . .，q n的必然问题，5为了评估人类的表现，我们使用Amazon Mechanical Turk收集了4000个随机问题的人类回答，每个问题的答案大多数超过5个。图6：上图：数据集统计数据，分为结构类型、语义类型和推理步骤的数量。下图：VQA数据集问题长度分布。这可以明确地推断给定（q，a）。例如，给出问题-答案对，白盘子的左边有一个红苹果吗？是的，我们可以推断出问题的答案，比如盘子在苹果的右边吗？盘子左边有红色的水果吗？苹果右边的白色东西是什么？对于Q中的每个问题q我们看到，虽然人们有98.4%的一致性，但即使是最好的模型也有大约五分之一的问题是不一致的，而像LSTM这样的模型几乎有一半的时间是自相矛盾的。实现高一致性可能需要在图像的上下文中更深入地理解问题语义，并且与准确性相比，对于有根据的猜测更鲁棒，因为它在相关问题之间建立了联系，因此可以用作模型的真实视觉理解技能的更好度量有效性和合理性。有效性度量检查给定的答案是否在问题范围内，例如用颜色回答颜色问题。似真度分数更进一步，衡量答案是否合理，或有意义，给定的问题（例如，大象通常不吃比萨饼）。具体来说，我们检查答案是否在整个数据集中至少出现一次与问题的主题相关因此，我们认为，例如，红色和绿色是合理的苹果色，相反，紫色是不合理的。6实验表明，模型至少有5-6虽然由于潜在的数据稀缺性问题，可扩展性度量可能不完全精确，特别是对于不常见的对象，但它可以很好地了解模型所获得的世界知识的一般水平频率6707度量开放全球优先16.52当地Prior16.99CNN1.74LSTM22.69CNN+LSTM31.80自下而上34.83Mac38.91人类87.4二进制42.9947.5336.0561.9063.2666.6471.2391.2查询16.5216.991.5522.6931.8034.8338.9187.4比较35.5941.9136.3457.7956.6256.3260.0493.1选择17.4526.580.8557.1561.4066.5670.5994.3逻辑50.3250.1147.1861.7362.0564.0369.9988.5验证53.4058.8047.0265.7867.0071.4575.4590.1全球24.7020.198.6427.2256.5760.2960.8292.3对象49.9654.0047.3374.3375.9078.4581.4988.1属性34.8942.6722.6648.2850.9153.8859.8290.7关系22.8820.1611.6033.2439.4542.8446.1689.2类别15.2617.313.5622.3337.4941.1844.3890.3分布130.8621.5619.9917.937.465.985.34-接地-----78.4782.24-有效性89.0284.4435.7896.3996.0296.1896.1698.9合理性75.3484.4234.8487.3084.2584.5784.4897.2一致性51.7854.3462.4068.6874.5778.7181.5998.4精度28.9331.3117.8241.0746.5549.7454.0689.3表1：GQA数据集上基线和最新模型的结果。所有结果均参考测试集。评估模型的总体准确度以及每种类型的准确度。此外，它们还通过有效性、可扩展性、分布、一致性以及（如果可能）接地指标进行评估。详情请参阅正文。回答一些问题。考虑到这些属性是数据集的条件答案分布的显著统计数据分布为了进一步了解方法对条件答案分布进行建模的程度，我们定义了分布度量，该度量使用卡方统计量来测量真实答案分布与模型预测分布它让我们看到模型不仅预测了最常见的答案，还预测了不太常见的答案。事实上，实验表明，领先的SOTA模型得分低于基线（对于此指标，越低越好），表明在拟合数据集分布的更微妙趋势方面的能力有所提高接地。对于基于注意力的模型，基础分数检查模型是否注意到图像中与问题相关的对于每个数据集实例，我们定义一个指向问题或答案所指视觉区域的指针r这个指标允许我们评估模型在图像中推理的程度，而不仅仅是基于问题先验或世界趋势进行事实上，模特们大多关注图像中的相关区域，接地分数约为80%。为了验证度量的可靠性，我们进一步使用空间特征而不是BottomUp [4]和MAC [10]使用的对象通知的特征进行实验，这导致了低得多的43%分数，表明基于对象的特征为模型提供了更好的任务粒度，使它们能够专注于更相关的区域而不是粗糙的空间特征。5. 结论本文介绍了用于真实世界视觉推理和组合问题回答的GQA数据集.我们描述了数据集生成过程，提供了基线实验，并定义了新的度量方法，以更深入地了解模型我们相信这个基准可以帮助推动VQA研究朝着正确的方向发展，即更深入的语义理解、合理的推理、增强的鲁棒性和改进的一致性。实现这些目标的一个潜在途径可能涉及视觉知识提取和问答之间的更紧密的集成，这两个蓬勃发展的领域通常是独立的。我们强烈希望GQA将激励和支持更多的组合，可解释和令人信服的推理模型的发展，以推进场景理解和视觉问题回答的研究6. 致谢我们要感谢Justin Johnson对这项工作早期版本的讨论，以及Ross Girshick在2018年VQA研讨会上的启发性演讲我们感谢 Ran- jay Krishna 、 Eric Cosatto 、Alexandru Niculescu-Mizil和匿名评论者提供的有用建议和评论。斯坦福大学非常感谢脸书公司，三星电子公司有限公司、和国防高级研究计划局（DARPA）与计算机通信（CwC）计划，根据ARO主要合同号。W911 NF 15 -1-0462慷慨支持这项工作。6708引用[1] A. Agrawal、D. Batra和D.帕里克视觉问答模型的性能分析。在EMNLP，第1955-1960页，2016年。一、二[2] A. Agrawal、D. Batra，D. Parikh，和A.肯巴维不要只是假设;看一看并回答：克服视觉问答的前科。在IEEE计算机视觉和模式识别会议（CVPR）中，第4971-4980页一、二[3] A. Agrawal，J.Lu，S.安托尔湾米切尔角，澳-地L. 齐特尼克D. Parikh和D.巴特拉VQA：视觉问答。InternationalJournal of Computer Vision，123（1）：4一、二、四[4] P. Anderson，X.他，C.Buehler、D.Teney，M.约翰逊先生，S. Gould和L.张某自下而上和自上而下的图像字幕和VQA 的注意力。 arXiv 预印本 arXiv ： 1707.07998 ，2017。一、七、八[5] J. Andreas，M. Rohrbach，T. Darrell和D.克莱恩神经模块网络。在IEEE计算机视觉和模式识别会议（CVPR）中，第39-48页1[6] Y. Attali和M.巴希勒猜猜在哪里：的位置多项选择题的正确答案作为心理测量变量。Journal of EducationalMeasurement，40（2）：109-128，2003. 2[7] A. Das，H.阿格拉瓦尔湖Zitnick，D. Parikh和D.巴特拉视觉问答中的人类注意力：人类和深度网络会关注相同的区域吗？计算机视觉和图像理解，163：90-100，2017。一、二[8] A. 福井 D. H. 帕克 D 。 Yang ，杨树 A. Rohrbach ， T.Darrell和M.罗尔巴赫多模态紧凑双线性池化视觉问答和视觉接地。自然语言处理中的经验方法，2016年。1[9] Y. 戈亚尔 T. 霍特 D. 萨默斯-留下来 D. 巴特拉和D.帕里克使VQA中的V变得重要：提升图像理解在视觉问答中的作用。在IEEE计算机视觉和模式识别会议（CVPR）的Proceedings中，第6325-6334页一、二、三、六[10] D. A. Hudson和C. D.曼宁用于机器推理的组合注意力网络。国际表征学习会议（ICLR），2018年。一、六、七、八[11] A.贾布里河Joulin和L.范德马滕。重新审视视觉问答基线。欧洲计算机视觉会议，第727-739页。施普林格，2016年。1[12] 联合Jain，Z. Zhang和A. G.施温创造力：使用变分自动编码器生成不同的问题在IEEE计算机视觉和模式识别会议（CVPR）的Proceedings中，第5415-5424页3[13] J. 约翰逊湾哈里哈兰湖范德马滕湖飞飞C. L. Zitnick和R.娘娘腔。Clevr：一个用于组合语言和基本视觉推理的诊断数据集。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第1988-1997页一、二、三、七[14] J. Johnson，R. 克里希纳，M。斯塔克湖J. Li，D. 莎玛M. Bernstein和L.飞飞使用场景图进行图像检索。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第3668-3678页3[15] K. Kafle和C.卡南可视化问题回答算法分析。在计算机视觉（ICCV），2017年IEEE国际会议上，第1983-1991页IEEE，2017年。二、三[16] K. Kafle和C.卡南可视化问答：数据集、算法和未来的挑战计算机视觉和图像理解，163：3-20，2017。一、二[17] R. Krishna，Y.Zhu，O.Groth，J.约翰逊，K。Hata，J.克拉维茨S. Chen，Y.卡兰蒂迪斯湖J. Li，D. A. Shamma等人视觉基因组：使用众包密集图像注释连接语言和视觉。International Journal of Computer Vision，123（1）：32-73，2017。一、二、三、四[18] H. O. Lancaster和E.塞内塔卡方分布生物统计学百科全书，2005年2月。8[19] Q.李角Tao，S. Joty，J. Cai，and J.罗VQA-E：解释，阐述和增强您对视觉问题的回答arXiv预印本arXiv：1803.07464，2018。2[20] T.- Y. 林，M。迈尔，S。贝隆吉，J.Hays，P.Perona，D.Ra-manan ， P.Doll a'r 和 C. L.Zi t nick 。MicrosoftCOCO：上下文中的通用对象欧洲计算机视觉会议，第740-755页Springer，2014. 4[21] A. Mahendru，V. Prabhu、A. Mohapatra，D. Batra和S.李你前提的承诺：利用视觉问答中的问题前提。arXiv预印本arXiv：1705.00601，2017年。3[22] M. Malinowski和M.弗里茨一种基于不确定输入的多世界真实场景问答方法。神经信息处理系统的进展，第1682-1690页，2014年3[23] J. Millman，C. H. Bishop和R.埃贝尔测试智慧分析。Educational and Psychological Measurement，25（3）：707-726，1965. 2[24] J. J. Mondak和B. C.戴维斯问答：当我们不接受“不知道”的回答时，我们的知识水平Political Behavior，23（3）：199-224，2001. 2[25] N.穆斯塔法扎德岛Misra，J. Devlin，M. Mitchell，X.他和L.范德文德生成关于图像的自然问题。arXiv预印本arXiv：1603.06059，2016年。3[26] D. H. 朴 L. A. 亨德里克斯 Z. 赤田 A. 罗尔巴赫B. Schiele，T. Darrell和M.罗尔巴赫多模式解释：为决策辩护并指出证据。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。2[27] Y.鲁布纳角Tomasi和L.吉巴斯土方机国际计算机视觉杂志，40（2）：99-121，2000。6[28] A. Suhr，S.周岛Zhang，H.Bai和Y.阿齐基于照片的自然语言推理语料库 arXiv 预印本 arXiv ： 1811.00491 ，2018。2[29] D. Teney，P. Anderson，X. He和A.范登亨格尔。视觉问答的技巧和技巧：从2017年挑战中学到的东西arXiv预印本arXiv：1708.02711，2017。26709[30] D.泰尼湖Liu和A.范登亨格尔。图形结构表示的视觉问题回答。arXiv预印本，2017年。2[31] B. Thomee，D.A. Shamma，G.弗里德兰湾Elizalde，K.倪D.波兰，D。Borth和L.- J. Li。Yfcc100m：多媒体研究中的新数据。arXiv预印本arXiv：1503.01817，2015。4[32] A. Torralba和A. A.埃夫罗斯无偏倚地看数据集偏倚。IEEE计算机视觉与模式识别会议论文集，第1521-1528页。IEEE，2011年。2[33] Z. Yang，X. He，J. Gao，L. Deng和A.斯莫拉用于图像问答的堆叠注意力网络。在IEEE计算机视觉和模式识别会议（CVPR）的Proceedings中，第21-29页，2016年。1[34] P. Zhang， Y. 戈亚尔 D. 萨默斯-留下来 D. Batra和D.帕里克阴阳：平衡和回答二元视觉问题。在IEEE计算机视觉和模式识别会议（CVPR）中，第5014-5022页一、二[35] S.张丽Qu，S.你Z Yang和J.张某自动生成接地视觉问题。arXiv预印本arXiv：1612.06530，20

下载后可阅读完整内容，剩余1页未读，立即下载