没有合适的资源?快使用搜索试试~ 我知道了~
129010CLEVR:一个用于组合语言和基本视觉推理的诊断数据集0Just0Li Fei-Fei 1 Bharath Hariharan 20C. Lawrence Zitnick 2 Laurens van der Maaten 20Ross Girshick 201 斯坦福大学 2 Facebook AI研究0摘要0当构建能够对视觉数据进行推理和回答问题的人工智能系统时,我们需要诊断测试来分析我们的进展并发现不足之处。现有的视觉问答基准可以帮助,但它们存在强烈的偏见,模型可以利用这些偏见来正确回答问题,而不需要进行推理。它们还混淆了多个错误来源,使得很难确定模型的弱点。我们提供了一个诊断数据集,测试了一系列视觉推理能力。它几乎没有偏见,并且有详细的注释描述每个问题所需的推理类型。我们使用这个数据集来分析各种现代视觉推理系统,为它们的能力和局限性提供新的见解。01. 引言0人工智能研究的一个长期目标是开发能够对视觉信息进行推理和回答问题的系统。最近,已经引入了几个数据集来研究这个问题[4, 10, 21, 26, 32, 46,49]。这些视觉问答(VQA)数据集中的每一个都包含了关于图像的具有挑战性的自然语言问题。正确回答这些问题需要感知能力,如识别对象、属性和空间关系,以及更高级的技能,如计数、逻辑推理、比较或利用常识世界知识[31]。已经有许多方法攻击这些问题[2, 3, 9, 24,44],但很多方法只是在强基线上取得了微小的改进[4, 16,48]。不幸的是,我们理解这些方法的局限性的能力受到了VQA任务本身的复杂性的阻碍。这些方法是因为识别失败、推理能力差、缺乏常识知识还是其他原因而受到阻碍?理解系统能力的困难之处0� 在FAIR实习期间完成的工作。0Q: 大的东西和金属球的数量是否相等? Q:左边的棕色金属物体左边的圆柱体的大小是多少? Q:与金属立方体大小相同的球体是否由与小红球相同的材料制成? Q:有多少个对象是小圆柱体或金属物体? 图1.CLEVR的样本图像和问题。问题测试了视觉推理的各个方面,如属性识别、计数、比较、多重注意力和逻辑运算。0典型的例子是CleverHans,一匹生活在20世纪的马,它似乎能够回答算术问题。仔细观察发现,Hans之所以能够“回答”问题,是因为它对人类观察者的提示做出了反应[30]。像VQA这样的统计学习系统可能会采用类似的“作弊”方法来表面上“解决”任务,而不是学习底层的推理过程[35,36]。例如,统计学习者可能会正确回答“地面上覆盖着什么?”这个问题,不是因为它理解了场景,而是因为有偏见的数据集经常在地面上覆盖雪的时候问这个问题[1,47]。我们如何确定一个系统是否具备复杂的推理能力,而不仅仅是利用世界的偏见,类似于CleverHans?在本文中,我们提出了一个用于研究VQA系统进行视觉推理能力的诊断数据集。我们将这个数据集称为组合语言和基本视觉推理诊断数据集(CLEVR;以Hans的名字为敬意,发音为clever)。CLEVR包含10万个渲染图像和大约一百万个自动生成的问题,其中有853k个是独特的。它具有挑战性的特点。29020具有挑战性的图像和问题,测试视觉推理能力,如计数、比较、逻辑推理和存储信息,如图1所示。我们设计CLEVR的明确目标是能够对视觉推理进行详细分析。我们的图像描绘了简单的3D形状;这简化了识别并使我们能够专注于推理技能。我们确保每个图像中的信息是完整和独占的,以便外部信息源(如常识知识)不能增加正确回答问题的机会。我们通过在相关问题族中进行拒绝采样来控制问题条件偏见,并避免了看似复杂但包含简单快捷方式的退化问题。最后,我们使用结构化的真实表示来表示图像和问题:图像用真实的对象位置和属性进行注释,问题则表示为可以执行以回答问题的功能程序(见第3节)。这些表示使得可以进行深入的分析,这在传统的VQA数据集中是不可能的。这些设计选择也意味着,虽然CLEVR中的图像可能在视觉上很简单,但其问题是复杂的,需要各种推理技能。例如,可能需要分解表示来推广到未见过的对象和属性组合。诸如计数或比较之类的任务可能需要短期记忆[15]或注意特定对象[24,44]。回答以多种方式组合多个子任务的问题可能需要组合系统[2,3]。我们使用CLEVR来分析一套VQA模型,并发现了一些广为人知的弱点。例如,我们发现当前最先进的VQA模型在需要短期记忆(例如比较对象的属性)或组合推理(例如识别新颖的属性组合)的任务上表现不佳。这些观察结果指出了进一步研究的新途径。最后,我们强调CLEVR上的准确性本身并不是一个最终目标:一个具有CLEVR宇宙明确知识的手工系统可能效果很好,但不会推广到现实世界的环境。因此,CLEVR应与其他VQA数据集结合使用,以研究通用VQA系统的推理能力。CLEVR数据集可以在http://cs.stanford.edu/people/jcjohns/clevr/上公开获取。02. 相关工作0近年来,提出了一系列用于视觉理解的基准,包括用于图像字幕生成的数据集[7, 8, 23,45],用于对象引用的数据集[19],用于关系图预测的数据集[21],以及用于视觉图灵测试的数据集[12,27]。我们的诊断数据集CLEVR与视觉问答基准最为相关[4,10, 21, 26, 32, 37, 46,49],因为它涉及回答自然语言问题。0关于图像的问题。CLEVR和其他VQA数据集之间的两个主要区别是:(1)CLEVR控制了先前VQA数据集中的偏见,这些偏见可以被学习系统用来正确回答问题而不需要视觉推理,(2)CLEVR的合成性质和详细的注释使得可以进行深入的推理能力分析,而这在现有数据集中是不可能的。先前的工作已经尝试在VQA数据集中减轻偏见,例如在简单的是/否问题中[12,47],但是在没有高质量的问题和答案的语义表示的情况下,很难将这种减少偏见的方法应用于更复杂的问题。在CLEVR中,这种语义表示由每个图像-问题对的功能程序提供,并且通过采样大部分消除了偏见。Winograd模式[22]是控制问题回答偏见的另一种方法:这些问题仅仅基于语法设计得很模糊,并且需要常识知识。不幸的是,这种方法并不具备良好的可扩展性:2016年Winograd模式挑战的第一阶段仅包含60个手动设计的问题。CLEVR还与bAbI问题回答任务[38]相关,它旨在诊断系统的一组明确定义的能力,但CLEVR侧重于视觉推理,而bAbI则纯粹是文本。我们也不是第一个考虑用于研究(视觉)推理的合成数据的人。SHRDLU通过在视觉场景中移动特定对象的目标来执行简单的交互式视觉推理[40];这项研究是最早展示手动编程语义理解脆弱性的研究之一。开创性的DAQUAR数据集[28]包含合成和人工编写的问题,但它们仅使用八个文本模板生成了420个合成问题。VQA[4]包含关于抽象场景的15万个自然语言问题[50],但这些问题不能控制问题条件偏见,并且没有配备功能程序表示。CLEVR在精神上类似于SHAPES数据集[3],但在视觉内容和问题的多样性和复杂性方面更加复杂和多样化:SHAPES包含总共15,616个问题,其中只有244个是唯一的,而CLEVR包含近百万个问题,其中853,554个是唯一的。03. CLEVR诊断数据集0CLEVR提供了一个需要复杂推理才能解决的数据集,可用于进行丰富的诊断,以更好地理解VQA系统的视觉推理能力。这需要对数据集进行完全控制,我们通过使用合成图像和自动生成的问题来实现。图像具有关联的地面真实对象位置和属性,问题具有关联的机器可读形式。这些Large graymetalsphereLarge redmetal cubeSmall bluemetal cylinderSmall greenmetal sphereLarge brownrubbersphereLarge purplerubbercylinderSmall cyanrubbercubeSmall yellowrubbersphereBehindIn frontLeft Right29030对象对象对象0是/否 数量 对0对象0象0值0对象0数量数量0CLEVR6函数6目录0Relate0Equal Less6/6More 是/否0Equal 是/否 值值0ExistCount0AndOr0Filter60对象对象 Unique0前方 vs. 后方0尺寸、颜色、形状和材料0左侧 vs. 右侧0Filter6颜色0Filter6形状 Unique Relate Filter6形状 Unique Query颜色0黄色球体0值0右侧立方体0黄色球体右侧的立方体是什么颜色?0对象 Query6 值0Filter6颜色 Unique Relate0绿色左侧0Filter6大小 Unique Relate0小的在前方0And Coun0在小物体前方并在绿色物体左侧有多少个圆柱体?0Sample6链式6问题:0Sample6树状6问题:0对象 Same6 对象0Filter6形状0圆柱体0图2. CLEVR宇宙的指南。左:形状、属性和空间关系。中:问题示例及其关联的功能程序。右:用于构建问题的基本函数目录。详见第3节。0基于地面真实结构,我们可以根据问题类型、问题拓扑结构(链式 vs.树状)、问题长度以及对象之间的各种关系形式等进行模型分析。图2简要概述了CLEVR的主要组成部分,我们将在下面详细描述。0对象和关系。CLEVR宇宙包含三种对象形状(立方体、球体和圆柱体),它们有两种绝对尺寸(小和大)、两种材质(闪亮的“金属”和哑光的“橡胶”)和八种颜色。对象通过四种关系进行空间关联:“左侧”、“右侧”、“后方”和“前方”。这些介词的语义是复杂的,不仅取决于相对对象位置,还取决于相机视角和上下文。我们发现,生成调用具有语义一致的空间关系的问题很困难。因此,我们依赖于一个简单明确的定义:将相机视角矢量投影到地面平面上定义“后方”矢量,如果一个对象的地面位置沿着“后方”矢量进一步,则该对象在另一个对象的后方。其他关系也是类似定义的。图2(左)展示了CLEVR中的对象、属性和空间关系。CLEVR宇宙还包括一种非空间关系类型,我们称之为“相同属性关系”。如果两个对象在指定属性上具有相等的属性值,则它们之间存在这种关系。0场景表示。场景被表示为一组带有形状、大小、颜色、材质和在地面平面上的位置注释的对象的集合。一个场景也可以通过一个场景图[17,21]来表示,其中节点是带有属性注释的对象,边连接空间相关的对象。0对象。场景图包含图像的所有真实信息,并可以用完美视觉替换VQA系统的视觉组件。0生成图像。CLEVR图像是通过随机抽样场景图并使用Blender[6]进行渲染生成的。每个场景包含三到十个具有随机形状、大小、材料、颜色和位置的对象。在放置对象时,我们确保没有对象相交,所有对象至少部分可见,并且每对对象的图像平面中心之间有小的水平和垂直间距;这有助于减少空间关系的歧义。在每个图像中,灯光和相机的位置会随机抖动。0问题表示。CLEVR中的每个问题都与一个可以在图像的场景图上执行的功能程序相关联,从而得到问题的答案。功能程序由简单的基本函数构建,这些函数对应于视觉推理的基本操作,如查询对象属性、计数对象集合或比较值。如图2所示,复杂的问题可以由这些简单构建块的组合表示。有关每个基本函数的详细信息可以在补充材料中找到。正如我们将在第4节中看到的,将问题表示为功能程序使得我们能够进行丰富的分析,这是使用自然语言问题无法实现的。问题的功能程序告诉我们解决它所需的推理能力,使我们能够比较在需要不同类型推理的问题上的性能。010%20%30%2%33%4% 4%29040我们通过问题的程序中最外层的函数来对问题进行分类,这个函数定义了问题的类型;例如,图2中的问题有查询颜色和存在两种类型。图3显示了每种类型的问题数量。0问题类别。使用功能程序生成VQA数据集需要克服几个关键挑战。功能构建块可以用来构建无限数量的可能功能程序,我们必须决定考虑哪些程序结构。我们还需要一种将功能程序转换为自然语言的方法,以最小化问题条件偏差。我们使用问题类别来解决这些问题。一个问题类别包含一个用于构建功能程序的模板和多个用于以自然语言表达这些程序的文本模板。例如,问题“How many red things arethere?”可以通过实例化文本模板“How many things arethere?”,将参数和(类型为“颜色”和“材料”)绑定到red和nil的值上来形成。与此问题相关的功能程序count(filter color(red,scene()))可以通过使用相同的值来实例化关联的程序模板count(filter color(, filter material(,scene()))),使用nil输入的函数在实例化后被移除的约定。CLEVR包含90个问题类别,每个类别有一个程序模板和平均四个文本模板。文本模板是通过手动编写每个类别的一个或两个模板,然后众包进行问题重写来生成的。为了增加语言多样性,我们使用每种形状、颜色和材料的一组同义词。每个模板最多有19个参数,少量的类别就可以生成大量的唯一问题;图3显示,在CLEVR的近百万个问题中,超过853k个是唯一的。可以通过添加新的问题类别轻松扩展CLEVR。0生成问题。为图像生成问题在概念上很简单:我们选择一个问题类别,为其每个模板参数选择值,对图像的场景图执行生成的程序以找到答案,并使用问题类别中的一个文本模板生成最终的自然语言问题。然而,许多值的组合会导致问题不明确或退化。如果有很多个立方体在球体的右边,那么问题“右边的立方体是什么颜色?”就是不明确的;如果场景中只有一个立方体,那么引用球体就是多余的,这就是退化的情况。避免这些不明确和退化的问题对于确保问题的正确性和复杂性至关重要。一个简单的解决方案是随机抽样值的组合,并拒绝导致不明确或退化问题的组合。0唯一 重叠 分割 图像 问题 训练集中的问题0总共 100,000 999,968 853,554 -0训练集 70,000 699,989 608,607 - 验证集 15,000149,991 140,448 17,338 测试集 15,000 149,988140,352 17,33500 10 20 30 40每个问题的词数0问题比例0长度分布0DAQUAR VQAV7WCLEVR0存在 13%0计数 24%0等0大小09% 颜色0材质 9%0形状 9%0大小 4%0颜色0材0形状0比较整数0查询0比较0图3.CLEVR的统计信息;大多数问题是唯一的,验证集和测试集中的问题在训练集中很少出现。左下角:不同VQA数据集的问题长度比较;CLEVR的问题通常更长。右下角:CLEVR中问题类型的分布。0问题。然而,问题族的可能配置数量在其参数数量上呈指数级增长,其中大多数配置是不可取的。这使得对于我们复杂的问题族来说,暴力搜索是不可行的。相反,我们采用深度优先搜索来找到实例化问题族的有效值。在搜索的每一步中,我们使用真实场景信息来剪枝大量的搜索空间,这些搜索空间保证会产生不可取的问题;例如,对于不包含球体的场景,我们不需要考虑“在球体的< R>是什么颜色”的问题形式。最后,我们使用拒绝抽样来为每个问题族产生近似均匀的答案分布;这有助于最小化问题条件偏差,因为同一问题族的所有问题共享语言结构。04. CLEVR上的VQA系统04.1. 模型0VQA模型通常使用预训练的CNN提取图像特征,并使用词嵌入或循环网络表示问题和/或答案。模型可以训练循环网络进行答案生成[10, 28,41],多类别分类器用于常见答案[4, 24, 25, 32, 48,49],或者在图像-问题-答案三元组上训练二元分类器[9, 16,33]。许多方法在图像上引入了注意力[9, 33, 44, 49,43]或问题上引入了注意力[24]。一些方法引入了记忆[42]或动态网络架构[2,3]。由于尝试所有方法在逻辑上具有挑战性,因此我们复现了一部分代表性的方法:不查看图像的基线方法(Q-type模式,LSTM),接近最先进的简单基线方法(CNN+BoW),以及更复杂的方法。02040608010041.8 46.8 48.4 52.3 51.468.592.602040608010050.2 61.1 59.5 65.2 63.4 71.196.602040608010034.6 41.7 38.9 43.7 42.1 52.286.702040608010051 6350 57 57 607952735472 7150714969 68 7402040608010050 50 56 59 59879712 1332 32 32819549 51 58 58 57889433 3347 48 48859429050准确率0Foo0整体0oo0存在0Foo0计数0相等0更少0更多091 比较整数0准确率0大小0颜色0材质0形状0查询属性0图4. 六种VQA方法在CLEVR数据集上每个问题类型的准确率(越高越好)。最佳观看效果请使用彩色图。0使用循环网络(CNN+LSTM)、复杂特征汇聚(CNN+LSTM+MCB)和空间注意力(CNN+LSTM+SA)。1以下是对它们的详细描述。Q-type模式:类似于[4]中的“每个问题类型先验”方法,该基线预测每个问题类型的训练集中最频繁出现的答案。LSTM:类似于[4]中的“LSTMQ”,问题使用学习的词嵌入进行处理,然后使用词级LSTM[15]。最终的LSTM隐藏状态传递给多层感知机(MLP),预测答案的分布。该方法不使用图像信息,因此只能建模问题条件偏差。CNN+BoW:按照[48]的方法,问题通过对问题中的每个词的词向量进行平均来进行编码,图像使用卷积网络(CNN)的特征进行编码。问题和图像特征进行拼接,然后传递给一个MLP,预测答案的分布。我们使用在Google-News语料库[29]上训练的词向量;在训练过程中不对其进行微调。CNN+LSTM:图像和问题分别使用CNN特征和最终的LSTM隐藏状态进行编码。这些特征进行拼接,然后传递给一个MLP,预测答案的分布。CNN+LSTM+MCB:图像和问题的编码方式与上述相同,但是它们的特征使用紧凑的多模态池化(MCB)[9,11]进行汇聚。CNN+LSTM+SA:问题和图像分别使用CNN和LSTM进行编码。根据[44]的方法,这些表示使用一轮或多轮的软空间注意力进行组合,最终使用MLP预测答案的分布。人类:我们使用MechanicalTurk从测试集中随机选择了5500个问题,对于每个问题,我们采用三名工人的多数票作为答案。0实现细节。我们的CNN模型是在ImageNet[14]上预训练的ResNet-101模型,没有进行微调;图像在特征提取之前被调整为224×224的大小。01我们对动态模块网络[2]进行了初步实验,但它的解析启发式方法不能推广到CLEVR中的复杂问题,因此它不能直接使用;请参阅补充材料。0CNN+LSTM+SA从conv4阶段的最后一层提取特征,得到14×14×1024维的特征。其他所有方法从最后的平均池化层提取特征,得到2048维的特征。LSTM使用1或2层,每层512或1024个单元。MLP使用ReLU函数和dropout[34],有1或2个隐藏层,每层有1024到8192个单元。所有模型都使用Adam[20]进行训练。0实验协议。CLEVR被分为训练集、验证集和测试集(参见图3)。我们根据验证误差独立地调整超参数(学习率、dropout、词向量大小、LSTM和MLP层数和大小),每个模型都在验证集上设计实验。在最终确定设计后,我们在测试集上运行每个模型一次。所有实验结果都从验证集推广到测试集。04.2. 根据问题类型进行分析0我们可以使用问题的程序表示来分析模型在不同形式的推理上的性能。我们首先评估每种问题类型的性能,问题类型定义为程序中最外层的函数。图4显示了结果,详细的发现将在下面讨论。查询属性:查询问题询问特定对象的属性(例如“红色球体右侧的物体是什么颜色?”)。CLEVR世界有两种尺寸、八种颜色、两种材料和三种形状。在询问这些不同属性的问题上,Q-Type模式和LSTM的准确率接近50%、12.5%、50%和33.3%,表明数据集对这些问题没有明显的问题条件偏差。CNN+LSTM+SA在这些问题上明显优于其他所有模型;它的注意机制可以帮助它集中注意目标对象并识别其属性。比较属性:属性比较问题询问两个对象在某个属性上是否具有相同的值(例如“立方体和球体的大小是否相同?”)。唯一有效的答案是“是”和“否”。Q-Type模式和LSTM的准确率接近50%,证实这些问题没有数据集偏差。与属性查询问题不同,属性比较问题需要有限的记忆能力:模型必须识别两个对象的属性并将它们保留在记忆中以进行比较。有趣的是,没有一个模型能够做到这一点:所有模型的准确率都约为50%。对于CNN+LSTM+SA模型也是如此,这表明它的注意机制不能同时关注两个对象进行比较。这说明了CLEVR如何揭示模型的局限性并激发后续的研究,例如通过显式记忆来增强注意模型。存在性:存在性问题询问某种类型的对象是否存在(例如“红色物体右侧是否有立方体?”)。Q-Type模式的50%准确率表明两个答案是先验等可能的,但LSTM的60%结果表明存在问题条件偏差。问题长度和答案之间可能存在相关性:具有更多过滤操作的问题(例如“大红色立方体”与“红色立方体”)更有可能有“否”作为答案。即使在每个问题族中的答案分布均匀,也可能存在这样的偏差,因为同一族的问题可能具有不同数量的过滤函数。CNN+LSTM(+SA)优于LSTM,但其性能仍然相当低。计数:计数问题询问满足某些条件的对象的数量(例如“有多少个红色立方体?”);有效答案范围从零到十。图像有三个和十个对象,计数问题涉及到对象的子集,因此确保答案分布均匀非常具有挑战性;因此,我们的拒绝采样器倾向于对这些问题推向均匀分布,而不是将其作为硬约束。这导致了问题条件偏差,Q-Type模式和LSTM的准确率分别为35%和42%。CNN+LSTM(+MCB)与LSTM的性能相当,这表明CNN特征中包含的与计数相关的信息很少。CNN+LSTM+SA的性能稍好一些,但52%的绝对性能仍然较低。整数比较:整数比较问题询问两个对象集合中哪个更大(例如“立方体是否比红色物体少?”);这需要计数、记忆、025507510036 36 37 37 50 46 49 50 50 5093 78QueryWhat color is thecube that is the samesize as the sphere?025507510040 34 50 40 42 40 48 44 50 42 56Count025507510053 49 66 58 58 60 65 65 60 64 72 69Existquestions, attribute-comparison questions require a limitedform of memory: models must identify the attributes of twoobjects and keep them in memory to compare them. Inter-estingly, none of the models are able to do so: all modelshave an accuracy of approximately 50%. This is also truefor the CNN+LSTM+SA model, suggesting that its atten-tion mechanism is not capable of attending to two objects atonce to compare them. This illustrates how CLEVR can re-veal limitations of models and motivate follow-up research,e.g., augmenting attention models with explicit memory.Existence: Existence questions ask whether a certaintype of object is present (e.g., “Are there any cubes tothe right of the red thing?”).The 50% accuracy of Q-Type mode shows that both answers are a priori equallylikely, but the LSTM result of 60% does suggest a question-conditional bias. There may be correlations between ques-tion length and answer: questions with more filtering oper-ations (e.g., “large red cube” vs. “red cube”) may be morelikely to have “no” as the answer.Such biases may bepresent even with uniform answer distributions per questionfamily, since questions from the same family may have dif-ferent numbers of filtering functions. CNN+LSTM(+SA)outperforms LSTM, but its performance is still quite low.Counting: Counting questions ask for the number of ob-jects fulfilling some conditions (e.g. “How many red cubesare there?”); valid answers range from zero to ten. Im-ages have three and ten objects and counting questions re-fer to subsets of objects, so ensuring a uniform answer dis-tribution is very challenging; our rejection sampler there-fore pushes towards a uniform distribution for these ques-tions rather than enforcing it as a hard constraint.Thisresults in a question-conditional bias, reflected in the 35%and 42% accuracies achieved by Q-type mode and LSTM.CNN+LSTM(+MCB) performs on par with LSTM, sug-gesting that CNN features contain little information relevantto counting. CNN+LSTM+SA performs slightly better, butat 52% its absolute performance is low.Integer comparison: Integer comparison questions askwhich of two object sets is larger (e.g. “Are there fewercubes than red things?”); this requires counting, memory,025507510036 37 36 37 48 51 47 49 47 48025505041 37 49 50 44 41 48 45 45 45 55 4829060准确率0球体右侧的立方体是什么颜色?0准确率0准确率0图5.单个空间关系与单个相同属性关系的准确率。对于查询和计数问题,模型在具有相同属性关系的问题上表现较差。对于存在性问题的结果则不一致。0准确性074个查询0准确性0计数0在球体的右侧有多少个立方体,球体在红色物体的左侧?0在球体的右侧和红色物体的左侧有多少个立方体?0图6. 根据问题拓扑结构(链式问题 vs.与逻辑AND运算符连接的树状问题)分解的具有两个空间关系的问题的准确性。0并比较整数数量。答案分布是无偏的(参见Q-Type模式),但集合的大小可能与其描述的长度相关,这解释了LSTM和Q-Type模式之间的差距。CNN+BoW的表现不比随机好:BoW混合了描述每个集合的单词,使得学习者无法区分它们。CNN+LSTM+SA在“更少”和“更多”问题上的表现优于LSTM,但没有模型在“相等”问题上优于LSTM。大多数模型在“更少”问题上的表现优于“更多”问题,这是由于问题族的不对称性。04.3. 关系类型分析0CLEVR问题包含两种类型的关系:空间关系和相同属性关系(参见第3节)。我们可以通过比较模型在具有单一空间关系和具有单一相同属性关系的问题上的表现来比较这两种类型的相对难度;结果如图5所示。在查询属性和计数问题上,我们可以看到相同属性问题通常更难;CNN+LSTM+SA在空间关系和相同关系查询问题上的差距特别大(93% vs.78%)。相同属性关系可能要求模型将一个对象的属性“记忆”起来进行比较,这再次表明在这些问题上加入显式记忆的模型可能表现更好。04.4. 问题拓扑分析0接下来,我们评估模型在不同问题拓扑结构上的表现:链式问题 vs.两个分支通过逻辑AND连接的树状问题(参见图2)。在图6中,我们比较了具有两个空间关系的链式问题和具有每个分支上一个关系的树状问题的表现。在查询问题上,CNN+LSTM+SA在链式问题和树状问题之间显示出很大的差距(92% vs.74%);在计数问题上,CNN+LSTM+SA在链式问题上略优于LSTM(55% vs.49%),但没有一种方法在树状问题上优于LSTM。树状问题可能更难,因为它们要求模型在融合结果之前同时执行两个子任务。24060801004060801002550751005507510055075100255075100550750550750029070问题:在大蓝色圆柱体的左侧有一个大物体,它在右侧的橡胶圆柱体前面的紫色闪亮物体的左侧;它的形状是什么?有效问题:一个大物体在圆柱体的左侧是什么形状?04 6 8 10 12 14 16 18 20实际问题规模0准确性0查询属性02 4 6 8 10 12 14 16 有效问题规模0准确性0查询属性0图7.上:许多问题可以在不正确解决所有子任务的情况下正确回答。对于给定的问题和场景,我们可以从问题的程序中删除函数,生成一个更有效的问题,它更短但给出相同的答案。下:查询问题与实际和有效问题规模的准确性。有效问题规模的准确性降低,但实际规模不降低。阴影区域显示95%的置信区间。04.5. 问题规模的影响0直观上,较长的问题应该更难,因为它们涉及更多的推理步骤。我们将问题的大小定义为其程序中的函数数量,在图7(左下)中,我们展示了查询属性问题的准确性作为问题规模的函数。令人惊讶的是,准确性似乎与问题规模无关。然而,即使某些子任务没有正确解决,许多问题仍然可以正确回答。例如,图7(上)中的问题可以在不确定正确的大蓝色圆柱体的情况下正确回答,因为所有在圆柱体左侧的大物体都是圆柱体。为了量化这种效果,我们定义了图像-问题对的有效问题:我们从问题的程序中删除函数,找到在问题的图像的场景图上执行时给出与原始问题相同答案的最小程序。一个问题的有效大小是其有效问题的大小。有效问题的大小小于实际大小的问题不一定是退化的。图7中的问题不是退化的,因为需要整个问题来解决其对象引用(有两个蓝色圆柱体和两个橡胶圆柱体),但它具有较小的有效大小,因为可以在不解决这些引用的情况下正确回答。在图7(底部),我们展示了查询问题的准确性作为有效问题大小的函数。所有模型的错误率随着有效问题大小的增加而增加,这表明模型在长推理链上遇到困难。02我们排除了具有相同属性关系的问题,因为它们的最大大小为10,引入了大小和难度之间的不必要的相关性。排除的问题显示出相同的趋势(见补充材料)。3修剪的问题可能是不明确的(第3节),因此它们以修改后的语义执行;有关详细信息,请参阅补充材料。0问题:有一个紫色的立方体在黄色金属球的前面;它是什么材料?绝对问题:有一个紫色的立方体在图像的前半部分;它是什么材料?00 1 2 3 "关联"的数量0准确率0查询00 1 2 3 "关联"的数量0准确率0计数00 1 2 3 "关联"的数量0准确率0存在00 1 2 3 "关联"的数量0准确率00 1 2 3 "关联"的数量0准确率00 1 2 3 "关联"的数量0准确率0图8.上:某些问题可以使用绝对空间关系的定义正确回答;例如,在这个图像中,只有一个紫色的立方体在图像的下半部分。下:每个模型在链式结构问题上的准确率,根据问题中的空间关系数量分开。顶行显示所有链式结构问题;底行排除了可以使用绝对空间推理正确回答的问题。04.6. 空间推理0我们预计具有更多空间关系的问题应该更具挑战性,因为它们需要更长的推理链。图8中的顶部图表显示了具有不同关系数量的链式结构问题的准确率。在三种问题类型中,CNN+LSTM+SA在具有一个或多个空间关系的问题上准确率显著下降;其他模型对空间关系的影响较小。空间关系迫使模型推理对象的相对位置。然而,如图8所示,某些问题可以使用绝对空间推理来回答。在这个问题中,紫色的立方体可以通过简单地查看图像的下半部分来找到;不需要推理它相对于金属球的位置。只需要绝对空间推理的问题可以通过修改其程序中空间关系函数的语义来识别:它们忽略其输入对象并返回与关系对应的图像一半中的对象集合。如果使用这些修改后的语义执行其程序不会改变其答案,则该问题只需要绝对空间推理。图8的最底部图表显示了具有不同关系数量的链式结构问题的准确率,排除了可以回答的问题04我们限制为链式结构的问题,以避免问题拓扑和关系数量之间的不必要的相关性。025507510013.0 132.1 34.5 45.917.1 28.1 31.5 32.7 22.283.8 83.5 85.251.1025507510049.5 50.7 50.7 49.864.7 64.5 61.1 61.2 63.9 65.0 59.5 60.091.7 90.4 90.0 80.8290807.4 LSTM0CNN+LSTM0CNN+LSTM+MCB0CNN+LSTM+SA0查询颜色0LSTM0CNN+LSTM0CNN+LSTM+MCB0CNN+LSTM+SA0查询材料0A → A(球)A→ B(球)0A →A(立方体/圆柱体)A →B(立方体/圆柱体)0图9.在条件A中,所有立方体都是灰色、蓝色、棕色或黄色的,所有圆柱体都是红色、绿色、紫色或青色的;在条件B中,颜色调色板被交换。我们在条件A中训练模型,并在两个条件下进行测试,以评估它们的泛化性能。我们显示了“查询颜色”和“查询材料”问题的准确率,按被查询对象的形状分开。0绝对空间推理。在查询问题上,当排除绝对空间推理时,CNN+LSTM+SA的表现明显下降;在计数问题上,没有模型能够超越L
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- VMP技术解析:Handle块优化与壳模板初始化
- C++ Primer 第四版更新:现代编程风格与标准库
- 计算机系统基础实验:缓冲区溢出攻击(Lab3)
- 中国结算网上业务平台:证券登记操作详解与常见问题
- FPGA驱动的五子棋博弈系统:加速与创新娱乐体验
- 多旋翼飞行器定点位置控制器设计实验
- 基于流量预测与潮汐效应的动态载频优化策略
- SQL练习:查询分析与高级操作
- 海底数据中心散热优化:从MATLAB到动态模拟
- 移动应用作业:MyDiaryBook - Google Material Design 日记APP
- Linux提权技术详解:从内核漏洞到Sudo配置错误
- 93分钟快速入门 LaTeX:从入门到实践
- 5G测试新挑战与罗德与施瓦茨解决方案
- EAS系统性能优化与故障诊断指南
- Java并发编程:JUC核心概念解析与应用
- 数据结构实验报告:基于不同存储结构的线性表和树实现
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功