乌鸦的渐进矩阵数据集：关系和逻辑可视化检索的新工作

168 浏览量更新于2023-10-20 收藏 1.53MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5317（b）第（1）款中心？（c）第（1）款48RAVEN：一个用于关系和逻辑可视化检索的数据集张驰，1，2高凤，1，2贾宝雄，1朱怡欣，1，2朱松春，1，21加州大学洛杉矶分校视觉、认知、学习和自主2国际人工智能和机器人自主中心（CARA）{chi.zhang，f.gao，baoxiongjia，yixin.zhu}@ ucla.edu，sczhu@stat.ucla.edu摘要在涉及低水平感知的基本视觉任务中，如物体识别、检测和跟踪，已经见证了巨大的进步。不幸的是，人工视觉系统和人类智能在更高层次的视觉问题，特别是涉及推理的问题方面仍然存在巨大的性能差距早期尝试为机器配备高级推理的尝试一直围绕着视觉问题推理（VQA），这是一项将视觉和语言理解相关联的典型任务。在这项工作中，我们提出了一个新的数据集，建立在乌鸦的渐进矩阵（RPM）的背景与以前的作品中测量抽象推理使用RPM，我们建立了一个语义之间的联系，视觉和推理提供结构表示。这一增加使得一种新的类型的抽象推理，通过共同运作的结构表示。在这个新提出的数据集中，使用现代计算机视觉的机器推理能力此外，我们还提供人的表现作为参考。最后，我们通过整合一个简单的神经模块，结合视觉理解和结构推理，在所有模型中显示出一致的改进1. 介绍因此，视觉的研究必须不仅包括如何从图像中提取的研究。- 是的- 是的，而且也是对内部表征的性质的探究，我们通过这种表征来捕获这种信息，从而使它成为我们思想和行动的基础。- 大卫·马尔，1982年[35]计算机视觉具有广泛的任务范围。一些计算机视觉问题显然是纯粹的视觉，表示同等贡献。（一）1 2 35 6 7图1. (a)RPM示例。一个被要求选择一个图像，最好完成的问题矩阵，以下的结构和类比关系。每个图像都有一个底层结构。(b)具体来说，在这个问题中，它是一个内外结构，其中外部组件是一个具有单个居中对象的布局，内部组件是一个2×2网格布局。细节图2.（c）列出（a）的规则规则的合成性质使这个问题成为一个难题。正确答案是7。“图灵”视觉信息过程;例如，早期视觉中的过滤器[5]，作为中间表征的原始草图[13]，以及作为感知组织的完形法则[24]。相比之下，其他一些视觉问题对感知图像的要求是平凡化的，但在关系和/或类比视觉推理方面涉及更广义的问题解决[16]。在这种情况下，愿景部分成为“关于我们思想和行动的决定的目前，大多数计算机视觉任务集中在一个现有的工作线，装备- ping人工系统的推理能力徘徊在视觉问题问答（VQA）[2，22，48，58，62]。然而，VQA中所需的推理技能仅在认知能力测试圈的外围[7]。到回答集问题矩阵5318将计算机视觉或更广泛地说，人工智能（AI）的极限推向认知能力测试圈的中心，我们需要一个最初设计用于测量人类已经开发了一种令人惊讶的有效的人类视觉反应能力测试，与VQA不同，RPM直接位于人类智能的中心[7]，是抽象和结构推理能力的诊断[9]，并表征了高级智能的定义特征，即，流动智力[21]。图1显示了RPM问题的一个例子及其结构表示。提供两行由视觉上简单的元素组成的图形，必须有效地推导出正确的图像结构（图1（b））和基本规则（图1（c）），以共同推理最好地完成问题矩阵的候选图像。就所需的推理水平而言，RPM可以说比VQA更难：• 与VQA不同，自然语言问题通常暗示图像中需要注意什么，RPM依赖于仅仅基于矩阵中提供的视觉线索和对应问题本身，即，找到要编码的属性的正确水平，已经是区分不同智力群体的主要因素[7]。• VQA只需要空间和语义的理解，而RPM需要联合的时空推理，问题矩阵和答案集短时记忆的局限性、类比能力和结构的发现都必须考虑在内。• RPM中的结构使得规则的组成更加复杂。不像VQA，编码相对简单的一阶推理，RPM通常包括更复杂的逻辑，甚至带有递归。通过在不同层次上组合不同的规则，推理过程可能非常困难。为了突破现有视觉系统推理能力的极限，我们生成了一个新的数据集，以促进这一领域的进一步研究。我们将该数据集称为相对和类比视觉rEasoning数据集（RAVEN），以向John Raven在创建原始RPM方面的开创性工作表示敬意[47]。总的来说：• RAVEN由1，120，000个图像和70，000个RPM问题组成，平均分布在7个不同的图中。• 每个问题有16个树结构注释，在整个数据集中总共有1，120，000个• 我们设计了5个规则管理属性和2个噪音-致敬每个规则控制属性都超过4个规则，并且同一组件中的对象共享同一组规则，总共产生440，000个规则注释，平均6.0个。每个问题29条RAVEN数据集的设计本质上是轻量级的视觉识别和推理能力都很强。每个图像只包含一组有限的简单的灰度对象，具有清晰的边界，没有遮挡。与此同时，规则是按行应用的，每个属性可能有一个规则，攻击视觉系统一个明显的悖论是：在这种固有的组合和结构化RPM问题中，在先前的工作中没有结构的注释可用（例如，[3，55]）。因此，我们着手建立一个语义之间的联系，在RPM的视觉推理和结构推理。我们将每个问题实例接地到从归因随机图像语法（A-SIG）[12，30，43，56，60，61]导出的句子，并将数据生成过程分解为两个阶段：第一阶段从预定义的A-SIG中采样句子，并且第二阶段基于该句子呈现图像。这种结构化的设计使得数据集非常多样化，易于扩展，从而可以在不同的图形配置中进行泛化测试。更重要的是，数据生成管道自然地为我们提供了丰富的密集注释，特别是图像空间中的结构。视觉和结构表征之间的这种语义联系通过将问题分解为图像理解和树或图级推理而开辟了新的可能性[26，53]。如第6节所示，我们经验性地证明，具有简单结构推理模块的模型将视觉级理解和结构级推理结合起来，将显著提高其在RPM中的性能。本文的结构如下。在第2节中，我们讨论了RPM中视觉推理和计算工作的相关工作。第3节详细描述了RAVEN数据集生成过程，第4节对人的表现进行基准测试，并将RAVEN与以前的RPM数据集进行比较。在第5节中，我们提出了一个简单的扩展到现有的模型，在企业的视觉理解和结构推理。第6节评价了所有基线模型和拟定扩展。人类受试者（84%）和视觉系统（59%）之间的显着差距需要进一步研究这个问题。我们希望RAVEN能够为人类推理AI的长期努力做出贡献2. 相关工作视觉推理早期的尝试是在20世纪40年代至70年代在基于逻辑的人工智能领域进行的Newell认为，人工智能的一个潜在解决方案是有两个重要的审判：（i）Evans提出了一种人工智能算法，解决了Wechsler成人智力量表（WAIS）测试中的一种几何类比任务[10，11]，（ii）Simon和Kotovsky设计了一个程序，解决了Thurstone字母序列完成问题[54]。然而，这些早期的尝试都是基于手工制作的规则，很难应用于其他问题。5319（规则（场景结构组件中心中心（布局实体（（噪波属性修改受约束属性以生成答案集图2. RAVEN创建过程。在A-SIG中使用的语法产生式规则的图示在（b）中示出。请注意，布局和实体具有关联的属性（c）。给定一个随机抽样的规则组合（a），我们首先修剪语法树（修剪透明分支）。然后，我们对图像结构以及（b）中的属性值（用黑色表示）进行采样，并应用规则集（a）生成单行。重复这个过程三次，就得到了（d）中的整个问题矩阵。(e)最后，我们抽样约束属性，并改变他们在正确的答案，打破规则，并获得候选答案集。现代视觉系统的推理能力首先在CLEVR数据集中进行了系统分析[22]。通过仔细控制归纳偏差，并将视觉系统的推理能力分割成功地发现了现有模式的主要缺陷。在这个数据集上的后续工作[23]通过在结构化空间中引入程序生成器并将其与程序执行引擎相结合来实现良好的性能。在[18]中提出了一个类似的工作，也利用了语言引导的结构化推理。具有特殊注意力机制的模块后来以端到端的方式提出来解决这个视觉推理任务[19，49，59]。然而，在最近的作品中观察到了卓越的性能增益[6，36，58]，这些作品通过使用原语，依赖树或逻辑回归到结构化表示。这些工作也启发我们将结构信息融入到解决RPM问题中。更一般地，Bisket al. [4]研究了3D块世界中的视觉推理。Perez等人[46]引入了一个用于视觉推理的条件层。Aditya等人[1]在注意力模块中提出了一种概率软逻辑，以提高模型的可解释性。巴雷特等人[3]在神经网络中测量的抽象推理。RPM中的计算努力认知科学的研究团体早于计算机科学团体就试图用计算模型来解决RPM问题。然而，在实验中通常会做出一个过于简单的假设，即计算机程序可以访问图像的符号表示和规则的操作[7，32，33，34]。正如在4.4节中所报告的，我们表明，给出这一关键信息基本上将其转化为一个搜索问题。莱姆将其与简单的算法相结合，为我们提供了一个最佳的解决方案，轻松超越人类的表现。另一种人工智能研究[31，37，38，39，50]试图通过各种图像相似性的测量来解决RPM为了以数据驱动的方式促进计算机程序和人类主题之间的公平比较，Wang和Su [55]首先提出了一种使用一阶逻辑自动生成RPM的系统方法Barrett等人[3]扩展了他们的工作，并通过使用关系对象属性元组实例化每个规则来引入过程生成矩阵（PGM）数据集Hoshen和Warman [17]首先训练CNN在一个简单的评估环境中完成行，而Barrett等人。[3]使用了一个先进的野生关系网络（WReN），并研究了它的泛化。3. 创建乌鸦我们的工作是建立在前面提到的我们实现了Carpenter等人在Advanced Raven's Progressive Matrices中确定的所有关系[7]并根据Wang和Su [ 55 ]提出的RPM约束的单调性图2显示了生成过程的主要组件。具体来说，我们使用A-SIG作为RPM的表示;每个RPM都是从A-SIG实例化的解析树在规则被采样之后，我们修剪语法以确保关系可以应用于从中采样的任何然后，我们从修剪后的语法中抽取一个句子重复这样的过程三次会产生问题。为了生成答案集，我们修改了正确答案的属性，从而打破了关系5320图3.显示添加噪波属性效果的RPM示例。（左）位置、类型、大小和颜色可以自由变化，只要数字遵循规则。（右）内部组中的位置和类型可以自由变化最后，将结构化呈现馈送到渲染引擎中以生成图像。我们详细说明下面的细节1.3.1. 属性语法我们采用A-SIG作为层次结构化的图像文法来表示RPM问题。这种表示与先前工作（例如，[3，55]），它充其量只是保持了规则的平面表示。请参见图2中语法产生式规则的图形说明。具体来说，RPM的A-SIG有5个级别-场景，结构，组件，布局和实体。请注意，每个语法级别可以具有多个实例，即，不同的种类或类型。场景级别可以选择任何可用的结构，它可能由多个组件组成。每个组件分支到链接实体的布局。属性被附加到某些级别;例如（i）数字和位置与布局相关联，以及（ii）类型、大小和颜色与实体相关联。每个属性都可以从有限集中取一个值。在采样期间，对图像结构和属性值两者进行采样。为了增加RAVEN数据集的挑战和难度，我们进一步将两种类型的噪声属性-均匀性和方向-分别添加到布局和实体Uniformity（设置为false）不会约束布局中的实体看起来相同，而Orientation（方向）允许实体自旋转。见图- ure3的影响的噪音属性。图像空间的这种语法设计允许数据集非常多样化并且易于扩展。在这个数据集中，我们通过组合不同的结构，组件和布局来获得7种配置。图4显示了每个图形配置中的示例。1参见产生式规则、规则和节点的语义含义以及更多示例的补充材料。3.2. 应用规则Carpenter等人[7]总结说，在高级RPM中，规则按行应用，可以分为5种类型。与Berrett等人不同，[3]我们严格遵循卡彭特等人。的RPM的描述，并实现所有的规则，除了我们合并分发二到分发三，因为前者本质上是后者的一个属性中的空值。具体来说，我们在RAVEN中实现了4种类型的规则： Constant 、 Progression 、 Arithmetic 和Distributed三种。与[3]不同的是，我们为某些规则添加了内部参数（例如，Progression可以有1或2的增量或减量），导致总共8个不同的规则实例化。规则不作用于2个噪波属性。如图1和图2所示，它们被表示为[attribute：rule]对。为了使图像空间更加结构化，我们要求每个属性都遵循一条规则，同一组件中的所有实体都共享同一组规则，而不同的组件可能会有所不同。给定树表示和规则，我们首先修剪语法树，使得所有子树满足由关系施加的约束。然后，我们从树中采样，并应用规则来组成一行。迭代过程三次产生一个问题矩阵。3.3. 生成答案集为了生成答案集，我们首先导出解决方案的正确表示，然后利用Wang和Su [55]提出的RPM约束为了打破正确的关系，我们找到一个受3.2节中描述的规则约束的属性，并改变它。通过只修改一个属性，我们可以大大减少计算量。这种修改也增加了问题的难度，因为它需要注意细微的差异，以区分正确的候选人和错误的候选人。4. 比较分析在本节中，我们将RAVEN与现有的PGM进行比较，并在第4.1节中介绍其主要功能和一些统计数据。另外，我们在一个理想的RPM数据集中填充了两个缺失的部分，结构和等级（第4.2节）以及人的绩效（第4.3节）。我们还表明，RPM变得微不足道，可以立即解决使用基于算法的搜索方法（第4.4节），给出了一个符号表示的图像和操作的规则。4.1. 与PGM表1总结了RAVEN和PGM的几个基本指标尽管PGM在大小方面大于 RAVEN ，但它在平均规则数（ AvgRule ）、规则实例化（ RuleIns ）、结构数（Structions）、5321图4.建议的RAVEN数据集中7种不同图形配置的示例结构（Struct）和图形配置（FigConfig）。PGM的巨大规模和有限多样性的这种对比表1.与PGM数据集进行比较。PGM[3]乌鸦（我们的）平均规则1.376.29规则58Struct14FigConfig37StructAnnoHumanPerf01,120,000C为了避免这种不良影响，我们避免生成过大的数据集，即使我们的结构化表示允许生成组合数量的问题。相反，我们开始整合更多的规则说明（8）、结构（4）和图形配置（7），以使数据集多样化（参见图4中的示例）。请注意，在RAVEN数据集中为每个图形配置生成相同数量的图像。4.2. 结构介绍RAVEN的一个显著特点是引入了图像空间的结构表示。 Wang and Su [55] and Barrettet al. [3] used plainlogic and flat rule representations, respectively, resultingin no base of the structure to perform reasoning on. Incontrast, we have in total 1, 120, 000 structure annotations(StructAnno) in the form of parsed sentences in the dataset,pairing each prob- lem instance with 16 sentences for boththe matrix and the answer set.这些从A-SIG衍生的表示允许一种新的推理形式，即，一种结合了视觉理解和结构推理的方法。如图所示在[32，33，34]和我们在第6节中的实验中，将结构融入RPM问题解决中可以进一步提高不同模型的性能。4.3. 人因绩效分析在以前的工作[3]中，另一个缺失点是对人类表现的评估。为了填补缺失的部分，我们从心理学系维护的受试者库中招募了由大学生组成的人类受试者，以测试他们在数据集中代表性样本子集上的表现。在实验中，人类受试者通过解决问题来熟悉，一个固定配置中的非常量规则熟悉后请注意，我们故意包括所有的图形配置，以衡量人类表现中的泛化能力，并且仅使用“容易感知”的示例，以防某些受试者可能有受损的泛化能力。结果报告于表2中。这种显著的性能差距要求对这一问题进行进一步的研究。有关与视觉模型的详细分析和比较，请参见第64.4. 基于启发式搜索的求解器我们还发现，RPM本质上可以变成一个搜索问题，给定图像的符号表示和对规则操作的访问，如[32，33，34]所示在这样的设置下，我们可以把这个问题作为约束满足，并开发一个基于启发式的求解器。求解器检查每个候选答案中满足的约束的数量，并选择得分最高的一个，从而获得完美的性能。结果报告于表2中。最优性的启发式求解器也验证了良构的RAVEN在这个意义上，只有一个候选人，满足所有的约束。5. RPM的动态残差树RPM的图像空间是固有的结构，可以使用符号语言描述，如[7，32，33，34，47]所示。为了捕捉这一特性并进一步提高RPM上的模型性能，我们提出了一个简单的树结构神经模块，称为动态残差树（DRT），它在图像理解和结构推理的联合空间上操作。DRT的示例如图5所示。在DRT中，给定从A-SIG采样的句子S，通常表示为序列化的n元树，我们可以首先恢复树结构。请注意，树是在句子S之后动态生成的，树中的每个节点都带有一个标签。有了结构化的树表示，我们现在可以考虑为每个树节点分配一个神经计算运算符，类似于Tree-LSTM [53]。为了进一步简化计算，我们将LSTM单元[15]替换为ReLU激活的[41]全连接层f。通过这种方式，具有单个子节点的节点（叶节点或OR产生节点）更新输入fea。5322图5. DRT计算图示例。(a)给定序列化的n叉树表示（具有/去注释分支末端的前序遍历输入要素按照树结构自下而上进行连接。最后的输出是与输入的和，形成残差模块。特雷斯比I=ReLU（f（[I，w，n]）），（1）其中，[·，·]是级联操作，I表示输入特征，并且wn是级联操作的分布式表示节点具有多个子节点的节点（AND-生产节点）通过以下方式CNN我们测试了Hoshen和Warman [17]中使用的神经网络模型。在该模型中，用于图像特征提取的四层CNN连接到具有softmax层的两层MLP以分类答案。CNN与批量归一化[20]和ReLU非线性[41]交织。随机丢弃[51]应用于MLP的倒数第二层。在CNN-DRT中，图像特征在MLP之前被传递到DRT。ResNet由于其在图像特征提取方面的惊人有效性，我们在该模型中用ResNet [14]取代了CNN中的特征提取骨干。我们使用一个公开的ResNet实现，模型是随机初始化的，没有预先训练。在测试了几个ResNet变体之后，我们选择了ResNet-18，因为它具有良好的性能。DRT扩展和训练策略与CNN模型中使用的相似。WReN在实现WReN时，我们遵循原论文[3]的思路在这个模型中，我们首先通过CNN提取图像然后，每个答案特征与每个上下文图像特征组合阶对进一步被馈送到MLP并求和。最后，.I=ReLUf.ΣΣIc，wnCΣΣΣ、（二）softmax层从每个候选答案中获取特征并进行预测。在WReN-DRT中，我们在关系模块之前对提取的图像特征应用DRT。其中Ic表示来自其子节点c的特征。总之，来自较低层的特征被馈送到DRT的叶节点，按照树结构由下而上通过等式1和等式2逐渐更新，并输出到更高级别的层。受[14]的启发，我们通过将DRT的输入和输出相加，使DRT成为一个残差模块，因此命名为动态残差树（DRT）I= DRT（I，S）+I。（三）6. 实验6.1. 计算机视觉模型我们采用了几个适合RPM的代表性模型，并在RAVEN上测试了它们的性能[3，14，27，57]。总之，我们测试了一个简单的顺序学习模型（LSTM），一个带有MLP头的CNN主干（CNN），一个基于ResNet的[14]图像分类器（ResNet），最近的相关WReN [3]，以及所有这些模型都用提出的DRT增强。LSTMRPM问题的部分顺序性质激励我们借用顺序学习的力量类似于ConvLSTM [57]，我们将CNN提取的每个图像特征依次输入到LSTM网络中，并将最后一个隐藏特征传递到双层MLP中以预测最终答案。在DRT增强的LSTM中，即LSTM-DRT，我们在最终的LSTM之前将每个图像的特征馈送到共享的DRT。对于所有DRT扩展，相同级别中的节点共享参数，并且节点标签的表示用于组装DRT的句子可以由编码器-解码器检索或学习。在这里，我们使用检索报告结果。6.2. 实验装置我们将RAVEN数据集分为三部分，6倍用于训练，2倍用于验证，2倍用于测试。我们在验证集上调整超参数，并在测试集上报告模型的准确性。对于损失设计，我们将问题视为分类任务，并使用交叉熵损失训练所有模型所有模型都在Py- Torch [44]中实现，并在早期停止ping或达到最大epoch数之前使用ADAM [256.3. 性能分析表2显示了在RAVEN上训练的每个模型的测试准确度，以及人类性能和基于数学的求解器。无论是人类受试者还是求解器都没有经历过强化训练，并且求解器可以访问规则操作并基于问题的符号表示来搜索答案相比之下，所有的计算机视觉模型都经过了一个广泛的训练阶段，但只在训练集上。一般来说，人类受试者在具有简单图形配置（如中心）的问题上产生更好的测试准确性，而人类表现在具有更多对象的问题实例上合理地降低了测试准确性，如5323表2.测试每个模型对人类受试者和求解器的准确性Acc表示每个模型的平均准确度，而其他列显示不同图形配置的模型准确度。L-R表示Left-Right，U-D表示Up-Down，O-IC表示Out-InCenter，O-IG表示Out-InGrid。请注意，完美求解程序可以访问象征性问题表征方法ACC中心2x2Grid3x3GridL-Ru-DO-ICO-IGLSTM13.07%百分之十三点一九14.13%13.69%百分之十二点八四百分之十二点三五百分之十二点一五百分之十二点九九Wren14.69%百分之十三点零九28.62%百分之二十八点二七7.49%6.34%8.38%百分之十点五六CNN36.97%33.58%30.30%33.53%39.43%41.26%43.20%37.54%ResNet53.43%52.82%41.86%44.29%58.77%60.16%63.19%53.12%LSTM+DRT百分之十三点九六14.29%15.08%百分之十四点零九百分之十三点七九百分之十三点二四百分之十三点九九13.29%WReN+DRT15.02%15.38%23.26%29.51%6.99%8.43%8.93%百分之十二点三五CNN+DRT39.42%37.30%30.06%34.57%45.49%45.54%45.93%37.54%ResNet+DRT59.56%58.08%46.53%50.40%65.82%67.11%69.09%60.11%人类84.41%百分之九十五点四五81.82%79.55%86.36%81.81%86.36%81.81%解算器百分百百分百百分百百分百百分百百分百百分百百分百2x2Grid和3x3Grid。两个有趣的观察：1. 对于具有多个组件的图形配置，尽管在Left-Right、Up-Down和Out-InCenter中的每个组件都只有一个对象，使得推理类似于Center，除了两个组件是独立的之外，人类受试者在选择正确答案时变得不那么准确。2. 即使上-下可以被看作是左-右的简单转换，也存在一些显著的差异。认知中的“倒置效应”也隐含着这种效应;例如，倒置扰乱了面部感知，特别是对空间关系的敏感性[8，29]。在模型性能方面，一个反直觉的结果是：计算机视觉系统在人类受试者的看似最简单的图形配置中没有在所有其他配置中实现最佳精度（中）。我们进一步认识到，LSTM模型和WReN模型的性能仅略好于随机猜测（12.5%）。这种与[3]相反的结果可能归因于RAVEN中的不同图形配置。与LSTM不同，其在不同配置中的准确性或多或少是一致的，WReN在由多个随机分布的对象（2x2Grid和3x3Grid）组成的配置中实现了更高的准确性，而在由独立图像组件组成的配置中，性能会大幅下降这表明WReN偏向于网格状配置（大多数PGM），而不是其他需要成分推理的配置（如RAVEN）。相比之下，使用MLP的简单CNN模型使RAVEN上的WReN性能翻了一番，如果主干是ResNet-18，则性能翻了三倍。我们观察到一个一致的性能改善后，将DRT不同的模型，建议- ING在这个视觉推理问题的结构信息的有效性。虽然LSTM和WReN的性能提升微不足道，但我们注意到基于CNN和ResNet的模型的准确性显著提高（分别相对提高6.63%和16.58%怎么-然而，人工视觉系统和人类之间的性能差距仍然很大（在2x2Grid中高达37%），需要进一步的研究来弥合这一差距。6.4. 辅助训练Barrett等人[3]提到，训练WReN，微调的辅助任务可以进一步使模型的性能提高10%。我们还测试了辅助训练对RAVEN的影响。首先，我们测试了辅助任务对WReN和我们的最佳性能模型ResNet+DRT上的规则和属性进行分类的效果。该设置类似于[3]，其中我们对一组多热向量执行OR操作，这些向量然后，模型的任务是正确地找到答案，并使用其管理属性对规则集进行分类。最后的损失变成了Ltotal=Ltarget+βLrule，（4）其中Ltarget表示答案的交叉熵损失，Lrule表示规则集的多标签分类损失，β表示平衡因子。我们没有观察到WReN上的变化，但ResNet+DRT上的性能严重下降（从59.56%降至20.71%）。由于RAVEN带有结构注释，我们进一步询问添加结构预测损失是否有助于模型提高性能。为此，我们在类似的设置中进行了实验，我们设计了一个多热向量来描述每个问题实例的结构，并训练模型以最小化Ltotal=Ltarget+αLstruct，（5）5324其中Lstruct表示问题结构的多标签分类损失，α表示平衡因子。在这在实验中，我们观察到ResNet+DRT的性能略有下降（从59.56%下降到56.86%）。对WReN也有类似的影响（从14.69%到12.58%）。53256.5. 泛化测试我们想问的一个有趣的问题是，在一个图形配置上训练良好的模型如何在另一个类似的图形配置上执行这可能是对模型的泛化能力和组合推理能力的一种衡量幸运的是，RAVEN自然为我们提供了一个测试平台。为此，我们首先确定几个相关的配置机制：• 在中心上训练，并在左-右、上-下和外-内中心上测试。这种设置直接挑战模型的组合推理能力，因为它要求模型将在单组件配置中学习的规则推广到具有多个独立但相似组件的配置。• 在左-右上训练，在上-下上测试，反之亦然。注意，对于左-右和上-下，可以被看作是另一个的转置。因此，该测试可以测量模型是否简单地记住了一种配置中的模式。• 在2x2Grid上训练，在3x3Grid上测试，反之亦然。这两种配置都涉及多对象交互，选项。因此，该测试可以测量对象数量变化时的以下结果都是使用最佳性能模型报告的，即，ResNet+DRT。表3.泛化测试。该模型在Center上进行训练，并在其他三种配置上进行测试。居中左-右上下外-内居中51.87% 40.03% 35.46% 38.84%表4.泛化测试。行显示模型在其上训练的配置，列显示模型在其上测试的配置。左右上下左右41.07%38.10%上下39.48%43.60%表5.泛化测试。行显示模型测试所依据的配置，列显示模型测试所依据的配置。2x2Grid3x3Grid2x2Grid百分之四十点九三38.69%3x3Grid39.14%43.72%表3、4和5显示了我们的模型推广测试的结果我们观察到：• 专用于单个图形配置的模型并不比在所有图形配置上训练的模型实现更好的测试精度配置在一起。这种效应证明了RAVEN多样性的重要性，表明增加图形配置的数量实际上可以改善模型性能。• 表3还表明，模型中存在一定程度的组合推理，尽管很弱，另外三种配置可以被看作是中心的多组件组成。• 在表4中，我们观察到在测试准确度方面没有重大差异。这表明该模型可以成功-当一种配置是另一种配置的转置时，将在场景中学到的知识完全转移到非常相似的对应方。• 从表5中，我们注意到，3x 3Grid可以推广到2x2 Grid，只有mi-也不与专用于2x2Grid的那个不同。这可能是因为在3x3Grid配置中，可能存在对象分布与2x2Grid类似的实例，但反之亦然。7. 结论我们提出了一个新的数据集的关系和类比的视觉推理的背景下，乌鸦的Progressive矩阵（RPM），称为RAVEN。与以前的工作不同，我们采用了一个系统的和结构化的工具，即，贡献的随机图像语法（A-SIG），以生成数据集，使得每个问题实例都带有丰富的注释。该工具还使RAVEN多样化并易于扩展。一个区别于其他作品的特点我们还招募了高质量的人类受试者，在RAVEN数据集上对人类表现进行基准测试。这些方面填补了以前作品中两个重要的缺失点。我们进一步提出了一种新的神经模块称为动态残差树（DRT），利用每个问题的结构注释。大量的实验表明，与DRT增强模型享有一致的性能改善，表明使用结构信息在解决RPM的有效性。然而，机器算法和人类之间的差异显然在于显著的性能差距，即使在机器经历密集训练而人类没有的我们也意识到辅助任务对RAVEN的性能没有帮助泛化测试表明了数据集多样性的重要性，也表明目前的计算机视觉方法确实具有一定的推理能力，但较弱。整个工作仍然给我们留下了许多谜团。人类似乎应用自上而下和自下而上的方法在解决RPM的组合。我们如何将其纳入模型？什么是正确的视觉推理方式是模特试装吗？深度学习是视觉推理的终极方式吗？如果没有，我们如何修改模型？如果是，我们如何改进模型？最后，我们希望这些悬而未决的问题将呼吁关注这一具有挑战性的问题。鸣谢：作者感谢迟宇新教授和陈光诚教授。吴应念教授及吴应念教授。卢宏静在加州大学洛杉矶分校统计系进行了有益的讨论。本文报告的工作得到了DARPA XAI资助N66001-17的支持2-4029，ONR MURI授权N 00014 -16-1-2007，ARO授权W 911 NF-18-1-0296和NVIDIA GPU捐赠。5326引用[1] S. Aditya，Y. Yang和C.巴拉用于视觉问题回答的端到端神经架构上的显式推理。AAAI人工智能会议（AAAI），2018年。3[2] S. Antol，A.Agrawal，J.卢，M.米切尔，D。巴特拉C. Lawrence Zitnick和D.帕里克Vqa：可视化问答。在国际计算机视觉会议（ICCV）中，第24251[3] D. Barrett，F. Hill，A. Santoro，A. Morcos和T. 小家伙。神经网络中抽象推理的度量. 在国际机器学习会议（ICML）的会议记录中，第511-520页二三四五六七[4] Y. Bisk，K.施振荣，Y. Choi和D.马库斯在丰富的三维块世界中学习可解释的空间操作。AAAI人工智能会议（AAAI），2018年。3[5] F. W. Campbell和J.罗布森傅立叶分析在光栅可见度中的应用生理学杂志，197（3）：551-566，1968。1[6] Q. Cao，X.梁湾，澳-地Li，G.Li和L.是林书基于一般依赖树的可视化在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。3[7] P. A.卡彭特M. A.只是，和P。壳一种智力测验测量的是什么：瑞文渐进矩阵测验处理的理论说明Psychological Review，97（3）：404，1990. 一、二、三、四、五[8] K. Crookes和E.麦肯人脸识别的早期成熟：儿童时期没有整体加工、新面孔编码或面孔空间的发展。认知，111（2）：219-247，2009。7[9] R. E Snow，P.Kyllonen和B.马歇尔克能力和学习相关性的拓扑图人类智力心理学的进展，第47-103页，1984年。2[10] T.埃文斯. 解几何类比问题的启发式程序。1962年麻省理工学院博士论文。2[11] T. G.埃文斯.解几何类比问题的一个启发式程序.1964年4月21日至23日，春季联合计算机会议，1964年。2[12] K. S. Fu. 模式识别中的句法方法，第112卷。爱思唯尔，1974年。2[13] C.- e.郭树清C. Zhu和Y. N.吴原始草图：结构与质感的完美结合。计算机视觉与图像理解（CVIU），106（1）：5-19，2007。1[14] K.他，X。Zhang，S. Ren和J. Sun. 用于图像识别的深度残差学习。InProceedings of2016 年 IEEE 计算机视觉与模式识别会议（CVPR）6[15] S. Hochreiter和J.施密特胡博长短期记忆。神经计算，1997年。5[16] K. J. Holyoak，K. J. Holyoak和P.萨加德精神飞跃：创造性思维中的类比。麻省理工学院出版社，1996年。1[17] D. Hoshen和M.沃曼神经网络的智商arXiv预印本arXiv：1710.01692，2017。三、六[18] R. Hu，J. Andreas，M. Rohrbach，T. Darrell和K.萨恩科学习推理：用于可视问答的端到端模块网络。在2017年国际计算机视觉会议（ICCV）上。3[19] D. A. Hudson和C. D.曼宁用于机器推理的组合注意力网络。 arXiv 预印本 arXiv ： 1803.03067 ，2018。3[20] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。在国际机器学习会议（ICML）上，2015年。6[21] S. M. Jaeggi，M.布希库尔J. Jonides和W. J·佩里格通过工作记忆训练提高流体智力。Proceedings ofthe National Academy of Sciences，105（19）：6829-6833，2008. 2[22] J. Johnson，B.哈里哈兰湖范德马滕湖Fei-Fei，C.L. Zitnick和R.娘娘腔。Clevr：A diagnostic datasetforcompositelanguageandelementaryvisualreasoning.（英语：Clevr：A diagnostic dataset forcompositelanguageandelementaryvisualreasoning）在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，2017年。一、二、三[23] J. Johnson，B.哈里哈兰湖van der Maaten，J.霍夫曼湖。Fei-Fei，C. L. Zitnick和R. B.娘娘腔。推理和执行程序进行视觉推理。在2017年国际计算机视觉会议（ICCV）上。3[24] G. Kanizsa和G.卡尼萨愿景中的组织：完形知觉论文集，第49卷。Praeger纽约，1979年。1[25] D. P. Kingma和J.BA. Adam：一种随机优化方法2014年国际学习表征会议（ICLR）。6[26] T. N. Kipf和M。威林图卷积网络的半监督分类。arXiv预印本arXiv：1609.02907，2016。2[27] A.克里热夫斯基岛Sutskever和G. E.辛顿使用深度卷积神经网络的Im

下载后可阅读完整内容，剩余1页未读，立即下载