视觉推理：捕捉图像中对象之间的相互作用

31 浏览量更新于2023-10-17 收藏 857KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1930这不是关于旅程，关于目的地：视觉推理中的软路径跟踪Monica Haurilet Alina Roitberg Rainer Stiefeldinger KarlsruheInstitute of Technology，76131 Karlsruhe，Germany{haurilet，alina.roitberg，rainer. stiefeldom}@ kit.edu摘要视觉推理仍然是一项具有挑战性的任务，因为它必须处理场景中的长距离和多步骤对象关系。我们提出了一个新的模型视觉推理，旨在捕捉作为场景图表示的图像中的各个对象之间的相互作用。由于不是所有的图形组件都与查询相关，我们引入了基于问题的视觉指导的概念，通过学习最佳遍历方案来约束潜在的解决方案空间。最终的目的地节点单独用于产生答案。我们发现，通过引入一个新的知识转移问题，找到相关的语义结构有助于推广到新的任务：在一个问题类型上进行训练，并在没有任何训练数据的情况下回答来自不同领域的问题此外，我们在多种查询类型和不同的图像和视频数据集上实现了最先进的视觉推理结果。1. 介绍解释和回答关于复杂和嘈杂环境的语义关系的后续问题是我们认知的一个关键特征。与深度学习在核心视觉任务中的兴起有关的非凡进展[36，23，9，26]（例如，对象识别）为更高层次视觉推理的新研究方向奠定了坚实的基础。超越了传统的认识，视觉推理[37，48]决定了必要的未来行动[16]，这对人工智能应用至关重要。我们世界的组成结构使得这项任务特别困难，因为仅仅在较低的层次上构建单个构建块是不够的。这种模型需要对场景中存在的实体及其相互作用进行精确的关系推理视觉推理任务通常以视觉问题推理（VQA）的形式提出[37，48，16]，它位于视觉和语言的交叉点，并试图图1：视觉推理示例，其中对象相互作用对于正确答案至关重要，并概述了我们基于图神经网络的方法。视觉引导学习在场景图上给出依赖于问题的方向。然后，最终答案仅从到达的目的节点的嵌入中产生。回答关于现场的具体问题。语言查询和视觉场景实体（图1）之间的复杂语义关联是这项任务的特征尽管回答开放式问题所需的视觉信息具有非常结构化的性质，但大多数以前的工作都集中在从预训练的CNN中获得的空间特征图上，并进一步结合了对图像部分的注意力机制。年龄[47，50，39]。虽然预先训练的CNN提供了出色的对象嵌入，但它们在大规模交互的关系推理方面面临问题。在图像中建模这种多步关联的一种很好的方法是场景图[46]，其中节点表示对象，连接边指定它们的关系嵌入。我们注意到，尽管对象之间的关系对于完整的场景理解是必不可少的，但只有一部分图与回答特定问题相关。因此，我们通过依赖于问题的视觉指南，以选择性的方式利用视觉图。本文旨在将基于图的推理与特定问题的视觉引导相结合，以识别具有相关信息流的路径，并提出一种新的视觉引导场景图目的地旅行者D问题绿色物体右边的棕色小物体后面的球体是什么材料？S视觉引导回答…预测模块金属橡胶1931推理给定一个图像-问题对，我们首先使用视觉指导来创建特定于问题的方向，以便在图中遵循。接下来，图旅行者遍历由这些方向引导的视觉图，并计算作为最终目的地的节点上的最后，我们只从预期的目标节点计算我们的答案预测，作为我们预测模块的视觉表示。传统的VQA图模型遵循图细化范式（即图细化）。所有组件的精细嵌入用于预测），我们保持原始节点表示，识别关键路径并仅从预期的最终目的地节点回答问题，因此：这与旅程无关关键是目的地。我们在三个知名的数据集上展示了我们的模型在不同视觉推理任务中的有效性：视频数据问答（COG[48]），3D合成图像的合成推理（CLEVR [15]）以及图表问答，从教科书中提取的现实生活中的图形（AI2D [17]），这在训练数据较少的情况下噪音更大。我们的模型在AI2D和COG基准测试中的表现持续优于以前的方法，并在CLEVR数据集上表现出强劲的性能。由于我们的模型对场景图内部的语义结构进行操作，因此它具有两个有益的特性：对新任务的可解释性和概括性。一项消融研究表明，我们可以很容易地揭示我们的模型通过遵循最终的软路径来产生答案的内部选择。为了评估泛化能力，我们提出了一个新的任务，知识转移的VQA，通过分裂的训练和测试集的基础上的问题类型（例如。用于训练的查询属性问题和用于测试的计数通过对一种问题进行训练获得的知识，我们的模型能够得出查询的答案，这是它以前从未见过的。2. 相关工作图神经网络。目前的模型通常是通过局部邻域中的卷积运算形成的，并且仅通过大的感受野来解决长程依赖性。丰富的场景结构可以通过图形以更有效的方式进行定位，这些图形已被广泛应用于语言[24]，社交[21，38，49]，知识表示[3，29，42]和化学[33]。这是通过直接从CNN特征图生成图形[25，18，46]或通过将现有的图形表示与先前获取的知识库[45，4]相结合来实现的。我们区分三组知识库引导算法：方法使用图形细化通过网络或者为了更好的节点表示[20，43，5，41]，或者为了细化边[40，37]，以及图遍历方法[45，4]。第一组为节点本身及其邻域（例如，通过递归神经网络（RNN）[41]）。相反，第二组组合的边缘，例如。[37]或者是加权组合[20]。不幸的是，一个图像的图形表示已经被强烈修改，例如.通过RNN失去了人眼的可理解性。我们提出的方法属于第三类，因为在开始时构建的图形表示这些问题随后通过探索图的各种路径来回答，而无需任何进一步的特征细化（例如，取决于问题）。这个决定完全基于目的节点嵌入，我们的模型为什么偏爱一个答案而不是另一个答案的原因可以通过找到的图形轨迹很容易地理解。在这项工作中，我们介绍了一个模型的基础上，图遍历计划的视觉推理。特别相关的是最近的作品熊等。[45] Goet al.[4]在基于语言的问答领域。作者将基于文本的知识表示为图形，并使用REINFORCE [44]范式进行训练，以便遍历它。然而，这些过程受到离散查询路径的约束。相比之下，我们的模型是在视觉实体上训练的，并且遵循软路径，因为我们在每一步中都获得了对节点的连续置信度（即，与先前工作中加权0或1视觉问答（VQA）。VQA在过去几年中迅速流行[1，52，22，10]，主要通过使用预训练的CNN和后续的问题相关注意力模块提取的图像特征图来解决[50，51]。一般而言，解决这一问题的方法可分为四类：1）全局嵌入方法[31，1，28，34，35，30]，使用全局图像表示和问题的联合嵌入来产生答案; 2）关注图像部分的模型能够提高性能[50，51，6，47];3)组合模型[2，13，16]使用神经网络的模块化表示;4）基于图的VQA模型[37，41，11，17，18]，其中图像或问题的图形表示用于产生答案。后一类最近才出现，并且通过设计非常适合于关系推理，因为对象连接是通过边显式表示的。这些方法大多遵循图细化范式。Teney等人[41]每个节点的特征都是使用通过基于与当前节点的相似性进行池化来生成RNN。在[17]中，RNN应用于边缘，随后通过基于问题的atten过滤19321 2T1而在[18]中，提出了一个端到端版本，其中边缘在模型内部学习。最后，[37，11]中的模型将图表示为使用加权平均的无序边缘集，以获得用于回答问题的固定图像表示。我们的模型属于图神经网络类别，利用对象及其关系嵌入作为场景图组件。与之前用于VQA的基于图的方法不同[41，17，18，37，11]，我们的模型不基于图细化。虽然传统方法细化所有图组件的嵌入并使用它们来计算最终答案，但我们保留原始节点表示，通过基于问题的视觉指南识别关键路径，并仅从最终目的地节点回答问题。3. 基于引导软路径的我们提出了一个新的模型，处理复合对象的关系，在场景中的视觉推理，作为一个图遍历问题。挑战在于视觉图中潜在路径的空间非常大。当被问到“绿色物体后面的棕色小东西左边的球体是什么材料？”（图1），一个人会立即寻找绿色的物体，然后，在微小的棕色球体，然后，选择它的左边的球体。同样，我们的想法是通过学习基于问题特定决策的最佳图遍历策略来极大地约束解决方案空间。从概念上讲，我们的视觉推理模型由三个主要组成部分组成：1）视觉引导，2）图旅行者和3）预测模块。视觉引导将问题作为输入并产生方向嵌入。图旅行者遵循这些方向，并计算软路径-在到包括相关信息的节点的路由中的节点上的概率分布，以产生答案。最终的决策由预测模块做出，预测模块利用所找到的目的地作为图节点的权重并推断出最终答案。我们要强调的是，预测模块只对目标节点表示进行操作，忽略了路径的前面部分。虽然视觉引导和预测模块可以被视为由图旅行者连接的单独的神经网络，但它们以端到端的训练方式联合优化。我们的模型概述如图2所示。接下来，我们给出了模型构建块的一般定义3.1. 数据结构Graph. 我们定义一个可视图G=（V，F，R），一个具有以下性质的结构：1. V-2. F∈RN×D-N个可视节点中每一个的D这些向量可以是表示对象实例或提取的要素来自一个预先训练好的CNN3. R∈RN×N×E-定义表示R的一种方法是one-hot嵌入谓词（例如， ‘on top’, ‘holding’), which can beobtained as in [ 一种更简单的方法是通过连接节点对表示F来表示每条边。路径我们称图中长度为T的Ga路径：τ=[nτ，nτ，. . . ，nτ]。我们注意到，路径的这个定义假设每个节点在每个时间步t中的离散分配。软路径。软路径不返回每个节点与路径的离散关联，而是软化其包含。形式上，对于图G中的每个时间步t和节点n，我们有一个关联得分pt（n）∈[0，1]。因为我们的目标是为概率分布建模，我们要求在图中的时间步t中的所有节点上，Σpt（n）= 1。n∈V因此，软路径由二维阵列 τ =[p1 （ V ）， p2（V），. . .，pT（V）]，其中我们使用：用途：pt：RN→[0，1]N在每个节点上逐元素。启动节点。路径τ的起始节点是第一个时间步的节点：nτ。在软路径的情况下，它由所有节点n上的概率分布定义。目的地目的地n是路径τ中在时间步T中出现的节点，而对于软路径，它等于最后一个时间步中的概率。3.2. 到达目的地我们的模型是建立在这样的假设之上的，即通过以受控的方式遍历场景图，我们能够识别19331. 引导2. 旅行者3. 预测什么形状的...小[]·P（n|n）FC1121[]FC1DDDFC321[]气缸1一维转换 Q关注对于每个t方向表示QVisual Graph[]FC···边缘代表R节点代表FP（n1）P（n2）P（nT）11RR不气缸… 立方体球体小圆柱后面物体左边的物体是什么形状？问题图像图2：提出的图神经网络架构，它学习场景图的遍历策略（简化为路径长度T=3）。虽然视觉引导、图旅行者和预测模块是单独的神经网络组件，但它们以端到端的方式联合优化。视觉指南将问题作为输入，并为旅行者提供方向嵌入。预测模块仅根据问题和目的地节点嵌入给出最终答案，因此前辈被驳回：它与具体问题相关的信息因此，我们计算节点n是目的地的概率，它等于以n为终点的所有路径的概率之和：ΣP（τ）= P（n1）·P（n2|n1）·YTt=3YTP（nt|nt−1）（四）P（nT= n）=P（τ）·1[nτ= n]。（一）τn（n2）t=3P（nt|nt−1）根据边缘化规则，路径τ的概率等于：YT因此，新的估计在于每个概率P（nt）的计算。为此，我们使用函数τt（n），它使用公式以迭代方式计算每个节点nP（τ）= P（n1，. . . ，nT）= P（n1）·t=2P（nt|nt−1，. . . ，n1）（二）τt（n）=ΣPt（n|m）·τ t−1（m）。（五）我们的方法模型的离散马尔可夫链（即。我们假设马尔可夫性质），其中状态集合等于我们的图G中的节点V。我们得到每条路径的概率为：YTP（τ）<$P（n1）·P（nt|nt−1）。（三）t=2在t=1的情况下，直接计算路径中节点的概率（即，P（n1=n））。对于t >1，我们必须考虑转移概率P（nt|nt−1）。由于可能的路径选项的数量随着路径长度呈指数增长，我们进一步refor-对于大于1的时间步长，模拟该计算。我们迭代地将路径概率转换为每个节点在每个时间步中的概率，例如：m∈N我们在时间步T停止计算，最终值成为每个节点成为目的地的概率I.E. 该节点具有与该问题相关的信息接下来，我们将展示用于获得开始概率和转移概率的模型。3.3. 神经图架构在用于VQA的传统图神经网络中，节点特征F在每个训练时间步中根据其邻居而变化，成为初始和外来对象表示的混合物（即，[17，41，37].相比之下，我们的模型保留了语义节点表示，并专注于网络拓扑，学习找到与当前问题相关的场景实体的关系（见图2）。我们可以很容易地揭示193411tt在我们的模型的选择，因为我们保留了它的节点的初始解释，并突出了它们之间的关键链接1. 视觉指南。可视化指南将静态图视为要使用问题作为参考来遍历的地图。也就是说，指南将问题作为输入，将其嵌入，例如，使用LSTM [12]或具有自注意力的一维CNN [8]，并为旅行者在图上跟随产生方向嵌入D 如果在LSTM中，我们将问题表示为最终隐藏状态，而在CNN的情况下，我们使用特征映射的加权平均值。然后，通过学习的全连接层获得时间步长t数据集类型#Imgs #Inst #QCOG视频11M 9.6 44MAI2D Diagrams 5K 9.1 15K CLEVR 3D-Synthetic 100K 6.5 700K表1：用于评估我们模型的视觉推理基准（按任务类型、图像/视频数量、每个示例的平均实例数量和问题数量关于形状、颜色等的问题。对象）的情况下，从目的地节点确定解决方案，即，时间步长T处的软路径概率τ（n）为：Σt t tt t tt t t t t Ters：D=WD·H+bD，其中WD∈R|D|×|H|与g=τ（n）·Fn，（10）方向嵌入的大小|Dt|根据经验选择。2. 图表旅行者。图旅行者基于向导建议的方向遍历可视图。因此，它产生先验概率（即，每个节点是第一个被访问的节点的置信度）并计算转移概率（即，遍历一个节点到下一个节点的置信度）。对于路径的第一节点，我们通过在来自视觉图的节点表示F和由指南给出的第一方向D1的顶部上训练全连接层来获得置信度：1Pθ（n1）=softmax（Wp·[D，F]+bp），（6）其中θ是模型中所有可学习参数的集合，softmax函数在节点上进行归一化：Σsoftmax（X）i=exp（xi）/exp（xj）.（七）j∈V在转移概率的情况下，我们使用每对节点之间的边缘特征RPθ（nt|nt−1）=softmaxsurce（Wp·[Dt，R]+bp）.（八）这里，softmax操作对行进行归一化，例如输出之和等于1：ΣPθ（n|m）= 1。（九）n∈V在最后一个时间步T中，图旅行者计算节点是最终目的地的概率τT（n）（如等式5中所引入的）。3. 预测模块。预测模块在问题类型之间进行分类，并利用目标上的概率分布生成答案（参见图2中的步骤3）。如属查询性质的问题（即n∈V其中Fn是矩阵F的第n行（即，V中每个节点的特征表示）。我们将这个视觉全局表示gH与问题嵌入Q连接起来。然后，使用全连接层来产生对所有可能答案的最终预测。对于存在性问题，如果任何目的地的概率大于0，则我们回答“是”。五、在任务计数中，我们估计四舍五入为1的目的地的数量对于最终软路径概率之和可能大于1的任务，因为可以应用多个目的地（例如，计数或存在），我们使用 sig-moid 函数代替softmax进行边缘归一化。型号配置。我们通过使用Adam [ 19 ]最小化交叉熵来训练网络端到端，初始学习率为0。00025没有任何权重或学习速率衰减。我们根据验证数据经验地选择最大路径长度T基于问题的指南使用具有32个隐藏单元的多个1D卷积层，而图旅行者的最终全连接层的大小为128（我们在补充材料中包括参数的详细描述）。4. 评价我们对具有不同查询类型的三个可视化推理数据集进行了全面的研究（表1中的概述）。所有数据集都涵盖了可视化示例、具有地面实况解决方案的任务查询（开放式或多项选择形式）以及场景图的注释。在第4.1节中，我们评估了我们的模型在视频序列，然后，在图问题回答的任务（第4.2节）和3D合成图像上的高度合成推理问题（第4.3节）。我们进一步讨论了不同的路径长度T如何影响性能（第4.4节），评估我们的模型如何推广到以前看不见的任务（第4.5节），最后，可视化软路径的具体例子（第4.6节）。1935方法所有4.1. 视频上的视觉推理数据集。在本节中，我们使用COG [48]数据集作为空间和时间推理的测试平台。该数据集包含超过1100万个视频问题。虽然视频是合成的2D场景，但它专门针对时间记忆和关于视频输入的逻辑演绎推理，这对人类来说很难[48]。任务是在考虑三种不同查询类型中场景的帐户变化的同时推导出正确答案：指向、是/否、条件和属性相关问题。更高数量的场景实体也是数据集的特征。结果我们在表2中展示了我们模型的有效性。除了原始的工作记忆[48]方法，我们将我们的模型与三条基线进行比较：1）随机性能，2）由问题词上的1D CNN和全连接层组成的仅问题模型，以及3）基于图的方法，其中不是从找到的路径的目的地节点计算答案，而是使用问题和图中所有节点的联合嵌入作为输入，并使用全连接层进行预测。方法Atts.康迪特点是/否所有基线随机1.98.417.550.026.6仅限提问1.62.319.449.727.4记忆网络工作[48]第四十八话––––93.7基于图的方法问题+节点73.763.592.557.963.3我们99.298.4100.095.097.2表2：不同任务的COG测试集上视频的视觉推理结果：指向、存在、条件问题和关于对象属性的问题。†从50个经过训练的网络中选出的最佳模型我们的模型在所有查询类型中产生最佳识别率。与基于自然语言的基准的区别变得明显，因为仅提问的方法超过随机基线不到1%。因此，视觉推理对于这个基准是决定性的是/否问题是我们模型不可靠的主要原因我们对这些混淆的分析表明，在问题中的“和”连接的情况下，有时会出现困难最后一个洋红色物体的形状等于最后一个淡紫色物体的形状，现在薄荷色物体的形状等于最后一个橄榄色物体的形状？'）.尽管如此，我们的模型实现了出色的性能为100%的问题，并建立了新的国家的最先进的整体准确率为97。百分之二。4.2. 图表问题分类数据集。接下来，我们评估我们的方法对现实生活中的图像在图理解任务。AI2D [17]数据集包含从各个学科的学校教科书中提取的图像由于中学生需要从这些图表中学习，推理并回答有关它们的问题，因此该数据集代表了视觉推理的优秀现实测试平台。当我们处理真实数据时，AI2D比我们用于测试的其他数据集更小，噪音更大，总共有666节课，总共有5K个图表和15K个问题。基线随机25.00经典VQA方法VQA [1]32.90图神经网络[17]第十七话38.47[18]第十八话39.73[18]第十八话41.55我们43.45表3：从教科书中提取的真实图像上的图表问题分类结果（AI2D数据集）[17]结果在表3中，我们将我们的模型与许多已发表的方法进行了比较，包括三种基于图的方法。由于AI2D以多项选择形式进行评估，有四个可能的选项，随机选择性能为25%。总的来说，使用结构化方法有明显的好处。我们的基于图遍历的模型始终优于最先进的图神经网络，因此证实了专注于遍历方案和发现的目的节点的有效性，而不是消息传递范式。4.3. 三维合成图像数据集。组合语言和基本视觉推理数据集（CLEVR）[15]是一种广泛使用的诊断基准，用于不同任务的3D场景的组合理解，例如计数，基于对象与其他事物的关系找到对象的属性以及对象属性之间的比较。长的推理链，要求记忆相关的任务和缺乏基于问题的偏见是这个基准的特点尽管它由合成场景组成，但传统VQA模型在CLEVR上通常面临重大困难，因为它们往往关注数据集偏差[16，37，7]。193610095908580757010090807060501 2 3 4路径长度ts.Atts.在比较时查询尼泊尔卢比计数存在补偿整体1 2 3 4路径长度查询属性存在计数查询属性存在计数查询属性存在计数培训内容：计数（来源）我们随机培训主题：存在（来源）培训内容：查询属性（源代码）100 50 0 50准确度%图3：不同最大路径长度T的性能在COG（顶部）和CLEVR（底部）的验证集上。结果我们报告了CLEVR基准测试的所有五种问题类型的结果：计数、存在、查询属性以及关于比较对象的数量和属性的问题。最近已经提出了大量的新方法来处理CLEVR推理任务，我们根据它们处理对象关系的方式进行分组，并与表4中的模型进行比较。方法参考计数存在Comp.尼泊尔卢比查询属性Comp.阿特。所有人类[16]–86.796.686.595.096.092.6Qtype [16]–34.650.251.036.051.341.8经典VQA方法LSTM [16]–41.761.169.836.851.846.8美国有线电视新闻网[16]–43.765.267.149.353.052.3美国有线电视新闻网[37]ECCV'1664.482.777.482.675.476.6QGHC [7]ECCV'1891.278.179.289.786.886.3电影[32]AAAI'1894.399.196.899.199.197.7组合模型[13]第十三话ICCV'1768.585.784.990.088.783.7PG（9K）*[16]ICCV'1779.789.779.192.696.088.6PG（700K）*[6]ICCV'1792.797.198.798.198.996.9记忆网络工作记忆[48个]ECCV'1891.799.095.598.598.896.8[14]第十四话ICLR'1897.199.396.899.199.198.9图神经网络美国有线电视新闻网（CNN）NIPS'1790.197.893.697.997.195.5我们–91.398.699.699.599.897.5表4：CLEVR测试集上不同任务的视觉推理结果[15]。（*）表示使用程序标签形式的额外监督，*表示使用数据增强，*表示使用预训练模型。我们在三个任务（比较数字和两个属性相关问题）上达到了99%以上的最新准确率，并报告了强大的整体性能（97。5%），超过人类（92。6%）和最近基于边缘表示和的基于图的方法[37]（95. 5%）。图4：泛化到看不见的任务：我们的模型在一个查询类型上训练，在不同的任务上评估。4.4. 路径长度对性能的影响由于我们明确关注场景中的关系，因此我们比较了模型的变体，以测量长度T处软路径的不同限制的效果。图3显示了不同COG和CLEVR任务的精度变化与T的关系。该模型的好处极大地考虑路径的长度为2或更多，例如。对于查询属性任务，正确答案的百分比从53上升。1%（T=1）至98。1%（T=2），进一步提高到99。8%（T=3），证实了场景中因果联系的重要性。从CLEVR的T=4和COG的T=3开始，我们观察到整体性能略有下降，这与数据集中链式问题的扩展有关。例如，在一个问题中，“绿色物体右边的棕色小东西后面的球体是什么材料？”'（图1）推理链由两个成对的关系组成。一般来说，强制执行比问题所需的更长的路径在我们的架构中不是然而，包括比所需更多的节点的选项可能导致更高水平的噪声，因为整体搜索空间变得更大。这种轻微的准确性下降应该是有原因的，因为它也与数据集中问题的性质有关，即。预计随着问题中提到的实体数量的增加，这一数字将增加。尽管如此，当进一步增加路径长度到更高的路径长度时，性能稳定，例如，对于COG，模型达到95.T=8时为6%。4.5. 在看不见的任务上的表现人类有一种令人印象深刻的能力，通过从复杂问题中转移解决方案来解决难度越来越大的新任务。同样，我们关注场景结构的动机是开发一个模型，点是/否es上条件属性整体精度精度评价问题类型（目标）1937通过将它们分解为粒度任务，然后可以很容易地重用这些任务来回答我们的模型以前从未见过的问题。为了评估我们的假设，我们提出了一个新的视觉推理基准，在训练过程中没有预先看到的问题。我们从CLEVR数据集中考虑三个任务：查询属性、存在和对象计数。在我们提出的评估设置中，模型在其中一个任务上进行训练，并旨在解决另一个任务。考虑存在任务，如果我们输出SD有一个绿色的金属物体，在金属块左侧的东西后面;什么形状？答案：球体的地幔内芯D外芯地壳地幔和地核之间是什么？答案：外核在最后一个时间步T中，存在至少一个概率大于0的目的地节点。5（见第3.3节）。由于节点表示在整个过程中没有被细化，我们可以将我们的模型扩展到计数，而无需额外的训练，只需使用计数预测模块版本，I.E.将激活超过0的目的地的数量相加。5，如第3.3节所述。对于查询属性任务，我们选择具有最大激活的节点。我们在图4中报告了我们的模型在以前看不见的任务上的性能。我们的方法成功地将从计数或存在中获得的知识应用于以前看不见的查询类型。这两个任务特别可重用，因为它们涉及一个通用的粒度问题：场景中是否存在物体。在学习基于属性的问题的情况下，我们认为目的地总是可用的（因为我们询问节点的特定属性，而不是它们的存在）。因此，学习信息的可重用性较低。对计数查询的训练被证明是解决新问题的最我们假设，这是由于计数是一个更复杂的任务，因为它涵盖了两个，检查对象的存在和确定，对象是否具有某些属性（例如，和金属物体一样大小的棕色球有多少个？'）.我们在计数任务上训练的模型能够在56.4%的时间内解决查询属性问题，超过随机机会（30.6%）25.8%。显然，解决以前看不见的任务是每个设计比传统的监督视觉推理更难的问题，识别率相当低。除了缺乏监督外，培训期间不存在的语言表达也构成了额外的挑战（例如，‘how many’ if the model was trained on the尽管如此，我们的模型始终优于随机机会基线，能够解决新任务，而无需昂贵的训练示例注释。4.6. 定性结果我们的模型的一个重要属性是能够追溯最终答案背后的潜在推理。在图5中，我们在CLEVR和AI2D基准测试的两个示例上重新审视了我们模型的最终软路径我们看到-图5：最终软路径的可视化示例。或-范围圆标记每个时间步长t处的最高激活。在每个时间步长t处使节点具有最大概率：例如，在左图中，起始节点“S”指向紫色立方体。属于路径的边用红色箭头标记，从源节点“S”开始在CLEVR（左）的情况下，我们有一个很长的强压缩问题，我们在上面产生一条长度为3的路径：从立方体到小球体，直到我们最终到达目的地：在图像的右侧的大球体（见supp.材料）。在AI2D教科书图表问题（右）的情况下，我们的模型通过从地幔开始，然后选择目的地和正确答案，用长度为2的软路径解决了查询“地幔和内核之间是什么”：“外核”。5. 结论我们提出了一种新的组合视觉推理方法，其中我们采用图神经网络架构来处理场景中的深远关系我们的框架学习如何以受控的方式遍历图，然后根据找到的路径的到达目的节点回答问题。我们的模型在两个具有挑战性的可视化推理数据集上超过了最先进的方法：在视频（COG）和图表提问（AI2D）上，以及在3D合成数据（CLEVR）上的三个任务中。与此同时，我们的模型是高度可解释的，因为图迹直接揭示了底层的推理，表明我们的模型将复杂的指令分解为较小的任务。此外，我们还证明了关注相关语义结构对重新使用新任务所获得的知识的能力在这个新的基准设置中，我们的模型是在特定的问题类型（例如，存在）并且可以成功地处理不同种类的任务（例如，（没有任何进一步的训练。我们的实验表明，现代视觉识别方法可以进一步受益于结构化方法，特别是在高层次的理解全球因果关系。1938引用[1] A. Agrawal，J.Lu，S.安托尔湾米切尔角，澳-地L. 齐特尼克D. Parikh和D.巴特拉 Vqa：可视化问答。International Journal of Computer Vision，2017。[2] J. Andreas，M. Rohrbach，T. Darrell和D.克莱恩用神经模块网络回答深度组合问题. 2016年在IEEE计算机视觉和模式识别会议上发表[3] G.布沙尔，S。Singh和T.特鲁永论低秩向量空间的近似推理能力。 AAAI春季知识表示与推理研讨会（KRR）：集成符号和神经方法，2015年。[4] R.达斯，S。杜利亚瓦拉河扎希尔湖，澳-地维尔尼斯岛杜鲁卡，A.克里希纳穆尔蒂，A. Smola和A.麦卡勒姆去散步，得出答案：使用强化学习对知识库中的路径进行推理。2017年学习表征国际会议[5] K.做吧T特兰，T. Nguyen和S.文卡特什图上的注意多标签学习 - 一种讯息传递方法。 arXiv 预印本 arXiv ：1804.00293，2018。[6] A. 福井 D. H. 帕克 D 。 Yang ，杨树 A. Rohrbach ， T.Darrell和M.罗尔巴赫多模态紧凑双线性池化视觉问答和视觉接地。Confer-ence on Empirical Methods in NaturalLanguage Processing，2016。[7] P. Gao，P. Lu，H. Li，S. Li，Y. Li，S. Hoi和X.王.用于视觉问题回答的可编程引导混合卷积。IEEE计算机视觉和模式识别会议，2018年。[8] J. Gehring，M. Auli，D. Grangier和Y. N.太子神经机器翻译的卷积编码器模型 arXiv 预印本 arXiv ：1611.02344，2016。[9] R. 娘娘腔。快速 R-CNN 。在 Proceedings of the IEEEinternational conference on computer vision ，第 1440-1448页，2015中。[10] D.古拉里角Li，长穗条锈菌A. J. Stangl，A. Guo，C.Lin，K. 格劳曼J. Luo和J. P·比格姆。Vizwiz大挑战：回答盲人的视觉问题。IEEE计算机视觉与模式识别，2018年。[11] M.豪里莱特角Al-halah和R. Stiefelhagen Moqa -多模态问答模型。在视觉和语言的短期工作坊，2018年。[12] S. Hochreiter和J.施密特胡博长短期记忆。神经计算，9（8）：1735[13] R. Hu，J. Andreas，M. Rohrbach，T. Darrell和K.萨恩科学习推理：端到端模块网络，用于可视问答。2017年IEEE计算机视觉国际会议[14] D. A. Hudson和C. D.曼宁用于机器推理的组合注意力网络。2018年国际学习代表大会[15] J. 约翰逊湾哈里哈兰湖范德马滕湖Fei-Fei，C.L. Zitnick和R.娘娘腔。Clevr：一个用于组合语言和基本视觉推理的诊断数据集。在IEEE计算机视觉和模式识别会议上，1988-1997页。IEEE，2017年。[16] J. Johnson，B.哈里哈兰湖van der Maaten，J.霍夫曼L. Fei-Fei，C. L. Zitnick和R. B.娘娘腔。推理和执行程序的视觉推理。在IEEE国际计算机视觉会议上，第3008-3017页，2017年。[17] A. Kembhavi ， M. Salvato ， E. Kolve ， M. 徐， H.Hajishirzi和A.法哈迪。一张图表胜过一打图像。2016年欧洲计算机视觉会议[18] D.金，Y。Yoo，J. Kim，S. Lee和N.夸动态图形生成网络：从图中生成关系知识。2017年计算机视觉和模式识别会议[19] D. P. Kingma和J. BA. Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[20] T. N. Kipf和M。威林基于图卷积网络的半监督分类。2017年国际学习表征会议[21] S. Kok和P. Domingos。统计等同发明。第24届机器学习国际会议论文集，第433-440页。ACM，2007年。[22] R. Krishna，Y.Zhu，O.Groth，J.约翰逊，K。Hata，J.克拉维茨S. Chen，Y.卡兰蒂迪斯湖J. Li，D. A. Shamma，M.Bernstein和L.飞飞可视化基因组：使用众包密集图像注释连接语言和视觉。2016.[23] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在神经信息处理系统的进展，第1097-1105页[24] M. Kuhlmann 和 S. 欧彭语言图库目录 ComputationalLinguistics，42（4）：819-827，2016.[25] Y. Li，O.维尼亚尔斯角戴尔河Pascanu，和P.巴塔利亚学习图形的深度生成模型。 arXiv 预印本 arXiv ：1803.03324，2018。[26] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议论文集，第3431-3440页[27] C.卢河，巴西-地克里希纳，M。Bernstein和L.飞飞视觉关系检测与语言先验。在欧洲计算机视觉会议上，2016年。[28] L.妈Z。Lu和H.李使用卷积神经网络从图像学习回答问题。在人工智能促进协会，第3卷，第16页，2016年。[29] F.马赫迪索尔塔尼Biega和F. M. Suchanek Yago3：来自多语言维基百科的知识库。在创新数据系统研究会议上，2013年。[30] M. Malinowski和M.弗里茨一种基于不确定输入的多世界真实场景问答方法。神经信息处理系统的进展，第1682-1690页，2014年[31] M.马林诺夫斯基，M。Rohrbach和M.弗里茨问问你的神经元：一种深度学习的视觉问答方法。InternationalJournal of Computer Vision，2017。1939[32] E. Perez，F.Strub，H.De Vries，V. Dumoulin，andA.考维尔电影：一般条件层的视觉推理。人工智能促进协会，2017年。[33] P. 拉迪沃雅克湾T. Clark，T.R. Oron，A.M. Schnoes，T.Wit- tkop ， A. Sokolov ， K. 格莱姆角 Funk ， K.Verspoor，A. Ben- Hur，et al.计算蛋白质功能预测的大规模评估。Nature methods，10（3）：221，2013.[34] M.伦河，巴西-地Kiros，和R.泽梅尔探索图像问答的模型和数据。神经信息处理系统的进展，第2953-2961页，2015年[35] M.伦河，巴西-地Kiros，和R.泽梅尔探索图像问答的模型和数据。神经信息处理系统的进展，第2953-2961页，2015年[36]O. 鲁萨科夫斯基Deng，H.Su，J.Krause，S.萨蒂希S.妈Z。Huang，黄背天蛾A.卡帕西A.科斯拉，M。伯恩斯坦A. C. Berg和L.飞飞ImageNet大规模视觉识别挑战。International Journal of Computer Vision，115（3）：211[37] A. Santoro，D. Raposo，D. G. Barrett，M. 马林诺夫斯基R

下载后可阅读完整内容，剩余1页未读，立即下载