使用场景图-对象和关系显式推理的神经模块（XNM）

112 浏览量更新于2023-10-18 收藏 901KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

18376场景图施嘉欣1张汉旺2李娟子11清华大学2南洋理工大学shijx12@gmail.comhanwangzhang@ntu.edu.sg;网址：lijuanzi@tsinghua.edu.cn摘要我们的目标是拆除在复杂的视觉推理任务中使用的流行的黑盒神经架构，到建议的eXplainable和eXplicit神经模块（XNM），它超越了现有的神经模块网络，朝着使用场景图-对象作为节点和成对关系作为边-用于结构化知识的可解释和显式推理。XNM让我们更多地关注教机器如何“思考”，而不管它们“看起来”如何。正如我们将在论文中展示的那样，通过使用场景图作为归纳偏差，1) 我们可以以简洁和灵活的方式设计XNM，即，XNM仅由4个元类型组成，这显著地减少了10到100倍的参数数量，并且2）我们可以根据图注意力显式地跟踪推理流程。XNM非常通用，它们支持各种质量的场景图实现。例如，当图形被完美检测时，XNM在CLEVR和CLEVR CoGenT上都实现了100%的准确性，为视觉推理建立了经验性能上限;当从真实世界的图像中噪声检测到图形时，A：1A：马仍然强大，在VQAv2.0上实现了具有竞争力的67.5%的准确率，超过了流行的无图结构的物体袋注意力模型。1. 介绍AI的繁荣- 掌握游戏[22]，语音识别[1]和图像识别[8，20]中的超人技能-主要归因于连接主义的1950年代[18]。凭借大量的训练数据和强大的计算资源，深度神经网络的关键优势是端到端设计，可推广到大规格，这项工作是施嘉欣在南洋理工大学实习时完成的。图1：使用所提出的XNM对场景图进行推理的流程图，可以通过检测到的独热类标签（左）或RoI特征向量（右）表示。特征颜色与边界框颜色一致。XNM有4个元类型。红色节点或边缘表示关注的结果。最终的模块组装可以通过训练现成的序列到序列程序生成器来获得[13]。领域的trum，最大限度地减少特定领域知识工程中的人力资源。然而，在“高级”视觉语言任务中仍然可以观察到人类和机器之间的巨大差距，图1）。特别是，最近的研究表明，端到端模型很容易优化，以学习数据集的紫柱大金属场景图右边，后面前排左棕色圆筒大金属红色立方体大型橡胶AttendNodeAttendEdge转移逻辑和…或…不X神经元模块问：有多少棕色金属圆柱体的大小和紫色圆柱体一样吗问：男子骑什么开？18377神经模块网络（NMN）[3，12，10，17，9，26]通过学习按需从语言对应物组成网络，从而为端到端设计提供推理能力，这意味着逻辑组合。以“红色立方体还剩下多少个物体”为例。“例如，我们可以将推理路径编程为功能模块[17]的组合：Attend[cube]，Attend[red]，Relate[left]和Count，然后使用输入图像执行它们我们把NMN的成功归因于可解释和可解释的（称为X）语言理解。通过显式地将问题解析为可解释的模块集合，NMN有效地防止了语言到推理的捷径，这在使用隐式融合问题表示时是常见的[4，6]（例如，可以根据某些语言模式直接推断答案）。然而，视觉到推理的捷径仍然存在，作为一个障碍，对真正的X视觉推理的NMN的道路。这主要是因为视觉感知的对应物仍然依附于推理[17]，这不可避免地偏向于某些视觉模式。例如，在CLEVR CoGenT任务上，该任务提供新的对象属性来测试模型立方体在训练集中是蓝色的，但在测试集中是红色的），我们观察到现有NMN的显著性能下降[13，17]（例如，测试集中的红色立方体不能被识别为“立方体”）。此外，现有的模块设计的可重用性有限.例如，[17]中Relate模块的网络结构必须使用一系列扩张卷积来仔细设计，以实现良好的性能。因此，如何设计一个完整的X模块库存仍然是一个棘手的工程。在本文中，我们推进NMN向X视觉推理，通过使用所提出的e-Xplainable和e-X显式神经模块（XNM）推理场景图。这样就可以将“低层次”的视觉感知与模块隔离开来，从而防止语言和视觉对应者的推理捷径。如图1所示，场景图是视觉输入的知识表示，其中节点是实体（例如，cylinder，horse）和edge是实体之间的关系（例如，左，骑）。特别是，我们注意到场景图检测本身在计算机视觉中仍然是一项具有挑战性的任务[28]，因此，我们允许XNM接受具有不同检测质量的场景图。例如，图1的左手边是一个极端，当视觉场景是干净和封闭的词汇，例如，在CLEVR[12]中，我们可以拥有几乎完美的场景图，其中节点和边可以由独热类标签表示;右边显示了另一个极端，当场景混乱和开放时，实际上，我们所拥有的最好的可能只是一组对象建议。然后，节点是RoI特征，边是它们的连接。由于场景图，我们的 XNM 只有 4 个 Meta类型：1)AttendNode，查找查询到的实体，2) AttendEdge ，找到查询的关系， 3 ）Transfer，沿着attentive edges转换节点注意力，以及4）Logic，在attentive maps上执行基本的逻辑操作。所有类型都是完全的X，输出是易于跟踪和可见的纯图形注意力。此外，这些Meta模块仅特定于通用图结构，并且可高度重用以构成用于更复杂功能的不同组合模块例如，我们不需要像[17]中那样仔细设计Relate模块的内部实现细节;相反，我们只需要在 XNM 中组合 AttendEdge 和Transfer我们在两个可视化问答基准上进行了广泛的实验，并证明了使用XNM推理优于场景图的以下优点：1. 我们通过在CLEVR [12]和CLEVR-CoGent上使用地面实况场景图和程序实现了100%的准确性，揭示了XNM的性能上限，以及从“低级”感知中分离“高级”推理的好处2. 由于XNM的简洁性和高度可重用性，我们的网络需要的参数显著减少3. XNM对于不同的图形质量是灵活的，当场景图被噪声检测时，它在VQAv2.0 [64. 我们展示了定性的结果来证明我们的XNM推理是高度可解释和明确的。2. 相关工作视觉推理。它是分析视觉信息并在此基础上解决问题的过程。最具代表性的视觉推理基准是CLEVR[12]，这是一个&用于组合语言和基本视觉推理的诊断视觉问答数据集。关于CLEVR的大多数现有方法可以分为两类：1）整体方法[12，21，19，11]，将图像和问题嵌入特征空间并通过特征融合推断答案; 2）神经模块方法[3，10，13，17，9，26]，首先将问题解析为神经模块的程序集，然后在图像特征上执行模块进行视觉推理。我们的XNM属于第二种，但用场景图代替了视觉特征输入。神经模块网络它们将一个复杂的问题分解为几个子任务，这些子任务更容易回答，并且更透明地跟踪中间输出。模块是预先定义的神经网络，实现子任务的相应功能，然后作为18378通常由给定输入问题的序列到序列程序生成器动态地组合到布局中。最后执行组装的程序以进行答案预测[10，13，17]。特别地，基于期望布局的人类注释或借助于由于布局选择的不可微性的强化学习来训练程序生成器。最近，Huet al. [9]提出了StackNMN，它用软而连续的模块布局取代了硬布局，即使在没有布局注释的情况下也表现良好。我们在VQAv2.0上的XNM实验遵循他们的软程序生成器。最近，NS-VQA [26]首先建立了对象级结构化场景表示的推理，将CLEVR的准确率从之前的99.1% [17]提高到几乎完美的99.8%。它们的场景结构由具有检测到的标签的对象组成，但缺乏对象之间的关系，这限制了其在真实世界数据集（如VQAv2.0）上的应用[6]。在这篇文章中，我们提出了一个更通用的框架视觉推理场景图，包括对象节点和关系边表示的标签或视觉特征。我们的场景图比NS-VQA的表结构更灵活，功能更强大。场景图。这个任务是根据对象及其关系生成图像场景图已被证明有效地提高了几个视觉语言任务[14，24，27，5]。据我们所知，我们是第一个设计神经模块网络的人，可以在场景图上进行推理。然而，与对象检测相比，场景图检测远远不能令人满意 [25 ， 28 ， 16] 。为此，我们的场景图implementation也支持混乱和开放的词汇在现实世界的场景图检测，其中节点仅仅是ROI功能和边缘是他们的连接。3. 方法我们在场景图上构建神经模块网络，以应对视觉推理挑战。如图2所示，给定一个输入图像和一个问题，我们首先将图像解析为场景图，然后将问题解析为模块程序，然后在场景图上执行程序。在本文中，我们提出了一套通用的基本模块，可以进行推理的场景图- e-Xplainable和e-X隐式神经模块（XNM）-作为推理构建块。我们可以很容易地将这些XNM组装成特定场景下更复杂的模块此外，我们的XNM完全是基于注意力的，使所有中间推理步骤透明化。3.1. 场景图形表示我们将图像的场景图表示为（V，E），其中V={v1，···，vN}是对应于N个检测目标的图节点，Vi表示第i个目标的特征表示. E={eij|i，j=1，···，N}是对应于每个对象对之间的关系的图边，并且eij表示从对象i到对象j的关系的特征表示（注意，边是有向的）。我们的XNM是通用的场景图的不同qual- ity检测水平。本文考虑了两种极端情况。第一种是带标签的地面实况场景图，用GT表示，即使用地面实况对象作为节点，地面实况对象标签嵌入作为节点特征，地面实况关系标签嵌入作为边缘特征。在这种设置中，场景图用固定词汇的对象标签和关系标签进行注释，例如，在CLEVR数据集中定义[12]。我们将所有C个标签收集到一个字典中，并使用嵌入矩阵D∈RC×d将标签映射到d维向量。我们使用它们相应的标签嵌入的连接来表示节点和边。第二种设置是完全检测和标签不可知的，由Det表示，即使用检测到的对象作为节点，RoI视觉特征作为节点特征，以及两个节点特征的融合作为边缘特征。例如，边缘特征可以通过与两个相关的节点特征，即，eij=vi;vj.作为另一个例子，在CLEVR中，边缘只与空间关系有关-船舶，我们使用检测到的对象对的坐标之间的差异作为边缘嵌入。更多细节见第4节。我们使用GT设置来证明我们的方法的性能上限时，一个完美的场景图检测器是随着视觉识别的快速发展，并使用Det设置来证明在开放领域的实用性。3.2. X神经模块如图1所示，我们的XNM有四种元类型，并且完全基于注意力。我们用a∈[0，1]N表示节点的注意力权重向量，用ai表示第i个节点的权重.边关注权矩阵表示为W∈[0，1]N×N，其中Wij表示边从节点i到节点j。AttendNode[query]. 这个最基本和直观的操作是在给定输入查询的情况下找到相关对象（例如，找到所有[“cubes”]）。出于语义计算的目的，我们首先将查询编码为向量q。此X模块将查询向量作为输入，并通过以下函数生成节点注意力向量：a=f（V，q）.（一）f的实现是根据特定的场景图表示来设计的，只要f是可微的并且range（f）=[0，1]。AttendEdge[query]. 虽然物体注意力是一种广泛使用的机制，以更好的视觉理解，它无法捕捉对象之间的交互，18379注意[气缸]出席[立方体]出席[红色]相关[左]金属[Metal]布朗（Brown）程序问：有多少对象是正确的棕色金属圆柱体相关[右]红色立方体左边的一代和计数场景出席[立方体]出席[红色]相关[左]0+1+0=1场景Attend[cylinder] Attend[metal] Attend[brown]相关[右]和计数紫色圆柱体大金属场景图解析右边，后面前排左棕柱红立方体大金属大橡胶我图2：要回答关于图像的问题，我们需要1）将图像解析为场景图，2）将问题解析为模块程序，3）对场景图进行推理在这里，我们展示了CLEVR示例的推理细节红色的节点和边都有参与。场景是一个虚拟占位符模块，它参与所有节点。我们的XNM的所有中间步骤都是可解释和明确的。在复杂的视觉推理中很弱[29]。这个X模块的目标是找到给定输入查询的相关边（例如，找到所有的边[“左”]）。在将查询编码为q之后，我们通过以下函数计算边缘注意矩阵W =g（E，q），（2）其中g根据特定场景图表示来定义，只要g是可微的并且range（g）=[0，1]。转移利用节点注意向量a和边注意矩阵W，我们可以沿着注意关系转移节点权重以找到新的对象（例如，找到[[]的[]对象由于图结构，为了获得更新的节点注意力a'，我们只需要执行一个简单的矩阵乘法：a′= norm（Wa），（3）其中norm断言[0，1]中的值，如果任何条目超过1，则除以max- imum值。这里，Wij表示how_w_n_y个权重将从对象i流到对象j，以及is，将两个注意力作为输入，而Not模块是一元的。这些逻辑X模块的实现如下：并且（a1，a2）=min（a1，a2），Not（a）= 1−a，或者（a1，a2）= max（a1，a2）。（四）这四种XNM元类型构成了我们图推理的基础。它们在注意力图上显式执行，所有中间结果都是可解释的。此外，这些X模是完全可微的。我们可以灵活地将它们组装成复合模块，以实现更复杂的功能，这些功能仍然可以进行端到端的训练。3.3. 实施方式要在实践中应用XNM，我们需要考虑这些问题：（1）如何实现等式中的注意力函数f、g。（1）和方程（二）？（2）如何将我们的X模块组合成复合推理模块？（3）如何根据注意结果预测答案？（4）如何将输入问题解析为可执行的模块程序？a′=Nj=1 W ji a j是对象i的总接收权重。3.3.1注意力功能该模块以一种高效且完全可微的方式。逻辑逻辑运算在复杂的推理案例中是至关重要的。在XNM中，对一个或多个注意力权重执行逻辑运算我们定义了三个逻辑X模块：和，或，和不。在不失一般性的情况下，我们讨论了节点注意力向量上的所有这些逻辑模块，并且扩展到边缘注意力也是类似的。And和Or模块是二进制的，我们针对不同的场景图形设置使用不同的注意力函数。在GT设置中，由于带注释的标签大多是互斥的（例如，在标签空间上使用softmax函数计算节点注意力具体来说，给定一个查询向量q∈Rd，我们首先通过b=softmax（D·q）计算它在所有标签上的注意力分布，其中length（b）=C，bc表示第c个标签的权重。18380然后我们抓住18381节点和边注意力通过对相应的标签权重求和：colo r，M2v代表形状等），其中K是与特定场景图词汇表相关的h型参数。ai=f（V，q）i=Σc∈Cibc，Wij=g（E，q）ij=Σc∈Cijbc，（五）输出要素的计算方法为ΣK描述（a，q）=k=1ck（Mkv<$），（8）其中Ci和Cij表示节点i的（多）标签，并且边ij。在Det设置中，我们使用sigmoid函数来计算注意力权重。给定查询q∈Rd，节点和边的关注度为：其中c = Softmax（MLP（q））表示在这K个方面上的概率分布，并且c k表示第k个概率。映射矩阵可以端到端自动学习i=f（V，q）i=sigmoid.ΣMLP（vi）q，（六）表1：我们的复合模块（顶部）和输出模块（底部）.MLP（）包括七个-Wij=g（E，q）ij=sigmoid.ΣMLP（eij）q，线性和ReLU层。其中MLP将vi和eij映射到维度d。3.3.2复合推理模块我们列出了我们的复合推理模块及其实现（即，它们如何由基本X模组成）。例如，Same模块是要找到与输入对象具有相同属性值的其他对象（例如，找到具有相同[“颜色”]的其他对象）。特别地，在Same中使用的Describe是为了获得相应的属性值（例如，描述一个对象的[“颜色”]），并将在下面的部分中介绍。3.3.3功能输出模块除了上述推理模块之外，我们还需要另一种模块来将中间注意力映射到用于特征表示的隐藏嵌入h，该隐藏嵌入h被馈送到softmax层以预测最终答案，或者被馈送到一些模块以进行进一步推理。我们在表1的底部列出了输出模块.Exist和Count对节点注意力权重进行求和，以回答是 / 否和计数问题。Compare用于属性或数字比较，它将两个隐藏的特征作为输入。Describe[query]是将关注节点特征转换为描述指定属性值的嵌入（例如，什么是[为了实现Describe模块，我们首先通过以下方式获得模块输入→输出执行相交a1， a2→a′和（a1，a2）联盟a1， a2→a′或者（a1，a2）滤波器a，q →a′（a，attendNode（q））相同a，q →a′过滤器（非（a），描述（a，q））有关a，q →a′Transfer（a， AttendEdge（q））存在计数a →hΣMLP（iai）比较h1， h2→h′MLP（h1−h2）描述a，q→h当量（八）3.3.4程序生成培训对于具有地面实况程序注释的数据集（例如，CLEVR），我们直接学习LSTM序列到序列模型[23]来将单词序列转换为模块程序。然而，在大多数真实世界的数据集中没有布局注释（例如，VQAv2.0）。在这种情况下，遵循StackNMN [9]，我们使用可微分堆栈结构进行软模块选择详情请参阅他们的论文。我们从模块中提供输出功能（参见表1）到softmax层中用于答案预测。我们使用预测答案和地面真实答案之间的交叉熵损失来训练我们的XNM。4. 实验4.1. Clevr设置. CLEVR数据集[12]是一个合成诊断，v<$= ΣNi=1aivi，尼日利亚i=1ai，（7）nostic数据集，测试一系列视觉推理能力。在CLEVR中，图像被标注以地面实况对象位置和标签，并且问题被表示为由13种模块组成的功能程序。前-然后将其投影到几个- 描述不同的属性方面，例如颜色和形状-使用不同的变18382换矩阵。具体地，我们定义K个投影矩阵M1，· · ·，MK，除了CLEVR模块地图v<$分成不同的方面（例如，M1v<$代表与我们的Compare相同的实现，但不同18383表2：CLEVR数据集上神经模块网络之间的比较。顶部部分：官方测试结果;底部部分：验证集的结果（我们只能在验证集上评估我们的GT设置，因为测试集的注释不是公共的[12]）。程序选项我们的推理模块由高度可重用的X模块组成，导致参数数量非常少。使用地面实况场景图和程序，我们可以实现对各种问题的完美推理。方法程序模块数量#参数。整体计数比较数字存在查询属性比较属性人类[12]---92.686.786.496.695.096.0N2NMN [10]划痕12-69.0-----N2NMN [10]监督12-83.7-----PG+EE [13]监督3940.4M96.992.798.797.198.198.9TbD-net [17]监督39115M99.197.699.499.299.599.6StackNMN [9]划痕97.32M93.0-----StackNMN [9]监督97.32M96.5-----XNM-Det监督120.55M97.796.098.098.798.497.6[26]第二十六话监督12-99.899.799.999.999.899.8XNM-Det监督120.55M97.896.098.198.698.797.8XNM-DetGT120.55M97.996.298.198.898.797.8XNM-GT监督120.22M99.999.999.999.899.899.9XNM-GTGT120.22M100100100100100100参数CLEVR中有4个属性类别，因此我们设置映射矩阵的数量K=4。我们重用了[13，17]中训练的序列到序列程序生成器，它使用前缀顺序遍历将程序树转换为序列。注意，它们的模块与输入捆绑在一起，例如，他们将Filter[red]和Filter[green]视为两个不同的模块。这将在现实世界中造成严重的稀疏性我们使用了他们的程序生成器，但是解包模块和输入（例如，过滤器[红色]和过滤器[绿色]是具有不同输入查询的相同模块）。在GT设置中，我们对地面实况场景图进行推理。在Det设置中，我们通过检测对象并使用RoI特征作为节点嵌入以及检测到的坐标之间的差异作为边缘嵌入来构建场景图。由于CLEVR不提供对象的边界框或分割注释，因此很难直接训练对象检测器。NS-VQA [26]通过“黑客”渲染过程[ 12 ]训练了用于对象分割的MaskR-CNN [7]然而，由于我们希望在噪声较大的情况下探索X模块，因此我们选择了TbD-net [17]的训练注意力模块作为我们的对象检测器。具体地说，我们列举了对象属性的所有可能组合（例如，红色、立方体、金属、大），并试图使用他们的注意力模块（例如，交点[1]，[2]，[3]，[4]，[5]，[6]，[7]，[8]，[9]，[10]，[11]，[12]，[13]，[14]，[15]，[16]，[17]，[18]，[19]检测结果中经常出现定位不准确、节点合并错误（将属性值相同的两个待检测对象识别为一个）等错误。这些检测噪声允许我们测试我们的XNM是否足够强大。目标. 我们希望根据CLEVR实验回答以下问题：问题1：当视觉和语言感知都完美时，我们的X推理的上限是多少？Q2：我们的XNM对于检测到的场景图和解析的程序是否健壮？Q3：XNM的参数和数据效率，以及收敛速度如何Q4：XNM的可解释性如何？结果实验结果列于表2中。A1：当使用地面实况场景图和程序时，我们可以达到100%的准确率，这表明视觉推理的上限很高。通过将“高级”推理从“低级”感知中分离出来，A2：对于有噪声的检测到的场景图，我们仍然可以使用地面实况程序实现具有竞争力的97.9%的准确度，这表明我们的X推理对场景图的不同质量水平是鲁棒的。当用解析程序替换地面实况程序时，accu18384滤波器滤波器[紫色][立方体]滤波器[气缸]查询[形状]气缸（（（在GT和Det设置中，racy下降0.1%，这是由程序解析器的小错误引起的。A3：由于X模块的简洁性和高重用性，我们的模型需要的参数比现有模型少得多。我们的GT设置只需要大约0.22M的参数，占用大约500 MB的内存，批量大小为128，而PG+EE [13]和TbD-net [17]将模块和输入捆绑在一起，导致大量的模块和参数。在不同表3：CLEVR-CoGenT上的NMN之间的比较。顶部部分：测试集的结果;底部：验证集的结果。使用地面实况场景图，我们的XNM推广得非常好，根本不会受到捷径的影响。1009080706050训练数据的比率。0的情况。10.2030405训练比1009080706050不同时期的准确性。12345678910时代导致推理捷径？结果CLEVR-CoGen T的结果见表3。A1：当使用地面实况场景图时，图3：数据效率和融合速度为了探索数据效率，我们用部分训练集训练我们的模型结果显示在图3的左侧部分。我们可以看到，当训练集很小时，我们的模型比其他基线表现得更好特别是，即使只有10%的训练数据，我们的GT设置仍然可以达到100%的准确率。右边的部分显示了每个训练时期的准确度我们可以看到我们的X推理收敛得非常快。A4：由于我们的XNM是基于注意力的，推理过程是完全透明的，我们可以很容易地显示中间结果。图4显示了CLEVR的两个示例我们可以看到所有的推理步骤都是清晰和直观的。4.2. CLEVR CoGenT设置. CLEVR-CoGenT数据集是研究模型在测试时识别新属性组合的能力的基准，该数据集源自CLEVR，但具有两个不同的条件：在条件A中，所有立方体的颜色是灰色、蓝色、棕色或黄色中的一种，所有圆柱体的颜色是红色、绿色、紫色或青色中的一种;在条件B中，调色板被交换。该模型使用条件A的训练集进行训练，然后使用条件B进行测试，以检查它是否可以很好地推广到新的属性组合。我们在条件A的训练集上训练我们的模型，并报告两个条件的准确性。目标. Q1：当满足新的属性组合时，我们的模型是否表现良好？Q2：如果没有，实际上我们的XNM在条件A和条件B上都表现完美条件B中的新属性组合根本不会导致性能下降。然而，当使用检测到的场景图时，其中节点嵌入是融合所有属性值的RoI特征，我们在条件B上的泛化结果下降到72.1%，就像其他现有模型一样受到数据集快捷方式的影响[13，17]。图5：CoGenT条件B下Det设置的失败案例A2：图5显示了我们在条件B下Det设置的一些典型失败案例。在情况（a）中，我们的模型无法将紫色立方体识别为类似地，在情况（b）和（c）中，物体是否被我们的模型识别为“立方体”或“圆柱体”实际上由其颜色决定。然而，在我们的GT设置中，它被赋予了地面真实的视觉标签，我们可以实现完美的性能。这一差距表明，CLEVR-CoGenT的挑战主要来自视觉偏见，而不是推理捷径。准确度（%）TbD-net StackNMN XNMs-Det XNMs-GT准确度（%）方法程序条件A条件BPG+EE [13]监督96.673.7TbD-net [17]监督98.875.4XNM-Det监督98.172.6[26]第二十六话监督99.863.9XNM-Det监督98.272.1XNM-DetGT98.372.2XNM-GT监督99.999.9XNM-GTGT10010018385联盟计数回答者：3滤波器[大号]滤波器[灰色]滤波器[立方有关[背后]滤波器[大号]滤波器[小]滤波器[棕色]滤波器[橡胶]滤波器[球面]回答：青色滤波器[小]滤波器[黄色]滤波器[金属]相同[形状]滤波器[小]过滤查询[金属][颜色]图4：两个CLEVR样本的推理可视化。问题1：有多少个物体是在灰色的大方块后面的大物体，或者是棕色的小橡胶球？问题2：另一个小的发光的东西，是什么颜色的小黄色发光的物体是相同的形状？我们为每个对象绘制一个点，较深（红色）的点表示较高的注意力权重。4.3. VQAv2.0设置. VQAv2.0 [6]是一个真实世界的可视化问答数据集，它没有关于场景图和模块程序的注释我们使用[2]中的接地视觉特征作为节点特征，并将连接节点嵌入作为边特征。我们设置K=1，并将问题嵌入与我们的输出特征融合以进行答案预测。在[2]之后，我们在对象上使用softmax进行节点注意力计算。目标. 我们使用VQAv2.0来证明我们的模型在实际情况下的通用性和鲁棒性。结果我们在表4中列出了结果。我们遵循Stack-NMN[9]以堆栈软方式构建模块程序，但我们的模型可以实现更好的性能，因为我们对场景图的推理比它们的像素级操作更强大回想一下，[13，17]不适用于开放词汇输入，[26]依赖于固定的标签表示，因此很难将它们应用于实际数据集。相比之下，我们的XNM对于不同的情况足够灵活5. 结论在本文中，我们提出了X神经模块（XNM），它允许对场景图进行视觉推理，由不同的检测质量表示。使用地面实况表4：VQAv2.0验证集和测试集的单模型结果。†：原始文件中报告的数值。方法专家布置验证（%）试验（%）上下[2]没有63.2†66.3N2NMN [10]是的-63.3†StackNMN [9]没有-64.1†XNM没有64.767.5在CLEVR上的场景图和程序，我们可以达到100%的准确率，只有0.22M的参数。与现有的神经模块网络相比，XNM将“高级”推理从“低级”视觉识别中分离出来如何“思考”，不管他们“看”什么。我们相信这是一个令人鼓舞的方向，朝着可解释的机器推理。此外，我们的实验结果表明，视觉推理受益于高质量的场景图，揭示了场景图研究的实际意义。致谢。本工作得到国家自然科学基金重点项目（U1736204、61661146007、61533018）的资助，中国移动通信研究基金（ 2009 年第 100 号）20181770250 ）、 THUNUS NExT Co-Lab 和 Alibaba-NTU JRI。18386引用[1] D. 阿莫代 S. Ananthanarayanan， R. 阿努拜， J. 拜，E. 巴滕贝格角凯斯，J。卡斯珀湾卡坦扎罗岛程先生，G. Chen等人深度演讲二：英文与国语之端到端语音辨识。在2016年的国际机器学习会议上。1[2] P. Anderson，X.他，C.Buehler、D.Teney，M.约翰逊先生，S. Gould和L.张某自下而上和自上而下的图像字幕和视觉问答注意。在CVPR，2018年。8[3] J. Andreas，M. Rohrbach，T. Darrell和D.克莱恩神经模块网络。在CVPR，2016年。2[4] S. 安托尔，A. 阿格拉瓦尔J. Lu，M. 米切尔D.巴特拉C. Lawrence Zitnick和D.帕里克Vqa：可视化问答。在ICCV，2015年。一、二[5] L. 陈先生， H. 张先生， J. Xiao X. 他， S. 噗 S.F.昌场景动态：用于场景图生成的反事实评论家多智能体训练。arXiv预印本arXiv：1812.02347，2018。3[6] Y. 戈亚尔 T. 霍特 D. 萨默斯-留下来 D. 巴特拉和D.帕里克让vqa中的v变得重要：提升图像理解在视觉问答中的作用。在CVPR，2017年。一二三八[7] K. 他，G. Gkioxari，P. Doll a'r 和R. 娘娘腔。面具r-cnn。InICCV，2017. 6[8] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。1[9] R. Hu，J. Andreas，T. Darrell和K.萨恩科通过堆栈神经模块网络进行可解释的神经计算。在ECCV，2018。二三五六八[10] R. Hu，J. Andreas，M. Rohrbach，T. Darrell和K.萨恩科学习推理：用于可视问答的端到端模块网络。InICCV，2017. 二三六八[11] D. A. Hudson和C. D.曼宁用于机器推理的组合注意力网络。ICLR，2018年。2[12] J. 约翰逊湾哈里哈兰湖范德马滕湖Fei-Fei，C.L. Zitnick和R.娘娘腔。Clevr：一个用于组合语言和基本视觉推理的诊断数据集。在CVPR，2017年。一二三五六[13] J. Johnson，B.哈里哈兰湖van der Maaten，J.霍夫曼L. Fei-Fei，C. L. Zitnick和R. B.娘娘腔。推理和执行程序的视觉推理。InICCV，2017. 一二三六七八[14] J. Johnson，R. 克里希纳，M。斯塔克湖J. Li，D. 莎玛M. Bernstein 和 L. 飞飞使用场景图进行图像检索。CVPR，2015。3[15] Y. LeCun ， Y.Bengio 和 G. 辛顿深度学习 nature， 521（7553）：436，2015. 1[16] Y. Li，W. Ouyang、B. Zhou，J. Shi，C. Zhang和X.王.可因式分解净值：一个有效的基于子图的场景图生成框架。在ECCV，2018。3[17] D. Mascharka山口特兰河，巴西-地Soklaski和A.玛朱达尔透明设计：缩小视觉推理中的性能和可解释性之间的差距。在CVPR，2018年。二三六七八18387[18] M. L.明斯基逻辑对类比，符号对联结，整洁对邋遢。AI magazine，12（2）：34，1991. 1[19] E. Perez，F.Strub，H.De Vries，V. Dumoulin，andA.考维尔电影：一般条件层的视觉推理。AAAI，2018年。2[20] S. Ren ， K. 赫利河 Girshick 和 J. 太阳 Faster r-cnn ：Towards real-time object detection with region proposalnetworks.2015年，在NIPS中。1[21] A. Santoro，D. Raposo，D. G. Barrett，M. 马林诺夫斯基R. Pascanu，P. Battaglia，and T. Lillicrap一个用于关系推理的简单神经网络模块。在NIPS，2017年。2[22]D. Silver，黑胫拟天蛾A.黄角J. Maddison，A.盖兹湖，澳-地西弗G. 范登·德里斯切 J. Schrittwieser I. 安东诺格鲁V. Panneershelvam，M. Lanctot等人用深度神经网络和树搜索掌握围棋游戏。nature，529（7587）：484，2016. 1[23] I. Sutskever，O.Vinyals和Q.诉乐用神经网络进行序列到在NIPS，2014。5[24] D.泰尼湖Liu和A.范登亨格尔。图形结构表示的视觉问题回答。arXiv预印本，2017年。3[25] D. Xu，Y. Zhu，C. B. Choy和L.飞飞通过迭代消息传递生成场景图。在CVPR，2017年。3[26] K. Yi，J.吴角，加-地Gan、A.托拉尔巴山口Kohli和J.B.特伦鲍姆。神经元符号vqa：从视觉和语言理解中解开推理。NIPS，2018年。二三六七八[27] X. Yin和V. Ordonez。Obj2text：从对象布局生成可视化描述语言。在EMNLP，2017年。 3[28] R. Zellers，M. Yatskar，S. Thomson和Y.崔神经基序：全局上下文场景图解析。在CVPR，2018年。二、三[29] Y. 张，J. Hare和A. 普鲁格尔-班尼特学习在自然图像中计算物体的数量，以回答视觉问题。arXiv预印本arXiv：1802.05766，2018。4

下载后可阅读完整内容，剩余1页未读，立即下载