混合核图注意力网络用于态势识别

154 浏览量更新于2023-10-16 收藏 867KB PDF 举报

图像理解

角色分配

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10363用于态势识别的混合核图注意力网络Mohammed Suhail1，2Leonid Sigal1，2，31英属哥伦比亚大学2人工智能向量研究所3加拿大CIFAR人工智能主席suhail33@cs.ubc.calsigal@cs.ubc.ca摘要理解图像超出了显着的动作涉及推理场景上下文，对象，以及他们在捕获的事件中扮演的角色。情境识别是一种对动词（动作）和一组动作框架形式的语义-角色-实体（名词）对进行联合推理的任务用动作框架标记图像需要根据观察到的图像内容将值（名词）分配给角色。在固有的挑战是丰富的条件结构化的依赖关系之间的输出角色，作为一个整体的语义稀疏。在本文中，我们提出了一种新的混合核注意力图神经网络（GNN）架构，旨在解决这些挑战。我们的GNN在训练和推理过程中启用动态图结构，通过使用图注意力机制以及角色对之间的上下文感知交互。它还通过使用学习基础的凸组合来表示图核来我们通过在imSitu基准数据集上进行实验来说明我们的模型和设计选择的有效性，其准确性比最先进的方法提高了10%1. 介绍近年来，标准的计算机视觉任务取得了巨大的进展，这些任务可以孤立地推理对象或动作，包括对象分类[6，15，16，19]，对象检测[8，9，13]，甚至是单个图像动作识别[33]。然而，对图像内容的更详细的理解和理解，这是许多现实世界的应用所需要的，仍然是一个重大的挑战。最初由Yatskar等人提出的情况识别问题。[32]这是一个尝试，探索这种更详细的理解。在情景识别中，任务是联合推理动词和一组语义角色和实体对。实际上，目标是用一组动作框架来标记图像，其中每个动词特定的框架由一组固定的角色组成，跳作用值剂赛马源土地障碍围栏目的地土地地方户外图1. 情境识别涉及到对显著动作之外的图像的理解。给定上面的跳跃图像，任务是识别谁在跳跃（骑师），代理人在哪里跳跃（陆地），代理人跳过的障碍物（围栏）以及动作发生的地点（户外）。行动的背景。实例化帧需要根据观察到的图像内容为角色分配值（名词）所得到的框架允许对非常需要的语义信息进行容易的结构化访问，谁在执行行动，行动在哪里发生，结果可能是什么。图1示出了示例。Yatskar等人[32]提出了任务的初始大规模后来，在[31]中，他们扩展了这一基线，包括一个复合条件随机场模型，旨在解决情景识别中的主要挑战之一，语义稀疏1。这是通过鼓励名词之间的共享和数据扩充实现的。在[17]中，作者探索了问题的结构化本质，并提出了一种基于图神经网络（GNN）的架构，该架构学习捕获角色之间的成对依赖关系。然而，他们的模型是有限的，并假设不同角色之间的相互作用是全局的，即。给定一对角色，角色之间的该模型还依赖于用于训练和推理的静态全连接图结构，其未能考虑各种角色对之间的可变交互。1语义稀疏性在这里是指训练数据集无法跨越可能的动作帧输出的组合数量。10364图2. 可变条件重复性。与动词相关角色（例如，这里摆动）需要根据图像（右）不同地传播请注意，我们的模型学习到的预测图形注意力在两种情况下确实不同（左）;这表明我们的模型足够灵活，可以在同一个动词中容纳这种可变的相互作用。考虑图2（右）中所示的示例。对于第一个图像，假设主体是一只猴子，动作是摇摆的，那么动作发生的地方更有可能是一片森林，而载体是一棵葡萄树。可替代地，对于第二图像，秋千的存在应该直观地增加代理是人并且动作正在户外发生的概率。换句话说，对于由动词摆动实例化的相同动作框架，在顶部图像中，更突出的视觉组件是施事;在底部图像中，它是载体。因此，直观地，上下文信息的传播在两种情况下应该是不同的。然而，先前的模型[17]无法适应这种灵活性，并假设角色之间的上下文信息流是固定的为了解决这些限制，我们提出了[17]中引入的GNN方法的扩展和推广在这样做的过程中，我们做出了许多核心算法贡献。首先，我们的GNN架构通过使用图形注意机制和角色对之间的上下文感知交互，在训练和推理过程中启用动态图形结构因此，我们的模型学习的图结构可以适应上一段讨论的直觉;参见图2（左）中的注意力地图。其次，为了减轻语义稀疏性，我们通过在学习期间在所有图像之间共享的一组基核的凸组合来构造核矩阵（对于给定图像）直观地说，这有助于通过分期学习和推理在相关动词此外，一套解开的学习基地-SIS核有助于根据输入对图中的节点之间的变化的信息流进行建模由此产生的端到端方法在imSitu基准数据集上的最新技术水平上实现了高达10%的实质性整体改进[32]。贡献：我们的主要贡献是一种新的混合核图注意力网络结构，专门为情境识别问题设计。我们的GNN体系结构在训练和推理过程中，通过使用图形注意机制和角色对之间的上下文感知交互，实现了动态图形结构。它还通过学习一组在所有图像中共享的基本内核来增强语义稀疏性。我们进一步证明[17]是我们模型的一个特例。最后，我们通过在imSitu基准数据集上进行实验来说明我们的架构和设计选择的有效性[32];说明了在最先进的水平上的高达10%的整体改进我们还进行消融研究，以显示单个组件的作用。2. 相关工作图像和视频理解在计算机视觉中得到了广泛的研究。各种任务，如场景分类[34]，活动识别[20，28]，视觉问题回答[2]和图像字幕[1，12，24，29]旨在更好地理解图像内容。最近感兴趣的是图像[17，31，32]和视频[27]中的情况识别任务，这是本文的重点我们在下面回顾了大多数相关文献。形势识别。情境识别将活动识别的任务概括为包括关于参与者、对象、位置以及它们之间的相互作用的信息。Yatskar等人[32]介绍了imSitu数据集，该数据集将图像与动词相关联，表示显着动作，以及一组语义角色对名词，分别来自WordNet [7]和FrameNet [3]。他们提出了一个基线CRF模型，该模型学习联合预测包含动词和动词角色对三元组的元组。在后续工作中[31]，他们解决了数据集中的语义稀疏性问题，并提出了一个ten- sor组合函数以及增强数据集以进一步提高性能的方法。Mallaya等人[21]，将情境识别任务设定为以任意但固定的顺序对与图像动词相对应的名词实体的顺序在这样的设置下，他们训练LSTM网络来预测与框架中给定角色相关的名词序列，并展示如何使用为情境识别任务训练的模型来为图像添加标题并回答有关图像的问题。Li等[17]进一步推广这种设置，并使用图形神经网络在角色之间传播信息，并重新移动角色之间的顺序依赖关系.10365一一图神经网络。图神经网络是在图上操作并相应地构造其计算的神经网络。在图上应用卷积是不平凡的，因为它们的结构变化很大。已经提出了旨在解决该任务的各种方法。Henaff等人[10]，利用来自谱图理论的图卷积来定义类似于卷积神经网络的参数化滤波器。Dobliard等人[5]使用Cheby-shev多项式在谱域中近似滤波器，以便弥合快速算法和慢速谱方法之间的差距。Kipf和Welling[14]引入了对谱卷积框架的进一步简化，其允许通过以回流方式将前馈神经网络应用于节点来进行图上的卷积。Velickovic等人[26]利用掩蔽的自我关注层，该层学习关注邻域信息，从而解决先前的缺点。最近，图神经网络在计算机视觉领域的普及和范围迅速增长，用于目标检测[11]和图像分类[4]等任务。在我们的工作中，我们构建了门控图神经网络[18]，通过使用门控函数更新节点状态来解决[23]中的收缩映射假设问题我们还将注意力[26]应用于本地计算，以允许更灵活的传播。最后，我们介绍了一种新的混合核，它有利于信息共享和摊销的推理和学习。b∈ B，有向或无向，编码角色之间的依赖关系。3.1. 图神经网络在我们的工作中，我们使用门控图神经网络来预测给定图像的情况。图3显示了所提出的模型架构的概述。给定一个图像，I，与相关的动词v∈ V，我们首先实例化a图GI=（A，B），其中节点的数量，|一|，是等于对应于v的帧Ef中的角色的数量。节点的隐藏状态a∈ A被初始化为h0=ReLU（Winφn（i）<$Wee <$Wvv<$），（1）其中φn（i）是从VGG-16网络的倒数第二个全连接层获得的特征，该VGG-16网络被训练用于预测given图像中的名词，vn和e对应于预测的动词和与节点对应的角色的独热编码We和Wv分别是角色嵌入矩阵和动词嵌入矩阵. Win是一个变换矩阵，它将从CNN获得的特征映射到图的隐藏表示空间，而Win是一个元素乘法运算。每一个隐藏的状态节点以循环的方式更新在时间t，节点之间的信息传播由下式控制：x t= ACCUMULATE（t）。{ht−1：a′aa'∈ Na}（二）ht=COMBINE（t）（ht−1，xt），3. 方法imSitu数据集假设动词V、名词N和框架F的离散集合用于情况识别。每个框架f∈F与一组语义角色Ef相关联。语义角色e∈Ef与名词ne∈ N <${φ}相关联，其中φ指定该名词是a a a其中Na是a的邻居的集合。ACCUMULA TEt（·）和COMBINEt （ ·）的选择决定了图神经网络的能力[30]，因此至关重要。在我们的模型中，我们将ACCUMULATE函数公式化为：未知或不适用。一组成对的语义-tic角色和名词被称为实现框架，Rf={（e，ne）：e∈Ef}.给定一个图像，任务然后xt=Σ（a，a′）∈Bαaa′.Σdk=1Σck Wkt−1a′是预测S=（v，Rf），其中v∈ V是显著的中国（3）动作对应的图像和Rf其相应-ΣdΣ=cα′W ht−1<$实现的框架。例如，考虑图1中的图像。与动词对应的已实现框架Kk=1AA（a，a′）∈BKa′跳跃由五个角色-价值对组成，{（agent，jockey），（source，land），（obstacle，fence），（destination，land），（place，outdoor）}.作为图形推理任务的情况识别。与意象对应的动词和语义角色之间存在着强烈的依存关系.为了模拟这种依赖关系，我们提出了一个基于图的推理问题的任务的情况下识别。给定一个来自数据集，我们实例化一个图G=（A，B）。图a∈ A中的节点表示与图像相关联的角色，并从N取值。图中的边其中Wk是用于建模的基核节点之间的相互作用，ck是相关权重，d是核向量空间的维数，αaa′ 是对应于节点a和a′之间的边的权重。使用类似于[26]的注意力机制导出边权重。将内核表示为基础内核的混合，允许我们将图分解为一组独立的图，这些图为节点学习一组不相交的嵌入。学习基核的细节在第3.3节中描述。组合步骤使用门控机制进行公式化。H10366一一一a a a aa动词预测模型Max加权和节点特征提取器图3. 模型架构。该图显示了模型的整体架构（d= 3）。图像通过动词预测模型来获得图像中可能的动作（动词）的概率分布。然后，我们转换到核向量空间维，以获得基的隶属度权重。图被实例化，其中每个基核之后是节点之间然后使用学习的隶属度权重对图求和以获得最终节点特征。类似于[18]：zt=σ（Wz·[ht−1，xt]）概率作为显着的行动。然后，通过检索与其动词及其rt=σ（Wr·[ht−1，xt]）使用（1）初始化状态。图的核a a aht=tanh（W·[rtht−1，xt]（四）然后，由以下项啊啊啊ht=（1−zt）ht−1+ztht其中ra和za是重置门和更新门，Wz、Wr、Wh是更新函数的权重。这种状态更新机制允许信息缓慢地组合，确保来自先前时间步的信息不会丢失。在传播的一些步骤T之后，更新的隐藏状态被用于预测对应于每个角色的名词，如基核，其权重从动词预测模型的softmax层导出。根据（3），通过在固定数量的时间步长T内传播和累积来自相邻节点的然后，通过从名词分类器的softmax输出中选择与最高分数相对应的名词来3.2. 动态图结构pe：n =σ（Wchae），（5）图中的节点之间的交互取决于与它相关联的角色而考试-其中pe：n是与角色e相关联的名词，σ是softmax函数，Wc是名词分类符的权重。分类器在所有节点之间共享，以解决问题固有的语义稀疏性问题。损失imSitu数据集为每个图像提供三组注释。我们在所有注释的名词节点处累积交叉熵，其中ye：n是对应于图像i的角色e的地面真值名词：例如，在图2中，考虑到图像中存在猴子，该动作的载体极有可能是藤蔓。同样，我们可以推断，代理人最有可能是一个人，因为载体是一个秋千。角色对之间的这种条件依赖性可能很难描述，因为它们甚至对于单个动词也是不同的。通过将边权重建模为它们连接的节点特征的函数，我们可以轻松地对这种具体来说，在我们的模型中，我们学习边权重ΣΣ3L=.1|Ef|Σye：nlog（pΣe：n）.（六）αaa′使用类似于[26]的注意机制。权重αaa′计算如下：i j=1eeaa′=a（Wattnha，Wattnha′）在推理过程中，我们首先预测所有可能的动词的分布，并选择最高αaa′=xp（eaa′）{a′′∈Na}e×p（eaa′′）（七）3= 0.12= 0.21= 0.7剂项目工具地方剥离剂项目工具地方VGG-16VGG-1610367图4. 学习邻接矩阵。角色节点之间的变量交互使用注意力机制明确建模，其中注意力得分对应于邻接矩阵中的条目。在上图中，我们可视化了在推理过程中为动词punching（上）和flipping（下）的两个不同实例生成的邻接矩阵。其中Wattn是注意力核，a是注意力机制，并且Na是图中a权重αaa′迫使模型学习节点相对于. r. t的相对重要性给定节点，从而传播仅与它相关的信息。模型学习的注意力机制在图4中可视化。我们观察到，学习的边权重对应于节点w.r.t.的相对重要性。对方.此外，学习的依赖关系根据图像上下文而变化。例如，上面一行显示了动词punching的两个示例。在第一种情况下，鉴于受害者是面团，很有可能这个地方是厨房，代理人是厨师，而第二种情况则相反，关于拳击场的信息下面一行描绘了翻转的两个示例。在第一幅图中，知道一个煎饼正在被翻转，增加了工具是平底锅和代理人是人的概率。此外，一个平底锅的存在表明，这个地方很可能是一个厨房。类似地，在第二幅图中，知道书正在被翻动使得所使用的工具很可能是手。同样，关于工具的信息有助于推断代理人是人。可以观察到，邻接矩阵的对角项与其余项相比通常较低这是由于应用于隐藏状态特征的软更新。每个节点最初都包含自己的特征，并保留它们，同时合并来自相邻节点的新信息。3.3. 上下文感知交互根据图像中的操作，角色节点之间的交互例如，代理人与滑移地点之间的相互作用不同于修理时的相互作用。虽然不同的边权重是关于节点相对于彼此的相对重要性的原因，但特征到有价值的信息的实际变换是由图核实现的用固定的全局传播矩阵/核对图神经网络进行建模将迫使模型学习角色节点之间的信息纠缠的广义视图注意力机制可以学习权重以调整可变信息传播，但如图2所示，即使在给定的动词集内，交互的方差也很高，因此模型可以受益于基于图像和基于角色的交互的解耦，如第4.1节所示。为了将这种图像相关的相互作用，我们模型的内核矩阵作为一个凸组合的基础内核。对于给定的图像，然后训练模型以学习每个基核的一组隶属度权重。为了确定核向量空间的维数，我们研究了数据集中512个动词之间的语义相似度。根据角色框架的相似性，我们发现动词可以分为252组，每组中的动词共享同一个角色框架。这样的分组是合乎逻辑的，因为imSitu数据集中的角色框架是基于FrameNet [3]的，FrameNet[ 3 ]来源于均值理论（也称为，框架语义学）。FrameNet中的框架在设计上是为了提供通用的语义表示。因此，10368D帧定义在语义上趋于相似。给定核向量空间，图像（I）的传播核（WI）被获得为：Σ252WI=ck Wk，（8）k=1其中，Wk是基核，ck是它们对应的权重。从动词预测模型的softmax层获得权重ck，然后进行到252维空间的可重构变换。这允许我们以端到端的方式训练整个网络（动词和框架预测模型）。虽然作为替代方案，可以为每个动词使用单个内核，但这是不可取的。首先，语义稀疏性是情境识别任务的内在问题;因此，在类似动词之间共享参数是有益的。第二，某些图像可能不属于一个单一的动词。在这两种情况下，构建一个以图像内容为条件的动态内核是非常有帮助的。与其他模特的关系。在[17]中提出的基于图神经网络的模型可以被视为我们模型的特殊情况，其中图是静态生成的，所有边权重，αaa'设置为1，并且数据集中的所有图像共享单个内核，即。Wk=Wp且当1≤k≤d时，ck = 1。在这种限制下，信息传播的形式ΣT= 0 T= 1 T= 2 T= 3 T= 4价值58.13 67.72 70.56 72.18 72.93表1.作为传播步骤T的函数的性能。对于单核模型，速率为3e-4，小批量大小为64为了训练混合核模型，我们在预训练时使用3e−4的初始学习率，在微调基础核时使用3e−6评价我们使用imSitu的标准数据分割，训练集中有75k个注释图像，开发中有25k个，测试中有25k个。每个图像与三个不同的注释相关联。在测试过程中，我们将所有可用的注释进行比较，并报告最终得分。在[32]之后，对于前1和前5个预测动词中的每一个，我们报告了三个指标：（a）动词：动词预测模型的性能，（b）值：测量角色-值元组预测的性能，如果它与以下元组中的任何一个元组匹配，则该预测被认为是正确的三个基本事实注释，（c）value-all：测量实现的帧预测性能，如果所有的角色-值对匹配任何一个，则认为是正确的完全的地面实况注释。当提供了ground truth动词时，我们报告value和value-all度量。这提供了角色框架预测模型的性能的上限。最后，我们报告了平均值，即所有超过前1预测值、前5预测值和地面真实动词的分数的平均值。x t=W h t−1。（九）一个p a′（a′，a）∈B4. 实验实施详情。为了初始化图网络，我们必须提取与图像中的为此，我们使用两个预训练的VGG-16网络[25]，并微调所有层。第一个网络被训练来预测动词，给定来自imSitu数据集的图像，然后用于确定图形网络的结构第二个网络在多标签分类任务上进行了微调，其中给定图像，模型预测与之相关的所有角色值。然后，我们移除最后一个全连接层以获得特征向量φ n（i），在（1）中。包括动词预测和角色框架预测模型的网络以端到端的方式一起训练。对于所有实验，我们在整个训练和测试过程中将传播步骤T的数量固定为4。由于所有节点最初都相互连接，并且图形最多可以有6个节点，因此传播更多步骤的信息将不会提供显著的提升在模型的性能;参见表1中的T的效果。优化. 所有模型都在PyTorch中实现[22]。模型使用Adam进行训练，4.1. 结果和分析与最先进技术的比较我们比较了我们的模型与以前的方法的性能，主要是[17，21，31，32]，在表2中的开发和测试集上。我们的动词预测模型的性能显着优于所有以前的方法。我们将此归因于隐式使用帧预测的损失作为训练动词预测模型的辅助损失。当使用前1预测，前5预测和地面真实动词时，我们在所有指标上实现了对于值矩阵，我们的模型在使用前1个预测动词时产生8%的改进，使用前5个预测动词时产生10%的改进，当地面真实动词与测试图像一起提供时产生近2%的改进。我们的模型在平均得分上也实现了4%我们注意到，全连接图在预测的动词上使用波束搜索，以便在地面事实不可用时提高值度量的性能，而Tensor-Composition + reg使用语义增强来获得更多的训练数据。尽管没有做到这两点，我们的这种改进可以归因于使用了由角色和动词定义的动态图结构，以及允许更有效地传播信息的上下文感知内核构造。10369一aapva′top-1 predicted verb top-5 predicted verb ground truth verb动词值全值动词值全值值全值是说CNN + CRF [32]32.2524.5614.2858.6442.6822.7565.9029.5036.32Tensor-Composition + reg [31]34.2025.3915.6162.2146.7225.6670.8034.8239.57devFusion，VGG + RNN [21]36.1127.7416.6063.1147.0926.4870.4835.5640.40全连通图[17]36.9327.5219.1561.8045.2329.9868.8941.0741.32我们43.2135.1819.4668.5556.3230.5673.1441.6846.01CNN + CRF [32]32.3424.6414.1958.8842.6722.5565.6628.6936.25Tensor Composition + reg [31]34.1226.4515.5162.5946.8825.4670.4434.3839.48测试Fusion，VGG + RNN [21]35.9027.4516.3663.0846.8826.0670.2735.2540.16全连通图[17]36.7227.5219.2561.9045.3929.9669.1641.3641.40我们43.2735.4119.3868.7255.6230.2972.9242.3545.91表2.我们将我们的情况识别模型与当前最先进的开发和测试集进行比较。我们的模型在前1预测，前5预测和地面真实动词的所有指标上都达到了最佳性能我们还展示了一个显着的改善，在所有以前提出的模型的平均得分。最好的表现以粗体显示，第二好的表现以斜体显示。top-1 predicted verb top-5 predicted verb ground truth verb值全值值全值值全值是说GGNN31.1614.3453.6925.2367.3237.3238.19测试GGNN + attnGGNN +多内核33.6433.3516.0015.7854.5954.0426.9026.3269.4067.9638.8338.2139.8939.27GGNN +多内核+attn34.8317.5254.9127.8571.1939.6840.99GGNN + mixture-kernel + attn35.4119.3855.6230.2972.9242.3542.66表3.我们研究了不同组件对模型性能的影响最好的表演用粗体显示消融研究。我们在表3中研究了我们模型的不同组成部分的影响。正如预期的那样，该模型在混合内核和注意力组件的情况下表现最好，并且当提供地面真实动词时，该模型在值度量上提供了5%的提升，并且与朴素GGNN相比，平均度量增加了近4%删除任何一个组件都会导致性能损失。我们还在不同的变体（多内核模型）上进行了实验，在该模型中，我们在图像中使用给定动词的内核硬分配。对于多核模型，我们首先根据角色框架相似性将动词分组，并为每组分配一个核。累加在这种设置下的函数由下式给出：基重预测随机值72.9664.26全价值42.3526.85表4.对基核使用随机权重的效果为了确保基础内核确实学习到一些语义上有意义的东西，我们进行了一个消融实验，在测试期间随机排列基础的权重（ci），并研究其对性能的影响。如表4所示，我们观察到当提供地面实况动词时，value和value all度量分别下降约6%和16%xt= Σ（a，a′）∈Bα Wht−1最后，我们测量从图中删除随机边缘的影响。我们展示了随机删除25%、50%和75%的边缘其中pv指的是与图像相关联的动词，从图中与地面真理动词提供表5。Wpv是分配给动词组pv中的动词的内核。这对应于（3）中当i=pv时ci=1和否则为0的情况在添加时性能的提升多核比注意机制的多核少这是由于模型中有大量的内核，并且没有足够的数据来优化一些内核。混合核模型忽略了这个问题，因为每个基本核都是使用训练集中的所有示例进行训练的。边缘去除25% 50% 75%价值68.34 65.81 61.18表5.从图形中删除边的效果定性分析图5显示了测试集中实例的一些预测情况。上面两行展示了几个实例的示例，其中我们的模型10370草坪讲课作用值剂老师观众学生地方课堂鼓励作用值剂爸爸接收器儿子地方草坪升降作用值剂妇女项目重量开始土地端空气地方内部眨眼作用值剂人收件人-地方房间坐作用值剂人接触土地地方户外用餐作用值剂人食品-地方餐厅冲浪作用值剂冲浪者路径水工具冲浪板地方海洋浸没作用值剂人对象车物质重量地方湖领导作用值剂人从动件人地方课堂图5. 定性结果。最上面的两行显示了我们的模型得到所有角色对预测正确的结果。底行描述了包含角色值预测中的典型错误的示例正确预测帧。最下面一行包含了我们的模型在预测角色值时出错的例子。虽然前两个例子确实错误地预测了名词，但对后三个的预测实际上是合理的。例如，在裁剪的情况下，我们的模型预测所使用的工具是裁剪器，然而，地面实况注释将其标记为树篱修剪机。类似地，对于焊接，我们的模型预测该项目被用作金属元素，就含义而言，它与地面真实标签合金并不太远。对于最后一张图像，我们的模型预测教室的位置，这比地面实况中的室外或室外图像信息量更大5. 结论我们提出了一个模型，学习识别的情况下，在一个给定的图像，预测其显着的行动以及参与演员，对象，位置，和他们的相互作用。我们的方法通过使用混合核图注意力网络来学习根据角色本身和图像上下文来建模角色节点之间的不同交互。在imSitu数据集上，我们的模型在价值度量方面提高了10%，平均整体提高了4%我们还分析了模型中的不同组件如何影响性能。致谢：这项工作部分由Vector Institute for AI，CanadaCIFAR AI Chair ， NSERC CRC 和 NSERC DG 和Discovery Accelerator Grants资助。10371引用[1] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在CVPR，第3卷，第6页，2018年。2[2] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C Lawrence Zitnick，and Devi Parikh.Vqa：可视化问答。在IEEE计算机视觉国际会议论文集，第2425- 2433页2[3] Collin F Baker，Charles J Fillmore，and John B Lowe.伯克利框架网项目。第17届国际计算语言学会议论文集，第86-90页。计算机语言学协会，1998年。二、五[4] Xinlei Chen，Li-Jia Li，Li Fei-Fei，and Abhinav Gupta.它是超越卷积的交互式视觉推理。在IEEE计算机视觉和模式识别会议论文集，第7239-7248页，2018年。3[5] MichaeülDefferrard，XavierBresson，andPierreVandergheynst.具有快速局部谱滤波的图上卷积神经网络。神经信息处理系统进展，第3844-3852页，2016年3[6] J. 邓，W。东河，巴西-地索赫尔湖J. Li，K.Li和L.飞飞ImageNet：一个大规模的分层图像数据库。2009年CVPR09中。1[7] 克里斯蒂安·费尔鲍姆WordNet：一个电子词汇数据库。Bradford Books，1998. 2[8] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision ，第 1440-1448页，2015中。1[9] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 5801[10] Mikael Henaff，Joan Bruna，and Yann LeCun.图结构数据上的深度卷积网络。 arXiv 预印本 arXiv ：1506.05163，2015。3[11] Han Hu，Jiayuan Gu，Zheng Zhang，Jifeng Dai，andYichen Wei.用于对象检测的关系网络。在计算机视觉和模式识别（CVPR），第2卷，2018年。3[12] Andrej Karpathy和李飞飞。用于生成图像描述的深度视觉语义在Proceedings of the IEEE conference on computervision and pattern recognition，pages 3128-3137，2015中。2[13] Kye-Hyeon Kim ， Sanghoon Hong ， Byungseok Roh ，Yeong- jae Cheon，and Minje Park.Pvanet：深度但轻量级的神经网络，用于实时目标检测。arXiv预印本arXiv：1608.08021，2016. 1[14] 托马斯·N Kipf和Max Welling。使用图卷积网络的半监督分类。在第五届国际学习表征会议上，ICLR 2017，法国土伦，2017年4月24日至26日，会议跟踪程序，2017年。3[15] 亚历克斯·克列日夫斯基和杰弗里·辛顿从微小的图像中学习多层特征。技术报告，Cite- seer，2009年。1[16] Alina Kuznetsova 、 Hassan Rom、 Neil Alldrin 、 JasperUi-jlings 、 Ivan Krasin 、 Jordi Pont-Tuset 、 ShahabKamali、Stefan Popov、Matteo Malloci、Tom Duerig和Vittorio Ferrari。开放图像数据集v4：统一的图像分类，对象检测，和视觉关系检测的规模。arXiv：1811.00982，2018。1[17] Ruiyu Li，Makarand Tapaswi，Renjie Liao，Jiaya Jia，Raquel Urtasun，and Sanja Fidler.基于图神经网络的态势识别。在IEEE计算机视觉集，第4173一、二、六、七[18] Yujia Li ， Richard Zemel ， Marc Brockschmidt ， andDaniel Tarlow.门控图序列神经网络在ICLR'16会议记录中，2016年4月三、四[19] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740Springer，2014. 1[20] Shugao Ma，Leonid Sigal，and Stan Sclaroff.用于活动检测和早期检测的lstms中的学习活动进展在IEEE计算机视觉和模式识别会议论文集，第1942-1950页，2016年。2[21] Arun Mallya和Svetlana Lazebnik。循环模型用于情况识别。arXiv预印本arXiv：1703.06233，2017。二六七[22] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。pytorch中的自动微分。在NIPS-W，2017年。6[23] Franco Scarselli、Marco Gori、Ah Chung Tsoi、MarkusHa-genbuchner 和 Gabriele Monfardini 。图神经网络模型。IEEE Transactions on Neural Networks，20（1）：61-80，2009. 3[24] Parth Shah，Vishvajit Bakrola，and Supriya Pati.使用深度神经架构的图像captioning。信息、嵌入式和通信系统创新（ICI- IECS），2017年国际会议，第1-4页。IEEE，2017年。2[25] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。在2015年国际学习代表会议上。6[26] Pet a rVeli cˇko vi c´ ，GuillemCucurull，ArantxaCasan ova，AdrianaRomero，PietroL io`，andYoshuaBengio. 图注意力网络。2018年国际学习代表大会。三、四[27] 保罗·维科尔、马卡兰·塔帕斯维、卢伊斯·卡斯特雷奥恩和桑贾·菲德勒。电影：从视频中了解以人为中心的情况。在2018年IEEE计算机视觉和模式识别会议上，CVPR 2018，美国犹他州盐湖城，2018年6月18日至22日，第85812[28] Huijuan Xu，Abir Das，and Kate Saenko.用于时间活动检测的区域在IEEE国际会议上计算机视觉（ICCV），第5794- 5803页，2017年。210372[29] Kelvin Xu、Jimmy Ba、Ryan Kiros、Kyunghyun Cho、Aaron Courville 、 Ruslan Salakhudinov 、 Rich Zemel 和Yoshua Bengio。显示、出席和讲述：具有视觉注意的神经图像字幕生成。在机器学习国际会议上，第2048-2057页，2015年。2[30] Keyulu Xu，Weihua Hu，Jure Leskovec，and StefanieJegelka.图神经网络有多强大？在2019年国际学习代表会议上。3[31] Mark Yatskar Vicente Ordonez Luke Zettlemoyer 和 AliFarhadi一般不常见：情景识别中的语义稀疏性。在IEEE计算机视觉和模式识别会议（CVPR）上，2017年。一、二、六、七[32] Mark Yatskar Luke Zettlemoyer和Ali Farhadi 情况认可：面向图像理解的视觉语义角色标注。在IEEE计算机视觉和模式识别会议论文集，第5534-5542页，2016年。一、二、六、七[33] Zhichen Zhao，Huimin Ma，and Shaodi You.使用语义身体部位动作的单一图像动作识别在2017年IEEE计算机视觉国际会议（ICCV）上，威尼斯，第3411-3419页，2017年。1[34] Bolei Zhou，Agata Lapedriza，Jianxiong Xiao，AntonioTorralba，and Aude Oliva.使用地点数据库学习用于场景识别的深度特征。神经信息处理系统的进展，第487-495页，2014年。2

下载后可阅读完整内容，剩余1页未读，立即下载