基于注意力的情境感知推理用于情景识别

104 浏览量更新于2023-10-24 收藏 12.53MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

147360基于注意力的情境感知推理用于情景识别0Thilini Cooray，Ngai-Man Cheung�，WeiLu新加坡科技与设计大学（SUTD）0thilini cooray@mymail.sutd.edu.sg，{ngaiman cheung，luwei}@sutd.edu.sg0摘要0情景识别（SR）是一项细粒度的动作识别任务，模型不仅需要预测图像中显著的动作，还需要预测动作的所有相关语义角色的值。预测语义角色非常具有挑战性：语义角色可能有各种各样的可能性。现有的工作主要集中在依赖性建模架构来解决这个问题。受到基于查询的视觉推理（例如视觉问答）取得的成功的启发，我们提出将语义角色预测视为一种基于查询的视觉推理问题。然而，现有的基于查询的推理方法没有考虑处理语义角色预测中的相互依赖查询，这是SR的一个独特要求。因此，据我们所知，我们提出了第一组方法来处理基于查询的视觉推理中的相互依赖查询。广泛的实验证明了我们提出的方法的有效性，在情景识别任务上取得了出色的性能。此外，利用查询之间的相互依赖性，我们的方法改进了一个分别回答查询的最先进方法。我们的代码：https://github.com/thilinicooray/context-aware-reasoning-for-sr01. 引言0视觉推理是分析视觉信息以达到最终结论的过程。在计算机视觉领域，正在研究各种视觉推理任务，从基本的对象[14,24, 22, 8]和动作[4, 23, 25]分类开始。场景图生成[11, 17,28]的引入是为了扩展计算机视觉模型的视觉推理能力，超越了简单的对象和动作分类，并通过组合图像中所有预测的视觉关系并构建知识图谱来将视觉推理提升到一个新的水平。0�通讯作者0图1.情景识别（SR）[30]：相同动作（动词）的两种不同情景。SR任务是预测图像的动作（动词）和所有相关语义角色的值。0然而，场景图中的这些关系是以三元组（主语-谓词-宾语）的方式捕获的，这在描述动作时限制了表达能力，因为参与动作的对象超出了主语和宾语元素。为了解决这个限制，Yatskar等人引入了情景识别（SR）。在SR中，模型不仅需要预测图像中显著的动作，还需要预测参与动作的所有对象。个体对象与动作之间的关系由一个称为语义角色的概念指示。情景是一个结构，由一个动作和其语义角色组成，使其成为一项结构化预测任务。图1显示了“Brushing”动作在imSitu数据集[30]中的两个实例，这是SR的主要数据集。“Brushing”的语义角色包括代理人（刷牙的人），目标（代理人刷的实体或对象），工具（用于刷牙的工具），物质（用于刷牙的任何物质）。请注意，地点也是刷牙的语义角色，但出于清晰起见，我们在此示例中省略了它，因为它在这里不重要。还请注意，不同的动作可能具有不同的语义角色。例如，动作“吃”47370具有角色：食物，地点，容器，代理人，工具。SR是一项非常具有挑战性的推理任务，因为不同角色类型和可能的值非常多[20,16]。此外，即使对于相同的动作（动词），个体角色的可能值也可能非常不同，如图1所示。与动作预测相比，语义角色预测引起了最多的关注，因为它对捕捉图像中所有与动作相关的对象有更高的要求，而不考虑其可见的显著性。现有的工作主要集中在使用循环神经网络[20]和图神经网络[16]对语义角色之间的相互依赖性进行建模。在这项工作中，我们采用了一种完全不同的方法来进行SR。受到基于查询的视觉推理模型的启发[7, 10, 33,13]，这些模型已经证明在给定查询（自然语言问题，对象名称等）的条件下分析图像以获得答案是成功的，我们提出将SR建模为一种基于查询的视觉推理任务。具体而言，我们提出了一种新颖的视觉推理模型，该模型侧重于根据给定的查询推理图像，而不是在训练过程中强调对象共现模式。然而，SR引入的一个主要挑战（传统的基于查询的视觉推理任务中不存在的）是，虽然其他任务需要单个输出答案（例如视觉问答[7, 10, 9, 1, 12,3]），但SR期望回答多个相互依赖的查询，最终形成一个结构。为了填补处理相互依赖查询的差距，我们首次提出了一种新颖的上下文化模块，以整合与相关查询的信息，以解决查询之间的关系推理。我们的上下文化机制明确允许多模态推理和邻居信息的集成。这使得模型能够动态地组合信息以进行最佳预测。我们提出了一种使用注意力生成上下文的方法，并提出了不同的机制来整合生成的上下文以改进推理。我们的贡献是：0• 我们提出通过基于查询的视觉推理来解决 SR 问题。0• 我们提出了处理语义角色预测中出现的相互依赖查询的新方法0• 我们进行了大量实验证明我们的方法的有效性。02. 相关工作0Yatskar 等人介绍了 SR 任务以及基于 FrameNet [2] 的 imSitu数据集，其中的动作和帧。他们提出了一个基准模型，该模型由一个卷积神经网络（CNN）[15]组成，用于图像的特征编码，然后是一个条件随机场，用于预测动作和语义角色的标签。0年龄编码后跟一个条件随机场，用于预测语义角色的动作和标签。正如 Yatskar等人[30]所提到的，这个数据集在对象标签和情境方面都存在巨大的稀疏问题，因为一些对象可以参与许多角色，而其他对象只能被看到几次。为了解决这个稀疏问题，Yatskar等人[29]后来提出了另一个模型，将角色和标签映射到一个较低维度的向量空间，并使用额外的图像来减少数据的稀疏性。然后，Mallya 和 Lazebnik [20]以及 Li等人[16]提出了两个模型，重点是通过明确地建模语义角色之间的依赖关系来改进角色预测。Mallya 和 Lazebnik[20]使用递归神经网络来建模角色依赖关系，并将标签预测为序列标注问题，同时使用融合网络[19]进行动作预测。Li等人[16]认为，帧中的所有角色都应该相互依赖，而不像序列标注中那样手动分配优先级给角色。因此，他们提出了一种基于门控图神经网络（GGNN）[18]的角色建模方法。这两个模型在帧预测方面取得了最高的结果，强调了在这个任务中建模角色相互依赖性的重要性。关于改进独立查询预测的多模态推理，视觉问答（VQA）[7, 10, 9, 1, 12,3]任务以众多高效的多模态推理方法引领潮流。受到这些的启发，我们利用了 Anderson等人[1]提出的一个非常简单但有效的 VQA 方法，以填补SR 中缺乏复杂的多模态推理应用的空白。然而，现有的VQA任务只需要独立回答问题，或者使用之前问题的答案来回答当前问题（例如：视觉对话[6]和视觉常识推理（VCR）[32]）。SR与这些任务不同，正如前面提到的，每个角色（我们试图找到答案的查询）都依赖于其动作的所有其他角色，没有任何定义的顺序，就像在视觉对话或VCR中一样。相互依赖的问题回答是 SR中的一个新颖要求，以前从未提出过。我们相信这对于其他任务，如多智能体环境中的具身问题回答[5]，具有潜在的有用性，其中智能体可以利用彼此的信息以及自身周围的信息来回答问题。因此，在这项工作中，我们提出了几种能够进行相互依赖的 VQA 的模型，旨在解决 SR中的语义角色预测。03. 上下文感知的情境识别的视觉推理03.1. 任务定义0情境识别定义了一个空间，其中包括一组离散的动词V、名词 N、角色 R 和帧 F。每个动词 v ∈ {1, ..., |V|}与一个帧 f ∈ F 相映射47380其中包括语义角色 R v � R。每个语义角色都与一个名词值 n∈ N ∪{�} 配对。图像 I 中的动作 v的一个实例形成了一个实现帧 F(I,v) = {(r_i, n_i): r_i ∈ R_v,n_i ∈ N ∪ {�}, i = 1, ..., |R_v|}。给定一张图像，SR的完整任务是预测动作及其相关实现帧的配对，这被称为情境 S = {v,F(I,v)}。动作预测被认为是一个独立于角色预测的分类任务，与现有工作[20,16]中的角色预测无关。由于我们关注的是相互依赖的查询回答，我们只针对当给定动作 v 时预测实现帧F(I,v)，因为动作分类与角色无关。因此，我们将我们的角色预测任务正式称为帧识别（FR）。03.2. 帧识别和主干模型0我们将FR问题定义为视觉问答（VQA）问题；给定一张图像 I 和查询 q ，我们希望从图像中找到与查询 q最相关的信息来回答查询 q。我们将帧的每个语义角色的查询表示为当前帧动词名称和语义角色名称的联合嵌入。模型需要回答所有这些查询才能检索到最终实现的帧。我们采用了由Anderson等人提出的Top-DownAttention（TDA）模型作为我们的VQA机制的主干，因为它简单有效，并且与其他最先进的VQA模型（如BAN）相比，它对查询结构的依赖较小，后者依赖于多通道查询表示。因此，TDA允许我们使用简单的单通道查询进行VQA，这对于FR是足够的。给定图像的一组区域特征和一个查询嵌入，TDA根据查询嵌入计算每个图像区域特征的相关性分数。然后，根据相关性分数对所有图像区域特征进行加权求和，并与查询嵌入进行融合。这创建了回答当前查询的特征表示，然后通过分类器发送以获得最终的答案标签。03.3. 帧识别的自顶向下注意力0图2展示了我们如何利用TDA模型进行语义角色预测以获取最终的帧 F ( I,v )。首先，我们将当前帧中的每个语义角色作为一个单独的查询发送到我们的TDA模型中（处理相互依赖的查询将在下面讨论）。在模型中，我们首先通过使用CNN对图像 I进行编码并在最后一个池化层之后获取网格特征来获得图像区域特征 E I = { e n } N e n =1 。N e是图像的区域数量。我们使用当前帧的语义角色 r 和动词 v的词嵌入来生成查询编码 q 。0图2.自顶向下注意力（TDA）模型用于SR中的帧识别。动词“Brushing”的每个角色形成一个查询，接收图像编码，并通过TDA网络和分类器作为独立查询进行处理，以获得最终的名词预测。相同颜色的节点表示共享参数的相同网络。0E I = 通过 CNN ( I ) 得到，(1) q =通过 f q ([ w v , w r ]) 得到，(2)0其中 E I ∈ R N e × d img ，f q 是一个非线性层。[ ∙ ]用于表示连接。q ∈ R d q ，动词和角色的嵌入向量是 w v，w r ∈ R d wemb。这些嵌入在模型训练期间随机初始化并学习。（所有网络的详细信息（例如 f q）在补充材料中提供）。然后，我们根据查询编码计算图像区域级别的注意力权重，并得到更新后的图像编码，0s n = 通过 w a f a ([ e n , q ]) T 得到，(3)0α n = exp( s n ) / ∑ N e i=1 exp( s i ) ，˜E =0N e0n =1 α n e n ，(4)0s n 表示当前查询 q 的非归一化区域级注意力权重。α n表示区域 n 的归一化注意力权重，而 ˜ E是聚合的图像编码，̸(10)47390查询的图像编码。w a ∈ R d hidden 是模型参数，f a是一个非线性层。然后，更新后的图像编码 ˜ E 和查询编码q 被融合在一起，得到非归一化的隐藏表示 h u ∈ R dhidden ，0h u = 通过 f pq ( q ) ◦ f pi ( ˜ E ) 得到，(5)0其中 f pq 和 f pi是非线性层，用于将查询和图像编码投影到不同的空间，◦表示逐元素乘法。逐元素乘法可能导致模型收敛到不理想的局部最小值[31]。为了避免这种情况，Yu等人[31]使用了幂归一化（z ← sign(z) |z| 0.5）和ℓ2归一化（z ←z/∥z∥）层。根据他们的方法，我们还通过添加一个Dropout[26]层和逐元素乘法后的归一化来修改原始的TDA模型，以产生归一化的隐藏表示 h ：0h = ℓ2范数(PowerNorm(Dropout(hu)))，（6）0分类器最后，将归一化的隐藏表示通过非线性网络fclassifier，然后通过SoftMax函数获得每个角色标签预测的最终概率分布。0p = SoftMax(fclassifier(h))，（7）0学习和推理我们使用交叉熵损失来训练模型，如下所示：0损失 =0FI �0j = 10�0�−0|N|0i = 1 y(j,i)log(pi)0�0�（8）0y(j,i) ∈{0,1}是从第j个实现帧中对名词i进行编码的真值，其中对于每个图像可以有FI个实现帧。还要注意pi ∈p。这个SituationRecognition数据集imSitu[30]对于每个图像包含三个实现帧注释。对于完整的帧预测，首先我们获取给定动词v的所需角色列表Rv，以便在模型中查询以获取每个角色r ∈Rv的名词标签预测ˆi = argmaxi pri。04.处理相互依赖的语义角色0正如我们所提到的，上述系统独立地回答角色查询。然而，语义角色不仅取决于其动作，还取决于当前帧的其他语义角色，我们将其称为其相邻角色。例如，在图1中，对于动作“刷牙”，语义角色“工具”的相邻角色是“代理人”、“目标”和“物质”。0现有的基于查询的视觉推理方法[7，1，012]旨在单独回答问题。尚未研究如何整合来自相互依赖查询的信息以提高单个查询的性能。因此，我们的基础TDA模型也面临着这个限制。然而，对于结构化预测任务，如FR，建模相互依赖性是重要的。因此，为了弥补现有基于查询的视觉推理方法和相互依赖模型之间的差距，我们提出了三种不同的新方法：（i）上下文感知查询（CAQ），（ii）上下文感知图像（CAI）和（iii）上下文感知图像重建（CAIR）。04.1.上下文感知查询（CAQ）用于相互依赖的语义角色预测0CAQ提出使用来自相邻角色的信息来更新原始查询编码，作为将结构整合到现有TDA模型中的机制。我们将从相邻角色检索到的聚合信息称为上下文。图3描述了该系统。0上下文生成我们使用当前动词v的所有角色的隐藏表示hr，其中r ={r1，...，r|Rv|}来自TDA模型，用于上下文生成。当为角色r生成上下文时，我们根据r的隐藏表示计算当前帧中所有其他角色的注意力，以决定每个相邻角色对当前角色的重要程度。然后，我们对每个相邻角色的隐藏表示进行加权，并将它们全部聚合起来生成角色r的上下文。0dbk = hWbQ(hrkWbK)T0√0dhidden，rk ∈ Rv\{r}，（9）0αbk =0�|Rv|i；ri�=rexp(dbi)，0rk∈Rv\{r}αbkhrkWbV，0c = [c1，...，cb，...，cB]WO，b ∈ {1...B}（11）0我们使用多头注意力[27]来计算不同表示子空间中的上下文，并将它们合并在一起以获得最终的上下文c（对于当前角色r）。B是头的数量。WbK∈Rdhidden×dhead，WbQ∈Rdhidden×dhead和WbV∈Rdhidden×dhead是将键、查询和值的隐藏表示投影到B个不同子空间的模型参数。在我们的情况下，键和值相等，它们表示相邻角色，而查询是当前角色。dhead = dhidden/B。0上下文感知查询生成和推理现在我们将上下文引入查询中，并得到上下文感知的查询编码qc。0qc = fcq([c, wv, wr]) (12)47400图3.基于上下文感知查询（CAQ）的推理。在这个例子中，上下文是为语义角色“工具”的查询生成的，使用它的邻居角色“代理人”、“目标”和“物质”，在动词“刷”的框架中。上下文生成器在第4.1节中讨论。最佳查看彩色版本。原始TDA组件（紫色表示）的输入与图2相同。0与方程2相比，方程12可以看作是使用上下文c调整查询编码，该上下文是从当前角色r的邻居角色的隐藏表示hrk派生出来的。然后，我们将更新后的查询编码qc和原始图像编码EI输入到方程3中。类似的推理过程一直进行到方程6，以获得新的隐藏表示hc。最后，hc将被发送到分类器进行最终预测。4.2.上下文感知图像（CAI）0在CAI中，我们将方程11中获得的上下文c添加到图像而不是问题中。这使我们能够仅从与上下文直接相关的图像中提取信息。这种方法提供了一种在推理之前突出显示上下文存在的情况下似乎重要的信息的方式。我们使用以下方程13将方程11中生成的上下文信息合并到图像区域编码中：0ecn = σ([c, en]Wic) ◦ en, en ∈ EI (13)0首先，我们将上下文与原始图像EI的所有en，n ∈Ne区域连接起来，并使用Wic ∈ R (dhidden + dimg) ×dimg进行线性变换。最后，通过sigmoid门传递，以确定每个区域的信息在推理步骤中需要发送多少。一旦我们获得了更新后的图像区域，我们将其与原始查询编码q一起输入到方程3中，而不是原始图像区域，并继续TDA机制。04.3. 上下文感知图像重构（CAIR）0CAIR旨在通过鼓励模型重构原始帧来改善帧内角色一致性。0使用所有角色的隐藏状态h重构原始图像。如果至少一个角色标签表示不正确，则由预测的实现帧重构的图像与原始图像不同。因此，为了构建与原始图像相似的图像，整个帧都需要准确。我们使用非线性层frecon从方程6的所有角色的隐藏表示h输出中生成重构图像，将图像的原始网格特征EI通过线性网络fflattenimg发送，以获得原始图像的向量表示。0ˆE = frecon([h1, ..., h|Rv|]) (14) Eorg =fflattenimg(EI) (15)0我们在方程8的原始交叉熵损失中添加了一个辅助的ℓ2损失，以鼓励模型进行角色标签预测，使得组合的帧预测能够尽可能准确地重构原始图像。0Lossrecon = ||Eorg − ˆE||2 (16)0当使用这种方法时，训练模型的最终损失如下。β是一个超参数。0L = Loss + βLossrecon (17)0动词模型 Top 1 动词 Top 5 动词0VGG分类器[20, 16] 36.83 63.480预测的查询模型 35.70 62.190RE-VGG分类器37.96 64.990表1. 仅使用动词进行预测的准确率百分比。对于使用黄金查询的模型，Top-1:43.21，Top-5: 68.83。47410FR模型值总值0TDA 72.96 37.600CAQ 73.62 38.710CAI 73.17 37.950CAIR 73.30 38.170表2. 提出的上下文感知方法在帧识别中的准确率性能。05. 评估05.1. 数据集和实现细节0我们使用imSitu[30]数据集进行实验，并遵循Yatskar等人[30]的实验设置和评估标准。这里我们报告了三个指标的结果。动词：动词预测，值：给定动词，如果与任何FI注释匹配，则角色-标签元组被认为是正确的，值-全部：当整个帧是正确的时候，意味着预测帧的所有角色-值元组至少与一个基准注释匹配。使用每个指标的准确率百分比来比较性能。imSitu数据集包含75K个训练样本，25K个开发样本和25K个测试样本，涵盖了V = 504个动词，R =190个角色和N =2001个名词，包括未知的UNK令牌。每个图像有F I =3个实现的帧。我们使用PyTorch[21]框架实现了我们的模型。我们使用VGG-16[24]作为我们的骨干CNN架构，以编码图像，遵循所有现有工作[30，29，20，16]的SR。我们在最终最大池化层之后提取大小为7×7×512的网格特征作为我们的图像区域，其中N e =49。有关整个实现和所有网络架构的完整细节，请参阅补充材料。05.2. 增强推理的动词预测0在本节中，我们仅讨论动词预测的实验。我们将讨论使用我们提出的上下文感知推理进行的帧识别的主要实验在下一节中。我们分析了当视觉推理扩展到CNN之外时的动词预测性能。表1显示了我们遵循的多种方法的性能。首先，我们报告了CNN[15]动词分类器的结果，这是许多现有工作[30，20，16]中使用的基线模型。对于增强推理预测，我们使用第3.3节中解释的相同的TDA架构，并使用Agent和Place角色标签作为方程2中的查询来推理图像的动词。我们使用真实的Agent和Place标签注释来形成我们参考黄金查询模型中的黄金查询。在预测的查询模型中，使用来自我们基于TDA的预训练FR的Agent和Place标签预测来制定预测的查询。0由于FR模型的预测错误，我们观察到结果中有相当大的性能下降。最后，我们有了我们的增强推理动词预测模型（RE-VGG），其中我们将基于预测角色的TDA动词模型的视觉推理能力与VGG分类器相结合，通过将两个模型的最后FC层输出的动词得分相加来获得我们最佳的动词模型。05.3. 上下文感知推理用于帧识别0在本节中，我们讨论了本工作的主要贡献，即上下文融合对于改善帧识别的效果，并在表2中展示了结果。我们的TDA模型独立回答查询，不考虑当前帧的邻居角色。接下来，我们对处理相互依赖查询的三个提出的模型进行了性能测试。CAQ的性能优于CAI和CAIR，成为处理相互依赖查询的最佳方法。原因是它只使用上下文信息作为推理的指导，如果模型认为原始图像的特征比上下文更重要来回答查询，CAQ也允许这样做。但是在CAI中，由于使用上下文改变了原始图像，它根本没有机会使用原始图像的信息。CAIR只是间接地鼓励角色的相互依赖性，并且不像CAQ那样明确强制，因此它的性能不能像CAQ那样好。05.4. 与现有工作的比较0表3和表4显示了我们的模型与现有工作的性能比较。不同方法的结果是通过运行作者提供的实现（如果可用）或从他们的论文中获取的（如果实现不可用）获得的。然而，对于基于GGNN的模型[16]，作者提供的实现无法收敛。在与作者沟通后，我们重新实现了该模型，我们的结果与作者报告的结果相似，除了“value-all”，我们观察到比[16]中报告的准确性较低。我们报告了TDA模型和我们最佳的相互依赖查询处理CAQ模型的结果。我们处理角色预测的TDA模型已经超过了包括显式建模角色依赖性的所有现有工作，包括[20,16]的模型。这不仅证明了复杂的多模态推理的有效性，还展示了除了VQA之外的视觉推理任务如何从采用基于查询的推理方法中受益。我们通过CAQ进一步提高了性能，并实现了FR的最新成果。我们报告了基于CNN的动词分类器VGGVerb和我们增强推理的RE-✓-✓73.6238.63-✓✓73.1737.99✓✓-72.9437.38✓✓✓73.4138.2147420top-1预测的动词top-5预测的动词真实动词平均动词值值-全部动词值值全部值全部0CNN + CRF[30] 32.25 24.56 14.28 58.64 42.68 22.75 65.90 29.50 36.320张量组合[29] 32.91 25.39 14.87 59.92 44.50 24.04 69.39 33.17 38.020上述+数据增强[29] 34.2 26.56 15.61 62.21 46.72 25.66 70.80 34.82 39.570VGG动词，GGNN†[16] 36.83 28.31 16.55 63.48 47.27 25.77 69.63 33.58 40.180VGG动词，TDA（我们的）36.83 29.01 17.52 63.48 48.82 27.91 72.96 37.60 41.770VGG动词，CAQ（我们的）36.83 29.24 18.02 63.48 49.22 28.62 73.62 38.71 42.220RE-VGG，CAQ（我们的）37.96 30.15 18.58 64.99 50.30 29.17 73.62 38.71 42.940表3. imSitu开发集上的情境预测结果。†表示我们实现的结果。每列中最佳性能以粗体突出显示，次佳性能以下划线表示。0top-1预测的动词top-5预测的动词真实动词平均动词值值-全部动词值值全部值全部0CNN + CRF[30] 32.34 24.64 14.19 58.88 42.76 22.55 65.66 28.96 36.250张量组合[29] 32.96 25.32 14.57 60.12 44.64 24.00 69.20 32.97 37.970上述+数据增强[29] 34.12 26.45 15.51 62.59 46.88 25.46 70.44 34.38 39.480VGG动词，GGNN†[16] 36.97 28.21 16.27 63.62 47.16 25.32 69.34 33.29 40.020VGG动词，TDA（我们的）36.97 29.04 17.56 63.62 48.81 27.80 72.80 37.46 41.750VGG动词，CAQ（我们的）36.97 29.29 17.98 63.62 49.22 28.45 73.41 38.52 42.180RE-VGG，CAQ（我们的）38.19 30.23 18.47 65.05 50.21 28.93 73.41 38.52 42.880表4. imSitu测试集上的情境预测结果。每列中最佳性能以粗体突出显示，次佳性能以下划线表示。0VGG模型，我们也取得了动词预测的最新成果。05.5. 定性分析0图4显示了imSitu开发集中“组装”和“点燃”两个动词的两个样本预测，其中包括TDA和CAQ模型输出的所有角色的预测注意力热图。角色依赖矩阵是通过组合从方程9中生成的所有角色的未归一化邻居角色权重生成的。对于动词“组装”，TDA模型错误地预测了角色“工具”。当CAQ模型为角色“工具”生成上下文时，矩阵的第二行显示角色“部件”和“目标物品”对其产生了最大影响。我们可以看到这些角色的正确预测通过直接调整注意力到“钻头”来指导CAQ模型中的“工具”纠正其预测。在第二个样本中，角色“物品”的正确预测（在动词“点燃”中对“工具”最重要的邻居）通过CAQ中的上下文信息指导纠正了TDA中“工具”的注意力错误。这些结果既展示了我们模型的有效性，也展示了其可解释性。05.6. 剔除研究0我们在本节中讨论了我们对提出的上下文融合方法的分析，并在此处报告了结果。0CAQ CAI CAIR 值全部值0提出的方法 - - 73.62 38.710表5.结合上下文融合方法后的模型性能。第一行包含我们提出的最终CAQ模型作为参考。0表5中显示，尽管根据表2，TDA能够从CAIR中获益，但CAQ和CAI无法通过与CAIR的结合实现改进。这是因为这些模型中生成的上下文已经隐含地促进了角色间的一致性，以保持跨帧的预测稳定性。因此，CAIR只是一种无效的重复。当CAQ与CAI结合时，性能下降。原因是当图像和查询都与上下文结合时，没有空间供个体推理从原始图像中融入重要信息，而这对于当前角色可能特别重要。这个结果传达了一个重要信息，即允许模型有一些独立推理的空间是多么重要，而不完全依赖角色间的相互依赖，这可能导致训练集中对象共现的偏见。然而，将CAIR添加到该模型后，这个特定问题在一定程度上得到了解决。这是因为方程16中的损失重构将帧中的所有预测对象推向生成的图像表示更接近原始图像，从而调节模型不偏向训练集对象共现。We address the task of Situation Recognition as a query-based visual reasoning problem.We further extend ourwork by proposing novel mechanisms to enable query-based visual reasoning models to handle inter-dependent47430图4.多模态推理和两个动词的角色依赖矩阵的注意力图可视化。在注意力图和矩阵中，颜色越浅表示值越高。矩阵的对角线元素以最深的颜色表示，以显示当前角色的自身值在上下文生成中不被视为邻近角色。每个角色的预测名词在每个注意力图后面标示，并且如果预测正确则以绿色标示，否则以红色标示。请注意，使用来自邻近角色的上下文改进了“工具”预测的注意力。由于空间限制，我们已删除了动词“组装”的最不重要的“代理人”角色的注意力图。最好以彩色版本查看。0我们将情境识别任务作为基于查询的视觉推理问题进行讨论。我们进一步扩展了我们的工作，提出了新的机制，使基于查询的视觉推理模型能够处理相互依赖的问题。06. 结论0查询是情境识别的独特要求。据我们所知，这是首次尝试将相互依赖的查询处理能力纳入基于查询的视觉推理模型。我们的方法在情境识别方面取得了新的最先进结果。0致谢：本工作得到STElectronics和新加坡国家研究基金会（NRF）总理办公室的支持，根据新加坡人工智能计划（AISG-100E2018-005）和能源市场管理局（EP奖项号码：NRF2017EWT-EP003-061）的部分支持。[1] Peter Anderson, Xiaodong He, Chris Buehler, DamienTeney, Mark Johnson, Stephen Gould, and Lei Zhang.Bottom-up and top-down attention for image captioning andvisual question answering. In CVPR, volume 3, page 6, 2018.2, 3, 447440参考文献0[2] Collin F. Baker, Charles J. Fillmore, and John B. Lowe.伯克利框架网络项目.在第36届计算语言学协会年会和第17届国际计算语言学会议(COLING-ACL '98)上, 1998年8月10日至14日, 加拿大蒙特利尔,第86-90页, 1998年. 20[3] R´emi Cad`ene, Hedi Ben-younes, Matthieu Cord, andNicolas Thome. MUREL: 用于视觉问答的多模态关系推理.在IEEE计算机视觉与模式识别会议(CVPR 2019)上,2019年6月16日至20日, 美国加利福尼亚州长滩, 第1989-1998页,2019年. 20[4] Joao Carreira, Pulkit Agrawal, Katerina Fragkiadaki, andJi- tendra Malik. 使用迭代误差反馈进行人体姿态估计.在IEEE计算机视觉与模式识别会议(CVPR 2016)上, 2016年6月. 10[5] Abhishek Das, Samyak Datta, Georgia Gkioxari, StefanLee, Devi Parikh, and Dhruv Batra. 具身化问答.在2018年IEEE计算机视觉与模式识别会议(CVPR 2018)上,2018年6月18日至22日, 美国犹他州盐湖城, 第1-10页, 2018年. 20[6] Abhishek Das, Satwik Kottur, Khushi Gupta, Avi Singh,Deshraj Yadav, Jos´e M.F. Moura, Devi Parikh, and DhruvBatra. 视觉对话. 在IEEE计算机视觉与模式识别会议(CVPR2017)上, 2017年. 20[7] Yash Goyal, Tejas Khot, Douglas Summers-Stay, DhruvBa- tra, and Devi Parikh. 让V在VQA中有意义:提升图像理解在视觉问答中的作用.在计算机视觉与模式识别会议(CVPR 2017)上, 2017年. 2 , 40[8] Yiluan Guo and Ngai-Man Cheung.使用多级相似度进行高效深度人物重识别.在IEEE计算机视觉与模式识别会议(CVPR 2018)上, 2018年. 10[9] Drew A Hudson and Christopher D Manning.用于机器推理的组合注意力网络. 在国际学习表示会议(ICLR2018)上, 2018年. 20[10] Justin Johnson, Bharath Hariharan, Laurens van derMaaten, Li Fei-Fei, C. Lawrence Zitnick, and Ross B. Girshick.CLEVR: 一个用于组合语言和基础视觉推理的诊断数据集.在2017年IEEE计算机视觉与模式识别会议(CVPR 2017)上,2017年7月21日至26日, 美国夏威夷檀香山, 第1988-1997页,2017年. 20[11] Justin Johnson, Ranjay Krishna, Michael Stark, Li-Jia Li,David Shamma, Michael Bernstein, and Li Fei-Fei.使用场景图进行图像检索. 在IEEE计算机视觉与模式识别会议上,2015年, 第3668-3678页. 10[12] Jin-Hwa Kim, Jaehyun Jun, and Byoung-Tak Zhang.双线性注意力网络. 在第31届神经信息处理系统会议(NeurIPS2018)上, 2018年12月3日至8日, 加拿大蒙特利尔, 第1571-1581页,2018年. 2 , 3 , 40[13] Ranjay Krishna, Michael Bernstein, and Li Fei-Fei.最大化信息的视觉问题生成. 在IEEE计算机视觉与模式识别会议上,2019年. 20[14] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E. Hinton.使用深度卷积神经网络进行ImageNet分类.在第25届神经信息处理系统会议(NIPS 2012)上,2012年12月3日至6日, 美国内华达州塔霍湖, 第1106-1114页,2012年. 10[15] Yann Lecun and Yoshua Bengio.图像、语音和时间序列的卷积网络. MIT Press, 1995年. 2 , 60[16] Ruiyu Li, Makarand Tapaswi, Renjie Liao, Jiaya Jia, RaquelUrtasun, and Sanja Fidler. 使用图神经网络进行情境识别.在IEEE国际计算机视觉会议(ICCV 2017)上,2017年10月22日至29日, 威尼斯, 意大利, 第4183-4192页,2017年. 2 , 3 , 5 , 6 , 70[17] Yikang Li，Wanli Ouyang，Bolei Zhou，KunWang和XiaogangWang。从对象、短语和区域标题生成场景图。在IEEE计算机视觉和模式识别会议上，第1261-1270页，2017年。10[18] Yujia Li，Daniel Tarlow，Marc Brockschmidt和RichardZemel。门控图序列神经网络。arXiv预印本arXiv:1511.05493，2015年。20[19] Arun Mallya和SvetlanaLazebnik。学习用于动作和人物-对象交互的模型，并将其转移到问题回答。在计算机视觉-ECCV2016-第14届欧洲会议上，荷兰阿姆斯特丹，2016年10月11日至14日，第414-428页，2016年。20[20] Arun Mallya和SvetlanaLazebnik。用于情境识别的循环模型。在2017年IEEE国际计算机视觉会议上，威尼斯，意大利，2017年10月22日至29日，第455-463页，2017年。2，3，5，6，70[21] Adam Paszke，Sam Gross，Soumith Chintala，GregoryChanan，Edw

下载后可阅读完整内容，剩余1页未读，立即下载