基于多跳特征调制的视觉推理和视觉对话

170 浏览量更新于2023-10-13 收藏 963KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

基于多跳特征调制的视觉推理Florian Strub1，Mathieu Seurin1，Ethan Perez2，3，Harm deVries2，J'er'emieMary4，PhilippePreux1，AaronCourville2，5OlivierPietquin61 U niv. Lille，CNRS，Inria， UMR9189CRISt AL2MIL A， Uivrsit′edeMontr′eal，3莱斯大学，4克里特奥，5CIFAR研究员，6谷歌大脑抽象。最近在计算机视觉和自然语言处理方面的突破激发了人们对具有挑战性的多模态任务（诸如视觉问答和视觉对话）的兴趣。对于这样的任务，一种成功的方法是经由特征线性调制（FiLM）层，即，每通道缩放和移位。我们建议以多跳方式而不是像先前的工作那样一次生成沿着卷积网络的层次结构向上的Film层的参数通过在关注语言输入和生成胶片层参数之间交替，这种方法能够更好地缩放到具有较长输入序列（例如对话）的设置。我们证明，多跳电影一代显着优于现有国家的最先进的猜测什么？！视觉对话任务，并匹配国家的最先进的参考对象检索任务，我们提供了额外的定性分析。关键词：深度学习，计算机视觉，多模态学习，自然语言1介绍在过去的几十年里，计算机视觉在图像分类[27，15]，图像分割[30]和对象检测[12]方面取得了许多令人印象深刻的突破，通过将卷积神经网络应用于大规模的标记数据集，通常超过人类的表现。这些系统给出诸如类标签、分割掩码或边界框之类的输出，但是对于人类来说，通过自然语言与这些系统交互将是更自然的为此，研究界引入了各种多模态任务，如图像字幕[48]，引用表达式[23]，视觉问答[1，34]，视觉推理[21]和视觉对话[6，5]。这些任务需要模型有效地整合来自视觉和语言的信息。一种常见的方法是在通过连接[34]、元素乘积[25，31]或双线性池化[11]将它们组合之前，使用大型单峰网络独立地处理这两种模态。受到机器翻译中注意力成功的启发[3]，一些工作提出了2F. Strub和M. Seurin和E. Perez和H. Vries等人参考猜猜什么- 穿毛衣是个人吗是的- 第四个人是个女孩吗？是的- 女孩拿着一个白色的飞盘她有蓝色的飞盘？没有图第一章：猜测和猜测！任务在ReferIt中，一个表达式标识所选对象（带有蓝色边界框），而GuessWhat？！通过一系列是/否问题识别对象。将各种形式的空间注意力纳入偏置模型，以专注于特定问题的图像区域[48，47]。然而，空间注意力有时仅在视觉问题回答的简单基线上有适度的改善[20]，并且可能在涉及多步推理的问题上挣扎[21]。最近，[44，38]引入了特征线性调制（Film）层，作为视觉和语言任务的一种有前途的方法这些层应用优先级排序和优先级排序以在诸如语言的外部输入的条件下对网络中的每个用户的视频进行编码，例如：、标题、问题或完整对话。这样的逐特征仿射变换允许模型动态地突出当前任务的关键视觉特征。的参数由单独的网络（所谓的胶片生成器）来确定缩放和移位特征或特征图的胶片层的参数，该网络使用外部调节输入来预测这些在各种架构中，Film在视觉问答[44，38]，多模态翻译[7]和语言引导的图像分割[40]方面优于现有技术。然而，设计薄膜发电机的最佳方法仍然是一个悬而未决的问题。对于视觉问答和视觉推理，以前的工作使用单跳FiLM生成器，可以一次预测所有FiLM参数[38，44]。也就是说，递归神经网络（RNN）顺序地处理输入语言标记，然后经由多层感知器（MLP）输出所有的FilLM参数。在本文中，我们认为，使用多跳电影发电机是更好地适用于涉及较长的输入序列和多步推理，如对话的任务。即使对于较短的输入序列任务，单跳FiLM生成器也可能需要大型RNN来实现强大的性能;在CLEVR视觉推理任务[21]上，其仅涉及小词汇表和模板化问题，[ 38]中的影片生成器使用具有4096个隐藏单元的RNN，其包括模型参数的几乎90%。因此，具有多跳编码的模块可以更容易扩展到涉及人类生成的语言的更困难的任务，所述人类生成的语言涉及更大的词汇和更多的歧义。作为一个直观的例子，考虑图1中的对话。1，通过它，一个说话者定位了图像中的第二个女孩，那个没有“蓝头发”的女孩。对于这种情况，单个跳变模型从推理的步骤中确定要在图像上执行的步骤和顺序;因此，它可以在单个镜头中决定在整个视觉网络中突出显示特征图基于多跳特征调制的视觉推理3检测非蓝色或女孩。相比之下，多跳模型可以首先确定所需的最直接的推理步骤（即，最直接的推理步骤）。定位女孩），突出显示相关的视觉特征，然后确定下一个立即的必要推理步骤（即，定位蓝色飞盘）等等。虽然以任一方式推理可能是适当的，但是后一种方法可以更好地扩展到较长的语言输入和/或模糊的图像，其中推理步骤的完整序列难以预先确定，这甚至可以通过在处理图像时具有中间反馈来进一步因此，在本文中，我们探讨了几种方法来产生电影参数在多跳。这些方法引入了控制语言和视觉处理的中间上下文嵌入，并且它们在经由语言序列上的注意机制（并且可选地通过合并图像激活）更新上下文嵌入和预测电影参数之间交替。我们在参考文献[23]和GuessWhat上评估我们的方法？！[6]，图中所示的两个视觉和语言任务。1.一、我们表明，多跳电影一代显着优于单跳电影模型和现有的最先进的。猜猜什么？！我们的最佳模型仅使用语言输入来更新上下文嵌入，而对于ReferIt，结合视觉反馈来更新上下文嵌入提高了性能。综上所述，本文做出了以下贡献：– 我们介绍了多跳电影架构，并证明我们的方法显着提高或匹配的国家的最先进的猜猜看？！ Oracle 任务， GuessWhat ？！Guesser任务和ReferIt Guesser任务。– 我们表明，多跳电影架构优于单跳模型，埃尔涉及复杂的视觉推理的视觉和语言任务– 我们发现，包括视觉反馈到上下文嵌入的多跳电影发生器是有帮助的任务，不包括对象类别标签，如参考。2背景在本节中，我们将解释理解我们模型的先决条件：RNN、注意力机制和Film。随后，我们使用这些积木，提出了一个多跳电影模型。2.1语言处理自然语言处理中的一种常见方法是使用RNN将一些语言输入序列l编码为固定大小的嵌入。输入（作为一个问题或字典）是长度为T的w或dsω1：T的一个序列的问题，其中每个单词ω t包含在预定义的词汇表V内。我们通过学习的查找表e嵌入每个输入令牌，并获得密集的词嵌入eω=e（ωt）。嵌入序列{eω}T然后被馈送tt到RNN，其产生隐藏状态序列{st}Tt=1通过重复t=14F. Strub和M. Seurin和E. Perez和H. Vries等人不Fe不不应用转换函数f：st+1=f（st，eωt）为了更好地处理输入序列中的长期依赖性，我们使用具有层归一化[2]的门控递归单元（GRU）[4]作为转换函数。在这项工作中，我们使用一个双向GRU，其中包括一个前向GRU，产生隐藏状态→−st 从ω1至ωT和第二个反向GRU，产生状态←s−byrun ningfromromωTtooω1. 我们将数据存储在定向GRUstes中st=[→−s;←s−]ateachsteptttogetafinalGRUste，whichich eweteneasthe语言序列l的压缩嵌入el。2.2注意机制我们所考虑的注意力的形式首先是在机器翻译的背景下引入的[3，33]。该机制基于编码RNN的隐藏状态在各个解码时间步长处与解码RNN的相关性来对编码RNN的隐藏状态进行加权平均随后的空间注意机制将原始机制扩展到图像字幕[48]和其他视觉和语言任务[47，24]。更正式地，给定任意语言嵌入el和图像激活Fw、h、c，其中w、h、c分别是一层处的图像特征F的宽度、高度和通道索引，我们获得最终视觉嵌入ev如下：exp（ξw，h）ξw，h=MLP（g（w，h，·，l））;αw，h=Σw′，h′exp（ξw′，h′）;ev= Σw，hαw，hFw，h，·，（一）其中MLP是多层感知器，并且g（.，. ）是任意的融合机制（级联、逐元素乘积等）。我们将使用多模态低秩双线性（MLB）注意[24]，其定义g（.，. ）为：g（Fw，h，·，el）= tanh（UTFw，h，·）=tanh（VTel），（2）其中◦表示逐元素乘积，并且其中U和V是可训练的权重矩阵。我们选择MLB注意力，因为它是参数有效的，并且表现出很强的经验表现[24，22]。2.3特征线性调制在图像风格化[8]的背景下引入了特征线性调制，并对其进行了扩展，并证明其对于多模态任务（如视觉问答）非常有效[44，38，7]。逐行线性调制（FiLM）层将每通道缩放和移位应用于卷积特征映射。这样的层是参数有效的（每个特征图只有两个标量），同时仍然保持高容量，因为它们能够放大或缩小，清零或否定整个特征图。在视觉和语言任务中，另一个网络，所谓的电影生成器h，预测这些基于多跳特征调制的视觉推理5图2：用于应用FiLM的多跳FiLM架构的概述输入、层和激活分别用绿色、蓝色和紫色表示注意，初始FiLM架构直接使用el，T来预测FiLM参数。调制来自语言输入el的参数。更正式地说，薄膜层在一个映射Fw，h，c上构成一个模型，如下所示：[γ;β]=h（el）;F.，.，c=γcF.，.，c+βc，（3）其中γ和β是调节原始特征图F.，. C.我们将使用上标k∈[1;K]来指代网络中的第k个薄膜层可以插入卷积网络的整个层次结构中，无论是预先训练和固定[6]还是从头开始训练[38]。现有的基于电影的模型[44，38，7]已经使用单跳电影生成器来预测所有层中的电影参数，例如： - MLP，其将语言嵌入el作为输入[44，38，7]。3多跳薄膜结构在本节中，我们将介绍多跳电影架构（如图所示）。2）以迭代的方式预测Film层的参数，以更好地缩放到更长的输入序列，例如在对话中。另一个动机是通过迭代地关注两个管道，更好地将语言推理与视觉推理分开。我们引入一个上下文向量Ck，作为语言和视觉管道的控制器。我们用双向RNN的最终状态来初始化上下文向量，并按顺序（从最低到最高卷积层）对每个薄膜层重复以下过程：6F. Strub和M. Seurin和E. Perez和H. Vries等人不不不不膜通过在RNN状态上执行注意（提取相关信息）来更新向量，并且因此，使用所述相关信息来执行RNN的因此，上下文向量使得模型能够在迭代地调制图像特征的同时在语言流水线上执行多跳推理。更正式地，上下文向量计算如下：.c0=sTck=Σκk（ck−1，s）s，（4）ttt 不其中：exp（χk）κk（ck−1，st）=Σ不不exp（χk）;χk（ck−1，st）=MLPAttn（g′（ck，st）），（5）其中χk对（ck−1，st）的依赖性可以省略以简化符号。MLPAttn是一个网络（跨层共享），有助于产生atten- tion权重。 g′可以是任何有助于选择相关上下文的融合机制;这里我们使用一个简单的点积[33]，因此g′（ck，st）= ck◦ st。最后，使用层相关的神经网络进行薄膜网络MLPk：[ γk; βk]=MLPk（ck） ;Fk= γ kFk+ β k。（六）膜w，h，cC... C c作为正则化，我们在每个注意步骤之后在上下文向量的顶部附加一个归一化层[2]外部信息。一些任务提供可用于进一步改善视觉调制的附加信息。例如，GuessWhat？！向模型提供地面实况对象的空间特征，这些模型必须回答关于该对象的问题。我们的模型结合了这些功能，通过concate-nating他们的上下文向量生成电影参数之前视觉反馈。受共同注意机制[31，54]的启发，我们还探索将视觉反馈纳入多跳电影架构。为此，我们首先提取图像或作物特征Fk（紧接在调制之前），并在空间维度上应用全局均值池化。然后，在生成下一组Film参数之前，我们将此视觉状态连接到上下文向量ck中4实验在本节中，我们首先介绍ReferIt和GuessWhat？！数据集和各自的任务，然后描述我们的整体多跳电影架构1。1代码和超参数可在https://github.com/GuessWhatGame获得基于多跳特征调制的视觉推理7图3、整体模型。由视觉管道（红色和黄色）和语言管道（蓝色）组成，并包含任何其他上下文信息（绿色）。4.1数据集参考[23，51]是一个合作的两人博弈。第一个玩家（Oracle）在丰富的视觉场景中选择一个对象，他们必须为这个对象生成一个引用它的表达式（例如，根据这个表达式，第二个玩家（猜测者）必须在图像中选择一个对象。存在四个ReferIt数据集：RefClef、RefCOCO、RefCOCO+和RefCOCOg。第一个数据集包含来自ImageClef数据集[35]的20K图像上的130K参考，而其他三个数据集分别包含来自MSCOCO数据集[29]的20K、20K和27K图像上的142K、142K和86K参考。每个数据集都有很小的差异。RefCOCO和RefClef使用不同的图像集构建。RefCOCO+禁止使用某些词语，以防止对象引用过于简单，RefCOCOg仅依赖于包含来自同一类别的2-4个对象的图像。RefCOCOg还包含比RefCOCO更长和更复杂的句子（8.4 vs. 3.5平均单词）。在这里，我们将显示Guesser和Oracle任务的结果。猜猜什么[6]是一个合作的三智能体游戏，其中玩家看到一个包含多个对象的丰富视觉场景的图片。一个玩家（先知）在场景中随机分配一个对象。第二个玩家（怀疑者）瞄准向先知询问一系列是非问题，以收集足够的证据，使第三个玩家（猜测者）能够正确地定位图像中的对象。猜猜什么？！数据集由131K成功的自然语言对话组成，其中包含来自MSCOCO的超过63K图像上的650K问答对[29]。对话平均包含5.2个问答对和34.4个单词在这里，我们将专注于Guesser和Oracle任务。8F. Strub和M. Seurin和E. Perez和H. Vries等人φ4.2任务描述游戏功能。这两个游戏都由三元组（I，l，o）组成，其中I∈R3×M×N是RGB图像，l是某种语言输入（即一连串的词）描述I中的对象o。对象〇由对象类别、逐像素分割、基于边界框信息的I的RGB裁剪以及手工制作的空间信息X空间来定义，其中xspatial=[xmin，ymin，xmax，ymax，xcenter，ycenter，wbox，hbox]（7）我们用一个token替换出现两次或更少的单词。Oracle任务给定一个图像I，一个物体o，一个问题q，和一个序列δ当a∈{是，否，N/A}时，a的任务是产生正确回答问题q的答案a。在我们的实验中，我们将使用符号（D）时，前面的问答对与问题q连接以获得单个标记序列S.同样，我们将使用符号（Q）时，放弃前面的问题-答案.使用交叉熵损失来训练oracle。Guesser任务。给定图像I、对象列表O=o1：Φ、目标对象o*∈O和对话D，猜测者需要输出每个对象o φ是目标对象o* 的概率σ φ。在[17]之后，通过选择具有最高正确概率的对象来评估猜测者。注意，即使个体概率σφ在0和1之间，它们的总和也可以大于1。更正式地说，Guesser损失和误差计算如下：LGuesser=−1N游戏NgΣames 1ΣΦΦnnφlog（p（o*|In，on，Dn））（8）E猜测=−1N游戏NgΣamesn1（o*I=〇argmaxΦn）（9）φ其中1是指示函数，Φn是第n个游戏中的对象数量4.3模型我们使用类似的模型来引用和猜测什么？！并在本小节中提供其体系结构细节。对象嵌入对象类别被送入密集查找表ecat，空间信息被缩放到[-1;1]，然后经由非线性投影被上采样到空间。我们在引用模型中不使用对象类别。我们首先将图像和对象裁剪的大小调整为448×448，然后从ImageNet [41]上预训练的ResNet-152 [15]（block 3）中提取14× 14×1024维特征。在[38]之后，我们将这些特征馈送到具有批归一化[19]和整流线性单元[37]（ReLU）的3× 3卷积层然后，我们堆叠四个经调制的残差块（如图2所示），每个残差块对应于每个残差块。σ基于多跳特征调制的视觉推理9vv通过（按顺序）1× 1卷积层（128个单元）、ReLU激活、3× 3卷积层（128个单元）和不可训练的批量归一化层产生一组特征图Fk然后，残差块通过将残差块映射到Fk来调制Fk。最后，残余连接对两个ReLU输出的激活求和。在最后一个残差块之后，我们使用1× 1卷积层（512个单元），其中包含批量归一化和ReLU，然后是MLB注意力[24]（256个单元和1个一瞥），以获得最终的嵌入ev。注意，我们的模型使用了两个独立的可视化管道模块：一个用于提取调制的图像特征e_img，一个用于提取调制的作物特征e作物。为了结合空间信息，我们将两个坐标特征图连接起来，这两个坐标特征图指示相对的x和y空间位置（缩放到[-1，1]）与每个卷积层之前的图像特征（除了卷积层之后的Film层）。此外，逐像素分割S∈{0， 1}M×N在被连接到特征图之前被重新缩放为14×语言流水线我们通过使用具有dropout的单词嵌入查找（200维），然后使用具有层归一化的Bi-GRU（512× 2单元）来计算语言嵌入[2]。如第3节所述，我们用最后一个RNN状态c0=sT初始化上下文向量。然后，我们通过具有线性投影和ReLU激活的注意力机制来关注其他Bi-GRU状态，并使用层归一化来正则化新的上下文向量。我们将空间信息espat和对象类别信息ecat连接到上下文向量。在一些实验中，我们还连接了由中间视觉特征组成的第四个嵌入均值合并后的Fk最后，我们使用线性投影将嵌入映射到Film参数。最终层我们首先通过连接视觉管道的输出efinal=[eimg;ecrop]在应用线性V V投影（512个单元），具有ReLU和softmax层。训练过程我们使用Adam [26]（学习率3. 10 −4），丢失率为0.5，权重衰减为5。卷积网络层为10- 6，批大小为64。我们报告的结果后，提前停止的验证集最多15个时代。4.4基线模型在我们的实验中，我们重新实现了几个基线模型，以基准测试我们的模型的性能。标准基线是在均值池化、语言嵌入以及空间嵌入和类别嵌入之后的图像和对象裁剪特征的直接关联（Guess- What？！仅），随后是我们提出的模型中描述的相同的最终层。我们将使用MLB注意力机制来池化视觉特征的模型称为基线+MLB。我们还实现了单跳电影机制，其等效于将所有上下文向量设置为等于Bi的最后状态10F. Strub和M. Seurin和E. Perez和H. Vries等人表1：参考猜测器测试误差。参考按报告拆分有效RefCOCO(unc)种皮TestB有效RefCOCO+(unc)种皮TestBRefCOCOg（google）ValMMI [36]-71.7%71.1%-百分之五十八点四51.2%百分之五十九点三visDif+ MMI [51]-百分之七十四点六76.6%-百分之五十九点二55.6%64.0%NEG袋[36]-百分之七十五点六百分之七十八---百分之六十八点四联合单反相机[52]78.9%百分之七十八百分之八十点七61.9%64.0%百分之五十九点二-计划[54]81.7%百分之八十点八81.3%64.2%百分之六十六点三百分之六十一点五百分之六十九点五MAttN[50]八十五百分之七百分之八十五点三84. 6%71.0%百分之七十五点一66岁。百分之二-基线+MLB77.6%百分之七十九点六百分之七十七点二60.8%百分之五十九点七百分之六十六点二63.1%单跳影片百分之八十三点四百分之八十五点八80.9%72.1%百分之七十七点三百分之六十三点九百分之六十七点八多跳影片83.5%百分之八十六点五81.3%百分之七十三点四百分之七十七点七64.5%69.8%多跳影片（+img）百分之八十四点九87岁百分之四百分之八十三点一七十三。百分之八78岁百分之七百分之六十五点八七十一百分之五GRUel，T.最后，我们尝试将中间视觉特征注入到电影生成器的输入中，我们将该模型称为多跳电影（+img）。4.5结果我们在选项卡中报告引用猜测任务中概述的方法的最佳测试误差。1. 请注意，RefCOCO和RefCOCO+拆分测试集合到TestA和TestB中，仅包括分别指向人和对象的表达式。我们没有报告RefCOCOg的[50]和[52]评分，因为作者使用了不同的分割（ umd ）。我们的初始基线在RefCOCO、RefCOCO+、RefCOCOg、RefClef数据集上分别达到77.6%、60.8%、63.1%、73.4%，表现与最先进的模型相当。我们观察到使用基于FiLM的架构的显着改进，分别跃升至84.9%，87.4%，73.8%，71.5%，并且优于大多数现有方法并实现与并发MAttN [50]模型相当的性能。有趣的是，MAttN和多跳电影是以两种不同的方式构建的;虽然前者有三个专门的推理块，我们的模型使用一个通用的特征调制方法。在检查测试拆分时，这些体系结构差异会显现出来：MAttN在向对象引用表达式方面取得了优异的结果，而多跳电影在向人引用表达式方面表现得更好。猜猜什么Oracle我们报告GuessWhat的几个变体的最佳测试错误？！选项卡中的Oracle模型。2. 首先，我们通过在图像上显示操作符的大小来确定任何视觉或语言的基准（46. 7%的误差）或问题（41.1%的误差）。如[6]中首次报道的，我们观察到基线方法在整合图像和作物输入（21.1%）而不是单独使用对象类别和空间位置（20.6%）时表现较差。另一方面，在我们的实验中，连接先前的问题-答案对来回答当前问题是有益的。最后，使用单跳电影将误差降低到17.6%，多跳电影进一步降低到16.9%，比之前的最佳模型高出2.4%。基于多跳特征调制的视觉推理11表2：猜测什么？！Oracle测试错误。Oracle模型任务表盘对象图像作物测试误差优势类别（无）✗ ✗✗✗ ✗百分之五十点九仅供参考[6]✓✗✗✗ ✗41.2%仅图片[6]✗ ✗✗✓✗46.7%仅限作物[6]✗ ✗✗✗✓43.0%无视力（Q）[6]✓✗✓✗✗百分之二十一点五无视力（D）✗✓ ✓✗✗百分之二十点六基线（Q）✓✗✓ ✓ ✓23.3%基线（D）✗✓ ✓ ✓ ✓22.4%基线+MLB（Q）✓✗✓ ✓ ✓百分之二十一点八基线+MLB（D）✗✓ ✓ ✓ ✓21.1%现代[44]✓✗✓✗✓百分之十九点五单跳影片（Q）✓✗✓ ✓ ✓百分之十七点八单跳影片（D）✗✓ ✓ ✓ ✓百分之十七点六多跳影片✗✓ ✓ ✓ ✓百分之十六点九多跳影片（+img）✗✓ ✓ ✓ ✓百分之十七点一猜猜什么 Guesser我们在GuessWhat上提供了概述方法的最佳测试误差？！选项卡中的猜测任务。3. 作为基线，我们发现随机对象选择的错误率为82.9%。我们的初始模型基线表现（38.3%）明显差于并发模型（36.6%），这突出表明成功地联合整合作物和图像特征远非微不足道。然而，单跳影片设法降低误差到35.6%。最后，多跳薄膜结构优于其他模型，最终误差为30.5%.5讨论单跳影片与多跳影片中的猜测什么？！在Guesser任务上，多跳FiLM的性能比单跳FiLM高6.1%，但在Oracle任务上仅高0.7%。我们认为，Oracle任务的小性能增益是由于任务的性质;要回答当前问题，通常不需要查看以前的问答对，并且在大多数情况下，该任务不需要长链的推理。另一方面，猜测任务需要在整个对话中收集信息，以便正确检索对象，因此更有可能受益于多跳推理。对于ReferIt可以观察到相同的趋势。单跳FiLM和多跳FiLM在RefClef和RefCOCO上的表现相似，而我们在RefCOCO+和RefCOCOg上分别观察到1.3%和2%的增益。这种表现模式是直观的，因为前者的数据集由比后者（RefCOCOg中的平均8.4个单词）更短的指称表达（3.5个平均单词）组成，而后者的数据集也由更丰富，更复杂的指称表达组成，例如由于禁忌词（RefCOCO+）。总之，我们的实验表明，多跳电影是更好地能够超过复杂的语言序列的原因.推理机制我们进行了几个实验，以更好地理解我们的方法。首先，我们评估多跳电影是否表现更好，因为12F. Strub和M. Seurin和E. Perez和H. Vries等人第3章：猜猜？！猜测测试错误。猜测者错误测试误差随机百分之八十二点九LSTM [6]百分之三十八点七LSTM + Img [6]百分之三十九点五计划[54]百分之三十六点六MLB-基线（裁剪）百分之三十八点三猜测者错误作物图像裁剪/图像基线百分之三十八点三40.0%百分之四十五点一增加网络容量。我们删除了语言序列的注意机制我们观察到，这种变化会显著影响所有任务的性能，例如。将Guesser算法的多跳影片误差从30.5%提高到37.3%。第二，我们研究模型如何参加GuessWhat？！Oracle和Guesser任务的对话，更深入地了解如何在语言输入上建模原因。我们首先查看（裁剪）注意力层中的顶部激活，以观察最突出的信息在哪里。注意，对于图像流水线观察到正如人们所预料的那样，甲骨文在99.5%的时间里都集中在最后一个问题中的一个特定单词上，这个单词对回答手头的问题至关重要然而，在Guesser任务中，这一比例下降到65%，表明模型以不同的方式进行推理。如果我们然后提取每个层的前3个激活，则注意力至少一次指向<是>或<否>标记（分别地），对于Oracle和Guesser，50%的时间，这表明注意力能够正确地将对话分成问题-答案对。最后，我们绘制了每个电影层的注意力掩码，以便更好地直观地了解图中的推理过程。4 .第一章裁剪与图像。我们还评估了使用图像和/或作物对Guesser任务3的最终错误的影响。单独使用图像（同时仍然包括对象类别和空间信息）比使用裁剪执行得更差。然而，同时使用图像和裁剪无疑会产生最低的错误，尽管由于特定于架构的GPU限制，先前的工作并不总是使用裁剪[44]。视觉反馈我们探讨是否添加视觉反馈的上下文嵌入提高性能。虽然它对GuessWhat？！Oracle和Guesser任务，它将ReferIt的准确性提高了1- 2%。请注意，ReferIt不包括所选对象的类标签，因此视觉反馈可能充当此信息的替代项。为了进一步研究这一假设，我们从GuessWhat中删除了对象类别。！任务和报告结果。5、补充材料。在这个设置中，我们确实观察到Oracle任务的相对改进为0.4%，进一步证实了这一假设。在GuessWhat中指向任务？！，猜测者必须在项目列表中选择对象。为了让任务更自然，系统应该直接指向基于多跳特征调制的视觉推理13图4：裁剪视觉管道中的猜测者和预言者注意机制。就像人类一样。因此，我们提供了一个初始基线，在表7中的补充材料中评分高达84.0%的错误。6相关工作在过去的几年里，ReferIt游戏[23]一直是各种视觉和语言任务的测试平台，包括对象检索[36，51，52，54，32，50]，语义图像分割[16，39]和生成引用描述[51，32，52]。为了解决对象检索，[36，51，50]提取其他视觉特征，如相对对象位置，并[52，32]使用强化学习来迭代训练对象检索和描述生成模型。更接近我们的工作，[17，54]使用完整的图像和对象裁剪来定位正确的对象。虽然以前的一些工作依赖于特定于任务的模块[51，50]，但我们的方法是通用的，可以很容易地扩展到其他视觉和语言任务。猜猜什么？！游戏[6]可以被看作是ReferIt游戏的对话版本，它还利用了视觉问答能力。[42，28，53]通过强化学习在对话生成任务上取得进展然而，这些方法受到Oracle和Guesser模型的准确性的瓶颈，尽管现有的建模进步[54，44];准确的Oracle和Guesser模型对于为对话生成模型提供有意义的学习信号至关重要，因此我们相信多跳电影架构也将促进高质量的对话生成。特征线性调制的一个特殊情况首次成功应用于图像风格转换[8]，其方法根据一些图像风格（即，立体主义或印象派）。[44]将这种方法扩展到视觉和语言任务，沿着预先训练的ResNet的整个视觉管道”[38]这是一个比喻。14F. Strub和M. Seurin和E. Perez和H. Vries等人具有Film层的函数网络在CLEVR [21]上实现了强大的性能，CLEVR是一项专注于回答关于合成图像的面向推理的多步骤问题的任务。随后的工作已经证明，电影及其变体对于视频对象分割是有效的，其中调节输入是电影的图像分割（在电影中）[ 49]和电影的更广泛地说，[9]概述了机器学习领域中与电影相关的方法的优势，从强化学习到生成建模再到领域适应。还有其他值得注意的模型，将推理分解为不同的模块。例如，神经图灵机[13，14]将模型划分为具有读写单元的控制器。记忆网络使用注意力机制通过对语言知识库[45，43]或图像特征[46]进行推理来回答查询。存储器网络通过在从查询向量输出最终答案之前在存储器上执行若干注意力跳跃来虽然多跳电影计算一个类似的上下文向量，这种中间嵌入是用来预测电影参数，而不是最终的答案。因此，多跳影片包括对图像的第二推理步骤更接近我们的工作，[18]设计了由记忆，注意力和控制（MAC）细胞组成的网络来执行视觉推理。类似于神经图灵机，每个MAC单元由一个控制单元组成，该控制单元负责语言输入，一个读单元负责图像，一个写单元负责融合两个流水线。虽然在概念上类似于多跳电影模型，但组合注意力网络在结构上不同，例如使用动态神经结构和依赖于空间注意力而不是电影。7结论在本文中，我们介绍了一种新的方法来利用特征线性调制（电影）层的视觉和语言的任务。我们的方法产生的参数，元的电影层去了视觉管道参加的语言输入在多个跳跃，而不是一次全部我们表明多跳电影发电机的架构能够更好地处理较长的序列比单跳同行。我们优于国家的最先进的视觉和语言模型的引用对象检索任务和猜测的显着性能增益？！视觉对话任务。最后，我们相信，这种多跳电影发电机的方法是通用的，可以扩展到各种视觉和语言的任务，特别是那些需要复杂的视觉推理。致谢作者要感谢SequeL团队的激励研究环境。我们也感谢VincentDumoulin进行了有益的讨论。我们感谢以下机构的研究资金和计算支持：CHISTERA IGLU和CPER Nord-Pas deCalais/FEDERDATAAdvancedatascienceanddechnologies2015-2020，NSERC，CalculQu'ebec， Compute Canada，Canada Research Chairs和CIFAR。基于多跳特征调制的视觉推理15引用1. Antol，S.，阿格拉瓦尔，A.，卢，J，Mitchell，M.Batra，D.，LawrenceZitnick，C.Parikh，D.：Vqa：可视化问答。见：ICCV（2015年）2. BA J.L. Kiros，J.R. Hinton，G.E.：层归一化。深度学习专题（NIPS）（2016）3. Bahdanau，D.，周，K.，Bengio，Y.：通过联合学习对齐和翻译的神经机器翻译。载于：ICLR Proc.（2015）4. Chung，J.Gulcehre角周，K.，Bengio，Y.：门控递归神经网络对序列建模的经验评价In：Proc. of ICML（2015）5. Das，A.，Kottur，S.，古普塔，K.，Singh，A.，Yadav，D.，Moura，J.M. ， Parikh ， D. Batra ， D. ：可视化对话框。见： CVPR 的 Proc.（2017）6. De Vries ， H. Strub ， F. ， Chandar ， S. ， Pietquin ， O. ， Larochelle ， H.Courville，A.：猜猜看通过多模态对话的视觉对象发现。见：CVPR的Proc.（2017）7. Delbrouck，J.B.，杜邦，S.：调制和参与源图像dur-编码改进了多模态翻译。视觉接地交互和语言研讨会（NIPS）（2017）8. Dumoulin，V.，Shlens，J.，Kudlur，M.：艺术风格的一种习得的表现In：Proc. of ICLR（2017）9. Dumoulin，V.， Perez，E.，舒彻N.，斯特鲁布F.、弗里斯H.d. ， Courville ， A. Bengio ， Y. ：智能转型。 Distill （ 2018 ） .https://doi.org/10.23915/distill.00011 ， https://distill.pub/2018/feature-wise- 转换10. Everingham，M.凡古尔湖威廉姆斯，C.K.，Winn，J.，齐瑟曼，A.：pascal视觉对象类（ voc ）的挑战。 International Journal of Computer Vision88（2），30311. Fukui，A.，D.H.公园杨，D.，Rohrbach，A.，Darrell，T.，Rohrbach，M.：多模态紧凑双线性池的视觉问题回答和视觉接地。In：Proc. of EMNLP（2016）12. 格尔希克河Donahue，J.，Darrell，T.，Malik，J.：丰富的功能层次结构，用于准确的对象检测和语义分割。见：CVPR的程序（2014）13. 格雷夫斯，A.，韦恩G Danihelka，I.：神经图灵机。ArXiv预印本arXiv：1410.5401（2014）14. 格雷夫斯，A.，韦恩G Reynolds，M.，Harley，T.达尼赫尔卡岛Grabska-Barwin'ska，A.， Colmenar ejo，S. G.，格雷·费恩斯特特，E.， Ramalho，T.Agapiou，J.，等：使用具有动态外部存储器的神经网络的混合计算。Nature 538（7626），471（2016）15. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。见：CVPR的程序（2016）16. 胡河Rohrbach，M.，达雷尔，T.：从自然语言表达式中分割。In：Proc.of ECCV（2016）17. 胡河徐，H.，Rohrbach，M.，冯杰，Saenko，K.达雷尔，T.：自然语言对象检索。见：CVPR的程序（2016）18. 哈德森地检官Manning，C.D.：用于机器推理的成分注意网络。In：Proc.of ICL（2018）19. Ioffe，S.，Szegedy，C.：批次标准化：通过减少内部协变量偏移来加速深度网络训练。In：Proc. of ICML（2015）20. Jabri，A.，Joulin，A.，van der Maaten，L.：重新审视视觉问答基线。In：Proc. of ECCV（2016）16F. Strub和M. Seurin和E. Perez和H. Vries等人21. Johnson，J.，Hariharan，B.，范德马滕湖，Fei-Fei，L. Zitnick，C.L.，Girshick，R.：Clevr：一个用于组合语言和基本视觉推理的诊断数据集。见：CVPR的Proc.（2017）22. Kafle ，K. Kanan ，C.：可视化问答：数据集、算法和未来的挑战。ComputerVisionandImageUnderstanding163，323. Kazemzadeh，S.，Ordonez，V.，Matten，M.，Berg，T.：推荐游戏：指

下载后可阅读完整内容，剩余1页未读，立即下载