没有合适的资源?快使用搜索试试~ 我知道了~
作为Meta学习任务的Damien Teney[0000−0003−2130−6650],Anton van denHengel[0000−0003−3027−8364]澳大利亚机器学习研究所{damien.teney,anton.vandenhengel}@adelaide.edu.au抽象。视觉问题分类(VQA)的主要方法要求模型在其权重内表示回答关于任何图像的任何问题所需的所有从任何真实的训练集中学习这些信息似乎都不太可能,并且用合理数量的权重来表示它加倍如此。相反,我们建议将VQA作为Meta学习任务,从而将问题回答方法与所需信息分开在测试时,该方法被提供有示例问题/答案的支持集,该方法通过该示例/答案来推理以解决给定的问题。支持集不是固定的,可以扩展而无需重新训练,从而扩展了模型的能力为了利用这种动态提供的信息,我们适应了一个国家的最先进的VQA模型与两种技术,从最近的Meta学习文献,即原型网络和元网络。实验证明了该系统的能力,学习产生完全新颖的答案(即在培训期间从未见过)。与现有技术相比,所提出的方法产生定性不同的结果,具有更高的罕见答案的召回率,以及更好的样本效率,允许用很少的初始数据进行训练更重要的是,它代表了迈向视觉和语言方法的重要一步,这种方法可以在飞行中学习和推理。视觉问答(VQA)的任务要求智能体正确地回答关于先前看不见的图像的先前看不见的问题在测试之前,问题和图像都没有被指定,这意味着智能体必须体现计算机视觉和自然语言处理的大部分成就,以及人工智能的许多成就。VQA通常在纯监督学习环境中构建。使用示例问题、图像及其正确答案的大型训练集来训练一种方法,该方法使用最大似然将问题和图像映射到可能答案的预定固定词汇表上的分数[39]。这种方法具有固有的可扩展性问题,因为它试图在诸如深度神经网络之类的模型的有限参数集内表示所有世界知识。因此,一个训练有素的VQA系统只能预期产生正确的答案,从一个非常相似的分布的问题,在训练集中。扩展模型知识或扩展其领域覆盖2D. Teney和A. van den Hengel输入有多少蓝色球员?VQA模型答案分数电话一二三四...支持测试时提供的示例集(图片,问题,正确答案)Fig. 1.本文认为,视觉问题回答Meta学习设置。该模型最初在一小组问题/答案上进行训练,并在测试时提供一个可能很大的额外支持示例集。模型必须学会学习,或者在运行中利用额外的数据,而不需要重新训练模型。值得注意的是,随着包括附加的和更相关的示例,性能提高。只有从头开始重新训练它才有可能,这在最好的情况下是计算成本很高的。因此,这种方法从根本上无法实现VQA的最终承诺,即回答关于一般图像的一般问题作为这些问题的解决方案,我们提出了一个元学习方法的问题。Meta学习方法意味着模型学会学习,I.E.它学会使用一组在测试时提供的例子来回答给定的问题(图10)。①的人。这些例子是问题和图像,每个都有正确的答案,例如在传统环境中可能构成训练集的一部分它们在这里被称为支持集。重要的是,支撑集不是固定的。还要注意,支持集可能很大,并且其大多数元素可能与当前问题无关。它在测试时被提供给模型,并且可以用附加的示例来扩展以增加模型的能力。该改进的算法能够在测试时动态地因此,为模型提供更多信息不需要再训练,并且利用这种支持集的能力大大提高了系统的实用性和可扩展性。实际上,最终期望实用的VQA系统能够适应新的领域,并且随着更多的数据变得可用而不断改进这一愿景是一个长期目标,这项工作只是朝着这个方向迈出了一小步。有显着的实际利益的元学习方法VQA。它最终可以允许以下场景,这些场景远远超出了传统方法的范围:...这是什么? 给你。多少蓝playeresarehow?Three。有多少人能睡在这个房间里? Six.多少橘子是不是在这本书里? One.VQA作为Meta学习任务3– 使用不断扩展支持的模型(例如,来自知识库、监视图像、医学数据等)不需要不断的再训练;– 使用太大而不能在模型的权重内捕获的支持数据的模型Web搜索;– 出于隐私或安全原因,在不封装敏感数据的情况下训练和分发模型;在对净化数据训练模型之后,在测试时仅向其提供敏感信息。我们的核心技术贡献是使最先进的VQA模型[34]适应Meta学习环境。生成的模型是一个深度神经网络,它使用动态参数集动态参数允许自适应地修改由网络执行的计算,并根据支持集调整其行为。我们进行了详细的研究,以评估这些技术的有效性,在各种制度的培训和支持集的大小。这些实验是基于VQA v2基准测试,我们提出了适当的数据分割研究Meta学习设置。由此产生的系统所展示的一种全新的能力是学习产生完全新颖的答案(即在训练中看不到答案)。这些新的答案仅由测试时提供的支持集的实例来证明。除了这些新的功能,该系统表现出一个质量上不同的行为,现有的VQA系统在其改进的处理罕见的答案。由于VQA的数据集表现出严重的类别不平衡,少数答案比大多数其他答案频繁得多,因此针对当前基准测试优化的模型容易依赖于频繁的“saf e”和sw e r s。在一个实施例中,所述改进的模型很可能是数据集偏差的所有受害者,并且在罕见答案上表现出更高的召回率。所提出的模型不超过现有的方法上的共同的总精度度量,因为是预期的,它不过拟合的数据集的偏见,但它仍然表现出理想的性状整体。本文的贡献总结如下。1. 我们将VQA重新构建为一个Meta学习任务,其中模型提供了一个测试时间,支持一组监督示例(问题和图像及其正确答案)。2. 我们描述了一个神经网络的架构和训练过程,能够利用Meta学习的情况。该模型基于最先进的VQA系统,并从最近的Meta学习文献中获得技术灵感,即原型网络[33]和元网络[24]。3. 我们提供了一个实验评估所提出的模型在不同的制度的培训和支持集的大小和跨变化的设计选择。4. 我们的研究结果证明了该模型产生新颖答案的独特能力,即通过从支持实例中学习,改进了对罕见答案的召回,以及比现有模型更好的样本效率。4D. Teney和A. van den Hengel1相关工作视觉问答视觉问答已经引起了计算机视觉社区的极大兴趣[6],因为它构成了评估深度视觉理解的实用设置。除了视觉解析,VQA还需要理解文本问题,并结合视觉和语言推理,有时基于外部或常识知识。参见[39]最近对方法和数据集的调查。VQA始终在监督设置中进行,使用人类提出的问题的大型数据集[6,15,22,44]及其正确答案来训练机器学习模型。VQA-real和VQAv2数据集[6,15]已成为评估和比较方法的流行基准。尽管这些数据集的规模很大,例如在VQA v2中有超过650,000个问题,但已认识到一些局限性。这些与数据集偏差有关(即答案的非均匀、长尾分布)和问题条件偏差(在没有图像的情况下给出问题,使得答案容易猜测例如,与否相比,答案是的在[6]中特别突出,并且以多少开始的问题可以正确回答答案两个以上的时间[15]。这些问题通过鼓励方法困扰着该领域的发展因此,用于比较方法的聚合准确度度量是用于视觉理解的方法能力的不良指示。已经引入了对数据集的改进[1,15,43],包括VQA v2,但它们仅部分解决了评估问题。越来越多的兴趣出现在处理罕见的单词和答案[29,35]。本文提出的模型本质上是不太容易纳入数据集的偏见比现有的方法,并显示出优越的性能处理罕见的答案。它通过保持由训练和支持实例的显式表示组成的存储器来实现这一点在经典的监督设置中,使用一组固定的问题和答案来一劳永逸地训练模型。除了少数例外,这种模型的性能是固定的,因为它不能在测试时使用额外的信息在这些例外中,[40,38]使用外部知识库来收集与输入问题相关的非视觉信息在[35]中,作者以问题词的范例图像的形式使用来自网络搜索的视觉信息,从而更好地处理问题中出现的罕见和新颖的词。在[34]中,相同的作者使用来自网络搜索的类似图像来获得候选答案的视觉表示。这些方法使用专门的工程技术将外部知识纳入VQA模型。相比之下,本文提出了一个更一般的方法。我们通过以额外的监督示例(问题和图像及其正确答案)的形式提供的数据来扩展模型知识。一个更广泛的通用性的证明,我们的框架以上的作品是它的能力,以产生新的答案,即。在最初的训练中从未观察到,只能从测试时的例子中学习。VQA作为Meta学习任务5最近关于基于文本的问答的工作研究了用强化学习检索外部信息[8,25,26]。这些工作是切线相关的,并在本文中探讨的方法的补充。Meta学习和小批量学习元学习这个术语广义上指的是学会学习的方法,即训练模型,使用训练数据。它适用于包括学习类似梯度下降算法的方法,例如[5,13,17,30],用于更快的训练或神经网络的微调我们提出的方法属于后一类。大多数关于Meta学习的工作都是由一次和几次视觉识别的挑战所激励的,其中的任务是将图像分类到由几个例子定义的类别中。我们的VQA Meta学习设置有许多相似之处。VQA被视为一个分类任务,在测试时,我们提供了一些例子来说明可能的答案-每个答案可能有一小部分。然而,大多数少次学习方法并不直接适用于我们的设置,这是由于大量的类(即:可能的答案),严重的类不平衡,以及需要集成到适合VQA的体系结构中。例如,最近的工作,如[36]提出了有效的训练程序,只适用于少数类别。我们的模型使用神经网络中的一组记忆来存储在支持集上计算的激活。类似地,Kaiseret al. [19]将过去活动存储为“rar evee n t s”,这在机器翻译上是无法评估的。我们的模型还使用了由动态权重(也称为快速权重)参数化的网络层。这些在测试时根据网络的实际输入确定动态参数在神经网络中有很长的历史[32],并且以前已用于少数镜头识别[7]和VQA [27]。我们网络中的一个记忆存储了损失相对于网络静态权重的梯度,这类似于Munkhdalai等人提出的Meta Networks模型。[24]第10段。最后,我们的输出阶段产生的分数超过可能的答案相似的原型代表- ING输出类(答案)。这与原型网络[33]类似。在Meta学习环境中构建VQA的一个重要结果是开发能够随着更多数据可用而改进的模型。这涉及增量学习[12,31]和连续学习[2,23,42]的领域。这些工作侧重于使用新的训练数据、输出类和/或任务对网络进行微调相比之下,我们的模型不会随着时间的推移而自我修改,并且不会经历负域转移或catastrophic遗忘,这是连续体学习的核心问题[21]。我们的方法是在测试时使用这些额外的数据,即。而不需要迭代的再训练。我们的框架的一个重要动机是它的潜力,适用于支持数据的不同性质的问题/答案的例子。我们认为这是今后工作的一个重要方向。这将允许利用一般的、非VQA特定的数据,例如从知识库或网络搜索。6D. Teney和A. van den Hengel问题图像问题嵌入图像嵌入联想记忆通过软键匹配寻址非线性变换静态权重动态权重相似性度量静态原型动态原型得分超过候选答案图二、建议模型概述我们获得了输入问题和图像的嵌入[34],并且我们的贡献涉及这种嵌入到一组候选答案上的分数的映射首先,通过静态和动态权重来参数化非线性变换(实现为门控双曲正切层)静态权重像传统权重一样通过梯度下降来学习,而动态权重基于实际输入和通过处理支持集填充的候选动态权重的存储器来确定。其次,相似性度量将所得特征向量与一组原型进行比较,每个原型表示特定的候选答案。静态原型像传统的权重一样学习,而动态原型通过处理支持集来确定。虚线指示在支持集的处理期间的数据流。详情见第3节2Meta学习环境VQA的传统方法是在如下所述的监督设置中。 训练模型以将输入问题Q和图像I映射到候选答案的分数[39]。该模型被训练以最大化三个项s(Q,I,s()的正确答案集T的可能性,其中s(∈[0,1]A表示预定义的一组A个可能答案的基础事实分数的向量。在测试时刻,该模型在另一个标准集(Q′,I′,s(′ ) )上进行评估,该标准集或测试集E.该模型预测候选答案集合上的得分s’,其可以与用于评估概率s的总体结果s’进行比较。我们通过引入一个额外的补充集S,将上面的公式扩展到Meta学习环境,S是一个最小的学习集(Q′ ′,I′ ′,s(′′))。在测试时,将该表提供给模型。至少,我们定义的支持集包括训练样本本身,即S=T,但更有趣的是,支持集可以包括在测试时提供的新示例S’它们构成了在空间S=T∪S′ 处 的 附 加 数 据。upp或t集合中的triplets(Q,I,s)在这种情况下,该粗结果将其他相关元素的子集合简单地填充有零以匹配扩展答案集合的较大大小A’以下部分描述了可以在测试时利用支持集的深度神经网络为了利用支持集中包含的信息,模型必须学会在测试时即时利用这些示例,而无需重新训练整个模型。VQA作为Meta学习任务73该模型提出的模型(图。2)是扩展了Teney等人的现有技术VQA系统的深度神经网络。[34]。他们的系统实现了大多数现代VQA模型常见的联合嵌入方法[39,41,18,20],然后是候选答案的多标签分类器从概念上讲,我们将架构分为(1)编码输入问题和图像的嵌入部分,以及(2)处理推理和实际问题回答的分类器部分。本文的贡献只涉及第二部分。我们的贡献是正交的嵌入部分的发展,这也可以受益于例如。从先进的注意力机制或其他计算机视觉技术[3,37,39]。我们遵循[34]的嵌入部分的实现为了具体起见,让我们提到问题嵌入使用GloVe词向量[28]和循环门控单元(GRU [10])。图像嵌入使用来自CNN(卷积神经网络)的特征,具有自下而上的注意力[3]和对这些特征的问题引导注意力。详情请参见[34]对于本文的其余部分,我们将嵌入抽象到分别产生问题向量和图像 向 量 q 和 v∈RD 的 模 块 。 它 们 与 Hadamard ( 元 素 ) 乘 积 组 合 成h=q◦v,这形成了我们现在关注的分类器的输入分类器的作用是将h映射到候选答案上的分数s∈[0, 1]A的向量我们提出了一个分类器的定义,概括了传统模型的实现,如[34]。分类器h∈RD的输入首先通过非线性变换fθ:RD→RD,然后通过到候选答案集gΦ上的得分的映射:RD→[0, 1]A。这产生预测得分的向量s=gΦ(fθ(h))。在传统模型中,这两个函数对应于fθ的非线性层堆栈,以及gΦ的线性层后跟softmax或sigmoid。我们现在展示如何扩展fθ和gΦ以利用Meta学习设置。3.1非线性变换fθ(·)非线性变换fθ(h)的作用是将问题/图像h的嵌入映射到适合于以下(通常为线性)分类器的表示这种变换可以在具有任何类型的非线性层的神经网络中实现我们的贡献对于这个实现选择是不可知的。我们遵循[34]并使用门控双曲正切层[11],定义为fθ(h)=σ(Wh+b)tanh(W′h+b′)(1)其中σ是逻辑激活函数,W,W′∈RD×D是学习的权重,b,b′∈ RD是学习偏差,◦是Hadamard(元素)乘积。1将网络分成嵌入部分和分类器部分是概念性的。在融合问题和图像嵌入之后,分割被任意放置。除了计算要求之外,动态参数的概念原则上适用于[7]中的早期层。8D. Teney和A. van den Hengel:θ=~˜我ΦN我一我 们 将 参 数 θ 定 义 为 向 量 化 权 重 和 偏 置 的 级 联 , 即 。θ=[W:;W′;b;b′],其中冒号表示矩阵的向量化向量Θ因此包含由非线性变换使用的所有权重和偏置传统模型将通过训练集上的反向传播和梯度下降来学习权重θ,并且它们将在测试期间保持相反,我们建议在测试时自适应地调整权重,这取决于输入h和可用的支持集。具体来说,我们S使用以传统方式学习的静态参数θ的组合,以及D动态θS在测试时确定。它们组合为θ=θD+ wθ,其中w∈RD是学习的权重的向量因此,动态权重可以被视为根据输入h对静态权重进行的调整。在关联存储器中维护一组候选动态权重M. 这个内存是一个大的集合(和支持集一样大,见3.2节~~d~d键/值对M ={(hi,θi)}i∈1…|.|.对θi的解释是动态的Weig htsuitedonii m i l a n i t e l a n itelghtsui t e d o n i t e l a n i t e l a n it e l 在此期间,我们将D通过软键匹配获得适当的动态权重θdΣd θisoftmax我.Σdcos(h,h~i)(二)我其中,c〇s(·,·)是一个复杂的函数。我们将所有的数据都存储在存储器中,因为存储器的存储量很小D存储器值θi。在实践中,出于计算原因,softmax函数在前k个最大值之后截止,其中k的数量级为一千元素(见第4节)。我们将在3.2节中详细介绍如何通过处理支持集来填充内存。注意,上述配方可以通过以下方式制备:S通过仅使用静态权重(θ=θ),等效于[34]中的原始模型这在我们的实验中用作基线(参见第4节)。函数gΦ(h)将非线性变换的输出映射到候选答案集合上的得分s ∈[0,1] A的向量。它传统上被实现为简单的仿射或线性变换(即矩阵乘法)。 我们推广了gΦ(h)的定义,将其解释为输入h和原型Φ={φa} i之间的相似性度量,a表示可能的答案。在传统模型中,每个原型对应于权重矩阵的一行。我们的一般公式-Lation允许每个可能的答案a有一个或多个原型,如{φa}Na(其中i i=1a是对候选答案的索引,并且i索引N个a个支持示例作为正确答案)。直观地,当a是正确答案时,原型表示典型的预期特征向量。因此,获得a的得分作为所提供的h’与a的对应原型之间的相似性。当有多个原型可用时,相似性被平均。具体来说,我们定义. 1ga(h′)=σ Na ΣΣd(h′,φa)+b′′i=1(三)VQA作为Meta学习任务9我其中,d(·,·)是与u_e相似的偏置项,σ是用于将相似性映射到[0,1]的(逻辑)活动函数,并且b”是学习的偏置项。传统的模型使用点积作为相似性函数,将点积应用于Φ(·)。相比之下,我们的定义generalizes多个原型每个答案和不同的相似性措施。我们的实验评估向量差的点积和加权L-p范数:ddot(h,θ)=hθ(4)dL1(h,θ) =w′|h − θ|(五)dL2(h,θ)=w′(h−θ)2(6)其中w””∈RD是按坐标方式应用的学习权重的向量我们的模型使用两组原型,静态Φs和动态Φd。静态权重在训练过程中通过反向传播和梯度下降作为传统权重进行学习,并在测试时保持固定。在测试时通过处理所提供的支持集来确定动态支持集(参见第3.2节)。此后,所有原型Φ=Φs∪Φd被无区别地使用。注意,我们的gΦ(·)的公式可以通过仅使用静态原型(Φ=Φd)和点积相似性度量dot(·,·)来与[ 34]的原始模型相等。 这将作为一个基础保留在我们的实验室中(第4部分)。最后,两个网络的输出端都可以在预测值和真实值之间进行交叉运算L(s,s),以用于端到端训练模型[34]。3.2支持集B函数fθ(·)和gΦ(·)被定义为一个依赖于支撑集的对称函数。我们的模型处理整个支持集在一个向前和向后通过网络,如下所述在对测试集的任何实例进行预测之前,在测试时执行一次该步骤在训练时,它在每个时期之前重复,以说明随着训练的进行,网络的静态参数不断变化(参见补充材料中的算法)。我们将支持集S的所有元素以小批量的形式通过网络,以使b 〇thaf ar d和ba ckwardp作为s。fθ(·)和gΦ(·)的值S静态重量和原型,即,θ=θS且φ=φ。为了填充存储器M,对于支持集的每个元素,我们收集其特征向量h和最终损失相对于静态权重θ的梯度θsL。这有效地捕获了将由梯度下降算法对该特定示例的那些权重进行的调整。将对(h,θsL)添加到存储器M,其因此保持|S|在过程结束时的元素。D为了确定动态原型φ的集合,我们收集特征vec。torsh′ =fθ(h).然后我们计算他们的对具有相同正确答案的实例求平均具体地说,动态a1ΣNa′得到答案a的原型为=Nai:sa=1hi.10D. Teney和A. van den Hengel我在训练期间,我们必须平衡对数据的需求以训练网络的静态参数,以及对“扩展”的需求,如果网络提供了一个固定的,恒定的支持集,它将过拟合到该输入,并无法在测试时使用新的例子。我们的训练过程使用所有可用数据作为训练集T,并且我们在每个训练时期形成不同的支持集S,T的随机子集。该程序总结在算法提供在补充材料中。请注意,在实践中,它是并行化的,以小批量而不是单独处理实例。4实验我们进行了一系列实验来评估(1)所提出的模型及其不同组件如何有效地使用支持集,(2)新的支持实例对VQA有多有用,(3)模型是否从在经典设置中训练的经典VQA方法中学习数据集的不同方面。数据集VQA v2数据集[15]是VQA当前的主要基准。然而,答案之间的严重类别不平衡使得很难得出有意义的结论或进行定性评估。我们还提出了一系列的实验上的一个子集被称为VQA-Numbers。它包括所有在VQAv2中标记为“number”问题的问题,其被进一步清理以移除在训练集中出现少于1,000次的答案,并移除不具有明确答案的问题(我们仅保留具有包含等于1的单个元素的基础事实分数的那些问题)。0)。VQA v2原始验证集中的问题用于评估,原始训练集(清理后的45,965个问题)用于训练、支持和验证。精确的数据分割将公开。最重要的是,所得到的候选答案集对应于从0到6的七个数字。详见补充资料。度量VQA v2评估的标准度量是准确度罚款,使用第2节的符号,作为1|E|Σasi地面实况评分siandathewerofhighestprdictecore,argmaxasa. 我们都找到了iΣaΣaireallofansweraasisi/isi. 我们看了一下相关的文档(UNI-形式上)在所有可能的答案上,以更好地反映各种答案,而不是最常见的答案。实现我们的实现基于[34]的作者提供的代码。我们的贡献的非特定细节可以在那里找到我们初始化所有参数,特别是静态权重和静态原型,就好像它们是传统架构中的线性层一样,遵循Glorot和Bengio[14]。在训练过程中,对支持集进行二次采样(第3.2节)以产生一组1,000个元素。我们使用,每个答案,一个或两个静态原型,零或一个动态原型(如实验中所述所有实验使用嵌入维度D=128和256个实例的小批量使用VQA v2的实验使用一组候选答案,其上限为最小数量我VQA作为Meta学习任务11平均答案召回率(1a)机会14.28(1b)最先进的模型[34] 29.72相当于每个答案1个静态原型,点生产。相似性,无动态参数。(2b)1静态保护/和,母语相似性29.97(2c)1静态保护/和,L2相似性27.80(2d)2静态保护/和,点产生器相似性30.28(2e)2静态保护/和,母语相似性28.34(2f)2静态保护/和,L2相似性31.48(3a)动态权重(+2f)31.81(3b)拟定:动态重量和原型(+2f)32.32表1.关于VQA编号、消融性评价,对所有答案进行培训和评价参见第4.1节中的讨论。训练出现16次,给出1,960个可能的答案[34]。过去的工作表明,在实施的小差异可以有显着的影响性能。因此,为了确保公平的比较,我们用我们的代码和预处理重复了基线[34]的所有因此,结果与[34]中 报 告 的 结 果 不 具 有 直 接 可 比 性 。 特 别 是 , 我 们 不 使 用 VisualGenome数据集[22]进行训练。4.1VQA编号消融评估我们首先与[34]的最新技术水平进行比较,评估所提出模型的组件,[34]作为基线,相当于我们的模型,每个答案有1个静态原型,点积相似性,没有动态参数。我们对所有7个答案进行训练和评估。为了提供具有公平机会2的基线,我们使用标准超级采样[9,16]训练所有模型,即选择相对于它们的正确答案具有相等概率的训练示例在这些实验中,支持集等于训练集。如表1中所报告的,所提出的动态权重在基线上有所改进,并且动态原型带来了额外的改进。我们比较了相似性函数的不同选择有趣的是,将基线中的点然而,当使用两个静态原型时,L2距离被证明优于L1或点积。这与[33]一致,其中原型网络在L2距离下也表现最佳。其他支持集和新颖答案我们现在评估的模型,以利用支持数据从来没有见过,直到测试时间(见图(3)第三章。我们训练了为7个候选答案设计的相同模型,但只为其中的一个子集提供训练数据所提出的模型还2VQA-Numbersdata tis t i stihevilyimalaned,“1”和“2”在相等部分中占据了至少60%的正确答案。12D. Teney和A. van den Hengel45 4530 3015 1501/72/73/74/75/76/707/71/72/73/74/75/76/7图三.关于VQA-数字,所提出的模型和消融的性能,具有7个答案的子集的训练数据。(左)所有答案的表现。(右)在训练中未看到的答案上的表现。只有具有动态原型的模型才能进行此设置。值得注意的是,在两个答案(2/7)上训练的模型保持了学习所有其他答案的能力。机会基线显示为水平破折号。提供完整的支持集,涵盖所有7个答案。 每个报告的结果在10次运行中取平均值。从训练中排除的k个答案的集合在运行中是随机的,但对于给定的k,与所有模型相同。所提出的模型被证明优于基线和所有其他消融(图1)。3,顶部)。动态原型是特别有益的。在训练数据很少的情况下,动态权重的使用效率较低,有时甚至有害。我们假设,该模型可能会遭受过度拟合由于额外的学习参数。当对新的答案进行评估时(在训练期间看不到,只存在于测试时的支持集中),动态原型提供了一种非凡的能力,可以单独从支持集中学习那些答案当只需要学习一个新颖的答案时,它们的功效特别强。值得注意的是,只训练两个答案的模型保持了一些学习所有其他答案的能力(平均召回率为17。05%,而概率基线为14。28%)。请注意,我们不能声称模型有能力计算出这些新的数字,但至少它能够将这些答案与特定的图像/问题相关联(可能利用问题条件偏差)。4.2VQA v2我们在完整的VQA v2数据集上进行了实验。我们报告了不同消融的结果,使用50%或100%的官方训练集进行训练,在[34]中的确认集上进行评估该模型使用剩余的官方训练集作为测试时的额外支持数据。该数据集的复杂性和不同质量并不能从标准准确性度量中得出明确的结论(见表2)。答案回忆导致与对VQA-数字进行的观察一致的更一致的观察。动态重量和动态参数都4).每种技术单独使用都是有益的,但它们的组合会产生更好的效果。VQA作为Meta学习任务13最好的盟友单独来看,动态原型似乎比动态权重更有影响力。请注意,我们在VQA v2上的实验旨在量化Meta学习设置中的贡献效果,并且我们并没有寻求在传统基准设置中最大化绝对性能。为了更好地了解模型的预测,我们研究了可能的答案的个人回忆。我们将这些值与通过基线获得的值进行比较。差异(图)5)表示两个模型中的哪一个为每个答案提供了最佳预测。我们观察到的模型之间的定性不同的行为虽然基线对于频繁的答案是最有效的这证实了以前关于数据集偏差的讨论[15,18,43],经典模型容易过拟合。所提出的模型本质上是更强大的这种行为。5结论和未来工作我们已经设计了一种新的方法,VQA通过框架作为一个Meta学习任务。这种方法使我们能够在测试时为模型提供监督数据,从而允许模型随着更多数据的可用而进行调整或改进。我们相信,这种观点可能会导致可扩展的VQA系统更适合于实际应用的发展。我们提出了一个利用Meta学习场景的深度学习模型,并展示了一系列好处:提高了罕见答案的召回率,更好的样本效率,以及学习产生新颖答案的独特能力,即那些在训练中从未见过的东西,只能从支持实例中学习。我们在这里提出的学习-学习方法使问题回答方法与过程中使用的信息之间的分离比以前可能的要大得多。我们的论点是,如果视觉和语言方法要超越基准来解决实际问题,这种分离是必不可少的,因为在模型权重中嵌入方法需要回答实际问题的所有信息是不切实际的。尽管所提出的模型能够使用新的支持数据,但实验显示出改进的空间,因为最初从相同量的数据训练的模型仍然显示出优异的性能。还应解决实际考虑因素,以将该模型应用于更大的规模,特别是用于处理当前随支持集线性增长的动态权重的记忆。可以设想聚类方案来减小其大小[33],并且散列方法[4,19]可以提高基于内容的检索的效率。通常,在测试时处理额外的数据为VQA系统打开了与其他信息源交互的大门虽然所提出的模型是用一组支持问题/答案来证明的,但这些原则可以扩展到在测试时获得的任何类型的数据,例如从知识库或网络搜索。这将极大地增强VQA系统的可扩展性。14D. Teney和A. van den Hengel201510510% 25% 50% 75% 100%见图4。在VQA v2上,使用不同数量的训练数据的性能。参见第4.2节。+1/2-1/21 1960图五.在VQA v2中,建议模型(表2,最后一行,最后一列)和基线(表2,第一行,最后一列)之间的答案回忆差异。每个蓝色条对应于一个候选答案,按训练集中出现次数的递减顺序排列(灰色背景,未显示单位)。这两种模型表现出性质上不同的行为:基线对于频繁的答案是有效的,但是所提出的模型在罕见答案的长尾中表现更好(大多为正值)。50%培训100%基线[34]57.6/ 14.059.8/ 15.8该模型使用动态权重,无需动态原型57.6/ 14.160.0/ 16.3没有动态权重,只有动态原型57.6/ 15.259.7/ 18.0同样,没有静态原型,只有动态。人57.2/3.658.6/4.29与Dyn重量和动态原型57.5/ 15.559.9/ 18.0表2.在VQA v2上,评价拟定模型和消融(问题准确度/答案回忆)。完整的建议模型表现出与经典方法[34]不同的质量优势,通常会产生更高的召回率(对可能的答案进行平均)和更低的准确率(对问题进行平均)。在这些实验中,形成“预测”模型的最佳方式是利用100%的数据(第1行,右列)训练基线的预测,同时使用较少的训练数据和剩余的作为支持(最后一VQA作为Meta学习任务15引用1. 阿格拉瓦尔,A.,Kembhavi,A.,Batra,D.,Parikh,D.:C-vqa:视觉问答 ( vqa ) v1 的 组 成 分 裂 。 0 数 据 集 。 arXiv 预 印 本 arXiv : 1704.08243(2017)2. 阿尔容迪河Chakravarty,P.Tuytelaars,T.:专家门:通过专家网络终身学习arXiv预印本arXiv:1611.06194(2016)3. Anderson,P.他,X.,比勒角Teney,D. Johnson,M.,Gould,S.,Zhang,L. : 自 下 而上 和 自 上 而 下关 注 图 像 字 幕和 vqa 。 arXiv 预 印 本arXiv :1707.07998(2017)4. Andoni,A.,Indyk,P.:在高密度数据集上近似最近的n个数据集的近最优 散 列 算 法 。 在 : 《 计 算 机 科 学 的 基 础 》 , 2006 年 。 FOCS47.Anualibesidesymposi umo n.pp. 45902The Dog(2006)5. Andrychowicz,M.,Denil,M.,Gomez,S.,Hoffman,M.W. Pfau,D.,Schaul , T. ,de Freitas , N. : 通 过 梯 度 下 降 来 学 习 。 In : Ad-vancesinNEuralIinFor matonPr ocessingSystems. pp. 39816. Antol,S.,阿格拉瓦尔,A.,卢,J,Mitchell,M. Batra,D.,Zitnick,C.L.,Parikh,D.:VQA:可视化问答。In:Proc.IEEE国际Conf. Comp. 目视(2015年)7. 贝尔蒂内托湖Henriques,J.F.,Valmadre,J.,Torr,P.H.S.,Vedaldi,A.:学习对学习成绩的感受。 In:NIPS. pp. 5238. 巴克,C. ,Bulian,J.,Ciaramita ,M.,Gesmundo ,A. Houlsby ,N.Gajewski,W.,Wang,W.:提出正确的问题:通过强化学习主动提出问题arXiv预印本arXiv:1705.07830(2017)9. Buda,M.,Maki,A.,Mazurowski,M.A.:系统研究卷积神经网络中的类不平衡问题。arXiv预印本arXiv:1710.05381(2017)10. 周,K.,van Merrienboer,B.,Gulcehre角Bougares,F.,Schwenk,H.,Bengio,Y.:使用RNN编码器-解码器学习短语表示用于统计机器翻译。在:程序会议自然语言处理中的经验方法(Empirical Methods in NaturalLanguage Processing,2014)11. Dauphin,Y.N.,Fan,A.,Auli,M.,Grangier,D.:使用门控卷积网络进行语言建模。arXiv预印本arXiv:1612.08083(2016)12. Fernando,C. Banarse,D.,布伦德尔角Zwols,Y.,D Rusu,A.A.,普里策一、Wierstra,D.:Pathnet:进化通道在超级神经网络中的梯度下降。arXiv预印本arXiv:1701.08734(2017)13. Finn,C.,Abbeel,P.,Levine,S.:模型不可知元学习,用于快速适应深度网络。arXiv预印本arXiv:1703.03400(2017)14. Glorot,X.,Bengio,Y.:了解训练深度前馈神经网络的难度。In:Proc.Int. Conf. 一个很好的解决方案。Stat。pp. 24915. Goyal,Y.,Khot,T.,萨默斯-斯特,D. Batra,D.,Parikh,D.:使VQA中的V变得重要:提升图像理解在视觉问题回答中的作用。arXiv预印本arXiv:1612.00837(2016)16. 郭,H.,李,Y.,尚,J.,Mingyun,G.,Yuanyue,H.,Bing,G.:从类不平衡 数据中学习 :方法和 应用回顾。 专家系统 Appl. 73,220- 239(2017)17. Hochreiter,S.,杨格,A. S. Conwell,P.R.:学习使用梯度设计来学习。In:Iter natint i n atina tini pp. 87-94 03 The Football(2001)18. Jabri , A., Joulin, A., van der Maaten, L. : 重 新 审 视 视 觉 问 答 基 线(2016)16D. Teney和A. van den Hengel19. 凯泽湖Nachum,O.,Roy,A.,Bengio,S.:学会记住罕见的事件。CoRR(2017)20. Kazemi,V.,Elqursh,A.:显示、提问、出席并回答:视觉问答的强大基线。arXiv预印本arXiv:1704.03162(2017)21. Kirkpatrick,J.,帕斯卡努河北卡罗来纳州拉比诺维茨Veness,J.,Desjardins,G.,Rusu,A.A.,米兰K Quan,J.,Ramalho,T.,Grabska-Barwinska,A.,Hassabis,D.,Clopath,C.Kumaran,D.Hadsell,R.:克服神经网络中的灾难性遗忘arXiv预印本arXiv:1612.00796(2016)22. 克里希纳河Zhu,Y.,格罗斯岛Johnson,J.,Hata,K.,Kravitz,J.,陈淑仪,Kalan-t
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功