新颖物体视觉提问实证研究

120 浏览量更新于2023-10-16 收藏 934KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1新颖物体视觉提问的实证研究桑索什湾Ramakrishnan1， 2 Ambar1 Gaurav Sharma1 Anurag Mittal21 IIT坎普尔2IIT马德拉斯†摘要在已知物体上训练在未知物体我们研究了在较难的环境中回答关于图像的问题的问题，其中测试问题和相应的图像包含新的对象，这些对象在训练数据中这种设置在现实世界中是不可避免的-由于视觉类别的重尾分布，会有一些对象不会在训练集中进行注释。我们发现，两种流行的现有方法的性能显着下降这只猫是黑白相间的吗？是的这只狗是黑白相间的吗？(up至28%）时，评价新的对象cf.已知的OB-对象。我们提出的方法，利用现有的大外部-（i）未标记文本的最终语料库，即，书籍，和（ii）图像标记类，以实现新颖的基于对象的视觉问答。我们做了系统的实证研究，无论是一个甲骨文的情况下，新的对象是已知的文本，以及一个完全自动的情况下，没有任何外显知识的新的对象，但与最小的假设，新的对象是语义相关的现有对象的培训。所提出的新的基于对象的视觉问答的方法是模块化的，可以潜在地用于许多视觉问答体系结构。我们显示出一致的改进，与两个流行的架构，并给出定性分析的情况下，模型做得很好，那些未能带来改进。1. 介绍人类无缝地结合了多种刺激方式，例如，听觉，视觉，语言，触觉，嗅觉，来做决定。因此，作为人工智能的下一步，涉及这种多模态的任务，特别是语言和视觉，最近已经引起了大量的关注。视觉问答（VQA），即回答关于图像的问题的任务，最近已经在监督学习设置中引入[21，3]。在当前研究的设置中，像在其他监督学习设置中一样，训练数据和测试数据中的对象超过-该项目开始时，Santhosh Ramakrishnan和Ambar Ampur是IIT坎普尔的暑期实习生安巴尔是印度理工学院德里分校的学生网址：ambar14012@iiitd.ac.in，grv@cse.iitk.ac.in†{ee12b101@ee，amittal@cse}. iitm.ac.in图1：我们感兴趣的是回答关于包含训练时未看到的对象的图像的问题。几乎完全重叠，即在测试期间出现的所有对象都在训练中被注释。该设置是有限的，因为这需要具有世界上所有可能对象的训练数据-由于视觉类别的重尾分布，这是不切实际的要求。在发行版的尾部，有许多对象是罕见的，它们的注释可能不可用。虽然人类能够容易地对新物体进行一般化，例如，如果在训练过程中只看到一只猫和/或一只狗，那么自动方法很难做到这一点。在一般的监督分类中，这样的设置已经被研究为零拍摄学习[15]，并且已经应用于图像识别[11，14，36，40]。虽然零激发设置在训练期间从未见过测试类或对象的约束下工作，但它还假设某种形式的辅助信息将新的测试类与所见的训练类连接起来。这种信息可以是手动指定属性的形式[11，14，40]，也可以是学习分布式嵌入（如Word2Vec）的类之间捕获的关系的形式[23]或GloVe[25]，来自未注释文本的单词语料库[36]。在本文中，我们感兴趣的是类似的设置，但对于回答关于图像中存在的新对象的问题的更不受约束和更具挑战性的任务。这样的环境虽然是自然的，但据我们所知，迄今为止还没有研究过。我们首先提出了一个新的分割（第4.1节），将大规模pub分为训练集和测试集，然后开始研究这个问题43924393最近由Antol等人提出的VQA的lic数据集。[3]的文件。我们的分割确保了测试集中的新对象永远不会出现在训练集中;我们选择新的对象，并将包含这些对象的所有问题与其答案也包含它们的所有问题一起放入测试集中。这意味着训练集不包含任何问题，该问题（i）对新对象进行查询，或者（ii）对指示任何新对象的图像的某个方面进行查询，即有任何可能的答案提到小说的对象。因此，分裂是强的，因为训练集中缺少关于新对象的任何信息。然后，我们采用了两种基于深度神经网络的架构，它们在基于语言和视觉的任务中表现出良好的性能[18，26]。我们对新的对象VQA的新的分裂基准，并比较已知的对象设置的性能正如预期的那样，我们发现性能显著下降（高达28%）当测试集中有新的物体我们提出基于深度递归神经网络的多模态自动编码器的两种方法，利用现有的大量文本和图像的辅助数据集来回答关于新对象的问题，研究了两种架构。所提出的框架是模块化的，可以与许多基于神经网络的VQA系统一起使用。我们表明，所提出的方法提高了系统的性能，同样当（i）假设一个预言，这给出了新的测试对象和（ii）当最小的假设，新的测试对象是语义相关的，量化的相似性在分布式Word2Vec嵌入空间[23]，到训练对象。我们广泛研究多个配置定量和定性分析的结果表明，在这种新的设置所提出的方法的实用性。2. 相关作品基于图像的问题回答是由Ma- linowski和Fritz [20]引入的视觉图灵测试。随着大规模数据集，介绍了由Antol等人。[3]，最近有很多或感兴趣的问题。Wu etal.[34]将VQA的方法分为三类。首先，基于联合嵌入的方法，将视觉和文本向量带入公共空间，然后预测答案[8，9，21，24，27，1，2]，第二，基于注意力的系统，关注支持问题的图像中的相关空间区域[5，19，29，38，39，41]，最后，第三，基于具有外显记忆机制的网络[13，37]。Malinowski等人[21]和Gao et al.[9]使用LSTM对问题和图像进行编码，并使用解码LSTM生成答案。Ren等人。[27]使用多类分类在预定义的单字答案词汇表上预测单字答案Fukui等人[8]一个多-双峰双线性池，使用傅立叶空间计算效率。Zhu等人[41]通过学习卷积特征上的权重来增强LSTM的空间Similarly，Chen et al.[5]使用与学习的内核的卷积生成问题引导的注意力图。Yang等人[39]使用堆叠的注意力网络来估计答案。Xu等人。[38]提出了一种多跳图像注意方案，其中两种类型的跳由基于单词和基于问题的注意引导。Shih等人。[29]使用区域建议来找到图像中的相关区域w.r.t.问题和潜在答案对。Lu等人[19]提出了一个分层的共同注意力模型，其中图像和问题都将注意力引导到彼此的部分。Kumar等人的动态记忆网络。[13]及其变体[33，30，4]最近已被Xiong等人改编并应用于VQA。[37 ]第37段。他们根据输入的问题使用外显记忆来阅读和写作，使他们能够更好地理解问题。还提出了使用辅助图像或文本数据集或其他知识源Wang等人。[31，32]提出了使用知识库进行VQA的方法。Wu等人。[35]预测图像中的语义属性，并利用外部知识库来查询相关知识，以更好地理解问题。在精神上类似于目前的工作，零杆学习，即。当测试类的集合与训练类的集合不相交时，在文献[11，14，15，40]中已经得到了很好的研究。零镜头学习旨在预测新的对象类别，而无需任何视觉训练示例，但已知和未知对象之间存在辅助关系，例如。以共同属性的形式。Lampert等人 [14]建议使用属性进行零拍摄图像分类，而Xian等人最近的工作。[36]表明，它可以使用从无监督文本数据中学习的嵌入来实现。用于零镜头分类的大多数当前最先进的方法使用基于嵌入的方法，其中图像和类（用于类的词，例如，我们的工作也涉及到最近的工作自动编码器的向量序列的基础上循环神经网络（RNN）。这种自动编码器最近已被用于文本处理[16，6]，以及进行半监督学习和基于RNN的语言模型的微调。3. 方法我们感兴趣的是扩展VQA模型，通过在文本和视觉上感知它们来更好地为此，我们从VQA的两个现有架构开始，并将它们暴露给额外的信息，来自文本和IM的辅助数据集4394以精心设计的方式。这使得他们能够回答关于VQA训练数据中不存在的新对象的问题我们考虑两种基于深度神经网络的架构，如图2所示，其变体已在最近的文献中使用[18，26]。我们首先描述的基础架构，然后提出新的对象归纳的培训和架构扩展。3.1. 基础架构建筑学1.图2（左）所示的第一个架构是由Lu等人提出的。[18]，使用基于长短期记忆（LSTM）的递归神经网络，将问题编码为x Q∈ RdQ，以及卷积神经网络-工作（CNN）将图像编码为xI∈RdI。两然后将编码的表示投影到一个公共的多模态空间，投影矩阵分别为WQ∈Rd×dQ和WI∈Rd×dI然后将投影向量逐元素相乘以获得联合多模态问题和图像的代表性然后，该表示又使用全连接层投影到答案空间，以获得可能答案集合上的概率，p QI = WQI（tanh（WQ x Q）tanh（WIxI））。（一）这里，pQI是给定图像、问题对（即，该模型将VQA任务视为多模态信号分类任务。具有最大可能性的答案然后被作为预测答案。建筑学2.第二种架构如图2（右）所示，由Ren等人提出[26]，借用的想法，从图像字幕文学。它将图像视为问题的第一个单词，通过使用学习的投影矩阵We将图像特征向量xI投影到单词嵌入空间。首先跟随图像，然后将问题词一次传递给LSTM。最后一个时间步之后的LSTM的隐藏状态向量，现在变成了问题和图像的联合嵌入，然后被投影到答案空间以获得答案集上的概率，类似于上面的架构1。3.2. 使用辅助数据集鉴于上述两种架构，我们现在解释如何使用辅助数据集引入新对象我们在两种不同的背景下进行实验，第一，当小说词汇是已知的文本，第二，当小说词汇是未知的。前者类似于零拍摄分类[14]设置，其中未知类在训练时从未可见，但在文本上是已知的。在后一种情况下，我们假设新词语在语义上接近已知词语;在这里，我们使用标准分布中单词的向量相似度，字嵌入空间，例如word2vec [22].给定来自两个设置的新颖词语，为了使系统意识到新颖概念，我们有两个辅助信息源。我们可以使用大量的文本数据，例如来自维基百科或书籍的图像数据，以及来自ImageNet等大型数据集的图像数据[28]。我们现在描述我们提出利用这样的辅助数据集以使上述VQA系统意识到新对象的不同方式。仅辅助文本数据。在第一种方法中，我们建议只使用辅助文本数据，以提高VQA性能的新对象。在大多数VQA架构中，问题编码是通过递归神经网络（如LSTM网络）完成的。当大量的文本数据可用时，其中包含已知对象和新对象以及它们之间的关系（如可以文本描述的），我们假设辅助数据集上的预训练问题编码器可能是有益的。为了预训练问题编码器，我们使用基于LSTM的序列自动编码器（AE），例如：[6、16]。AE在大型外部文本数据集上进行预训练，例如：[42]第四十二话图3显示了AE（缺少虚线框，我们将在下文对其进行更多解释）。然而，这并不是一个简单的预训练，因为文本词汇表需要扩展以包含新单词，以便VQA系统能够识别它们，而不仅仅是将它们视为UNK（词汇表中没有的所有单词的特殊标记）。可以说，仅使用当前词汇进行预训练可能会提高编码器的整体性能，并可能有助于VQA系统-我们在实验中也测试了该系统。做这样的词汇扩展是不平凡的;我们可以使用来自外部语料库1的词汇表，但是这样的词汇表变得非常大并且可能降低VQA性能。因此，我们评估两种方法来构建词汇。Oracle设置。首先，我们假设一个预言设置，我们知道（文本上）将出现的新单词-这与零镜头设置2中的假设相似[14]。我们将已知的新单词添加到当前词汇表中，并在辅助文本数据上训练AE。一旦训练好，我们就从AE中获取编码器权重来初始化VQA系统中的一般设置。其次，我们假设新单词在语义上与已知单词相似，因此通过添加来自外部数据集的单词来扩展词汇表，这些单词与已知单词在一定距离内。我们使用的语义词距离是已知词和新词的word2vec嵌入[22]之间的余弦距离。这是一个更轻松的，因为-1整个数据集中2请注意，我们的设置比[14]中的零拍摄设置更难，因为这里的测试集包含已知和新的对象4395LSTMCNN多层CNN...w wwww wv一：一：A：停LSTMFCA：停图2：两个视觉问题包装（VQA）Q：标志上写的是什么？我：S：孔雀是蓝色的多层跳过连接S：孔雀是蓝色的输入图像（零图像）女士说标志说，他戏剧...游戏结束...CNN他戏剧...游戏开始使用的架构图3：用于预训练各个VQA网络编码器的自动编码器假设与Oracle设置相比，我们称之为通用设置。然而，在实践中，我们发现直接AE训练在这个一般设置中是嘈杂的，因为词汇量增加了近4倍。我们发现训练的噪音和不稳定性主要来自于单词em-床上用品，即在AE中，在被馈送到循环单元之前，对独热词表示的投影。为了更有效地训练它，我们使用预训练技术来初始化AE的单词嵌入，如下所示。我们首先在BookCorpus上使用VQA词汇表训练AE。然后，我们选取VQA词汇表和原始训练的word2vec词汇表中出现的单词。使用这些单词，我们获得了一个投影，将word2vec向量空间与当前学习的单词嵌入空间对齐。形式上，将word2vec嵌入矩阵记为Aw，将VQA词嵌入矩阵记为Av，然后我们使用最小二乘法找到投影矩阵M，如下所示：A M=A，即， M=（A<$A）−1A<$A。（二）一旦对齐矩阵M可用，则一般设置的词汇表中的、不在VQA词汇表中的单词A_v（w）=A_v（w）M ，w∈V_g\V_v，（3）其中V_g是一般设置的词汇集，V_v是VQA的词汇。我们称之为词汇前-pansion从第一词汇到第二，在精神上类似的工作基罗斯等人。[12 ]第10段。更进一步，我们使用估计的词向量初始化AE中的词嵌入矩阵，并在Book-Corpus上再次训练AE辅助文本以及图像数据。除了使用纯文本数据来诱导新对象外，我们还尝试使用免费的辅助图像分类数据，例如ImageNet [28]。一般原理保持不变，我们希望用辅助数据训练自动编码器，但在这种情况下，这样的AE采用文本句子和图像形式的多模态输入，并将它们解码回句子. 我们希望这样的AE3将有助于诱导新的物体。为此，我们需要成对的图像-文本数据，并且我们使用两个辅助数据集来合成地和弱地生成这样的成对数据，如下所示。我们从分类数据集（如ImageNet [ 28 ]）中获取与文本词汇表中的对象相对应的单词的图像，并将它们与文本数据集中关于对象的一般句子配对，例如。BookCorpus [42]或维基百科。请注意，这预计是一个嘈杂的配对数据;我们评估这种噪音是否被AE容忍，仍然通过学习新对象的词汇视觉关联来改善VQA任务。由于第一架构的问题编码器不使用图像作为输入，我们设计了相应的多模态AE，如图3（左）所示。我们获取乘法层的输出，并使用它来初始化解码器的隐藏状态为了保持架构一致，帐篷与文本AE，我们引入了一个跳过连接，饲料的最终隐藏状态的编码器的解码器添加这样的跳过层确保AE将仅在有益的情况下使用图像编码，并且我们希望这将增加对合成生成的配对数据中的噪声的弹性因此，我们有效地将编码器的最终隐藏状态和多层的输出相加以获得初始解码器状态。在第二种架构的情况下，我们只使用图像编码作为基于LSTM的AE的第一个输入，如图3（右）的虚线部分所示。4. 实验我们现在描述的实验，我们进行验证的方法和研究VQA时，新的对象存在于测试集。我们首先描述我们使用的数据集，然后是我们创建的新分割，以便在测试集中包含新对象。然后，我们给出我们的定量和定性的结果，与讨论。VQA数据集[3]是一个公开可用的基准，由从MSCOCO数据集[17]获得的图像组成。3它不是严格意义上的AE，因为它只是解码回文本部分，而不是图像部分。我们避免解码回图像，因为最初的结果并不令人鼓舞;此外，从编码向量生成图像本身就是一个完全具有挑战性的问题[10]。LSTMLSTM解码器CNN4396问题数量对象数分裂火车Val测试火车测试两Orig道具21537522470405000121509116323362529513330302731782216表1：使用和抽象场景数据集。数据集的统计数据如表1所示。在VQA数据集上使用定义为以下的准确性度量对模型进行评估：表2：数据集分割的统计数据。可见测试对象的比例为95。4%，原始与七十三。2%的建议。#已知对象012345问题数量324523530012593260550148表3：具有具体数量的问题数量.acc= min#提供答案、13Σ.（四）测试集中的已知单词。架构1BookCorpus [42]数据集从网络上的11，038数据集的汇总统计量见表1。我们创建了一个由73874228个训练、30000个验证和100000个测试句子组成的分割来训练AE。来自ILSVRC挑战的ImageNet数据集[28]包括从Flickr和其他搜索引擎收集的图像。每个图像都标记有1000个对象类别中的一个的存在或不存在。训练集包括1 .一、200万张训练图像，50，000张验证图像，100，000张测试图片。我们使用ImageNet来获取已知和未知对象的图像。Wikipedia.从BookCorpus获得的文本数据中没有包含一些新对象的句子。此外，从BookCorpus获得的数据是面向故事的，而不是事实数据，因此包含某些对象的句子并不描述对象本身，而只是将对象作为叙述的一部分为了补充BookCorpus中的数据并获得关于新对象的描述性信息，我们通过搜索包含新对象的句子来查询Wikipedia4弱配对训练数据。为了生成合成配对数据，我们考虑了oracle/general vo- cabulary中的所有对象，并找到了与ImageNet类的交集对于每个对象，我们从匹配的类中获得m个随机图像，从BookCorpus中获得包含该对象的n个随机句子，并将它们配对以获得mn组配对图像和句子。在我们的例子中，我们选择 m=20 和n=20。这构成了弱配对训练数据，其总计约为0。甲骨文的样本为2500万，4500万个样本用于一般情况。4.1. VQA数据集我们创建了一个新的VQA数据集分割来研究架构2开放式问题多项选择题分裂Ov.allOthNum.Y/NOv.allOthNum.Y/NOrig48.7533.3131.4274.2054.9445.2432.9575.28小说34.9716.9828.2771.0642.8330.1629.4271.12下降13.7816.333.153.1412.1115.083.534.16表4：新单词设置的性能下降。分割用于训练，而来自验证分割的问题用于测试。接下来，我们将训练和验证组合的完整图像集划分为新的训练和测试分割，如下所示对于VQA数据集中的每个问题，我们识别名词5并创建每个名词出现的问题类型我们使用标准化直方图将名词聚类为14类。我们从14个聚类中随机选择80%的已知名词和20%的新名词。VQA数据集中的问题属于新的测试集，当且仅当至少有一个新名词出现在其中。我们从训练分割中随机抽取5000个问题，以创建验证分割。表2中示出了原始分割和新提议的统计，注意，虽然原始测试分割包含总共3330个中的3178个已知对象，但是提议的测试分割仅具有总共3027个中的2216个已知对象，即，出现在测试分割中的811个对象在VQA训练数据6中从未被看到（视觉上或文本上）。此外，表3示出了也出现0至5个已知对象（除了至少一个未知对象之外）的问题的数量。我们看到，大量的问题，即。32452只包含新的对象。实作详细数据。在架构1的情况下，我们使用200维单词编码大小，512RNN隐藏层大小和2RNN层的默认设置来计算仅使用在测试时设置新对象我们得到了火车，VQA数据集。为了避免很长的训练时间，VQA数据集真实场景部分的验证分割[3]称之为原始分裂火车上的问题4来源：https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz25我们使用NLTK的PerceptronTagger来获取名词http：//www.nltk.org/_modules/nltk/tag/perceptron.html6.数据集的设计导致训练和测试分割之间的图像共享;详细讨论见补充材料。VQA数据集图片数量204,721#ques614,163#ans per que10#que类型20多#words per ans一个或多BookCorpus#书籍11,038#句子74,004,228#独特的词984,846,357平均字数/发送。13开放式问题多项选择题分裂Ov.allOthNum.Y/NOv.allOthNum.Y/NOrig54.2340.3433.2779.8259.3050.1634.4179.86小说39.3823.0727.5274.0246.5434.9129.3974.10下降14.8517.275.755.812.7615.255.025.764397在其他架构的大参数值之上，我们选择了512维字编码，512RNN隐藏层大小和1RNN层来计算我们所有的结果。我们观察到，这并没有明显影响我们的结果同样，在架构2中，我们在所有实验中使用了512维单词编码，512RNN隐藏层大小和14.2. 定量结果我们对这两种架构的总体结果如表5所示。结果分为总体、其他、数字和是/否的标准问题类型。我们还介绍了新的问题类型，其中包括所有的问题，只包含新的对象，没有已知的对象（32452问题，从表3）。这有助于我们分析新对象VQA的性能，而不受已知对象的干扰。文中对每个实验所用的图象特征、辅助数据和词汇作了详细说明。图像特征可以是VGG、INC（Inception）、EF（VGG的早期融合，INC）或LF（VGG的晚期融合，INC），辅助数据可以是无（基线）、文本（ BookCorpus 预训练 AE ）或文本 +im（BookCorpus + WeakPaired数据预训练AE），并且词汇可以是训练（仅来自新分裂的训练数据的单词）、oracle（oracle case）、gen（general case）或gen（general case）。（exp）（一般情况下的词汇扩展）。我们分析了我们的研究结果，包括是否需要引入新的词汇，不同特征的影响，词汇扩展和预训练方法对整体表现的影响。在下文中，我们使用体系结构编号、行号和问题类型（其他、编号等）引用表格中的单元格。在开放式或多项选择题中）。如果我们不指定OEQ或MCQ的子类型问题，那么我们正在讨论这两种类型的总体平均值。原始性能与小说分裂表4分别给出了两种架构在原始和新分割上的结果，而不使用VQA数据集7之外的任何数据。我们观察到性能严重下降例如，开放式问题的架构 1 （2 ）平均下降了 27%（28%），多项选择题下降了21%（22%）。这表明，目前的冰毒-当没有明确地训练时，ODS不能在VQA上推广到新这从经验上证实了小说客体设置中的VQA是一个具有挑战性的问题，值得关注。单纯的预先训练是不够的。一个明显的第一个参数，如在第二节中讨论的3.2，这是预先训练的吗？7虽然训练/测试数据不相同，因此性能不能直接比较，但我们注意到，在新设置中训练的模型的训练数据量要多出1.4%（表2）。如果设置的难度相似，那么可以说，由于可以获得更多的训练数据，新模型应该做得更好。在大量的辅助文本数据上建立文本模型，可能会使其更好，从而提高性能，即使词汇表与原始词汇表（不包含新单词）保持一致。我们检验了这个假设，发现它不是真的。虽然在大多数情况下，仅文本预培训（表5中的A1.b、A2.b行）比基线（A1.a行）提供了一些改善，例如39岁38到4009在A1.b OEQ中，46。47比47A1.f中的01MCQ，他们一般是次要的，特别是在高表演模特;确实发生了一些孤立的较大改进，例如，+6。6%（34. 97比37 30），但它们并不一致，只发生在相对然而，使用oracle和通用词汇表的仅文本预训练模型提供了一致的改进，例如。+2。7%（39. 38到4044）在A1.c OEQ，+2。3%（40. 27比4119）A1.g OEQ，+7。占7%（34. 97比37 68）在A2.c OEQ和+2。3%（37. 66比38（53）在A2.g OEQ中，因为他们能够理解小说，对象因此，我们得出结论，简单的预训练，而不添加新的对象到词汇表是不够的新的对象测试设置在VQA。在下文中，所有的讨论都是w.r.t.使用包含新对象的词汇表的方法比较架构。我们发现架构1通常比架构2表现得更好例如39。38例A1.a OEQ与三十四A2.a OEQ为97，39。A1.k OEQ为56，三十五A2.k OEQ为65。性能更好的体系结构所获得的相对改进，不幸的是，相应的基线一般较低，例如， +6。2%，+4。A1.i OEQ和MCQ为2%+11。1%和+8。A2.i OEQ和MCQ均为5%，VGG和Inception功能的早期融合，这表明对于更饱和的方法更难以提高性能。然而，我们确实看到两种Archi结构在大多数情况下的持续改进，支持所提出的方法。辅助文本数据。从辅助文本数据初始化的模型，同时使用Oracle和通用词汇表，在是/否方面提供了显着的改进，例如。+5。6%（71. 06到7506）在A2.c OEQ中，+4。4%（73. 25到7649）在A1.qOEQ，和新颖的问题，如2。5%（48. 03到4923）在A1.g OEQ中，+5。2%（44. 60比4693）在A2.c OEQ中。的提出的模型改进了是/否问题，因为它们生成-通常有一个中心对象，例如，“那只小狗戴着领带吗？'(Fig.4，左上角的图像），并且当该对象（此处为领带）未知时，基线模型无法理解该问题。类似的趋势在“小说”类型中也很明显。一般（自动）词汇扩展技术的效果类似于甲骨文的情况下，其中新的对象被假定为已知的先验。甲骨文词汇与一般的词汇是简单的，4398伊拉尔岛 41岁84对 41岁82，48。87对四十八35，A1。（i，s）OEQ和MCQ，分别和39。49对 39岁91和46。40vs.四十六岁。99为A2。（i，t）分别为OEQ和MCQ。因此，我们得出结论，所提出的方法是能够利用辅助文本数据，以改善新颖对象VQA，在最小假设被做出时，新颖词被期望在语义上类似于已知词。词汇扩展。通常，与非扩展设置的准确性相比，系统的准确性随着是/否和新颖问题类别上的词汇扩展而提高，例如。75. 四十八四十八A1.p OEQ为78，七十六。49，49。36在A1.q OEQ和74。38，51。年的29A2.1 MCQ 与 75. 二十八，五十二。 47 人在 A2.mMCQ。这与我们观察到类似改进的辅助文本数据的趋势一致，并且是预期的，因为词汇扩展只是执行文本预训练的更好方法。辅助文本和图像数据。如所提出的，使用文本和图像的辅助数据集，与仅使用辅助文本数据集相比，得到了一致但很小的改进例如，考虑 A2.f-h OEQ 中的Architec- ture 2的Inception功能。37的基线。66人提高到38人。53（+2. 3%），通过甲骨文词汇扩充和辅助文本数据的使用，进一步提高到38. 75（+2. 9%）-主要的改进来自于使用文本我们认为，由于文本数据相对干净和丰富，它为模型理解新对象提供了良好的语义基础，而所提出的产生弱文本-图像配对数据的噪声方法并不能显著地补充它，有时甚至会稍微恶化它。此外，由于图像模型可能已经先验地看到了新对象，因此这可能不会对总体结果产生显著影响。补充意见。除了上述主要观察结果外，我们发现Inception特性在VQA方面通常优于VGG特性。然而，Inception相对于VGG特性的大部分改进都属于“其他”类别，例如：23岁07在A1.a OEQ与二十四岁54 A1.eOEQ 和 30. A2.k MCQ 中的 74 个与 31 岁 87 人在 A2.oMCQ。Inception基线模型在“Novel”问题上的表现通常不如VGG基线模型，因此，仅仅改善图像特征对于更好的基于新颖对象的VQA是不够的。这是预期的，因为文本模型仍然是相同的，如果没有改进文本模型或更好的联合建模，我们不能期望在新对象上的性能有显着差异。4.3. 定性结果图4显示了一些示例图像，其中包含来自不同方法的问题及其答案上行中，我们可以观察到所提出的模型（对应于A1.s）已经成功地将鼠标、应用、事件和风味的概念引入到VQA框架中，而基线（对应于A1.k）未能基于它们进行推理。第二行说明了所提出的模型的一些失败案例。它没有引出餐馆和方向的概念。我们还认为，在最后2个案例中，它纯粹基于文本模型进行预测。例如，在第四种情况下，它说飞机在运动，在第五种情况下，它说墨水是红色的。这可能是因为它目睹了类似的文本示例，并且图像没有足够的说服力来说明其他情况。5. 结论我们提出了一个新的任务VQA的基础上，新的对象，在训练过程中没有看到。这是一个相关的设置，因为在现实世界中，由于视觉类别的重尾分布，许多罕见的对象预计不会有注释。我们证明了这是一个具有挑战性的场景，直接测试在训练过程中没有看到对象的模型会导致性能大幅下降高达28%。我们建议使用文本的辅助数据集，例如。书籍，维基百科，图片，例如ImageNet，以使系统意识到它在测试期间可能遇到的新对象。我们表明，增加词汇量，包括可能的新单词，是很重要的，简单的预训练辅助数据是不够的。我们提出了两种方法，将新的对象在VQA系统。在第一种预言方法中，我们假设会出现的新对象是给我们的，而在第二种方法中，我们做了一个较弱的假设，即新单词在语义上与已知单词相似。我们还提出了一种方法，使用外部标记的图像数据集，以形成嘈杂的图像-文本对预训练的VQA架构。我们的研究结果表明，使用词汇扩展和外部文本数据集上的预训练使模型意识到新对象，显著提高了VQA的性能在新颖的测试对象设置中，+3。4%的是/否问题，+3。6%，+11。48%在其他方面，+4。8%的Novel for Architecture 1和+6。76%回答是/否问题，+2。2%的数字，+24。4%的其他人和+8。7%在开放式问题类别中的Novel for Architecture2。然而，从外部收入中获得的收益-年龄数据集要么不存在，要么只是适度的。我们认为，外部文本数据集提供了一个干净和丰富的知识来源，而配对的图像信息是嘈杂的，因此相对不那么有效。确认GS 通过 SERB 印度早期职业研究奖（文件#ECR/2016/001158）和IIT坎普尔的Research-I基金会表示感谢4399小狗戴着领带吗？苹果是什么颜色的？这到底是什么这蛋糕是什么口味的？宝宝是什么种族？P：不，B：是，GT：不P：绿色，B：红色，GT：绿色P：棒球，B：黄色，GT：绿色P：巧克力，B：左边，GT：巧克力P：亚洲人，B：左边，GT：亚洲人这是一家餐馆吗？熊面对的是什么方向？这架飞机在动吗？照片里有几个队？钢笔里是什么颜色的墨水P：不，B：是的，GT：是的布朗，B：右，GT：右是的，B：不是，GT：不是P：3，B：2，GT：2P：红色，B：蓝色，GT：蓝色图4：定性示例突出了我们提出的模型（P）的成功和失败案例cf。基线模型（B）和地面实况（GT）。新概念在问题中被强调了出来。架构1（A1）开放式问题（OEQ）多项选择题（MCQ）行壮举AuxVocab整体别人数字是/否小说整体别人数字是/否小说一VGG没有一Oracle39.3823.0727.5274.0247.5646.5434.9129.3974.1052.32BVGG文本火车40.0923.4628.8575.1448.7547.2235.3220.3675.2153.39CVGG文本Oracle40.4423.4228.2476.5248.9547.6535.3929.8976.6053.77DVGG文本+IM Oracle40.4923.3528.3276.7948.8947.3834.7630.0476.8753.80eInc没有一Oracle40.2724.5428.0273.9548.0346.4734.8429.4174.0052.19FInc文本火车40.1824.1228.2574.3748.1047.0135.4329.9174.4652.80GInc文本Oracle41.1924.9828.4475.9349.2347.8736.0030.2476.0453.88HInc文本+IM Oracle40.7324.1227.8076.0348.6147.2334.9929.5876.1253.18我EF文本Oracle41.8425.6927.9376.8749.7648.4736.6229.7576.9654.40JLF文本Oracle41.4625.3928.6675.9549.3248.2236.3330.2676.5454.04KVGG没有一Gen39.5623.1828.4774.0648.0246.2334.2729.9274.1352.44LVGG文本Gen40.5323.6228.9376.2049.0047.5035.2630.1076.2753.45MVGG文本根（exp）40.7623.8928.1976.6949.0547.8235.6729.4076.7953.75nVGG文本+IM 根（exp）40.3423.0929.2576.4949.2547.3634.8230.3176.6053.92o INC no gen40.2524.8628.1273.2547.7746.5335.2829.5673.3352.07pInc文本Gen40.7624.5428.1475.4848.7846.8734.7728.9575.5652.83QInc文本根（exp）41.3924.9628.8376.4949.3647.8835.7430.0976.6253.77RInc文本+IM 根（exp）40.4223.7727.9875.8848.7746.8734.5329.1175.9952.87SEF文本根（exp）41.8225.7228.5176.5549.6048.3536.5729.8176.6553.92不LF文本根（exp）39.6624.0327.6573.0747.3447.2635.3729.4275.5353.13建筑2（A2）开放式问题（OEQ）多项选择题（MCQ）行壮举AuxVocab整体别人数字是/否小说整体别人数字是/否小说一VGG没有一Oracle34.9716.9828.2771.0644.6042.8330.1629.4271.1249.38BVGG文本火车37.3019.5026.2474.4845.7144.3031.2627.0974.5550.31CVGG文本Oracle37.6819.5028.2875.0646.9345.1231.9129.6475.1151.67DVGG文本+IM Oracle38.0620.1528.4574.9847.5445.8032.9630.3075.1052.66eInc没有一Oracle37.6620.1828.3273.6946.5044.5931.7729.3273.7750.98FInc文本火车37.3720.0025.9073.8945.5444.4031.8326.5973.9650.27GInc文本Oracle38.5320.7928.0775.3947.5545.8532.9829.3775.4952.32HInc文本+IM Oracle38.7521.1228.9675.2047.9546.0733.3230.1375.3452.53我EF文本Oracle38.8521.1828.4375.5748.0046.4733.7630.5875.6653.15JLF文本Oracle39.4922.0228.7175.9548.4746.4033.5629.5676.0452.86KVGG没有一Gen35.6517.3326.6

下载后可阅读完整内容，剩余1页未读，立即下载