没有合适的资源?快使用搜索试试~ 我知道了~
视觉提问与阅读理解:一种将视觉问答转化为机器阅读理解的方法
6319视觉提问与阅读理解李辉1,王鹏2,沈春华1,安东·范登亨格尔11澳大利亚机器人视觉中心,阿德莱德大学,澳大利亚2西北工业大学计算机学院摘要视觉问答要求同时理解图像视觉内容和自然语言问题.在某些情况下,推理需要借助通常以文本形式出现的常识或一般知识。目前的方法将视觉信息和文本特征联合嵌入到同一空间中。然而,如何对两种不同模态之间的复杂相互作用进行建模并不是一件容易的工作。与多模态特征融合的研究不同,本文提出用自然语言统一所有的输入信息,从而将VQA问题转化为机器阅读理解问题。通过这种转换,我们的方法不仅可以处理专注于基于观察的问题的VQA数据集,而且还可以自然地扩展到处理需要探索大规模外部知识库的基于知识的这是朝着能够利用大量文本和自然语言处理技术来解决VQA问题迈出的一步。提出了两种类型的模型来处理开放式VQA和多项选择VQA问题。我们在三个VQA基准上评估我们的模型。与最先进的性能相比较,证明了所提出的方法的有效性。1. 介绍视觉问答(VQA)是一个新兴的问题,它要求算法能够回答关于给定图像的任意自然语言问题。它吸引了 大 量 的 兴 趣 , 在 计 算 机 视 觉 和 自 然 语 言 处 理(NLP)社区,因为它在自主代理和虚拟助手的许多潜在的应用。在某种程度上,VQA与文本问题回答(TQA,也称为机器阅读理解)任务密切相关,该任务要求机器基于给定的文本段落回答问题然而,在这方面,前两位作者对这项工作同样做出了贡献。C.沈是通讯作者。文本颜色1:灰色文本颜色1:灰色宠物2:猫宠物2:猫图1 -VQA和TQA之间的比较。图1是基于观察的,这可以从图像本身推断出来。图2是基于知识的,它必须引用图像之外的知识。超文本知识通常出现在文本中,更容易被结合到任务质量评估的上下文段落中。VQA似乎更具挑战性,因为有额外的视觉支持信息。与图1相比,TQA中的输入都是纯文本,而VQA必须将来自图像的视觉信息与来自问题的文本内容相结合。一方面,图像比文本具有更高的维度,缺乏语言的结构和语法规则,增加了语义分析的难度。另一方面,该算法必须联合嵌入来自两种不同模态的视觉和文本信息。VQA 中 的 大 多 数 方 法 采 用 深 度 卷 积 神 经 网 络(CNN)来表示图像,并采用递归神经网络(RNN)来表示句子或短语。提取的视觉和文本特征向量,然后联合嵌入级联,元素的总和或产品,以推断答案。福井等人[8]认为这种简单的合并可能不足以完全捕获两种不同模态之间的复杂关联,他们提出了用于VQA的多模态紧凑双线性池化方法(MCB)。如果推理需要结合额外的知识,那就更复杂了Li等[17]建议将知识嵌入内存插槽中,并将外部知识与图像,问题和答案特征相视觉问题回答语篇提问视觉文本背景:图像中有一只猫和一只狗。一只猫在桌子上。一只灰猫。一只黑狗。一只狗在沼泽旁边。一棵植物在猫的旁边。绿色植物猫是看着植物。文本1、猫是什么颜色的?文本1、猫是什么颜色的?2.图中哪种动物会爬树?(额外知识:猫会爬树。)2.图中哪种动物会爬树?(额外知识:猫会爬树。)6320动态记忆网络(DMN)在这项工作中,不同于探索高维和噪声图像特征来推断答案,我们用自然语言显式地表达图像。与图像特征相似,自然语言代表了更高层次的抽象,充满了语义信息[26]。通过这种变换,所有的输入都转换成文本,避免了图像和文本特征联合嵌入到一个隐藏空间。相反,多模态融合是在文本域进行的,这是更好地显式地保留语义信息,这是VQA的核心关注。此外,通常由文本描述的外部知识可以很容易地集成到模型中该模型利用文本领域的注意力机制,文本)支持事实,从而使推理过程更易于理解。这项工作的主要贡献有三方面:1) 提出了解决VQA问题的新思路。我们不整合来自不同模态的特征向量,而是用自然语言显式地表示图像内容,并将VQA解决为阅读理解。因此,我们可以借助自然语言处理界的丰富研究成果来处理VQA问题。使用文本和NLP技术可以方便地访问更高级别的信息,并实现从TQA到VQA模型的迁移学习。文本数据比图像数据更容易收集。我们的方法可以利用大量的文本来理解图像,动作和命令。2) 提出了两种VQA模型,分别针对基于转换后的文本描述和模型中使用的注意机制,可以从上下文中检索语义级支持事实,这使得答案推理过程具有可读性。所提出的模型在三种不同类型的VQA数据集上显示出与最先进的性能相当的性能,这证明了它们的可行性和有效性。3) 大多数VQA方法不能处理基于知识的VQA或性能不佳,因为复杂的相比之下,我们的方法可以很容易地扩展到解决基于知识的VQA。2. 相关工作2.1. 联合嵌入目前的方法需要融合图像和文本的特征,这是一个多模态特征融合问题。大多数现有的方法使用简单的方式,如向量连接[20,24,29],元素乘积或求和[1,9,34]来联合嵌入视觉特征和文本特征。福井等人[8]认为,这些简单的方式是不够的表达,并提出MCB允许图像和文本向量的所有元素之间的乘法交互。然而,它需要首先将图像和文本特征投影到更高维的空间(例如,16000D以获得良好性能),然后在快速傅立叶变换空间中通过逐元素乘积对两个向量进行卷积。多模态低秩双线性池(MLB)[13]和多模态分解双线性池(MFB)[37]后来被提出。MLB采用Hadamard积对多模态特征进行集成,而MFB则先将多模态特征扩展到高维空间,再用Hadamard积进行集成。Kim等人[12]提出了多模态残差网络(MRN)来从视觉和语言信息中学习多模态,它本质上采用了捷径和联合残差映射来学习多模态交互,这是受到深度残差学习的启发。可以看出,如何集成多模态特征在VQA中起着关键作用,这本身就是一个挑战性的问题。在本文中,我们直接用文本来描述视觉信息,在文本域中统一了预先输入的信息。2.2. 基于知识的VQANLP社区中有一些关于使用语义解析[3,33]或信息检索[4,5]来回答包含外部知识的问题的研究它们都基于文本特征。由于非结构化的视觉输入,将这些方法扩展到基于知识的VQA是不平凡的Wu等[32]提出将图像表示与根据预测图像属性从一般知识库中提取的额外信息相结合,用于VQA。该方法可以回答图像之外的问题,但提取的知识是离散的文本片段,没有结构化表示。Ahab [27]在资源描述框架知识库上使用显式推理来得出答案。但该方法在很大程度上依赖于预先定义的模板,这限制了它的应用 。 Wang 等 人 [28] 摘 要 介 绍 了 “ 基 于 事 实 的 VQA(FVQA)”问题,并提出了一种基于语义分析的事实检索方法。计算匹配分数以获得最相关的支持事实和最终答案。这种方法容易受到同义词和同形异义词的误解。然后在[22]中为FVQA开发了一种基于学习的方法,该方法将事实和问题图像对的参数映射到嵌入空间,从而可以评估它们的兼容性。特征通过图像-问题-答案-事实元组连接。[39]和[17]中的工作利用DMN来合并外部知识。我们的方法是更直接地处理基于知识的VQA。通过将图像视觉信息表示为文本,我们将图像-问题-答案统一起来,6321图2-QANet中使用的编码器块的结构,由嵌入式编码器和模型编码器共享。卷积层的数量根据设计而变化。各层之间采用层间归一化和残差连接,以提高性能。事实元组到自然语言空间中,并使用NLP中的阅读理解技术来解决它。2.3. 语篇提问语篇提问(也称为阅读理解)旨在回答基于给定段落的问题。它是NLP领域的一个典型基石,评估算法理解人类语言的能力。在过去的几年里,由于使用端到端神经网络模型和注意力机制,例如DMN [16],r-net [30] , DrQA [6] , QANet [36] 以 及 最 近 的 BERT[7],已经取得了重大进展。许多问答技术在解决VQA问题中得到了广泛的应用,如注意力机制、DMN等。在 这 项 工 作 中 , 我 们 试 图 解 决 VQA 问 题 建 立 在QANet。3. VQA模型我们的方法是建立在新提出的QANet [36]的TQA问题。在本节中,我们首先概述了QANet及其将用于VQA模型的模块然后,我们提出了两种类型的模型,分别解决开放式VQA和多项选择VQA3.1. QANetQANet是一个快速准确的TQA端到端模型。它由嵌入模块、嵌入编码器、上下文查询注意模块、模型编码器和输出层组成。它的编码器完全由卷积和自注意组成,而不是使用RNN来处理顺序文本。接着是上下文问题注意层,以学习它们之间的交互。得到的特征被再次编码,并最终解码到上下文中答案的位置。详情可参考[36]。输入嵌入块:该模块用于将上下文中的每个单词和问题嵌入到向量中。对于每个单词,表示是单词嵌入和字符嵌入的串联。一个两层的公路网络被应用到获得嵌入特征。嵌入编码器块:它是卷积层、自注意层、前馈层和归一化层的堆栈,如图2所示。这里采用深度可分离卷积,以获得更好的记忆和泛化能力。采用多头注意机制,对全局交互进行建模。情境问题注意力模块:它的目的是提取上下文和问题词之间最相关的特征。该模型包括语境-问题将C和Q表示为编码的上下文和问题fea。其中C={c1,c2,. . .,cn},其中n字,并且Q ={q1,q2,. . .,qm},具有m个单词。问题注意力定义为A=S<$·QT,其中S∈Rn× m是每对问题注意力和问题注意力之间的相似矩阵,S<$是通过对每个问题注意力应用softmax对S的归一化。“·“是一种商品。 问 题 到 上 下 文 的注 意 力 被 定 义 为B=S<$·S<$T·CT , 其 中 S<$ 是 通过 在每列上 应用softmax对S进行的归一化。相似函数-定义为f(q,c)=W0[q,c,q<$c],其中k是每个q和c的逐元素乘法,W0是要学习的权重。型号编码器模块:该块将[c,a,c <$a,c<$b]作为输入,其中a和b分别是注意力矩阵A和B的一行。它与嵌入式编码器块共享参数输出层:输出层基于模型编码器的3次重复的输出来预测上下文中的每个位置是答案的开始或结束位置的概率。3.2. 开放式VQA模型问题和答案通常以文本的形式出现人们普遍认为,VQA的主要关注点之一是评估人工智能系统的语义级视觉理解能力。考虑到自然语言可以描述多种语义视觉信息,本文尝试将图像整体转换为描述性段落,以便为语义问题保留尽可能多的语义信息。由于所有的输入都统一在文本域中,我们的方法避免了隐藏空间中的多模态特征融合的挑战性任务我们提出的模型的架构如图3所示除了QANet中使用的基本模块外,我们还增加了另一个输入预处理模块,并修改了开放式VQA的输出模块。取决于任务,输入预处理块可以包括图像描述模块或/和外部知识检索模块图像描述模块的目的是用文本段表示图像信息,前馈层层规范化自注意层归一化位置编码重复卷积层规范化6322输出块答案类上的概率分类级联v0v1平均池平均池v2平均池型号编码器( M2 ) 型 号 编 码器 ( M1 ) 型 号 编码器(M0)情境问题注意力嵌入式编码器嵌入式编码器嵌入上下文输入预处理图像描述嵌入问题候选人支持事实图像大型知识库支持性事实检索密集字幕模型图3-开放式VQA模型。通过对图像的神经语言表征,我们将VQA转化为阅读理解。由于相同的模态,额外的graph. 密集字幕[11]为图像内容提供了更精细的语义表示,范围从单个对象的状态(颜色,形状,动作等)对于对象之间的关系(空间位置等),因此,我们推断它们包括了VQA所需的大部分支持性视觉信息。应当注意,存在使用语义标签或概念用于VQA的示例性工作。在[31]中,作者使用256个属性的词汇表作为图像表示,并在VQA中实现了对CNN图像特征的显着改进。我们的工作是另一种使用语义信息的方式。此外,密集的标题结果甚至比一些离散的属性标签更丰富,这使得它们工作得很生成的区域标题组合在一起作为QANet的图像描述。由于使用了自我注意力,该模型在编码长期依赖性方面比VQA中常用的RNN更好对于需要图像以外的辅助知识的VQA,需要一个支持事实检索模块。它要求从大规模的知识库中抽取相关的支持事实Wang等人[28]提出了根据估计的查询类型和从图像中检测到的视觉概念来查询知识库。关键字匹配技术用于检索最终的支持事实以及答案。而不是应用启发式匹配的方法,这是容易受到同形异义词和同义词,在这里,我们利用所有检索到的候选支持事实作为上下文。由于图像描述和支持事实都是用自然语言表达的,因此它们可以融合很容易通过拼接结合在一起。然后QANet将对文本信息进行编码,寻找上下文和问题之间的相关性,并预测答案。输出层也是特定于任务的。如果答案肯定包含在文本段落中,我们可以继续使用QANet中的输出层,并预测上下文中答案的开始和结束位置。然而,在某些情况下,答案可能不会在上下文中显式显示例如,区域描述通常不包括对“何时”和“为什么”等问题的回答。为了解决这种情况,我们将输出层构建为多类分类层,并基于三个模型编码器M0,M1,M2的输出特征预测预定义答案类的概率,如图3所示。希望该模型能从区域描述中学习到一些线索,从而推断出答案。首先采用平均池化层。然后将得到的特征向量连接并投影到具有答案类数量的输出空间每个类别的概率计算为p =softmax(W[v0; v1; v2]),其中W是要学习的参数交叉熵损失在这里被用作目标函数来训练模型。3.3. 多项选择VQA模型多选择VQA提供了几个预先指定的答案选择,除了图像和问题。算法被要求从这些多个选择中选出最可能的答案。它可以直接解决上述开放式VQA模型预测答案和匹配提供的多个选择。然而,这种方法没有充分利用所提供的信息。受[8,10]的启发,它也接收答案作为输入,并且在性能上有了实质性的提高,我们提出了另一种多选择VQA问题的模型。如图4所示,除了问题和转换后的图像描述之外,我们的模型还将候选答案选择作为输入,并计算候选答案和上下文之间的交互。 如果答案为真,则v0a和v1a的编码特征与v0q和v1q强相关。 否则这些特征可以是独立的。一个多层卷积器(MLP)在级联特征上训练,即, e=W2max(0,W1[v0a; v1a; v0q; v1q])。以0的概率退出。5在第一层之后使用。目标是预测图像-问题-答案三元组是否正确。因此,遵循sigmoid函数将特征转换为概率。采用二进制逻辑损失来训练模型。相对于开放式VQA模型选择最佳答案作为类别标签并排除稀有答案,多选择VQA模型直接对候选答案进行编码。因此,它将涵盖更多的答案选择。6323在我们的实验中。 由于没有官方的训练和测试分割,我们随机分割了54,039/4038/50,000张图像用于训练 /验 证 /测 试 , 如 [29]所 做 的 那样 , 这 导 致 723 ,917/53,494/667,911个训练/验证/测试QA对。有6种类型的问题,包括什么,在哪里,如何,何时,谁,为什么(Visual7W[38]是Visual Genome的一个子集,专门针对VQA。它包含了47300幅图像和139868个QA对。Visual7W中的答案是多项选择格式,其中每个问题有四个候选答案,只有一个正确。在这里,我们评估我们的模型上讲述QA子任务,其中也包括“6W”的问题。 QA对已被分为69,817/28,020/42,031,用于培训/确认/测试。图4-多选VQA模型。它以图像-问题-答案三元组作为输入,并将问题和答案的交互与上下文进行编码。对于相似的答案表达式,如此外,它避免了将它们视为不同类并学习将它们与训练数据区分开来的机会4. 实验在本节中,我们进行了大量的实验,以评估所提出的方法的有效性。所有实验都是在具有12 GB内存的NVIDIA Titan X GPU上进行的。这些模型在PyTorch中实现。4.1. 数据集我们在三个公开的数据集上评估模型。每个数据集都有其特殊性。FVQA[28](基于事实的VQA)是一个数据集,不仅提供图像-问题-答案三元组,还为每个视觉概念收集额外的知识。通过从所有图像中提取顶级视觉概念并从三个知识库(包括DBPedia [2],ConceptNet [18]和We-bChild [25])查询这些概念,构建了大规模知识库(约193,449个事实句子)FVQA收集了2190张图片和5826个问题-选项。数据集有5个训练/测试分割。每个分割有1100个训练图像和1090个测试图像,分别为训练和测试提供大约2927和2899个这些问题分为32类。Visual Genome[15]是一个包含丰富的图像和语言信息的数据集。它包含了108077张图片和1445233个问答对。它还提供5。400万个区域描述,给出关于图像的更精细的语义信息,并用作地面实况文本表示4.2. 实现细节FVQA数据集需要访问外部知识来回答给定的问题。我们遵循FVQA [28]中提出的问题到查询(QQ)映射方法,并使用前3个QQ映射结果从整个知识库中提取候选支持事实所提取的支持事实不仅包含图像信息,还包含图像之外的知识需求。所有的事实都被合并成一个段落。QANet [36]直接用于预测段落中的答案位置。我们使用QANet中的默认参数,并从在一般阅读理解数据集SQuAD上训练良好的模型中微调模型[23]。该模型以0的学习率进行微调。001,10个时期,0. 0001在每个训练分割上分别进行另外10个时期,并在相应的测试分割上进行测试。Visual Genome提供了真实的区域描述。基于这些注释,Justinet al. [11]提出了一种完全卷积的定位网络来联合生成更精细级别的区域和字幕。Yang等[35]提出了一种基于联合推理和视觉上下文融合的模型流水线,取得了更好的稠密覆盖效果。我们使用我们的训练分割重新训练这些模型,并预测测试图像的密集字幕。选择前5000个频繁出现的答案作为类标签来训练开放式VQA模型。考虑到平均段落长度和训练速度,我们使用500个单词的段落限制和4个注意力头在编码器块中进行快速训练。该模型使用ADAM优化器[14]从头开始训练30个epoch。学习率设置为0。001最初,衰减率为0的情况。每3个时期8次,直到0。0001对于Visual7W数据集,每个问题都有多项选择题,我们训练多项选择VQA模型。我们从每个正面例子的多项选择中随机抽取两个负面答案,并将所有图像-问题-答案三元组混洗以训练模型。概率作为正确答案输出块乙状eMLP级联v0v1v2v3平均池模型编码器(M2)模型编码器(M2)型号编码器(M1)型号编码器(M1)上下文回答上下文问题注意注意嵌入式编码器嵌入式编码器嵌入式编码器嵌入候选答案嵌入图像描述密集字幕模型图像嵌入问题6324[28,22]。我们的方法给出了一个错误的答案,最后一个问题,即使文本表示包括答案。这可能是由于“sth”的相似表达方式造成的。在这一段中,”属于食品“这一类别表1我们的方法与微调QANet实现了最高的前1精度。4.2.2可视化基因组质量保证(VGQA)我们使用前1名的答案准确度来衡量VGQA数据集的性能,遵循[29]进行公平比较。所有答案都是标准化的。如表3所示,当使用地面实况区域描述时,我们的方法实现了最佳性能。4.2.1FVQA结果分析我们使用答案准确性来评估模型,如下[28]。如果字符串匹配对应的地面实况答案,则预测的答案被确定为正确的(All答案已经被标准化以消除由单复数、大小写、标点符号、缩略语等引起的差异)。计算每种评价方法的前1和前35个测试分割的平均答案准确度表1显示了我们的方法的总体准确性,该方法基于使用[28]中的前3个QQ映射结果检索的支持事实。我们的方法与微调QANet达到最高的前1精度,这是0。比最先进的结果高7%。应该注意是[22]前3位QQ映射精度为91. 97%,比我们使用的高9%。QQ映射的结果直接影响到相关支持事实的检索。在相同的top-3-QQ映射结果下,我们的方法优于[28]中的方法,最高约6%。 1和前3名的答案准确率,甚至比[28]中的集成方法更好由于这项工作的目的是提出一种替代方法,VQA问题表示所有的输入信息与自然语言和解决VQA阅读理解,我们离开作为未来的工作的改进QQ映射。此外,我们在FVQA训练数据上测试了QANet模型,仅在一般阅读理解数据集SQuAD上训练实验结果表明,预先训练好的QANet模型在FVQA数据集上由于可用数据量小,该模型比仅在FVQA训练数据上从头开始训练的模型给出了更好的这一现象说明,在我们的框架中,我们可以借鉴训练有素的TQA模型的经验,并利用大量的一般文本来提高VQA的性能。在图5中,我们展示了我们的方法在FVQA数据上的一些情况。我们的方法将支持事实的精确提取留给了QANet中的上下文-问题注意块,这与工作相比更可靠选项。总体准确度比基于地面实况的准确度高出约5%[29]。当应用预测区域描述时,我们的方法在“5W”问题上仍然有较高的准确率,证明了我们方法的有效性。优先权甚至在“谁”的问题上也很明显然而,由于“什么”问题占60。5%的问题,其性能对整体准确率有较大影响。“什么”问题的回答使用[35]中的密集字幕模型的总体准确度比使用[11]中的模型高1%,因为密集字幕结果更好。如[11]所述,使用地面实况区域框产生的mAP(平均精度)为27。03%,而[11]中的模型仅生成5的mAP。39%,[35]中的模型获得mAP为9。百分之三十一预测区域描述与真实区域描述之间的巨大差距导致VQA性能下降。我们相信,随着更好的图像描述方法的出现,结果将进一步改善在这里,我们离开的改进,产生更详细和正确的区域描述作为未来的工作。还进行了消融实验,以使用[15]的地面实况密集字幕结果来测试具有不同最大段落长度的如表2所示,段落越长,整体准确度会略有提高,但计算速度会降低很多。在性能和计算速度之间进行权衡,我们使用500字的段落限制。最大长度(字数)整体准确度(%)推理时间(QA次数/秒)培训时间(QA次数/秒)250四十三921594930044. 351464550044. 83902975044. 8949171000四十五013712表2通常,较长的文本描述导致相对较高的准确性。但计算负担大大增加。方法整体准确度(%)top-1前3LSTM-问题[28]第二十八话二十四岁98四十40Hie-Question[28]第二十八话四十三14五十九44FVQA(top-3-QQmaping)[28]五十六91六十四65[28]第二十八话五十八76-6325预图像探索离子图中哪个物体是用来冷藏食物的?什么动物可以站着休息?在这张图片中,哪个物体是圆的?在这张图片中你能看到什么样的食物?相应段落厨房里有一个白色的冰箱和一个白色的炉子。棕色的木制橱柜。白色冰箱,带冰柜。冰箱属于食品类。冰箱是用来冷藏食物的。烤箱属于食品制备器具的范畴。烤箱属于食品和饮料制备的范畴。烤箱是加热食物的装置.炉子属于食品加工设备的类别。城市街道上的马车。一个人骑着一辆马拉的马车在街上走。马可以站着休息。人与有生命的存在物有关。人与站立有关。人与动物有关。人们可以为自己挺身而出。树与向上有关。打网球的网球拍在男人的手。在网球场上拿着网球拍的人。用网球拍击球的人。网球是圆的。网球通常是黄色的。网球是球形的。网球是空心的。一堆水果和蔬菜放在桌子上。一串黄色的香蕉。红苹果在碗里。水果属于食品类。苹果属于食品类。梨属于食品类。香蕉属于食物橘子属于食品类。安斯维尔(d)、冰箱马网球香蕉回答wer冰箱马网球水果图5 -我们的方法在FVQA数据集上的成功和失败案例。我们的方法正确地预测了前三列中问题的答案,但对最后一列失败了此外,与图像相比,答案的原因可以从语义级的文本描述中读取方法准确度(%)什么(60.5%)哪里(17.0%)当(3.5%)谁(5.5%)为什么(2.7%)如何(10.9%)整体VGG+LSTM [1]三十五12十六岁3352岁71三十0311个国家。55四十二69三十二46[19]第十九话39岁72十七岁5352岁53三十三岁。8012个。62四十五14三十五94[29]第二十九话GtFact(Obj+Att+Rel)+VGG44. 28十八岁8752岁06三十八岁。8712个。93四十六岁。0839岁30[29]第二十九话预测事实(对象+属性+关系)+VGG四十34十七岁8052岁12三十四9812个。78四十五37三十六44Ours-GtDescp四十九623岁8五十六9五十七2十六岁7五十九344. 8[11]第十一话三十六4十七岁9五十六5四十八6十四岁7四十五1三十三岁。7[35]第三十五话三十七4十八岁6五十六6四十九0十四岁8四十五8三十四5表3-还报告了不同问题类型的前1名准确率我们的方法实现了更高的准确率在“5W”的问题类型,除了“什么”。每种问题类型的百分比显示在括号中。“GtDescp” means方法准确度(%)什么(47.8%)哪里(16.5%)当(4.5%)谁(10.0%)为什么(6.3%)如何(14.9%)整体LSTM+CNN [1]四十八9五十四4七十一3五十八151岁350块352岁1Visual 7W [38]51岁5五十七075. 0五十九555. 5四十九855. 6MCB [8]六十岁。3七十479岁。569岁。2五十八251岁162. 2MLP [10]六十四575. 982岁1 七十二968岁0五十六467岁1[21]第二十一话五十九063岁275. 7六十岁。3五十六252岁0五十九4KDMN-NoKG [17]五十九769岁。679岁。68岁061岁651岁362. 063269Ours-GtDescp七十574岁5七十七。0八十363岁855. 769岁。8[11]第十一话五十八4六十四975. 1七十2五十六350块8六十岁。2[35]第三十五话五十九766岁。275. 1七十8五十八051岁561岁2表4-4.2.3Visual7W结果分析我们在Visual7W数据集上评估了多选择VQA模型。结果示于表4中。我们的方法在应用地面真实区域描述时达到最佳性能。它也表现良好,当我们使用来自[35]的预测密集字幕,与最近提出的基于[21]和[17]的方法的结果相比,没有添加额外的信息。具体来说,我们的模型在“谁”问题上表现出更好的性能,在“什么”和“如何”问题上表现出相当的准确性。因为该地区描述-6327草地上的小孩穿黄色衬衫的小孩。一片绿草。女孩的紧身裤是粉红色的。女孩的衬衫是黄色的。女孩衬衫上的瓢虫。瓢虫身上的黑点。女孩的头发是金色的。男孩在踢足球。男孩的短裤是红色的。这个男孩的衬衫是红色和白色的。足球是白色、橙色和黑色的。金发女孩足球与球。地上的苹果是绿色的。上面有五个手指红色衬衫配白色时钟绿色足球与足球bakset。用银行和钱币晒太阳黄色的瓢虫衬衫。男孩手武器枪刀黑色。黑白球一小片绿草。红色和黑色设计的黄色衬衫草地上的小孩草地上的球草地上的粉色和蓝色的裤子白色的球。穿鞋子的女孩黄色衬衫。足球问题现在几点了?孩子们什么时候离开田野?孩子们为什么有几个孩子谁站在这张照片里?这张照片是在哪里拍的?提供多项选择并预测概率夜间(0.04)下午(0.15)上午(0.04)白天(0.96)当游戏结束时(0.45)游戏结束后(0.23)该吃饭了(0.10)当他们的父母准备带他们回家(0.08)他们在玩捉迷藏(0.26)正在练习(0.09)他们在一起玩得很他们试图踢球(0.18)三(0.13)四(0.04)无(0.18)两个(0.63)一个女人(0.28)一对夫妇(0.01)一个老人(0.01)一个女孩和一个男孩(0.97)在公园( 0.60) 在 游泳池(0.01)博物馆(0.02)在 草 地 上(0.72)GT_answer白天当他们的父母准备带他们回家时他们在试着踢球两一男一女在草地上图6-我们的多项选择VQA模型在Visual 7 W数据集上的定性结果。 给定图像,[11]的预测密集字幕结果在蓝色的盒子里。我们在括号中报告每个候选答案选择的概率。预测的答案是每个问题概率最大的答案,以红色显示VQA模型通过上下文问题关注度和上下文答案关注度来关注最相关的单词(如文本段落中的红色单词所示),这有助于答案的推断。文本包含了丰富的图像语义信息。它们有助于回答诸如“什么颜色”、“什么形状”、“男人在做什么”、“谁在做......”等问题。然而,即使我们使用地面实况区域描述,它在“为什么”和“何时”问题上的表现也很差。我们推断,这是因为“Why”和“When”问题的候选答案在这种情况下,模型很难在问题/答案和上下文之间进行共同关注。va和vq的编码特征不是强相关的。此外,应该注意的是,[10]中的工作报告了64的准确性。5%,54。对于“为什么”和“如何”的问题,即使只基于问题和答案的输入,没有图像,这意味着他们的模型可以在不使用图像信息的情况下推断出正确的答案。这个模型似乎过度拟合了这个数据集。它仅仅是从数据集中学习偏差,从解决VQA问题的角度来看,这是不被接受的我们在图6中展示了我们的多项选择VQA方法对不同类型问题产生的一些定性结果。实验结果表明,如果文本描述中包含了相关信息,VQA模型的性能较好。 即使 答案在 段落 中没有 精确 如图 6中的 “Howmany”和“Who”QA对所证明的,预测的答案基于来自段落的两个单独的在这个例子中,此外,在转换为充满语义信息的文本后,推理过程可从上下文问题的注意力。实例表明,当问题问然后可以通过另外考虑聚焦对象来推断正确的答案。5. 结论本文试图从机器阅读理解的角度来解决VQA问题.与从图像特征向量中挖掘模糊信息不同,本文提出用自然语言显式表示图像内容,并将VQA转换为文本问答。通过这种变换,我们避免了多模态特征在隐藏空间中的联合嵌入。通过在文本域进行多模态融合,保留了语义信息,对VQA更有价值在文本域中引入注意机制,使推理过程更具有可解释性。该框架可以很容易地扩展到结合外部知识,因为它通常出现此外,我们可以利用大量的文本和NLP技术来提高VQA的性能。我们的实验还表明,如果上下文太长,就很难推断出正确的答案。因此,如何生成正确有效的图像描述,以及如何提取适当的外部知识是下一步的工作。确认这项工作得到了ARC机器人视觉卓越中心的部分支持。P. Wang6328引用[1] Stanislaw Antol , Aishwarya Agrawal , Jiasen Lu ,Margaret Mitchell,Dhruv Batra,C.劳伦斯·齐特尼克和德维·帕里克Vqa:可视化问答。正在进行IEEE国际配置文件目视,2015年。[2] SohenAuer , ChristianBizer , GeorgiKobilarov ,JensLehmann , Richard Cyganiak 和 Zachary Ives 。Dbpedia:开放数据网络的核心。语义网,第722-735页,2007年[3] Jonathan Berant , Andrew Chou , Roy Frostig , PercyLiang. 基 于 Freebase 的 问 答 对 语 义 分 析 。 在Proc.Conf.EmpiricalMethodsinNaturalLanguageProcessing,2013中。[4] 安托万·博德斯苏米特·乔普拉杰森·韦斯顿用子图嵌入回答 问 题 。 在 Proc. Conf. Empirical Methods in NaturalLanguage Processing,第615-620页[5] Antoine Bordes、Nicolas Usunier、Sumit Chopra和JasonWeston。大规模简单问题回答与记忆网络。2015年。[6] 陈丹琪,亚当·费希,杰森·韦斯顿,安托万·博尔德斯.阅读维基百科回答开放领域的问题。在Proc. Conf. TheAssoc. Comput.语言学,第1870- 1879页,2017年。[7] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT:用于语言理解的深度双向变换器的预训练。CoRR,绝对值/1810.04805,2018年。[8] Akira Fukui , Dong Huk Park , Daylen Yang , AnnaRohrbach,Trevor Darrell,and Marcus Rohrbach.多模态紧凑双线性池的视觉问题回答和视觉接地。 在procConf. 自然语言处理的经验方法,2016年。[9] Haoyuan Gao , Junhua Mao , Jie Zhou , ZhihengHuang,Lei Wang,and Wei Xu.你在跟机器说话吗?多语 言图 像 问题 回 答 的数 据 集和 方 法。 在 Proc. Adv.Neural Inf.过程系统第2296-2304页,2015年。[10] Allan Jabri,Armand Joulin,and Laurens van der Maaten.重新审视视觉问答基线。 在proc EUR.配置文件可见,2016年。[11] 贾斯汀·约翰逊安德烈·卡帕西和李飞飞。Densecap:用于密集字幕的全卷积定位网络。正在进行IEEE会议对比可见光帕特识别,2016年。[12] Jin-Hwa Kim、Sang-Woo Lee、Dong-Hyun Kwak、Min-Oh Heo 、 Jeonghee Kim 、 Jung-Woo Ha 和 Beng-TakZhang。多模态残差学习在视觉品质分析中的应用。在Proc. Adv. Neural Inf.过程系统,2016年。[13] Jin-Hwa Kim 、 Kyoung-Woon On 、 Woosang Lim 、Jeonghee Kim、Jung-Woo Ha和Byoung-Tak Zhang。低秩双线性池的Hadamard乘积。在Proc. Int. Conf.学习.陈述。[14] 迪德里克·金马和吉米·巴。Adam:随机最佳化的方法。在Proc. Int. Conf.学习. Representations,2014.[15] Ranjay Krishna , Yuke Zhu , Oliver Groth , JustinJohnson,Kenji Hata,Joshua Kravitz,Stephanie Chen,Yannis Kalan-放大图片作者:David A.作者:Michael S.伯恩斯坦和李飞飞。可视化基因组:使用众包密集图像注释连接语言和视觉。Int. J. Comp.目视,123(1):32[16] Ankit Kumar , Ozan Irsoy , Peter Ondruska , MohitIyyer , James Bradbury , Ishaan Gulrajani , VictorZhong,Romain Paulus,and Richard Socher.问我任何事情:用于自然语言处理的动态记忆网络。在Proc. Int.Conf.马赫学习. 第1378-1387页[17] 李国浩、苏航、朱文武。结合外部知识,用动态记忆网络回答开放域视觉问题 在proc IEEE会议Comp. 目视帕特识别,2018年。[18] H. Liu 和 P.辛格. 一个实用 的常识推理工具 包。BTTechnology Journal,22(4):211-226,2004.[19] Jiasen Lu,Jianwei Yang,Dhruv Batra,and Devi Parikh.视觉问题回答的结构性问题-图像共同关注。[20] Jiasen Lu,Jianwei Yang,Dhruv Batra,and Devi Parikh.用于视觉问答的分层问题图像共注意。在Proc. Adv.Neural Inf.过程系统,第289-297页[21] Chao Ma,Chunhua Shen,Anthony Dick,Qi Wu,PengWang,Anton van den Hengel,and Ian Reid.用
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- AA4MM开源软件:多建模与模拟耦合工具介绍
- Swagger实时生成器的探索与应用
- Swagger UI:Trunkit API 文档生成与交互指南
- 粉红色留言表单网页模板,简洁美观的HTML模板下载
- OWIN中间件集成BioID OAuth 2.0客户端指南
- 响应式黑色博客CSS模板及前端源码介绍
- Eclipse下使用AVR Dragon调试Arduino Uno ATmega328P项目
- UrlPerf-开源:简明性能测试器
- ConEmuPack 190623:Windows下的Linux Terminator式分屏工具
- 安卓系统工具:易语言开发的卸载预装软件工具更新
- Node.js 示例库:概念证明、测试与演示
- Wi-Fi红外发射器:NodeMCU版Alexa控制与实时反馈
- 易语言实现高效大文件字符串替换方法
- MATLAB光学仿真分析:波的干涉现象深入研究
- stdError中间件:简化服务器错误处理的工具
- Ruby环境下的Dynamiq客户端使用指南
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功