学习知识库检索的事实可视化问题回答方法的研究及成果

66 浏览量更新于2023-10-13 收藏 835KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

直接面对事实：学习知识库检索的事实可视化问题回答放大图片作者：Alexander G.Schwing伊利诺伊大学香槟分校{medhini2，aschwing}@ illinois.edu抽象。问题回答是一个重要的任务，自主代理和虚拟助理一样，并被证明支持残疾人有效地导航压倒性的环境。许多现有的方法集中在基于观察的问题上，忽略了我们将观察到的内容与一般知识无缝结合的能力为了理解与知识库的交互，最近已经引入了数据集，并且显示关键字匹配技术产生令人信服的结果，尽管由于同义词和同形异义词而容易产生误解。为了解决这个问题，我们开发了一种基于学习的方法，通过学习的嵌入空间直接进入事实。我们在最近推出的具有挑战性的基于事实的视觉问答数据集上展示了最先进的结果，超过竞争方法5%以上。关键词：基于事实的可视化问答，知识库1介绍在回答给定背景（例如图像）的问题时，我们将观察到的内容与一般知识无缝结合起来。对于自然参与我们日常工作的自主代理和虚拟助理，基于上下文和一般知识回答问题是最自然的，利用观察到的内容和一般知识的算法是非常有用的。为了应对这一挑战，近年来，大量的研究已经致力于一般的问答，特别是可视化问答（VQA）。具体地，经典的VQA任务需要一种算法来基于以图像的形式给出的另外提供的上下文来回答给定的问题例如，通过引入具有强基线的各种VQA数据集，VQA取得了重大进展[1这些数据集中的图像涵盖了广泛的类别，问题旨在测试感知能力，如计数，推断空间关系和识别视觉线索。一些具有挑战性的问题需要逻辑推理和记忆能力。然而，大多数问题可以通过单独检查图像的视觉内容因此，许多2Medhini Narasimhan和Alexander G.Schwing问题：图中的哪一个物体可以用来吃饭？关系：UsedFor相关事实：（Fork，UsedFor，Eat）答案来源：图片回答：分叉问：图中的动物吃什么？关系：相关相关事实：（Sheep，RelatedTo，Grass Eater）答案来源：知识库答案：草问：这张图片中的哪些设备是用来打棒球的？关系：CapableOf相关事实：（Baseball bat，CapableOf，Hit a baseball）答案来源：图片答案：棒球棒图1.一、FVQA数据集期望方法利用图像信息以及基于事实的知识库来回答有关图像的问题我们的方法利用图像和问题文本特征，以及从图像中提取的高级视觉概念，并结合学习的事实排名神经网络。我们的方法能够回答视觉接地以及基于事实的问题。解决这些问题的方法[7我们注意到许多上述方法集中在问题回答任务的视觉方面，即，通过组合问题和图像的表示来预测答案。这与所描述的将观察与一般知识相结合的类人方法形成了鲜明为了解决这个矛盾，在最近的细致工作中，Wanget al.[14]介绍了一个与经典的VQA数据集不同，Wanget al. [14]认为这样的数据集可以用来开发算法，回答更复杂的问题，需要结合观察和一般知识。除了数据集，Wanget al. [14]还开发了一个模型，该模型利用支持事实中存在的信息来回答关于图像的问题。为此，Wanget al. [14]设计一种方法，从问题中提取关键词，并从知识库中检索包含这些关键词的事实显然，同义词和同形异义词构成了难以克服的挑战。为了解决这个问题，我们开发了一个基于学习的检索方法。更具体地说，我们的方法学习的事实和问题图像对的嵌入空间的参数映射。为了回答问题，我们使用与所提供的问题图像对最一致的事实。如示于图1，我们的方法能够准确地回答更多的视觉问题以及更多的基于事实的问题。例如，给定在左手侧示出的图像以及问题“图像中的哪个对象可以用来一起吃饭？“，我们就能预测出正确的答案“叉子”类似地，所提出的方法能够预测另外两个考试的正确答案面向事实可视化问答的学习知识库检索3例。我们在最近引入的FVQA数据集上证明了所提出的方法的有效性，在前1个准确度指标上优于最先进的方法5%2相关工作我们开发了一个框架，从丰富的知识库中受益的视觉问答在下文中，我们首先回顾经典的视觉问题回答任务，然后讨论利用知识库的视觉问题回答方法。视觉问答。近年来，大量的研究致力于开发能够回答关于所提供的上下文（诸如图像）的问题的技术。最近，视觉问答也被用来评估最先进的预测器的推理能力使用各种数据集[11，2，8，10，3，5]，基于多模态表示的模型和注意力[18尽管有这些努力，评估当今基于深度网络的方法的推理能力并将它们与仅仅记忆训练集统计数据区分开来仍然是一项艰巨的任务。大多数为视觉问题回答开发的方法[2，8，10，18- 24，12，27，29-31，6，7，32-34]只专注于回答与观察到的内容相关的为此，这些方法使用从网络中提取的图像特征，例如在大型图像数据集（如Ima-geNet [36]）上训练的VGG-16 [35]然而，不太可能将回答问题所需的所有信息编码在从图像提取的特征中，或者甚至编码在图像本身中。例如，考虑包含狗的图像以及关于该图像的问题，诸如在这种情况下，我们希望我们的方法结合了关于世界的常识和一般知识，例如健康狗的跳跃能力，以及图像的特征和观察结果，例如狗的存在。这促使我们开发可以使用知识库编码一般知识的方法。基于知识的可视化提问接电话那里具有被兴趣在自然语言处理社区中，使用语义解析[37-47]或信息检索[48-54]方法基于知识库（KB）回答问题。然而，基于知识的视觉问题回答仍然是相对未开发的，即使这从实际的观点来看是有吸引力的，因为这将神经网络的推理与知识在KB中的存储解耦。在这个方向上值得注意的例子是朱等人的工作。[55]，Wuet al.[56]，Wanget al.[57]，Krishnamurthy和Kollar [58]，and Narasimhanet al.[59]第59段。与我们的方法最相关的作品包括Wu等人的Ask Me Anything（AMA）。[60]，Ahab by Wanget al.[61]和Wang等人的FVQA。[14]第10段。AMA用一组属性来描述图像的内容，这些属性被预测为4Medhini Narasimhan和Alexander G.Schwing该图像以及关于该图像生成的多个字幕。预测的属性用于查询外部知识库DBpedia [16]，并对检索到的段落进行总结以形成知识向量。预测的属性向量、标题和基于数据库的知识向量作为输入被传递给LSTM，LSTM学习将输入问题的答案预测为单词序列这项工作的一个缺点是，它不执行任何明确的推理，并忽略了可能的结构中的知识库。另一方面，Ahab和FVQA试图执行明确的推理。Ahab将输入问题转换为数据库查询，并处理返回的知识以形成最终答案。类似地，FVQA通过将问题分类并从被认为重要的问题中提取部分来学习从问题到数据库查询虽然这两种方法都依赖于固定的查询模板，但这种结构提供了一些见解，可以了解该方法认为回答关于给定图像的问题所需的信息这两种方法都使用具有特定结构的数据库：包含关于表示为元组的视觉概念的事实的那些元组，例如（Cat，CapableOf，Climbing）和（Dog，Isa，Pet）。我们在作为FVQA工作的一部分发布的数据集上开发了我们的FVQA [14]中提出的方法将查询作为LSTM的输出，LSTM将问题作为输入。知识库中的事实基于从输入图像提取的视觉概念（诸如对象、场景和动作）然后将预测的然后计算检索到的事实和问题之间的匹配分数以确定最相关的事实。最正确的事实构成了问题答案的基础与Ahab和FVQA相反，我们建议直接学习将事实和问题图像对嵌入到允许评估其兼容性的空间中。这与先前的工作相比具有两个重要的优点：1）通过避免生成显式查询，我们消除了由于同义词、同形图以及视觉概念类型和答案类型的不正确预测而导致的错误;以及2）我们的技术易于扩展到任何知识库，甚至具有不同结构或大小的知识库。我们也不需要任何专门的知识过滤，而是可以学习将提取的视觉概念转换为接近学习的嵌入空间中的相关事实的向量。我们的方法还自然地产生了被认为对给定问题和图像有用的事实的排名。3学习知识库检索在下文中，在讨论我们的嵌入空间和学习公式之前，我们首先提供所提出的用于基于知识的视觉问答的方法的概述概况. 我们开发的方法在图中概述。2.手头的任务是通过使用外部知识来预测给定图像x的问题Q的答案y面向事实可视化问答的学习知识库检索5MLP对象、场景、动作预测器CNN图像+问题+视觉概念嵌入评分正确检索的事实：（胡萝卜，IsA，橙色蔬菜）图像中的哪个物体是橙色蔬菜？关系类型事实知识库事实嵌入答案源选择最终答案：胡萝卜（视觉概念、关系、属性）图二、拟议方法概述给定图像和关于图像的问题，我们通过在图像上使用CNN ，在问题上使用 LSTM，以及用于组合两种模式的多层感知器（MLP）来为了从知识库（KB）中过滤相关事实，我们使用另一个LSTM来预测问题中的事实关系类型。检索到的结构化事实使用GloVe嵌入进行编码检索到的事实通过嵌入向量之间的点积进行排名，并且返回排名最高的事实以回答问题。.Σ边基KB，它由一组事实fi组成，即， KB = f1，. . . ，f|KB|. 每个知识库中的事实fi被表示为资源描述框架在一个实施例中，图像可以是形式fi=（ai，ri，bi）的RDF三元组，其中ai是图像中的视觉概念，bi是与视觉实体ai相关联的属性或短语，并且ri∈ R是两个实体之间的关系。数据集包含|R|= 13关系r∈ R ={Category，Comparative，HasA，IsA，HasProperty，CapableOf，Desires，RelatedTo，AtLocation，PartOf，ReceivesAction，UsedFor，CreatedBy}。我们数据集中知识库的示例三元组是（Umbrella，UsedFor，Shade），（海滩，HasProperty，Sandy），（大象，Comparative-LargerThan，蚂蚁）。要正确回答给定图像x的问题Q，我们需要检索正确的支持事实并选择正确的实体，即，A或B。重要的是，实体a总是从图像导出，而实体b从事实库导出。因此，我们把这个选择称为答案源s∈ {Image， KnowledgeBase}。利用这个公式，我们可以提取出答案yfromomapredictefact¨=（a¨，r¨，¨b）andapredictedwersourrces¨using.a， fromfifs=Imagey=b， fromfifs=KnowledgeBase.（一）它仍然是答案，如何预测一个事实f？以及如何推断答案或s？。该应用程序是一个以K和W为核心的通用程序MLPLSTM手套嵌入LSTMLSTM6Medhini Narasimhan和Alexander G.SchwingW下面对于前者，我们注意到知识库包含大量的事实。因此，我们认为搜索所有的事实fii∈是不可行的{1，. . . 、|KB|}使用一个基于日期的扩展值。我们为e而e将这个任务分为两部分：（1）给定一个问题，我们训练一个网络来预测这是一个非常重要的问题，因为这是一个非常重要的问题。（2）使用预测的关系，我们将事实空间减少到仅包含预测的关系的随后，为了回答给定图像X的问题Q，我们仅评估在所描述的情况下的所述因素的可持续性。为了确保可实现性，我们定义了一个特征向量S（gF（fi），gN N（x，Q）），其特征在于，它由一个特征向量F（fi）和一个图像向量N N（x，Q）组成。实际上，在较高的分辨率下，在给定图像X的情况下，该分辨率可用于回答问题Q。形式上，我们因此得到预测事实fviaf= arg maxi∈{j：rel（fj）=r} S（gF（fi），gNN（x，Q）），（2）其中，我们在所有事实fi中搜索使得分S最大化的事实fco ntainrelationr，i. 例如， i∈{j：rel（fj）=r}。Herebyywe使用运算符rel（f i）来表示事实三元组f i的关系。鉴于使用Eq.（2）我们从方程得到答案y（1）在预测了股票价格之后，这种方法在图中概述二、形象地，我们说明了一个 imaging-quuestitionembedddgN N（x，Q），viaaLS TM和CNN网络的representation，通过MLP组合的结构。我们还说明了嵌入gF（fi）的事实。在使用安全函数S（·，·）的过程中，可以使用以下方法来生成一个事实f，我们从中提取的答案，如方程中所述。（一）.在下文中，我们首先提供关于评分函数S的细节，然后讨论评分函数S的预测和评分函数S的预测。记录事实。图2示出了我们将知识数据中的事实评分为e，i的方法。例如，以计算S（gF（fi），gN N（x，Q））。我们获得了以下成绩：（1）计算因子F（fi）;（2）计算图像-问题表示NN（x，Q）;（3）计算因子和图像-问题表示以获得最终分数S。我们将在下面讨论其中的每一个(1) 请输入以下内容。为了获得F（fi）上的函数表达式，我们连接两个向量，即实体ai的单词的平均GloVe-100 [62]表示和实体bi的单词的平均GloVe-100表示。注意，这个事实表示是非参数的，即没有可训练的参数。(2) 计算图像-问题表示。我们通过结合从标准深度网络获得的V（x）来计算图像-问题关系NN（x，Q），例如，ResNet或VGG，具有问题Q的视觉概念表示gC（x）和句子表示gQ（Q），w w使用可训练的递归网络获得为了方便起见，我们将-将所有可训练参数连接到一个向量w中。使依赖性面向事实可视化问答的学习知识库检索7WWWWWF NN F NNwWWw1w2在参数显式上，我们通过以下方式获得图像-问题表示：gN N（x，Q）=gN N（gV（x），gQ（Q），gC（x））.w w w w更具体地说，对于嵌入gQ（Q）的问题，我们使用LSTM模型[63]。对于图像嵌入gV（x），我们使用在ImageNet数据集[65]上预训练的ResNet-152[64]提取图像特征此外，我们还提取了一个视觉概念表示gC（x），这是一个大小为1176的多热向量，表示在图像中扎根的视觉概念。在图像中检测到的视觉概念是对象、场景和动作。对于对象，我们使用来自两个Faster-RCNN[66]模型的检测，这些模型在Microsoft COCO 80-object [67]和ImageNet 200-object [36]数据集上进行了训练总共有234个不同的对象类，我们使用与FVQA数据集一致的标签子集。场景信息（如牧场，海滩，卧室）由在MIT Places365类数据集[68]上训练的VGG-16模型[35]提取。同样，我们使用Places的子集来构造1176维多热向量gC（x）。为了检测动作，我们使用[69]中提出的CNN模型，该模型是在HICO [70]和MPII [71]数据集上训练的。HICO数据集包含600个人-物体交互活动的标签我们使用一个动作子集，即那些与FVQA数据集中的动作一致的所有三个向量gV（X）、gQ（Q）、gC（X）被级联并被传递到w w wmulti-layererceptrongN N（·，·，·）.(3) 事实与形象-问题表征的结合对于F（fi）中的每个事实表示，我们计算一个或gF（fi）·gNN（x，Q）Sw（g（fi），g（x，Q））= cos（g（fi），g （x，Q））=，ww||gF（fi）||·||gN N（x，Q）||其中，N N（x，Q）是图像序列。因此，该余弦S是两个归一化表示之间的余弦相似度，并且表示事实fi与图像-问题对（X，Q）的拟合。请在此基础上进行更新。为了在r∈R=hr上定义r ∈ R，（Q），从得到问题Q，我们使用LSTM网络。更具体地说，我们首先嵌入和然后对问题Q的单词进行编码，一次一个，并将LS T M的最终隐藏项线性变换为从|R|使用标准多项分类来确定。对于在这项工作中呈现的结果，我们训练了独立于得分函数的关系预测参数w1我们把共同的提法留给今后的工作。请提供安全软件。我们的业务流程†=hs（Q）从一个给定的问题Q是类似于关系预测。同样，我们使用LSTMnet 来嵌入和编码问题 Q 的单词，然后线性变换最终隐藏的rep_e_t_t_s_e_{I_m_age，K_n_w_d_ge_B_e}。类似于关系预测，我们分别训练这个LSTM网络的参数w 2，并为未来的工作留下一个学习如前所述，我们分别训练参数w（得分函数），w1（关系预测）和w2（答案源预测）。为了训练W1，我们使用包含问题和相应问题对的数据集D1={（Q，r）}8Medhini Narasimhan和Alexander G.SchwingW算法1使用硬否定挖掘进行训练输入：（x，Q，f*），KB输出：参数w1：对于t = 0，. . . ，T do2：通过随机采样负事实（如果t= 0）或通过检索用w（t-1）错误预测的事实（如果t >0）来创建数据集D（t）3：使用D（t）通过优化等式2中给出的程序来获得w（t）(7)4：结束5：返回w（T）用于获得答案的响应关系。为了学习w2，我们使用数据集D2={（Q，s）}，包含问题对和相应的答案源。对于这两个分类器，我们使用随机梯度下降的classi-分别称为交叉熵和二进制交叉熵损失请注意，这两个数据集都可以从[14]中轻松获得。为了训练得分函数的参数，我们采用在时间步长t ={1，. . . ，T}。在每个时间步中，我们通过挖掘硬否定来逐渐增加数据集D（t）的难度。更具体地说，对于每个问题Q和图像x，D（0）包含“地面事实”事实f * 以及99个随机抽样的“非地面事实”事实。训练好乐谱后函数，我们使用它来预测图像-问题对的事实，并创建新的数据集D（1），该数据集现在包含与地面事实一起的另外99个非地面事实事实，得分函数分配了高分到.给定一个数据集D（t），我们通过鼓励地面实况事实f * 的得分大于任何其他事实的得分来训练在Sw（gF（fi），gN N（x，Q））上的空间函数i中的表示的参数w，以及is图像、qstion和概念嵌入。更正式地说，我们的目标是参数w这确保了传统的边缘，即，深度网络的类似SVM的损失Sw（f，x，Q）≥L（f，f）+Sw（f，x，Q）（f，x，Q）∈D（t），（3）其中L（f，f）是与地面实况事实f相比的任务损失（又名余量）其他事实F。在我们的情况下，L≡1。因为我们可能找不到当ibilit（f，x，Q）∈D（t）时，我们对可变的ξ（f，x，Q）≥0进行化简，以在重构之后获得：ξ（f，x，Q）≥L（f*，f）+Sw（f，x，Q）−Sw（f*，x，Q）（f，x，Q）∈D（t）。（四）考虑到在D（t）中的常数t（f，x，Q），它等于需要[72]ξ（x，Q）≥ max {L（f *，f）+S w（f，x，Q）} − S w（f *，x，Q）（x，Q）∈ D（t）。（五）F利用这个约束条件，我们通过求解minCw2+ΣξS.T.等式中的约束（五）、（六）w，ξ（x，Q）≥022（x，Q）∈D（t）（x，Q）面向事实可视化问答的学习知识库检索92方法准确度@1@3我们的97.3 100.00表1.预测关系的准确性表2.预测答案考虑到这个问题。来源于一个给定的问题。对于标准的次梯度下降技术的适用性，我们重新制定的程序中给出的方程（6）读作minWCw2+ 2Σ（x，Q）∈D（t）.Σmax{L（f*，f）+Sw（f，x，Q）} −Sw（f*，x，Q）F、（7）这可以使用标准的深网封装来优化。所提出的用于学习参数w的方法总结在Alg中。1.在下文中，我们现在评估所提出的方法的适用性4评价在下文中，我们评估所提出的方法。我们首先提供关于所提出的数据集的细节，然后呈现用于从问题预测关系、从问题预测答案源以及预测答案和支持事实的定量结果我们还讨论了硬否定的挖掘。最后，我们展示了定性结果。数据集和知识库。我们使用公开可用的FVQA数据集[14]及其知识库来评估我们的模型。该数据集由2，190个图像、5，286个问题和与问题相对应的4，126个独特事实组成。知识库由193，449个事实组成，通过提取数据集中所有图像的顶级视觉概念并在三个知识库WebChild [15]，ConceptNet [17]和DBPedia [16]中查询这些概念来构建。数据集由5个训练测试折叠组成，我们报告的所有分数都是所有分割的平均值从问题中预测关系。我们使用LSTM架构，如第二节所讨论的。3对给定的问题Q预测r∈R。FVQA数据集的标准训练-测试分割用于评估我们的模型。批量分级在大小为100的批次上使用具有Adam优化器的ent下降，并且在50个时期内训练LSTM嵌入和单词嵌入的大小每人128学习率设置为1e−3，在单词嵌入和LSTM嵌入之后应用0.7的dropout。表1提供了一个COM-使用top-1和top-3预测准确度将我们的模型与FVQA基线[14]进行比较我们观察到我们的结果，以提高基线超过10%的前1名的准确性和超过9%时，使用前3名的准确性度量。方法精度@1@3FVQA [14]64.9482.42我们75.491.9710Medhini Narasimhan和Alexander G.Schwing从问题中预测答案来源。我们评估的准确性预测的答案来源s给定的问题Q。为了预测答案的来源，我们使用了LSTM架构，如第2节中详细讨论的。3.请注意，为了预测答案源，LSTM嵌入和单词嵌入的大小分别设置为64表2总结了我们模型预测结果的准确性我们观察到所提出的方法的预测精度接近完美。预测正确答案。我们的评分函数为基础的模型检索支持的事实，详细描述了在第二节。3.第三章。对于图像嵌入，我们将ResNet返回的2048维特征向量通过全连接层，并将其减少到64维向量。对于问题嵌入，我们使用具有大小为128的隐藏层的LSTM。然后将两者连接成大小为192的向量，并分别通过具有256和128个节点的两层感知器。注意，基线多热点视觉概念嵌入通过全连接层以形成128维向量。然后将其与感知器的输出连接，并通过具有200个输出节点的另一层我们发现视觉概念的后期融合导致了更好的模型，因为事实明确包含这些术语。对于实体a和b，事实嵌入各自使用GloVe-100个向量来构建。如果a或b包含多个单词，则计算所有嵌入的平均值。我们使用MLP和事实嵌入之间的余弦距离来对事实进行评分。选择得分最高的事实作为答案。关系是随机断开的。基于使用上述LSTM模型计算的答案源预测，我们选择事实的实体a或b作为答案。参见等式(1)用于形式描述。准确度基于所选实体与地面实况答案之间的精确匹配为了评估特定特征的重要性，我们研究了具有不同特征的模型的5种变体：两种oracle方法+ 视觉概念更具体地，‘gt问题+图像+视觉概念’和‘gt问题+视觉概念’分别使用地面实况关系和答案源。我们有三种使用各种功能的方法，如下所示：“问题+图像+视觉概念”、“问题+视觉概念”和“问题+图像”。我们从ResNet中删除图像嵌入或视觉概念嵌入，以获得另外两个模型，表3显示了我们的模型在预测答案方面的准确性，并将我们的结果与其他FVQA基线进行了比较。我们观察到所提出的方法优于国家的最先进的集成技术超过3%，最强的基线没有集成超过5%的前1个准确度度量。此外，我们注意到视觉概念的重要性，以准确地预测答案。通过包括地面实况信息，我们评估了最大可能的面向事实可视化问答的学习知识库检索11方法精度FVQA-顶部-1[14]FVQA-顶部-3[14]@138.7641.12@342.9645.49迭代硬阴性数量精度@1@3方法精度@1@3LSTM-问题+图像+VQA前[14]24.9840.40Hie-Question+Image+Pre-VQA [14]43.1459.44FVQA [14]56.9164.65乐队[14]58.76-我们的-问题+图片26.6830.27我们的-问题+图像+视觉概念60.3073.10我们的-问题+视觉概念62.2075.60我们的-gt问题+图像+视觉概念69.1280.25我们的-gt问题+视觉概念70.3482.12表3.FVQA数据集上的答案准确性我们的-问题+图片28.9832.34我们的-问题+图像+视觉概念62.3074.90我们的-问题+视觉概念64.5076.20表4.校正FVQA数据集上的事实预测精度1020.1723.46284,56338.6545.4936,88964.576.2表5.正确的事实预测精度与硬负挖掘。top-1和top-3精度。我们观察到的差异约为8%，这表明有一些改进的余地支持事实的问题。为了提供对所提出的方法的完整评估，我们在表4中示出了与其他FVQA基线相比，检索我们的模型的支持事实我们观察到所提出的方法，以提高显着的前1名和前3名的准确性超过20%。我们认为这是一个显着的改进，有效地将知识库纳入视觉问答。挖掘硬性负面因素。我们通过三次硬否定挖掘迭代来训练我们的模型，即T= 2.在迭代1（t= 0）中，所有193，449个事实被用于在训练期间对99个否定事实进行采样。在训练的每第10个时期，获得高分的负面事实被保存。在下一次迭代中，12Medhini Narasimhan和Alexander G.Schwing问：在这幅图中，哪个物体移动得比马慢问：这幅图中的哪个物体被认为是一个避难所？检测到的对象大象预测关系：比较Top-3检索事实：（ Elephant ， Comparative-is slower than ，Horse ）（ Elephant ， Comparative-is largerthan，Mouse）（Elephant，Comparative-islarger than，Human）预测答案：大象检测到的场景小巷、居民区、街道、房屋、汽车旅馆预测关系：IsATop-3检索事实：（房屋、ISA、避难所）(Car，IsA，Heavier Than Horse）（汽车，IsA，机动车）预测答案：House图三.我们的框架检测到的视觉概念（VC）的例子。在这里，我们展示了检测到的对象，场景和由我们的管道中使用的各种网络预测的动作的示例。在有用的事实和预测的风险投资之间有一个明确的一致性。因此，在我们的评分方法中包括风险投资有助于提高绩效。训练模型连同负面事实一起被加载，并且我们确保现在从硬负面中采样99个负面事实。表5示出了在三次迭代中的每一次上用于预测支持事实的Top-1和Top-3准确度。我们观察到显着的改善，由于提出的硬负挖掘策略。而所提出的方法的简单训练仅产生20。17%的top-1准确度，两次迭代将性能提高到64. 百分之五同义词和同形异义词在这里，我们展示了我们的模型相比基线的同义词和同形异义词的改进。为此，我们使用Wordnet运行额外的测试，以确定包含同义词的问题-事实对的数量测试数据包含1105个这样的对我们的模型预测正确率为91.6%（1012），而FVQA模型预测正确率为78.0%（862）。此外，我们通过用同义词替换问题中的单词（例如，换句话说，“碗里的东西是可以吃的对这100个新样本的测试发现，我们的模型正确预测了其中的89个，而关键词匹配FVQA技术[14]正确预测了其中的61个。关于同形异义词，测试集有998个问题，其中包含在事实中具有多重含义的单词。我们的模型预测正确答案为79.4%（792），而FVQA模型的正确率为66.3%（662）定性结果。图3示出了针对几个样本检测到的视觉概念（VC）以及由我们的模型检索到的前3个事实。将这些预测的风险资本作为输入提供给我们的事实评分MLP有助于改善支持事实检索以及答案准确性的大幅度超过30%，如表3和4所示。如可见于图3、之间有紧密的对齐关系面向事实可视化问答的学习知识库检索13问：书架是用来做什么的预测关系：UsedFor预测支持事实：（Bookshelf，UsedFor，CarryingBooks）预测答案来源：KB预测答案：携带书籍GT答案：携带书籍问：在这张图片中，什么东西比出租车便宜预测关系：比较预测的支持性事实：(Bus，比较便宜，出租车）预测答案来源：图片预测响应：BusGT响应：Bus问：这幅图中的哪个物体是圆的？预测关系：HasProperty预测支持事实：（Person，HasProperty，Alive）GT支持事实：（TennisBall，HasProperty，Round）预测答案来源：图片GT答案来源：图片预测答案：人GT答案：网球问：在这张照片中，什么物体能够飞行？预测关系：CapableOf预测支持事实：（Frisbee，CapableOf，Flying）预测答案来源：图片预测答案r：FrisbeeGT答案r：Frisbee问：在这幅图中，哪种食物是甜的预测关系：HasProperty预测支持事实：（Cake，HasProperty，Sweet）预测答案来源：图片预测回答：饼状物问：哪个动作比图像中的动作更轻松预测关系：比较预测的支持性事实：（跳跃，比较剧烈，盛装舞步）预测答案来源：ImageGT答案来源：KB预测答案：跳跃GT答案：盛装舞步问题：图像中的位置具有什么属性？预测关系：HasProperty预测的支持性事实：（海滩，HasProperty，桑迪）预测答案来源：KB预测响应：SandyGT响应：Sandy问：这张图片中的办公设备是什么预测关系：类别预测的支持性事实：（显示器、类别、办公设备）预测答案来源：图片预测响应：监查员GT响应：监查员问：你能在图片中看到什么样的食物预测关系：IsAGT关系：类别预测的支持性事实：（柠檬，isA，水果）GT支持性事实：（水果，类别，食物）预测答案来源：图片预测响应r：柠檬GT响应r：水果见图4。我们方法的成功和失败案例。在最上面的两行中，我们的方法正确地预测了关系、支持事实和答案源，从而为给定的问题产生正确的答案下面一行的例子显示了我们的方法的故障模式。14Medhini Narasimhan和Alexander G.Schwing相关事实和预测的VC，因为VC提供图像中的显著内容的高级概述。图4、给出了该方法的成功案例和失败案例使用我们的方法产生正确答案有3个步骤：（1）正确地预测关系，（2）检索包含预测的关系并且与图像相关的支持事实，以及（3）从预测的答案源（图像/知识库）中选择答案。上面两行图像显示了我们提出的方法正确执行所有3个步骤的情况请注意，我们的方法适用于各种关系，对象，答案来源和不同的难度。它能够正确地识别感兴趣的对象，即使它不是图像中最突出的对象例如，在第一行的中间图像中，飞盘比图像中的狗小然而，我们能够正确地使用问题中的信息检索关于飞盘的支持事实这三个步骤中的任何一个错误都可能导致我们的方法产生错误的图中的底行图像4显示原型失效模式。在最左边的图像中，我们错过了问题的线索，如在中间的图像中，我们的方法在最后一步出错，并使用了来自错误答案源的信息总体而言，这是一个非常罕见的错误来源，因为我们在预测答案来源方面的准确率超过97%，如表2所示。在最右边的图像中，我们的方法在预测关系的第一步就犯了一个错误，使得剩下的步骤都不正确。如表1所示，我们的关系预测大约为75%，前1和前3个指标的准确率为92%，并且有一些改进的空间。关于同义词和同形异义词的定性结果，我们建议感兴趣的读者参考补充材料。5结论在这项工作中，我们解决了基于知识的视觉问题回答和开发的方法，学习嵌入事实以及问题图像对到一个空间，承认有效的搜索给定问题的答案与现有的基于检索的技术相比，我们的方法学习嵌入问题和事实检索。我们已经证明了所提出的方法对最近引入的具有挑战性的FVQA数据集的有效性，产生了最先进的结果。在未来，我们希望解决我们的工作扩展到更大的结构化知识库，以及非结构化的知识源，如在线文本语料库。致谢：本材料基于部分由美国国家科学基金会资助的工作。1718221、Samsung和3M。我们感谢NVIDIA提供用于本研究的GPU 我们还要感谢ArunMallya和Aditya Deshpande的帮助。面向事实可视化问答的学习知识库检索15引用1. 克里希纳河Zhu，Y.，格罗斯岛Johnson，J.，Hata，K.，Kravitz，J.，陈淑仪，Kalantidis，Y.，Li，L.J.，夏玛地方检察官等：Visual genome：Connectinglanguageandvisionusingcrowdsourceddenseimageannotations.IJCV（2017）2. Ren，M.，基罗斯河Zemel，R.：探索图像问答的模型和数据。在：NIPS。（2015年）3. Zhu，Y.，格罗斯岛Bernstein，M.李菲菲：Visual7W：在图像中回答固定问题。在：CVPR中。（2016年）4. Malinowski，M.，Fritz，M.：迈向视觉图灵挑战。在：NIPS。（2014年）5. Johnson，J.，Hariharan，B.，范德马滕湖，Fei-Fei，L. Zitnick，C.L.，Girshick，R.：Clevr：一个用于组合语言和基本视觉推理的诊断数据集。在：CVPR中。（2017年）6. Jabri，A.，Joulin，A.，van der Maaten，L.：重新审视视觉问答基线。In：ECCV. （2016年）7. 尤湖Park，E.，Berg，A.，Berg，T.：Visual Madlibs：填写空白图像生成和问题回答。In：ICCV. （2015年）8. Antol，S.，阿格拉瓦尔，A.，卢，J，Mitchell，M. Batra，D.，Zitnick，C.L.，Parikh，D.：VQA：可视化问答。In：ICCV. （2015年）9. Goyal，Y.，Khot，T.，萨默斯-斯特，D.Batra，D.，Parikh，D.：使vqa中的v重要：提升图像理解在视觉问答中的作用在：CVPR中。（2017年）10. 高，H.，毛泽东，J.，周杰，黄志，Wang，L.，美国，徐伟：你在跟机器说话吗？多语言图像问题分类的数据集和方法。在：NIPS。（2015年）11. Malinowski，M.，Fritz，M.：一种基于不确定输入的真实场景多世界问题检索方法在：NIPS。（2014年）12. Malinowski，M.，Rohrbach，M.，Fritz，M.：问问你的神经元：一个基于神经的方法来回答有关图像的问题。In：ICCV. （2015年）13. 胡河Andreas，J.，Rohrbach，M.，Darrell，T.，Saenko，K.：学习推理：用于可视问答的端到端模块网络。 CoRR ， abs/1704.05526 3（2017）14. 王，P.，吴昆，Shen，C.，迪克，A. v. d. Hengel，A.：Fvqa：基于事实的可视化问答。TPAMI（2018）15. Tandon，N. de Melo，G.，Suchanek，F.，Weikum，G.：Webchild：从网络上收集和组织常识知识。在：WSDM。（2014年）16. Auer，S.，比泽角Kobilarov，G.，Lehmann，J.，西加尼亚克河Ives，Z.：Dbpedia：开放数据网络的核心。In：ISWC/ASWC. （2007年）17. 施佩尔河Chin，J.，哈瓦西角：Conceptnet 5.5：一个开放的多语言通用知识图表。在：AAAI。（2017年）18. 卢，J，杨杰，Batra，D.，Parikh，D.：用于视觉问答的分层问题图像共注意。在：NIPS。（2016年）19. 杨志，他，X.，高，J.，邓湖Smola，A.：用于图像问答的堆叠注意力网络。在：CVPR中。（2016年

下载后可阅读完整内容，剩余1页未读，立即下载