泰迪熊：一个持久的受欢迎的玩具遗产与视觉问题推理的关联

169 浏览量更新于2023-10-18 收藏 1.73MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3195外部知识另一个持久的，受欢迎的遗产是填充玩具熊-泰迪熊-命名后，他在密西西比州的狩猎之旅于1902年发生的事件。显然是由玩具制造商同时开发的... 泰迪熊是以西奥多·罗斯福总统的名字命名的，它成了儿童的标志性玩具，在故事、歌曲和电影中广为流传。与此同时，在美国，莫里斯·米奇托姆创作了第一只泰迪熊，灵感来自西奥多·罗斯福与小熊的绘画。OK-VQA：一个需要外部知识的Kenneth Marino 2011年1月，Mohammad Rastegari2月，Ali Farhadi2，3月和Rooseveh Mottaghi2月1日卡内基梅隆大学艾伦人工智能研究所Allen Institute for AI3华盛顿大学摘要视觉问题推理（VQA）在其理想的形式，让我们研究在视觉和语言的联合空间的推理然而，迄今为止，大多数VQA基准测试都集中在简单计数、视觉属性和对象检测等问题上，这些问题不需要超出图像中的在本文中，我们解决了基于知识的视觉问答的任务，并提供了一个基准，称为OK-VQA，其中图像内容不足以回答问题，鼓励依赖于外部知识资源的方法。我们的新数据集包括超过14，000个需要外部知识才能回答的问题。我们表明，在这种新的设置中，最先进的VQA模型的性能急剧下降。我们的分析表明，我们的基于知识的VQA任务是多样的，困难的，和以前的基于知识的VQA数据集相比大。我们希望这个数据集能够使研究人员在这一领域的研究开辟新的途径。1. 介绍近年来，视觉问题分类（VQA）领域取得了惊人的进步，在标准VQA数据集上实现了创纪录的数字[20，4，11，17]。正如最初设想的那样，VQA不仅是视觉和语言研究的沃土在其理想的形式下，VQA不仅需要视觉识别，而且还需要逻辑推理和整合关于世界的知识。然而，目前的VQA数据集（例如，[3，47]）主要集中在承认，和大多数问题-*在Allen Institute for AI实习期间完成的工作问：哪位美国总统与这里看到的毛绒动物有关？泰迪·罗斯福图1：我们提出了一个用于视觉问答的新数据集，其中问题需要外部知识资源来回答。在这个例子中，图像的视觉内容不足以回答这个问题。一组关于泰迪熊的事实使泰迪熊和美国总统之间的联系，这使得答案。任务是关于简单的计数，颜色和其他视觉检测任务，因此不需要太多的逻辑推理或与外部知识的关联。最困难和最有趣的问题，理想情况下，需要知道的不仅仅是问题所涉及的内容或图像中包含的信息。考虑图1中的问题，它询问了泰迪熊和美国总统之间这里图片中的信息对于回答这个问题来说并不完整。我们需要将图像内容3196外部知识来源，如图底部的句子取自维基百科。鉴于问题，图像和维基百科的句子，现在有足够的信息来回答这个问题：泰迪·罗斯福！最近的研究已经开始关注如何将基于知识的方法纳入VQA [29，30，36，37]。这些方法研究了将知识库和检索方法与每个问题的一组相关事实在这项工作中，我们向前迈进了一步，设计了一个VQA数据集，需要VQA使用非结构化知识进行推理。为了使这一令人兴奋的方向的研究，我们引入了一个新的数据集，命名为外部知识VQA（OK-VQA），其中只包括需要外部资源来回答的问题。在我们的数据集上，我们可以开始评估sce- narios中模型的推理能力，其中仅通过查看图像无法获得答案识别OK-VQA问题是一项艰巨的任务，因为除了理解问题和图像之外，模型还需要：（1）学习回答问题所需的知识，（2）确定要做什么查询以从外部知识源检索必要的知识，以及（3）从其原始表示中合并知识以回答问题。OK-VQA数据集包含14，000多个问题，涵盖科学技术、历史和体育等各种知识类别。我们提供了我们的数据集的分类细目，以及其他相关的统计数据来检查其属性。我们还分析了最先进的模型，并显示它们在这个新数据集上的性能下降。此外，我们提供了一组基线的方法，是基于简单的知识检索的结果。我们的数据集是多样的，困难的，迄今为止最大的VQA数据集专注于自然图像中基于知识的VQA。我们的贡献是：（a）我们引入OK-VQA数据集，其中只包括需要外部资源回答的问题;（b）我们在我们的新数据集上对一些最先进的VQA模型进行了基准测试，并显示这些模型的性能急剧下降;（c）我们提出了一组利用非结构化知识的基线。2. 相关工作视觉问答（VQA）。在过去的几年里，视觉问题回答（VQA）一直是计算机视觉社区中最流行的话题之一。VQA的早期方法将递归网络与CNN相结合，以整合文本和视觉数据[27，1]。基于注意力的模型[11，25，39，40，41，47]通过突出显示与问题相关的图像区域，更好地模块化网络[2，15，19]利用了深度神经网络中语言的组合性质。这些方法具有也被扩展到视频域[16，28，35]。最近，[13，9]解决了在交互式环境中回答问题的问题然而，这些方法都不是为了利用外部知识而设计的，所以它们不能处理图像不代表回答问题的全部知识的情况。使用外部知识回答问题的问题已经由[38，36，37，23，30，29]解决。这些方法只处理由主体-关系-客体或视觉概念-关系-属性三元组表示的知识，并依赖监督来进行事实的检索。相比之下，在我们的数据集中回答问题需要处理非结构化的知识资源。VQA数据集。在过去的几年里，已经提出了几个数据集用于视觉问答[26，3，12，44，31、47、34、21、18、37]。DAQUAR数据集[26]包括一组室内场景的基于模板的自然问题。[3]提出了VQA数据集，它比DAQUAR大两个量级，包括更多样化的图像和更少约束的答案。FM-IQA [12]是另一个包含多语言问题和答案的数据集。Visual Madlibs [44]为自然语言描述构建了填空模板。COCO-QA[31]是通过将图像解压缩转换为问题来自动构造的。Visual 7W [47]的想法是为问答对提供对象级基础，而不是图像和QA对之间的图像级关联。Visual Genome[21]为图像区域、属性、关系等提供了密集的注释。并为每个图像提供自由形式和基于区域的QA对。MovieQA [34]是一个基于电影的QA数据集，其中QA基于视频剪辑、字幕、脚本等中的信息。CLEVR [18]是一个合成的VQA数据集，主要针对视觉推理能力。与所有这些数据集相比，我们专注于无法通过相关图像中的信息回答的问题，并且需要外部知识来回答。与我们的数据集最相似的是FVQA [37]。虽然这项工作也解决了创建需要外部知识的VQA数据集的难题，但他们的方法通过从固定的知识库中选择一个事实（知识三元组，如“虽然这个数据集对于测试方法将知识库整合到VQA系统中的能力仍然非常有用另一个问题是三胞胎不足以代表一般知识。建立知识库基于知识的推理。已经使用视觉数据或视觉推理任务创建了几个知识库[46，8，10，32，49，48]。这些知识库是回答我们数据集中问题知识型3197车辆和运输烹饪和食物体育和娱乐物品、材料和服装品牌、公司和产品问：什么样的车辆使用此项目？A：消防车问：软饮料公司是什么时候创建的？答：一八九八年问：这幅图中的容器是用什么材料制作的？A：铜问：穿橙色衬衫的人的运动姿势是什么？A：守门员问：用来吃这种食物的物体叫什么名字？A：筷子地理、历史、语言和文化天气和气候植物和动物科技人与日常生活问：我最常去这座大楼的日子是哪天？A：星期天问：这张照片是50年代的还是90年代的？A：50问：这种动物属于什么门？A：脊索动物，脊索动物问：这些生物有多少染色体？答：23个问：这种天气可能发生的最温暖的室外温度是多少？A：32度图2：数据集示例。已经显示了一些示例问题及其相应的图像和答案。我们为每个知识类别显示一个示例问题。问题回答在NLP社区中受到了更多的关注[5、43、42、6、33、22、7]）。3. OK-VQA数据集在本节中，我们将解释如何收集数据集，以便更好地衡量需要外部知识的VQA系统的性能常见的VQA数据集，例如[3，14]不需要太多的知识来回答大多数问题。数据集主要包含诸如“有多少个苹果？“，“这是什么动物？“，和“碗是什么颜色的？“.虽然这些对于开放式视觉识别来说是完全合理的任务，但它们并没有测试我们的算法因此，对于我们将视觉识别与从图像外部来源提取信息相结合的目标，我们将无法评估基于知识的系统，因为大多数问题不需要外部知识。为了具体地看到这一点，我们检查了VQA数据集中为10，000个问题提供的对于每个问题和图像对，MTurk的一名工作人员被问到回答这个问题需要多大年龄。虽然这不是一个完美的指标，但它是一个合理的近似值，可以用来衡量一个问题的难度，以及一个人需要知道多少才能回答一个问题。分析显示，超过78%的问题可以由10岁或以下的人回答。这表明，回答绝大多数问题这些问题。鉴于当前的VQA数据集不能准确地测试我们正在寻找的内容，我们收集了一个新的数据集。我们使用来自COCO数据集的随机图像[24]，使用原始的80 k-40 k训练和验证分割用于我们的训练和测试分割。与其他数据集相比，这些图像的视觉复杂性使其成为标记基于知识的问题的理想选择。在第一轮标注中，我们要求MTurk工作人员在给定图像的情况下写一个问题。与[3]类似，我们提示用户提出问题来愚弄“智能机器人”。我们还在说明中要求，问题应与图像内容相关。此外，我们提示用户不要问图像中有什么，或者有多少东西，并指定这个问题应该需要一些外部知识。在第二轮标记中，我们要求5个不同的MTurk工作人员为每个问题-图像对标记一个答案。虽然这个提示产生了许多高质量的问题，但也产生了许多低质量的问题，例如，那些问基本问题（如计数）的问题，不需要看图像，或者是无意义的问题。为了确保数据集询问这些困难的需要知识的问题，MTurk提供的问题被手动过滤以仅获得需要知识的问题。从86,700个问题中，我们筛选出34,921个问题。另一个需要考虑的因素是数据集中的潜在偏倚。正如许多作品中所讨论的，包括[14]，3198数量问题Number个图像基于知识目标回答类型Avg. 一长度Avg. Q长度DAQUAR [26]12,468360,001327,9391.1M14,944999,9681,44910,73847,300200K408V100,000✓视觉：计数，颜色，对象✓视觉：场景，物体，人物✓视觉：基于对象的问题✓视觉理解✓文本+视觉故事理解✓逻辑推理开放FITB/MCMC打开/MCMC开放1.12.82.01.25.31.011.54.96.96.19.318.4[44]第四十四话[47]第四十七话VQA（v2）[14][34]第三十四话[第十八话]KB-VQA [36]2,402700✓给定知识库开放2.06.8[37]第三十七话5,8262,190✓给定知识库开放1.29.5OK-VQA（我们的）14,05514,031✓开放知识开放1.38.1表1：各种目视QA数据集的比较。我们将OK-VQA与其他VQA数据集进行了比较。底部三行对应于基于知识的VQA数据集。 A长度：答案长度; Q长度：问题长度; MC：多项选择; FITB：填空; KB：知识库。VQAv1数据集有很多偏差。以“是否有...”开头的问题对“是”有很强的偏见同样，在我们未过滤的数据集中，有很多问题偏向于某些答案。例如，在很多有降雪的图像中，问题会问“现在是什么季节？“虽然还有其他图像（如落叶树和多色树叶）有不同的答案，但明显偏向于“冬天”。为了缓解这一问题，在训练和测试中，我们去掉了问题，使答案分布一致;具体来说，如果该答案作为最常见答案的实例超过5个，则我们将删除问题。这样做的效果是消除了很多答案偏差。它还通过限制VQA算法看到具有特定答案的问题的次数，使数据集更难，使外部信息更重要。我们还删除了注释者之间没有就答案达成一致的问题。执行此过滤使我们减少到9，009个训练问题和5，046个测试问题，总共14，055个问题。图2显示了从我们的数据集中收集的一些问题、图像和答案。补充材料中将提供更多信息。你可以看到，这些问题至少需要一个背景知识来回答。例如，在左下角的问题中，系统需要识别图像是基督教堂，并且知道这些教堂在星期天举行宗教后一种知识应该从外部的知识资源中获得，而不能仅仅从图像和问题中推断出来。4. 数据集统计数据在本节中，我们将探索我们的数据集的统计特性，并与其他视觉问答数据集进行比较，以表明我们的数据集是多样的，困难的，并且，据我们所知，最大的VQA数据集专门针对自然场景上基于知识的VQA知识类别。 VQA所需的知识是好的开始，但有许多不同类型的知识人类对这个世界的认知有常识性的知识：水是湿的，沙发在客厅里。有地理知识：埃菲尔铁塔在巴黎，科学知识：人类有23条染色体，历史知识：乔治·华盛顿是美国第一位总统为了更好地理解我们的数据集所需的知识类型，我们要求五名MTurk工作人员将每个问题标注为属于我们指定的十个知识类别之一：车辆和运输;品牌，公司和产品;物品、材料和服装;体育和娱乐;烹饪和食物;地理、历史、语言和文化;人与日常生活，植物与动物;科学与技术;天气和气候。如果没有一个类别有多个工人，则将其归类为“其他”。这也确保了最终的类别标签是互斥的。我们在图3中显示了问题在各个类别中的分布。与其他VQA数据集进行比较。在表1中，我们查看了许多其他视觉问答数据集，并以多种不同的方式将它们与我们的数据集进行比较。在顶部部分，我们查看了一些没有明确尝试包含知识组件的数据集，包括无处不在的VQAv2数据集[14]，其第一个版本是研究视觉问答的首批数据集之一。与这些数据集相比，我们的问题数量与DAQUAR [26]和MovieQA [34]相当，并且比基于知识的数据集KB-VQA [36]和FVQA [37]更多。与自动生成图像、问题和答案的CLEVR [18]相比，我们的问题更少，与更大规模的人类注释视觉数据集（如VQAv2 [14]和Visual3199知识类别10. 天气和气候百分之三9. 科学和其他12%1. 车辆和运输百分之十六2. 品牌技术2%8. 植物和动物百分之十七7. 人与日常生活百分之九6. 地理历史，语言和文化百分之三公司和产品百分之三3. 对象、材料和服装8%4. 体育和娱乐百分之十二5. 烹饪和食物百分之十五图3：按知识类别分列的问题。我们显示了属于我们10个知识类别的问题的百分比。[44]第四十四话由于我们手动过滤数据集以避免其他数据集的陷阱并确保我们的问题是基于知识的，并且由于我们过滤了常见的答案以强调答案的长尾，因此我们的数据集收集起来更加耗时和昂贵。在这种情况下，我们用知识和难度来权衡规模从平均问题长度和平均答案长度可以看出，我们的问题和答案与KB-VQA [36]和FVQA [37]相当，并且比其他VQA数据集更长，DAQUAR和CLEVR除外（分别从模板部分和完全自动化）。这是有道理的，因为我们期望基于知识的问题更长，因为它们通常不能像其他数据集中的常见问题那样短，例如“图像中有多少个或者问题统计。我们还通过查看问题的数量以及查看每个知识类别中最常见的问题来收集数据集的统计数据。OK-VQA在14，055个问题中有12，591个独特的问题，7，178个独特的问题词。这表明我们在数据集中得到了各种不同的问题和答案。我们还查看了数据集中的各种图像。如前所述，我们的图像来自COCO图像数据集，因此我们的数据集包含相同的图像基本分布。然而，我们只使用COCO图像的一个子集，所以我们想看看我们是否仍然得到广泛分布的图像。为此，我们在我们的图像上运行Places2 [45]类筛选器，并查看每个图像的前1个场景类，并将其与COCO整体进行比较。在365个场景中，我们的数据集包含了除5类之外的所有场景：狩猎小屋，豪宅，电影院，废墟和火山。这些类在整个 COCO 数据集中很少出现（10，22，28，图4：对于每个类别，我们显示了在我们的知识类别中相对频率最高的问题单词和答案（即分类中的频率除以总频率）。分别是37次和25次），所以总的来说，我们仍然捕捉到了相当多的场景变化。最后，我们在图4中显示了每个类别中最“独特”的问题词和更好地了解我们在每一个问题中有什么类型的问题，这些类别。我们通过查看类别中出现的次数与数据集中的总数来计算每个知识类别的这些值看看哪一个问题和答案在它们的类别中相对频率最高。当我们查看疑问词时，我们会看到特定于类别的词，例如车辆和运输中的巴士，烹饪和食物中的三明治，以及天气和气候中的云。我们还看到，答案也与每一个猫- egory，如草食动物在植物和动物，和裁判员在体育和娱乐极其相关。在补充材料中，我们还展示了最常见的问题单词和答案。5. 标杆在本节中，我们评估了当前最先进的VQA方法，并提供了一些基线的结果，包括：知识类别相对频率最高的疑问词相对频率最高的答案1. 车辆和运输公共汽车，火车，卡车，公共汽车，喷气式飞机喷气式飞机，双层，起飞，煤炭，货运2. 品牌、公司和企业测量，创始人，广告，海报，移动易趣，罗技，礼品店，Flickr，斯普林特3. 物品、材料和服装剪刀，厕所，磁盘，泰迪熊，夏普缝纫，扳手，被子，泰迪熊，围嘴4. 体育和娱乐网球，球员，球员，棒球，蝙蝠裁判，发球，接球，奥利，投手5. 烹饪和食物菜，三明治，餐，厨师，比萨饼甜甜圈，叉子，餐，土豆，维生素c6. 地理、历史、语言和文化名称，国家，节日，世纪，纪念碑毕业舞会，尖塔，伊利诺，过去，伯尔尼7. 人与日常生活表达，情绪，理发，晒伤，朋克你好，总的来说，两次，结婚，交叉腿8. 植物和动物动物，野生，牛，栖息地，大象食草动物，斑马，牛群，长颈鹿，象牙9. 科技室内，机械，技术，电压，连接手术，早期，1758年，拇指，艾伦图3200方法OK-VQAVTBCPOMCSrCFGHLCPELPAStWC其他仅限Q14.9314.6414.1911.7815.9416.9211.9114.0214.2819.7625.7413.51MLP20.6721.3315.8117.7624.6921.8111.9117.1521.3319.2929.9219.81ArticleNet（AN）5.284.480.935.095.115.696.243.136.955.009.925.33BAN [20]25.1723.7917.6722.4330.5827.9025.9620.3325.6020.9540.1622.46MUTAN [4]26.4125.3618.9524.0233.2327.7317.5920.0930.4420.4839.3822.46BAN + AN25.6124.4519.8821.5930.7929.1220.5721.5426.4227.1438.2922.16MUTAN + AN27.8425.5623.9526.8733.4429.9420.7125.0529.7024.7639.8423.62BAN/AN oracle27.5926.3518.2624.3533.1230.4628.5121.5428.7924.5241.425.07MUTAN/AN oracle28.4727.2819.5325.2835.1330.5321.5621.6832.1624.7641.424.85表2：OK-VQA的基准测试结果。我们展示了完整的OK-VQA数据集和每个知识类别的结果：车辆和运输（VT）;品牌，公司和产品（BCP）;对象，材料和服装（OMC）;体育和娱乐（SR）;烹饪和食品（CF）;地理、历史、语言和文化（GHLC）;人类和日常生活（PEL）;植物和动物（PA）;科学和技术（ST）;天气和气候（WC）;以及其他。以知识为基础。MUTAN[4]：多模态塔克融合（MUTAN）模型[4]，一种用于VQA的最新基于张量的方法。具体来说，我们使用注意力版本的MUTAN，并选择参数以匹配[4]的单个最佳执行模型BAN[20]：用于VQA的双线性注意力网络。一种最新的VQA方法，该方法在图像的问题特征和自底向上的检测特征我们修改一些-perparameters来提高我们数据集的性能（参见补充材料）。MLP：MLP有3个带有ReLU激活的隐藏层，隐藏大小为2048，每个层在一个完全连接的层之后，在跳过思想GRU之后连接图像和问题特征。与MUTAN一样，它使用FC7功能从ResNet-152。Q-Only：与MLP相同的模型，但仅采用问题特征。ArticleNet（AN）：我们考虑一个简单的基于知识的基线，我们称之为ArticleNet.这个想法是从维基百科检索一些文章，每个问题-图像对，然后训练一个网络，在检索到的文章中找到答案检索文章由三个步骤组成。首先，我们为每个问题图像对收集可能的搜索查询我们提出了所有可能的查询，为每个问题相结合的话，从问题和话，是由预先训练的图像和场景分类识别。其次，我们使用Wikipedia搜索API来获取每个查询的顶级检索第三，对于每个查询和文章，我们通过选择文章中与我们的查询最对应的句子来提取与查询最相关的每篇文章的一个小子集，基于这些查询词在句子中的频率一旦检索到句子，下一步就是对它们进行过滤和编码，以便在 VQA 中使用。具体来说，我们训练ArticleNet来预测地面是否以及在哪里真理答案出现在文章和每句话中架构如图5所示。为了找到问题的答案，我们在检索到的句子中选择得分最高的单词。更具体地说，我们取wi.a sent的最高值，其中wi是作为答案的单词的得分，a sent是包括答案的句子的得分。有关ArticleNet的更详细描述，请参阅补充材料。MUTAN + AN：我们使用ArticleNet（AN）中的顶级句子隐藏状态（图5中发送的h）来增强MUTAN。在VQA训练和测试期间，我们采用预测最高的句子（忽略重复的句子），并将它们存储在端到端存储器网络的存储器中[33]。存储器网络的输出与第一MUTAN融合层的输出级联BAN + AN：同样，我们将ArticleNet隐藏状态合并到BAN中，并将其合并到VQA管道中。我们连接在最终分类网络之前，存储器网络的输出具有BAN隐藏状态详情请参阅柔软的材料MUTAN/AN oracle：作为上限检查，并查看VQA模型可能从使用ArticleNet检索的知识中受益多少，我们还提供了oracle上的结果，它只需要原始的ArticleNet和突变预测，采取最好的答案（比较地面真理）从任何一个。BAN/AN oracle：类似于MUTAN/AN oracle，但我们从原始ArticleNet和BAN中获取最佳答案，再次为每个问题获取最佳答案。基准结果。我们使用常见的VQA评估指标[3]报告结果，但使用我们的每个答案注释两次，因为我们有5个答案注释，而[3]中有10个。我们还使用波特词干来巩固除了复数和共轭之外相同的答案。我们还显示了每个知识类别的细分。的3201的w1V问题Q+HQVGRU标题GRUQhQ+…++hQVGRU发送了...awNX5h发送已发句话标题h标题标题关键输入隐藏状态输出格鲁足球俱乐部FC（x2）复制（无操作）+添加的w1的wNa艺术h艺术图像特征图5：ArticleNet架构。ArticleNet接受了问题Q和视觉特征V。虚线框内的所有模块共享权重。GRU的输出用于将每个单词分类为答案或不是wi。最后的GRU隐藏状态h title和h sent通过全连接层来预测答案是否在句子asent或title a title中，然后组合在一起并用于分类答案是否在文章a art中。结果报告于表2中。第一个观察结果是，没有方法接近标准VQA数据集（如VQA [14]）上的数字（其中2018年竞赛的最佳真实开放式结果72.41）。此外，最先进的模型，如MU-TAN [4]和BAN [20]，专门为VQA设计这表明，OK-VQA不能简单地通过提出一个聪明的模型来解决，而实际上需要结合图像外部信息的方法。有趣的是，尽管原始ArticleNet的性能较低，但当与最先进的模型（MUTAN + AN和BAN + AN）结合时，它提供了改进。从Oracle数字中，我们可以看到ArticleNet检索到的知识为最先进的VQA模型提供了补充信息这些预言是使用ArticleNet的乐观上限，但它们表明更智能的知识检索方法可以在我们的数据集上具有更强的性能。请注意，ArticleNet没有直接在VQA上进行训练，只能预测它检索到的文章中的答案。因此，VQA的相对低性能并不奇怪。查看分类细目，我们发现Arti- cleNet对品牌、科学和烹饪类别特别有帮助，这可能表明这些类别在维基百科中得到了更好的体现。应该注意的是，我们数据集的大部分需要维基百科以外的知识，如常识或视觉知识。Q-Only基线的性能显著差于方法OK-VQA的VQA评分ResNet15226.41ResNet5024.74ResNet1823.64仅限Q14.93表3：具有不同视觉特征的OK-VQA结果其他VQA基线，这表明视觉特征确实是必要的，我们减少答案偏差的程序是有效的。视觉特征消融。我们还想从视觉特征的角度展示数据集的难度，因此我们使用不同的ResNet架构展示了MUTAN 结果。先前报告的 MUTAN 结果基于ResNet152。我们还在表3中显示了使用ResNet50和ResNet18的前向特征的结果。从这个表中可以看出，从 ResNet50 到 ResNet152 功能只有轻微的改进，从ResNet18到ResNet50也是如此。然而，从ResNet18到无图像（仅限Q）会导致性能大幅下降。这表明我们的数据集确实是基于视觉的，但更好的图像特征并不能极大地改善结果，这表明困难在于检索回答问题所需的相关知识和推理。规模消融。最后，我们调查了我们的数据集的大小与其难度的程度，而不是问题本身的性质。我们先跑-3202问：这是什么水果家族的？GTAns：citrus，orangeMUTAN：fruitMUTAN+AN：citrus收回的句子问：这种动物产生什么样的液体？GTAns：milkMUTAN：beefMUTAN+AN：milk收回的句子问：这些生物有多少染色体？GTAns：46，23，23pairsMUTAN：3MUTAN+AN：23收回的句子产品名称：FruitOrange人类细胞有23对染色体，22对常染色体和一对性染色体查询：染色体为了产奶而饲养的某些品种的牛被称为乳牛或产奶牛（以前称为产奶牛）橙（特别是甜橙）是芸香科柑橘属物种柑橘的果实查询：橙色家族人类中大多数真核细胞都有一组46号染色体，遗传物质散布在其中牛奶是哺乳动物乳腺分泌的一种白色液体查询：液体牛柑橘被细分为四类，具有不同的共同橘子查询：水果X染色体失活是指女性两条x染色体中的一条几乎完全失活一头牛在它的一生中会产大量的奶[但是]大多数无籽柑橘类水果需要授粉刺激才能产生果实图6：定性结果。我们将MUTAN+AN的结果与MUTAN基线答案和地面真实答案（'GT Ans'）进行了比较。我们展示了ArticleNet使用的查询词（粉色框）和相应的最相关的句子（蓝色框）。dom细分我们的训练集，并在训练数据的逐渐较小的子集上训练MUTAN，并在我们的原始测试集上进行评估。图7显示了结果。定性实例。我们在图6中展示了一些定性示例，以了解外部知识如何在一些示例中帮助VQA系统。并将MUTAN+AN方法与MUTAN方法进行了比较。左边的例子询问图像中的水果（橙子）来自哪个我们看到，检索到了两个直接包含橙子是柑橘类水果的信息的句子- 是柑橘属中间的例子问动物（牛）生产什么液体。第一句和第三句告诉我们奶牛产奶，第二句告诉我们牛奶是液体。这为组合的MUTAN+AN方法提供了足够的信息来正确回答牛奶。右边的例子问人类有多少染色体。它是指有多少个个体染色体还是多少对染色体有点模糊，所以工作人员将两者都标记为答案。检索到的文章在这里很有帮助，检索到两篇不同的文章，涉及23对染色体和46条染色体。 MUTAN+AN 组合方法正确回答 23 ，而MUTAN猜测3.6. 结论我们解决的任务，基于知识的视觉问题的回答。我们引入了一个新的基准称为OK-VQA这项任务。与常见的VQA基准不同，问题中提供的信息和OK-VQA的相应图像不足以回答问题，回答问题需要理由-OKVQA量表消融3025201510505102030405060708090100%培训问题图7：使用不同大小的训练集的OK-VQA结果。外部知识资源。我们发现，最先进的VQA模型的性能显着下降OK-VQA。我们分析了数据集的属性和统计数据，并表明背景知识可以改善我们的数据集上的结果。我们的实验评估表明，所提出的基准是相当具有挑战性的，有很大的改进空间。致谢：我们要感谢所有花时间审查这项工作并提供有用意见的人。这项工作得到了 NSF IIS-165205 、 NSF IIS-1637479 、 NSF IIS-1703166、Sloan获得NVIDIA人工智能实验室和艾伦人工智能研究所的奖学金感谢Aishwarya Agrawal 、 Gunnar Sigurdsson 、 Victoria Donley 、 AchalDave和Eric Kolve提供了宝贵的支持、建议和反馈。Kenneth Marino通过国防科学工程研究生奖学金（NDSEG）计划得到国防部（DoD）的支持。OKVQA评分3203引用[1] Aishwarya Agrawal ， Jiasen Lu ， Stanislaw Antol ，Margaret Mitchell，C Lawrence Zitnick，Devi Parikh和Dhruv Batra。Vqa：可视化问答。IJCV，2017年。二、三[2] Jacob Andreas，Marcus Rohrbach，Trevor Darrell，andDan Klein.神经模块网络。在CVPR，2016年。2[3] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C.劳伦斯·齐特尼克和德维·帕里克 VQA：可视化问答。在ICCV，2015年。一、二、三、六[4] Hedi Ben-Res ， Rémi Cadene ， Matthieu Cord ， andNicolas Thome.Mutan：用于视觉问答的多模态折叠融合InICCV，2017. 一、六、七[5] Jonathan Berant ， Andrew Chou ， Roy Frostig ， PercyLiang.基于Freebase的问答对语义分析。载于EMNLP，2013年。3[6] 安托万·博德斯苏米特·乔普拉杰森·韦斯顿用子图嵌入回答问题。在EMNLP，2014年。3[7] 陈丹琪，亚当·费希，杰森·韦斯顿，安托万·博尔德斯.阅读维基百科回答开放领域的问题。arXiv，2017. 3[8] Xinlei Chen，Abhinav Shrivastava，and Abhinav Gupta.从网络数据中提取视觉知识。InICCV，2013.2[9] Abhishek Das、Samyak Datta、Georgia Gkioxari、StefanLee、Devi Parikh和Dhruv Batra。具身问答。arXiv，2017. 2[10] Santosh Divvala，Ali Farhadi，and Carlos Guestrin.学习关于任何事情的一切：Webly监督的视觉概念学习。CVPR，2014。2[11] Akira Fukui ， Dong Huk Park ， Daylen Yang ， AnnaRohrbach，Trevor Darrell，and Marcus Rohrbach.多模态紧凑双线性池的视觉问题回答和视觉接地。在EMNLP，2016。一、二[12] Haoyuan Gao ， Junhua Mao ， Jie Zhou ， ZhihengHuang，Lei Wang，and Wei Xu.你在跟机器说话吗？用于多语言图像问题的数据集和方法2015年，在NIPS2[13] Daniel Gordon ， Aniruddha Kembhavi ， MohammadRaste-gari，Joseph Redmon，Dieter Fox，and Ali Farhadi.IQA：交互环境中的可视化问题回答。arXiv，2017. 2[14] Yash Goyal 、 Tejas Khot 、 Douglas Summers-Stay 、Dhruv Batra和Devi Parikh。让vqa中的v变得重要：提升图像理解在视觉问答中的作用。在CVPR，2017年。三、四、七[15] Ronghang Hu ， Jacob Andreas ， Marcus Rohrbach ，Trevor Darrell，and Kate Saenko.学习推理：用于可视问答的端到端模块网络。InICCV，2017. 2[16] Yunseok Jang、Yale Song、Youngjae Yu、Youngjin Kim和 Gunhee Kim 。 TGIF-QA ： Toward spatio-temporalreasoning in visual question answering. 在 CVPR ， 2017年。2[17] Yu Jiang ， Vivek Natarajan ， Xinlei Chen ， MarcusRohrbach，Dhruv Batra，and Devi Parikh. Pythia v0. 1：2018 年VQA挑战赛的优胜者。 arXiv预印本arXiv：1807.09956，2018。13204[18] Justin Johnson ， Bharath Hariharan ， Laurens van derMaaten ， Li Fei-Fei ， C Lawrence Zitnick ， and RossGirshick.Clevr ： A diagnostic dataset for compositelanguage and elementary visual reasoning.在CVPR，2017年。二、四[19] 李飞飞，李Lawrence Zitnick和Ross B.娘娘腔。推断和执行程序以进行可视化推理。InICCV，2017. 2[20] Jin-Hwa Kim，Jaehyun Jun，and Byoung-Tak Zhang.双耳注意力网络 . arXiv 预印本 arXiv ： 1805.07932 ，2018。一、六、七[21] Ranjay Krishna ， Yuke Zhu ， Oliver Groth ， JustinJohnson ， Kenji Hata ， Joshua Kravitz ， StephanieChen，Yannis Kalantidis，Li-Jia Li，David A.作者：Michael S.伯恩斯坦和李飞飞。可视化基因组：使用众包密集图像注释连接语言和视觉。IJCV，2017年。2[22] Ankit Kumar ， Ozan Irsoy ， Peter Ondruska ， MohitIyyer ， James Bradbury ， Ishaan Gulrajani ， VictorZhong，Romain Paulus，and Richard Socher.问我任何事情：用于自然语言处理的动态记忆网络。InICML，2016.3[23] 李国浩、苏航、朱文武。结合外部知识，用动态记忆网络回答开放域视觉问题arXiv，2017. 2[24] 作者

下载后可阅读完整内容，剩余1页未读，立即下载