可视对话框：视觉对话任务、数据集与模型的介绍

86 浏览量更新于2023-10-16 收藏 1.56MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1可视对话框AbhishekDas1，SatwikKottu r2，KhushiGupt a2*，AviSing h3*，DeshrajYad av4，JoséM. F.Moura2，Devi Parikh1，Dhruv Batra11佐治亚理工学院，2卡内基梅隆大学，3加州大学伯克利分校，4弗吉尼亚理工大学1{abhshkdz，paradise，dbatra}@gatech.edu2 {skottur，khushig，moura}@andrew.cmu.eduavisingh@cs.berkeley.edu3deshraj@vt.eduvisualdialog.org摘要我们介绍了视觉对话的任务，这需要一个人工智能代理举行一个有意义的对话与人类在自然的，会话语言的视觉内容。具体地说，给定一个图像、一个对话历史和一个关于图像的问题视觉对话从一个特定的下游任务中解脱出来，作为机器智能的一般测试，同时以视觉为基础，足以客观地评估个人的反应和基准进度。我们开发了一种新颖的两人聊天数据收集协议，以管理一个大规模的可视化对话数据集（VisDial）。VisDial包含1个对话框（10个问题-答案对），总共有140万个对话问答对。我们引入了一系列用于视觉对话的神经编码器-解码器模型，具有3个编码器（后期融合，分层递归编码器和记忆网络）和2个解码器（生成和判别），其性能优于许多复杂的基线。我们提出了一个基于检索的评估协议的可视化对话，人工智能代理被要求排序一组候选人的答案和评估的度量，如人类反应的平均倒数排名。我们通过人类研究量化机器和人类在视觉对话任务上的表现之间的差距。我们的数据集、代码和训练模型将在visualdialog.org上公开发布。把这一切放在一起，我们展示了第一个1. 介绍我们正在见证计算机视觉（CV）和人工智能（AI）的前所未有的进步-*KG和AS在弗吉尼亚理工大学实习时完成的工作图1：我们引入了一个新的人工智能任务我们介绍了一个大规模的数据集（VisDial），评估协议，和新的编码器-解码器模型，这项任务。例如学习玩雅达利电子游戏[36]和围棋[49]，通过理解短篇小说[18，59]回答阅读理解问题，甚至回答有关图像[4，34，43，64]和视频[51，52]的问题！AI的下一步是什么？我们相信，下一代视觉智能系统将需要增强以自然语言与人类就视觉内容进行有意义对话的能力。应用包括：• 帮助视障用户了解他们的冲浪[5]或社交媒体内容[60]（AI：‘约翰刚刚上传了一张他在夏威夷度假的照片’，人类：‘太好了，他在海滩吗？' , AI:• 帮助分析师根据大量监测数据做出决策（人类：“上星期有人进过这个房间吗？' ，人工智能：“是的，27个实例登录了摄像头时代”，人类：“他们中有人带着黑色的包吗？”），• 与人工智能助手互动（人类：326327图2：图像字幕、可视问题提示（VQA）和可视对话框之间的差异。我们的VisDial数据集中显示了两个（部分）对话框，该数据集是从两个Amazon Mechanical Turk工人之间的实时聊天中策划的（3）第三章。你看到婴儿监视器里的婴儿了吗' ，人工智能：“是的，我能”，人类：“他是在睡觉还是在玩？”）.• 机器人应用（例如搜索和救援任务），操作员可能是“情境盲”，通过语言操作[ 35 ]（人类：“你周围的房间里有烟吗？' ，AI：尽管在视觉和语言的交叉点上取得了快速进展-在字幕中，人机交互包括机器简单地与人交谈（虽然VQA向人机交互迈出了重要的一步，但它仍然只代表单轮对话-与人类对话不同，没有后续问题的范围，系统中没有用户提出的先前问题的相关性，也没有与系统提供的先前答案的一致性（Q：“有多少人坐轮椅？”' A：“两个”; Q：“有多少个轮椅？”' ，A：作为迈向对话式视觉AI的一步，我们引入了一个新的任务-任务定义。Visual Dialog中的具体任务如下-给定图像I，由一系列问答对组成的对话历史（Q1：“有多少人坐轮椅？”' ，A1：“两个”，Q2：“他们的性别是什么？' ，A2：“一男一女”），以及自然语言后续问题（Q3：“哪一个拿着球拍？”），机器的任务是用自由形式的自然语言回答问题（A3：“女人”）。这个任务是图灵测试的视觉模拟。考虑图中的可视对话框示例。二、问题“穿白衬衫的人是什么性别？”' 要求机器选择性地聚焦并将注意力引导到相关区域。她在做什么？需要共指消解（代词“she”指的是谁？），“她右边是个男人吗？' 进一步要求机器具有视觉记忆（我们谈论的是图像中的哪个对象？）.这样的系统还需要与它们的输出保持一致--“有多少人坐在轮椅上？' ，'两个'，'他们的性别是什么？' ，这样的困难使得这个问题非常有趣和具有挑战性。我们为什么要和机器说话？以前的工作，在语言只（非视觉）对话可以安排在一个频谱与以下两个端点：目标驱动对话（例如，为用户预订航班）←→无目标对话（或与聊天机器人进行随意的这两个目标有着截然不同的目的和相互冲突的评价标准。目标驱动对话通常根据任务完成率（用户能够预订航班的频率）或任务完成时间进行评估[11，38]- 显然，对话越短越好。相比之下，对于聊天，用户参与和互动的时间越长越好。例如，2017年250万美元的亚马逊Alexa奖的目标是我们相信我们的Visual Dialog实例化在这个范围内达到了一个最佳点。它与特定的下游任务足够分离，以作为机器智能的一般测试，同时在视觉上足够接地，以允许客观评估个人响应和基准进度。前者不鼓励任务设计的机器人进行捐款. 我们做出以下贡献：• 我们提出了一个新的AI任务：可视对话框，机器必须与人类进行关于可视内容的对话。• 我们开发了一个新颖的两人聊天数据收集协议来管理一个大规模的可视化对话数据集（Vis-Dial）。完成1后，VisDial将包含1个对话框每个（10个问答对）来自COCO数据集[27]的140k个图像，总共有140.4M个对话问答对。[14]与VQA [15]相比，Dial研究了一个明显更丰富的任务（对话），克服了VQA中的• 我们介绍了一个神经编码器-解码器模型1关于COCO-train（1083 k图像）和COCO-val（1040 k图像）的 VisDial 数据已经可以在 https ： //www.example.com 下载。visualdialog.org由于对话历史包含地面实况上限-因此，我们不会收集COCO测试的对话数据。相反地，我们将从COCO发行版（将由COCO团队提供给我们）中收集20k额外图像上的对话数据，用于我们的测试集。328用于具有3个新颖编码器–晚期融合：其将图像、历史和问题分别嵌入到向量空间中，并执行这些的“后期融合”到联合嵌入中。–分层递归编码器：它包含一个对话级递归神经网络（RNN），位于问答（QA）级递归块之上。在每个QA级循环块中，我们还包括一个注意力历史机制，以选择和注意与当前问题相关的历史轮。–内存网络：它将每个先前的QA对视为其存储库中的“事实”，并学习“轮询”存储的事实和图像以开发上下文向量。我们使用2个解码器（生成式和判别式）训练所有这些编码器-• 我们提出了一个检索为基础的评价协议的可视化对话，人工智能代理被要求排序的候选答案列表和评价指标，如平均倒数排名的人的反应。• 我们进行研究，以量化人类在这项任务上的表现。• 把所有这些放在一起，在项目页面上，我们展示了第一个可视化聊天机器人！2. 相关工作视觉与语言视觉和语言交叉处的一些问题最近得到了重视描述[45，53，54]，文本到图像共指/地面-[2019 - 02 - 19 00：00：00][2019 - 02 - 19 00：00：00][2019 - 02 - 19 00：00]课程，视觉问答（VQA）[2，4，9，14，16，32然而，所有这些都涉及（最多）单镜头自然语言交互与我们的工作同步，最近的两部作品[10，37]也开始研究视觉基础对话的问题。视觉图灵测试。与我们的工作密切相关的是Gemanetal。[15]，他提出了一个相当严格的相比之下，1）我们的数据集具有自由形式，开放式的自然语言问题，通过两个主题在Amazon Mechanical Turk（AMT）上聊天收集，从而产生了更真实和多样化的数据集（见图2）。（五）。2)[15]中的数据集只包含街道场景，而我们的数据集有更多的多样性，因为它使用了COCO [27]中的图像。此外，我们的数据集是两个数量级的MAG-nitude更大-基于文本的提问。我们工作是与NLP社区研究的基于文本的问题回答或“阅读理解”任务有关。最近在这个领域的一些大规模数据集包括30M Fac.toid 问答语料库 [46] ， 100K SimpleQuestions 数据集[6]，DeepMind Q A数据集[18]，bAbI数据集中的20个人工任务[59]，以及用于阅读理解的SQuAD数据集[40]。VisDial可以被看作是阅读理解和VQA的融合。在VisDial中，机器必须理解过去对话的历史，然后理解图像来回答问题。通过设计，VisDial中任何问题的答案都不会出现在过去的对话框对话的历史使问题情境化-问题“她还拿着什么？' 需要一台机器来理解历史，以认识到问题在谈论谁以及排除了什么，然后理解图像来回答问题。会话建模和聊天机器人。Visual Dialog是基于文本的对话和会话建模的视觉模拟。虽然一些最早开发的聊天机器人是基于规则的[58]，但现在正在积极探索基于端到端学习的方法[7，11，22，26，47，48，55]。最近的一个大规模对话数据集是Ubuntu 对话语料库[30] ，其中包含来自 Internet Relay Chat （ IRC ）上Ubuntu频道的大约50万个对话。Liu等[28]对自由形式对话的现有评估协议中的问题进行研究。自由形式的文本对话和VisDial之间的一个重要区别是，在VisDial中，两个参与者不是对称的-一个人（“提问者”）询问关于他们看不到的图像的问题;另一个人（“回答者”）看到图像并且仅回答问题（在其他不受约束的这种角色分配给互动一种目的感（我们为什么要说话？帮助提问者建立一个形象的心理模型），并允许客观评价个人的反应。3. 可视化对话框数据集（VisDial）我们现在描述我们的VisDial数据集。首先描述了AMT的聊天界面和数据采集过程，分析了数据集，然后讨论了评估协议。与之前的数据收集工作一致，我们从上下文中的公共对象（COCO）[27]数据集收集图像上的视觉对话数据，该数据集包含日常场景中的多个对象。这些图像的视觉复杂性允许参与和多样化的对话。即时聊天界面。这项任务的好数据应该包括对话，这些对话具有（1）时间连续性，（2）在图像中接地，（3）模仿自然的为了得到这样的回应，我们在AMT上配对了2名工作人员，让他们实时聊天（图1）。（3）第三章。每个工人都被分配了一个特定的角色。一个工人（他们的任务是询问这个隐藏的问题329(a) “提问者”看到了什么（二）“回答者”看到了什么（c）来自VisDial数据集的对话框图3：通过实时聊天界面在Amazon Mechanical Turk上收集可视化对话数据，其中一个人被分配为“提问者”角色我们展示了前两个问题是通过界面收集的，因为Turkers在图中相互交互。图3a和图3b。剩下的问题如图所示。3c.“更好地第二个工人（他们的任务是回答聊天伙伴提出的问题与VQA [4]不同，回答不限于简短或简洁，而是鼓励员工尽可能自然和“对话式”地回答图3c示出了示例对话。这个过程是一个不受约束的工人们被允许在交换了20条消息（10对问题和答案）后结束对话关于我们最终界面的更多细节可以在补充中找到。我们还尝试了一种不同的设置，提问者看到的是高度模糊的图像，而不是标题。用模糊图像进行的对话导致了一些基本上是“斑点识别”的问题--“右下角的粉红色斑点是什么？”' .对于我们的全面数据收集，我们决定只使用标题，因为它会产生更在AMT上建立一个2人聊天。尽管流行-AMT作为计算机可视化数据采集平台的可行性因此，我们的设置必须设计并克服一些独特的挑战-在AMT上托管实时双人聊天意味着不能使用任何Amazon工具，我们基于Redis消息队列和Node.js开发了自己的后端消息传递和数据存储基础设施为了支持数据质量，我们通过维护一个配对的工作者ID池来确保工作者不能与自己聊天为了最大限度地减少一个工人的等待时间，同时搜索第二个工人，我们确保总是有一个重要的可用HIT池。如果其中一个工人中途放弃了HIT（或断开连接），代码中的自动条件就会启动，(a)（b）第（1）款图4：问题和答案的长度分布（左）;与VQA相比，唯一答案在训练数据集所有答案中的覆盖率（右）。对于给定的覆盖范围，Vis- Dial具有更多的唯一答案，这表明答案的多样性更大他们的角色）直到10个消息被他们发送以这种方式完成任务的工人得到了全额补偿，但我们的后端丢弃了这些数据，并自动在此图像上启动了一个新的HIT，因此可以记录真实的两人对话。我们的整个数据收集基础设施（前端UI，聊天界面，后端存储和消息系统，错误处理协议）是公开的2。4. VisDial数据集分析我们现在分析VisDial数据集的v0.9子集-4.1. 分析VisDial问题目视预充偏倚。VisDial 与之前的图像问答数据集（VQA [4]，Visual 7W [63]，Baidu mQA [14]）之间的一个关键区别是VisDial中缺乏具体来说，在所有的随机数据集中，受试者在询问有关图像的问题时看到图像。正如[2，16，62]中所分析的那样，这导致了问题中的一种特殊偏见-人们只会问“图片中有钟楼吗？”'有钟楼的照片上这使得纯语言模型在VQA上表现得非常好，并导致了一种膨胀的感觉，剩下的工人要么继续提问，要么提供有关图像的事实（标题）（取决于2https://github.com/batra-mlp-lab/Visdial-amt-chat330进步[16，62]。作为一个特别反常的例子-对于VQA数据集中以“你看到a了吗？. .”，盲目地回答“是”，而不阅读问题的其余部分或查看相关图像，平均VQA准确率为87%！在VisDial中，提问者看不到图像。因此，这种偏差减少了。分配。图4a显示了VisDial中问题长度的分布-我们看到大多数问题的范围从4到10个单词。图5显示了VQA。虽然有很多相似之处，但一些差异立即跳出来。与VQA相比，VisDial中有更多的二进制问题3VQA中的“什么”。VisDial与.其他数据集载于附录中的表1。最后，这些问题在风格上存在差异，很难用上面的简单统计数据来捕捉。在VQA中，受试者看到图像，并被要求难倒智能机器人。因此，大多数查询都涉及到关于背景的具体细节（“计算机上的后台正在使用什么程序？”））. 在VisDial中，提问者没有看到原始图像，而是通过提问来建立场景的心理模型。因此，这些问题往往是开放式的，而且往往遵循一种模式：• 通常从标题中的实体开始：‘An elephant walking away from a pool in an exhibit’‘Is there only 1 、• 深入挖掘他们的部分或属性：”“它长大了吗？' “是不是对着摄像头？”、• 询问场景类别或图片设置：这是室内还是室外？' “这是动物园吗？”、• 天气：“下雪了吗？”' “今天是晴天吗？”、• 简单地探索场景：‘Are “有大象的庇护所吗？”、• 并对这些探索中发现的新视觉实体提出后续问题：‘There’s a blue fence in background, like an enclosure’‘Is the enclosure inside or .4.2. 分析VisDial答案回答我。图4a示出了答案长度的分布。与以前的数据集不同，VisDial中的答案更长，更具描述性-图4b示出了所有答案（y轴）被最频繁的答案（x轴）的累积覆盖。VisDial和VQA之间的区别是明显的-3个问题，以在VQA中，覆盖了所有答案83%，而在VisDial中，这一数字仅为63%。在Vis中有一个显著的重尾- Dial-大多数长字符串都是唯一的，因此覆盖范围图中曲线。4b变成斜率为1的直线。VisDial v0.9中总共有337，527个唯一答案。答案类型。由于VisDial中的答案是较长的字符串，因此我们可以根据开头的几个单词来可视化它们的分布（图1）。第5c段）。一个有趣的答案类别出现了这是提问者无法看到图像的结果-他们提出了与上下文相关的问题，但并非所有问题都可以从该图像中确定地我们相信这是丰富的数据，可以用来构建更像人类的AI，拒绝回答它没有足够信息来回答的问题。参见[42]关于VQA中问题相关性的相关但互补的工作。二元问题与二元答案在VQA中，二元问题只是那些以“是”，“否”，“可能”作为答案的问题在VisDial中，我们必须区分二元问题和二元答案。二进制问题是那些以“做”，“做”，“有”，“有”，“是”，“能”，“能”开头的问题。对这些问题的回答可以（1）只包含“是”或“否”，（2）以“是”，“否”开头，并包含额外的信息或澄清，（3）涉及模糊性（“很难看到”，“也许”），或（4）回答问题而不明确地说“是”或“否”（问：“布上有任何类型的设计或图案吗？' ，A：我们将包含“是”或“否”的答案称为二进制答案-分别为上述子集（1）和（2）中的149，367和76，346个答案。VQA中的二元答案偏向于在VisDial中，趋势正好相反。只有46.96%的人对所有是/否的回答都是这是可以理解的，因为工人没有看到图像，更有可能最终得到负面的反应。4.3. 分析VisDial对话框在4.1节中，我们讨论了可视拨号中的一个典型的对话流程，这里我们分析了两个定量的统计数据.对话中的相互参照。由于VisDial中的语言是连续对话的结果，因此它自然包含亲名词总的来说，38%的问题，19%的回答，以及几乎所有（98%）的对话都包含至少一个代词，从而证实了机器需要克服共指歧义才能成功完成这项任务。我们发现，代词的使用在第一轮中是低的（如预期），然后回升的频率。一个细粒度的每轮分析是在补充。对话主题中的时间连续性。会话对话数据在所讨论的“顶部"中具有连续性是很自然的我们已经讨论了定性331(a) VisDial问题（b）VQA问题（c）VisDial答案图5：VisDial问题、VQA问题和VisDial答案的前n元语法分布（从左到右）。单词排序从中心开始向外辐射，弧长与包含单词的问题数量成正比。VisDial问题与VQA。为了量化差异，我们进行了一项人类研究，其中我们手动注释了从val集中随机选择的40张图像（总共400个问题）的问题主题注释基于人类判断，具有4个注释者的共识，主题例如：询问特定对象（“这个人在做什么？' ），scene（'是在室外还是在室内？' ），weather（“天气晴朗吗？”）、图像（“它是彩色图像吗？”），和探索（‘还有别的吗？“）.我们对同一组40张图像的VQA问题进行了类似的主题注释，并比较了问题中的主题连续性。在10轮比赛中，VisDial问题有4个。55±0。平均17个主题，确认这些不是独立的问题。召回VisDial每张图像有10个问题，而VQA有3个问题。因此，为了公平比较，我们计算VisDial中3个连续问题的所有子集的平均主题数对于批量为40的500个自助样本，VisDial有2个。14± 0。05个主题，而VQA有2个。53± 0。09.较低的平均值表明VisDial具有更高的连续性因为问题不会经常改变话题。4.4. VisDial评估方案对话系统中的一个基本挑战是评估。类似于字幕和机器翻译的情况，自动评估自由形式答案的质量是一个开放的问题。已知BLEU、METEOR、ROUGE等现有指标在评估对话响应时与人类判断的相关性较差[28]。我们不是评估下游任务[7]或整体评估整个对话（如无目标聊天[3]），而是在每一轮（t = 1，2，. . . ，10）在检索或多选设置中。具体地，在测试时间，VisDial系统被给予图像I，即“地面实况”对话历史（包括图像标题）C，（Q1，A 1），. . .，（Qt-1，At-1），问题Qt，以及N=100个候选答案的列表，并询问返回候选答案的排序。该模型的评价指标是：（1）人类反应的等级（越在前k个排序的响应中人类响应的存在，以及（3）人类响应的平均倒数秩（MRR）（越高越好）。评估协议与两种区分模型（简单地对输入候选者进行评分，例如，通过对选项的softmax，并且不能生成新的答案），以及生成模型（生成答案串，例如，通过递归神经网络），通过模型的对数似然分数对候选人进行排名候选人答案我们从四个集合中生成正确和不正确答案的候选集合：正确：人类对这个问题的真实反应。5、合理性：50个最相似问题的答案。相似问题是那些以相似的三元语法开头，并在其余问题中提到相似语义概念的问题。为了捕捉这一点，通过将前三个单词的GloVe嵌入与问题中剩余单词的平均GloVe嵌入连接，将所有问题嵌入到向量空间中Euclidean距离用于计算邻居。由于这些相邻的问题是在不同的图像上被问到的，所以它们的答案作为受欢迎：数据集中最受欢迎的30个答案包括流行的答案迫使机器在可能的先验反应和对问题的合理反应之间进行选择，从而增加了任务难度。随机：剩下的是数据集中随机问题的答案。为了生成100个候选答案，我们首先找到正确答案、合理答案和流行答案的并集，并包括随机答案，直到找到唯一的100个答案。3325. 神经视觉对话模型在本节中，我们开发了一些神经视觉对话应答器模型。回想一下，模型被作为输入给出-图像I，“地面实况”对话历史（包括图像标题）H =（C，（Q 1，A 1），. . .，（Qt−1，At−1）），每个问题Q t是需要嵌入的单词序列，而对话作为一个整体是一个[48]如图所示，6，我们提出了一个HRE模型，其中包含一个对话框RNN坐在一个递归的顶部，联系我们联系我们H0H 1联系我们Ht−1租金块（Rt）。递归块Rt嵌入了问题-通过LSTM（早期融合）将图像和图像联合起来问题Qt和100个候选答案的列表At={A（1），. . . ，A（100）}-并要求返回A t的排序。历史Ht的每一轮，并传递一个级联将它们中的一个添加到它上面的对话框-RNN中对话框-RNN pro-在高层次上，我们所有的模型都遵循编码器-解码器框架，即分解为两个部分我们描述每个组件的选择，并与所有编码器-解码器组合的实验。解码器：我们使用两种类型的解码器：• 生成式（LSTM）解码器：其中，编码向量被设置为长短期记忆（LSTM）RNN语言模型的初始状态。在训练过程中，我们最大化地面真实答案序列的对数似然，给出其相应的编码表示（训练的端到端）。为了进行评估，我们使用模型的对数似然得分并对候选答案进行请注意，这个解码器不需要在训练过程中对选项进行评分。因此，这些模型不会利用期权创造中的偏差，并且通常表现不佳[21]，但利用这种偏差是否真的表明了进步，这是有争议此外，生成解码器更实用，因为它们实际上可以部署在现实应用中。• 判别式（softmax）解码器：计算输入编码和每个答案选项的LSTM编码之间的点积相似度。这些点积被送入softmax来计算选项的后验在训练过程中，我们最大化正确选项的对数概率。在评估过程中，选项仅根据其后验概率进行排名。编码器：我们开发了3种不同的编码器（如下所列），将输入（I，H，Qt）转换为联合表示。在所有情况下，我们通过VGG-16的倒数第二层的α2归一化激活来表示I[50]。对于每个编码器E，我们用所有可能的烧蚀版本进行实验：E（Qt），E（Qt，I），E（Qt，H），E（Qt，I，H）（对于某些编码器，并非所有组合都是“有效的”;详情如下）。• 后期融合（LF）编码器：在这个编码器中，我们将H引入用于此轮的编码（图6中的Et）和对话上下文以传递到下一轮。我们还添加了一个关注历史（图中的“注意力”）。6）允许循环块Rt选择并参与与当前问题相关的历史的轮的机制。该注意力机制由前几轮（0，1，. . .，t-1），其根据历史和问题+图像编码来计算。图6：HRE编码器的架构与注意.在当前回合Rt，该模型具有基于当前问题从先前回合选择和关注相关历史的能力。这种关注历史与问题一起馈送到对话RNN中，以生成用于解码器的联合表示Et。• 记忆网络（MN）编码器：我们开发了一个MN编码器，它将每个先前的问题和答案作为“事实”保存在其记忆库中，并学习参考存储的事实和图像来回答问题。具体地说，我们用LSTM编码Qt以获得512-d向量，编码每个前一轮历史（H0，. . .，Ht−1）用另一个LSTM得到一个t×512矩阵。我们计算问题向量与每个历史的内积向量来获得前几轮的分数，这些分数被馈送到softmax以获得注意力超过历史概率。使用这些注意力概率的历史向量的凸组合为我们提供了作为具有整个历史的长串（H0，. . . ，Ht−1）构造MN编码。在记忆网的语言中-工作[7]，这是一个连在一起Qt和H分别用2不同的LSTM和分离输入（I，H，Qt）的各个表示被连接并线性变换为期望大小的联合表示。• 分层递归编码器（HRE）：在这个编码器中，我们捕捉到的直觉是，我们使用"[encoder]-[input]-[decoder]“约定来表示模型-输入组合。例如，'LF-QI-D'具有带问题+图像输入（无历史）的后期融合编码器和判别解码器。关于模型的实施细节可以在补充中找到。3336. 实验分裂。 VisDial v0.9包含83 k的COCO-train对话框和40 k的COCO-val图像。我们将83k分成80k用于训练，3k用于验证，并使用40k作为测试。数据预处理、超参数和训练细节包含在补充中。基线我们比较了一些基线：回答之前：测试问题的答案选项用LSTM编码，并由线性分类器评分。这捕获了我们训练集中答案的频率排名，而无需解析精确的字符串匹配。NN-Q：给定一个测试问题，我们从训练中找到k个最近邻问题（在GloVe空间中），并通过与这些k个答案的平均相似度对答案选项进行评分。NN-QI：首先，我们为一个测试问题找到K个最近邻问题然后，我们找到一个基于图像特征相似性大小为k的子集最后，我们根据选项与这k个问题答案的平均相似度对选项进行我们使用k=20，K=100。最后，我们将几个（接近）最先进的VQA模型（SAN[61]，HieCoAtt [32]）应用于Visual Dialog。由于VQA被设定为分类，因此我们请注意，我们的LF-QI-D模型与[31]中的模型相似。总之，这些构成了相当复杂的基线。结果选项卡. 1显示了我们在VisDial v0.9上提出的模型和基线的结果（在 COCO-val 的 40 k 上进行了评估）。几个关键要点- 1）正如预期的那样，所有基于学习的模型都显著优于非学习基线。2)所有的判别模型都显著优于生成模型，正如我们所讨论的，这是预期的，因为判别模型可以调整答案选项中的偏差。3)我们最好的生成和判别模型是MRR为0.526的MN-QIH-G和MRR为0.526的MN-QIH-D。0.597 MRR。4)我们观察到，天真地纳入历史LF-QH和LF-QI与或者说，一个小小的“小”字，也可以说是一个小小的“小”字。LF-QIH- G）。然而，更好地编码历史的模型（MN/HRE）比具有/不具有历史的相应LF模型（例如，LF-Q-D 对MN-QH-D）。5)考虑I（{LF ，MN，HRE }-QIH）的模型优于相应的盲模型（没有I）。人类研究。我们对AMT进行了研究，以定量评估人类在{有图像，无图像}×{有历史，无历史}的所有组合下在该任务上的表现。我们发现如果没有图像，人类-当他们有机会访问对话历史时，他们会表现得更好。正如预期的那样，当他们可以访问图像时，这个差距就会缩小。完整的细节可以在补充中找到。型号MRRR@1R@5R@10平均值前一个答案0.373523.5548.52 53.23 26.50沪ICP备05004550号-1 35.93 54.07 60.26 18.93澳门新葡京-澳门新葡京0.427433.1350.8358.6919.62沪ICP备05000000号-139.78 60.58 66.33 17.89粤ICP备05055555号-139.7360.86 66.68沪ICP备05000000号-142.0461.65 67.66 16.84沪ICP备15005559号-141.83 61.78 67.59HRE-QH-G 0.5102 40.15 61.59 67.36 17.47沪ICP备05000000号-1《礼记》0.524242.28 62.33沪ICP备05005555号-140.42 61.57 67.44 17.74MN-QIH-G0.525942.2962.85 68.88沪ICP备05000000号-179.83 7.08沪ICP备15005578号-141.7580.94 6.74沪ICP备05000000号-143.3374.27沪ICP备15000000号-143.8274.68 84.07HRE-QH-D 0.5695 42.70 73.25 82.97 6.110.584644.67 74.50公司简介0.586844.82 74.81澳门新葡京MN-QH-D 0.584944.0375.2684.49 5.68MN-QIH-D0.596545.55 76.22.SAN1-QI-D0.5764 43.44 74.26 83.72 5.88HieCoAtt-QI-D 0.5788 43.51 74.49 83.96 5.84表 1 ： VisDial v0.9 上方法的性能，通过平均倒数秩（MRR）、召回@k和平均秩测量。MRR和召回率@k越高越好，而平均秩越低越好VisDial v0.5上的性能包含在附录中。7. 结论总而言之，我们引入了一个新的AI任务我们开发了一种新的两人聊天数据收集协议来管理大规模数据集（VisDial ），提出了基于检索的评估协议，并为Visual Dialog开发了一系列编码器-解码器模型。我们通过人类研究来量化人类在这项任务上的表现。我们的研究结果表明，有显着的改进空间，我们相信这项任务可以作为一个测试平台，测量视觉智能的进展。鸣谢。我们感谢Harsh Agrawal，Jiasen Lu帮助收集AMT数据;小林、Latha Pemula进行模型讨论;马可·巴罗尼，安托万·博德斯，迈克·刘易斯，马克·奥雷利奥·兰扎托进行了有益的讨论。我们非常感谢Torch [1]的开发人员构建了一个出色的框架。这项工作的部分资金来自DB和DP的NSF CAREER奖，DP和DB的ONR YIP奖，DB的ONR Grant N 00014 -14-1-0679，DP的Sloan Fellowship，DB和DP的ARO YIP奖，Paul G.艾伦家庭基金会，ICTAS初级教师奖给DB和DP，谷歌教师研究奖给DP和DB，Ama- zon学术研究奖给DP和DB，AWS教育研究奖给DB，NVIDIA GPU捐赠给DB。SK得到了ONR Grant N 00014 -12-1-0903的支持。本文所含的观点和结论是作者的观点和结论，不应被解释为代表美国政府的官方政策或认可，无论是明示还是暗示。政府或任何赞助商。生成判别基线VQA334引用[1] 火炬http://torch.ch/网站。8[2] H. Agrawal、A. Astrasekaran，D. Batra，D.帕里克，还有M.班萨尔排序故事：将杂乱的图像和标题排序到故事中。在EMNLP，2016。三、四[3] 亚马逊Alexa http://alexa.amazon.com/网站。6[4] S. Antol，A. Agrawal，J.卢，M.米切尔，D。巴特拉角L.zitnick和D.帕里克 VQA：可视化问答。在ICCV，2015年。一、二、三、四、五[5] J.P. Bigham，C. Jayant，H. Ji，G. Little，A.米勒河C.米勒河Miller，A.塔塔罗维奇湾怀特，S。白色和T.是啊VizWiz：几乎实时回答视觉问题。InUIST，2010.1[6] A.博德斯，北Usunier，S. Chopra和J.韦斯顿大-用记忆网络来扩展简单问题推理。arXiv预印本arXiv：1506.02075，2015。3[7] A. Bordes和J.韦斯顿学习端到端目标导向对话。arXiv预印本arXiv：1605.07683，2016年。三六七[8] G. Christie，A. Laddha、黑腹拟步行虫A.阿格拉瓦尔，S。Antol，Y. 戈亚尔K. Kochersberger和D.巴特拉共同解决语言和视觉歧义：字幕场景中的联合分割和介词附件解决方案在EMNLP，2016。3[9] A. Das，H.阿格拉瓦尔角L. Zitnick，D. Parikh和D. 巴-tr.视觉提问中的人类注意力：人类和深度网络看的是同一个区域吗？在EMNLP，2016。3[10] H. de Vries，F.Strub，S.阿萨尔岛皮耶特坎湾拉罗谢尔和A. C.考维尔猜猜什么通过多模态对话的视觉对象发现。在CVPR，2017年。3[11] J·道奇， A. 甘， X. 张先生， A. 博德斯 S. 乔普拉A. Miller，A. Szlam和J.韦斯顿评估学习端到端对话系统的先决条件。ICLR，2016年。二、三[12] 多纳休湖A. Hendricks，S. Guadarrama，M. 罗尔巴赫S. Venugopalan湾Saenko和T.达雷尔。用于视觉识别和描述的长期回流卷积网络。CVPR，2015。3[13] H. Fang，S.古普塔F. N.扬多拉河K.斯利瓦斯塔瓦湖邓小平说，P. Dollár，J. Gao、X.他，M。米切尔，J。C.普拉特角L.Zit-nick和G.茨威格从标题到视觉概念，然后返回。CVPR，2015。3[14] H. Gao，J. Mao，J. Zhou，Z.黄湖，澳-地Wang和W.徐你在和机器说话吗？多语言图像问题分类的数据集和方法。2015年，在NIPS中。三、四[15] D. Geman，S. Geman，N. Hallonquist和L.尤尼斯一计算机视觉系统的视觉图灵测试。InPNAS，2014. 3[16] Y. 戈亚尔 T. 霍特 D. 萨默斯-留下来 D. 巴特拉和D.帕里克让vqa中的v变得重要：提升图像理解在视觉问答中的作用。在CVPR，2017年。三、四、五[17] K. 他，X。Zhang，S.Ren和J.太阳深度残差学习用于图像识别。在CVPR，2016年。1[18] K. M. Hermann，T. Kocisky，E.格雷芬斯特湖埃斯佩霍尔特W. Kay，M. Suleyman和P. Blunsom教机器阅读和理解。2015年，在NIPS中。第1、3条[19] R. Hu，M. Rohrbach和T.达雷尔。从自然语言表达式中分割。在ECCV，2016年。3[20] T.- H.黄先生，F.费拉罗，N.穆斯塔法扎德，I.米斯拉A.作者：J.格希克，X。He，P. Kohli，D.巴特拉湖Zitnick，D.帕里克湖Vanderwende，M.厨房，和M.米切尔视觉故事。在NAACL HLT，2016年。3[21] A.贾布里河Joulin和L.范德马滕。重新审视视觉问答基线。在ECCV，2016年。7[22] A. Kannan，K. Kurach，S. Ravi，T. Kaufmann，A. 汤姆金斯B. 米克洛斯湾科拉

下载后可阅读完整内容，剩余1页未读，立即下载