多模态对话中的视觉对象发现

45 浏览量更新于2023-10-16 收藏 982KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1猜猜什么通过多模态对话的视觉对象发现Harm de Vries蒙特利尔mail@harmdevries.comOlivier Pietquin弗洛里安·斯特鲁布Univ. Lille，CNRS，CentraleLille，Inria，UMR 9189CRISTALflorian. inria.frHugo LarochelleTwitter蒙特利尔大学sarathcse2008@gmail.com蒙特利尔大学pietquin@google.comhlarochelle@twitter.com邮箱：aaron. gmail.com摘要我们介绍GuessWhat？！，一个两人猜谜游戏，作为研究计算机视觉和对话系统相互作用的试验平台。游戏的目标是通过提出一系列问题在丰富的图像场景中定位未知物体。更高层次的图像理解，如空间推理和语言基础，需要解决所提出的任务。我们的主要贡献是收集这是一个大规模的数据集，由15万个人类玩的游戏组成，在66 K的图像上总共有80万个视觉问答对。我们解释了我们的设计决策，收集数据集，并介绍了与游戏的两个玩家相关的甲骨文和提问任务。我们对深度学习模型进行了原型化，以建立引入任务的初始基线。Q用户是花瓶吗它是部分可见的吗？它是在左边的角落吗？是绿松石和紫色的那个吗？Oracle是否否是1. 介绍人们使用自然语言作为最有效的沟通方式，包括描述周围的视觉世界。他们通常只需要几个词来指代丰富场景中的特定对象。每当这样的表达明确地指向一个对象时，我们就称之为指称表达[21]。然而，唯一地识别所涉及的对象并不总是可能的，因为它取决于听者的精神状态和场景的上下文。因此，许多现实生活中的情况需要多次交换才能清楚所指的对象：- 你看到那只狗了吗？* 你是说角落里的那个吗- 不，跑的那个。* 是啊，怎么一个能够进行对话的计算机视觉系统它所看到的是智能场景理解的重要一步。这样的系统将更加透明和可解释，因为人类可以自然地与它们互动，例如通过询问澄清问题，图1：一个游戏示例。经过一系列的四个问题，- tions，它成为可能的定位对象（突出显示的绿色边界框）。关于它所感知的东西。然而，一个根本性的挑战仍然存在：如何创建能够理解自然语言描述的模型，并将其置于视觉世界中。在过去的几年里，计算机视觉社区对实现这一目标的任务越来越感兴趣。由于训练深度神经网络的进步[14]和大规模分类数据集的可用性[24，33，47]，自动对象识别现在已经达到了人类水平的性能[22]。因此，注意力已经转移到涉及更高层次的图像理解的任务。一个突出的例子是图像字幕[24]，自动生成图像的自然语言描述的任务。视觉提问（VQA）[6]是另一个流行的任务，涉及回答有关图像的单个开放式问题近55035504是个人吗#203974不，是牛吗？是的三个基于GuessWhat的子任务！数据集和原型深度学习基线，以确定它们的差异。本文的结构如下。首先，我们解释一下GuessWhat的规则。！游戏在SEC 二、然后，Sec。3.如何猜测？！与以前的工作有关。节中4.1我们强调了我们在收集数据集时的设计决策，而Sec. 4.2分析数据集的许多方面。它是一个被穿戴或持有的物品吗？是滑雪板吗？是是是中间的那头大母牛吗？没有牛在左边吗？没有秒5介绍了questiser和oracle任务及其基线模型最后，第6提供最后的讨论是红色的吗？不，在右边？是的是那个穿蓝衣服的人拿着的吗？是的第一头奶牛靠近我们？是的猜猜什么！游戏.图2：数据集中的两个示例游戏。经过五个问题的序列，我们能够找到对象（由绿色蒙版突出显示）。在我们的工作中，ReferIt游戏[19]旨在生成一个引用图像中一个对象的单个表达式。另一方面，受数据驱动方法在自然语言处理其他领域的成功启发，人们对对话系统重新产生了兴趣[29，35]。传统上，对话系统是通过重型工程和手工制作的专家知识构建的，尽管机器学习尝试了近二十年[23，38]。其中一个困难来自缺乏自动评估，一个有前途的替代方案是目标导向的对话任务[29，38，42，41]，其中代理人交谈，以追求一个目标，而不是随便闲聊。代理完成任务的成功率可以用作自动评估指标。最近引入了许多任务，包括用于测试代理回答关于短篇小说的问题的能力的bAbI任务[42]在本文中，我们把这两个领域结合起来，并提出了一个新的目标导向的任务多模态对话。一个两人游戏，叫做GuessWhat。！，将ReferIt游戏[19]扩展到对话设置。为了取得成功，双方都必须理解对象之间的关系以及它们如何用自然语言表达。从机器学习的角度来看，GuessWhat？！挑战如下：学习通过视觉任务交互获得自然语言。以前在这方面的尝试[2，41]没有将自然语言置于其直接环境中;相反，它们依赖于对话代理搜索的外部数据库。本文的主要贡献是介绍了GuessWhat？！数据集包含160，745个对话，由从MS COCO数据集提取的66，537个图像上的821，889个问题/答案对组成[24]。我们定义2. 猜猜什么游戏猜猜什么是一种合作的两个玩家的游戏，其中两个玩家都看到具有多个对象的丰富视觉场景的图片。一个玩家这个对象是不知道的其他球员要做到这一点，提问者可以问一系列是-否的问题，这些问题由神谕回答，如图1和图2所示。请注意，提问者并不知道对象的列表，他们只能看到整个画面。一旦提问者收集到足够的证据来定位物体，他们就会通知神谕者他们已经准备好猜测物体了。然后，我们重新检查对象列表，如果提问者选择了正确的对象，我们认为游戏成功。否则，游戏将以失败告终。我们还包括一个小的惩罚，每一个问题，以鼓励提问者问信息性的问题。附录A中的图8和图9分别从神谕者和提问者的角度展示了一个完整的博弈。Oracle角色是一种视觉问答形式，其中答案限于是、否和N/A（不适用）。N/A选项包括响应，即使当被问到的问题是模糊的或答案根本无法确定。例如，一个人不能回答“他戴眼镜吗？“如果所选人员的面部不可见，则显示。提问者的角色要难得多。他们需要生成问题，逐步缩小可能对象的列表。理想情况下，他们希望尽量减少定位对象所需的问题数量。这样做的最佳策略涉及二进制搜索：每个问题去掉一半剩余的对象。自然语言通常在图像场景中对对象进行分组时非常有效。这种策略取决于图片，但我们区分以下类型：空间推理我们在图像场景中对对象进行空间分组。可以使用绝对空间信息-它在图片的左下角吗？ - 或相对空间位置-是在蓝色车的左边吗？.视觉属性我们根据物体的大小对它们进行分组-它大吗？形状-是方形的吗？-或者颜色-是蓝色的吗.#1680195505对象分类法我们可以使用对象类别的层次结构，即：分类，对对象进行分组，例如是一辆车吗？指的是汽车和卡车。交互我们根据我们与对象的交互方式对它们进行分组-你能驱动它吗？.GuessWhat的目标是什么？！任务是使机器能够理解自然描述，并将其融入视觉世界。请注意，这种高级推理仅在场景足够丰富时发生，即当场景中有足够的物体时。否则，人们往往会退回到线性搜索策略，通过简单地枚举对象（通常通过它们的类别名称）。3. 相关工作猜猜什么？！游戏和从游戏中收集的数据为扩展当前在图像字幕、视觉问答和对话系统方面的研究提供了机会。在下文中，我们描述了这些领域以前的工作，并将其与GuessWhat提供的开放式挑战联系起来？！.我们还提到了数据集收集方面的其他相关工作。图像说明我们的工作建立在MS COCO数据集[24]的基础上，该数据集由12万张图像组成，其中包含超过80万个对象分割。此外，该数据集为每张图像提供了5个字幕，这引发了研究界对生成图像的自然语言描述的兴趣。已经提出了几种方法[18，40，43]，所有这些方法都受到编码器-解码器方法[10，39]的启发，该方法已被证明适用于机器翻译。图像字幕研究发现了自动生成关于图像的连贯的事实陈述的成功方法。在GuessWhat中对交互进行建模？！而是需要对提出关于图像的有用问题的过程进行建模。VQA数据集视觉问答（VQA）任务形成了字幕任务的另一个众所周知的扩展。相反，他们需要回答一个问题，给出一张图片（例如：“有多少斑马在图片？“，“外面下雨了吗？“）.最近，VQA挑战[6]提供了一个新的数据集，远远大于以前的尝试 [13 ， 27] ，就像GuessWhat？！，问题是自由形式的。一个广泛的工作机构已经遵循这一出版物，主要是建立在图像字幕文献[3，26，37，44]。不幸的是，许多这些先进的方法被证明在简单的基线上略有改善[17]。最近的工作[3]还报告说，经过训练的模型通常会报告与图像无关的问题的相同答案，这表明它们在很大程度上利用了数据集中问题和答案之间的预测相关性。猜猜什么？！游戏和数据集试图规避这些问题。因为提问者为了定位隐藏对象，所生成的问题本质上是不同的：它们自然倾向于对场景的空间理解和其中对象的属性，使得查阅图像更有价值。此外，它只包含二元问题，我们发现其答案是平衡的，平均每张图片有两倍多的问题。目标导向对话GuessWhat？！也与目标导向的对话研究社区有关。这样的系统旨在与用户协作地实现目标，诸如检索信息或解决问题。尽管目标导向的对话系统很有吸引力，但它们仍然很难设计。因此，它们通常局限于特定的领域，如火车票销售，旅游信息或呼叫路由[30，38，45]。此外，现有的对话数据集要么限于少于100k的示例对话[11]，除非它们是用模板格式[11，41，42]或模拟[31，34]生成的，在这种情况下，它们最后，最近的工作端到端的对话系统未能处理动态上下文。例如，[41]将对话与外部数据库相交以推荐餐馆。众所周知的基于游戏的对话系统[1，2]也依赖于静态数据库。与此相反，猜猜看-什么？！对话都是以图像为基础的。由此产生的对话是高度上下文相关的，必须基于当前图片的内容，而不是外部数据库。因此，据我们所知，猜猜看？！数据集的建立标志着对话研究迈出了重要的一步，因为它是第一个大规模的面向目标的多模态数据集。人类计算游戏GuessWhat？！与Von Ahn在人类计算游戏方面的开创性工作[4，5]一致，第一个ESP游戏[4]是为了收集图像标签而开发的，后来扩展到Peekaboom [5]以收集对象分割。这些游戏是在十多年前开发的，当时物体识别还处于起步阶段，其目的与GuessWhat不同。ReferIt可能与我们的工作最接近的是ReferIt游戏[19，28，46]。在这个游戏中，一个玩家观察到一个场景中的一个注释对象，他们需要为这个对象生成一个与之相关的表达式（例如，“穿白T恤的人”）。然后另一个玩家接收到这个表情，并随后点击图像中对象的位置。原始数据集[19]使用IMAGEClef数据集[12]，而最近的三个扩展[28，46]是在MS COCO之上构建的。所有三个数据库都选择图像只有 2-4 个相同类别的对象。相比之下，GuessWhat？！拾取具有3-20个对象的图像，而不对对象类进行进一步的限制，因此包含三个是ReferIt 数据集的两倍。为了进一步研究 ReferIt 和GuessWhat之间的区别？！，我们比较三个样本为同一选定的对象，5506附录B中的图14。而ReferIt直接用一个表达式定位对象，GuessWhat？！通过对问题的正面和负面反馈迭代地缩小对象。我们还观察到GuessWhat？！对话倾向于更抽象的概念，比如“它能吃吗？或者“是在椭圆形的盘子里吗？“” than4. 猜猜什么数据集4.1. 数据收集图像我们使用MS COCO数据集的训练和验证图像和对象的子集 [24] 。我们首先丢弃那些太小（面积500px2），无法被人类观察者准确定位的物体。<然后，我们只保留包含3到20个对象的图像，以避免琐碎或过于复杂的图像。我们总共保存了77，973幅图像，其中包含609，543个对象。我们验证了这种选择不会显著改变原始数据集的分布。Amazon MechanicalTurk 数据收集是在 AmazonMechanical Turk（AMT）上众包的[9]。我们为提问者和预言者角色创建了两个单独的任务--在AMT上称为HIT，并奖励提问者略高于预言者。我们通过多种方式确保数据收集的质量。首先，工作人员必须通过资格赛，其中包括成功完成10场比赛，同时产生少于4个错误或断开。资格赛后，HIT继续由一批10场成功的比赛组成。我们通过为少犯错误的员工提供奖金来激励员工连续完成尽可能多的成功对话。第二，玩家之间可以互相举报，举报达到一定数量后，玩家就会被封禁。因此，玩家被激励合作。最后，我们只保留了合格人员的对话和资格赛中成功的对话。与传统的数据集收集不同，我们的游戏需要两个玩家之间的交互式会话。幸运的是，我们发现，猜测什么？！游戏非常吸引人。总共有超过1万人参加了我们的HIT，我们的前十名参与者每人玩了超过2000场比赛。由于问题是手动输入的，它们可能包含拼写错误。因此，我们检索了所有包含英语词典中没有出现的单词的问题，并手动纠正了1000个最常见的单词。对于剩下的30k个问题，我们创建了两个HIT来纠正拼写错误。更多详情请参见附录A中的图104.2. 数据分析在下文中，我们将探索我们使用GuessWhat？！游戏.我们提供全球统计数据，检查提问者使用的词汇，并强调要猜测的对象的属性与成功对话的几率之间的关系。表1：猜猜看？！按数据集类型拆分的统计信息。数据集统计原始猜测什么？！数据集由160，745个对话组成，包含66，537个独特图像上的821，889个问题/答案对，其中具有1，385，197个对象和134，073个独特的选定对象。答案分别为 52.2% 否、 45.6% 是和2.2%N/A。平均而言，每个对话有5.2个问题，每个图像有2.3个对话。这些对话总共包含3，985，368个单词标记，其中11，464个单词至少出现一次，5，444个单词至少出现3次。此外，84.2%的对话成功，10.3%不成功，5.5%未完成（断开连接，超时等）。因此，不同的子集共存于GuessWhat？！数据集，当我们分别包括所有对话、所有完成的对话（成功和不成功）或仅成功的对话时，我们将数据集称为完整的、完成的和成功的。之前的统计数据在表1中被分解为数据集类型。问题分布为了更好地理解GuessWhat？！游戏中，我们显示了对话中的问题数和图3中图像中给定对象数的平均问题数。首先，对话中的问题数量会明显减少，因为玩家倾向于缩短对话以加快游戏速度（从而最大化收益）。更有趣的是，我们观察到，给定图像中对象数量的平均问题数量似乎遵循一个函数，其增长率介于几何和线性之间。简单列出目标的提问策略（例如：“是椅子吗？”等等。将意味着问题数量的线性增长，而最佳二分搜索策略将意味着对数增长。因此，人类提问者似乎暗示了一种介于两者之间的策略。我们推测三个原因为什么人类没有达到最佳的搜索策略。首先，提问者无法访问图片中对象的地面真值列表，因此可能会高估对象的数量。其次，有些人倾向于使用线性搜索策略。最后，提问者可能会问更多的问题，以确认他找到了正确的对象。这在可能出现oracle错误的情况下可能很重要。词汇为了深入了解使用的词汇，提问者，我们计算单词的频率在猜测什么？！语料库并显示最频繁的单词充分完成成功#对话160,745152,000135,400#问题821,889780,391672,940#单词3,985,3683,788,1673,254,793### 大小11,46411,25910,637### 尺寸（3+）5,4445,3245,013图片数量66,53766,16163,642#分段对象535,723531,847505,599#选择的对象134,073131,415117,5135507�� （一）��(b)（c）第（1）款图3：（a）每个对话的问题数量（b）每个对话的问题数量与图片中对象的数量（c）GuessWhat的单词云？！每个单词的出现频率与其出现的频率成正比。根据手工制作的聚类对单词进行着色。手动删除“it”、“is”等无意义的单词图3c中的词云。几个关键词明显突出。正如在第二节中所解释的。2，其中一些关键词是指抽象的对象属性，如人或对象，空间位置，如右/左或侧和视觉特征，如红/黑/白。此外，介词还被大量用于表达对象之间的关系。为了更好地理解问题的顺序方面，我们研究了词汇在每个问题轮的演变。我们观察到，提问者只在对话开始时使用抽象的物体属性，如人/物体/家具，并迅速切换到空间或视觉术语，如左/右，白/红或桌子，椅子。成功要素为了研究某些对象属性是否有利于成功，我们计算对话的成功率相对于：图4b中的未知对象的尺寸、图4a中的图像内的对象的数量、对象类别、图像内的对象的位置以及分别在附录C中的图20、图21 a和图21 b中的对话的尺寸。正如人们所预料的那样，场景越复杂，成功率就越低。当只有3个对象时，提问者的回答率为95%，而当有20个对象时，回答率下降到70%左右。同样，大的物体几乎总是被发现，而最小的物体只有60%的时间被发现。提问者很容易找到图片中间的物体，但在边界上找到它们就更困难了。最后，来自经常被分组在一起的类别的对象，例如。香蕉或书籍，成功率较低。在图4c中，我们分解了是的比率- 对话中没有答案。虽然最初的是-否回答在小对话中是平衡的，但它们通常以最后的是结束。相比之下，长对话通常以较高比例的否定回答开始，并在交流过程中逐渐减少。4.3. 数据集发布我们平分猜什么？！通过随机分配70%、15%和15%的图像及其相应的对话到训练、验证和测试集。这种划分数据的方式确保了我们在训练过程中看不到的图像上评估性能。猜猜什么？！数据集可在https://guesswhat.ai/download获得。5. 基线我们现在实证研究的困难或- acle和提问者的任务。为此，我们为每个任务训练了合理的基线，并测量了它们的性能。正式地，猜猜什么？！游戏围绕着一个图像I∈RM×N，其中包含一组K个分割对象{01，. . .，0K}。每个对象Ok被分配一个对象类别，goryc k∈ {1，. . . ，C}，并且具有逐像素分割掩码S k∈{0，1}M× N以指定其位置和大小。游戏还包括一系列问题，答案D ={q1，a1，. . . ，q J，a J}，由提问者和神谕产生。 We将分别使用q< j和a< j来指代前j-1个问题和答案。每个问题qj包含Nj到k ens的序列，即qj={wj1，. . . ，wjNj}，其中wji是从向量V并且表示在问题j中的位置i处的令牌。每个答案为是、否或N/A，即 aj∈{是，否，N/A}。最后，神谕获得正确对象的身份Ocorrect，提问者的预测将是表示为O预测。5.1. Oracle基线Oracle任务要求在给定自然语言问题的情况下，对图片中的任何对象产生是-否的答案。我们首先介绍我们的模型，然后概述其结果，以更好地理解GuessWhat？！数据集。模型我们提出了一个简单的神经网络为基础的approach这个模型，如图5所示。具体来说，我们使用适当的神经网络架构来嵌入以下信息：图像I、从S裁剪的对象、其空间信息、其类别c和当前问题q。这样的组合，�� 5508�� 1.00.90.80.70.6�� 0.50.4�� 0.30.2��（一）��（b）第（1）款��0.12 4 6 8 10 12 14一些问题（c）第（1）款图4：（a-b）分别相对于对象数量和对象大小的绝对/相对成功对话的直方图。(c)按对话长度是/否/不适用VGG16VGG16背景作物空间对象信息类别LSTMLSTMLSTM LSTM LSTM是花瓶吗？MLP图5：“图像+问题”的示意图+ 作物+空间+类别被指定为单个向量，并作为输入馈送到单个隐藏层MLP，该隐藏层MLP使用 softmax层。最后，我们在训练过程中最小化交叉熵误差，并在评估时报告分类误差。我们如何计算嵌入的细节如下。要嵌入完整图像，将其重新缩放为224×224图像，并通过预训练的VGG网络获得其FC8特征。对于选定的对象，首先根据其分割掩码找到封装它的最小矩形来裁剪它。然后，我们将作物重新缩放为224×224的正方形，然后从预训练的VGG网络中获得其FC8特征。虽然我们可以使用遮罩来删除选定对象周围的像素，但我们保留裁剪为因为预训练的VGG网络在其训练期间暴露于这样的背景噪声。我们还嵌入了裁剪的空间信息，以帮助在整个图像中定位裁剪的对象。为此，我们遵循[16，46]的方法并提取边界框位置的8维向量： x空间=�� 比率是不是9号对话�� 比率是否5509[xmin，ymin，xmax，ymax，xcenter，ycenter，wbox，hbox]，其中w box和h box分别表示边界框的宽度和高度。我们对图像的高度和宽度进行归一化，使坐标范围从-1到1，将原点放在图像的中心。至于对象类别，我们使用学习的查找表将其独热类向量转换为密集类别嵌入最后，使用长短期记忆（LSTM）网络[15]计算当前自然语言问题q的嵌入，其中问题首先通过使用 python nltk 工具包 [7] 中的单词 puncttokenizer进行标记。为了简单起见，我们决定忽略oracle基线中的问答对历史q

下载后可阅读完整内容，剩余1页未读，立即下载