具有语言和手势的具体化引用理解数据集YouRefIt及其影响分析

117 浏览量更新于2023-10-15 收藏 32.95MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Yixin Chen1, Qing Li1, Deqian Kong1, Yik Lun Kei1,2,3,412,3113850YouRefIt：具有语言和手势的具体化引用理解01 加州大学洛杉矶分校 2 北京智能通用人工智能研究院 3 北京大学 4 清华大学0https://yixchen.github.io/YouRefIt0摘要0我们研究机器对具有体现性引用的理解：一个代理人在共享的物理环境中使用语言和手势来引用一个对象给另一个代理人。值得注意的是，这个新的视觉任务要求理解多模态线索并进行视角承担，以确定正在引用的对象。为了解决这个问题，我们引入了YouRefIt，这是一个在各种物理场景中收集的具有体现性引用的新的众包数据集；该数据集包含432个室内场景中4195个独特的引用片段。据我们所知，这是第一个允许我们研究日常物理场景中的引用表达以理解引用行为、人类交流和人机交互的具有体现性引用数据集。我们进一步设计了基于图像和基于视频的具有体现性引用理解的两个基准。全面的基线和广泛的实验提供了机器感知在引用表达和手势对具有体现性引用理解的影响方面的第一个结果。我们的结果提供了关于手势线索在理解具有体现性引用方面与语言线索同样重要的重要证据。01. 引言0人类交流[51]在很大程度上依赖于在共享环境中引用对象来建立共同基础[50,48]。这个过程通常以两种形式进行：语言（抽象的符号代码）和手势（非常规化和非编码）。在计算机视觉领域，理解引用的努力主要集中在第一种形式上，通过一项人工任务，即引用表达理解（REF）[64, 17, 63, 32, 60, 56,57]，该任务通过注释者生成的自然语言表达来定位图像中的特定对象。显然，第二种形式，即手势，几乎没有被触及。然而，与纯粹的语言形式相比，这种非语言（手势）形式在交流文献中更为深刻，具有丰富的进化证据[1, 36,14]；它深深植根于人类认知发展[29,30]和学习过程[7]，并与语言发展[23, 6, 18]紧密联系。0摘要0图1：想象一下你走进一家面包店买你最喜欢的东西。为了准确表达你的意图，你指着它并说出一句话“面包前面的白色奶酪”。这种多模态的交流行为是在假设员工能够正确理解的情况下产生的，而员工的具体化在共享的物理环境中是不同的。这种日常的指示性互动场景说明了在具体化引用中视觉角度承担的重要性。0从根本上说，大多数现代文学偏离了日常场景中的自然参照理解的自然环境，这是体现在：一个代理人在一个共享的物理空间中将一个对象引用给另一个代理人[39, 54,11]，如图1所示。具有两个与REF相比有别的特点：第一，它是多模态的。人们在引用一个对象时通常同时使用自然语言和手势。手势组成部分和语言组成部分在语义上是一致的，时间上是同步的，以相互协调，创造出简洁生动的信息[22]，同时阐明了如果只有一种模态呈现时的过载含义[20]。第二，识别具有体现性的引用需要视觉角度承担[25, 2,39]，即意识到他人从不同视角看事物的能力，并能够想象出他人从他们的视角看到的东西。它要求信息发送者和接收者都要理解即时环境[11]，包括对话者之间的关系和物体之间的关系，在共享的感知领域中进行有效的沟通。为了解决以前的工作和研究中的不足，研究引用行为，我们引入了YouRefIt，这是一个在各种物理场景中收集的具有体现性引用的新的众包数据集；该数据集包含432个室内场景中4195个独特的引用片段。据我们所知，这是第一个允许我们研究日常物理场景中的引用表达以理解引用行为、人类交流和人机交互的具有体现性引用数据集。我们进一步设计了基于图像和基于视频的具有体现性引用理解的两个基准。全面的基线和广泛的实验提供了机器感知在引用表达和手势对具有体现性引用理解的影响方面的第一个结果。我们的结果提供了关于手势线索在理解具有体现性引用方面与语言线索同样重要的重要证据。13860为了全面理解具体化参考，我们引入了一个新的数据集YouRefIt ，用于具体化参考理解。 YouRefIt中的参考实例是通过Amazon MechanicTurk（AMT）从多样化的物理场景中众包获得的。参与者被指示拍摄视频，在视频中使用语言和手势向一个想象中的人（即一个安装的摄像头）参考场景中的物体。为了确保视频的自然性和多样性，对场景、物体和单词都有最低要求。视频被分割成短片段，每个片段包含一个确切的参考实例。对于每个片段，我们使用边界框注释参考目标（物体）。我们还在片段中识别了规范帧：它们是片段的“关键帧”，包含足够的场景信息、人体手势和参考对象，可以真实地表示参考实例。进一步注释了转录句子的细粒度语义解析，以支持对句子的详细理解。总共，YouRefIt数据集包括来自432个室内场景的4195个具体化参考实例。为了衡量机器在具体化参考理解（ERU）方面的能力，我们在提出的 YouRefIt数据集的基础上设计了两个基准测试。（i）图像ERU以规范帧和参考实例的转录句子作为输入，并预测参考对象的边界框。图像ERU采用了REF的设置，但由于要求在人类交流的背景下对人体手势、自然语言和物体进行联合和连贯的理解，因此更具挑战性和全面性。（ii）视频ERU以视频片段和句子作为输入，识别规范帧，并在片段中定位参考目标。与图像ERU相比，视频ERU更进一步，展示了最自然的人机交流过程，需要在时间顺序中区分参考行为的开始、规范帧和结束，并估计参考目标。结合语言和手势线索，我们制定了一个新的多模态框架来解决ERU任务。在实验中，我们提供了多个基线和消融实验。我们的结果表明，具有明确手势线索的模型具有更好的性能，验证了我们的假设：在合作（透视）思考中，手势线索与语言线索一样重要，可以解决歧义和过载语义问题[20，19，39，65，68]，这与最近在具体化导航任务中的发现相呼应[54]。我们进一步验证了规范帧检测中时间线索的重要性，需要在动态和自然序列中理解具体化参考。本文的三个主要贡献是：（i）我们收集了第一个在物理场景中的视频数据集 YouRefIt，以研究具体化参考理解的具体化方式。我们认为这比之前的工作更自然，因此进一步理解人类交流和多模态行为。（ii）我们设计了两个基准测试0我们将标记、图像ERU和视频ERU作为研究和评估具体化参考理解的协议。（iii）我们提出了一个多模态框架用于具体化参考理解任务，其中包括多个基线和模型变体。实验结果证实了语言和手势的联合理解在具体化参考中的重要性。02. 相关工作0我们的工作与现代文学中的两个主题相关：（i）在视觉和语言环境中研究的指代表达理解（REF），以及（ii）在人机交互领域中的参考识别。下面，我们将我们的工作与这两个主题上的先前研究进行比较。02.1. 指代表达理解（REF）0REF是一项视觉定位任务。给定一个自然语言表达式，它需要一个算法来定位场景中的特定对象。已经构建了几个数据集，包括物理场景的图像[21, 64, 35, 38, 8, 4,5]和合成图像[31]，通过要求注释者或算法提供描述图像区域的话语来构建。为了解决REF问题，研究人员尝试了各种方法[60, 32, 56,57]。代表性的方法包括：(i)通过注意机制重建句子来定位区域[42]，(ii)结合上下文信息来定位指称表达式[66,64]，(iii)使用神经模块化网络更好地捕捉句子中的结构化语义[17, 63]，以及(iv)设计一种一阶段方法[59,58]。相比之下，我们的工作在两个层面上与REF有根本性的不同。任务层面上，REF主要关注视觉线索和语言线索（自然语言）之间的对应关系。相比之下，所提出的ERU任务以一种具体化的方式模拟了最小的人类交流过程，这需要发送者对发送的语言和非语言信息进行相互理解。在具体化环境中识别引用还引入了新的挑战，例如视觉透视[12]：引用者需要考虑到对方的视角来进行有效的语言和非语言交流，这要求更全面地理解视觉场景的几何和语义信息。在本文中，为了研究与上述特点相呼应的引用理解，我们收集了一个包含自然引用场景和手势的新数据集。模型层面上，由于以前的REF方法只能理解自然语言形式的交流信息，并且大多忽视了手势线索，在ERU环境中或应用于我们新收集的数据集中是不足够的。为了解决这个问题，我们设计了一个有原则的框架来结合语言（自然语言）和非语言（手势）线索。所提出的框架优于以往的单模态方法，验证了在具体化引用理解中手势线索在语言线索之外的重要作用。Although related, the above literature is constrained inlab settings with limited sizes, scenarios, and expressions,thus insufficient for solving the reference understanding innatural, physical scenarios with both vision and language.In comparison, crowd-sourced by AMT, our dataset is muchmore diverse in environment setting, scene appearance, andtypes of utterance. Our dataset also collects videos insteadof static images commonly used in prior datasets, openingnew venues to study dynamic and evolutionary patterns thatoccurred during natural human communications.3. The YouRefIt Dataset13870表1：提出的YouRefIt与其他引用数据集的比较。Lang.和Gest.表示在引用对象时是否使用语言或手势，Embo.表示引用者是否具体化在引用发生的场景中。0数据集语言手势 Embo. 类型来源图像数量实例数量物体类别数量平均句子长度0PointAt [44] � � � 图像实验室 220 220 28 - ReferAt [43] � � � 视频实验室 - 242 28 - IPO [46] � � � 图像实验室 278 278 10 - IMHF [47] �� 图像实验室 1716 1,716 - - RefIt [21] � � � 图像图像 CLEF 19,894 130,525 238 3.61 RefCOCO [64] � � � 图像 MSCOCO 19,994142,209 80 3.61 RefCOCO+ [64] � � � 图像 MSCOCO 19,992 141,564 80 3.53 RefCOCOg [35] � � � 图像 MSCOCO 26,711 104,56080 8.43 Flickr30k entities [38] � � � 图像 Flickr30K 31,783 158,915 44,518 - GuessWhat? [8] � � � 图像 MSCOCO 66,537 155,280 - -Cops-Ref [4] � � � 图像 COCO/Flickr 75,299 148,712 508 14.40 CLEVR-Ref+ [31] � � � 图像 CLEVR 99,992 998,743 3 22.400YouRefIt � � � 视频众包 497,348 4,195 395 3.7302.2. 人机交互中的引用0在人机交互中，语言和非语言沟通的组合是一个核心主题之一。与REF相比，这一领域的研究侧重于更自然的环境，但具有专门的场景。其中一部分研究强调指向方向，因此不是以对象为中心，而是缺少语言参考：Innsbruck指向物体数据集[46]研究了两种类型的指向手势，即使用食指和工具的指向手势，Innsbruck多视角手势数据集[47]记录了在人机交互接近距离的情境中的手势。最相关的先前研究是ReferAt[43]和PointAt[44]，参与者被要求指向各种物体，有时伴有语言表达，有时没有。其他一些值得注意的文献包括：(i)一个允许用户结合自然语言和指向手势来指称显示器上的物体的机器人系统[24]，(ii)通过计算机模拟研究共指指向的语义和语用学[33]，(iii)使用指向和空间指示时机器人引用区域的指示性交互[15]，以及(iv)在博物馆中引导人类注意力时，包括谈话-手势协调和手势形状在内的各种指称策略的效果[37]。0为了研究具身参考理解，我们引入了一个名为YouRefIt的新数据集，它是一个室内场景中人们用自然语言和手势指称对象的视频集合。表1详细比较了YouRefIt与现有的12个参考理解数据集。与在实验室或互联网（MSCOCO/Flickr）或模拟器（CLEVR）中收集的现有数据集相比，YouRefIt有明显的区别：它包含了通过AMT众包收集的视频，因此参考发生在更自然、更丰富多样的环境中。与参考表达理解数据集相比，我们数据集中的参考者（人类）和接收者（摄像机）共享相同的物理环境，可以使用语言和手势来指称对象；算法应该从具身的角度理解并解决这个问题。接下来，我们将讨论数据收集和注释过程的详细信息，然后进行全面分析。0我们的数据集通过AMT进行收集；请参见图2中的数据收集过程。要求工作者录制一个视频，其中包含对场景中的对象进行参考的动作，目标是一个想象中的人（即摄像机），使用自然语言（句子）和指向手势。大多数视频是在室内场景中收集的，例如办公室、厨房和客厅。与现有数据集不同，其中对象通常放在带有干净背景的桌子上，我们收集的所有视频中的对象都放置在它们的自然位置上。每个视频中还包括十多个场景中的对象，以避免琐碎的情况并增加参考的难度。摄像机的设置使得参考者和所有被指称的对象都在视野范围内。138803. The YouRefIt Dataset0数据注释03.1. 数据收集03.2. 数据注释0数据收集0图2：数据集收集过程的示意图。参与者被要求按照指示向一个想象中的人（即摄像机）拍摄一系列参考任务。0当参考特定对象时，参与者被要求自由使用任意的自然语言和手势。然而，他们也被要求避免潜在的歧义，以便观察者仅通过观察参考行为就能唯一地识别所指的对象。在参考动作完成后，参与者被要求点击所指的对象；这一额外步骤有助于注释所指的目标。除了视频中记录的声音外，参与者还被要求在录制后写下句子。03.2. 数据注释0注释过程分为两个阶段：(i)对时间段、规范帧和参考边界框进行注释，(ii)对句子解析进行注释。有关数据后处理和注释过程的详细信息，请参阅补充材料。时间段由于每个收集到的视频都包含多个参考动作，我们首先将视频分割成片段；每个片段包含一个确切的参考动作。片段从手势运动或话语开始到参考结束定义，通常包括手和臂的抬起动作、指向动作和重置过程，与其相应的语言描述同步。规范帧在每个片段中，注释者被要求进一步注释规范时刻，其中包含参考者保持稳定姿势以清楚指示所指的“关键帧”。结合自然语言，使用任何0规范帧以定位被引用的目标。边界框回忆参与者在每个参考动作之后被指示点击被引用的对象。使用这些信息，使用Vatic[53]注释了被引用对象的边界框，并且丢弃了点击动作。如果可识别，还注释了对象的颜色和材料。对象颜色和材料的分类采用了VisualGenome数据集[26]的分类。句子解析根据执行参考动作的参与者提供的句子，要求AMT注释员进一步完善句子，并确保其与从视频中收集的原始音频相匹配。我们还提供了句子的更细粒度的解析结果，用于自然语言理解。AMT注释员注释了目标、目标属性、空间关系和比较关系。以“桌子上最大的红色瓶子”为例：“瓶子”将被注释为目标，“红色”为目标属性，“在桌子上”为空间关系，“最大的”为比较关系。对于每个关系，我们进一步将它们分为“关系”（例如“在”）和“关系目标”（例如“桌子”）。03.3. 数据集统计0总共，YouRefIt包括432个录制视频和4195个定位的参考剪辑，涵盖395个对象类别。我们在后期处理中检索了8.83小时的视频，并注释了497,348个帧。所有参考动作的总持续时间为3.35小时，每个参考动作的平均持续时间为2.81秒。每个参考过程都有片段、规范帧、被引用对象的边界框以及带有语义解析的句子进行注释。所有视频都带有同步的音频。我们还包括了由OpenPose[3]提取的参与者的身体姿势和手关键点。对象类别图3a显示了前20个被引用对象类别的频率，大致遵循Zipf定律[69]。由于大多数视频是在室内场景中拍摄的，最常被引用的是日常物品，如“椅子”、“瓶子”和“杯子”。参考句子图3c显示了去除停用词后的词云。有趣的是，最常见的词是“桌子”，甚至不在前5个被引用对象中。进一步的检查暗示，“桌子”是在自然语言中引用对象时最常用的关系对象。图3b显示了句子长度的分布，平均为3.73。我们观察到，YouRefIt中的句子比仅使用语言的参考数据集（例如RefCOCOg的8.43和Cops-Ref的14.4）要短得多。这种差异表明，在自然引用对象时，人们更喜欢将手势与较少的单词结合起来的多模式通信模式，以减少认知负荷[49]。chairbottlelaptopcupboxpillowbookbagmousebackpacklamptablecandletvcellphoneblanketater bottlepenmugglass025507510012515017512345678910111202004006008001000aishwoobinrayirusbhpdvrricesetsundollsheetlavasignpileeardryclednailpocogeldarktimerdualcartjamcdbelldeereggpullarmgotsoftdipaidk20datarockbaseglobesnowbandlookodorboatkidhomeskirtfruitsaferigputerceblacandlentticbehindoacouchplateorangeallwallpcontrollerbilekni etheresonitoroardnotebookframewindowb oksclosetcontrolstglassesscissorscahangingjacketclocktchkettlefridgecontainecornercolortapeheadphonesemptytelevisionpurseovenmicrowavecalculatorcuttingumbyguitarclotheslightkerbrushcalendarcaseswitchftletcolourdressermiddleflowerdeodorantmaskshoecupboardopenarkeystissuephotomakershirtfaucetcomblighterroopowerbankmilkipadheaterracktallsocksvasefoodpackthatsladieshtceilingbottomflagbeltfishgoldstonedustgunscaletotecupscurtainrayglovesclosecoverspongedrawertowelsdispenser rubikshandletoastervbuncbackpacksspatulatoothbrushblenderanimaltenniscarpetplatessittingsugarrouterclothnotepotatooutletchainstickcontactenvelopedentalshavingscannerlittleburnerpouchpostitpillsgluebiblecardsrobotvideochessapitemsnavypersonalmichaelcookiealbumhooptshittoolsfiltertweezersroofightalsomittfoilneonfeedropedisctool13890（a）前20个被引用对象的频率。0（b）句子长度的分布。0子0色0子0盒0前面0桌子0头0绿0红色0手机0地板0顶部0棕色0黄0下一个0啡0纸0鼠标0架子0杯子0背包0远程0灯0毛巾0(c) 语言词云图。0图3：YouRefIt数据集的统计信息。04. 具体参考理解（ERU）0在本节中，我们在YouRefIt数据集上对具体参考理解的两个任务进行基准测试，即Image ERU和VideoERU。第一个基准测试评估了基于规范帧的具体参考理解的性能，而第二个基准测试强调如何在视频序列中同时有效地识别规范时刻和参考目标。下面，我们描述了实验中的详细设置、基准线、分析和削减研究。数据集划分我们随机将数据集划分为训练集和测试集，比例为7:3，训练集包含2950个实例，测试集包含1245个实例。04.1. 图像ERU0给定规范帧和来自具体参考实例的句子，ImageERU旨在通过人类语言和手势线索在图像中定位所指对象。实验设置和评估协议对于每个参考实例，我们随机选择一个注释规范帧。我们采用与Mao等人[35]类似的评估协议：(i)预测给定图像和句子所指的区域，(ii)计算真实边界框与预测边界框之间的交并比(IoU)比率，(iii)如果IoU较大，则判断为正确；否则判断为错误。我们使用准确率作为评估指标。根据物体检测基准[13]，我们报告三个不同IoU下的结果：0.25、0.5和0.75。我们还评估不同物体大小的子集，即小、中和大。物体大小是通过真实物体边界框的面积与图像面积之间的比率来估计的。根据数据集中的大小分布，大小阈值为0.48%和1.76%；请参见补充材料中的大小分布。方法我们设计了一种新颖的多模态ImageERU框架，利用了语言和手势线索；请参见图4。在高层次上，我们的框架包括视觉和语言编码器，类似于之前的REF模型[59,58,34]，以及明确提取的手势特征。我们利用三种模态的特征来有效预测目标边界框。0具体而言，我们使用在COCO目标检测[28]上预训练的Darknet-53[40]作为视觉编码器。文本编码器是BERT[9]的非大小写基础版本，后面跟着两个全连接层。我们结合了两种类型的手势特征：(i)部分亲和力场(PAF)[3]热图，和(ii)指向显著性热图。受视觉显著性预测的启发，我们在YouRefIt数据集上训练了MSI-Net[27]，通过考虑潜在场景结构和手势线索，生成比常用的兴趣区域(RoIs)更准确的引导，从而预测显著区域；请参见图5中预测显著区域的一些示例。我们通过最大池化和连接来聚合视觉特征和PAF热图，通过子查询模块[58]将它们与文本特征一起更新为不同单词的文本条件视觉特征，以有效预测目标边界框。在卷积块之后，将显著性热图特征与文本条件视觉特征连接起来，作为高级引导来预测锚定框和置信度分数；对于基于锚定框的边界框预测，我们使用与Yang等人[59]相同的分类和回归损失。基准线和削减研究我们首先在FAOA[59]和ReSC[58]上评估ImageERU的性能，这两个模型最初设计用于REF任务。我们还设计了基准线来测试两阶段架构中的手势线索，类似于MAttNet[63]。我们使用在MSCOCO数据集上预训练的FasterR-CNN[41]中的区域提议网络生成RoIs。为了评分对象提议，我们测试反映手势线索的两类热图。(i)通过主要指向方向(由手臂、手和食指表示)的指向热图。按照Fan等人[10]的方法，我们通过高斯分布生成指向热图，以模拟指向射线相对于主要指向方向的变化。我们选择15˝和30˝作为标准差（即RPN pointing15和RPNpointing30）。(ii)通过指向显著性图（即RPNsaliency）。分数根据平均密度热图计算。我们从数据和架构两个方面进行削减研究。对于数据方面的削减研究，我们首先评估在未具体化的REF数据集RefCOCO、RefCOCO+和RefCOCOg上预训练的MattNet、FAOA和ReSC模型的性能，这三个预训练模型忽略了人类的手势线索。接下来，对于一个4.2. Video ERU13900桌子上的一只灰色老鼠0时序优化规范置信度0视频ERU0(tx,ty,tw,th,conf)0图像ERU0(tx,ty,tw,th,conf)0视觉编码器0文本编码器0最大池化0手势特征0Conv0显著性0PAF0多模态融合0图4：提出的用于ERU任务的多模态框架，结合了人类手势线索和语言线索。0公平比较没有手势线索的情况下，我们进一步生成了一个经过修复的YouRefIt版本，其中人类被预训练的Mask R-CNN[16, 55]分割和遮罩，并且遮罩图像由在Places2[67]数据集上预训练的DeepFill [62,61]修复；请参见图5中的示例。在遮罩掉人类手势线索后，我们在修复的数据集上训练FAOA和ReSC，表示为FAOAinpaint和ReSCinpaint。对于架构方面的消融实验，我们比较了我们提出的完整模型的两个变体，以评估不同组件的贡献：(i) Ours nolang：没有语言嵌入模块，和(ii) Ours PAFonly：只使用PAF热图作为手势线索；更多细节请参见补充材料。0结果和讨论表2总结了图像ERU的定量结果，图5展示了一些定性结果。我们根据信息来源将模型分为语言线索、手势线索和语言+手势三类。以下是一些主要发现的总结。01.手势线索对于具身化参考理解至关重要。如表2所示，FAOA和ReSC模型在原始YouRefIt数据集上训练相比修复版本表现出显著的性能提升。值得注意的是，在具身化参考中，引用者会调整自己的位置以确保所指目标不被身体遮挡，这是透视角度带来的主要优势之一。因此，修复后的图像始终只包含被遮挡的手势线索。02.语言线索能够阐明仅凭手势线索无法解决的歧义。如Gesture-only模型所示，当仅提供手势线索时，RPN热图模型存在歧义；指向手势抑制了目标位置的描述并关注空间区域，但并不是以对象为中心。没有参考表达式，Ours nolang的性能也较Ours Full有所下降。03. 显式的手势特征有助于理解具身化参考。Ours PAFonly，它包含编码身体部位之间非结构化的成对关系的PAF特征，优于原始模型。0FAOA和ReSC模型。通过进一步添加显著性热图，我们的完整模型OursFull在所有基线和消融实验中都实现了最佳性能。综上所述，这些结果强烈表明，语言和手势线索的融合可能是实现高模型性能的关键因素。人类表现我们还进行了一项关于具身化参考理解任务的人类研究。我们要求三名亚马逊土耳其工人在从测试集中随机抽取的1,000张图像中注释所指对象的边界框。我们在表2中报告了不同IoU下的平均准确率。人类的准确率明显高于所有当前的机器学习模型，表明人类在理解结合语言和手势线索的具身化参考方面具有出色的能力。当IoU阈值增加时，性能下降，特别是对于小型和中型对象，这表明解决小型对象中的歧义问题存在困难。0与上述讨论的Image ERU相比，VideoERU在人机交互中是一种更自然和实用的设置。给定一个参考表达和一个捕捉参考动作整个动态的视频剪辑，VideoERU旨在同时识别规范帧并估计参考目标。实验设置和评估协议对于每个参考实例，我们从原始视频剪辑中以5FPS采样图像帧。规范帧检测报告平均精度、召回率和F1分数。对于参考边界框预测，我们报告所有规范帧中的平均准确率。基准线为了进一步利用视频中的时间约束，我们集成了一个时间优化模块，用于聚合和优化从ImageERU中提取的多模态特征。我们测试了两种设计的时间优化模块：(i) ConvLSTM：一个两层的卷积长短期记忆[45]，(ii)Transformer：一个三层的Transformer编码器[52]，每层有四个注意头。在时间优化模块之后13910(a) 我们的 Full (b) 我们的 no lang (c) ReSC修复 (d) 显著性图0图5：ImageERU中具有不同信息来源和指向显著性图的代表模型的定性结果。绿色/红色框表示预测/地面真实参考目标。参考期间使用的句子显示在左上角。0表2：在YouRefIt数据集上的Image ERU性能比较。0模型 IoU=0.25 IoU=0.5 IoU=0.750所有小中大所有小中大所有小中大0仅语言 MAttNet预训练 14.2 2.3 4.1 34.7 12.2 2.4 3.8 29.2 9.1 1.0 2.2 23.1 FAOA预训练 15.9 2.1 9.5 34.4 11.7 1.0 5.4 27.3 5.1 0.0 0.0 14.1 FAOA修复 23.4 14.2 23.6 32.116.4 9.0 17.9 22.5 4.1 1.4 4.7 6.2 ReSC预训练 20.8 3.5 17.5 40.0 16.3 0.5 14.8 36.7 7.6 0.0 4.3 17.5 ReSC修复 34.3 20.3 38.9 44.0 25.7 8.1 32.4 36.5 9.1 1.1 10.1 16.00仅手势 RPN+Pointing 15 15.3 10.5 16.9 18.3 10.2 7.2 12.4 11.0 6.5 3.8 9.1 6.6 RPN+Pointing 30 14.7 10.8 17.0 16.4 9.8 7.4 12.4 9.8 6.5 3.8 8.9 6.8 RPN+Saliency[27]27.9 29.4 34.7 20.3 20.1 21.1 26.8 13.2 12.2 10.3 17.9 8.6 我们的 no lang 41.4 29.9 48.3 46.3 30.6 17.4 37.0 37.4 10.8 1.7 13.9 16.60语言+手势 FAOA[59] 44.5 30.6 48.6 54.1 30.4 15.8 36.2 39.3 8.5 1.4 9.6 14.4 ReSC[58] 49.2 32.3 54.7 60.1 34.9 14.1 42.5 47.7 10.5 0.2 10.6 20.1 我们的 PAF only 52.635.9 60.5 61.4 37.6 14.6 49.1 49.1 12.7 1.0 16.5 20.5 我们的 Full 54.7 38.5 64.1 61.6 40.5 16.3 54.4 51.1 14.0 1.2 17.2 23.30人类 94.2 ± 0.2 93.7 ± 0.0 92.3 ± 1.3 96.3 ± 1.7 85.8 ± 1.4 81.0 ± 2.2 86.7 ± 1.9 89.4 ± 1.7 53.3 ± 4.9 33.9 ± 7.1 55.9 ± 6.4 68.1 ± 3.00ule，我们同时使用每个帧的特征来预测规范帧和锚定边界框。我们进一步设计了第三个基于帧的基准线，通过在ImageERU模型的顶部添加两个全连接回归层来从单个帧中学习。该基于帧的模型在训练和测试期间使用视频剪辑中的所有采样帧。在训练期间，我们在ImageERU框架的边界框预测损失函数之上添加了一个用于规范帧检测的二元交叉熵损失。更多细节请参考补充材料。结果和讨论表3显示了在给定视频的情况下，使用地面真实规范帧预测参考目标的定量结果。我们观察到基于帧的方法和时间优化方法达到了相似的性能，与仅在选定的规范帧上训练的模型（即OursFull）相当。这个结果表明，规范帧确实可以提供足够的语言和手势线索，用于清晰的参考目的，而时间模型可能会分散注意力从非规范帧上。这一观察与以前的REF任务的设置相一致。同时，如表4和图7所示，时间信息可以显著提高规范帧检测的性能；ConvLSTM和Transformer模型都大大优于基于帧的方法。这些结果表明，在理解具身参考时，区分参考行为的各个阶段（例如，开始、规范时刻和结束）对于更好的效果至关重要。图6显示了一些定性结果。0类似的性能，与仅在选定的规范帧上训练的模型（即OursFull）相当。这个结果表明，规范帧确实可以提供足够的语言和手势线索，用于清晰的参考目的，而时间模型可能会分散注意力从非规范帧上。这一观察与以前的REF任务的设置相一致。同时，如表4和图7所示，时间信息可以显著提高规范帧检测的性能；ConvLSTM和Transformer模型都大大优于基于帧的方法。这些结果表明，在理解具身参考时，区分参考行为的各个阶段（例如，开始、规范时刻和结束）对于更好的效果至关重要。图6显示了一些定性结果。0.00.10.20.30.70.80.91.00.00.10.20.30.40.50.60.70.80.91.013920表3：YouRefIt数据集上的视频ERU性能比较。0模型 IoU=0.25 IoU=0.5 IoU=0.75 所有小尺寸中等尺寸大尺寸所有小尺寸中等尺寸大尺寸0基于帧 55.2 42.3 58.9 64.8 41.7 22.7 53.4 48.8 16.9 1.6 21.8 27.0 Transformer 52.3 40.2 55.6 58.3 38.8 21.254.1 47.1 13.9 1.5 20.8 22.7 ConvLSTM 54.8 43.1 57.5 60.0 39.3 22.5 54.8 46.7 17.3 1.8 24.3 25.50我们的全面 54.7 38.5 64.1 61.6 40.5 16.3 54.4 51.1 14.0 1.2 17.2 23.30图6：ConvLSTM模型在视频ERU中的定性结果。每行代表一个参考剪辑中的四个选定帧。绿色/红色框表示预测/真实的参考目标。0表示非规范帧，1表示规范帧。0表4：规范帧检测性能。0方法平均精确率平均召回率平均F10基于帧 31.9 37.7 34.5 Transformer 35.1 44.239.1 ConvLSTM 57.0 37.9 45.40假阳性率0真阳性率0ROC曲线分析0基于帧，AUC=0.614Transformer，AUC=0.672ConvLSTM，AUC=0.7450图7：规范帧检测的ROC曲线。05. 结论和未来工作0我们提出了具有体现参考理解的新问题。这种同时具有语言和手势线索的设置对于理解人类在日常活动中的交流更加自然。为了解决这个问题，我们通过众包方式构建了YouRefIt数据集，并在图像和视频上设计了两个基准测试。我们进一步提出了一个多模态框架，并进行了大量的实验和消融研究。实验结果提供了强有力的经验证据，表明语言和手势协调对于理解人类交流至关重要。我们的工作开启了对体现参考理解的研究，并可以扩展到许多方面。例如，即使对于人类来说，解决单轮交流中的参考歧义的困难也需要研究使用多轮对话的体现参考。通过考虑场景背景，人机交互可以通过参考行为生成获益。我们希望我们的工作能够激发更多关于这些有前景的方向的未来工作，重点是从多模态（口头/非口头）输入中理解人类交流。[4] Zhenfang Chen, Peng Wang, Lin Ma, Kwan-Yee KWong, and Qi Wu. Cops-ref: A new dataset and taskon compositional referring expression comprehension.In Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition (CVPR), 2020. 2, 313930参考文献0[1] Michael A Arbib, Kat

下载后可阅读完整内容，剩余1页未读，立即下载