真实室内环境下机器人任务的数据集及挑战

123 浏览量更新于2023-10-23 收藏 1.39MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9982REVERIE：真实室内环境齐元凯1、2吴琦1王彼得·安德森3 <$王欣4王威廉4沈春华1安东·范登亨格尔11澳大利亚阿德莱德大学机器人视觉中心2哈尔滨工业大学威海分校3佐治亚理工学院4加州大学圣巴巴拉分校qykshr@gmail.com{qi.wu01，chunhua.shen，anton.vandenhengel}@ adelaide.edu.au彼得.安德森@ gatech.edu{xwang，william}@ cs.ucsb.edu摘要机器人技术的长期挑战之一是使机器人能够通过自然语言与视觉世界中的人类进行交互要克服这一挑战，需要有能力执行各种各样的复杂任务，以响应来自人类的各种各样的指令。为了推动人类与机器人之间更灵活、更强大的交互，我们提出了一个用自然语言描述的各种复杂机器人任务的数据集，这些任务是在大量真实图像中可见的对象。在给定指令的情况下，成功需要导航通过先前看不见的环境来识别对象。这代表了一个实际的挑战，但它密切反映了机器人技术中的核心视觉问题之一。几个国家的最先进的视觉和语言导航，并验证表达模型进行了测试，以验证这个新的任务的难度，但没有一个显示出有希望的结果，因为有许多根本性的差异，我们的任务和以前的。还提出了一种新的该模型特别是实现了最好的性能上看不见的测试分裂，但仍然留下了很大的改进空间，以人类的表现。仓库：https：//github.com/YuankaiQi/REVERIE1. 介绍你可以让一个10岁的孩子给你拿一个垫子，他们很有可能会成功（即使是在一个陌生的环境中），而机器人完成同样任务的概率要低得多。儿童*通讯作者†现在在Google说明：把下面的图片，是旁边的一级楼梯的顶部给我图1. REVERIE任务：代理被给予涉及照片真实感3D环境中的远程对象（这里在红色边界框中）的自然语言指令。代理必须导航到适当的位置，并从多个分散注意力的候选对象中识别出对象。蓝色圆盘表示模拟器提供的附近可导航视点。具有从类似环境中学到的丰富知识，这些知识可以容易地应用于在不熟悉的环境中的这些任务，包括垫子通常位于沙发中、沙发位于休息室中以及休息室通常通过走廊与建筑物的其余部分连接的事实。孩子们也能够理解自然语言的指令，并将它们与视觉世界联系起来。然而，机器人目前缺乏这些能力的事实极大地限制了它们的应用领域。因此，为了使机器人具备这种能力，并促进现实世界的视觉和语言研究，我们介绍了-起始视点中途目标对象99831. 在浴室里把毛巾折成钓鱼主题。2. 进入卧室，床头有字母E，然后关掉电灯开关。3. 去蓝色的家庭活动室，把电视左上角的一幅骑马的人的相框4. 把吧台椅推进去，厨房里，烤箱旁边。5. 在卧室里的大石头壁炉里，把水槽上方的镜子6. 你能帮我把厕所上方靠近入口的灯上的7. 在楼梯的顶部，楼梯前的第一组盆花需要除尘。8. 在大厅尽头的右边，大蓝桌脚凳所在的地方，有一面需要擦拭的镜子9. 到走廊里有三张并排的照片的地方去，把右边的那张给我10. 在办公室的壁龛里钢琴旁边有一瓶酒。它在水槽上方的架子上，在最右边。请拿过来.表1.来自REVERIE数据集的指示性指令示例说明了各种有趣的语言现象，如悬挂修饰语（例如，1），空间关系（例如，3），命令（例如9），共同参考（例如，10）等。请注意，我们任务中的智能体需要识别所指对象，但不需要完成任何操作任务（例如折叠毛巾）。提出了一个新的问题，我们称之为真实室内环境中的远程视觉参照表达-REVERIE。REVERIE任务的一个例子如图所示。1.机器人在起始位置产生，并被给予自然语言指令，该指令涉及同一建筑物内另一位置处的为了执行该任务，要求代理导航到更靠近对象，并返回包围由指令指定的目标对象的边界框。它要求机器人利用环境知识推断物体的可能位置，并根据语言指令明确识别物体。与其他嵌入式任务（如视觉和语言导航（VLN）[1]和嵌入式问答（EQA）[6]）不同，REVERIE基于明确的对象基础而不是VLN中的点导航或EQA中的问答来评估这更清楚地反映了机器人自然语言理解、视觉导航和对象接地能力的必要性。更重要的是，REVERIE中简洁的指令代表了人类要求机器人执行的更实际的任务（见表1）。1）。这些高级指令从根本上不同于VLN中的细粒度可视化指令，并且将增强高级推理和现实世界应用。此外，与从单个图像中选择所需对象的引用表达式（RefExp）[8，13，22，27]的任务相比，REVERIE更具挑战性，因为目标对象在初始视图中不可见，需要通过在环境中主动导航来发现。因此，在REVERIE中，至少有一个数量级的候选对象可供选择。我们在Matterport3D模拟器[1，3]上构建REVERIE数据集，该模拟器提供了所有可导航位置和建筑物中连接图的图表。为了提供环境的对象级信息，我们扩展了模拟器，以纳入对象注释，包括Chang等人的标签和边界框。[3]的文件。扩展的模拟器可以返回绑定-在不同视点和角度的图像中放置盒子，从而能够适应对每个可能位置的评估REVERIE数据集包括86栋建筑内的10，318个小块，选项卡. 1显示了来自数据集的示例指令，其说明了各种语言现象，诸如空间关系、悬挂修饰语和共指等。我们通过直接结合最先进的（SoTA）导航方法和引用表达方法来研究REVERIE任务的难度然后，我们提出了一个交互式导航指针模型作为一个强大的基线REVERIE任务。我们还提供了REVERIE任务的人类表现，以量化机器与人类之间的差距。综上所述，我们的主要贡献包括：1. 一个新的具体化的视觉和语言问题，在真实的3D室内环境中的远程视觉引用表达（REVERIE），其中给定一个自然语言指令，代表一个实际的任务来执行，代理必须导航和识别在真实的室内环境中的远程对象。2. REVERIE任务的第一个基准数据集，其中包含大规模的人工注释指令，并通过额外的对象注释扩展了Matterport3D Simulator [1]3. 一种新的交互式导航器指针模型，在几个评估指标下为REVERIE数据集提供强基线。2. 相关工作引用表达式理解。所指的表达理解任务需要一个代理本地化的对象在一个自然语言表达的图像。最近的工作将此任务视为寻找可以生成其配对表达式的对象[12，17，31]或联合嵌入图像和表达式以进行匹配估计[5，11，15，20，30]。9984数据集人类语言主要内容上下文纳米比亚指导水平BBox视觉上下文真实世界时间目标评价质量评估[6]、内部质量评估[10]✗QA对✓–✗✗动态QA[2]第21话：我的世界✓导航说明✓详细✗✗动态导航R2R [1]✓导航说明✓详细✗✓动态导航达阵[4]✓导航说明✓详细✗✓动态导航[24]第二十三话：一个人✗导航对话框✗高✗✓动态找到对象TTW [7]✓导航对话框✓高✗✓动态导航CVDN [25]✓导航对话框✗高✗✓动态找到空间ReferCOCO [31]✓RefExp✓–✓✓静态定位对象遐想✓远程RefExp✓高✓✓动态本地化远程对象表2.与涉及具体视觉和语言任务的现有数据集相比。符号说明：'QA'：'检测器'，'Unamb'：'Unambiguous'，'BBox'：“边界框”、“动态”/“静态”：视觉上下文暂时改变或不改变。与指称表达不同，REVERIE提出了三个新的挑战：i）裁判对象在初始场景中不可见，只有在导航到目标位置后才能访问。ii）与从单个图像中选择目标对象的先前RefExp任务相反，REVERIE中的对象候选者来自所有可能视点的视差。iii）RefExp中的对象通常是从前视图捕获的，而在我们的设置中，对象的视觉外观可能会因不同的观察角度和视点而发生很大变化。视觉和语言导航。视觉和语言导航（VLN）是智能体在3D模拟器中导航到目标位置的任务，给出详细的自然语言指令，例如“右转并穿过厨房”。走过右边的沙发，进入左边的走廊。一直往前走，直到你到达一个房间，在墙上孩子们的照片的左边向左拐进浴室。在水池边等着。[1]的文件。已经提出了一系列VLN方法[9，14，18，19，28，29]来解决这个VLN任务。虽然建议的REVERIE任务也需要一个代理导航到一个目标位置，它不同于现有的VLN任务在两个重要方面：i）挑战与实现自然语言机器人任务的总体目标密切相关，因为目标是定位指令中指定的目标对象，而不仅仅是位置。这消除了指令仅限于导航的人为约束，并反映了大多数对象可以从多个视点看到的事实的现实。ii）我们收集的导航指令是语义级命令，更好地反映了人类的沟通方式。因此，他们更接近与这里提出的最密切相关的挑战是在[23，24，25]中解决的，其中代理人必须通过请求和解释自然语言帮助来识别对象这些指令的形式是周围环境中的智能体愿意提供自然语言帮助。问题是，智能体是否相反，REVERIE评估代理是否可以单独执行自然语言指令另一个密切相关的工作是TOUCHDOWN [4]，它要求智能体根据详细的导航指令在城市户外环境中找到一个位置。具体化的问题回答。回答问题-swering（EQA）[6]要求代理回答问题关于一个物体或者一个房间的信息Gor- don等。[10]引入EQA任务的交互式版本，其中代理可能需要与环境/对象交互我们的REVERIE任务不同于以前的作品，只输出一个简单的答案或一系列的行动，因为我们要求代理输出一个目标对象周围的边界框。这是一个更有挑战性但更现实的设置，因为如果我们想让机器人执行与物体有关的任务，我们需要它的精确位置。选项卡. 2显示了我们的任务和其他相关的具身视觉语言任务之间的差异。3. REVERIE数据集我们现在描述REVERIE任务和数据集，包括任务定义、评估指标、模拟器、数据收集策略和对收集的指令的分析。3.1. REVERIE任务如图1，我们的REVERIE任务需要智能代理正确定位由简洁的高级自然语言指令指定的远程目标对象（无法在起始位置观察到）。由于目标对象与起始对象在不同的房间中，因此智能体需要首先导航到目标位置。形式上，在每一集的开始，给予智能体作为输入的高级自然语言指令X = ww1，w2，···，wL，其中L是指令的长度，并且w i是单个单词标记。按照VLN中的常见做法，智能体可以访问周围的全景图像V0={v0，k，k∈1，. . .，36}和Navi-从当前位置的山墙视点，其中v0，k是9985由智能体的状态确定，包括3D位置、航向和仰角的元组s0，k=φp0，φ0，k，θ0，kφ（使用3个仰角和12个航向角）。然后，智能体需要做出一系列动作a0，a1，···，a T，以到达目标位置，其中每个动作是选择一个可导航的视点或选择当前视点，这意味着停止。动作还可以是输出由指令引用的目标对象边界框的“检测”动作。智能体可以在任何一步尝试定位目标，这完全取决于算法设计。但是我们只允许智能体在每个事件中输出一次，这意味着智能体在一次运行中只能猜测一次答案。如果代理“认为”它已经定位了目标对象并决定输出它，则需要输出边界框或从模拟器提供的几个候选对象中进行选择。边界框表示为bx，by，bw，bh，其中bx和by是左上点，bw和bh分别表示边界框的宽度和高度。在智能体输出目标边界框之后，情节结束。3.2. 评估指标模型的性能主要通过远程基础成功率（RGS）来衡量，RGS是成功任务的数量占任务总数的比例。如果任务从一组候选者中选择目标对象的正确边界框（或目标对象的边界框），则该任务被认为是成功的。图2.对象边界框（BBox）在我们的模拟器。在智能体移动到另一个视点或更改其相机视图后，同一对象的BBox大小和纵横比可能会更改。本地化由自然语言指令引用的对象的目的。将对象边界框添加到模拟器中的主要挑战是，我们需要处理当相机移动或旋转时2D边界框的可见性和坐标的变化为了解决这些问题，我们计算每个视图中边界框和对象深度之间的重叠。如果一个边界框被另一个边界框完全覆盖，并且它具有更大的深度，我们将其视为被遮挡的情况。具体而言，对于每个建筑物，Matterport3D数据集[3]为其中出现的所有对象提供中心点位置c=<$cx，cy，cz<$，三轴方向di=<$dx，dy，dz<$，i∈我我我在预测的边界框和地面之间的IoU真值边界框≥0。5，当没有给出候选对象边界框时）。由于目标对象可以在不同的视点或摄像机视图上观察到，因此只要智能体可以在3米范围内识别目标，无论从不同的视点或视图，我们都将其视为成功。我们还使用四种度量来衡量导航性能，包括成功率，Oracle成功率，路径长度加权成功率（SPL）和路径长度（以米为单位）[1]。请注意，在我们的任务中，只有当代理停在距离目标对象3米以内的位置时，导航才被视为成功。更多细节可以在补充材料中找到。3.3. REVERIE模拟器我们的模拟器基于Matterport3D Simulator [1]，这是一个从Matterport3D数据集[3]构建的大规模交互式环境。在模拟器中，一个具体的代理能够通过迭代地从全景视点的图形中选择相邻节点并调整每个视点处的相机姿态来虚拟地它返回一个捕获当前视图的渲染彩色图像，如图所示。1.一、添加对象级注释。对象在我们提出的任务中需要边界框，这些边界框要么作为对象假设提供，要么用于评估智能体{1，2，3}，以及三个半径ri，每个轴方向一个。为了在Web模拟器中正确渲染对象，我们首先使用c，di和ri计算八个顶点。然后将这些顶点通过摄像机姿态投影到摄像机空间Matterport3D数据集C++和Web模拟器都将随代码一起发布。图2呈现了投影边界框的示例。请注意，目标对象可以在一个房间中的多个视点观察到因此，我们只保留距离视点三米以内的对象。对于每个对象，一个类标签和一个边界框相关联，我们相应地调整大小和纵横比的视点和相机角度的变化。总共，我们获得了28000个对象注释。3.4. 数据收集我们的目标是收集将来可能分配给家用机器人的高级人类日常命令，例如我们开发了一个交互式3DWebGL 模拟器来收集 Amazon Mechanical Turk（AMT）上的此类指令。Web模拟器首先显示路径动画，然后随机突出显示目标位置的一个对象，以便工作人员提供查找或操作的指令。命令没有样式限制，只要它能引导机器人到达目标对象即可。助理9986指令的标准化频率0.080.30.070.060.250.050.20.040.150.030.10.020.050.0105101520253035404550012345678910111213一条指令中的字数一图3.每个指令中单词（左）和对象（右）的数量分布房间和物体信息被提供给工作人员，以便于他们在存在类似房间或物体的情况下提供明确的指令工人们可以在目标地点周围看看，了解周围的环境。对于每个目标对象，我们收集三个指称表达式。完整的采集接口（见补充资料）是几轮实验的结果。超过1，000名工人参与了数据收集，总共贡献了约2，648小时的注释时间。所收集数据的示例可在选项卡中找到1，更多的是补充。3.5. 数据集分析REVERIE数据集包含21，702条指令和超过1，600个单词的词汇表。所收集的指令的平均长度是18个字，涉及导航和指涉表达信息。考虑到R2R [1]中提供的详细导航指令平均长度为29个单词，而最大的数据集RefCOCOg [31]平均包含8个单词，我们的指令命令更加简洁和自然，因此更具挑战性。图3（左）显示了所收集的指令的长度分布，其示出了大多数指令具有10到22个单词，而最短的注释可能仅为3个单词，诸如图4（左）以词云的形式呈现了指令中使用的词的相对量它表明，人们更喜欢我们还计算了指令中提到的对象的数量，其分布如图所示。3（右）。它表明，56%的指令提到3个或更多的对象，28%的指令提到2个对象，剩下的15%的指令提到1个对象。平均而言，在每个目标视点处有7个对象具有50数据集中有4,140个目标对象，属于489个类别，是目前最流行的指称表达式数据集ReferCOCO [31]中80个类别的6倍。图4图4.REVERIE数据集中指令（左）和目标对象（右）的单词云字体越大，它所占的百分比越大场景和超过513个对象的3，521个指令被保留用于val_unseen_split。对于测试集，我们收集了6，292个指令，涉及随机分散在16个场景中的834个对象。在训练和验证过程中，所有测试数据都不可见测试集的地面实况将不会被发布，我们将托管一个评估服务器，在那里代理轨迹和检测到的边界框可以被加载以进行评分。4. 交互式导航指针模型由于我们的REVERIE任务需要一个代理导航到目标位置并指出目标对象，一个简单的解决方案是联合使用SoTA导航（作为Navigator）和引用表达式理解（作为Pointer）方法。然而，导航器和指针如何协同工作是非常重要的。理想情况下，我们希望导航器和指针能够相互受益。在这里，我们提出了一种简单而有效的交互方式，在看不见的环境中实现最佳性能作为一个强大的基线。如图5.提出的方法将当前视点处观察到的全景图像和指令作为指针模块的输入。指针计算每个视图中与当前目标指令匹配的对象，并输出前3个匹配对象的视觉特征和然后，交互模块对这些标签进行编码，并输出标签嵌入与对象区域和整个图像的视觉特征的级联。最后，Navigator模块将组合的特征和指令作为输入来确定下一个操作。4.1. 指针模块我们使用MAttNet [30]作为我们的指针，因为它具有良好的性能。它将表达式分解为与主题外观、位置和通过注意机制与其他物体的关系（右）显示了不同目标对象的相对数量qm=Lj=1 am，j ej，其中m∈ {subj，loc，rel}，ej是分类。数据分割我们遵循与R2 R [1]数据集相同的训练/验证/测试分割策略。训练集由60个场景和10，466条指令组成，超过2，353个对象。包括可见和不可见分割的验证集总共包含56个场景、953个对象和4，944条指令，其中10条指令是在指令X中嵌入每个字。am，j是每个模块对每个单词的关注度那就三种的匹配评分S（o i|（q m）为每个对象计算o我调节对每个模块化短语嵌入qm。具体地说，S（oi|qsu bj）=F（v<$su bj，qsu bj），S（oi|qloc）=F（qloc，qloc），我我指令的标称频率9987可操纵视图提取特征指针相互作用标签：图片图片图片Bi_LSTMRel模块相对匹配前3可见：你好、别这样，别这样，你好=′你好Avg.禄禄模块匹配导航器软注意��−1软注意MLPSub Sub��位置编码动作选择IJIJt，1t，K不我ttt v t−1图5.我们的交互式导航器-指针模型且S（oi|qrel）=maxj=fiF（vrel，qrel），其中F（·）是a视点要素使用串联tw o-层MLP，vsubj是一个奥奥我每个物体使用14×14网格。C是位置代表，通过全连接层获得的对象的感测将相对位置偏移和与其最多5个相同类别的周围对象的面积比作为输入。 v_r_e_l是周围对象o_j的视觉表示，而不考虑类别。对象oi和指令X是加权和：ΣS=S（0 i|q m）w m，（1）其中wm= softmax（WL[h0，hL]+bm）。vt，k= [vt，k，xt，k，vt，k]（3）”这是一个导航器（见方程）。5和7）。这种交互中的指针充当每个候选视点的硬注意，其突出显示导航器要考虑的与目标最4.3.导航模块我们的导航器模块的骨干是FAST的具体地说，设X∈RL×512表示指令特征M通过LSTM从X获得，并且V′=[v′;。-是的-是的;v′]∈4.2. 交互模块直观地说，我们希望导航器和指针相互作用，以便提高导航和引用表达的准确性。例如，导航器可以使用视觉接地信息来决定何时何地停止，并且如果导航器可以到达正确的目标位置，则可以提高指针精度。为此，我们提出了一个交互模块，可以插入指针的输出到导航器。具体来说，我们首先使用上述指针模块执行引用表达式理解，以选择每个候选视图中的前3个匹配对象。然后我们使用一个可训练的双向LSTMRK×4736表示由我们的交互模块获得的更新的视觉特征（第二节）。4.2）对于步骤4.1处的全景图像Vtt. FAST-short学习局部logit l t信号，该信号由[19]中采用的视觉和文本共同接地模型计算。首先，通过以下方式学习接地te xtxt=αX和接地视觉v′=βV′：αt= softmax（PE（X）（Wx ht−1））（4）β= softmax（g（V′）（W h））（5）其中αt∈RL×1是文本注意力权重，βt∈RK×1是视觉注意力权重，Wx和Wv是可学习的参数，PE（·）是位置编码[26]，它捕获指令中每个单词之间的相对位置奥特克= bi LSTM（XO）（2）g（·）是单层多层感知器（MLP），ht−1∈R512×1是先前的编码器上下文。新的骗局-把一楼最下面的那张照片拿给我加权和X9988不t，k以将这些所选对象的类别标签X0={标签i∈top3}编码为第k个候选视点的文本表示。此外，这些对象区域的ResNetFC 7层的平均输出被用作vi。文本由LSTM（ht，ct）=LSTM（[xt，vt′，at-1]，（ht-1，ct-1））（6）将新接地的文本和视觉特征作为输入共同代表权. 最后，我们更新候选人以及之前的动作a t-1。那么logitlt可以是9989不不通过每个候选者的编码上下文和指令之间的内积来计算目标视点（对于目标对象可见的视图）按照用于指针训练的MAttNet中的格式来组织。有了训练有素的指针，助理OB-l=（W[h，x]）g（v′）（7）t，k一ttt，k如第4.2节所述提供受试者信息，训练领航员其中Wa是可学习的参数矩阵。FAST-short基于logitlt，维护一个候选队列和一个结束队列。当前位置的所有可导航视点（包括当前视点）都是推送到候选队列中，但只保留viewpoint5.2. REVERIE实验结果我们首先评估几个基线模型和SoTA导航模型，结合我们的指针，即，材料-具有最大累积logit不τ=0 lτ被弹出为tNet。在导航模型决定停止后，指针用于预测目标对象。此外，我们还测试了Hu-选定的下一步。每个传递的视点都被推入结束队列。如果选择了当前视点或候选队列为空或达到最大步长，则一个片段结束最后，选择具有最大累积logits的视点作为实际停止位置。4.4.损失函数我们最终的损失包括两部分，导航损失Lnav和指称表达损失Lexp。Lnav是动作选择的交叉熵损失和进度监视器的均方误差损失：人员绩效（详见补充资料下面是对评估的基线和SoTA模型的简要介绍。有四种基线模型：• Random利用REVERIE数据集的特性，随机选择一条具有随机步长（最大10步）的路径，然后随机选择一个对象作为预测目标。• 最短路径总是沿着最短的路径到达目标。• R2 R-TF和R2 R-SF [1]是首批导航基线。R2 R-TF和R2 R-SF之间的区别在于R2 R-TF是用地面实况训练的。ΣTL=−λyalog（l）−λΣT （ypm−ppm）2（8）每个步骤的动作（教师强制，TF），而R2 R-NAV1tt=1t，k2tt t=1SF采用从预测概率中采样的动作，其中y a是步骤t处的地面实况动作，λ1= 0。5且λ2=0。5是平衡两个损失的权重，ypm∈[0，1]是从当前视点到目标的以长度为单位的归一化距离，ppm=tanh（Wpm（[αt，hpm]））是能力超过其行动空间（学生强迫，SF）。评估的四个SoTA导航模型是：• SelfMonitor [19]使用视觉-文本共同基础模块来突出显示下一个操作t t预测进度和hpm=sigmoid（Wh（[ht−1，v<$′]））。以及进度监视器以反映进度。t t引用表达式损失Lexp是排名损失：Σ• RCM [28]采用强化学习来鼓励-指令和指令集之间的年龄全局匹配Lexp=[λ3max（0，δ+S（0i|rj）−S（oi|ri））我（九）系列，并执行跨模型接地。• FAST-Short [14]将回溯引入Self-+ λ4max（0，δ+ S（0k|ri）−S（oi|（i））]其中λ3=1。0，λ4=1。0，（o i，ri）是正（对象，表达式）对，（o i，r j）和（o k，ri）是负（对象，表达式）对，δ是正负对之间的距离余量。所有损失汇总如下：L=Lnav+λ5Lexp（ 10）来训练我们的交互式导航器-指针模型。我们设置λ5到1. 默认为05. 实验在本节中，我们首先介绍模型的训练细节，然后提供广泛的评估和分析。5.1. 实现细节模拟器图像分辨率设置为640×480像素，垂直视野为60度。对于列车分割中的每个指令，9990监视器.• FAST-Lan-Only采用上述FAST-Short模型，但我们只使用语言指令作为输入。该模型用于检查我们的任务/数据集是否对语言输入有偏见。结果详细的实验结果见表1。3，其中前四行是基线的结果，接下来的四行是SoTA方法的结果，最后两行是我们的模型和人的表现。根据表1中的基线部分。3、随机模型的RGS仅为1%左右，这表明REVERIE任务具有巨大的解空间。R2 R-TF和R2 R-SF [1]在Val Seen分裂上取得了良好的结果，但在看不见的分裂上减少了很多。一般来说，学生强迫比教师强迫好。最短模型实现了完美的性能，因为直接给出了到达目标的地面实况路径。在第二部分中，通过SoTA导航（FAST）和引用9991方法瓦尔·西恩Val UnSeen测试（不可见）导航Acc.RGS导航Acc.RGS导航Acc.RGS成功OSuccc.SPL长度成功OSuccc. SPL长度成功OSuccc.SPL长度随机2.748.921.9111.991.971.7611.931.0110.760.962.308.881.4410.341.18最短10010010010.4668.451001001009.4756.631001001009.3948.98R2R-TF [1]7.3810.756.4011.194.223.214.942.8011.222.023.946.403.3010.072.32R2R-SF [1]29.5935.7024.0112.8818.974.208.072.8411.072.163.996.883.0910.892.00[第28话]23.3329.4421.8210.7016.239.2914.236.9711.984.897.8411.686.6710.603.67[19]第十九话41.2543.2939.617.5430.078.1511.286.449.074.545.808.394.539.233.10快速-短[14]45.1249.6840.1813.2231.4110.0820.486.1729.706.2414.1823.368.7430.697.07仅快速局域网8.3623.613.6749.435.979.3729.763.6545.035.008.1528.452.8846.194.34我们50.5355.1745.5016.3531.9714.4028.207.1945.287.8419.8830.6311.6139.0511.28人类––––––––––81.5186.8353.6621.1877.84表3.通过将SoTA导航方法与RefExp方法MAttNet [30]相结合实现远程接地成功率（RGS）表达（MAttNet）模型。然而，RGS利率是只有7. 07%，远远落后于人类的平均水平77。百分之八十四。这些SoTA导航模型的导航精度表明了我们导航任务的挑战与以前的R2R相比，在看不见的拆分上观察到近30%的[1]任务例如，在Val UnSeen分割上的FAST- Short [14]导航SPL评分从R2 R数据集上的43%下降到6。17%的收入。为了测试我们的数据集是否具有强烈的语言偏见，即，针对纯语言模型能否取得良好性能的问题，本文实现了一个仅以指令为输入的FAST-Lan-Only模型。我们观察到可见和不可见的分裂都有很大的下降，这表明共同考虑语言和视觉信息对我们的任务是必要的。总之，这些结果表明，SoTA导航和引用表达方法的简单组合不一定会导致有希望的性能，因为导航器或指针的失败会降低整体成功率。在本文中，我们第一次尝试使导航器和指针交互工作，如第二节所述。4.2.Tab中的结果。3表明，我们的方法取得了一贯优于非交互式的结果。FAST-Short可以被视为我们的消融模型，没有我们提出的交互模块。我们的方法在测试分裂上实现了1.4%仅引用表达式。我们还报告了引用环表达式唯一的性能。在这种设置中，代理被放置在地面实况目标位置，然后测试指称表达理解模型。我们测试了SoTA模型，如MattNet [30]和CM-RNN[16]以及具有三重排序损失的简单CNN-RNN基线模型。选项卡. 4给出了具有人性化性能的结果这表明SoTA模型在测试分割1上实现了约50%的准确度，这远远优于表1中所示的联合考虑导航和引用表达式3.尽管如此1这些SoTA模型在ReferCOCO上达到了80%的准确率[31]，这是指涉表达的黄金基准。确认已见确认未见测试基线30.69 18.63 16.18[30] 2016年10月31日[16] 2019 - 05 - 15 00：00：00人表4.参考表达理解成功率（%）在我们的REVERIE数据集的地面真实目标观点。与人类的表现仍有40%的差距，这表明我们提出的REVERIE任务具有挑战性。6. 结论实现人机协作是一个长期目标。在本文中，我们进一步实现这一目标，提出了一个在真实室内环境（REVERIE）的任务和数据集的远程可视化引用表达式。REVERIE是第一个评估智能体遵循高级自然语言指令导航和识别先前未看到的真实图像渲染建筑物中的目标对象的能力的智能体。我们研究了几个基线和一个交互式导航指针代理模型，其性能一致表明在这一领域进一步研究的重要必要性。我们得出三个主要结论：第一，REVERIE是有趣的，因为现有的视觉和语言方法可以很容易地插入。其次，理解和执行高级指令的挑战是显著的。最后，指令导航和指称表达理解的结合是一个具有挑战性的任务，因为人类的表现有很大的差距。7. 确认我们感谢Philip Roberts、Zheng Liu、Zizheng Pan和Sam Bahrami在构建数据集方面提供的巨大帮助。齐元凯的部分基金由国家自然科学基金 61902092 和HIT.NSRIF.2020005资助。Qi Wu由DE 190100539和国家自然科学基金61877038。来自UCSB的作者不受上述任何项目的支持。9992引用[1] Peter Anderson，Qi Wu，Damien Teney，Jake Bruce，Mark Johnson ，Ni k oSünderhauf，IanD. Reid，StephenGould ，andAnton van den Hengel.视觉和语言导航：在真实环境中解释视觉基础的导航指令。在CVPR中，第3674-3683页[2] 放大图片作者：Valts Blukis，Dipendra Kumar Misra，Ross A. Knepper和Yoav Artzi。将导航指令映射到具有位置访问预测的连续控制动作。在CoRL，第505-518页[3] 天使 X 放大图片作者： Angela Dai ， Thomas A.Funkhouser ， Ma- ciej Halber ， Matthias Nießner ，Manolis Savva，Shuran Song，Andy Zeng，and YindaZhang.Matterport3d ：从室内环境中的 RGB-D 数据学习。在3DV中，第667- 676页[4] Howard Chen ， Alane Suhr ， Dipendra Misra ， NoahSnavely，and Yoav Artzi. TOUCHDOWN：视觉街道环境中的自然语言导航和空间推理。在CVPR中，第12538-12547页[5] Kan Chen，Rama Kovvuri，and Ram Nevatia.查询引导的回归网络与上下文策略的短语接地。在ICCV，第824-832页[6] Abhishek Das、Samyak Datta、Georgia Gkioxari、StefanLee、Devi Parikh和Dhruv Batra。具身问答。在CVPR中，第1-10页[7] Harm de Vries ， Kurt Shuster ， Dhruv Batra ， DeviParikh，Jason Weston，and Douwe Kiela.走路说话：通过接地对话导航纽约市。 CoRR， abs/1807.03367 ，2018。[8] Chaorui Deng，Qi Wu，Qingyao Wu，Fuyuan Hu，FanLyu，and Mingkui Tan.通过累积注意力的视觉基础。在CVPR中，第7746-7755页[9] Daniel Fried 、 Ronghang Hu 、 Volkan Cirik 、 AnnaRohrbach 、 Jacob Andreas 、 Louis-Philippe Morency 、Taylor Berg- Kirkpatrick 、 Kate Saenko 、 Dan Klein 和Trevor Darrell。用于视觉和语言导航的说话者跟随者模型。在NeurIPS，第3318-3329页[10] Daniel Gordon ， Aniruddha Kembhavi ， MohammadRaste-gari，Joseph Redmon，Dieter Fox，and Ali Farhadi.IQA：交互式环境中的视觉问题回答。在CVPR中，第4089-4098页[11] Ronghang Hu ， Marcus Rohrbach ， Jacob Andreas ，Trevor Darrell，and Kate Saenko.使用组合模块网络对指称表达式中的关系进行建模。在CVPR中，第4418-4427页[12] Ronghang Hu ， Huazhe Xu ， Marcus Rohrbach ， JiashiFeng，Kate Saenko，and Trevor Darrell.自然语言对象检索。在CVPR，第4555-4564页[13] Sahar Kazemzadeh ， Vicente Ordonez ， Mark Matten ，and Tamara Berg.推荐游戏：在自然景物的照相照片中提到物体的。在EMNLP，第787[14] 李一鸣，李秀君，Yonatan Bisk，Ari Holtzman，甘哲，刘晶晶，高建峰，蔡业进，Sid- dhartha S.斯里尼瓦萨战术倒带：视觉和语言导航中通过回溯的自我纠正。在CVPR中，第6741-6749页9993[15] Jingyu Liu，Liang Wang，Ming-Hsuan Yang.通过属性引用表达式生成和理解。在ICCV，第4866-4874页[16] Xihui Liu，Zihao Wang，Jing Shao，Xiaogang Wang，and Hongsheng Li.用跨模态注意引导擦除改善指称表达基础。在CVPR中，第1950-1959页[17] Ruotian Luo和Gregory Shakhnarovich。理解引导的指称表达。在CVPR中，第3125-3134页，2017年。[18] Chih-Yao Ma ， Zuxuan Wu ， Ghassan AlRegib ，Caiming Xiong，and Zsolt Kira.后悔的代理人：通过进度估计的启发式辅助导航。在CV

下载后可阅读完整内容，剩余1页未读，立即下载