视觉街道环境下的导航和空间推理任务（论文总结）

11 浏览量更新于2023-10-19 收藏 1.79MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1TOUCHDOWN：视觉街道环境陈浩华（HowardChen）纽约州纽约市hchen@asapp.comAlane Suhr Dipendra Misra Noah Snavely Yoav Artzi康奈尔大学计算机科学系康奈尔理工学院纽约{suhr，dkm，snavely，yoav}@ cs.cornell.edu摘要我们通过一个导航和空间推理任务来研究关于语言和视觉的联合推理问题。我们引入了TOUCHDOWN任务和数据集，其中智能体必须首先在现实生活中的视觉城市环境中遵循导航指令，然后识别用自然语言描述的位置，以在目标位置找到隐藏的对象。数据包含9，326个英语指令和空间描述与演示配对的例子。实证分析表明，数据提出了一个开放的挑战，现有的方法，和定性语言分析表明，数据显示更丰富的空间推理的使用相比，相关的资源。环境和数据可在https://touchdown.ai上获得。1. 介绍考虑一下在繁忙的城市环境中遵循自然语言指令的视觉挑战。图1说明了这个问题。智能体必须识别对象及其属性，以解决交通信号灯和美国国旗的提及，识别对象如何排列的模式，以找到交通流量，并推理对象的相对位置如何在它移动经过对象时发生变化。关于视觉和语言的推理已经在各种任务中得到了广泛的研究，包括视觉问题回答[3，34]，视觉导航[2，25]，交互式问题回答[9，12]和指涉表达解决[16，22，23]。然而，现有的工作主要集中在相对简单的视觉输入上，包括以物体为中心的照片[20，28]或模拟环境[4，9，19，25，33]。虽然这使得视觉理解取得了重大进展，但使用真实世界的视觉输入不仅增加了视觉任务的挑战，而且还彻底改变了它所使用的语言类型，并需要根本不同的推理。在康奈尔大学完成的工作图1.任务的说明。智能体遵循指令到达目标，首先重新定位自己（顶部图像），然后继续穿过街道（两个中间图像）。在目标（底部），智能体使用空间描述（下划线）来定位触地熊。触地只有在猜测正确的情况下才会出现（见右下角的细节）。在本文中，我们研究的问题，视觉和自然语言的推理，使用交互式视觉导航环境的基础上谷歌街景。1.我们设计的任务是，首先按照指示去达到目标1https://developers.google.com/maps/documentation/streetview/intro12538转弯，顺着车流走在第一个红绿灯处左转。走过下两个红绿灯，当你走到第三个红绿灯时，你会看到左边有一座白色的建筑，上面有许多美国国旗。触地得分是坐在星星的第一面旗子上。12539位置，然后通过识别隐藏的泰迪熊Touch- down的观察图像中的位置来解析目标处的空间描述使用这个环境和任务，我们发布了TOUCHDOWN，2一个用于导航和空间推理的数据集，具有真实的观察结果。我们设计我们的任务是为了空间推理的不同用途，包括遵循指令和解决空间描述。导航要求智能体推理它与物体的相对位置，以及当它在环境中移动时这些关系如何相比之下，理解着陆位置的描述这两项任务在学习挑战方面也存在差异。虽然在这两种学习中需要依赖间接监督来获得空间知识和语言基础，但对于导航，训练数据包括演示的动作，而对于空间描述分辨率，注释的目标位置。该任务可以作为一个整体来处理，也可以分解为两个部分。关键的数据收集挑战是设计一个可扩展的过程，以获得反映视觉输入丰富性的自然语言数据，同时阻止过于冗长和不自然的语言。在我们的数据收集过程中，工作人员编写并遵循指示。写入器在环境中导航并隐藏触地得分。他们的目标是确保追随者可以执行指令找到触地得分。可衡量的目标使我们能够奖励有效的作者，并阻止过于冗长的描述。我们收集了9，326个完整任务的示例，这些示例分解为相同数量的导航任务和27，575个空间描述分辨率（SDR）任务。每个示例都附有导航演示和着陆位置的我们的语言驱动分析表明，数据需要比相关数据集更复杂的推理。几乎所有的例子都需要解决可观察对象之间以及智能体与其周围环境之间的空间关系，每个例子平均包含5个。3命令和参考10。在其环境中的7个我们独立地对导航任务和SDR任务进行了实证对于导航，我们专注于使用监督学习训练的现有模型对于SDR，我们将识别着陆位置的问题转换为使用UN ET架构的语言条件变体的这种方法明显优于几个强基线。2. 相关工作和数据集关于视觉和语言的联合推理已经得到了广泛的研究，最常见的是集中在静态视觉输入上，用于对图像标题进行推理[20，8，28，31，2达阵是康奈尔大学的非官方吉祥物。[32]和接地的问题回答[3，13，34]。最近，这个问题已经在交互式模拟环境中进行了研究，其中视觉输入随着智能体的动作而变化，例如交互式问答[9，12，]和指令跟随[25，26]。相比之下，我们专注于与现实世界的观察互动的环境。我的第二个愿望是：“两个人，一个人，两个人。R2R使用房屋环境的全景图进行导航指令跟踪。它包括90个独特的环境，每个环境都包含一个平均值，年龄为119岁，明显小于我们的29，641岁全景。我们更大的环境需要遵循说明密切，因为找到目标使用搜索策略是不太可能的，即使有大量的步骤。我们还观察到，我们数据中的语言比R2R中的语言复杂得多（第5节）。我们的环境设置与Talk the Walk相关，它在小型城市环境中使用了导航对话任务。与我们的设置相反，教师不观察地标，而是看到一个简化的环境图，其中有一小组预先选择的地标。因此，与TOUCH-DOWN相比，教师具有较少的空间信息。相反，重点是会话协调。SDR与引用表达式解决方案的任务有关，例如在ReferItGame [16]和Google Refexp [22]中研究的。指称表达描述了一个被观察的对象，大多数情况下需要在所描述的对象和相同类型的其他对象之间消除歧义相反，SDR的目标是描述一个特定的位置，而不是区分。这导致了更复杂的语言，如SDR相对较长的句子所示（第5节）。Kitaev和Klein [18]提出了一个类似于SDR的任务，在一个完全观察的模拟3D环境中给定一个空间描述和一个小的位置集合，系统必须从集合中选择所描述的位置。我们不使用干扰物的位置，需要一个系统来控制-对图像的所有区域进行划分以解析空间描述。3. 环境和任务我们使用谷歌街景创建一个大型导航环境。每个位置包括360° RGB全景。这些节点以图形状结构连接，其中无向边连接相邻节点。每条边都连接到特定标题中的全景。对于每个全景图，我们为所有具有边缘的标题渲染透视图像。我们的环境包括来自纽约市的29，641条道路和61，319条图2显示了环境。我们设计了两个任务：导航和空间描述分辨率（SDR）。这两项任务都需要识别物体以及它们之间的空间关系。导航侧重于以自我为中心的空间推理，其中指令涉及代理12540○评估我们使用三个评估指标：任务完成、最短路径距离和成功加权编辑距离。任务完成度（TC）测量准确性正确完成任务。我们认为执行正确，如果代理达到确切的目标位置-节点或其环境图中的相邻节点之一。最短路径距离（SPD）测量图中智能体的最终全景与目标之间的平均距离。SPD忽略转弯动作和座席航向。按编辑距离（SED）加权的成功率为1个PNS（1-lev（e）），其中求和超过图2.环境的说明左：部分图表Ni=1imax（|e¯|、|e|）具有显示位置的例如，Si是二进制任务完成指标，由边缘连接，每个边缘都标有其标题。航向角度是引用执行，e是预测值，更靠近每个全景的显示表示从全景;例如，从Pano A到Pano B的航向是31。右图：图中所示的纽约市区域。它观察的对象SDR任务显示出更多的以他者为中心的推理，其中语言需要理解所观察到的对象之间的关系以识别目标位置。虽然导航需要从一小部分可能的动作中生成一系列动作，但SDR需要在观察到的图像中选择一个特定的像素。这两种任务都提出了不同的学习挑战。导航任务可以受益于基于奖励的学习，而SDR任务定义了一个监督学习问题。这两个任务可以单独解决，也可以通过在导航结束时在目标位置完成SDR任务来组合3.1. 导航智能体的目标是遵循自然语言指令并到达目标位置。设S是所有状态的集合。一个状态s2S是一个对（I，α），其中I是一个全景，α是指示代理航向的航向角。我们仅允许存在连接到航向α中的相邻全景的边缘的状态。给定导航指令x′n和起始状态s12S，代理执行一系列动作。动作集合A是{向前，向左，向右，停止}。给定状态s和动作a2 A，使用转换函数T确定性地更新状态： S. FORWARD动作使座席沿其当前航向的边缘移动。为了-一般地说，如果环境包括在Ii中以α为头的边（Ii，Ij），则转移是T（（Ii，α），FORWARD）=（Ij，α0）。新航向α0是Ij中航向最接近α的边的航向。LEFT（RIGHT）操作将座席航向更改为左侧（右侧）最近边的航向。形式上，如果位置全景I在航向α>α0>α00处具有边，则T（（I，α），LEFT）=（I，α0）并且T（（I，α），RIGHT）=（I，α00）。给定一个起始状态s1和一个vigation指令x′n，一个example′是状态-动作对h（s1，a1），.，（sm，am）i，其中T（s i，a i）= s i+1且a m= STOP。lev（·，·）是Lev enshtein编辑距离，并且| · |是前-剪切长度编辑距离被归一化和反转。我们测量的距离和长度超过执行中的一系列箭，并忽略方向的变化。SED与通过路径长度（SPL）加权的成功相关[1]，但是被设计用于在基于图的环境中的指令遵循，其中存在特定的正确路径。3.2. 空间描述分辨率（SDR）给定图像I和自然语言描述x′s，任务是识别图像中描述所指的点。我们将此任务实例化为在环境中找到一只泰迪熊Touchdown的位置触地是隐藏的，在输入中不可见图像I是360° RGB全景，并且输出是指定图像中的位置的一对（x，y）坐标评估我们使用三个评估指标：精度、一致性和距离误差。精确度是相对于注释位置计算的如果坐标在注释的松弛半径内，则我们认为预测是正确的。我们测量半径为40，80和120像素的精度，并使用欧几里得距离。我们的数据收集过程会为每个句子生成多个图像。我们用它来衡量独特句子的一致性，这与准确性类似，但只有当所有的例子都是正确的时，才认为独特的句子是正确的[11]。我们计算每个松弛值的一致性。我们还测量注释位置和预测位置之间的平均欧氏距离。4. 数据收集我们将数据收集过程视为寻宝任务，其中领导者隐藏宝藏并写下找到宝藏的方向，而追随者则遵循方向找到宝藏。该过程分为四个众包任务（图3）。两个主要任务是写作和跟踪。在写作任务中，一个领导者遵循规定的路线，并隐藏在最后的触地熊，同时写下描述路径和如何找到触地熊的说明帕诺湾211°31°90°帕诺A270°145°325°12541任务I：写说明工人从朝北的路线的起点开始（a）。规定的路线显示在俯视图（底部每幅图像的左侧）。工人面对正确的方向并遵循路径，同时编写描述这些动作的指令（b）。在沿着路径之后，工人到达目标位置，放置触地，并完成编写指令（c）。地点触地得分Can’t转弯，使树在你的左边。在第一个十字路口左转然后停车。地点触地得分Can’t转弯，使树在你的左边。在第一个十字路口左转然后停车。触地得分是在右手角的蓝色邮箱上。地点触地得分Can’t（a）（b）（c）转弯，使树在你的左边。在第一个十字路口左转然后停车。触地得分是在右手角的蓝色邮箱上。转弯，使树在你的左边。在第一个十字路口左转然后停车。触地得分是在右手角的蓝色邮箱上。目标位置说明：触地得分是在右手角的蓝色邮箱上。提交转弯，使树在你的左边。在第一个十字路口左转然后停车。触地得分是在右手角的蓝色邮箱上。你发现了达阵！剩余尝试次数：2次地点触地熊被遮挡任务二：全景传播年龄从领导者包括触地得分任务III：验证工作者从与领导者相同的方向，并遵循在-结构（左下角）导航环境。当工作人员认为他们已经达到目标时，他们通过点击街景图像来猜测目标位置。任务四：指令分割图中显示了结构（左）。工人高-与导航和目标位置子任务对应的灯光段。突出显示的段显示给工人（右）。图3.数据收集过程的说明。以下任务需要从相同的起始位置按照指示进行导航并找到触地。附加任务用于将指令分割成导航和目标定位任务，并将着陆的位置传播我们使用自定义的街景界面进行数据收集。但是，最终数据使用的是一组不需要街景界面的静态地图。任务一：指令写作我们通过采样开始和结束位置生成路线。采样过程产生的路线通常在城市街区的中间结束。这鼓励了更丰富的语言，例如，通过要求描述目标位置而不是简单地指向下一个十字路口。路线生成的详细信息在补充材料中描述对于每个任务，工人被放置在面向北方的起始位置，并被要求沿着俯视图中指定的路线到达目标位置。在整个过程中，他们都在写描述路径的指令最初的航向要求工人重新定向走在路上，更好地了解周围的环境。它还提供了有趣的重定向指令，这些指令通常包括对对象方向的引用（例如，业务流）或它们与代理的关系（例如，右为右为右。在目标全景处，要求工人将降落放置在他们选择的不是移动物体的位置（例如，汽车或行人），并在其指令中描述位置。工作者的目标是编写人类追随者可以使用的指令，以正确地导航和定位目标，而无需知道正确的路径或降落位置。不允许他们编写涉及图像中文本的说明，包括街道名称、商店名称或号码。任务二：目标传播到全景图ing任务的结果在一个单一的全景街景界面着陆的位置。然而，从目标位置可见的相邻的地图中也可以将空间描述解析为确切的位置。我们使用众包任务来传播地点-12542把自己定位在红色梯子的方向直走，在与岛屿的交叉口左转。采取另一个左在交叉口，灰垃圾桶的左边。直走，直到靠近操场围栏的尽头，然后向右走，靠近操场围栏的尽头，然后向右走。触地得分是在右边最后一个篮框上。图4.示例说明，其中带注释的导航（未划线）和SDR（粗体）段重叠。任务工人数量说明书撰写224目标传播218验证291指令分段46表1.参与每项任务的工人数量在街景界面中，我们可以将触地得分与相邻的地图进行比较，并在静态数据中与相同的地图进行比较。这允许正确地完成任务，即使不在确切位置处停止，但是仍然到达语义上等同的位置。街景界面中的传播用于我们的验证任务。该任务包括多个步骤。在每一步中，我们显示说明文本和放置了Touchdown的原始街景全景工作人员可以指示目标是否被遮挡。传播注释允许我们为每个SDR创建多个示例，其中每个示例使用相同的SDR，但从不同的位置显示环境。任务III：验证我们使用一个单独的任务来验证每个指令。工作人员被要求遵循自定义街景界面中的指令，并找到触地。工作人员只能看到街景界面，无法访问高空地图。该任务需要导航和确定着陆的位置。如果跟随者在接地的地面实况目标位置的90像素半径3这需要follower位于精确的目标全景中工人有五次尝试找到降落点. 每一次尝试都是一次点击。如果worker失败，我们将为同一个示例创建另一个任务来再次尝试。如果第二个worker也失败了，则该示例将被丢弃。任务IV：分割我们在指令中注释每个标记，以表明它描述的是导航任务还是SDR任务。这使我们能够分别处理这些任务首先，工作者突出显示标记的连续前缀以指示导航段。然后，他们为SDR任务突出了后缀to-kens。导航和目标位置段可能重叠（图4）。工人和资格我们需要通过一个资格的任务做写作任务。限定符任务需要表2. TOUCHDOWN的数据统计，与相关文献进行比较。对于TOUCHDOWN，我们报告完整任务、仅导航和仅SDR的统计数据。词汇量和文本长度在组合的训练和开发集上计算。SAIL和LANI统计数据是使用段落数据计算的。4540353025201510500 50 100 150 200文本长度图5. TOUCHDOWN和相关语料库中的文本长度。正确的导航和寻找一个预定义的一套指令触地得分。我们认为在四项任务中成功完成三项的工人是合格的。其他三项任务不需要资格认证。表1显示了参与每个任务的薪酬和激励结构撰写指导性文章的基本工资为0美元。六十岁。对于目标传播，验证和分割，我们支付0美元。15块0块25元，0元。12个。我们通过奖金制度激励指令编写者和追随者。对于每一条通过验证的指令，我们给作者一个0美元的奖励。25和追随者的奖金为0美元。10个。双方都有兴趣正确地完成任务。图表的大小使得跟随者很难，甚至不可能完成任务并在指令错误的情况下获得5. 数据统计和分析工作人员完成了11019份书面说明和12664份确认任务。89岁。1%的例子被正确验证，80。第一次尝试的1%和9。0%的第二。[4]在验证任务中，我们允许五次尝试寻找触地得分，但64%的任务只需要一次尝试。额外尝试的价值迅速衰减：只有1. 只有4%的任务在五次尝试后才成功。对于完整的任务和仅导航，TOUCH-DOWN包括9，326个示例，其中6，526个在训练集中，1，391个在开发集中，1，409个在测试集中。对于SDR任务，TOUCHDOWN包括9，326个唯一的解压缩和25，575个示例，其中17，880个用于训练，3，836个用于开发，3，859个用于测试。我们使用3这是大致的大小触地。这个数字并不直接由于不同的缩放，与SDR精度测量相当4由于街景数据的更新，一些路径被丢弃。SAIL（ paragraphs ）LANI（ paragraphs ）R2RTOUCHDOWN（SDR）TOUCHDOWN（导航）数据集数据集大小词汇大小平均文本长度房愿景？TOUCHDOWN九三二六五千六百二十五一百零八0导航九三二六四千九百九十九89岁。63实例%12543LF我最初的路径作为黄金标准的示范，并由原始作家的地方降落作为参考位置。表2显示了基本数据统计。平均指令长度为108。0代币。导航和SDR之间的平均重叠为11。4个代币。图5显示了文本长度的分布。总体而言，TOUCHDOWN包含了更大的词汇量和更长的导航指令比相关语料库。T OUCHDOWN中的路径比R2R [2]中的路径长，平均为35。与之相比，六、0的情况。SDR段的平均长度为29。8个标记，比常见的引用表达式数据集更长;引用-Instructiontoken sx's黄金分配Ig[16 ]第16话平均4个tokens，Google RefExp [22]表达式是8个。五、我们对TOUCH-DOWN进行定性语言分析，以了解解决问题所需的推理类型。图6. LingUNet架构，两层（m = 2）。修改所述架构以预测所述输入全景图像上的概率分布。导航和SDR任务。我们发现了一组-我们处理描述文本标记x's=nomena，并随机抽样25例，从开发，操作集，用每个操作的次数注释每个操作这一现象发生在文本中。表3显示了比较结果。hx1，x2， . ..... . 你好。 .，xli使用双向长短期记忆（LSTM）递归神经网络来生成l隐藏状态。前向计算为hf=我将TOUCHDOWN与R2R进行配对。TOUCH中的5个句子-f向下指的是许多更独特的，可观察的实体（10。七比三。7），和几乎所有的例子在TOUCHDOWN包括BiLSTM（n（x i），hi-1），i=1，. ..，l，其中k是学习的单词嵌入函数。我们计算后向隐藏-登说，hb类似。文本表示是一个断言-指的是之前提到的实体。在TOUCHDOWN中，更多的例子需要对计数进行推理，例如：我级联隐藏状态的年龄x=1Pli=1[hi ;h b]。对象的序列、比较和空间关系。在TOUCHDOWN中正确执行需要仅在满足某些条件时才采取行动，并确保代理我们的数据具有丰富的空间推理能力。我们区分两种类型：在多个对象之间（异中心）和在主体与其环境之间（自我中心）。我们发现，导航段包含更多的自我中心的空间关系比SDR段，SDR段需要更多的allocentric推理。这对应于两个任务：导航主要需要移动我们将RGB全景I映射到特征表示F0[14]第 18话：一个LING UNET执行m级卷积和去卷积操作。我们生成一系列特征映射Fk=CNNk（Fk-1），k=1，. ..，m与学习的卷积层CNN k。我们将文本表示x切片为m个大小相等的切片，并使用线性投影到1×1滤波器Kk。我们把每个特征将Fk映射到Kk，得到文本条件特征映射Gk=CONV（Kk，Fk）。我们使用m个反卷积运算来生成大小不断增加的特征图，以创建H1：（相对于环境的代理，而SDR需要解决空间中相对于其他对象的点。Hk=DECONVk（[Hk+1; Gk]），若k=1，. ..，m−1D ECONVk（Gk），若k=m.6. 使用LING UNET进行我们铸造SDR任务作为一个语言条件的图像重建问题，在那里我们预测的分布在整个观察到的图像上的降落的位置6.1. 模型我们使用LING UNET架构[25，5]，它最初是为了目标预测和规划指令而引入的LING UNET是UNET架构[29]的语言条件变体，UN ET架构是一种广泛用于图像分割的图像到图像编码器-解码器架构。LING UNET将语言融入到图像重建阶段，融合了两种模式。我们5SAIL、LANI分析见补充资料。我们通过使用具有ReLU非线性的单层感知器投影每个像素的通道向量来最后，我们使用SOFT MAX计算特征图上的概率分布。预测的位置是分布的模式。6.2. 实验装置评价指标见第3.2节，数据见第5节。学习我们使用监督学习。黄金标签是高斯平滑分布。分布的最大值的坐标是放置Touchdown的精确坐标。我们最小化了高斯分布和预测分布之间的KL发散系统我们评估三个非学习基线：（a）R ANDOM：随机预测像素;（b）C ENTER：预测...触地得分在柱子上自行车停在上面。BiLSTM全景IKL发散损失表示u预测分布PF0SoftmaxMLPF1G1H1F2H2LingUNetG2K1 K212544现象R2rTOUCHDOWN曲名：TOUCHDOWN整体导航SDRCµCµCµCµ参照唯一实体253 .第三章。72510个。7259 .第九条。2253 .第三章。2. . . 你. .共指80的情况。522二、4151 .一、1221 .一、5. . . 一座褐色的砖砌建筑，周围有黑色的栅栏。比较10的情况。060的情况。330的情况。150的情况。2. . . 熊在最近的轮胎中间测序40的情况。2221 .一、9211 .一、690的情况。4. . . 在下一个十字路口向左转。. .计数40的情况。2110的情况。590的情况。480的情况。3. . . 你可以看到远处有两个小小的绿色标志。. .非自我空间关系50的情况。225二、9171 .一、225二、2. . . 有一个消防栓，熊在上面自我中心空间关系201 .一、2254.第一章0233 .第三章。6191 .一、1. . .前面有一些旗杆在你的右手边...势在必行254.第一章025五、325五、240的情况。2... 进入下一个十字路口并停止...方向22二、8243 .第三章。7243 .第三章。710的情况。0. . .左转.继续前进时间条件70的情况。4211 .一、9211 .一、920的情况。1. . . 沿着这条路走，直到你看见右边有一所学校. .状态验证20的情况。1211 .一、8181 .一、5160的情况。8...你应该看到前面有一座小桥。. .表3.对TOUCHDOWN和R2R中25个随机抽样的发展实例进行语言分析。我们为每个例子注释每个现象的存在和计数。我们在TOUCHDOWN中区分整个文本、导航和SDR段的统计数据。c是25条指令中包含至少一个现象示例的指令数;µ是每种现象在25条指令中出现的平均次数。中心像素;（c）VERAGE：预测在训练集上计算的平均像素。除了两个层次的L ING UN ET（m=2），我们还评估了三个学习基线：C ONCAT、C ONCAT C ONV和TEXT 2C ONV。前两个计算图像的RES NEET 18特征图表示，然后将其与文本表示融合以计算像素概率。第三种方法使用文本来计算核函数，以卷积RES NEET 18图像表示。补充材料提供了进一步的细节。6.3. 结果表4显示了开发和测试结果。非学习基线的低绩效说明了任务的挑战性。我们还尝试了一个UNET架构-类似于我们的LINGUNET的结构，但无法访问该语言。这一结果表明，视觉偏见存在于数据中，但只能使相对方法A/C@40pxA/C@80pxA/C@120pxDist发展成果RANDOMC输入AVerage0的情况。18比0 000的情况。55/0。071 .一、88比0 070的情况。59/0. 001 .一、62比0 074.第一章22/0。291 .一、28/0。003 .第三章。26/0。367 .第一次会议。14/0791185777762UNET10个。86/2. 69十三岁94/3. 31十六岁69/3。91957CONCATCONCAT CONVTEXT 2CONVLING UNET十三岁70/322十三岁56/3。24二十四岁03/7. 60二十四岁81/7。73十七岁85/4。46十八岁00/4.5829岁36/10。02三十二83/13.0021岁16/5。4721岁42/571三十二60/11.42三十六44/150191791878372912545较低的性能。所有的学习系统都优于非学习基线和UNET，其中LING UNET表现最好。图7示出了使用LIN-G UNET的像素级预测。分布预测被可视化为覆盖在图像上的热图。LING UNET经常成功地完全解决了图像中唯一对象的描述，例如顶部图像中的消防栓下面的例子更具挑战性。虽然模型正确地推理出触地是在门口上方的一盏灯上，但它没有找到确切的门。相反，概率分布在多个相似位置之间共享，即图像中其他三扇门上方的空间。7. 导航基线7.1. 方法和设置我们评估三个非学习基线：（a）S TOP：代理立即停止;（b）R ANDOM：制剂样品表4.SDR任务的开发和测试结果我们报告了不同阈值（40，80和120）和平均距离误差的准确性/一致性（A/C）。均匀地不停止动作，直到到达动作水平区;和（c）F频繁：智能体总是在训练集中采取最频繁的动作（FORWARD）。我们还评估了两个最近的导航模型：（a）GA：门控-注意力[6];以及（b）RC ONCAT：最近推出的用于在使用街景图像的环境中进行基于地标的导航的模型[24]。我们用类似于SDR任务的RESNEET我们使用多个客户端进行异步训练以在训练数据的不同分区上生成转出。我们使用HOG-WILD计算梯度和更新！[27]和一个DAM学习率[17]。我们通过最大化参考演示中的动作的对数似然来使用监督学习。模型、学习和超参数的细节在补充材料中提供。12546一辆白色/灰色客货车会停在道路右边，而在客货车后面的人行道上，有一个银色顶部的黑色消防栓，接地点位于消防栓的银色部分。一个黑色的门口，右边是红砖，左边是绿砖。在门口上方有一盏灯，在那盏灯上你可以找到着陆点。图7.使用LING UNET进行SDR像素级预测。红色覆盖的像素指示高斯平滑的目标位置。亮绿色覆盖表示模型7.2. 结果表7显示了我们的三个评估指标的开发和测试结果（第3.1节）。STOP、FREQUENT和RANDOM说明了任务的复杂性。学习的基线表现更好。我们观察到RCONCAT在所有三个指标上都优于GA。但总的来说，表现说明了任务的挑战性。8. 完成任务绩效我们使用一个简单的管道组合的最佳模式-软件无线电和导航任务的元素来完成全部任务。任务完成是以找到着陆点来衡量的。我们观察到的准确度为4。5%，阈值为80px。相比之下，人类的表现要高得多。我们使用我们的注释统计来估计人类的表现[32]。为了避免垃圾邮件和不可能的例子，我们只考虑成功验证的例子。然后，我们衡量的工人，完成了30多个任务，这些有效的例子的性能。其中包括55名工人。由于某些示例需要多次尝试来验证，因此此集合包括工作者未能执行但后来被验证的任务这组工人使用有效任务集的平均性能是92%的准确率。9. 数据分发和许可我们将环境图作为全景ID和边缘发布，使用GoogleAPI下载RGB全景的脚本，收集的数据和我们的代码在touch-down.ai。这部分数据是用CC-BY 4发布的. 0许可证。保留下载的照片应遵循Google我们还通过请求表格发布了RESNET 18图像的RGB屏幕功能完整的许可证与数据一起提供。表5.开发和测试导航结果。10. 结论我们介绍了TOUCHDOWN，这是一个使用真实视觉观察进行自然语言导航和空间推理的数据集。我们定义了两个任务，需要解决一组不同的推理和学习的挑战。我们的语言驱动的分析表明，数据提出了复杂的空间推理的挑战。这说明了使用反映人们在日常生活中看到的观察类型的视觉输入的好处，并证明了我们目标驱动的数据收集过程的有效性。确认这项研究得到了Google Faculty Award，NSF AwardCAREER-1750499，NSF Graduate Research FellowshipDGE-1650441的支持，以及Eric和WendySchmidt的慷慨支持。我们要感谢Jason Baldridge的大力帮助和建议，以及Valts Blukis和匿名评论者的有益评论。方法TCSPDSED发展成果顶级0的情况。0二十六岁70的情况。0F频率0的情况。152岁30的情况。001RANDOM0的情况。2二十六岁80的情况。001GA7 .第一次会议。921岁50的情况。07712547引用[1] P. Anderson，A. X.张氏D. S. Chaplot，A. 多索维茨基S. 古普塔河谷Koltun，J.Kosecka，J.马利克河，巴西-地莫塔吉，M. Savva和A.R. 扎米尔论具身导航代理的评价CoRR，abs/1807.06757，2018。3[2] P. Anderson，Q. Wu，D. 作者：J. 约翰逊先生，N.松德豪夫岛D. Reid ，S. Gould ，和A. 在母鸡身上。视觉和语言导航：在真实环境中解释视觉导航指令。在IEEE计算机视觉和模式识别会议论文集，2018。一、二、五、六[3] S. Antol，A. Agrawal，J. Lu，M.米切尔，D。巴特拉角L. zitnick 和 D. 帕里克 VQA ：可视化问答。IEEEInternational Conference on Computer Vision ，第2425-2433页，2015年。一、二[4] Y. Bisk ， D. Marcu 和 W. 黄。 Towards a Dataset forHuman Computer Communication via Grounded LanguageAcquisition（英语：Grounded Language Acquisition）在AAAI Sym-biotic Cognitive Systems研讨会上，2016年。1[5] V. Blukis，D.米斯拉河A. Knepper和Y.阿齐将导航指令映射到具有位置访问预测的连续控制动作。在机器人学习会议论文集，2018年。6[6] D. S. Chaplot，K. M.萨蒂延德拉河K. Pasumarthi，D.Ra- jagopal和R.萨拉赫季诺夫面向任务的语言基础的门控注意力架构。在AAAI人工智能会议上，2018年。7[7] D. L. Chen和R. J·穆尼学习从观察中解释自然语言导航指令。在2011年全国人工智能会议论文集。11[8] X. Chen，H. 方，T.- Y. 林河，巴西-地 Vedantam、S.古普塔P. Doll a'r和C. L. 齐特尼克MicrosoftCOCOCaptions：数据收集和评估服务器。CoRR，2015年。2[9] A.达斯，S。达塔湾Gkioxari，S. Lee，D. Parikh和D.巴-特拉。具体化的问题回答。在IEEE计算机视觉和模式识别会议集，2018年。一、二[10] H. de Vries ， K. Shuster ， D. Batra ， D. Parikh ， J.Weston，andD. 基拉 Talk the Walk ： Navigating New York Citythrough Grounded Dialogue （英语： Talk the Walk ：Navigating New York City through Grounded Dialogue）arXiv预印本arXiv：1807.03367，2018。2[11] O. 戈德曼 Latcinnik ， E.Nave 、黑腹拟步行虫A.Globerson和J.咆哮。弱监督语义分析与抽象实例。在计算语言学协会年会的会议记录中，第1809-1819页，2018年。3[12] D. Gordon，A. Kembhavi，M. Rastegari，J. Redmon，D.Fox和A.法哈迪。IQA：交互环境中的可视化问答在IEEE计算机视觉和模式识别会议论文集，2018。一、二[13] Y. 戈亚尔 T. 霍特 D. 萨默斯-留下来 D. 巴特拉和D.帕里克使VQA中的V变得重要：提升图像理解在视觉问答中的作用。在IEEE计算机视觉和模式识别会议论文集，2017年。2[14] K. 他，X。Zhang，S.Ren和J.太阳用于图像识别的深度残差在IEEE计算机视觉和模式识别会议上，第770-778页，2016年。六、十一[15] S. Hochreiter和J.施密特胡博长短期记忆。神经计算，9，1997。11[16] S. Kazemzadeh，V.Ordonez M.Matten和T.伯格。参考-ItGame：指自然景物照片中的物体。自然语言处理经验方法会议论文集，第787-798页，2014年。一、二、六[17] D. Kingma和J. BA. Adam：一种随机优化方法。在2014年学习表征国际会议上七、十二、十三[18] N. Kitaev和D.克莱恩米丝蒂在哪通过对空间区域建模来解释在自然语言处理经验方法会议论文集，第157-166页，2017年。2[19] E.科尔韦河Mottaghi，D. Gordon，Y. Zhu，中国茶青冈A.Gupta和A.法哈迪。AI 2-THOR：一个用于视觉AI的交互式3D环境。arXiv预印本arXiv：1712.05474，2017。1[20] T.- Y. 林，M。迈尔，S。J. 贝隆吉湖D. 布尔代夫河B.吉尔希克，J。海斯角Perona，D. 拉马南山口 Doll a'r和C. L. 齐特尼克Microsoft COCO：上下文中的常见对象。2014年欧洲计算机视觉会议。一、二[21] M. 麦克马洪湾 Stankiewics ，和 B. 柯伊普斯 Walk theTalk：在路线指导中连接语言、知识和行动。在2006年全国人工智能会议论文集。五十一十二[22] J. Mao，J. Huang，A.托舍夫岛Camburu，A.尤尔，还有K.墨菲无歧义对象描述的生成与理解。在IEEE计算机视觉和模式识别会议上，第11-20页，2016。一、二、六[23] C. Matuszek，N.菲茨杰拉德湖S. 泽特勒莫耶湖Bo和D.狐狸.一种用于扎根属性学习的语言和感知联合模型。2012年国际机器学习会议论文集。1[24]P. Mirowski，M.K. Grimes，M.Malinowski，K.M. 赫尔曼K. 安德森，D.Tezarashin，K.Simonyan，K.Kavukcuoglu，A. Zisserman和R.哈德塞尔学习在没有地图的城市中导航神经信息处理系统进展，2018年。七、十二、十三[25]

下载后可阅读完整内容，剩余1页未读，立即下载