拓扑地图与全局行动规划

54 浏览量更新于2023-10-26 收藏 1.18MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

说明书“你好，我好拓扑映射全球行动规划图更新B一CFJ粗尺度编码GDeg我指令全景编码动态融合H细尺度编码he下G 地方行动最短路径规划位置h环境地图地图 -1思考全球，行动本地：用于视觉和语言导航Shizhe Chen< $，Pierre-Louis Guhur<$，Makarand TapaswiZhao，Cordelia Schmid<$ andIvan Laptev<$†Inria，E'cole normale supe' rille，CNRS，PSL Research University IIIT Hyderabadhttps://cshizhe.github.io/projects/vln_duet.html意见步骤三：全景+GPS定位G步骤1+ 1：全景+GPS定位H图1.智能体需要在看不见的环境中导航，根据语言指令到达目标位置。它只获得对环境的局部观察，并被允许进行局部行动，即，移动到邻近的位置。在这项工作中，我们建议建立拓扑地图的飞行，使长期的行动规划。地图包含访问过的节点和可从先前访问过的节点到达的可导航节点。我们的方法预测全局动作，即，地图中的所有可导航节点，并通过将粗尺度图编码与当前节点处的观测的细尺度编码相结合来权衡复杂性。摘要遵循语言指令在未知环境中导航是自主实体智能体面临的一个挑战性问题智能体不仅需要在视觉场景中建立语言基础，而且还需要探索环境以达到其目标。在这项工作中，我们提出了一个双尺度图transformer（DUET）的联合长期行动规划和细粒度的跨模态理解。我们建立一个拓扑地图上的飞行，使有效的探索在全球行动空间。为了平衡大动作空间推理和细粒度语言基础的复杂性，我们动态地结合了对局部观测的细尺度编码和通过图形变换器对全局地图的粗尺度所提出的方法，DUET，显着优于国家的最先进的方法，面向目标的视觉和语言导航（VLN）基准REVERIE和SOON。它还提高了细粒度VLN基准测试R2R的成功率1. 介绍自主导航是智能体的一项基本能力。考虑到自然的便利性作为人机交互的通用语言，自主代理还应该能够理解人类指令并根据人类指令行事。为了实现这一目标，视觉和语言导航（VLN）[1]是一个具有挑战性的问题，吸引了大量最近的研究[2VLN要求智能体遵循语言指令，并在看不见的环境中导航，以到达目标位置。VLN的初始方法[2 - 4 ]使用细粒度的指令，提供分步导航指导，例如“走出卧室。右转，沿着走廊走。在走廊尽头左转。走到沙发前停下来。这种细粒度的VLN任务支持详细说明的基础更方便的互动与代理可以实现目标导向的指令[7，8]，如然而，这项任务更具挑战性，因为它需要房间和物体的接地以及对环境的有效探索以达到目标。为了有效地探索新的领域，或纠正以前的决定，代理应该跟踪已经执行的指令和访问过的位置在其体系结构。许多现有的VLN方法[2，1016537216538R使用循环体系结构的存储器，例如，LSTM，并将导航历史浓缩在一个固定大小的向量中。可以说，这种内隐记忆机制对于存储和利用具有丰富时空结构的先前经验可能是低效的。最近的一些方法[15，16]建议显式存储以前的观察和动作，并通过transformers [17]对动作预测的长期依赖性进行建模。然而，这些模型只允许局部动作，即，移动到邻近的位置。因此，代理必须运行其导航模型N次以回溯N个步骤，这增加了不稳定性和计算量。一个潜在的解决方案是建立一个地图[18]，明确跟踪所有访问和可导航的位置观察导航存储器视觉记忆动作空间迄今地图允许代理制定有效的长期导航计划。例如，智能体能够从地图中的所有可导航位置中选择长期目标当前位置循环状态到访位置细粒度表示行动地图，然后使用地图计算最短路径，目标. 拓扑映射已经被以前的VLN工作探索[8，19，20]。然而，这些方法在两个方面仍然存在不足。首先，它们依赖于循环体系结构来跟踪导航状态，如图2中间所示，这会极大地阻碍探索的长期推理能力。其次，拓扑图中的每个节点通常由压缩的视觉特征表示。这样的粗略表示降低了复杂性，但是可能缺乏在指令中对细粒度对象和场景描述进行基础化的细节。我们的方法解决了这两个缺点，第一个是基于一个Transformer架构，第二个是一个双尺度的行动规划方法。本文提出了一种具有拓扑映射的双尺度图如图1所示，我们的模型由两个模块组成：拓扑映射和全球行动计划。在拓扑映射中，我们通过将新观察到的位置添加到地图并更新节点的视觉表示来构建随时间变化的拓扑地图。然后，在每个步骤中，全局动作规划模块预测地图中的下一个位置或停止动作。为了平衡细粒度的语言基础和大型图上的推理，我们建议动态融合来自双尺度的动作预测：当前位置的细尺度表示和地图的粗尺度表示。特别地，我们使用transformers来捕获跨模态的视觉和语言关系，并通过将图的拓扑知识引入transformers来改进映射编码。我们通过行为克隆和辅助任务对模型进行预训练，并提出了一个伪交互式演示器来进一步改进策略学习。DUET在面向目标的VLN基准测试REVERIE和SOON上的性能明显优于最先进的方法它还提高了细粒度VLN基准测试R2R的成功率总之，我们的工作有三方面的贡献：• 我们提出了一个双尺度图Transformer（DUET）图2.方法比较。HAMT [15]存储导航和视觉记忆，以捕获动作预测中的长距离依赖性，但仅限于局部动作空间。基于图形的方法[8，19，20]使用拓扑图来支持全局动作空间，但受到循环导航记忆和粗尺度视觉表示的影响。我们的DUET模型克服了以前的限制，在地图上进行双尺度编码。VLN的拓扑图它结合了粗尺度地图编码和细尺度编码的当前位置的有效规划的全球行动。• 我们采用图形变换器来编码拓扑图，并学习跨模态关系的指令，使动作预测可以依赖于一个长距离的导航记忆。• DUET在面向目标的VLN基准测试中达到了最先进的水平，在具有挑战性的REVERIE和SOON数据集上的成功率（SR）提高了20%以上。它也推广到细粒度的VLN任务，即，将R2R数据集上的SR增加4%。2. 相关工作视觉和语言导航（VLN）。涉及指令遵循的导航任务[2 - 6，9，21 - 23 ]越来越受欢迎。初始VLN方法主要采用具有交叉模态衰减的递归神经网络[2，10，13，24，25]。最近，基于transformer的架构在VLN任务中已经显示出成功[26]，特别是通过利用预先训练的架构。例如，PRESS [27]采用BERT [28]进行指令编码。ViLBERT的不同变体在[29，30]中用于测量指令和视觉路径之间的兼容性，但不能用于顺序动作预测。递归VLN-BERT [14]通过在用于动作预测的Transformer架构中注入递归单元来解决该限制。而不是依赖于一个经常性的状态，RDUET基于图HAMT[第（我们[8、19、216539→一O∈NRANNi=1EVG Gi=1G{V E}i=1i=1W{}R {}O{}EE.T. [16]和HAMT [15]直接使用转换器来捕获对所有过去观测和动作的长期依赖性（见图2中的第一行）。导航地图。视觉导航的工作有着悠久的传统，使用SLAM [31]来构建环境的度量地图[32]，使用非参数方法 [33] ，神经网络 [34 ， 35] 或两者的混合 [36] 。Anderson等人[37]将这种度量映射用于VLN任务。然而，实时导航中度量地图的构建是一个挑战，需要精确的确定。因此，一些作品[38，39]建议将地图表示为拓扑结构，用于预先探索环境[40]，或用于回溯到其他位置，权衡导航精度与路径长度[10，24]。最近的一些VLN作品[8，19，20]使用拓扑图来支持全局行动规划，但它们使用递归架构进行状态跟踪，并且还缺乏用于语言基础的精细尺度表示，如图2所示。我们通过一个具有拓扑图的双尺度图Transformer来解决上述限制。序列预测的训练算法。行为克隆是序列预测中应用最广泛的训练算法。然而，它受到训练和测试之间的分布变化的影响。为了解决这一限制，已经提出了不同的训练算法，例如预定采样[41]，Dagger [42]，强化学习（RL）[43]。大多数VLN作品[13，14]结合了行为克隆和A3C RL [44]。Wang等人[45]建议通过软专家蒸馏来学习奖励。由于在奖励稀疏的任务中使用RL的困难，我们转而使用交互式演示器来模仿专家并在顺序训练中提供监督。3. 方法问题表述。在离散环境的标准VLN设置[2，7，8]中，环境是一个不规则图G={V，E}，其中V={Vi}K表示B行动DeBCC一DF一FDeDee“t“1G新观察“tG图3.图在时间步长t处更新的图示。给定一个新的动作de，代理在节点e处接收新的观测。然后添加新节点并更新节点表示。与其相邻节点（Vt）以及它们的坐标相对应的可变视图（Vt）的可导航视图是t的子集。步骤t处的可能局部动作空间t包含导航到Vi（Vt）并在Vt处停止。在智能体决定停在一个位置之后，它需要预测目标对象在全景中的位置探索能力和语言基础能力是虚拟语言智能体的两项然而，现有的作品要么只允许局部动作t[13-15 ]，这阻碍了长期动作规划，要么缺乏对象表示t [ 8，19，20 ]，这可能不足以进行细粒度的我们的工作解决了这两个问题的双重-规模代表性和全球行动规划。概况. 如图1所示，我们的模型由两个可学习的模块组成，即拓扑映射和全局行动规划。拓扑映射模块随时间逐渐构建拓扑图。然后，全局动作规划模块基于粗尺度全局观测和细尺度局部观测执行双尺度推理。在下文中，我们将在Sec.3.1和第二节中的全球行动计划。3.2. 在本节结束时，我们将介绍我们训练模型的方法，并将其用于第二节的推理。三点三3.1. 拓扑映射环境图G最初是未知的。K个可导航节点，以及表示连接边。一个智能体配备了RGB摄像头和GPS传感器，并在以前看不见的环境中的起始节点处初始化。代理的目标是解释自然语言指令，并遍历图到目标位置，找到指令指定的对象=w iL是具有L个字的指令的字嵌入。在每个时间步t，代理接收其当前节点Vt的全景视图和位置坐标。全景被分割成n个图像t=rin，每个图像由图像特征向量ri和唯一取向表示。为了实现细粒度的视觉感知，使用注释的对象边界框或自动对象检测器在全景中提取m个对象特征t=oim[46]。此外，代理商还知道一些导航-代理，因此，我们的模型逐渐建立自己的地图我们-设t=t，t，其中Kt个节点，t是在t个导航步骤之后观察到的环境的地图。t中有三种类型的节点（参见图1）：（i）访问过的节点;（ii）可导航的节点;以及(iii)当前节点。代理可以访问已访问节点和当前节点的全景视图。可导航节点是未探索的，并且仅从已访问的位置部分观察到，因此，它们具有不同的视觉表示。在每一步t，我们将当前节点Vt及其相邻的未访问节点N（Vt）到Vt-1，并相应地更新t-1，如图3所示。鉴于在Vt处的新观察，我们还如下更新当前节点和可导航节点的视觉节点的可视表示在时间步t，代理216540RONRROW√R OE我0i=1R O接收节点Vt的图像特征t和对象特征t。我们使用多层Transformer [17]来建模图像和对象之间的空间关系转换器的核心是自我注意障碍：[R′t，Ot′]=SelfAttn（[Rt，Ot]），（1）. XW q（XW k）T未探测的节点以这种方式，访问的节点被编码有不同的导航历史，以改善与指令的对齐。我们在图中添加一个图形感知的跨模态编码。编码的节点和词嵌入被馈送到多层图中-SelfAttn（X）= Softmaxd（2）第一章感知跨模态Transformer。每个Transformer层包括一个交叉注意层[47]来建立关系其中W∈Rd×d是参数，偏差被省略。为了便于标记，我们在下面仍然使用Rt，Ot而不是R′t，Ot′来表示编码的嵌入。然后，我们通过t和t的平均池化来更新当前节点的视觉表示。由于智能体也部分地观察V t处的（V t），因此我们基于嵌入t中的相应视图来积累这些可导航节点的视觉表示。如果可导航节点具有在多个地点被看到，我们平均所有的部分-以及用于编码环境布局的图形感知自关注层。Eq中的标准注意力。（2）只考虑节点之间的视觉相似性，因此可能会忽略比远距离节点更相关的邻近节点。为了解决这个问题，我们提出了图感知的自注意力（GASA），它进一步考虑了图的结构来计算注意力，如下所示：将视图嵌入作为其视觉表示。我们用viGASA（X）=Softmax. XW q（XW k）T+M（3）第一章以表示每个节点Vi的池化视觉表示。这样的粗尺度表示能够在大型图上进行有效的推理，但是可能无法为细粒度语言基础提供足够的信息，特别是对于对象。因此，我们保持t，t作为当前节点V t的细粒度视觉表示，以支持细尺度的详细推理。3.2. 全球行动规划图4说明了全球行动规划模块。粗尺度编码器对所有恶意访问的节点进行预测，但使用粗尺度视觉表示。细尺度编码器相反地预测给定当前位置的细粒度视觉表示的本地动作。两个编码器的动态融合结合了全局和局部动作的预测。3.2.1文本编码器对于每个单词embedding in，添加一个与单词位置对应的位置embedding [28]在句子中和文本的类型嵌入[47]。所有单词标记然后被馈送到多层Transformer中为了获得上下文单词表示，这里表示为DM=EWe+be，（4）其中，X表示节点表示，E是从t获得的成对距离矩阵，We、be是两个可学习参数。我们在编码器中堆叠N个层，并将节点V i的输出嵌入表示为Vi。全球行动预测。我们预测Gt中每个节点Vi的导航得分如下：sc=FFN（v∈i），（5）其中FFN表示两层前馈网络。值得注意的是，sc是停止分数。在大多数VLN任务中，代理没有必要重新访问节点，因此如果没有特别提到，我们会屏蔽访问过的节点的分数。3.2.3精细尺度交叉模态编码器该部分涉及地图中的当前位置Vt以实现精细尺度的跨模态推理。输入是指令W和细粒度可视表示当前节点的{Rt，Ot}该模块预测局部动作空间（At）中的导航动作，并将W={w1，···，wL}。3.2.2粗尺度交叉模态编码器该模块采用粗尺度映射Gt和编码指令Wt来在全局动作空间（AtAi）上进行图像预测对象在最后一个时间步。视觉嵌入。我们将两种类型的位置嵌入添加到t，t。第一种类型是地图中相对于起始节点的当前位置。这种嵌入有助于理解指令中的绝对位置，例如然后，对于Vi∈ N（Vt），我们加上节点嵌入。向节点可视特征vi添加一个位置编码和导航步骤编码。位置编码在自我中心视图中216541嵌入地图中节点的位置，其是相对于当前节点的方向和距离。导航步骤编码为已访问节点嵌入最新访问时间步长，第二位置嵌入，每个位置嵌入的相对位置与当前节点相邻的节点。它帮助编码器实现自我中心的方向，如一个特殊的细粒度交叉模态推理。我们连接[r0;Rt;Ot]作为视觉标记，并利用标准的多-216542拓扑映射粗尺度交叉模态编码器图更新全池部分合并$节点VKv#Kv1v0节点嵌入交叉-注意图形感知的自我注意FFN全局动作预测阿勒特v#1v#0sc，s联系文本w1文本嵌入文本编码器多层Transformer第1期动态融合FFN的t%s#，%s，%s$WLw#L本地全球r1r1̂ƒ,⋯,ƒ0&R1图像嵌入交叉-注意自我注意FFNr2001地方行动全景编码$美精细尺度交叉模态编码器预测$#$Objec tPr edic tioi=1i=1i=1我一我科德河因此，我们首先计算局部活性分数sf∈SAPt=1不<不PP.R1⋯R&一块钱⋯$美元图4.DUET由拓扑映射（左）和全局行动规划（右）组成映射模块输出具有K的图节点特征{vi}K，以及具有图像特征{ri}n和对象特征{oi}m的当前全景编码。节点特征v0和图像特征r0用于指示全局动作规划使用变换器进行粗尺度和细尺度跨模态编码，并融合两个尺度以获得每个节点的全局动作得分si层交叉模态转换器Transformer [47]来模拟视觉和语言关系。视觉标记表示为r=0，R=t，O=t，关于ively。局部动作预测和对象接地。我们在局部动作空间中预测了一个迁移分数sf类似于Eq。（五）、此外，作为目标导向的VLN任务，要求对象接地，我们进一步使用FFN生成对象分数的基础上O的。3.2.4动态融合我们建议动态地融合粗和细尺度的动作预测，以更好地进行全局动作预测。然而，精细尺度编码器预测与粗尺度编码器不匹配的局部动作空间中的3.3. 训练和推理训练前。如[15，16，26]所示，使用辅助任务作为初始化来预训练基于变压器的VLN模型是有益的。因此，我们首先基于离线专家演示和行为克隆以及其他常见的视觉和语言代理任务来预训练我们的模型。如果对象注释可用，我们使用掩码语言建模（MLM）[28]，掩码区域分类（MRC）[48]，单步动作预测（SAP）[15]和对象接地（OG）[49]。《易经》和《易经》的区别在给定演示路径P的情况下，IOR克隆如下：L=T−logp（a|（9）第一章{stop，N（Vt）}我进入全球行动空间。为了导航-LOG= −logp（o| W，PT）（10）连接到未连接的其他未探索节点其中，专家操作是部分演示路径的专家操作当前节点时，代理需要回溯通过它的默认路径相邻的访问节点。因此，我们将N（Vt）中的已访问节点的得分相加作为总体回溯得分斯巴克河我们保留sf∈{stop，N（Vt）}的值，并使用

下载后可阅读完整内容，剩余1页未读，立即下载