基于神经拓扑的视觉导航SLAM研究

197 浏览量更新于2023-10-23 收藏 1.38MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于神经拓扑的视觉导航SLAMDevendra Singh Chaplot1†，Ruslan Salakhutdinov1，Abhinav Gupta1，2，SaurabhGupta31卡内基梅隆大学，2Facebook AI Research，3UIUC项目网页：https://devendrachaplot.github.io/projects/Neural-Topological-SLAM摘要本文研究了图像-目标导航问题，即在一个新的未知环境中导航到目标图像所指示的位置。为了解决这个问题，我们设计了空间的拓扑表示，有效地利用语义和提供近似几何推理。我们的代表的核心是节点与相关的语义特征，使用粗糙的几何信息互连我们描述了监督学习为基础的算法，可以建立，维护和使用这种表示噪音驱动。在视觉和物理逼真模拟的实验研究表明，我们的方法建立有效的表示，捕捉结构的错误，并有效地解决长期的导航问题。我们观察到超过50%的相对改善现有的方法，研究这项任务。1. 介绍想象一下，你是在一个新的房子，如图1所示，你的任务是找到一个目标对象，如图1（顶部）。虽然有多个可能的方向移动，我们大多数人会选择路径2移动。这是因为我们使用了强结构先验-我们意识到目标是一个烤箱，它更有可能在厨房里找到，似乎可以通过路径2到达。现在让我们假设，一旦你到达烤箱，你的目标是回到你最初看到的客厅。你将如何导航？这个问题的答案在于我们人类如何存储我们刚刚走过的房子的地图（或布局）。一个可能的答案是度量地图，在这种情况下，我们可以确切地知道要走多少步才能到达客厅。但这显然不是我们人类的运作方式[16，41]。相反，我们中的大多数人会首先走出厨房，移动到走廊，然后导航门到客厅，这是从走廊可见从上面的例子可以看出，主要有两个方面。†通讯地址：chaplot@cs.cmu.edu*同等贡献图1：语义先验和地标。当被要求去烤箱的目标图像时，大多数人会使用路径编号2，因为它允许进入厨房。人类每天都使用语义先验和常识来探索和导航，但大多数导航算法都很难做到这一点。一个成功的视觉导航算法的组成部分：（a）建立空间表示和存储它们的能力;（b）利用结构性先验的能力。当涉及到空间表示时，导航领域的大多数论文都坚持建立自由空间的度量精确表示。然而，度量映射有两个主要缺点：首先，度量地图不能很好地随环境大小和经验量而缩放。但更重要的是，真实机器人上的致动噪声使得构建一致的表示具有挑战性，并且精确定位可能并不总是可能的。当涉及到利用结构先验时，大多数基于学习的方法都没有明确地对这些进行建模。相反，他们希望学习的策略函数隐式地编码了这些先验。但目前还不清楚这些策略函数在通过RL学习时是否可以编码语义先验。在本文中，我们建议正面解决这两个问题。而不是使用度量地图是脆弱的本地化和噪声，我们提出了一个拓扑表示的空间。我们提出的表示consts的节点，连接在一个图形的形式，根据当地的几何信息。每一个节点都代表着1287512876图2：模型概述。该图显示了所提出的模型，神经拓扑SLAM的概述。它由3个组件组成，一个图形构建模块，它在接收到观察结果时更新拓扑图，一个全局策略，它对子目标进行采样，以及一个本地策略，它采取导航操作以达到子目标。更多详细信息请参见文本。通过360度全景图像直观地呈现出来。节点使用它们之间的近似相对姿势彼此连接但是，使我们的可视化拓扑图新颖的是两个方向函数Fg和Fs，它们提取了节点的几何和语义属性。具体而言，Fg估计代理遇到免费-空间和Fs估计目标图像被增强的可能性。如果代理在特定方向上移动，则计数。通过显式建模和学习函数Fs，我们的模型确保在探索和导航新的未知环境时编码和使用结构先验。我们的表示与经典和基于端到端学习的方法相比几乎没有优势：（a）它使用基于图形的表示，允许有效的长期规划;（b）它通过函数显式编码结构先验（c）几何函数Fg允许针对新环境的有效探索和在线地图构建;（d）但最重要的是，所有的功能和策略都可以以完全监督的方式学习，从而无需通过RL进行不可靠的信用分配。2. 相关工作我们的论文在导航问题的以下多个方面做出了贡献：空间表示，导航策略的训练范式，以及不同的导航任务。我们在下面的这些领域调查工作。导航任务。导航任务可以分为两大类。第一类任务是目标位置已知的任务，需要进行有限的探索。这可以是简单的漫游而不碰撞的形式[15，33]，跟随对象[22]，到达目标坐标[1，17]：使用沿着路径的图像序列[5，21]或基于语言的指令[2]。有时，目标被指定为图像，但来自环境的经验可以以演示的形式[13，34]或以奖励为基础的培训[24，47]的形式提供，这再次限制了探索的作用第二类任务是当目标未知时，需要探索。例如，在一个新的环境中发现一个物体[17]，或房间[42]，或明确的探索[6，9]。这些任务类别涉及不同的挑战。前者的任务集中在有效的检索和鲁棒的执行，而后者的任务涉及语义和常识推理，以有效地在以前看不见的环境中操作。在这项工作中，我们的重点是在一个新的环境中达到目标图像的任务。除了目标图像之外，环境中没有可用的体验。我们经典空间表现。空间和拓扑表示在机器人导航中有着丰富的历史。研究人员使用了显式度量空间表示[12]，并考虑了如何使用不同的传感器构建这种表示[19，26最近的工作已经开始将语义与这种空间表示相关联[4]。类似地，非度量拓扑表示在经典文献中也被考虑过[10，20，23]。一些作品结合了拓扑和度量表示[39，40]，一些研究语义的拓扑表示[20]。虽然我们的工作建立在现有的文献拓扑地图，相似之处只是在高层次的图形结构。我们的工作重点是使可视化拓扑映射和探索可扩展，强大和高效。我们通过在拓扑图中表示语义和几何属性来实现这一点;能够以在线方式构建拓扑图，最后将学习问题作为监督问题。学习空间表达。根据所考虑的问题，不同的表示法进行了研究。对于短程运动任务，纯反应策略[3，15，22，33]就足够了。对于更复杂的问题，例如在新环境中的目标驱动导航，这种纯粹的反应策略效果不佳[47]，并且已经研究了基于内存的策略。这可以是普通神经网络存储器的形式，如LSTM [25，29]或变压器[14]。研究人员12877图3：几何可勘探区域预测（FG）。图-图1示出了样本输入图像（I）和几何可探索区域预测函数（FG）的输出预测。绿色框显示的是供参考的门道，不能作为输入。他们还将经典文献中的见解融入到用于导航的表达性神经记忆的设计中。这包括空间记忆[17，30]和拓扑方法[8，13，34，35，42，45]。学习空间方法可以获得表达性空间表示[17]，然而，它们因依赖于度量一致性而受到瓶颈，因此大多数情况下，对于相对较短的任务，它们在离散状态空间中工作[17，30]。研究人员还解决了被动和主动定位的问题[7，26]，以帮助建立这种一致的度量表示。一些拓扑方法[8，13，34]与人类探索或预先构建的拓扑地图一起工作，从而忽略了探索的问题。其他人构建了一个具有显式语义的拓扑表示[42，46]，这限制了可以处理的任务和环境。与过去的工作相比，我们统一的空间和拓扑表示的方式，是强大的致动错误，展示了我们如何能够逐步和自主地建立拓扑表示，并做语义推理。培训方法。不同的任务还导致为培训导航政策设计不同的培训方法。这包括具有稀疏和成形奖励的强化学习[24，25，31，33，47]，模仿学习和DAger [17，32]，针对单个组件的自我监督学习[15，34]。虽然RL允许学习丰富的探索行为，但使用RL的训练策略是出了名的困难和样本效率低下。模仿学习是样本有效的，但可能不允许学习探索行为。自我监督学习很有前途，但只在已知目标任务的背景下进行过实验。我们采用了一种监督学习方法，并展示了我们如何仍然可以学习表达性探索行为，同时又不会受到训练样本复杂性的影响图4：语义得分预测（FS）。该图显示了语义得分预测函数（F S）的输入和输出预测示例。分数预测会根据进球图像而变化。当目标图像是客厅（左）时，中心的方向的得分较高，因为它们通向客厅房间当目标图像是卧室（右）时，与左边的路径相对应的分数更高，因为它们更有可能通向卧室。3. 任务设置我们考虑一个自主的代理人位于情节的环境。在情节开始时，智能体接收目标图像IG。在每个时间步t，智能体接收来自环境的观测（st每个ob-boundary由当前的第一人称图像观测，It，从一个全景相机和一个姿态估计从一个嘈杂的运动传感器。在每一个时间步，智能体采取一个导航动作。目的是学习一项政策π（a t|s t，I G）以达到目标图像。在我们的实验设置中，所有的图像都是假的，包括代理观察者-目标和形象。4. 方法我们提出了一个模块化的模型，“神经拓扑SLAM（NTS）”，它建立和维护一个拓扑地图的导航。拓扑图表示使用一个图，表示为G t在时间t。图（Ni）中的每个节点与全景图像（INi）相关联，并且表示在该图像中可见的区域如果两个节点表示相邻区域，则它们由边（Ei，j）连接每条边还存储两个节点之间的相对姿态，我们的模型由三个部分组成，一个图形更新模块，一个全局策略，和一个本地策略.在高级别上，图形更新模块基于代理观察更新拓扑图，全局策略选择图形中的节点作为长期目标，并使用路径规划找到子目标以达到目标，并且局部策略基于视觉观察导航到子目标图2提供了所提出的模型的概述。上述组件将需要访问4个功能。我们首先定义这4个函数，然后描述模型的组件如何12878图5：图形更新。该图显示了图表更新模块的概述。它将当前Graph（Gt）和Agent观察（It）作为输入。它首先尝试在Graph中定位Agent。如果代理被定位在与上一个时间步不同的节点中，则它会更改代理的位置，并在需要时添加边。如果智能体未被本地化，则添加新节点，并且使用几何可探测区域预测函数（FG）添加对应的鬼节点。更多详情请参见正文。图局部化（FL）。给定图G和图像这个函数试图将I定位在图中的一个节点上。如果图像的位置从与节点相关联的全景图像在内部，这需要将每个节点图像（I Ni）与给定图像（I）进行比较，以预测I是否属于节点N i。几何可勘探区预测（FG）。给定一幅图像I，这个函数会做出nθ= 12个不同的预测在0到2 π之间均匀采样的θ方向上是否存在图3显示了此函数的输入和输出示例直觉上，它可以识别通往其他区域的门或走廊。语义得分预测（F-S）。给定源图像IS和目标图像IG，该函数使得nθ= 12dif。如果智能体在0和2π之间均匀采样的方向θ上探索，则智能体可能以多快的速度到达目标图像。图4显示了该函数的示例输入-输出对。对应于相同源图像的分数随着目标图像的改变而改变。估计这个分数需要模型学习关于环境的语义先验。相对位姿预测（FR）。给定属于相同节点的源图像IS和目标图像IG，该函数预测目标图像与源图像的相对姿态（popS，G）4.1. 模型组件假设我们可以访问上述功能，我们首先描述三个组件如何使用这些功能然后，我们描述了如何使用监督学习来训练单个模型来学习所有上述函数。图表更新。图更新模块负责更新给定代理观察的拓扑图。在t= 0时，代理以空图开始在每个时间步，图形更新模块（fGU）接收当前的观察st和前一个拓扑图Gt−1，并输出更新后的拓扑图Gt=fGU（st，Gt−1）。图5显示了图形更新模块的概述为了更新图形，模块首先尝试使用图形定位功能（FL）将当前图像定位在当前图形中的节点如果当前图像定位在与上一个节点不同的节点中，我们添加当前节点和最后一个节点之间的边（如果它还不存在）。如果当前图像没有本地化，那么我们用当前图像创建一个新节点我们还在新节点和最后一个节点之间添加一条边。每次添加边时，我们还使用传感器姿态估计存储由边连接的两个节点之间的相对姿态（RNP）。上面创建了一个已探索区域的图形。为了探索新的领域，我们还预测并将未探索的领域添加到图表中。我们通过使用“幽灵”节点来增强图形来实现这一点预测函数（FG）。如果在方向θ上有一个可探索的区域，我们添加一个新节点（Ni）使用边Ei，k。由于我们在虚节点位置处没有图像，因此我们在θ的方向上关联节点图像的块，即（IXk=INi，θ）。新节点和幽灵节点之间的相对姿态存储为（r，θ），其中θ是方向，r= 3m是节点的半径幽灵节点总是连接到一个规则节点，并且总是对应于未勘探的区域。我们通过在相同方向上添加常规节点时删除幽灵节点来确保这一点，并且如果在特定方向上存在常规节点，则不在该方向上添加幽灵节点直观地说，虚节点对应于由常规节点表示的已探测区域的边界处的未探测区域全球政策。全局策略负责选择上图中的一个节点作为长期目标。它首先尝试使用图形本地化函数（FL）在当前图形中本地化目标图像如果目标图像（IG）是12879图6：全球政策。显示全局策略概述的图。它获取当前Graph（Gt）和目标Image（IG）作为输入。它首先尝试在Graph中定位目标图像。如果目标图像已本地化，则选择相应的节点作为长期目标。如果目标图像未被本地化，则语义评分函数（FS）用于基于它们与目标图像的接近程度来对所有幽灵节点进行评分。具有最高分数的幽灵节点被选择为长期目标。给定一个长期目标，使用图路径规划计算子目标节点到子目标节点的相对方向是全局策略的输出，它被传递到本地策略。局部化在节点Ni中，则选择Ni作为长期目标。如果目标图像未被定位，则全局策略需要选择要探索的区域，即，选择一个幽灵节点进行探索。我们使用语义评分预测-函数来预测所有幽灵节点的得分。然后，全局策略仅选择具有最高分作为长期目标。一旦选择了一个节点作为长期目标，我们就在当前图上使用Jak-stra算法规划从当前节点到所选节点的路径最短路径上的下一个节点被选为子目标（NSG）。与到子目标节点的边相关联的相对姿态被传递到本地策略（LocalPolicy，SG）。如果目标图像被定位在当前节点中（或者代理到达目标图像（IG）被定位的节点Ni），则全局策略需要预测相对IG相对于当前代理观察的姿态。我们使用相对姿态预测（FR）函数来获得目标图像的相对姿态，然后将其传递给本地策略。地方政策。局部策略接收相对姿态作为目标方向，其包括到目标的距离和角度给定当前图像观察和相对目标方向，局部策略采取导航动作以到达相对目标。这意味着本地策略本质上是PointGoal导航策略。我们的地方政策是根据[6]改编的。它预测一个本地的空间地图，在RGB输入的情况下使用学习的映射器模型，或者在RGBD输入的情况下使用深度通道的几何投影然后使用最短路径规划来规划到达相对目标的路径。4.2. 训练NTS多任务学习模型考虑到对上述四个函数的访问，我们讨论了不同组件如何使用这些函数进行导航。在本小节中，我们将描述如何我们训练一个单一的多任务学习模型来学习所有四个功能。图7显示了这个多任务学习模型的概述。它将源图像（IS）和目标图像（IG）作为输入，并使用共享的ResNet18 [18]编码器对其进行编码。它首先预测两幅图像是否属于同一个节点。该预测用于实现图形本地化功能（FL）。如果它们属于同一个节点，则会使Intra-Node pre-包括目标图像相对于源图像的方向和得分（或等同地）距离的指令。这些预测用于实现相对姿态预测函数（FR）。如果它们属于不同的节点，它会进行节点间预测，其中包括可探测区域的方向（其被用作几何可探测区域预测函数（FG））和与每个可探测区域相对应的语义分数（其被用作语义分数预测函数（FS）），语义分数指示其与目标图像的接近度。 The Con-连接、节点内预测和节点间预测模型由具有ReLU激活和dropout的全连接层组成确切的细节要由柔软的材料来决定.5. 实验装置环境我们所有的实验都是在栖息地模拟器[36]中使用Gibson [43]数据集进行的。Gibson数据集在视觉上是真实的，因为它由真实世界场景的重建组成。我们还实现了物理上真实的运动传感器和驱动噪声模型，如[6]所致动运动噪声导致随机转换，因为代理平移或旋转的量是有噪声的。该模型还增加了现实的平移噪声在旋转动作和旋转噪声在平移动作。传感器噪声模型将真实噪声添加到基本里程计传感器读数。这两个噪声模型都是基于真实世界的数据，并且在这些噪声模型上训练的代理被证明可以转移到真实世界[6]。12880图7：NTS多任务学习模型。该图显示了NTS多任务学习模型的概述。它需要一个源图像（IS）和目标图像（IG）作为输入，并使用共享的ResNet18编码器对它们进行编码。它首先预测两幅图像是否属于同一个节点。如果它们属于同一个节点，它会进行节点内预测，其中包括目标图像相对于源图像的方向和得分如果它们属于不同的节点，则进行节点间预测其包括可探索区域的方向和对应于每个可探索区域的表示其与目标图像的接近度的语义分数该模型的所有预测都用于整个NTS模型的组件中的各个位置更多详细信息请参见文本任务设置。我们使用尺寸为128×512的全景图像用于代理图像观察和目标图像。我们使用RGB和RGBD设置进行实验。基础里程传感器提供3×1读数，表示代理的x-y坐标和方向的变化。的动作空间由四个动作组成：向前走，右转，左转，停下来。向前动作使代理向前移动约25 cm，并且转向动作使代理转向约10度。注意，智能体的状态空间和运动是连续的。如果智能体在目标位置的1m半径内采取停止如果代理在其他地方采取停止操作，或者直到事件结束才采取停止操作，则代理失败。除了成功率之外，我们还使用由逆路径长度（SPL）加权的成功作为[1]提出的评估度量。它考虑了智能体达到目标的效率（较短的成功轨迹导致较高的SPL）。训练数据。我们将86个场景的策划集从[36]分为68/4/14组场景，用于训练/验证/测试。对于火车-在我们的监督学习模型中，我们在68个训练场景中随机抽取300张图像。我们为每个场景中的源图像和目标图像对获取标签，总共提供了大约68×300×300= 612万个数据点。标签过程是自动化的，需要已经与数据集一起可用的地面实况图，而不需要任何附加的人工注释。标签过程的细节将推迟到补充材料。请注意，测试环境不需要采样图像或地面实况图测试情节。为了创建测试片段，我们在测试场景中对片段进行采样（由起始位置和目标位置给出），以根据目标与起始位置的距离创建3组不同的难度：简单（1. 5−3米），中等（3-5米）和硬（5-10米）。最大情节长度为500步或每个难度级别。5.1. 基线我们使用以下基线进行实验：ResNet + GRU + IL. 一个简单的基线，由ResNet18图像编码器和基于GRU的策略组成，经过模仿学习（IL）训练。目标驱动RL 一个连体式模型，用于使用共享卷积网络对当前图像和目标图像进行编码，并使用强化学习进行端到端训练，改编自Zhu等人。[47 ]第47段。度量空间映射+ RL。一个端到端的RL模型，它使用深度图像的几何投影来创建本地地图，并将其传递给RL策略，改编自Chen等人。[9]的文件。度量空间映射+ FBE +本地。这是一个手工设计的基线，它使用深度图像创建地图，然后使用称为基于边界的探索（FBE）[44]的经典探索启发式，该启发式探索地图中最近的未探索边界。我们使用NTS的本地化模型和本地策略来检测目标何时在附近并导航到它。主动神经SLAM。这是一个最近提出的基于度量空间地图的模块化模型，用于勘探任务。我们通过使用NTS的本地化模型和本地策略，用于检测目标何时在附近并导航到目标。所有基线都经过2500万帧的训练。RL基线使用具有密集奖励函数的邻近策略优化[37]进行训练。奖励函数包括对成功的高奖励（=SPL*10.），等于到目标的距离的减少的整形奖励和-0.001的每步奖励以鼓励更短的轨迹。ResNet + GRU + IL使用行为12881易中硬整体模型SuccSPLSuccSPLSuccSPLSuccSPLResNet + GRU + IL0.570.230.140.060.040.020.250.10RGB目标驱动RL [47]0.560.220.170.060.060.020.260.10主动神经SLAM（ANS）[6]0.630.450.310.180.120.070.350.23神经拓扑SLAM0.800.600.470.310.370.220.550.38ResNet + GRU + IL0.720.320.160.090.050.020.310.14目标驱动RL [47]0.680.280.210.080.090.030.330.13RGBD度量空间地图+ RL [9]0.690.270.220.070.120.040.340.13度量空间地图+ FBE + RL0.770.560.360.180.130.050.420.26主动神经SLAM（ANS）[6]0.760.550.400.240.160.090.440.29神经拓扑SLAM0.870.650.580.380.430.260.630.43表1：结果。所提出的模型神经拓扑SLAM（NTS）和RGB和RGBD设置中的基线的性能。在地面实况轨道上进行克隆这意味着就像所提出的模型一样，所有基线也使用地面实况图进行训练。就训练样本的数量而言，在环境中对300个随机图像进行采样将需要在RL训练设置中进行300次事件重置。300集68场，最多10场。2百万（= 68×300×500）个样本。由于我们使用2500万帧来训练我们的基线，我们的数据模型。此外，我们的模型不需要在环境中进行任何交互，并且可以使用图像数据进行离线训练。6. 结果我们评估了所提出的方法和每个难度设置的1000集的所有基线。我们在表1中比较了RGB和RGBD设置中所有难度级别的所有方法。结果表明，在所有的难度设置下，所提出的方法都优于所有的基线，总体Succ/SPL分别为0.55/0.38和0.35/0.23，RGBD分别为0.63/0.43和 0.44/0.29结果还表明，NTS相对于基线的相对改善随着难度的增加而增加，导致硬设置的大幅改善（0.43/0.26 vsRGBD中的0.16/0.09）。与端到端RL的比较以及停止动作的效果。结果表明，NTS的性能优于基于基线的端到端RL [9，47]和使用度量空间映射的方法[6，9]。基于RL的基线的性能比所提出的模型弱得多。我们认为这背后的原因是探索搜索空间的复杂性。与Pointgoal导航任务（其中智能体在每个时间步接收到更新的目标方向）相比，ImageGoal导航在探索方面更困难，因为目标图像不直接提供探索方向另一个困难是探索图像目标端到端强化学习策略表现得相当好的任务假设代理成功，如果它达到目标状态。然而，基于[1]的建议，我们添加了为了量化停止动作的影响，我们在表2（左）中报告了没有停止动作的所有模型的性能。我们看到RL基线的性能要高得多然而，NTS的性能也增加了，因为智能体在到达目标状态时自动停止，而不是使用相对姿态估计的预测来停止。其他差异，使我们的实验设置更现实，但也使探索更难RL相比，以前的设置包括连续状态空间相比，基于网格的状态空间，细粒度的动作相比，90度转弯和网格单元向前的步骤和随机过渡，由于现实的运动噪声。与基于空间地图的方法的比较以及运动噪声的影响。基于度量空间地图的基线的性能随着到目标的距离的增加而迅速下降。这可能是由于随着轨迹长度增加姿态误差姿态预测中的错误会使地图产生噪声，并最终导致不正确的路径规划。为了量化这种影响，我们评估了表2（右）中没有任何运动致动和传感器噪声的所有模型。结果表明，在没有运动噪声的情况下，基于度量地图的基线的性能随距离的变化而改善，但是NTS的性能没有增加太多。这表明NTS能够相对较好地处理运动噪声这是因为NTS仅使用连续节点之间的姿态估计，这不会累积太多噪声，因为它们彼此相距几个动作。NTS的性能仍然优于基线，即使没有更多的。消除噪声，因为它由语义得分预测器（FS）组成能够学习度量空间的结构先验缺乏基于地图的基线。我们在下面的小节中量化语义得分预测器的效果。12882模型容易RGBD-Med.没有停止硬整体容易RGBD-Med.无噪音硬整体ResNet + GRU + IL0.760.280.100.380.710.180.060.32目标驱动RL [47]0.890.450.210.520.690.220.070.33Metric Spatial Map + RL [9]0.890.450.210.520.700.240.110.35度量空间地图+ FBE + RL0.920.460.290.560.780.460.230.49主动神经SLAM（ANS）[6]0.930.500.320.580.790.530.300.54神经拓扑SLAM0.940.700.600.750.870.600.460.64表2：没有停止，没有噪音。在RGBD设置中，建议模型NTS和基线（无停止动作（左）和无运动噪声（右））的成功率。0.800.600.400.200.001 2 3 4 5连续进球0.500.400.300.200.100.001 2 3 4 5连续进球图8：申报模型NTS和两次消融的性能与连续目标数量的函数关系。6.1. 消融和连续进球在这一小节中，我们评估了所提出的模型在单个事件中的顺序目标，并研究了拓扑图或图和语义得分预测器（FS）。为了创建一个具有序列目标的测试集，我们随机抽取1. 5米至5米远离最后一个目标。智能体为每个目标获得500个时间步的时间预算。我们考虑两种消融：NTS不带图表。我们选择当前图像中得分最高的方向，而不是随着时间的推移更新或使用图形直觉上，这种消融的性能应该随着连续目标数量的增加而恶化，因为它对过去的观察没有记忆。神经拓扑SLAM w/o评分函数。在这种消融中，我们不使用语义得分预测器（FS），而是随机选择一个幽灵节点作为长期目标，目标图像不在当前图形中。当然，这种消融的性能应该随着连续目标数量的增加而改善，因为随机探索将随着时间的推移构建图形，并增加目标图像被定位的可能性。我们在图8中报告了NTS和两次消融的成功率和SPL与连续目标数量的函数关系。在这种情况下，成功被定义为代理在1000个事件的测试集上达到的目标的比率。首先，NTS的性能明显高于两种消融，表明两种组件的重要性。所有模型的性能随着序列目标数的增加而因为如果智能体未能达到中间目标，则后续目标很有可能更远。然而，NTS和NTS w/o Score Function之间的性能差距减小，NTS和NTS w/o Graph之间的性能差距这表明，随着时间的推移，随着智能体探索新的环境，拓扑地图变得更加重要，而SEMANIC评分预测器在开始时是最重要的，以有效地探索。7. 讨论我们设计了空间的拓扑表示，利用语义和提供粗略的几何推理。我们展示了如何自主构建这种表示，并将其用于图像目标导航任务。拓扑表示提供了对驱动噪声的鲁棒性，而存储在节点处的语义特征允许在新环境中使用统计建模进行有效探索。我们展示了本文所取得的进展如何使在没有环境经验的情况下研究这项任务成为可能，从而使相对改善超过50%。在未来，我们计划将我们的模型部署在真正的机器人上。确认这项工作得到了 IARPA DIVA D17PC00340 ， ONR GrantN000141812861 ， ONR MURI ， ONR Young Investigator ，DARPA MCS，Apple和Nvidia的支持。吉布森许可证：http://svl.stanford.edu/gibson2/assets/GDS_agreement.pdfNTS NTS不带图形NTS不带评分函数成功率NTS NTS不带图形NTS不带评分函数SPL12883引用[1] PeterAnderson ， AngelChang ， DevendraSinghChaplot，Alexey Dosovitskiy，Saurabh Gupta，VladlenKoltun ， Jana Kosecka ， Jitendra Malik ， RoosevehMottaghi，Manolis Savva，and Amir Zamir.嵌入式导航代理的评价。arXiv预印本arXiv：1807.06757，2018。二六七[2] Peter Anderson，Qi Wu，Damien Teney，Jake Bruce，MarkJohnson，NikoSünderhauf，IanReid，StephenGould，and Anton van den Hengel.视觉和语言导航：在真实环境中解释视觉基础的导航指令。在IEEE计算机视觉和模式识别会议论文集，第3674- 3683页，2018年。2[3] Somil Bansal，Varun Tolani，Saurabh Gupta，JitendraMalik，and Claire Tomlin.结合最优控制和学习在新环境中的视觉导航。 arXiv 预印本 arXiv ： 1903.02531 ，2019。2[4] SeanLBowman ， NikolayAtanasov ， KostasDaniilovich，and George J Pappas.语义slam的概率数据关联2017年IEEE机器人与自动化国际会议（ICRA），第1722-1729页。IEEE，2017年。2[5] 杰克·布鲁斯，尼科·桑德霍夫，皮奥特·米罗斯基，拉娅·哈德塞尔，迈克尔·米尔福德.从一次遍历中学习公里级的可部署导航策略。在Aude Billard、Anca Dragan、Jan Peters和Jun Morimoto编辑的Proceedings of The 2ndConference on Robot Learning，Proceedings of MachineLearning Research第87卷，第346-361页中PMLR，2018年10月29日至31日。2[6] Devendra Singh Chaplot ， Dhiraj Gandhi ， SaurabhGupta，Abhinav Gupta，and Ruslan Salakhutdinov.使用主动神经SLAM学习探索。在国际会议上学习代表，2020年。二、五、七、八[7] Devendra Singh Chaplot，Emilio Parisotto，and RuslanSalakhutdinov. 主动神经定位。 arXiv 预印本 arXiv ：1801.08214，2018。3[8] KevinChen ， JuanPablodeVicente ， GabrielSepulveda，Fei Xia ，Al v aroSoto ，MarynelVa'zquez ，andSilvioS av arese. 用图形局部化网络进行视觉导航的行为方法。机器人：科学与系统，2019年。3[9] Tao Chen，Saurabh Gupta，and Abhinav Gupta.学习导航的探索政策。在2019年国际学习代表大会上。二、六、七、八[10] 豪伊 · 乔塞特和永谷敬二拓扑同时定位和映射（SLAM）：不需要明确定位就能精确定位。IEEETransactions on Robotics and Automation ， 17 （ 2 ）：125-137，2001。2[11] Frank Dellaert ， Dieter Fox ， Wolfram Burgard ， andSebastian Thrun.移动机器人的蒙特卡罗定位。ICRA，第2卷，第1322-1328页，1999年。2[12] 阿尔贝托·埃尔夫斯使用占用网格的移动机器人感知和导航。计算机，22（6）：46-57，1989. 2[13] Benjamin Eysenbach，Ruslan Salakhutdinov，and SergeyLevine.在重放缓冲区中搜索：桥接规划和强化学习。arXiv预印本arXiv：1906.05253，2019。二、三12884[14] 关方、亚历山大·托舍夫、李飞飞、西尔维奥·萨瓦雷塞。场景记忆Transformer，用于长时间任务中的具体代理。在CVPR，2019年。2[15] 迪拉杰·甘地、勒雷尔·平托和阿比纳夫·古普塔。学着在撞击中飞行。2017年IEEE/RSJ智能机器人与系统国际会议（IROS），第3948IEEE，2017年。二、三[16] Sabine Gillner和Hanspeter A Mallot。虚拟迷宫中空间知识的导航与获取。认知神经科学杂志，10（4）：445-463，1998。1[17] Saurabh Gupta ， James Davidson ， Sergey Levine ，Rahul Suk-thankar，and Jitendra Malik.视觉导航的认知绘图与规划。在Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，第2616-2625页二、三[18] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。5[19] 作者： Kai M. Wurm ， Maren Bennewitz ， CyrillStachniss，and Wolfram Burgard. MapMap：一个基于八叉树的高效概率3D映射框架。《奥维·罗格斯机器人》，2013年。2[20] 本杰明·凯佩斯和边永泰基于空间表示的语义层次的机器人探索和映射策略。 Robotics and autonomoussystems，8（1- 2）：47-63，1991. 2[21] Ashish Kumar，Saurabh Gupta，David Fouhey，SergeyLevine，and Jitendra Malik.视觉记忆，实现稳健的路径跟踪。在神经信息处理系统的进展，2018年。2[22] Alex X Lee，Sergey Levine，and Pieter Abbeel.学习具有深度特征和拟合q迭代的视觉伺服。arXiv预印本arXiv：1703.11000，2017. 2[23] Min Meng和Avinash C Kak.使用神经网络和非测量环境模型的移动机器人导航IEEE控制系统杂志，13（5）：30-39，1993。2[24] Piotr Mirowski、Matthew Koichi Grimes、Mateusz Ma-linowski 、 Karl Moritz Hermann 、 Keith Anderson 、DenisTeplyashin、KarenSimonyan、KorayKavukcuoglu、Andrew Zisserman和Raia Hadsell。学会在没有地图的城市里导航。在神经信息处理系统（NeurIPS），2018年。二、三[25] PiotrMirowski，Razvan Pascanu，Fabio Viola，HubertSoyer ， Andrew J Ballard ， Andrea Banino ， MishaDenil ， RossGoroshin ， LaurentSifre ， KorayKavukcuoglu，et al.学习在复杂环境中导航。arXiv预印本arXiv：1611.03673，2016年。二、三[26] Raul Mur-Artal，Jose Maria Martinez Montiel，and JuanD Tardos. Orb-SLAM

下载后可阅读完整内容，剩余1页未读，立即下载