视觉导航中的姿态不变拓扑记忆

52 浏览量更新于2023-10-13 收藏 1.95MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

15384视觉导航中的位姿不变拓扑记忆谷口朝人asuto. jp.ricoh.com佐佐木文宏fumihiro.fs. jp.ricoh.com山科亮太电邮：ryohta.yamashina@ jp.ricoh.com理光有限公司摘要规划视觉导航使用拓扑记忆，记忆图组成的节点和边缘，最近已经得到很好的研究。节点对应于机器人的过去观察，并且边缘表示由神经网络（NN）预测的可达性然而，大多数现有的方法，往往无法预测的可达性时，机器人采取不同的姿态，即。机器人面对的方向，在接近的位置。这是因为所述方法观察第一人称视图图像，所述第一人称视图图像在机器人改变其姿势时显著在本文中，我们提出了姿势不变的拓扑记忆（POINT）来解决这个问题。POINT观察全向图像并通过使用球形卷积NN预测可此外，我们通过对比学习和数据增强来训练NN，以使POINT能够对环境条件的变化（例如光照条件和看不见的物体的存在）进行鲁棒性规划。实验结果表明，POINT算法在相同和不同环境条件下均优于传统方法此外，KITTI-360数据集的结果表明，POINT比传统方法更1. 介绍视觉导航规划已经被广泛研究。通常，通过视觉同时定位和映射（vSLAM）[33，23]来构建环境的几何地图，并且通过使用诸如A* 搜索[31]的规划算法来规划到目标的路径。然而，在实际情况下，vSLAM需要花费很多努力来获得地理上精确的地图，例如与高精度测距或全球导航卫星系统相图1.基于拓扑记忆的规划概述。机器人在环境中移动以收集数据并用数据训练边缘预测器。然后，在边缘预测器的基础上构造拓扑存储器。拓扑分类具有从收集的数据采样的节点和如果节点被边缘预测器预测为接近（因此可到达）则在节点之间连接的边缘。最后，给定当前观测oc和目标观测og，使用诸如Dijkstra算法[ 27 ]的算法对拓扑存储器执行规划。（GNSS）传感器，以及由专家进行的地图修改和参数调整。另一方面，许多工作已经提出了使用拓扑记忆的规划方法[11，32，9，24，26，36，3]，拓扑记忆是一种记忆图，其中每个节点对应于机器人的过去观察，并且两个节点之间的边表示它们的可达性。I.E.对应于节点的位置是物理上接近还是远离。特别是，最近的工作，如半参数拓扑记忆（SPTM）[32]和幻觉拓扑记忆（HTM）[26]，利用神经网络（NN）来预测可达性。我们称这样的NN为边缘预测器。这些方法不旨在构建几何精确的地图，因此不需要与其他高精度传感器的任何组合或由专家进行地图修改和参数调整由于它是期望的视觉导航可以很容易地执行，形成没有这样的要求，我们专注于拓扑记忆为基础的方法。基于拓扑记忆的规划概述如图1所示。然而，先前的基于拓扑存储器的规划方法具有困难;边缘预测器在给定具有不同姿态的观测时经常预测失败。为了说明原因，我们举例说明了拓扑的过程数据收集和边缘预测训练拓扑存储器建设规划15385余弦相似性预测函数常规方法➚随机变换➚SCNN编码器SCNN编码器(a) 常规方法与POINT的拓扑存储构造对比学习(b) POINT的边缘预测器训练图2. (a)图解传统方法和POINT（我们的方法）的拓扑存储器构造。左侧图像表示环境的鸟瞰图像和机器人的过去轨迹，其中颜色表示时间步长。绿色和蓝色箭头表示机器人的位置和方向。上行和下行分别示出了常规方法和POINT。（b）POINT的边缘预测器训练的概述。我们使用对比学习和数据增强。图2（a）的顶行中的常规方法的cal存储器构造。左图代表机器人过去的轨迹。虽然机器人位置（在左图中示出为绿色和蓝色箭头的位置）接近并且因此被认为是可到达的，但是机器人姿势（示出为箭头的方向）是不同的。传统的方法使用第一人称视图图像作为观察和卷积神经网络（CNN）作为边缘预测器。由于在绿色和蓝色箭头处观察到的第一人称视图图像完全不同，因为它们的姿势不同，所以CNN提取的特征图也不同（参见图2（a）中的因此，从根本上难以正确预测对应于蓝色和绿色箭头的节点是接近的。此外，当机器人采取其从未采取的姿势时，这种错误预测导致定位和规划的失败。为了处理由于特征图的不相似性而导致的可达性的错误预测的问题，常规方法利用可训练函数，其在本文中被称为预测器函数，其将两个特征图从一个映射到另一个，诸如在连体网络的顶部被实现为完全连接（FC）层的那些[15]。以实现边缘预测器功能。然而，这样的预测器函数增加了将在远点处观察到的不同图像不正确地预测为在近点处观察到的图像的风险，如图2（a）中的拓扑存储器中的粉红线所描绘的。为了解决这个困难，我们提出了姿势不变拓扑记忆（POINT）。图2（a）的底行示出了POINT的拓扑存储器构造的概述POINT观察全方位视图图像并使用由球形CNN（SCNN）[5]和余弦相似性预测函数组成的边缘预测器。由于SCNN的旋转不变性，即使机器人采取不同的姿势，对应于近位置处的观察的特征图也是相似的，如图2（a）中的绿色和蓝色箭头所示。因此，通过简单地确定特征图之间的相似性，可以容易地预测对应节点接近此外，输出特征图的相似性的预测器函数很少将在远距离位置处观察到的不相似图像预测为接近。此外，考虑到更多的实际情况，我们试图实现稳健的规划，以适应环境条件的变化，如。阴影方向、光照条件以及行人等看不见的物体的存在。为了获得鲁棒性，我们通过具有数据增强的对比学习来训练边缘预测器[4]，该数据增强学习从随机变换的图像中获得相似的特征，如图2（b）所示。在我们的实验中，我们表明，点优于传统的方法在相同和不同的环境条件下。此外，KITTI-360数据集[37]的结果表明，POINT比传统方法更适用于2. 相关工作2.1. 使用拓扑记忆我们的方法是建立在现有的基于拓扑记忆的规划方法[11，32，9，26，24，36，20，3]。许多作品假设，沿着规划的路径的实际移动是通过使用除了边缘预测器训练的本地移动策略来执行的。我们只关注拓扑第一人称视角特征映射空间预测为FAR节点CNN预测器功能过去轨迹CNN边缘预测器POINT（我们拓扑存储器全方位视图预测为CLOSE节点SCNN时间步长预测器功能=相似性SCNN边缘预测器15386我记忆建设和规划，而不是当地的政策培训，纯粹评估规划的绩效。我们的方法与大多数先前的作品（如 SPTM 和HTM）之间的主要区别在于，我们使用全向图像而不是第一人称视图图像进行观察，并在边缘预测器中使用SCNN [5这使得机器人能够在拓扑存储器上找到最近的节点，而不管其姿态如何虽然[36]还使用全向图像作为理论上不具有旋转不变性的边缘预测器的输入，但我们的边缘预测器理论上保证了全向图像的旋转不变性。另一个区别是我们的方法训练边缘预测器是稳健的环境条件的变化，通过对比学习与数据增强。2.2. 使用动态模型许多作品构建了规划的动态模型[7，14，16，13，1，10，28，18]。其中大多数采用模型预测控制来规划动作序列。与包括我们的方法在内的基于拓扑记忆的规划方法相比，它们的优点在于它们不需要额外学习局部运动策略。然而，动态模型误差随着时间的推移而积累，使得难以处理长期任务。另一方面，基于拓扑记忆的规划方法需要学习局部策略，同时能够在没有这种误差累积的情况下执行长期规划。2.3. 球面卷积神经网络已经有许多研究提出了CNN用于全向数据[5，8，6，29，21，36]。[5]和[8]在理论上提出了单位球面上的旋转等变CNN。 [6]中提出的SphereNet处理全向图像上的失真，但对旋转不是不变的。DeepSphere [29]利用图CNN来实现旋转等方差和计算效率。[21]在非结构化网格上提出了一种球形CNN，提高了参数效率。在本文中，我们使用[5]的工作，因为它在理论上保证了旋转不变性，并且可以很容易地使用其官方代码1。2.4. 对比学习对比学习[15，35，2，19，4，17，12]被归类为无监督/自监督学习，旨在学习图像识别[19，4，17，12]和强化学习[35，25]等下游任务的良好表示。在本文中，我们利用对比学习的视觉导航。许多对比学习方法学习最小化称为InfoNCE的损失函数[35]，以便在某些情况下，正对与负对更相似。1https://github.com/jonas-koehler/s2cnn措施[4，34]已经证明，数据增强有助于获得稳健的良好表示。我们希望我们的方法是强大的环境条件的变化，通过使用对比学习与数据增强。3. POINT：姿态不变拓扑记忆在本节中，我们提出了姿态不变拓扑记忆（POINT）的视觉导航，以解决问题的传统方法。我们首先简要地说明了利用拓扑记忆进行规划的过程，包括SPTM、HTM和POINT。图1说明了该过程。使用拓扑存储器进行规划的目的是提供从当前状态到达目标的路点观测，其中机器人观测og和oc分别拓扑存储器M具有从过去的观察Dtrain={0t} 采样的N 个节点。|0≤t≤T−1}，其中ot表示时间步长t处的观测值，T de-记录过去观察的数量。边缘预测器预测两个节点i和i之间的可达性。〇j∈ D列。当规划从oc到og时，它们作为节点添加到M，并且最短路径问题在诸如Dijkstra算法的算法中求解[27]。重要的是，边缘预测器的预测精度直接影响规划性能。POINT以及SPTM和HTM训练边缘预测器，100 -10 |i−j|（<1）时间步长为n（|i−j|>∆tn），其中∆tp和∆tn是超参数。边缘预测器是简单的。被称为连体网络[15]，由具有共享参数的两个编码器E：O →Rd和预测函数f：Rd×Rd→R组成，其中O表示观察空间，d表示特征向量的维数E. POINT与传统方法的区别在于边缘预测器的组成和训练我们在表1中总结了SPTM、HTM和POINT之间的差异。我们在下面描述边缘预测器的组成和训练3.1. 使用球面CNN和余弦相似性预测函数的边缘预测器为了实现准确的边缘预测，无论机器人的姿势，我们提出了两种解决方案。首先，我们观察全向图像并使用SCNN [5]进行E以消除姿势依赖性，而不是第一人称视图图像和CNN。已知SCNN是能够提取旋转不变的特征向量[5]。它表明，在机器人不同的姿态下，可以从观测中得到相似的特征向量z∈Rd 第二，我们雇佣f（zi，zj）= exp（sim（zi，zj）/τ）作为预测函数，其中sim（zi，zj）=zTzj/zizj是余弦相似函数。15387方法编码器E预测函数f培训8月数据SPTMHTMPOINT（我们的）CNNCNNSCNNFC（层）expzTWzj我exp（zTzj/τzizj）我分类对比学习否否是表1.SPTM、HTM和POINT之间的差异SPTM的FC层和HTM的W∈Rd×d是可训练的且不是正定的。其中，ξ· ξ表示L2范数，τ>0是温度参数。因为z不依赖于机器人根据SCNN的方差特性，我们可以通过简单地计算z的相似性来预测可达性。POINT以与HTM相同的方式连接节点oi和oj之间的边，其中边成本cij= 1/f（zi，zj）我们的预测函数模型相对于SPTM和HTM的预测函数模型的预期优点是，它很少连接远距离节点之间的边，例如图2（a）中的拓扑记忆中的粉红线。这是因为对应于在远距离位置处的观测的z几乎总是耗散的。我们根据经验发现，具有正定性质的预测函数工作得相当好，并且不限于余弦相似性。更多详细信息，请参见4.1.2。这两个解决方案是简单的，但预期是有效的精确的拓扑存储器的建设和规划。常规方法和POINT之间的差异概述如图2（a）所示。3.2. 对环境条件变化考虑到更现实的情况，我们改进了POINT，使其对环境条件的变化具有鲁棒性e.G.光线条件、阴影方向以及行人等看不见的物体的存在。图2（b）显示了培训概况。我们使用数据增强的对比学习来训练边缘预测器。在火车上-ing，我们对观察到的图像应用随机变换T，例如颜色抖动和随机擦除。也就是说，我们训练边缘预测器以最小化以下称为InfoNCE的损失函数：4. 实验我们使用合成和真实世界的数据集进行了实验。在使用合成数据集的实验中，我们解决了以下问题：• POINT是否优于传统的基于拓扑记忆的规划方法？• SCNN编码器是否允许成功规划机器人• 数据增强的对比学习是否提高了对环境条件变化的鲁棒性• 为了更好地构造拓扑记忆，预测函数应该具有什么性质？另一方面，在真实世界数据集的实验中，我们评估了POINT和传统方法在真实世界环境中的适用性合成和真实世界数据集的实验方案和结果分别在第4.1节和第4.24.1. 使用合成数据集进行评价4.1.1设置数据集为了创建合成数据集，我们使用机器人操作系统（ROS）[30]和Gazebo模拟器[22]实现了模拟环境，如图3所示。我们设置了四种不同的环境条件，如图4所示;基地，日落，障碍，和差异。L= −EotD火车[对数∑]f（z~t，z~k）f（z~，z~）、（1）恐怖的影子我们手动操作机器人下收集D列的基本环境条件（图4（a）四次D列车的每条路径如图6所示。D路车o i ∈DCtrt我其中z~i=E（T（oi））表示与随机变换的观察T（oi）相对应的特征向量。DCtr包含一个观测ok，其中（ot，ok）满足|∆tp和从D序列随机采样的K−1个观测值。|<∆tp, and K− 1 observations randomly sampled from Dtrain.Δtp是一个超参数。这种训练旨在从图像中提取相似的特征即使当图像被不同地变换时，其观察时间也接近。预计POINT将能够预测边缘连接，对环境条件变化具有鲁棒由机器人沿着路径观察的全向图像组成。D测试，其中oc和og的抽样规划，也收集了四次在每个环境条件下（基地，日落，障碍，和不同的阴影），在相同的方式为一个收集D列车。Al-D试验的采集途径与为了收集D列车，D测试具有沿相同和相反路线方向的观测值，15388(a) 基地（b）日落(a) 仿真环境(b)鸟瞰图(c)机器人图3. (a)模拟环境和（b）其鸟瞰图。环境面积为20×20m。(c)机器人的顶部有一个全向摄像头，如果它继续向前移动，可以在100个时间步长内移动约3米的更多细节模拟器可以在补充材料中找到。训练和评估过程给定D训练，我们通过拓扑的几种变体训练边缘预测器。基于存储器的规划方法，包括SPTM、HTM、SoRB[9]2和POINT，其中的每一个被定义为输入图像格式、图像变换函数、编码器和预测器函数的不同组合输入图像格式选自第一个人视图或全向图像。如果选择了第一人称视图图像，则通过在第一人称视图图像中裁剪全向图像的中心来获取输入图像。D列车，使其视野为90度，如图所示在图5（a）中，否则通过掩蔽图5（b）示出了D中的全向图像。掩模用于移除破坏全向图像的姿态不变性的机器人主体的图像输入图像在被馈送到图像变换函数之前被缩小到128×128图像变换函数从恒等函数（因此不执行数据增强）或随机变换函数T中选择。图像变换函数在输入到编码器之前被应用于输入图像。编码器选自CNN编码器或SCNN编码器边缘预测器函数选自SPTM中使用的边缘预测器函数、HTM中使用的边缘预测器函数、SoRB中使用的边缘预测器函数或第3.1节中描述的边缘预测器函数。这些变体的训练对象由边缘预测器的选择确定，如表1所示。超参数Δtp和Δtn分别被设置为100和200，因为这些对于所有变体都经验性地工作良好。补充材料中描述了边缘预测器和其他超参数的实现拓扑存储器M构造为N= 300个节点。我们使用k-最近邻（kNN）在[24]中提出的边缘清理方法，因为它在减少实际远距离节点之间的边缘误连接方面经验性地工作得很好。它只允许k条边与最大的f（zi，zj）连接每个节点。我们设置k= 20。2虽然原始的SoRB通过探索环境来训练边缘预测器，但我们通过使用离线收集的数据来训练它。(c)（d）不同的阴影图4.环境条件在（a）基础条件下收集D列车，并且在（a）基础、（b）日落、（c）障碍物和（d）不同阴影条件下执行规划。(b) 具有与（a）不同的颜色和阴影方向。 (c)在随机位置有许多白框。(d)具有与（a）不同的阴影方向，但具有相同的颜色。(a) CNN（b）SCNN图5.编码器的输入图像。(a)是CNN编码器的输入，即第一人称视图图像，而（b）是SCNN图像的输入两者都缩小到128×128。图6.数据集的路由路径。颜色表示时间点。路径A、B、C和D的总时间步长T分别为2442、2404、2424和2456。我们评估基于拓扑记忆的规划方法如下。给定从D检验中随机抽取的o_c和o_g，基于所构造的拓扑存储器，用Dijkstra算法进行从o_c到o_g的规划结果被评估为成功，如果（i）计划的路径连接的位置，其中oc和og被观察到存在于M和（ii）它不通过一个边缘，连接两个节点，是超过6米3分开。我们对每个D系列和D测试进行了100次试验，即每个环境条件下100（试验）×4（D系列）×4（D测试）= 1600次试验。3它被设置为机器人在移动过程中能够移动的距离。如果它继续向前移动的话。路线A路线B路线CRoute D时间步长15389图7. SPTM、HTM、SoRB [9]和POINT的计划成功率。SPTM（SCNN编码）表示SPTM的变体，其利用全向图像而不是SPTM利用的图像来利用SCNN编码器，并且HTM（SCNNenc.）和SoRB（SCNN编码）。POINT（FPV + CNN编码）表示POINT的一个变体，利用CNN编码器与第一人称视图图像，而不是POINT利用的图像。4.1.2结果POINT是否优于传统的基于拓扑记忆的规划方法？实验结果总结于图7中。而常规方法的成功率低，即使在基地在收集D 序列的条件下，POINT显示出更高的成功率。另外，在另一个骗局下-在某些情况下，POINT保持了较高的成功率，而常规方法的性能恶化。这表明POINT显著优于传统方法。我们发现POINT优于POINT（FPV + CNN编码），其在所有条件下使用第一人称视图图像和CNN编码器，而POINT（FPV + CNN编码器）特别是在除了基础条件之外的条件下，优于常规方法这表明具有全向图像的SCNN编码器和第3.2节中描述的具有数据增强的对比学习对于鲁棒性和更好的规划都是有效的。我们进一步研究了SCNN和数据增强的对比学习是如何工作的。调查详情如下所述。SCNN编码器是否允许成功规划机器人的姿势？我们将POINT与POINT的变体（由POINT（Omni. + CNNenc.），其观察全向图像但使用CNN编码器。我们分别评估了两种情况下的成功率：D测试的路由方向是与D列车相同或相反。图8显示每种情况下的成功率。值得注意的是，成功率点（Omni。+ CNN enc.）当D测试的路径方向与D列车的路径方向相反时，POINT的性能显著降低，而POINT保持其性能。这表明，SCNN即使在在完全不同方向的观测之间，无论机器人的姿势如何，都能成功规划图8.POINT和POINT（Omni.+ CNN enc.），其观察全向图像但使用CNN编码器。图9.规划POINT和POINT（w/o DA）的成功率，其通过对比学习而无需数据增强来训练边缘预测器。数据增强的对比学习是否提高了对环境条件变化的鲁棒性？我们比较了点与点（w/o DA），它通过对比学习训练边缘预测器，无需数据增强。图9示出了POINT和POINT（w/o DA）的成功率。我们发现POINT（w/oDA）的性能随环境条件的改变而变差这表明，数据扩充有助于对环境条件的变化进行稳健的规划。我们期望鲁棒性在不断变化的环境中的实际应用中发挥重要作用。为了更好地构造拓扑记忆，预测函数应该具有什么性质？我们进一步研究预测函数的选择是否影响规划性能。我们比较了各种预测函数模型，如表2所示，其中τ = 0。01. 余弦相似性和对数双线性模型分别对应于POINT和HTM的预测函数。内积模型和线性内积模型可以分别解释为具有正定矩阵W = I和W =UTU的对数双线性模型。高斯核模型也是一个正定函数。图10显示了它们的成功率。我们发现余弦相似度在基线、日落和不同阴影条件下获得了最高的成功率，并且在障碍物条件下与内积模型具有竞争力另一方面，在HTM中使用的对数双线性为了进行更多的分析，我们展示了当我们-15390∑i=0tt − it−i不型号名称logf的定义对数双线性余弦相似内积线性内积高斯核zT Wzj我zTzj/（τzizj）我zT zj我（Uzi）T（Uzj）1exp（−zi−zj2）τ表2.预测函数模型W和U∈Rd×d都是可训练参数。图10.使用各种预测函数规划POINT的成功率使用图11中的余弦相似性和对数双线性模型。可以看出，余弦相似性的拓扑记忆不连接远距离节点之间的边，而对数双线性的拓扑记忆经常这样做。对数双线性模型的这些不正确的边连接导致规划通过远距离节点之间的边，并导致最差得分。不限于余弦相似性模型，内积、线性内积和高斯核模型（它们都是正定的）在所有环境条件下都比对数双线性模型实现了更高的成功率。这表明正定义性质有助于实现精确的拓扑存储器构造和规划。我们进一步研究了具有正定性质的预测函数之间的差异。调查详情见补充资料。因此，我们得出的结论是，预测函数是可取的，采取归一化的输入作为余弦相似性函数，除了具有正定性质。4.2. 使用真实世界数据集进行评估4.2.1设置数据集我们使用KITTI-360数据集[37]，其中包含在街道上捕获的真实世界全向图像我们将数据集划分为Dtrain={o3k|k∈N，k≤（Tall−1）/3}，并且对于每个数据序列D all = { o t}，Dtest=Dall\ Dtrain|0≤t≤Tall−1}。每个序列的轨迹和示例图像如图12所示。训练和评估过程每种方法的边缘预测器都是用D训练来训练的。第一人称视角输入图像通过裁剪第一人称视角输入图像的中心来获取。(a) 余弦相似度（b）对数双线性图11.拓扑记忆的可视化圆圈表示节点，并且它们的位置对应于当获取对应的观察结果时的位置的xy这些线表示边缘。全向图像，使得其视场为90度4，与模拟实验的方式相同。输入图像分辨率为256×256，Δtp和∆tn分别设置为10和20的数量将拓扑存储器中的节点设置为N= 1200，并且将k个NN边缘清理的k设置为10。为了获得稳健的拓扑记忆，我们使用预测函数输出n−1（f（z，z′）+f（z，z′））/2n的n步平均值代替f（zt，zt′）进行节点t和t之间的边缘预测。ot′，其中zt=E（ot），zt′=E（ot′），n=3。每个D均进行100次计划。边缘预测器和其他超参数的实现在补充材料中有详细说明。4.2.2结果表3显示了POINT、常规方法和这些方法的变体的平均成功率我们可以看到POINT比其他方法取得了最高的成功率。结果表明，POINT方法比传统方法更适用于实际环境.点（Omni. + CNN enc.）获得了比SPTM（Omni.）和HTM（Omni.）。这表明，对比学习与数据增强和余弦相似性预测函数显着提高规划性能。点（Omni. + CNN enc.）也获得了比POINT（Omni. +CNN enc. ）而 POINT 优于 POINT （ Omni. + CNNenc.）。它表明，利用全向图像而不是第一人称视图图像作为边缘预测器的输入更适合于在真实世界环境中构建拓扑图，并且由于旋转不变性特性，SCNN编码器可以比CNN编码器更有效地利用全向图像。为了定性地看到SCNN的效果，我们将成功的4我们没有使用[37]提供的透视图像作为第一人称视角图像，因为我们需要将帧率与全向图像观察结果相匹配。15391（a）2013 05 28驱动器0000同步（b）2013 05 28驱动器0004同步图12. 轨迹和我们使用的序列的示例图像。这些序列是通过将2013 05 28 drive 0000 sync或2013 05 28 drive 0004 sync se-序列为三。对于2013 05 28驱动器0000同步，每个D序列和D测试分别具有1280和2560个图像，而对于2013 05 28驱动器0000同步，具有1287个图像。和2574，分别用于2013 05 28驱动器0004同步。方法平均成功率SPTM0.020 ±0.011SPTM（Omni.）0.040 ±0.025SPTM（SCNN编码）0.033 ±0.016HTM0.045 ±0.037HTM（全方位）0.083 ±0.028HTM（SCNN编码）0.103 ±0.034POINT（FPV + CNN编码）0.435 ±0.471点（Omni. + CNN enc.）0.908 ±0.152点0.932 ±0.163表3. KITTI-360数据集的SPTM、HTM和POINT的计划成功率。SPTM（Omni.）和HTM（Omni.）分别是SPTM和HTM的变体，其利用具有全向图像而不是第一人称视图图像的CNN编码器。点和点的计划路径（Omni. + CNN enc.）在图13中。可以发现，POINT采取最短路径，而POINT（Omni. +CNN enc.）走的是迂回路线。这表明，尽管CNN经常规划冗余路径，即使是全向图像观测，SCNN的旋转不变性有助于规划不仅成功，而且更短的路径。(a) 点（b）点（Omni. + CNN enc.）图 13. （ a ）点和（ b ）点的计划路径（ Omni 。 + CNNenc.）。灰色圆圈表示每个拓扑存储器中的节点。蓝线是从绿色圆圈到粉色圆圈的规划路径5. 结论本文提出了一种基于姿态不变拓扑记忆的视觉导航规划方法与SPTM和HTM等传统方法相比，POINT可以构造精确的拓扑存储器，并且不受机器人的位姿（即面向的方向）的影响而这一优点是通过由SCNN和余弦相似性预测函数组成的边缘预测器获得的，SCNN在理论上此外，考虑到更实际的情况下，我们训练的边缘预测器是强大的环境条件的变化，通过使用对比学习与数据增强。我们用合成图像和真实世界的图像进行了实验。结果表明，（i）POINT在相同和不同的环境条件下均优于常规方法，并且（ii）POINT比常规方法更适用于真实世界环境我们在本文中只关注规划。在未来的工作中，我们将研究自主导航性能的基础上规划传统的视觉导航方法，如vSLAM以及拓扑记忆为基础的方法，包括点。我们认为，vSLAM为基础的方法和拓扑记忆为基础的方法，同时考虑到成本的比较，建立地图将提供洞察到现实世界的视觉导航问题。15392引用[1] 布兰登·阿莫斯，伊万·希门尼斯，雅各布·萨克斯，拜伦·布茨和J·济科·科尔特。用于端到端规划和控制的差分 MPC。在 S Bengio ，H Wallach ，H Larochelle，KGrauman，N Cesa-Bianchi和R Garnett，编辑，Advancesin Neural Information Processing Systems 31 ，第 8289-8300页中Curran Associates，Inc. 2018. 3[2] Philip Bachman ， R Devon Hjelm ， and WilliamBuchwalter.通过最大化跨视图的互信息来学习表示神经信息处理系统进展。3[3] KevinChen ， JuanPablodeVicente ， GabrielSepulveda，Fei Xia，Alvaro Soto，Marynel Vzquez，and Silvio Savarese.用图形局部化网络进行视觉导航的行为方法。机器人：科学与系统XV。机器人：科学与系统基金会，2019年6月。一、二[4] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架。2020年2月。二、三[5] TacoSCohen ， MarioGeiger ， JonasK ？hler ，andMaxWelling.球形CNN。在2018年国际学习代表会议上。二、三[6] Benjamin Coors ， Alexandru Paul Condurache ， andAndreas Geiger. Spherenet：学习球面表示，用于全向图像的检测和分类。在欧洲计算机视觉会议（ECCV）的会议记录中，第518-533页，2018年。3[7] Frederik Ebert 、 Chelsea Finn 、 Sudeep Dasari 、 AnnieXie、Alex Lee和Sergey Levine。视觉预见：基于模型的深度强化学习，用于基于视觉的机器人控制。2018年12月。3[8] Carlos Esteves 、 Christine Allen-Blanchette 、 AmeeshMaka- dia和Kostas Daniilidis。用球面cnn学习so（3）等变在欧洲计算机视觉会议（ECCV）的会议中，第52openaccess.thecvf.com，2018年。3[9] Ben Eysenbach、Russ R Salakhutdinov和Sergey Levine。在重放缓冲区中搜索：衔接规划与再学习。神经信息处理系统进展32，第15246柯伦联合公司股份有限公司、2019. 一、二、五、六[10] C Finn和S Levine。规划机器人运动的深度视觉预见。2017年IEEE机器人与自动化国际会议（ICRA），第2786-2793页。ieeex-plore.ieee.org，2017年5月。3[11] Fraundorfer，C Engels，and D Nister.拓扑映射-平，定位和导航使用的图像集合.在2007年IEEE/RSJ智能机器人和系统国际会议上，第3872-3877页，10月。2007.一、二[12] Jean-BastienGrill 、 FlorianStrub 、 FlorentAltche´ 、CorentinTallec、PierreHRichemond、ElenaBuchatskaya 、 Carl Do- ersch 、 Bernardo Avila Pires 、Zhaohan Daniel Guo 、 Moham-madGheshlaghiAzar 、BilalPiot 、 KorayKa vukcuoglu 、 Re´miMunos 和 MichalValko。Bootstrap Your Own Latent：A New Approach toSelf-Supervised Learning（引导你自己的潜意识：一种2020年6月。3[13] D a vidHa和J ür genSchmidhube r. 反复出现的世界模式促进了政策的演变。在 S Bengio 、 H Wallach 、 HLarochelle、K Grauman、N Cesa-Bianchi和R Garnett编辑的Advances in Neural Information Processing Systems31，第2450-2462页中Curran Associates，Inc. 2018. 3[14] D a vidHa和J ür genSchmidhube r. 世界模特。马河2018.3[15] R Hadsell，S Chopra和Y LeCun。通过学习不变映射来降低维数。在2006年IEEE计算机协会计算机视觉和模式识别会议（CVPRieeex-plore.ieee.org，2006年6月。二、三[16] Danijar Hafner、Timothy Lillicrap、Ian Fischer、RubenVille- gas、David Ha、Honglak Lee和James Davidson。从像素中学习潜在的动态规划Proceedings of MachineLearning Research的第97卷，第25552019年，美国加利福尼亚州长滩。PMLR。3[17] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，andRoss Girshick.用于无监督视觉表示学习的动量对比。在IEEE/CVF计算机视觉和模式识别会议论文集，第9729-9738页openaccess.thecvf.com，2020年。3[18] N Hirose，F Xia，R Mart 'ın-Mart' ın，A Sadeghian和SSavarese。用于导航的深度视觉MPC-策略学习。IEEERobotics and Automation Letters，4（4）：3184- 3191，Oct. 2019. 3[19] R Devon Hjelm 、 Alex Fedorov 、 Samuel Lavoie-Marchildon 、 Karan Grewal 、 Phil Bachman 、 AdamTrischler和Yoshua Bengio。通过互信息估计和最大化学习深度表示。在2019年国际学习代表大会上。3[20] 黄志傲，刘芳晨，苏浩。使用地标映射状态空间以实现通用目标。在Advances in Neural Information ProcessingSystems 32中，第1942-1952页。Curran Associates，Inc.2019. 2[21] Chiyu Max Jiang，Jingwei Huang，Karthik Kashinath，Prab- hat，Philip Marcus，and Matthias Niessner.非结构化网格上的球形CNN在2019年的学习代表国际会议3[22] N Koenig和A Howard。gazebo的设计和使用范例，一个开源的多机器人模拟器。在2004年IEEE/RSJ智能机器人与系统国际会议（ IROS ）（ IEEE Cat 。No.04CH37566），第3卷，第2149-2154页，第3卷。ieeexplore.ieee.org，9月2004. 4[23] MathieuLabb e´andFran coisMichaud. RTAB-Map是一个开源的激光雷达和视觉同步定位和地图库，用于大规模和长期的在线操作。Journal of Field Robotics，36（2）：416-446，2019。1[24] Michael Laskin 、 Scott Emmons 、 Ajay Jain 、 ThanardKuru- tach、Pieter Abbeel和Deepak Pathak。稀疏的图形存储器，用于稳健的规划。2020年3月。一、二、五[25] Michael Laskin ， Aravind Srinivas ， and Pieter Abbeel.CURL ：用于强化学习的对比无监督表示。在 HalDaume III和Aarti Singh编辑的第37届机器学习国际会议论文集，机器学习研究第119卷，第5639PMLR。315393[26] Kara Liu ， Thanard Kurutach ， Christine Tung ， PieterAbbeel，and Aviv Tamar.用于零镜头视觉规划的幻觉拓扑记忆在Hal Daume III和Aarti Singh，编辑，第37届机器学习国际会议论文集，机器学习研究第119卷，第6259PMLR。一、二[27] Kairanbay Magzhan和Hajar Mat Jani。最短路径算法的回顾与 International Journal of Scientific TechnologyResearch，2（6）：99-104，2013. 第1、3条[28] Suraj Nair和Chelsea Finn。层级预见：通过视觉子目标生成的长期任务的自我监督学习。在2020年国际学

下载后可阅读完整内容，剩余1页未读，立即下载