基于模拟器的自主导航中视觉定位的基准测试

27 浏览量更新于2023-10-15 收藏 1.3MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2945自主导航中的视觉定位基准LauriSuomela JussiKalliola AtakanDag HarryEdelman Joni-KristianKaémaéraéinen坦佩雷大学，芬兰{lauri.a.suomela，jussi.kalliola，atakan.dag，harry.edelman，joni.kamarainen}@ tuni.fi摘要这项工作介绍了一个基于模拟器的基准在自主导航环境中的视觉定位。动态基准能够调查如何变量，如一天中的时间，天气和相机的角度影响自主代理的导航性能，利用视觉定位闭环控制。本文的实验部分研究了四个这样的变量的影响，通过评估国家的最先进的视觉定位方法的一部分，自主导航堆栈的运动规划结果表明，主要的变化，不同的方法，以视觉为基础的导航的适用性。据作者我们在https：//github上提供基准测试。com/lasuomela/carla_vloc_benchmark.1. 介绍人类大脑最令人印象深刻的能力之一就是环顾四周，回答“我在哪里？“，并使用一个环境的心理地图来引导一个人到一个以前参观过的地方。一项对人类来说微不足道的任务对机器人来说是出了名的困难。一种有前途的自主导航方法是基于视觉的导航，它使用视觉定位[54]来估计智能体相对于度量地图的姿态。通过从表示环境的图像的“图库集”创建3D重建，新的“查询”图像的姿态姿态信息然后可以用于导航到地图上的不同点。该过程如图1所示。1.一、许多正在进行的视觉定位研究集中在开发方法，更强大的查询和图库图像之间的视点和外观变化。近年来，已经发布了各种基准数据集[20，30，54]，并且视觉本地化挑战已被托管为顶级图1：车辆通过将本地特征与预先构建的3D模型相匹配，在模拟环境中找到其姿态。计算机视觉会议。新方法力求在这些基准上获得更准确的结果。文献中提到的视觉定位最常见的应用是自动驾驶和增强现实[30，54]。然而，没有一种新的基于深度学习的定位方法被证明是机器人导航堆栈的一部分。这就提出了一个问题：视觉定位基准和自动导航挑战所使用的性能指标有多相关为了实现自主机器人导航，定位方法实际上必须有多精确本文件试图解决这些问题。我们提出了一个基于Carla模拟器[18]的基准测试，该模拟器能够测试用于自主导航的视觉定位方法。在该环境中，用户可以测试用于视觉定位的各种最先进的方法在用于引导自动驾驶汽车的导航时如何执行。这种直接测试视觉定位算法在其预期目的中的性能的能力使得能够发现相关的新研究问题，而不是仅仅关注测量算法的准确性。使用模拟器还可以进行实验，研究照明条件，天气和相机视角等因素对视觉导航的影响。此外，模拟器的使用使得能够将视觉定位算法的输出与精确的2946自动驾驶汽车的地面真实位置，这在现实世界的数据集中通常是不可能的[7]。正如Brachmannet al. [7]，与真实相机数据相比，合成数据似乎“更容易”用于视觉定位方法来处理。正因为如此，我们工作中报告的导航结果可能过于乐观。即便如此，我们认为，测试端到端的视觉导航堆栈的能力提供了重要的新知识的视觉定位方法的讨论我们的主要贡献是：1）能够开发和评估自主导航任务的视觉定位方法的模拟器基准; 2）基准的示例用例：评估作为导航堆栈一部分的最新视觉定位方法; 3）将已建立的视觉定位性能指标召回率与提出的新指标失败率联系起来的新发现。所有的结果都是完整的-可生产且基准可公开获得。2. 相关工作这项工作的重点是应用视觉定位自主导航，它可以被移动机器人用来处理各种任务，如交付，检查和人员运输[22，62]。基于视觉的导航在GPS或其他传感器（如LiDAR [45]、运动捕捉[38]或主动定位信标[33]）不可用或失效的情况下非常有用。基于视觉的方法的优点是它们只需要商品RGB相机，价格便宜且节能。基于视觉的导航基于视觉的导航有多种方法。区分这些方法的最重要的因素之一是导航代理所具有的关于其操作环境的先验信息的种类。环境可以是完全未知的，或者代理可以访问表示环境的地图[2]。在未知的环境中，机器人必须探索其表面。它的任务可以是导航到特定的坐标[13]，找到某个对象[12]或映射空间[16]。对于许多应用，在已知区域中操作的能力是足够的[9，23]。在这种情况下，不需要探索。机器人可以使用摄像机来确定其在代表环境的地图上的姿势。反过来，姿势可以用来规划机器人到达目标的路线该地图可以是沿着机器人路线的图像的拓扑集合[15]，环境的完整度量地图[43]，或者甚至隐含地编码在通过强化学习导出的动作策略中[41]。在这种分类法中，视觉定位属于利用度量地图的方法组。视觉定位已用于行星漫游车[23]、轮式多用途机器人[44]和无人机[43，64]等导航目的。视觉定位。视觉定位有多种方法，如姿态回归[29]、场景坐标回归[58]和直接图像对齐[53，61]，但近年来分层定位[27，51]方法已成为基准。分层本地化包括两个阶段。作为前提条件，让在定位的第一阶段，使用位置识别方法检索与新“查询”图像最相似的图库图像[37，66]。然后，从查询图像和最相似的图库图像中提取的局部特征进行匹配[32]。图库特征的真实世界位置从3D重建中已知，因此所产生的2D到3D对应性使得能够使用透视n点（PSPOT）方法[24]来估计查询图像的6-DoF姿态。分层视觉定位方法已被证明对视点和外观的变化具有鲁棒性，并且即使对于大规模环境也是计算可行的[51]。与视觉定位相关的导航特征之一是机器人相机捕获的图像数据的顺序性质。连续运动提供了一个强先验，可以通过检索最佳匹配图像描述符序列而不是单个图像[39，42]，通过创建表示整个图像序列的描述符[25]或通过使用当前姿态估计作为拓扑定位的先验[60]，在先验检索阶段使用该先验。在局部特征匹配阶段，广义相机模型[46]能够同时从多个图像[60]估计相机轨迹。卡尔曼滤波器[8]、粒子滤波器[1]和基于图形的方法[43，64]可以进一步处理姿态估计，以实现传感器融合和离群值拒绝。基准。据作者传统上，视觉定位方法的性能已经使用真实图像的静态数据集（即，Aachen Day-Night[54]、Ox- ford RobotCar[34]、 CMU VL[5]和Visual Localiza-tion Benchmark[54] ）和合成图像（即， SimLoc-Match[6]， TartanAir[63]和V4RL[35]）。虽然这些数据集能够评估视觉定位的准确性，但它们不能提供对这些方法适合导航任务的程度的见解另一方面，模拟器使可再现的实验具有足够逼真的交互作用。存在用于基于视觉的导航的几个模拟基准。iGibson[65]和Habitat[55]模拟器在PointGoal和Ob等任务上的年度挑战[21，59]2947jectGoal导航[2]就是一个很好的例子。虽然它们为评估智能体的导航性能提供了良好的平台，但这些基准并不适合分析视觉定位方法：重点是在未知环境中的操作。我们提出的基于卡拉的基准是专门针对应用于自主导航的情况下，视觉定位的性能进行评估和调查。3. 模拟基准根据SEC中的讨论。2.指出了视觉定位在自主导航中应用的研究空白。视觉定位是计算机视觉中的一个活跃的研究主题，但是方法使用静态数据集进行评估，并且当视觉定位输出用于闭环控制时，方法的工作情况尚不清楚。作为一个解决方案，我们提出了一个基准，使不同的视觉定位方法，作为导航堆栈的一部分，容易实验该平台能够调查影响视觉局部化和后续导航性能的各种因素，例如表1中列出的那些因素。该基准测试基于Carla自动驾驶模拟器[18]和我们的Hloc可视化本地化工具箱[50]的ROS2 [36]端口。选择Carla是因为它使用简单，相对较高的照片真实感和通过Carla ROS桥接模块支持ROS2。ROS2可以轻松集成演示的视觉本地化包与不同的机器人平台。我们想强调的是，Carla的选择与其自动驾驶应用无关。本文的见解涉及一般的自动驾驶机器人导航，而不仅仅是自动驾驶。3.1. ROS2视觉定位包为了给自主代理提供通用的视觉定位接口，我们创建了ROS-Hloc包。这是一个ROS2包装器的Hloc工具箱[50]，这是一个col。表1：影响视觉定位性能的因素，以及它们是否得到我们的基准测试的支持，并在本文中进行了演示。F#因子可能报道F1照明✓✓F2天气✓✓F3视角变化✓✓F4场景结构✓✓F5季节（Seasons）✗✗F6摄像机放置（扩展）✓✗F7摄像机参数（内部）✓✗F8多个相机✓✗F9动态对象✓✗F10大灯组选择最先进的视觉定位方法和实用功能。最初的工具箱是为静态图像集合而设计的，但我们的ROS-Hloc将其扩展到实时流中的图像。ROS-Hloc工作流程如下。首先，为每个测试环境收集一个库集。在模拟器内部，这是通过使用Carla的内置自动驾驶仪驾驶参考运行来实现的沿着路线，图像被连接到车辆的摄像头捕获。拍摄图像以稳定的间隔，并保存到磁盘连同确切的相机姿势。在已经捕获图库集之后，处理图像以提取全局和局部特征描述符。这些被保存在图库数据库中以供查询。然后使用Colmap SfM库[56，57]估计提取的局部特征的3D位置。我们使用来自已知相机姿势的点三角测量，而不是运行完整的SfM重建[26]。这产生比从无序图像集合重建更高质量的3D场景模型。在模拟器中，获取精确的相机姿势是微不足道的。在现实世界中，LiDARSLAM方法可以在映射阶段使用，以确保高保真的3D模型[10，30]。在推理时间，车辆捕获查询图像，该查询图像被发送到ROS-Hloc以进行姿态估计。首先，最相似的图库图像检索的地方recognition。检索到的图库图像使用共可见性聚类[51]划分为空间聚类。然后，局部特征匹配用于建立查询到图库的2D-3D对应关系。这些对应关系被用作Colmap提供的Perspective-n-Point（PSPs）[24]求解器的输入，以产生每个聚类的6DoF姿态估计来自具有最高数目的内围层2D-3D对应的聚类的姿态估计该姿态估计被转发到代理Hloc包括各种本地化方法选项。有两种全局描述符方法，NetVLAD [4]和Ap-GeM [48]，我们结合四种支持的局部特征提取器进行测试，SIFT [31]，D2-net[19]，R2D2 [49]和SuperPoint [17]。除了SuperPoint之外的所有方法，我们通过最近邻搜索进行局部特征匹配，并进行比率测试 [32] （ NN 比率）。使用SuperPoint，我们使用SuperGlue匹配器[52]。3.2. 车辆运动规划控制部件除了用于视觉定位的ROS-Hloc之外，导航堆栈还需要两个组件：运动规划器和控制器。运动规划器又分为全局规划器和局部规划器。基于路线描述，全局规划器产生从车辆的起始位置到其目标的一组路点它与本地规划器结合使用，在每个时间步，查找当前最接近的2948并将其作为子目标传递给控制器。该控制器由两个比例积分微分（PID）控制器[3]组成，一个用于车辆的纵向控制，另一个用于车辆的横向控制它的目的是产生转向命令，从本地规划器将车辆移向航路点。我们使用来自Carla的全局规划器和控制器，以及我们自己实现的本地规划器。传感器融合顺序处理。在用于运动规划之前，来自视觉定位的姿态估计首先被转发到卡尔曼滤波器，该卡尔曼滤波器将估计与来自模拟车轮里程计传感器的测量融合。从理想的里程计的真实值注入高斯噪声，使传感器更真实。我们将视觉姿态估计与车轮里程计数据融合的原因是车辆的PID控制器需要高频的姿态输入，这是当前最先进的分层视觉定位系统无法实现的。车轮里程计还使得车辆能够在环境退化到使得视觉定位流水线的PSNR求解器不能收敛到解时获得其位置的估计。车辆可以使用仅来自车轮里程计的姿态信息来导航，但是由于里程计测量包含噪声，估计的姿态随着时间累积误差。这种漂移仅限制了短距离的车轮里程计导航。将车轮里程计与视觉定位相融合，有效地校正了漂移。我们使用扩展卡尔曼滤波器（EKF）实现机器人定位ROS包[40]。为了使定位系统对离群值更鲁棒，丢弃与滤波器的当前状态相差超过20米的视觉姿态估计该方案解决了自主导航环境中姿态级视觉定位的顺序性，并为姿态估计引入了一定程度的时间稳定性。我们不添加顺序处理的先验和局部特征匹配阶段。这些将是有趣的研究课题，但我们认为，单图像定位是一个重要的起点，调查的适用性视觉定位自主导航。3.3. 评价方案和业绩衡量标准性能测量方法是任何基准测试的重要组成部分。在这项工作中，我们希望将视觉定位和自主导航结合在一起，因此我们的指标应该对这两个领域都有意义已经提出了面向自主驾驶的视觉定位性能指标，例如“在没有定位的情况下导航性能通常由成功率（SR）[63]或路径长度加权成功（SPL）[2]。在我们的基准测试的背景下，SR将通过重复测试路线的N个事件来测量，并计算路线的成功导航与事件总数之间的比率。SPL通过额外测量从最短路径到目标的偏差来扩展SR。对于我们的基准测试中使用的指标，我们结合了视觉定位[54]，自主导航[2]和视觉对象跟踪[11]（VOT）领域的见解VOT的绩效评估需求与我们的相似，并且已经对评估方法进行了严格的研究灵感来自克里斯坦等人的作品。[28]和Cehovin等人。[11]中，我们采用了两个描述定位精度和鲁棒性的度量。回忆率。性能的第一个方面是视觉定位方法的准确性。这是视觉定位方法在不同条件下表现如何的直观度量。对于每个实验环境，我们进行一个测试，其中车辆驾驶通过测试路线，视觉定位运行。为了对视觉定位方法的准确性进行比较测量，我们对于导航，车辆使用来自模拟器的地面实况姿态信息。基于视觉定位估计的导航（其可能包含大的误差）将导致车辆在每次测试运行中驾驶稍微不同的路线，从而影响准确度测量的可重复性。对于实验设置和定位方法的每种组合，我们报告了从Sattler等人那里获得的定位回忆。[54]第54段。我们报告在三个误差阈值内的正确姿势的比例：0.25

下载后可阅读完整内容，剩余1页未读，立即下载