视觉重新定位中参考算法的选择对评估结果产生巨大影响

174 浏览量更新于2023-10-15 收藏 1.81MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6218视觉相机再定位中伪地面真值的限制Eric Brachmann1Martin Humenberger2Carsten Rother3Torsten Sattler41Niantic2 NAVER LABS Europe3海德堡大学HCI/IWR视觉学习实验室4布拉格捷克技术大学捷克信息学、机器人学和控制论研究所摘要测量相机姿态准确度的基准数据集已经推动了视觉重新定位研究的进展为了获得数千个图像的姿态，通常使用参考算法来生成伪地面实况。流行的选择包括运动恢复结构（SfM）和同时定位和映射（SLAM），如果可用的话，使用额外的传感器，如深度相机。因此，重新定位基准测量每个方法复制参考算法的结果的程度。这引出了一个问题，即参考算法的选择是否有利于某一系列的重新定位方法。本文分析了两个广泛使用的重新定位数据集，并表明，评估结果确实不同的参考算法的选择。因此，我们质疑重新定位文献中的共同信念，即基于学习的场景坐标回归优于经典的基于特征的方法，并且基于RGB-D的方法优于基于RGB的方法。我们认为，任何索赔的排名重新定位的方法，应采取的参考算法的类型，和参考算法的方法的相似性，考虑。1. 介绍基准数据集的可用性[14，34，38，39，43，56，64，69，72，74，77，82]已经成为研究视觉重新定位的驱动因素，视觉重新定位是使自主机器人[40]、自动驾驶汽车[28]和增强/混合现实（AR / MR）系统[1，10，42]成为现实的核心技术。这些基准测试为一组训练和测试图像提供相机姿势。训练图像可以用于创建场景表示，并且测试图像用作查询以确定相机相对于场景的3D位置和3D取向（6DoF姿态）。由于联合估计数千或更多图像的姿态的挑战，基准数据集通常由参考算法（诸如SfM或（RGB-）D SLAM）生成[34，38，39，64，74]。因此，基准测量视觉重新定位方法能够多好地复制参考算法的结果。理想情况下，参考算法的选择不RGB-D SLAM伪地面实况精度@1cm，1°0% 50% 100%伪真值主动搜索DSAC*（RGB）DSAC*（RGB-D）0% 50% 100%SfM伪地面实况图1. 通过两种不同的参考算法重建的相同场景的可视化。我们显示了通过最先进的视觉定位算法估计的测试图像的轨迹（左）以及定位在1cm和1◦误差w.r.t.内的图像百分比。伪地面实况（正确，越高越好）。虽然底层3D场景模型非常相似，但方法的相对排名是颠倒的。在本文中，我们表明，用于创建伪地面实况的参考算法有显着的影响，该方法达到最佳效果。只要它忠实地估计训练图像和测试图像的相机姿态，这是重要的。特别地，参考算法的选择不应影响基准上的方法的排名。然而在实践中，不同的参考算法优化不同的成本函数，SfM [60，80]的稀疏点云的重新投影误差或基于深度的SLAM方法[16，30，47，62]的3D空间中的对准误差，导致不同的局部最小值。我们问到什么程度的参考算法的选择imp- pacts的基准方法的排名。这是一个重要的问题，因为它涉及到我们是否可以得出绝对的结论，例如，算法A优于算法B，或者使用分量C提高了准确度。有趣的是，据我们所知，这个问题在重新本地化的文献中没有得到太多的关注。本文的主要重点是调查如何6219参考算法的选择影响视觉重新定位算法的测量性能。为此，我们在两个流行的基准数据集上比较了两种类型的参考算法（基于深度的SLAM和SfM）[64，74]。国家的最先进的重新定位算法的详细实验表明，参考算法的选择，可以有深远的影响排名的方法。特别地，如图1B所示。1，我们表明，根据参考算法，现代端到端可训练方法[7]优于或优于经典的近10年的基线[54，55]。类似地，选择使用深度图还是SfM点云来表示场景可以根据参考算法来提高或降低性能。我们的结果表明，我们作为一个社区，在从现有的基准得出结论时应该谨慎。相反，有必要考虑到某些方法比其他方法更接近参考算法。前者能够更好地复制参考算法在评估本地化结果和设计新基准时，应讨论这种具体而言，本文做出了以下贡献：1) 我们表明，用于获得pGT姿态的参考算法的选择可以对方法的相对排名具有显著影响，达到方法的排名可以（几乎）完全颠倒的程度。这意味着应始终在使用哪种算法创建pGT的方面考虑视觉重新定位的已发表结果。2) 我们提供了在7场景[64]和12场景[74]数据集上由仅RGB SfM和（RGB-）D SLAM生成的pGT的比较，这些数据集被广泛使用[2我们表明，没有明显优于其他。我们表明，普遍接受的结果，从文献（RGB-D变种的重新定位方法优于他们的RGB只有同行;场景坐标回归比基于特征的方法更准确）不是绝对的，而是取决于pGT。3) 我们不知道以前的工作，旨在评估在何种程度上可以从现有的基准得出有关本地化性能的结论因此，本文是第一个提高认识的pGT重新定位的局限性需要讨论，以使有效的比较方法。我们的新pGT和评估管道可在github.com/tsattler/visloc pseudo gt limitations/上找到。2. 相关工作在计算机视觉中，获得地面实况的难度因任务的不同而不同对于具有低维结构的任务，例如图像分类和对象检测，人工注释是有效的[21]，并且可以缩放通过众包[17]。对于具有更复杂输出的任务，例如图像分割或光流，注释时间迅速上升到严重影响相关数据集的规模和成本的水平[15，19，25，46]。6DoF相机姿态估计任务伴随着人类不擅长直接标注相机姿态的附加困难。相反，它们将图像对应性注释为优化问题的输入，以间接恢复姿态[56，69，72]。由于稳定的姿态估计需要许多对应关系，因此这样的注释方法不会扩展到超过几百个图像。此外，注释通常仅精确到几个像素，这取决于到场景的距离，可能导致显著的姿势不确定性[56，72，82]。作为替代方案，可以通过外部跟踪系统[9，62，67]来跟踪记录相机。在提供高精度姿态的同时，由于复杂的设置，捕获不同的场景集合是具有挑战性的，安装和校准、确保传感器的良好可见性等。类似地，工业级LiDAR扫描仪已用于产生地标的高质量扫描，但相应的数据集仅提供具有有限空间范围的少数场景[35，63，66]。将GPS与惯性导航系统（INS）组合的GPS-INS系统也已被用于大规模跟踪相机姿态[25，43]。然而，仍然需要后处理以获得更高的准确度[56]。合成数据集具有真实的地面实况，但大多数当前的数据集，例如栖息地[44]，在低水平噪声、照明条件或镜面反射的多样性方面是有限的。因此，作为重新本地化核心的数据关联可能变得过于容易。一个例子是[58]中报告的在剑桥地标数据集的合成版本上的主动搜索[54，55]的非常低的绝大多数重新定位基准遵循使用参考算法的地面实况恢复的自动方法[14，31，34，38，39，56，64，69，72，74，77，82]。最受欢迎的选择是SfM [60，80]，通常用于大型户外环境[14，34，38，39，56，72]，以及基于深度的SLAM [16，30，47，62]，通常用于小规模室内环境[64，74，77]。还存在混合解决方案，诸如LiDAR扫描的基于ICP的配准，随后是RGB图像的基于SfM的配准[56，69]。一些基准点使用人类视觉检查作为最终的质量控制和验证阶段[31，56，69，82]，并且发现最先进的参考算法提供高质量的重建和姿态跟踪。然而，如图1、参考算法输出中的细微差异，不太可能被视觉检查识别，可能对基准的评估结果产生重大影响。这样的评价工件有可能挑战文献中先前得出的一些结论。图2示出了在流行的室内数据集7Scenes [64]和7Scenes[65]上的重新定位研究中的已发表结果。6220FRi，t我我我i−1i−1255数据集7场景[64]12场景[74]剑桥[34]亚琛日[56，57]参考算法深度SLAM（KinectFusion[30，47]）RGB-D SLAM（BundleFusion[16]）RGB SfM（VisualSfM[79，80]）RGB SfM（COLMAP[60]）5cm时的评估度量精度，5cm时的5°（↑）精度，5°（↑）平均值中位传输呃。（↓）25cm时的精度，2°（↑）稀疏特征稀疏特征（RGB-D）密集对应百分百百分之八十百分之六十百分之四十百分之二十0%的百分比35100%3080%2060%1540%1020%0个零百分比密集对应（RGB-D）场景坐标回归场景坐标回归（RGB-D）图2. 四个基准的最新结果。对于室内场景（7场景），学习场景坐标回归方法（紫色）优于基于特征的方法（绿色），基于深度的方法（虚线）优于仅RGB方法。对于室外场景（剑桥和亚琛），基于特征的方法，反过来，优于场景坐标回归。我们表明，这种行为是耦合到用于创建pGT的参考算法的类型。12个场景的结果在常见的5cm，5◦阈值下饱和。12场景[74]，以及流行的户外数据集剑桥地标[34]和亚琛日[56，57]。我们比较了占主导地位的家庭重新定位方法，场景坐标回归和稀疏基于特征的匹配。场景坐标回归方法使用学习模型、神经网络或随机森林来预测密集的图像到场景的对应关系[2场景坐标回归方法的RGB-D变体主导室内重新定位的排名，这归因于室内场景关于无纹理表面和模糊结构的固有困难，这使得难以找到和匹配稀疏特征[2，34，64，76]。对于室外重新定位，经典方法将稀疏特征位置处的手工制作的[55，64，74]或学习的描述符[18，29，52，53]与3D SfM重建相匹配，与场景坐标回归相比，实现了非常优越的结果这是由于现场无法协调-将回归按比例缩放到空间上的大场景[56，70]。或者不使测试图像的姿态公开可用[56，69，77]。在下文中，我们描述了数据集、它们的原始pGT以及我们如何经由仅RGB 的 SfM 为每个数据集创建附加pGT。本节的目的是在评估所得pGT变体之前使读者熟悉数据集和参考算法4）和测量其对重新定位性能的影响（第4节）。（五）。3.1. 增量深度SLAM可以通过将密集深度测量增量地配准到3D场景表示来跟踪相机姿势。KinectFusion [30，48]是这种系统的早期化身，使用截断的符号距离函数（TSDF）来表示场景。通过将帧i的深度图Di合并成加权平均值来更新TSDF最小Σ||WDiFDi−F||、我们的工作提供了一个不同的解释，在不同的环境中的re-localiser的性能，采取的参考算法，用于创建相关的基准。3. 数据集和参考算法为了测量不同参考算法的影响-其中，F和F_D_i表示所述对象的TSDF表示。场景和深度图Di的深度。权重W_D_i捕获深度记录的测量不确定性为了跟踪具有旋转Ri和平移ti的新帧的6DoF相机姿态，KinectFusion最小化所测量的深度与场景的TSDF体积的深度渲染之间的点-平面距离。算法对本地化性能的影响，我们考虑pGT使用（RGB-）D和稀疏的仅RGB数据生成。我们使用流行的7Scenes [64]和12Scenes [74]数据集最小Σ||.V（x）−[R|t]Vg（x）ΣTNg（u）||.（一）X它们为测试和训练图像提供深度图和pGT姿态。这与其他常见的板凳--目标在2D像素位置X上被最小化。Mea-确定的深度和渲染的深度被反投影到3D标记[34，38，56，69，72，77]，不提供深度verte xmapsViandVgi−1，相对于水平。Particularly，Vg测试和训练图像信息[34，38，56，69，72]11可以使用运动立体或单视图深度预测来估计深度图。然而，前者需要pGT并受其影响，而后者提供有限的质量和稳定性。表示世界中场景的渲染顶点贴图（或全局）坐标，Ng表示渲染法线。适用于7场景的KinectFusion pGT。Shotton等[64]创建了7Scenes数据集，通过使用Kinect v1扫描七个小规模室内环境进行重新定位，并ORB+PnP [74]SIFT+PnP [74]DSAC++ESAC [5]DSAC*（RGB）[7]D.VLAD+R2D2（+D）[28]主动搜索[54，55]D.VLAD+R2D2[29]DSAC*（RGB-D）[7]ORB+PnP [64]主动搜索[54，55]ESAC [5]DSAC++hLoc [52，53]D.VLAD+R2D2[29]D.VLAD+R2D2（+D）[29]SCoCR [37]DSAC* [7][59]第五十九话ScoreNet [11]DSAC*（+D）[7]InLoc [69]BTBRF [45]SANet [81]DSAC++DSAC*[7]NG-DSAC++[6]主动搜索[54，55]hLoc [52，53]APGeM+R2D2DSAC++ESAC（10名专家）[5]ESAC（20名专家）[5]ESAC（50名专家）[5] NetVLAD + D2Net[20]主动搜索[54，55]hloc（SP+NN）我我6221XX∈--KinectFusion。每个场景由不同的用户扫描多次，并且使用ICP [51]注册得到的3D场景模型在单次扫描内或多次扫描之间未执行全局优化，并且在7Scenes的pGT中仍然未考虑任何相机漂移。在RGB-D图像方面，7Scenes数据集仅提供Kinect的未校准输出，即，RGB图像和深度图未配准，并且相机姿势与深度传感器而不是RGB相机对准。3.2. 全局优化的RGB-D SLAM为了减少增量扫描期间的相机漂移，最近的RGB-DSLAM系统如BundleFusion [16]共同优化所有6DoF相机姿势。参数vector =（R0，t0，…RN，tN）堆叠记录的所有帧的旋转和平移，并优化minwsprsEsprs⑵ + wphtEpht⑵ + wgeoEgeo⑵ 。（二）术语Esprs最小化所有图像中稀疏SIFT [41]特征匹配的欧几里得距离。注意，由于图像像素的深度是已知的，因此该项最小化3D距离，而不是重投影误差术语Epht是确保跨配准图像的图像亮度的一致梯度的光测量损失最后，Egeo利用类似于KinectFusion的投影数据关联来优化1.一、BundleFusion pGT for 12Scenes。Valentin等人[74]扫描了12个小规模的室内环境，用于他们的12Scenes数据集。他们利用安装在iPad上的structure.io深度传感器提供相关的彩色图像。与7Scenes不同，12Scenes配备了完全校准和同步的彩色和深度图像，并将深度注册到彩色图像。每个房间扫描两次，一次用于训练，一次用于测试，并且每个场景的两次扫描都手动配准。3.3. 通过SfM的产生pGT的常见方法[34，38，39，56，68，69]。72]是使用（增量）SfM算法[60，65，80]。SfM方法依赖于SIFT [41]等稀疏局部特征来建立图像之间的特征匹配，然后将其用于恢复相机姿势和3D场景结构。SfM通常联合应用于测试和训练图像，以联合恢复所有图像的相机姿态[34，39，56]。SfM算法最小化了估计的3D点与图像中它们对应的特征测量之间的重投影误差，从而优化了问题第i个图像中的第j个3D点，π是投影函数，ρ是鲁棒成本函数[73]。SfM仅将场景重建到任意缩放因子。已知的3D距离用于恢复模型的绝对比例。7场景和12场景的SfM pGT。作为我们分析的基础，我们生成了7Scenes和12Scenes的替代pGT。首先，我们只用训练图像用SfM重建场景。接下来，我们继续重建过程与测试图像，同时保持训练相机姿势固定。该策略确保训练姿势不受测试图像的影响，如实践中的情况。最后，我们通过将所有相机的位置与原始pGT的位置稳健地对齐来恢复尺度。我们使用COLMAP [60]实现这个过程，对场景中的所有图像使用相同的相机固有函数。这种方法对于12 Scenes的office 2/5a和5 b数据集失败两者都描绘了具有高度重复结构的场景。结果，SfM重建崩溃，即，视觉上相似但物理上不同的场景部分被合并。因此，对于这两个场景，我们首先使用原始pGT对3D点进行三角测量。接下来，我们应用10次迭代，包括BA，然后合并和完成3D点：合并具有匹配特征的附近3D点，并在可能的情况下将新特征添加到3D点。使用COLMAP重建未被BundleFusion配准的12个场景的部分图像。此外，对于office 2/5a和5 b场景，我们删除了61张图像（这两个场景中包含的3，354张图像中），我们通过目视检查确定这些图像是明显的离群值。4. 伪地面真值给定分别使用（RGB-）D SLAM和 SfM估计的每个场景的pGT的两个版本，自然的问题是一个版本是否比另一个版本更精确。在本节中，我们定量和定性地表明，没有任何形式的pGT明显优于另一种：我们首先示出SfM pGT优于（RGB-1）。）根据在SfM过程期间优化的度量的D SLAM版本。然后，我们表明（RGB-）D SLAM pGT在密集3D点对准方面又优于SfM版本，即，通过基于深度的方法优化的度量。因此，两种版本都可以被认为是用于再定位实验的有效pGT请注意，我们的分析集中在两个特定的数据集上。对于各种参考算法的更一般的分析，关于校准精度的影响，我们参考[62]。基于SfM指标的评价。第一个实验minRi，θi，ti，Xj ΣΣδi jρ.||2Σ（3）||2Σ(3)重点介绍用于评估SfM重建的标准指标结构[61]。我们测量3D点的数量（#3D），在束调整（BA）期间[73]。这里，θ i是内在相机参数，Xj是第j个3D点，δij0、1 指示第j个3D点是否在第i个3D点中可见。xij是图像的对应2D特征位置特征观测的数量（#feat.）用于对3D点进行三角测量，平均轨迹长度（轨迹），即，用于对3D点进行三角测量的特征的平均数量，以及平均重投影误差（err.）。同样的数字-6222表1. 不同伪地面实况（pGT）版本的SfM统计。我们报告3D点的数量（#3D）、三角化特征的数量（#feat.）平均轨道长度（track）和平均重投影误差（err.）单位为px。从更多特征生成的更长轨迹和更低的重投影误差指示更准确的姿态。我们示出了由（RGB-）D SLAM（orig.）生成的原始[64，74]训练和测试姿势的结果通过交替束调整和点合并（+BA）迭代地细化的原始姿态，以及SfM pGT（SfM）。对于office 2/5a和office 2/5 b，从头开始的SfM失败，并且使用+BA策略生成SfM pGT[第74话]图图3定性地比较了用两个版本的pGT获得的SfM点云，示出了SfM pGT导致噪声显著更少的SfM点。作为测量由不同pGT算法找到的局部最优值的相似性的方式，我们生成1：从原始pGT开始，我们在三角化的3D模型的BA与合并和完成3D点之间交替。对于office 2/5a和office 2/5 b，我们重复这个过程10次迭代。在通过（RGB-1）找到的局部最小值被确定的情况下，D SLAM和SfM算法是接近的，我们期望该过程导致SfM算法的类似局部最优。2如图2所示。1，图 3.使用原始（左）和SfM pGT （右）姿势获得的 RedKitchen（7场景）和apt 2/kitchen（12场景）的SfM点云的可视化。SfM pGT导致噪声较小的模型，其中结构更清晰可见。在3D模型中的图像的BER，更多的观察和更长的跟踪，特别是与较低的再现相结合误差，指示更高的相机姿态精度。较短的轨道，即多个3D点，表示单个物理3D点由多个SfM点表示：由于姿态不准确，没有单个SfM点投影在用于所有测量的鲁棒三角测量[60]的误差阈值内。我们比较的SfM pGT与点云通过三角测量的场景从原始的（RGB-）D pGT。对于7场景，我们使用来自[78]的校准来调整原始pGT以考虑RGB相机与深度传感器之间我们对两个pGT版本使用相同的匹配集和相同的COLMAP参数，并使用训练和测试图像以计算统计数据。选项卡. 图1显示了两个数据集的SfM指标。SfMpGT在观察次数、轨道长度和重新投影误差方面明显优于原始（RGB-）D SLAM pGT，尤其是我们将此归因于KinectFusion与BundleFusion相反，不执行全局优化，因此容易受到影响。对于两个数据集，与SfM pGT相比，结果具有相似或稍差的统计学。这指示姿势之间的差异对于束调整而言不够大以导致显著不同的局部最小值。基于3D对准度量的评估。我们接下来评估两个pGT版本如何准确地对齐可用于每个图像的深度图。对于场景中的一对图像（A，B），我们使用pGT姿势将它们的深度图转换为场景坐标中的3D点云。对于A我们报告的均方根误差（RMSE）的所有点对应低于5cm的离群值阈值。3在Open3D [83]中实现的该成本函数测量两个点云的3D对齐，并复制由KinectFusion [30，47]和BundleFusion [16]等算法最小化的度量。我们基于SfM pGT [ 49 ]中的视觉重叠选择用于评估的图像对：|P AB|是第由图像A和B共同观察到的3D点，以及|P A|和|P B|分别是A中看到的3D点的数量2我们基于SfM度量将“中间”pGT与其他pGT进行比较，而不是比较姿态误差。SfM和SLAM pGT之间的比对引入了我们不能容易地去除的潜在误差3我们没有观察到在5cm内没有对应的图像对。国际象棋消防首长办公室南瓜红色厨房楼梯参考算法。原稿+BASFM原稿+BASFM原稿+BASFM原稿+BASFM原稿+BASFM原稿+BASFM原稿+BASfM #3D433K204k190k628k316K296K104k73k70k515K261K249K282k131k150k1.0M455k472k178k119k132k #feat. 7.4M 7.7M 7.9M9.9M 10.2M 10.4M1.4M 1.4M 1.5M7.4M 7.8M8.0M 4.5M 5.0M 5.2M14.1M 15.8M 16.5M2.3M2.4M2.6M17.037.741.6 15.7 32.335.0 13.4 19.820.9 14.3 29.9 32.1 15.938.2 35.2 13.5 34.735.0 13.020.2 19.5错误。[px] 1.741.401.251.540.950.881.491.101.011.681.251.121.76一点四一点二四一点十分apt 1/厨房apt 1/生活apt 2/床apt 2/厨房apt 2/生活#3D 146k 106k 104k 166k112k120k #feat.1.3M 1.3M1.4M 1.4M 1.5M1.6M 履带 8.612.613.0 8.313.6 13.3错误。[px]1.631.331.251.721.38一点二八office 1/gates 381 office 1/lounge #3D695k 447k 471k161k116k120k #feat.6.8M 7.5M7.9M 1.4M 1.4M1.5M履带9.9十六点八16.78.512.4错误。[px] 1.601.171.09一点六九1.271.19245k 201k 171k208k 121k 119k148k个 116k121k1.9M 2.0M2.2M 2.8M 2.9M3.0M 1.2M 1.2M1.3M7.811.912.713.3 24.024.97.810.4 10.41.581.030.971.721.21一点1.73 1.281.13apt2/luke201k135k140k1.5M1.7M 1.7M7.312.4 12.51.75 1.421.331.62一点二五office1/gates362658k424k419k9.7M 10.1M10.3M14.7二十三点八二十四点七1.69一点三一一点一八office1/manolis办公室2/5a364k 275k 273k 261k 202k1.591.18 1.12办公室2/5 b607k580k3.7M 3.8M3.9M 1.7M2.0M4.0M4.6M10.0十三点七 14.2 6.39.76.71.601.27 一点一九1.57 0.831.430.812场景7场景6223|||| ||≥7个场景-全部平均17场景-办公室112个场景-全部112场景-apt 2/生活10.80.80.80.80.60.60.60.60.40.40.40.40.20.20.20.200 0.0050.010.0150.020.0250.03对准误差[m]00 0.0050.010.0150.020.0250.03对准误差[m]00 0.0050.010.0150.020.0250.03对准误差[m]00 0.0050.010.0150.020.0250.03对准误差[m]图4. 7Scenes和12Scenes数据集的3D对齐统计。我们示出了火车/火车和测试/火车图像对的深度图之间的3D对准误差的累积分布（cdfs），对于原始（RGB-）D SLAM和SfM伪GT具有至少30%的视觉重叠可以看出，原始伪GT产生深度图的更准确的对准B.我们考虑一个对，如果P AB/max（P A，P B）0。3 .第三章。图4示出了在比对过程中的累积直方图。两个pGT版本的错误我们分别显示了训练图像对和包含一个测试和一个训练图像对的曲线前者测量训练图像之间的一致性，后者测量测试图像与训练图像的对齐程度。由于图像是以连续序列拍摄的，因此与包含训练图像和测试图像的对相比，训练图像对之间的视点变化较小因此，测试/列车对的误差大于列车/列车对的误差。图4示出了原始的较小对准误差。pGT我们还示出了通过使用图1中的不同pGT姿态融合单独的深度图获得的密集点云。5和图六、虽然SfM pGT导致具有较少漂移的全局更一致的几何形状4，但是利用原始pGT更好地恢复这证实了来自图1的结果4、显示更精确Orig.的深度图的相对对准。pGT5. 重新定位评估秒图4显示原始（RGB-）D SLAM pGT和SfM pGT都没有明显优于另一个。因此，两种pGT版本都是用于评估重新定位算法的有效选择。它们的差异在厘米级。然而，这通常是用于测量定位精度的范围因此，本节研究不同的pGT版本如何影响重定位器的性能我们示出了RGB-D基线在用（RGB-）D SLAM生成的pGT上表现更好最小化再投影误差的基线在SfM pGT上表现更好。评价措施。我们报告了位于相应pGT的Xcm和X◦内的图像百分比[64，74]。我们还报告了密集对应重投影误差（DCRE）[77]：对于每个测试图像，我们使用其pGT姿势将深度图反向投影到3D点云中我们使用估计的和pGT姿势将每个3D点投影到图像中，并测量两个我们在下面报告了每个测试图像的最大DCRE，在附录中报告了每个测试图像的平均DCRE。mat.4注意，全局一致性可能并不总是必要的，例如，AR应用，其中用户仅观察场景的一小部分。基线。我们评估经典的，基于功能的，以及基于学习的重新定位器的两个版本的pGT。基于学习的方法在每个pGT上重新训练，基于特征的方法使用每个版本的pGT来创建它们的映射。请看supp。mat.有关详细信息DSAC*[2，4，7]是一种基于学习的场景坐标回归方法，其中神经网络为每个像素预测场景空间中相应的3D点。DSAC* 在2D-3D匹配之上使用PnP [24]求解器和RANSAC [22]。它的RGB-D变体DSAC*（+D）使用图像深度来建立3D-3D匹配和Kabsch匹配。[32] 解算器hLoc[52]将图像检索与Su-perPoint [18]特征和SuperGlue [53]相结合进行匹配，然后进行基于P3 P+ RANSAC 的姿态估计。 DenseVLAD +R2D2[29 ，50，71]使用DenseVLAD [71]检索图像对和R2D2特征进行匹配。训练图像和姿态用于构建3D SfM图，并且使用2D-3D匹配和P3 P +RANSAC来定位测试图像。DenseVLAD+R2D2（+D）不是三角测量点匹配，而是通过使用深度图将R2D2关键点投影到3D空间来构建3D图。主动搜索（AS）[54，55]是基于优先级SIFT[41]匹配建立2D-3D对应的经典的基于特征的方法。AS利用RANSAC循环[22]内的P3P求解器[27，36]来结果选项卡. 2报告了在7Scenes数据集的pGT的5cm和5◦范围内定位的测试图像的百分比。对于原始pGT，基于深度的DSAC*（+D）明显优于所有其他方法。基于深度的Den-seVLAD +R2D2（+D）在所有基于稀疏特征的方法中实现最佳结果。AS，使用经典的SIFT特征，实现了最低的精度使用原来的pGT。使用SfMpGT，排名发生了显著变化。AS从最后一名跃升至第一名，姿势准确度的绝对差异为+29.8，优于所有基于学习和基于深度的竞争对手。特别值得注意的是Pumpkin和Red Kitchen的结果，其中AS从5cm，5◦阈值内的定位不到50%提高到定位超过99%的图像。在这两个场景中，Tab。图1显示了两个pGT版本之间的SfM统计量的显著差异先前领先的基于深度的DSAC*（+D）和DenseVLAD+R2D2（+D）下降到原始pGT -序列/序列SfM pGT -序列/序列原始pGT -测试/训练SfM pGT -测试/训练CDF6224深度SLAM参考姿势RGB SfM参考位置图5.7Scenes深度图融合的一致性[64]。我们重新投影南瓜场景的深度图，并使用pGT参考姿势在世界空间中积累所得的3D点云虽然深度SLAM pGT导致前景对象（如南瓜和椅子）的更清晰的重建，但是SfM pGT导致远处对象（如纸币和咖啡机）的更好的对准全局场景布局前景对象RGB SfM参考构成RGB-D SLAM参考构成RGB SfM参考构成图6. 12个场景的深度图融合的一致性[74]。左：RGB-D SLAM伪GT导致全局场景布局的显著扭曲，其明显地被SfM伪GT减少。右：与由RGB-D SLAM pGT生成的更清晰的深度对齐相比，前景对象对于SfM伪GT姿势显得模糊a) 位姿误差（最大的Rot。译错误）b) 最大DCREc) pGT对位姿误差主动搜索hLocDSAC*DSAC*（+D）DenseVLAD+R2D2DenseVLAD+R2D2（+D）图7.位姿误差和密集对应重投影误差（DCRE）[77]。a）累积。位姿误差的分布（最大的旋转和位置误差），对7个场景（顶行）和12个场景（底行）进行跨场景平均b）累积每个测试图像的最大DCRE的分布我们在DCRE图中标记图像对角线的1%。当在pGT之间切换时，方法的相对顺序改变。c）在Cum中的变化每个方法的位姿误差和pGT（orig.pGT、局部束调整的pGT（+BA）和SfM pGT）。最后的地方。特别地，当使用SfM pGT时，这两种方法的我们可以将这些观察结果与每种方法col选项卡的umn 1 2用于粗略分类）。我们将在稀疏特征上优化重投影误差的方法视为类似于SfM，并且将密集 3D-3D 误差优化的方法视为类似于（ RGB- ） DSLAM。的RGBRGB-D SLAM参考构成作为hLoc DSAC* DSAC*（+D）R2D2 R2D2（+D）位姿误差（最大度/厘米）位姿误差（最大度/厘米）原稿PGTSfM pGT最大DCRE（px）最大DCRE（px）原稿PGTSfM pGT位姿误差（最大度/厘米）位姿误差（最大度/厘米）7场景的帧的百分比12场景的帧的百分比apt 1/生活办公室1/休息室1cm，1°1cm，1°1cm，1°7场景的帧的百分比12场景的帧的百分比1%的IMG。diag.背景细节前景细节1%的IMG。diag.7场景的帧的百分比1%的IMG。diag.1cm，1°12场景的帧的百分比3cm，3°1cm，1°6225伪GT象棋火头办公室PU姆普金红色Kitchen楼梯一平均原稿 +BA SFM 原稿 +BA SFM 原稿 +BA SFM 原稿 +BA SFM 原稿 +BA SFM 原稿 +BA SFM 原稿 +BA SFM 原稿 +BA SFM主动搜索 86.4 98.6 99.986.3 96.6 99.895.7 96.510065.6 76.7 98.634.1 44.9 99.645.1 61.1 99.867.8 82.0 91.968.779.598.5hLoc 94.2 99.610093.7 97.0 99.499.7 99.910083.2 88.7 10055.2 65.5 10061.9 72.7 98.649.4 58.1 72.076.883.195.7DVLAD+R2D2 94.0 97.610095.3 94.8 99.195.6 95.6 97.078.8 84.1 99.759.2 69.5 98.861.2 69.6 98.459.2 69.6 76.977.683.095.7DVLAD+R2D2（+D）93.1 98.210091.3 95.3 98.596.5 96.4 96.381.2 86.1 96.658.5 68.0 91.672.6 78.5 97.868.0 72.8 69.580.285.092.9DSAC* 97.8 99.2 99.994.5 98.7 98.998.8 99.6 99.883.9 89.8 98.162.0 73.9 99.065.5 79.1 97.077.7 91.5 92.082.990.397.8DSAC*（+D） 99.499.7 99.698.9 98.4 96.999.910099.598.9 96.4 95.380.9 77.6 90.992.4 94.9 96.492.6 85.5 88.494.793.295.3表2. 7Scenes [ 64 ]上的重新定位结果，作为定位在5cm内的图像的百分比和由深度SLAM（orig. ），通过固定原点得到局部SfM极小值。pGT训练姿势和优化测试姿势（+BA;参见第5）和SfM pGT（SfM）。我们根据pGT从最好到最差可视化方法的排名。我们用颜色区分基于它们与参考算法的相似性的方法：类似于SfM、类似于D-SLAM或中介。DSAC*的变体优化密集重投影误差。DVLAD+R2D2（+D）优化稀疏重投影误差，但在构建3D图时并入深度因此，我们将这两种方法归类为中介。在类似于SfM的方法中，AS在SfM pGT下显示出最大的改进，因为它重新使用来自SfM的SIFT特征。图图7（a）示出了对于比之前使用的更严格的阈值，在pGT的Xcm，X内局部化的图像的分数上的累积分布这对于12Scenes尤其有趣，其中所有方法的准确度在5cm，5◦阈值下饱和。由DSAC*（+D）预测的姿势与原始（RGB-）D SLAM pGT比与SfM pGT更好地对齐。同时，通过基于RGB的方法预测的姿态与SfMpGT更好地对齐。对于更精细的阈值，方法之间存在较大差异。对于12个场景，hLoc和DenseVLAD+R2D2在1cm、1◦阈值下实现了最高精度。图7（b）示出了最大值的累积分布。DCRE。由于DCRE取决于姿态精度，所以我们观察到与之前相同的行为，即，更类似于SfM的方法在SfM pGT上优于基于深度的方法，而在原始（RGB-D）pGT上表现较差然而，这并不一定意味着这样的方法是优越的。它们与SfM参考非常相似。算法，并且它们使用由SfM流水线从训练图像三角测量的3D点用于姿态估计。因此，基于特征的方法似乎可能通过能够紧密地复制SfM行为而“过拟合”到SfM pGT。为了进一步说明该问题，我们创建了“中间”pGT：从原始pGT姿态开始，我们对场景进行三角测量，并使用束调整，然后进行点合并，以优化测试姿态，同时保持训练姿态固定。直观地，表示为“+BA”的所得姿态近似于原始训练

下载后可阅读完整内容，剩余1页未读，立即下载