没有合适的资源?快使用搜索试试~ 我知道了~
大范围室内视觉定位中的姿势校正模块的研究
15974大范围室内空间Janghun Hyeon1*janghun0414@gmail.comJoohyung Kim1韩国大学,2TeeLabs韩国首尔kjh069@gmail.comNakju Doh1,2nakju@korea.ac.kr摘要室内视觉定位对于诸如自主机器人、增强现实和混合现实的各种应用是重要的。视觉定位的最新进展已经通过由粗到细的方法证明了它们在大规模室内空间中的可行性,该方法通常采用三个步骤:图像检索、姿态估计和姿态选择。然而,需要进一步的研究,以提高大规模室内视觉定位的准确性。我们证明,在以前的方法的局限性,可以归因于稀疏的数据库中的图像位置,这会导致从数据库中检索到的图像的查询和视图之间的差异。在本文中,为了解决这个问题,我们提出了一个新的模块,名为姿势校正,使重新估计的姿态与局部特征匹配在一个类似的观点,通过重组的局部特征。该模块增强了初始估计的姿态的准确性,并分配更可靠的排名。此外,所提出的方法实现了一个新的国家的最先进的性能,在具有挑战性的室内基准数据集InLoc的1.0米内的准确度超过90%的一个1. 介绍室内视觉定位是用于室内应用的常见解决方案,例如自主机器人、增强现实和混合现实[8,19,32,35]。然而,即使视觉定位的最新进展已经证明了在城市环境和小室内空间中的显著性能[4,5,6,7,22,23,28],但是由于相似的地方、重复的模式、无特征的场景、遮挡的场景和高度动态的特征,在大规模室内空间中的长期视觉定位仍然具有挑战性[54]。最近,有报道称视觉定位可以*同样为这项工作作出了贡献。1代码可在http://github.com/JanghunHyeon/PCLoc获得X−X+3D信息姿态选择本地特征地图姿势矫正局部特征姿态估计全局特征图像检索图1.分层模型,包括姿态校正。 姿态校正步骤将初始估计的姿态X-更新为X+。每个步骤中使用的主要信息显示在方框下方。使用InLoc[54] [42]《易经》。这些作品采用分层(粗到细)结构,其中算法使用最轻的特征来检索几个候选者,并使用更密集的特征来估计所选择的几个候选者的姿势图1中的黑框描述了由以下- 图像检索:检索具有间接特征的许多候选项,例如 NetVLAD [1] , GeM [37] , AP-GeM [38] 和 i-GeM [19]。- 姿态估计:使用SuperPoint [ 10 ]和D2Net [ 13 ]等直接特征估计候选人- 姿态选择:利用给定的3D信息选择最终姿态,例如姿态验证(PV)[54,55]和共视聚类[42]。这些框架是事实上的标准,因为许多成功的研究继承了这些结构[13,14,17,19,40,41,43,50,51,55]。然而,我们认为还有进一步改进的空间,因为最近最先进的方法[14,17,43]的准确度在大规模室内空间[54]中的1.0m内约为 80%,而在室外基准数据集中通常达到90%以上[3,45,47]。我们确定数据库中图像位置的稀疏性是性能差距的原因15975因为难以在大规模室内空间中密集地构建数据库[54]。稀疏性导致查询图像和检索图像之间的视图差异。例如,当查询姿态远离数据库图像姿态时,两个图像中的共同视图往往较小。因此,现有方法中的姿态估计模块产生不准确的输出,因为出现在查询和数据库图像两者中的局部特征不足以进行准确估计。在这项工作中,为了规避稀疏性问题并提高准确性,我们提出了一种称为“姿势校正”的新模块,如图1中的黄色框所示,该模块重新组织了可以从es-focus中(一)LF(查询)LF(数据库)(b) 姿态估计LF(查询)LF(X−)(c) 姿势矫正估计姿势(X−)。注意,该方法具有类似于使用位于查询姿态附近的图像来估计查询姿态的效果。图2(a)描绘了查询和数据库姿态彼此远离的示例。由于视图差异,只有少数特征在查询和数据库图像之间匹配,如图2(b)所示。然而,如果我们重建可以在X-中观察到的局部特征,并将两组特征相关联,则会出现更多的内点,从而避免了稀疏性问题并解决了视图差异问题,如图2 (c ) 所示 。 这产 生更 新的 姿态(X+),其精度优于X-。根据给定的候选,一旦所有X+个候选都被重新估计,则自然地以匹配的可靠性的顺序重置我们使用查询和X+之间的内点的数量来评估可靠性,并向姿势选择模块提供更可靠的候选者。此外,我们提出了一个扩展的姿态校正,利用姿态校正步骤的属性,也减少了冗余的功能,可能会在姿态更新。我们还修改了[54]中提出的PV,以便可以尽可能地提高精度。在最知名的室内基准数据集InLoc [54]上进行实验我们通过与现有最先进的方法[13,14,17,40,42,43,54,55]进行比较来验证我们提出的方法此外,我们在M站点数据集[19]上评估了我们的方法,以确认我们结果的相关性。我们提出的方法表现明显更好,并取得了国家的最先进的结果,大规模的室内视觉定位。此外,我们还进行了消融研究,以证明扩展姿势校正的优越性和迭代姿势校正的效果。这项工作的贡献如下。1)据我们所知,这是第一项工作,以解决由于数据库中的稀疏性引起的视角差异问题,并提出一种新的模块,即,提出纠正措施,解决问题。2)我们扩展姿势校正的基础上,其自然属性和验证精度的提高。3)此外,我们提出了改进的PV(MPV),图2.(a)查询和数据库姿势彼此远离查询图像中的可见局部特征用红色x表示(b)由于稀疏性导致的视图差异,有很少的特征匹配之间的查询和数据库图像。(c)与查询和可以在X-中观察到的重组特征的局部特征匹配产生比(b)中的匹配更多的匹配,从而避免了稀疏性问题。这里,X-处的背景图像被渲染以用于可视化。LF表示局部特征。这进一步提高了性能。4)其结果是,所提出的方法优于最近的作品由一个没有表的利润率,并实现了新的国家的最先进的公共-李克基准数据集。2. 相关工作许多现有的方法,诸如基于绝对或相对姿态回归的方法[7、11、22、23、28]和基于结构的回归方法[4、5、6],未能估计大规模空间中的准确姿态[54]。不同的方法,如无地图的方法和基于结构的方法,使用预定义的3D地图也被研究用于视觉定位。 Sattler等人[46]提出了无地图定位。无映射方法可以以运行时效率为代价来减小数据库大小。为了恢复相机姿态,该方法需要大量的检索到的图像,用于动态恢复运动结构(SfM)。然而,由于许多原因,SfM可能在诸如InLoc数据集的数据集中失败,包括图像之间的小重叠[17]。最近的基于粗到细模型的视觉定位方法显示出在大规模室内空间中的可行性[17,19,42,54]。这些方法执行图像检索[1,37,38]以预测粗略位置并限制2D-3D匹配的搜索空间。然后对每个检索到的图像(候选者)与查询图像执行局部特征匹配[10,13,39这些检索到的图像是由运动恢复结构点云[20,29,30,47]、LiDAR扫描[34,54]或网格表面[12,18,19]表示的相关3D模型。因此,局部特征匹配DBX−X+查询15976(2D-2D匹配)通过相关的3D坐标实现2D-3D匹配。然后,匹配的对应关系用于使用RANSAC循环[9,16,27]内的透视n点(PnP)方法[24,25,26]来估计相机姿态随后,选择最佳姿势作为最终姿势。基于由粗到细的模型,已经提出了许多技术来增强定位性能。一些研究专注于通过采用鲁棒的全局描述符[17,19,36,38]来检索更好的候选人[14,17,19此外,一些研究试图通过提取更鲁棒的局部特征[10,13,39]或特征匹配[40,41,43]来提高此外,一些研究使用诸如语义或深度信息的附加信息来选择更可靠的匹配内点[14,50,51],以通过查询和数据库图像的准确局部特征匹配来一些研究的重点是选择最佳候选人[15,54,55]。简而言之,最近的研究旨在改进粗到细框架的模块,例如图像检索[14,17,19],姿态估计[10,13,14,39,40,41,43,50,51],和姿势选择[15,54,55]。相比之下,据我们所知,我们的研究是第一个工作,提出了姿势校正模块在粗到细的框架,以解决现有的框架的限制,由于在大规模的室内视觉定位的视角差异问题3. 基于姿态校正的3.1. 基线InLoc [54]是一种代表性的粗到细方法,使用三个步骤:图像检索、姿态估计和PV。我们将该方法设置为基线,并在此基础上构建管道。首先,我们使用NetVLAD [ 1 ]从数据库中检索与给定查询图像最接近的前K1个图像,该NetVLAD [1]将图像转换为全局特征。 使用NetVLAD,我们预定义的全局特征的数据库图像有效地使用最近邻方法检索的K1最佳匹配的图像。K1个图像用于下一步骤,即姿态估计。在这一步中,我们提取局部特征(即Su_perPoint [10])从查询图像和候选图像中提取。这些特征使用基于图神经网络的鲁棒特征匹配算法进行匹配,该算法被称为SuperGlue [43]。利用来自数据库的给定3D信息和对应关系,在RANSAC循环[16]中使用2D到3D PnP算法[24]来随后,我们按照RANSAC内点的数量的顺序从K1个候选中排序最终的前K2个候选InLoc [54]和我们的基线之间的主要区别是InLoc使用来自卷积神经网络的某些层的密集特征进行匹配。摄像头数量位置数量DB映像区域7-场景[52]26,00026,00031.5立方米[56]第56话240,002240,002521立方米M-Site [19]72025,92012,557平方米InLoc [54]2779,97225,287平方米表1.小尺度和大尺度室内数据集之间的稀疏性差异。而我们使用稀疏SuperPoint [10]特征和Su- perGlue [43]匹配器。最后,PV在K2个候选姿态中选择最佳姿态.从在检索到的图像的位置处扫描的RGBD数据渲染合成视图随后,通过比较逐像素局部块描述符DenseRootSIFT[2,33]来评估合成图像与查询图像之间的相似性。相似性得分被定义为描述符之间的逐像素距离的中值,而不考虑合成图像中的缺失3.2. 基线中的关键限制在大规模室内空间中,先前的粗到细方法[19,42,54,55],包括我们的基线,由于图像数据库中的稀疏性的特性而表现出限制。例如,当空间小规模室内数据集(例如,[52,56])通常由密集捕获的RGB-D数据重建,大规模室内数据集的那些(例如,[19,54])通过从稀疏定位的位置(c.f.表1)。稀疏性导致关于视图差异和可靠候选者问题。如InLoc [54]中详细提及的,没有以减少数据采集时间和人工工作的方式构建密集捕获的图像数据库的实用方法因此,考虑到视觉定位的准确度水平,两个连续数据库图像之间的距离非常大。例如,在InLoc数据集[54]中,在277个不同位置处的扫描覆盖25,287平方米的室内空间,而其性能指标被设置为0.25米。这种稀疏性引起查询与检索到的图像之间的显著视图差异,如图2(b)所示,这在姿态估计中产生差的性能稀疏性也使得难以选择可靠的候选日期。当查询与检索到的数据库图像之间的重叠小时,用于真阳性候选的局部特征匹配中的内点的数量可以小于用于假阳性候选的内点的数量。随后,在姿态估计步骤中,可以不在前K2个15977{|}3.3. 姿势矫正为了规避这两个限制,我们提出了在姿态估计和PV之间的名为姿态校正的补充步骤,如图1所示。该步骤由两个构件组成一个是姿态更新,其将来自姿态估计的X-转换为X+。另一个是当地特色地图反投影I1II当地特色地图重新排序,选择更可靠的候选人。...在构建数据库时,我们将来自扫描位置pi的图像的局部特征分组以创建...(一)������−(b)第(1)款局部特征图,Fi=piFjj=1,2,…n,其中Fj包含扫描位置pi,局部特征(即,Su_perPoint [10])及其对应的3D图3. (a)在构建数据库时,从在pi处捕获的数据库图像中提取的局部特征Fi被反投影到3D空间以创建局部特征图Fi。(b)在全局坐标系中的点,n是数字覆盖扫描视图的图像,如图3(a)所示。在姿态校正步骤中,每个候选者具有信息。关于被扫描位置pi的索引i的信息。的Fi中的局部特征被投影到X−的图像平面上,使其成为合成局部特征图像I′,如图3(b)所示。投影的局部特征用于使用Su- perGlue与查询图像的特征匹配 利用2D到3D对应关系,RANSAC循环中的PnP算法随后将姿态更新为X+。来自2D到3D对应的内点用于重新排序,其将从姿势估计传递的K2候选集合重新排序为新的K3集合。姿态校正步骤具有优于姿态估计步骤的两个属性:特征的接近度和它使用从X-可见的特征解决了姿态估计步骤的视图差异问题,X-是与查询视图共享类似视图的姿态结果,用于特征匹配的真阳性特征另外,姿态校正将从数据库图像提取的局部特征扩展到从多个图像提取的局部特征,从而导致丰富的特征。因此,它们有助于提高定位精度。3.4. 扩展位姿校正在本节中,我们提出了一种扩展的姿态校正,其利用姿态校正步骤的属性并减少冗余特征以进一步提高定位精度。分割匹配利用姿态校正的proximity的属性,我们提出了分割匹配,它将图像分割成子区域,如图像的上,下,左,右半部分,以找到每个区域中的特征匹配。它有助于找到在图像的较大区域中空间分布的内点,而无需微调预训练的SuperGlue模型[43]。由于内点的空间分布对于准确的姿态估计至关重要[15,48,58],因此分割匹配导致姿态校正的性能改善。在姿态校正步骤中,将可见局部特征投影到X-图像平面上以创建合成局部特征图像I’。当两个图像之间的视图足够相似时,分割匹配是有用的因此,当数据库姿态理想地密集使得总是存在类似于任意查询的视图的数据库图像时,或者用于从类似于查询的视图的视图更新X-的姿态校正时,姿态间匹配扩展姿态校正的丰富性的属性,我们提出姿态间匹配,其利用多个Fi在姿态校正步骤中找到更多的特征匹配。为此,我们使用包含连接性信息的Scangraph [55],其中节点是扫描位置pi,并且边是指示相邻节点共享适当视图的连接性信息。当数据库不是用运动恢复结构技术构建时,这使得能够考虑共同可见性[29,30,42,44]。在姿态校正步骤中应用姿态间匹配以根据连接性信息使用一个或多个Fi来创建一个或多个合成局部特征图像。所找到的匹配被级联以用于RANSAC循环内的PnP算法中。在室内空间中,到场景几何形状的距离往往很短,并且凹结构或杂乱物通常导致显著的遮挡。在这些情况下,姿态间匹配有助于找到从不同扫描位置捕获的正确局部特征由于姿态校正步骤中的局部特征图的投影不考虑遮挡,因此减少投影到合成局部特征图像I’上的冗余局部特征有利于更好的特征匹配。为此,我们采用两种方法:利用虚拟局部特征(VLF)图进行预处理,并实时进行点法线滤波。类似于[20],其通过词袋模型在图像检索的上下文中进行,VLF映射将虚拟位置添加到数据库中,并找到从虚拟位置可见的特征特别是VLF投影我15978{1}|}map (F′) extends F by adding virtual positions, p′l, to thedatabase and by removing local features that are invisiblefrom p′l ahead of inference time (i.e.数据库构建时间)。VLF映射增加了数据库的密度,并减少了不可见的局部特征在推理时间期间被投影到I’在以下条件下,为扫描图中的每条边设置虚拟位置p ′ l:p′l应该位于地图内部,从p ′ l观察到的两个相邻位置提取的局部特征应该一样多查询(a)PV并且尽可能地均匀。 检测可见局部要素的步骤(d)MPV的Top 1(e)PV错误映射(f)MPV错误映射p′l,我们采用了隐藏点去除算法[21],这是一种鲁棒且有效的算法,用于去除遮挡点并仅选择点云图中的可见点。在p ′ l处的新扩展特征F′l被定义为F′l=ffF,并且在p′l处可见,其中f是局部特征及其相关联的3D点。在姿态校正步骤中,以与姿态间匹配类似的方式使用Fi和F′l,其中选择最接近X-的p ′ l。同时,点法线过滤基于局部特征的点法线与从X-到点的方向向量之间的余弦距离为此,我们加点Fi中的正常信息,以基于表面创建Fi当构造数据库时,数据库图像中的局部特征的法线。这两种过滤方法是可选的,但我们发现它们与其他建议的匹配方法一起使用时是有效的。补充材料中提供了更多细节3.5. 修正位姿验证PV是在候选者中确定最合适的姿势的最后步骤,并且因此对整体流水线性能具有直接影响。为了提高整体性能和利用我们提出的姿势校正模块的效果,我们提出MPV。这是PV的简单且有效的修改,其移除渲染图像中不适于与查询图像进行比较的离群像素。图4示出了其中MPV通过移除渲染图像中的异常值来成功地找到正确姿态的示例首先,我们使用开放[49]去除分数分布中的较低离群点像素,这是一种简单的形态图像处理,可以去除图像中孤立的小像素。由于DenseRootSIFT的实现,在相邻像素中具有许多无效像素的像素在描述符的欧几里得距离中显示出显著低值(例如,在描述符的欧几里得距离中具有显著低值)。图4(b))。我们移除这些像素并使用误差图中的开口来保留有效区域(例如图4(c))。对于打开过程,根据像素是有效的还是缺失的来对像素进行二值化。图4.从给定的相同候选姿态,PV和MPV分别选择不同的最终姿态(a)和(d)。具有最终分数的误差图在(b)、(c)、(e)和(f)中示出,其中较低分数意味着较好的候选者。蓝色像素表示描述符之间的欧几里得距离的较低值,而红色像素表示较高值。MPV移除稀疏像素,因为它假设它们是较低的异常值,如(c)中所示。此外,MPV忽略了由照明变化或如(f)中的打开的门引起的上异常值像素无效或删除的像素将显示为黑色。其次,我们通过修改从中值到中值以下的平均值的相似性评估的方法来去除上离群像素。该值表示查询和渲染图像之间的相似区域的总得分,并且通过忽略这样的像素(例如,像素)来减少由于动态特征和照明变化引起的场景中的变化的影响。图4(f))。4. 实验装置4.1. 评估数据集最著名的室内视觉定位基准数据集是7场景[52],12场景[56]和InLoc [54]。许多基于回归的方法[22,23,28]和3D场景基于坐标回归的方法[4,5]采用7场景和12场景数据集。然而,这些数据集由不适合我们研究的非动态小空间组成。因此,我们使用InLoc和M-site [19]数据集评估了我们的方法。InLoc数据集使用安装在激光扫描仪上的相机提供10k图像和相应的深度数据。它涵盖了非常大的室内空间(25,287平方米),包括多个具有不同属性的多个大学建筑的多个楼层[57]。此外,它包含大的无纹理的地方,许多重复的区域,照明变化,高度闭塞的地方,和众多的动态特征,这使得定位困难。329个查询图像由iPhone7在数据库生成大约一年后记录此外,查询图像分布在两个地方(DUC1和DUC2),并且从与数据库扫描显著远离的位置捕获。评分:0.0414评分:0.2303评分:0.0555评分:0.040215979误差[m]0.250.5M位1.03.05.0InLoc [54]40.756.868.675.676.1KR-Net [19]47.058.966.172.373.1基线46.065.975.079.079.7我们50.668.976.380.181.1表3.M-site数据集的评价结果表2.InLoc数据集的评价结果M站点数据库使用机器人系统(Li-DAR和360°相机)提供25 k图像和对应的深度数据。它涵盖了一个大规模的室内空间(12557平方米)。M站点中的大多数地方是特征较少的相似空间,这使得特征匹配困难。使用RGB-D相机(RealSense)在不同的日期和时间记录472个查询图像总体而言,InLoc和M-site是用于评估姿态校正和大规模室内视觉定位的最合适的数据集。 虽然事实上InLoc数据集不是公开的,我们选择该数据集来评估我们的管道,因为它是最合适和最广泛使用的基准。4.2. 实现细节我 们 使 用 在 Pitts 30 K [1] 数 据 集 上 预 训 练 的NetVLAD和VGG-16 [53]模型进行图像检索。对于局部特征提取,我们使用Superpoint [10],其中InLoc中有3,000个局部特征,M中有4,096个局部特征。 站点数据集。我们使用SuperGlue [43]在MegaDepth数据集[31]上进行预训练以进行局部特征匹配。将用作输入的查询图像的大小调整为1200像素的最长长度。我们检索了100个候选图像(K1= 100),并将10个候选图像用于PV( K3= 10),与InLoc [54]中相同。在姿态校正步骤中,我们在实验中使用了20个候选姿态(K2= 20)。5. 实验评价5.1. 与最新方法的为了评估所提出的方法,我们将其与InLoc和M-site数据集上的最先进的方法进行比较。InLoc和M位点的结果分别见表2和表3对于InLoc数据集,我们将我们的结果与最新的最先进的方法进行了比较。如表2所示,我们提出的方法优于现有的所有最先进的表4.修改姿势验证的评估。每列中的最佳准确性以红色表示,第二好的以蓝色表示。在(e-h)中,SG表示在姿势验证步骤中应用的Scangraph [55大幅度的方法此外,我们使用3,000和4,096个SuperPoint [10]局部特征评估了所提出的方法,以验证所使用的局部特征的数量不会影响性能。每次评估都是使用在线视觉定位基准服务器2进行的。此外,我们评估了姿势校正的M站点数据集,以确认我们的结果的相关性。我们将我们提出的方法与InLoc和KR-Net [19]进行了比较。结果表明,所提出的方法在每个阈值内显示出更好的性能,如表3中所总结的。此外,我们将我们的方法与不使用姿势校正的基线进行了比较。结果表明,使用位姿校正提高了精度,特别是在0.5米,与基线相比这表明姿态校正会按照预期更准确地更新X−总的来说,我们提出的方法在InLoc和M-site数据集中实现了新的最先进的性能。5.2. 各组成部分在评估姿态校正中的组件之前,我们首先评估MPV。使用更好的姿势选择模块(即MPV),当它们改变时,更容易在整个流水线的较早阶段找到更好的组件。表4显示了PV和MPV之间的比较从表4(a)和(b)中 可 以 看 出 , 当 在 PV 中 使 用 基 线 方 法 而 不 使 用Scangraph时如果我们2https://www.visuallocalization.net误差[m,10°]0.25DUC10.51.00.25Duc20.51.0InLoc [54]40.958.170.235.954.269.5HfNet [42]39.955.667.237.457.370.2KAPTURE [17]41.460.173.747.367.273.3D2Net [13]43.961.673.742.060.374.8甲骨文[55]43.966.278.343.563.476.3Sparse NCNet [40]47.067.279.843.564.980.2RLOCS [14]47.071.284.858.877.980.9超级胶水[43]46.565.777.851.972.579.4基线(3,000)53.076.885.961.880.987.0我们的(3 000)59.678.389.471.093.193.9我们的(4,096)60.679.890.470.292.493.1误差[m,10°]DUC10.250.5 1.0Duc20.250.5 1.0(a)基线+PV53.0 76.8八十五点九61.8 80.987.0(b)基线+MPV56.1 76.8八十八点四65.6 82.4八十五点五(c)拟定+PV56.1 76.3八十六点四63.4 84.7九十点八(d)拟定+MPV59.1 77.889.968.7 92.4九十三点九(e)基线+SGPV56.1 73.7八十三点八58.0 77.1八十三点二15980(a)(b)(c)图5.我们的基线和姿势校正之间的定性比较 绿点是用于估计X−和X+的内点特征。(a)基线图像中的局部特征被聚集在查询图像中比姿态校正中的局部特征更小的区域中。(b)由于室内结构中的重复图案,在基线的渲染视图中出现明显的过渡误差。(c)由于家具移动,基线出现明显的旋转误差 (a-c)因此,姿态校正通过重新组织局部特征并提高定位精度来规避基线经常遇到的问题。将基线方法改变为所提出的方法,MPV在所有标准上优于PV(c.f. (c)和表4中的(d))。这里,所提出的方法是指使用像分割匹配、间置匹配和滤波过程的方法类似地,当在基线中使用Scangraph时(c.f. (e)和(f)在表4)和所提出的方法(c.f.(g)和表4中的(h)),MPV在几乎每个度量上仍然优于PV简而言之,当从具有或不具有Scangraph的相同前流水线提供相同的前K3个因此,我们使用MPV而不是PV进行以下所有实验。为了验证使用姿态更新的效果,我们使用来自姿态估计步骤的10个候选表5中的行(b)更新它们的姿势,而(a)不更新。表5中的(a)和(b)中的实验示出了姿态更新如预期的那样提高了定位精度。接下来,我们通过比较表5中的(b)和(c)之间的结果来验证使用重新排序的效果。结果表明,与不使用(b)中的重新排序相比,使用(c)中的重新排序使得能够选择更可靠的候选项用于PV中。表5中的(a)和(c)的结果表明,即使基本姿态校正也改善了定位性能。两者之间的定性比较如图5所示。以下实验集中于扩展姿态校正:分割匹配、姿态间匹 配 和 滤 波 处 理 。 对 于 一 些 实 验 , 应 用 PV 中 的Scangraph [54首先,将分割匹配与不使用分割匹配的分割匹配进行比较为了公平比较,我们在表6中选择三对进行比较,包括(a-1,a-2,a-3)。误差[m,10°]0.25DUC10.51.00.25Duc20.51.0(a)基线(10)56.176.888.465.682.485.5(b)PC(10,10)58.176.889.467.290.192.4(c)PC(20,10)58.676.889.467.990.192.4表5.姿态校正的评估(a)第3.1节中使用K2= 10引入的基线。 (b)使用K2= 10和K3= 10在第3.3节中引入的姿势校正。 它更新姿势,同时排除在姿势校正中使用重新排序的影响。(c)使用K2= 20和K3= 10进行姿势校正。2) 基本姿态校正,(b-1,b-2)使用姿态间匹配的姿态校正,以及(c-1,c-2)使用VLF图的姿态校正。结果表明,除了每对的一个标准之外,所有标准的性能都得到了全面改善,从而表明分割匹配是有希望的,甚至比姿势校正的原始匹配更好。第二,为了确定姿态间匹配的效果,比较表6中的结果对(a)和(b)虽然其他性能似乎没有显着变化,性能增益实现DUC2在精细估计,即。在0.25m处,在(a-3,b-3)之间的比较中,高达3.8%p我们相信,从子扫描获得的附加匹配使得姿势细化更精确。当采用滤波处理时,即在最佳条件下,可以获得最佳的性能VLF映射和点法线滤波,如表6中的(c-4)和(c-5)所示。此外,实验(c-1)和(c-2)在两个空间DUC 1和DUC 2中在1.0m内实现了90%以上的精度结果表明,性能的改善,可以实现使用的VLF地图。有趣的是,虽然添加每个组件一步一步-基线姿势矫正基线姿势矫正基线姿势矫正渲染视图查询15981IDX误差[m,10°]0.25DUC10.51.00.25Duc20.51.0(a-1)F58.676.889.467.990.192.4W/O(a-2)Div60.175.889.469.591.692.4(a-3)Div-N59.680.889.467.290.891.6插入(a-4)Div-SG59.677.888.966.490.891.6(a-5)Div-N-SG59.680.889.467.290.891.6带内插(b-1)F57.179.888.966.487.891.6(b-2)Div59.680.389.971.090.190.8(b-3)Div-N59.179.389.971.091.691.6(b-4)Div-SG59.679.888.969.590.190.1(b-5)Div-N-SG60.679.389.470.290.190.1(c-1)F58.178.390.469.589.392.4w/(c-2)Div60.179.390.968.791.692.4(c-3)Div-N59.177.889.968.792.493.9甚低频图(c-4)Div-SG60.677.889.970.292.493.9(c-5)Div-N-SG59.678.389.471.093.193.9表6.用于扩展姿势校正的每个模块的消融研究。进行实验(a)不使用姿态间匹配,(b)使用姿态间匹配,以及(c)使用VLF图。字符F表示完全匹配,这是使用SuperGlue的原始匹配方法,而Div表示分割匹配。N表示点法线滤波的使用每列中最好的准确度用红色表示,第二好的用蓝色表示。(a)(b)第(1)款图6. (a)以及(b)分别描述了迭代基本姿态校正和扩展姿态校正的结果。准确度结果用虚线(左侧y轴)表示。计算时间用箱形图(右y轴)描绘。0-迭代表示我们的基线方法,并且每次迭代的计算时间与它成比例地表示。步骤并不总是导致性能增益,当使用大多数建议的方法时,如分割匹配,点法线滤波和VLF映射(即,(c-2、c-4或c-5))。我们相信,VLF地图是有益的,因为它使用来自其他扫描位置的局部特征,并且在数据库构建时过滤掉5.3. 位姿校正虽然我们使用了单次迭代的姿态校正,但迭代次数可以更多。我们进一步评估了运行时效率和姿态校正的更多迭代的性能增益之间的图6中的结果表明,更多的迭代会降低运行时速度。然而,迭代过程中的性能提升并不十分显著。这可能是因为迭代的性能依赖于超[43]在我们的生活中,在实践中,初始姿势校正已经产生准确的姿势,并且SuperGlue在迭代姿势校正时不产生严格更好的匹配。结果,迭代不能保证比初始校正的姿态(即,初始校正的姿态)更好的结果。图6(a)和(b)中的第一次迭代),这是我们提出的方法6. 结论我们提出了一种姿态校正的方法,表现出鲁棒性和准确的定位时,稀疏的图像位置inheres在数据库中,这一直是以前的粗到精的方法进行大规模室内定位的主要限制。姿态校正重新组织从估计的姿态可见的局部特征,并且姿态校正的属性通过引入分割匹配、姿态间匹配和滤波过程来进一步扩展。我们通过消融研究证明了姿势校正的优越性和根据实验结果,姿态校正的第一次迭代可以改善性能,但随后的迭代没有表现出显着的改善。因此,所提出的方法在公共基准数据集InLoc中设置了一个新的最新技术水平,首次在1.0m内的精度超过90%姿态校正可以有益于大规模的室内视觉定位,其中需要稀疏地捕获数据库图像。这意味着使用姿态校正模块可以允许视觉定位应用减小数据库大小并增强数据库效率。谢谢。这项研究得到了技术创新计划(10073166)的支持,由贸易,工业和能源部(MOTIE,韩国)资助15982引用[1] Relja Arandjelovic,Petr Gronat,Akihiko Torii,TomasPa-jdla,and Josef Sivic. NetVLAD:用于弱监督位置识别的CNN架构。 在CVPR,2016年。 一、二、三、六[2] Relja Arandjelovic和Andrew Zisserman每个人都应该知道的三件事CVPR,2012。三个[3] AayushBansal,Hern a'nBadino,andDanielHube r. 了解相机配置和环境条件如何影响基于外观的定位。2014年第四期。一个[4] Eric Brachmann、Alexander Krull、Sebastian Nowozin、Jamie Shotton、Frank Michel、Stefan Gumhold和CarstenRother 。 DSAC- 用 于 相 机 定 位 的 可 微 分 RANSAC 在CVPR,2017年。一、二、五[5] Eric Brachmann和Carsten Rother。学习越少越好-通过3D表面回归进行6D相机定位。在CVPR,2018年。一、二、五[6] Eric Brachmann和Carsten Rother。神经引导RANSAC:学习在哪里对模型假设进行采样。在ICCV,2019年。一、二[7] Samarth Brahmbhatt,Jinwei Gu,Kihwan Kim,JamesHays,and Jan Kautz.用于相机定位的地图的几何感知学习在CVPR,2018年。一、二[8] Robert Castle,Georg Klein,and David W Murray.用于可穿戴增强现实的多地图中的视频速率定位。ISWC,2008年。一个[9] Ondˇrej Chum和Jiˇr´ı Matas。最优随机化RANSAC。PAMI,30(8):1472-1482,2008. 三个[10] Daniel DeTone,Tomasz Malisiewicz,and Andrew Rabi-novich. SuperPoint: 自 监 督 兴 趣 点 检 测和 描 述 。 在CVPR研讨会,2018年。一二三四六[11] Mingyu Ding,Zhe Wang,Jiankai Sun,Jianping Shi,and Ping Luo. Camnet:用于相机重新定位的粗到精检索。在ICCV,2019年。二个[12] Nathan Doh 、 Hyunga Choi 、 Bumchul Jang 、 SangminAhn、Hyojin Jung和Sungkil Lee。TeeVR:基于空间模板的大规模室内空间的采集、建模和渲染在SIGGRAPH新兴技术,2019年。2[13] Mihai Dusmanu、Ignacio Rocco、Tomas Pajdla、MarcPolle-feys、Josef Sivic、Akihiko Torii和Torsten Sattler。D2-Net:一种可训练的CNN,用于联合描述和检测局部特征。在CVPR,2019年。一、二、三、六[14] 范欢欢,周宇浩,李昂,高爽,李继军,郭延东.使用语义分割和深度预测的视觉定位。arXiv预印本arXiv:2005.11922,2020。一、二、三、六[15] Luca Ferranti, Xiaotian Li , Jani Boutellier , and JuhoKan- nala.你能相信你的姿势吗?视觉定位中的置信度估计。arXiv预印本arXiv:2010.00347,2020。三、四[16] Martin A Fischler和Robert C Bolles。随机样本一致性:模型拟合的范例及其在图像分析和自动制图中的应用CACM,24(6):381三个[17] Martin Humenberger,Yohann Cabon,Nicolas Guerin,JulienMorat , Je´ ro meRev aud , PhilippeRerole , Noe´Pion , Cesar de Souza , Vincent Leroy , and GabrielaCsurka.使用kapture的基于图像检索的鲁棒视觉定位。arXiv预印本arXiv:2007.13867,2020。一、二、三、六[18] Janghun Hyeon 、 Hyunga Choi 、 JooHyung Kim 、Bumchul Jang、Jaehyeon Kang
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功