没有合适的资源?快使用搜索试试~ 我知道了~
全景图像点云定位的快速和强大算法CPO:场景变化与稳定性的挑战
+v:mala2255获取更多论文CPO:将鲁棒全景转换为点云定位Junho Kim1,Hojun Jang1,Changwoon Choi1,and Young Min Kim1, 21首尔国立大学电子信息工程系2首尔国立大学人工智能和INMC跨学科项目抽象的。我们提出了CPO,一个快速和强大的算法,本地化的2D全景相对于3D点云的场景可能包含变化。为了鲁棒地处理场景变化,我们的方法偏离了传统的特征点匹配,并专注于从全景图像提供的空间上下文。具体来说,我们提出了高效的颜色直方图生成和随后的鲁棒本地化,使用得分地图。通过利用球面投影的独特等方差性,我们提出了非常快速的颜色直方图生成大量的相机姿态,而不显式地渲染图像的所有可能的姿态。我们将全景图和点云的区域一致性累积为2D/3D得分图,并使用它们来加权输入颜色值以进一步提高鲁棒性。加权颜色分布快速找到良好的初始姿势,并实现基于梯度的优化的稳定收敛CPO是轻量级的,在所有测试场景中实现了有效的定位,尽管场景变化,重复结构或无特征区域,这是透视相机视觉定位的典型挑战,但仍表现出稳定的性能。关键词:视觉定位,全景,点云1介绍位置信息是开发AR/VR、自动驾驶和嵌入式代理应用程序的关键构建块。视觉定位是最便宜的定位方法之一,因为它只能使用相机输入和预先捕获的3D地图进行操作。虽然许多现有的视觉定位算法利用透视图像[29,31,35],但它们容易受到重复结构、缺乏视觉特征或场景变化的影响。最近,使用全景图像的定位[6,7,20,37]已经受到关注,因为具有360°全景相机的设备变得越来越容易使用。全景图像的整体视图具有补偿定位中的少数异常值的潜力,并且因此与透视图像相比不易受微小变化或模糊性的影响。尽管全景图像具有潜力,但在剧烈的场景变化中执行局部化同时获得效率和准确性是具有挑战性的。在3D地图方面,收集最新3D地图的arXiv:2207.05317v1 [cs.CV] 2022年7+v:mala2255获取更多论文2J. Kim等人Fig. 1. 我们的方法概述。CPO首先创建2D和3D分数图,其在包含场景变化的区域处变薄。分数图还用于指导候选姿势选择和姿势细化。图二、CPO的定性结果。我们显示了查询图像(顶部)和估计姿态上的投影点云(底部)。CPO可以灵活地使用原始颜色测量或语义标签进行操作。反映了场景的频繁变化在算法方面,前定位方法在计算效率或精度方面存在瓶颈虽然最近的基于ARIMA的定位方法[6,7,20,37]通过利用ARIMA中的整体上下文来执行准确的定位,但它们容易受到场景变化的影响,而没有专门的处理来考虑变化。对于透视相机,这种场景变化通常通过两步方法处理,使用基于学习的鲁棒图像检索[3,13],然后进行特征匹配[30]。然而,图像检索步骤涉及全局特征提取,这通常是昂贵的计算和内存密集型。我们提出了CPO,一个快速定位算法,利用区域内的全景图像的鲁棒的姿态预测场景变化。给定2D全景图像作为输入,我们使用3D点云作为参考地图来找到相机姿态。通过仔细研究预先收集的3D地图和全景图的整体视图,CPO专注于具有一致颜色分布的区域。CPO将一致性表示为2D/3D评分图,并快速选择一小组初始候选姿势,从中可以快速稳定地优化剩余的差异以进行准确定位,如图1所示。因此,CPO使全景能够指向+v:mala2255获取更多论文CPO:将Robust Panorama更改为点云本地化3云定位场景下的变化,而不使用姿态先验,不像以前的国家的最先进的[20]。此外,CPO的制定是灵活的,可以应用于原始颜色测量和语义标签,这是不可能与传统的基于结构的定位依赖于视觉特征。据我们所知,我们是第一个明确提出了一种方法来应对全景点云定位的变化。快速稳定定位的关键是有效的颜色直方图生成,评分候选姿态的区域一致性具体来说,我们uti-using颜色直方图生成的点云的合成投影,并与查询图像进行比较而不是广泛渲染大量的合成图像,我们首先缓存直方图在一些选定的意见。然后,通过重新使用来自重叠视图的预先计算的颜色分布的最近邻的直方图,因此,CPO在几毫秒内为数百万个合成视图生成颜色直方图,因此可以在比竞争方法短一个数量级的运行时间内搜索各种候选姿势。我们比较颜色直方图并构建2D和3D得分图,如图1(中)所示。分数图在具有一致颜色分布的区域中赋予较高分数,表明该区域没有从参考3D图改变。2D和3D评分图对于变化鲁棒定位至关重要,这一点通过我们的实验得到了进一步验证。我们测试我们的算法在广泛的场景与各种输入方式,其中一些示例性的结果在图2中。 CPO优于现有的- ING方法的大幅度,尽管有相当数量的场景变化或缺乏视觉功能。值得注意的是,CPO实现了高度准确的定位,灵活地处理室内和室外场景中的RGB和语义标签,而不改变配方。由于CPO不依赖于点特征,因此我们的算法可以以现成的方式快速应用,而无需任何神经网络训练或收集姿势注释图像。我们希望CPO是一个轻量级的解决方案,在各种实际情况下稳定的本地化。2相关工作在本节中,我们描述了先前的工作场景变化下的定位,并进一步阐述了传统的视觉定位方法,采用一个单一的步骤或两个步骤的方法。场景变化下的定位即使是最先进的视觉定位技术也可能在场景的视觉外观变化时失败。这这是因为传统的定位方法通常被设计为从具有地面实况姿态的预先收集的图像中找到类似的视觉外观。 许多视觉定位方法假设图像特征不会发生显著变化,并训练神经网络[19,19,22,35]或检索图像特征[14,18,23,31,32]。已经提出了+v:mala2255获取更多论文4 J. Kim等人。在最近几年中,以考虑变化鲁棒本地化。所提出的数据集反映了室外场景的昼夜[25,35]或季节变化[5,25,33]以及室内场景中对象空间排列的变化[34,36,38]。为了应对这种变化,大多数方法都遵循基于结构的范式,结合了鲁棒的图像检索方法[3,10,13,17]以及学习的特征匹配模块[9,29,30,39]。另一种方法利用来自深度图像的室内布局,尽管对象布局发生变化,但其保持不变[16]。 我们比较CPO对各种变化鲁棒本地化方法,并证明CPO优于场景变化中的基线。单步定位许多现有的基于地图的定位方法[6,7,37]由于全景图像捕获更大的场景上下文,因此比透视图像产生更少的模糊性,并且即使没有细化过程或姿态注释数据库,也可以进行合理的定位。坎普-贝尔等。[6,7]引入了一类全局优化算法,可以有效地在各种室内和室外环境中找到姿势[4,26]。然而,这些算法需要一致的语义分割标签的全景和三维点云,这往往是很难在实践中获得。Zhang等人[37]提出了一种使用全景视图的基于学习的定位算法,其中使用来自3D地图的渲染视图来训练网络。我们将CPO与基于优化的算法进行比较[6,7],并证明CPO在各种实际场景下优于这些算法两步定位与单步方法相比,更准确的定位通常通过两步方法获得,该方法使用有效的搜索方案初始化姿势,然后进行细化。对于全景图像,PICCOLO[20]遵循两步范式,其中发现有希望的姿势并使用测量2D和3D中的颜色差异的采样损失值进一步细化。虽然PICCOLO不包含学习,但它在传统的全景定位数据集中显示出竞争力[20]。然而,初始化和细化是不稳定的场景变化的方法缺乏明确的治疗这样的对手。CPO通过在2D中对评分图进行杠杆老化来改进PICCOLO,该评分图衰减了有效初始化的变化,并且在3D中对评分图进行杠杆老化,该评分图引导采样损失最小化以实现稳定收敛。对于透视图像,许多基于结构的方法[13,29]使用两步方法,其中通过图像检索[3]或场景坐标回归[22]找到候选姿势,并通过PnP-RANSAC [11]从特征匹配[29,30,39]进一步细化。 虽然这些方法可以有效地定位透视图像,但初始化过程通常需要存储器和计算密集型的神经网络,这些神经网络使用密集的姿势注释图像数据库进行训练。我们比较CPO对突出的两步定位方法,并demonstrate,CPO达到的效率和准确性与一个有效的制定在初始化和细化。+v:mala2255获取更多论文∈∈∈∈∈{}∈我我·→我我我CPO:将鲁棒全景更改为点云本地化53方法给定点云P=X,C,CPO旨在找到拍摄图像I Q的最佳旋转RSO(3)和平移tR3。令X,CRN×3表示点云坐标和颜色值,IQRH×W×3表示查询全景图像。图1描述了CPO在场景变化下定位全景图像首先,我们广泛测量的全景和点云之间的颜色一致性在各种姿势。我们提出了快速直方图生成,如第3.1节所述,以进行有效的比较。将一致性值记录为2D评分图M2DRH×W×1和3D评分图M3DRN ×1(定义见第3.2节)。 我们使用颜色直方图和得分图来选择候选姿势(第3.3节),进一步细化以推断最终姿势(第3.4节)。3.1快速直方图生成CPO不关注点特征,而是依赖于图像的区域颜色分布来匹配2D和3D测量之间的全局上下文。为了应对来自照明变化或相机白平衡的颜色分布偏移,我们首先通过颜色直方图匹配预处理2D和3D中的原始颜色测量[1,8,15]。具体来说,我们为查询图像和点云生成单色直方图,并在这两个分布通过最优传输。虽然可以使用更复杂的基于学习的方法[12,24,40]来处理剧烈的照明变化,例如夜间到白天的变化,但我们发现简单的匹配仍然可以处理实际设置中普遍存在的适度范围的颜色变化。在预处理之后,我们比较来自查询图像IQ的块与点云P的合成投影之间的RGB颜色直方图的交点。颜色直方图的有效生成是CPO的主要构建块。虽然可能有大量的姿势可以生成合成投影,但我们重新使用来自另一个视图的预先计算的直方图来加速该过程。 假设我们已经为从原始视图I o中获取的图像块创建了颜色直方图,如图3所示。然后,可以快速地近似新视图In中的图像的颜色直方图,而无需显式地渲染图像并对补丁内的像素的颜色的仓进行计数。设So={So}表示Io和Co={co}贴片质心的2D图像坐标Sn和Cn的定义类似对于新的观点,对于每个新的视图块,我们使用相对变换投影块质心,并获得原始图像的最近块的颜色直方图,如图3所示。 为了详细说明,我们首先将Sn ∈ Sn的块质心位置cn映射到原始图像坐标系,pi=<$(Rrel<$−1(cn)+trel),(1)其中,Rrel,trel是相对姿态,而<$−1():R2 R3是将2D坐标映射到其3D世界坐标的逆投影函数。颜色+v:mala2255获取更多论文我我我6 J. Kim等人。图三. 快速直方图生成的说明。对于新视图I n中的每个图像块,我们首先将块质心cn投影到原始图像I o的视图。新视图中的块的颜色直方图被估计为原始视图中的图像块c的直方图,其最接近变换的质心pi。见图4。2D评分图生成的图示。第i个块M i的2D得分图是查询图像I Q中的第i个块与合成视图Yn∈ Y之间的最大直方图交集。Sn的直方图被指定为Io中的补丁质心的颜色直方图最接近于pi,即c=argminc∈Co<$c−pi<$2。我们专门利用缓存的直方图来生成具有固定平移的任意旋转的直方图。在这种情况下,相机观察相同的可见点集合,而不会由于深度而改变遮挡或视差效果因此,合成图像仅渲染一次 , 并 且 逐 块 直 方 图 可 以 通 过 我 们 的 快 速 变 体 pi= ( Rrel−1(cn))来近似3.2评分图生成基于查询图像的颜色直方图和来自点云的合成视图,我们生成2D和3D得分图以考虑测量中可能给定一个查询图像IQ∈RH×W×3,我们在点云中以各种平移和旋转创建多个合成视图Y∈ Y。具体地,我们投影输入点云P={X,C},并将+v:mala2255获取更多论文我我·→→--关于我们··×→YM∈ΣCPO:将鲁棒全景更改为点云本地化7在对应的3D坐标(u,v)的投影位置处的测量颜色Y(u,v)=Cn =R(RY Xn+tY),以创建合成视图Y。我们进一步比较合成视图Y∈Y与输入图像I Q的颜色分布,并为具有高一致性的区域分配更高的分数。我们首先将查询图像和合成视图划分为补丁,并计算补丁的颜色直方图 按照第3.1节中的符号,对于每个合成视图,我们可以将查询图像的补丁表示为Q=S Q和Y=S Y。然后,将补丁i的颜色分布记录到每个通道具有B个箱的直方图中:h i():RH×W×3S iRB×3。通过寻找两个直方图Λ(,):RB×3RB×3R之间的交集来计算两个补丁的一致性。最后,我们将来自多个合成视图的一致性值聚合到查询图像M 2D的2D得分图和点云M 3D的3D得分图中。我们在第4.3节中验证了CPO评分图的有效性。2D得分图2D得分图M2D∈ RH×W为查询图像I Q中与点云颜色一致的区域分配更高的得分。如图4所示,我们将M2D划分为补丁,并为每个补丁分配一个分数。我们将2D得分定义为输入查询图像IQ中的每个补丁实现的最大直方图交叉,与中的多个合成视图相比。形式上,表示为M 2D中的块的得分,第i块的得分为Mi= max Λ(hi(Y),hi(I Q))。(二更)Y∈Y如果查询图像中的补丁包含场景变化,则它将与任何合成视图具有小注意,对于计算公式2,我们使用第3.1节中的快速直方图生成,以避免直接绘制Y。在第3.3节中,我们利用2D得分图来衰减在候选姿势选择期间具有变化的图像区域。3D分数图3D分数图M3DRN测量每个3D点相对于查询图像的颜色一致性。我们计算3D分数图通过将直方图相交分数反向投影到点云位置,如图5所示。给定一个合成视图Y∈ Y,令BY∈RN表示Y和IQ之间基于块的相交分数到3D点的分配,这些点的位置被投影到Y中的对应块上。3D分数图是各个点的反向投影分数BY的平均值,即M3D =1B|Y∈Y|Y∈Y.(三)如果点云中的区域包含场景变化,则可以预期大多数后向投影分数BY对于该区域是小的,从而导致较小的3D分数。 我们在3.4节中使用3D评分图来衡量姿势细化的采样损失。 通过在包含场景变化的区域上放置较小的权重,3D得分图导致更稳定的 收敛。Y+v:mala2255获取更多论文×∈YΣ8 J. Kim等人。图五. 3D评分图生成的图示。对于每个合成视图Y∈ Y,将逐块颜色直方图与查询图像进行比较,并将所得的相交分数反向投影到3D位置上。反向预测的分数对于所有合成视图,对BY进行平均,以形成3D分数图M3D。3.3候选姿势选择对于最后一步,CPO从选定的初始姿势优化采样损失[20],如图1所示。CPO通过有效地利用全景图和点云的颜色分布来选择候选起始姿势。在两个步骤中选择候选起始姿势首先,我们在点云的各个区域内选择Nt个3D位置,并渲染Nt个合成视图。对于没有太多混乱的大开放空间的数据集,位置从均匀的网格分区中选择。另一方面,对于杂乱的室内场景,我们建议通过构建八叉树来有效地处理有效的起始位置,以近似Rodenberg等人中的无定形空空间。[28]并为Nt个起始位置选择八叉树的质心。其次,我们从NtNr个姿势中选择最终的K个候选姿势,其中Nr是分配给每个平移的旋转数,从SO(3)均匀采样。 我们只为Nt个位置渲染一个视图,并使用第3.1节中的快速直方图生成来获得Nr个旋转的分块直方图。我们选择与查询全景图像具有最大直方图相交的最终K个姿势。在合成视图处快速生成颜色直方图使得能够进行有效的候选姿势选择,这在第4.3节中进行了定量验证。在这里,我们计算Nt× Nr姿态的逐块直方图交点,其中第3.2节中的2D得分图M2 D用于在可能包含场景变化的图像块上放置较小的权重。设Yc表示Nt×Nr合成视图用于寻找候选姿势。对于合成视图Yc,与查询图像I Q的加权直方图交集w(Y)表示如下,w(Y)= M i ~(h i(Y),h i(I Q))。 (四)我+v:mala2255获取更多论文⊙CPO:将鲁棒全景更改为点云定位9在概念上,合成视图Y与查询图像I Q之间的亲和度被计算为由来自2D分数图M 2D的对应块Mi加权的每个块式交集的总和。我们可以预期变化的区域在候选姿势选择过程中会被衰减,因此CPO可以快速补偿可能的场景变化。3.4姿态细化我们通过优化一个加权变量来单独细化所选的K个姿势采样损失[20],它量化了2D和3D之间的色差。换句话说,令λ(·)是将点云映射到2D全景图像IQ 中 的 坐 标 的 投 影 函 数。 此外,令r(·;IQ)指示将2D坐标映射到从IQ采样的像素值的采样函数。加权采样损失强制每个3D点的颜色与其2D 投影的采样颜色相似,同时在可能包含变化的点上放置较小的权重。 给定3D分数图M3D,这表示如下,L采样g(R,t)=<$M3D<$[Γ(<$(RX+t);IQ)−C]<$2,(5)其中是Hadamard乘积,RX+t是候选相机姿态R,t下的变换点云。 为了获得精确的姿势,我们使用梯度下降来最小化K个候选姿势的加权采样损失[21]。在结束时,选择具有最小采样损失值的细化姿态。4实验在本节中,我们分析了CPO在各种本地化场景中的性能。CPO主要使用PyTorch[27]实现,并使用单个RTX 2080 GPU加速我们在补充材料中报告了运行CPO的完整超参数设置以及每个测试场景的进一步定性结果所有平移和旋转误差均使用中值报告,并且为了评估准确度,如果平移误差低于0.05 m且旋转误差低于5°,则预测被认为是正确的。基 线 我 们 选 择 了 五 种 基 线 进 行 比 较 : PICCOLO[20] , GOSMA[7] ,GOPAC[6],基于结构的方法和基于深度的方法。PICCOLO、GOSMA和GOPAC是基于优化的方法,通过最小化指定的目标函数来找到姿态。基于结构的方法[29,31]是使用透视图像进行定位的最有效方法之一。该基线首先通过使用全局特征的图像检索找到有希望的候选姿势[13],并通过学习的特征匹配进一步细化姿势[30]。为了使基于结构的方法适应我们使用全景图像的问题设置,我们构建了一个从点云渲染的姿态注释合成视图数据库,并使用它进行检索。基于深度的方法首先对查询全景图像[2]执行基于学习的单目深度估计,并找到最佳对齐估计深度与点云的姿势。方法类似+v:mala2255获取更多论文10 J. Kim等人。表1. 包含OmniScenes变化的所有分割的定量结果[20]。方法t-error(m)Robot HandExtremeR-误差(R)机械手极限精准机器人手极限Piccolo3.784.043.99104.23 121.67 122.300.060.010.01PICCOLO,既往1.070.531.2421.037.5423.710.390.450.38基于结构0.040.050.060.770.860.990.560.510.46基于深度0.460.090.481.351.242.370.380.390.30CPO0.02 0.020.031.460.370.370.58 0.580.57表2.包含Structured3D变更的所有拆分的定量结果[38]。方法t-误差(m)R-误差(m)加速度(0.05m,5mm)加速度(0.02m,2mm)加速度(0.01m,1mm)Piccolo0.194.200.470.450.43基于结构0.020.640.590.470.29基于深度0.181.980.450.330.19CPO0.010.290.560.540.51与Jenkinset al.[16],其中它证明了场景变化下的有效定位关于实施基准的其他细节将推迟到补充材料中。4.1变化场景下的定位性能我们使用OmniScenes[20]和Structured3D[38]数据集,它允许对改变场景中的点云进行全景图像本地化的性能评估。OmniScenesOmniScenes数据集由7个3D扫描和4121个2D全景图像组成,其中全景图像由摄像机ei捕获。其他手持或机器人安装。此外,全景图像是在一天中的不同时间获得的,并且包括场景配置和照明的变化。OmniScenes包含记录的三个分割(Robot、Handheld、Extreme)在具有变化的场景中,其中极端分割包含用极端相机运动捕获的全景图像。我们将CPO与PICCOLO[20]、基于结构的方法和基于深度的方法进行了比较。OmniScenes中所有三个分割的评估结果如表1所示。在所有分割中,CPO都优于基线,而无需先验信息或训练神经网络。虽然PICCOLO[20]在重力方向优先的情况下表现出竞争力,但在没有此类信息的情况下,性能大幅此外,由场景变化和运动模糊触发的离群值使得难以使用基于结构或基于深度的方法进行精确定位。CPO对此类对手免疫,因为它明确地将场景变化和区域不一致与2D、3D得分图进行建模。CPO的分数图有效地减弱了场景变化,为鲁棒定位提供了有用的证据。图6显示了OmniScenes在婚礼大厅场景中生成的示例性2D和3D分数图。场景包含对象布局的剧烈变化,地毯被移除,+v:mala2255获取更多论文CPO:将鲁棒全景更改为点云定位11图第六章 OmniScenes [20]和Structured3D [38]中2D、3D评分图的可视化。2D分数图将较低的分数分配给捕获者的手和3D中不存在的对象。类似地,3D分数图将较低分数分配给2D中不存在的区域自从3D扫描以来,椅子的排列已经发生了很大的变化。如图所示在图6中,2D分数图将较小的分数分配给新对象和捕获者的手,这在3D扫描中不存在。此外,图6中所示的3D分数图将较小的分数分配给椅子和蓝色地毯,其存在于3D扫描中,但在全景图像中被大幅修改。Structured3D 我 们 在Structured3D 中 进 一 步 比 较了 CPO 和 PICCOLO ,Structured3D是一个包含对象布局和照明变化的合成3D模型的大规模数据集,如图2所示。由于数据集规模较大(21845个室内房间),因此选择了672个房间进行评价。对于每个房间,数据集包含三个对象配置(空、简单、满)以及三个照明配置(原始、冷、暖),总共产生九个配置。我们考虑对象布局从空到满的变化,其中为每个房间随机选择照明变化我们提供进一步的D-+v:mala2255获取更多论文12 J. Kim等人。表3. 斯坦福大学2D-3D-S [4]的定量结果,与PICCOLO(PC),基于结构的方法(SB)和基于深度的方法(DB)进行比较。区域PCt-误差(m)SBDBCPOPCR-误差(R)SB DBCPOPC准确度SB DBCPO区域 10.020.051.390.010.460.8189.480.250.660.510.280.89区域 20.760.183.000.012.252.0889.760.270.420.410.140.81区域 30.020.051.390.010.491.0188.940.240.530.500.240.76区域 40.180.051.300.014.171.0789.120.280.480.500.280.83区域 50.500.102.370.0114.641.3189.880.270.440.470.180.73区域 60.010.041.540.010.310.7489.390.180.680.550.290.90总0.030.061.720.010.631.0489.510.240.530.490.230.83关于补充材料中的评价的尾巴。在表2中报告了各种阈值下的中值误差和定位准确度。由于2D/3D评分图的变化补偿,CPO在大多数指标中超过基线,如图6所示。4.2场景不变时的本地化性能我们进一步证明了CPO的广泛适用性比较CPO与现有的方法在各种场景类型和输入方式(原始颜色/语义标签)。在一个室内数据集(Stanford 2D-3D-S[4])和一个室外数据集(Data 61/2D 3D [26])中进行评估。 与OmniScenes和Structured3D不同,这些数据集大多缺乏场景变化。虽然CPO主要针对有变化的场景,但它在这些数据集中显示了最先进的结果。这是由于快速直方图生成允许从候选姿势的大池中进行有效搜索,这是鉴于第3节中呈现的目标函数的高度非凸性质的全景到点云定位的重要组成部分。我们首先在斯坦福2D-3D-S数据集中与PICCOLO[20]、基于结构的方法和基于深度的方法进行比较在表3中,我们报告了定位精度和中位误差,其中CPO的性能大大优于其他基线。请注意,PICCOLO是Stanford 2D-3D-S数据集的当前最先进算法。PICCOLO[20]的中值平移和旋转误差在区域2、4、和5,其包含大量的场景,例如呈现重复结构的走廊。另一方面,CPO的误差度量和准确性在各个方面都更加一致。使用语义标签的本地化我们评估了CPO对使用语义标签作为输入的算法的性能,即GOSMA [7]和GOPAC [6]。我们还报告了PICCOLO [20]的结果,因为它也可以与语义标签一起工作。为了适应不同的输入方式,CPO和PICCOLO使用颜色编码的语义标签作为输入,如图2(c)所示。+v:mala2255获取更多论文CPO:将鲁棒全景更改为点云本地化13表4. 在Stanford 2D-3D-S的Area 3子集上使用语义标签的本地化性能[4]。Q1、Q2、Q3是每个指标的四分位值。t-误差(m)R-误差(R)(s)年q1Q2年q3年q1Q2年q3年q1Q2年q3Piccolo0.000.010.070.110.210.5614.014.316.1GOSMA0.050.080.150.911.132.181.41.84.4CPO0.010.010.020.200.320.511.51.61.6表5.Data 61/2D 3D数据集所有区域的定位性能[26]。方法t-error(m)GOPAC PICCOLOCPOR-误差(R)GOPAC PICCOLO误差1.14.90.11.428.80.3我们首先比较CPO与PICCOLO和GOSMA的斯坦福大学2D-3D-S数据集的区域3中的33个图像后,坎贝尔等人的评估程序。[7]的文件。 如表4所示,CPO的性能大大优于GOSMA [7],误差的第三四分位值小于GOSMA [7]的第一四分位值。此外,虽然与PICCOLO [20]的性能差距小于GOSMA,但CPO始终表现出更小的 运行时间。我们在Data 61/2D 3D数据集[26]中进一步比较了CPO与PICCOLO和GOPAC[6],这是一个包含2D和3D语义标签的户外数据集。该数据集主要记录在澳大利亚的农村地区,其中大部分场景高度重复且缺乏特征,如图2(c)所示然而,CPO在定位精度方面超过GOPAC [6],如表5所示。请注意,CPO仅使用单个GPU进行加速,而GOPAC采用四GPU配置以实现有效性能[6]。由于第3.1节中的快速直方图生成,CPO可以使用更少的计算资源有效地定位。4.3消融研究在本节中,我们将详细介绍CPO的关键组件,即基于直方图的候选姿势选择和2D、3D评分图。补充材料中提供了CPO其他成分的消融研究。基于直方图的候选姿势选择我们验证了使用颜色直方图进行候选姿势选择对来自Om-niScenes数据集的极端分割的影响[20]。CPO与使用PICCOLO [20]中的采样损失值执行候选姿势选择的变体进行比较,其中所有其他条件保持相同。 如表6所示,存在巨大的性能差距。CPO使用基于块的颜色直方图进行姿势选择,因此与逐像素采样损失相比,考虑了更大的空间上下文。 这使得CPO能够有效地克服由极端分割中存在的重复场景结构和场景变化我们进一步验证了基于直方图的初始化对基线中使用的各种初始化方法在表7中,我们报告了+v:mala2255获取更多论文方法t-误差(m)R-误差(m)Acc.方法时间(ms)基于PICCOLO结构的深度CPO2.13538.702.7450.18814 J. Kim等人。表6. OmniScenes [20]中CPO 各种组件的消融极端分裂。不含直方图3.2975.600.20无2D评分图0.101.190.48无3D评分图0.031.560.55我们0.030.370.57表7.来自OmniScenes的Room3中单个合成视图的平均运行时间[20]。处理单个合成视图的平均运行时间(毫秒)。在CPO中使用的在快速直方图生成中有效利用球面等方差允许在宽范围的姿态内进行有效搜索并快速生成2D/3D得分图。分数图我们验证了分数图在OmniScenes数据集[20]的极端分割上场景变化下的鲁棒定位的有效性。回想一下,我们使用2D得分图来指导候选姿势选择,用于指导姿势细化的3D得分图。我们报告不使用2D或3D评分图的CPO变体的评估结果。如表6所示,通过使用两个评分图获得最佳性能。分数图有效地衰减场景变化,导致稳定的姿态估计。5结论本文提出了一种快速、鲁棒的二维全景图生成算法CPO到3D点云定位。为了充分利用全景图像的定位潜力,我们通过保存2D,3D分数图中的颜色分布一致性来分数图有效地衰减包含变化的区域,从而导致更稳定的相机姿态估计。通过提出的快速直方图生成,可以有效地构建得分图,CPO可以随后选择有希望的初始姿势进行稳定优化。通过有效地利用2D和3D中的整体上下文,CPO在各种数据集(包括具有变化的场景)上实现了稳定的定位结果我们希望CPO能够广泛应用于场景变化不可避免的实际本地化场景。致谢本研究得到了韩国政府(MSIT)资助的韩国国家研究基金会(NRF)资助(No. 2020 R1 C1 C1008195)、首尔国立大学的创造性-开拓性研究人员计划(Creative-Pioneering Researchers Program)以及韩国政府(MSIT)资助的信息通信技术规划评估研究所(Institute ofInformation Communications Technology Planning Evaluation,IITP)资助(No.2021-0-02068,Artificial Intelligence Innovation Hub)的部分支持+v:mala2255获取更多论文CPO:将鲁棒全景更改为点云定位15引用1. Afifi,M.,巴伦,J.T.,LeGendre,C.,蔡耀东,Bleibel,F.:跨相机卷积颜色恒定性。在:IEEE计算机视觉国际会议(ICCV)(2021)2. Albanis,G.,Zioulis,N.,Drakoulis,P.,Gkitsas,V.,Sterzentsenko,V.,阿尔瓦雷斯F.、Zarpalas,D.,Daras,P.:Pano 3d:全面的基准和坚实的基础-用于360°深度估计的线。2021年IEEE/CVF计算机视觉和模式识别研讨会(CVPRW)。pp.3722-3732(2021)。https://doi.org/10.1109/CVPRW53098.2021.004133. 阿兰·德·杰·洛维奇, Gr onat,P., Torii,A., Pa jdla,T.,Sivic,J.:NetVLAD:CNNarchi-弱监督位置识别的结构。IEEE计算机视觉与模式识别会议(2016)4. 亚美尼亚岛Sax,S.,Zamir,A.R.,Savarese,S.:室内联合2D-3D语义数据场景理解。arXiv预印本arXiv:1702.01105(2017)5. Badino,H.,Huber,D.,Kanade,T.:CMU视觉定位数据集。http://3dvis.ri.cmu.edu/data-sets/localization( 2011年)6. 坎贝尔,D.,彼得森湖,克奈普湖,Li,H.:摄像机姿态和对应性估计的全局最优内点集最大化。IEEE Transactions on Pattern Analysis andMachineIntelligencep.预印本(2018年6月)。https://doi.org/10.1109/TPAMI.2018.28486507. 坎贝尔,D.,彼得森湖,克奈普湖,Li,H.,Gould,S.:的对准spheres:用于相机姿态估计的全局最优球形混合对齐。在:2019年IEEE/CVF计算机视觉和模式识别会议(CVPR)上。p. 出现。IEEE,长滩,美国(2019年6月)8. 科尔图克,D.,Bolon,P.,Chassery,J.M.:精确的直方图规格。IEEE trans-图像处理行动:IEEE信号处理学会出版物15,1143-52(06 2006)。https://doi.org/10.1109/TIP.2005.8641709. Dong,S.,(1991年),中国科学院,Fan,Q.,王,H.,施,J.,Yi,L.,Funkhouser,T.,陈伯,Guibas,L.J.:动态室内环境中摄像机重新定位的空间分区鲁棒神经路由。IEEE/CVF计算机视觉和模式识别会议(CVPR)。pp. 854410. Dusmanu,M.,罗科岛,Pajdla,T.,Pollefeys,M.,Sivic,J.,Torii,A.,萨特勒,T.:D2-Net:一种用于联合检测和描述局部特征的可训练CNN。在:2019年IEEE/CVF计算机视觉和模式识别会议论文集(2019)11. Fischler,文学硕士,Bolles,R.C.:随机样本一致性:模型的一种范式适合于图像分析和自动制图的应用通讯员。ACM24 (6),381http://dblp.uni-trier.de/db/journals/12. 洛杉矶的加蒂斯 Ecker,A. S., Bethge,M.: 使用卷积的神经网络在:IEEE计算机视觉和模式识别会议(CVPR)的会议记录(2016年6月)13. Ge,Y.,王,H.,Zhu,F.,Zhao,R.,Li,H.:自监督细粒度区域大规模图像定位的相似性。在:欧洲计算机视觉会议(2020)14. 天啊AP马约尔-奎瓦斯,W.W.:RGBD相机的6D重新定位,使用同步-审美观回归在:鲍登,R.,Collomosse,J.P.,米科莱奇克(编辑)英国机器视觉会议,BMVC 2012,萨里,英国,2012年9月3日至7日。pp. 1-11.BMVA Press. https://doi.org/10.5244/C.26.113,https://doi.org/10.5244/C.26.113+v:mala2255获取更多论文16J. Kim等人15. 冈萨雷斯,RC,伍兹,回复:数字图像处理.PrenticeHall,Upper Saddle River,N.J.(2008),http://www.amazon.com/Digital-Image-Processing-3rd-Edition/dp/013168728X16. Howard-Jenkins,H.,Ruiz-Sarmiento,J.R.,Prisacariu,V.A.:Lalaloc:潜在布局在动态的,未访问的环境中进行本地化。IEEE/CVF计算机视觉国际会议(ICCV)论文集。pp. 10107-10116(2021年10月)17. Humenberger,M.,Cabon,Y.,Guerin,N.,Morat,J.,Revaud,J.,Rerole,P.,皮翁,N.,de Souza,C.,Leroy,V,Csurka,G.:使用kapture的基于鲁棒图像检索的视觉局部化(2020)18. 伊尔夏拉,一、扎克,C.的方法,弗拉姆,J.,比肖夫,H.:从结构-从-运动点云到快速位置识别。2009年,IEEE Conference on ComputerVisionandPatternRecognition 。 pp.2599-2606 ( 2009 年 ) 。https://doi.org/10.1109/CVPR.2009.520658719. Kendall,A.,Grimes,M.,Cipolla,R.: Posenet:一个用于真实的05 The Famous Famous(2015)20. 金,J.,Choi,C.,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++多态实现机制详解:虚函数与早期绑定
- Java多线程与异常处理详解
- 校园导游系统:无向图实现最短路径探索
- SQL2005彻底删除指南:避免重装失败
- GTD时间管理法:提升效率与组织生活的关键
- Python进制转换全攻略:从10进制到16进制
- 商丘物流业区位优势探究:发展战略与机遇
- C语言实训:简单计算器程序设计
- Oracle SQL命令大全:用户管理、权限操作与查询
- Struts2配置详解与示例
- C#编程规范与最佳实践
- C语言面试常见问题解析
- 超声波测距技术详解:电路与程序设计
- 反激开关电源设计:UC3844与TL431优化稳压
- Cisco路由器配置全攻略
- SQLServer 2005 CTE递归教程:创建员工层级结构
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功