LASER:基于二维视觉的潜在空间渲染定位

140 浏览量更新于2023-10-25 收藏 13.38MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

𝑥𝑦𝜃𝑦𝑥111220LASER: 二维视觉定位的潜在空间渲染0Zhixiang Min 1 Naji Khosravan 2 Zachary Bessinger 2 Manjunath Narayana 20Sing Bing Kang 2 Enrique Dunn 1 Ivaylo Boyadzhiev 201 Stevens Institute of Technology 2 Zillow Group0摘要0我们提出了LASER，这是一个基于图像的二维蓝图蒙特卡洛定位（MCL）框架。LASER引入了潜在空间渲染的概念，将蓝图上的二维姿态假设直接渲染到一个几何结构化的潜在空间中，通过聚合视线特征。通过紧密耦合的渲染码书方案，视线特征在渲染时基于它们的几何形状（例如长度、入射角）动态确定，赋予我们的表示具有视角相关的细粒度变化。我们的码书方案有效地将特征编码与渲染分离，使得潜在空间渲染的速度可以达到10KHz以上。此外，通过度量学习，我们的几何结构化潜在空间对于姿态假设和任意视场的查询图像是共享的。因此，LASER在大规模室内定位数据集（例如ZInD [5]和Structured3D[38]）上实现了最先进的性能，对于全景和透视图像查询，同时在速度上明显优于现有的基于学习的方法。01. 引言0相机定位旨在估计给定输入图像与环境表示之间的空间关系。计算机视觉、机器人和AR/VR文献中已经解决了各种应用驱动的变体。特定的问题实例是根据姿态几何模型的范围（例如SE(2) vsSE(3)）、输入查询图像的类型（例如RGB、深度）以及环境几何参考的类型（例如几何图、注册图像集合）来定义的。当查询和几何参考共享相同的域时，将相机定位定义为直接几何配准问题（例如ICP[20]、基于SfM的几何验证[25]）。相反，当查询观测和几何参考来自不同的域时，需要设计整合的跨模态数据表示，能够区分和关联输入观测和参考数据。0潜在空间渲染0LASER（我们的方法）基于学习的MCL0度量空间查询图像0渲染0编码0后验0渲染码书0相机姿态假设0图1.LASER图示。基于学习的MCL框架将相机姿态假设和查询图像编码为一个公共的度量空间，以衡量它们的相似性。与现有的方法相比，LASER直接渲染潜在特征，并且具有降低的采样维度。0本工作侧重于解决查询全景/透视图像相对于二维蓝图的相机姿态问题，采用蒙特卡洛定位（MCL）框架[7]。MCL采用生成式框架，其中解决方案（即相机姿态）空间被系统地采样以渲染观测假设，并根据查询观测进行最大似然搜索和/或优化。请注意，在本工作中，我们仅关注改进测量模型，因此我们只对没有初始化的单个查询进行定位。然而，将我们的工作整合到具有可定制的时间更新的完整MCL框架中是直接的。传统的MCL方法[7,33]需要深度传感器，并且由于其显式的几何建模，对环境变化（例如家具/物体变化）的鲁棒性有限。利用基于图像的房间布局估计的扩展[2,31]解决了内容变化，但以牺牲环境或捕获假设（如曼哈顿世界、已知天花板或相机高度）为代价。最近的监督学习方法[12,36]已经学习了一个共同的潜在空间，用于合成和111230查询观测。然而，它们的高保真度渲染和基于CNN的编码与个体姿态假设对计算资源要求较高。鉴于MCL应用对样本数量的敏感性和准确性依赖性，它们的计算负担会影响在线操作的估计准确性。此外，获得的潜在空间表示在几何上不具备可解释性，同时由于卷积结构的粗粒化，缺乏表达力和细节层次的统一性。我们在一个几何结构化的度量学习框架中解决了这些挑战，该框架在进行潜在空间渲染的同时，优先考虑适用于未知环境、计算效率、估计准确性和鲁棒性。我们通过直接从栅格化的2D地图中的渲染特征来渲染学习的公共度量空间，从而避免了昂贵的显式渲染和编码采样观测的过程。这种潜在空间渲染是通过一个渲染码书实现的，它允许地图点具有视角相关的动态特征，以表示渲染时的动态性（例如视线几何，如长度和入射角）。重要的是，我们将所述的潜在空间结构化为具有几何意义的结构，通过将基于可见性的全向观测编码为离散的圆形（即角度循环）表示。这种表示，即圆形特征，以及来自渲染码书的视角相关特征编码，为几何和语义提供了高采样FPS（每秒采样次数）下的细粒度结构化描述符。在Structured3D[38]和ZInD数据集[5]上进行了大量实验，结果表明我们提出的框架在准确性和速度方面显著优于现有的框架。推动这些性能提升的主要技术贡献和创新包括：（1）基于地图感知的2D视觉定位框架：现有的MCL框架在局部范围内（即相机可见的内容）渲染假设，而LASER使用PointNet的2D变体[21]从2D点云地图中获得潜在编码。PointNet从地图中学习全局上下文，并为潜在特征提供地图级别的范围，从而提高了LASER的召回率。（2）基于码书方案的潜在空间渲染：LASER通过直接在潜在空间中渲染特征来避免中间表示的冗余渲染和编码过程。在我们的渲染码书方案的支持下，这些特征在渲染时动态确定，以编码细粒度的射线几何。这种设计同时实现了更高的采样速度和准确性。（3）几何结构化的度量学习：LASER通过使用旋转协变的2D全向圆形特征使度量学习具有几何意义。0其细粒度结构化的可变性隐含地表达了高准确度定位的环境布局，并无缝支持具有任意视野的查询图像。此外，这种选择隐含地编码了许多方向，减少了MCL采样空间中的旋转维度。02. 相关工作0一般的6自由度重定位方法要么明确地[3, 18, 22-24, 27, 28,34, 35, 40]，要么隐含地[1, 8,14]在查询图像和场景表示（例如具有已知相机姿态的图像，稀疏/稠密的3D重建）之间找到外观对应关系。然后可以使用神经网络[1, 8,14]预测相机姿态，也可以使用SfM方法[19, 25, 29, 30, 32,37,39]从显式对应关系中恢复相机姿态。外观依赖性限制了它们对外观变化的鲁棒性，并且不能与纯几何地图（例如占用地图）一起使用。蒙特卡洛定位（MCL）[4, 7, 16,33]是纯几何地图上进行2D定位的最流行框架。由于我们只关注单个查询，MCL定义了一个测量模型，该模型基于来自深度传感器的几何观测，并将其与从地板图中采样的模拟观测进行比较。这些方法将输入类型限制为几何测量，这也限制了它们对地图中几何变化/遮挡（例如家具/物体的变化）的鲁棒性。一些MCL的扩展将强度图像作为输入。Boniardi等人[2]通过使用CNN明确提取房间布局边缘来恢复房间几何。Wang等人[31]进一步在大型室内空间中合作语义信息进行定位。所有这些方法都受到强假设的限制，例如曼哈顿世界和已知的天花板或相机高度，这限制了它们的应用。最近的基于学习的方法[12, 13,36]将MCL扩展为度量学习框架。它们利用可学习的CNN对查询图像进行编码，并将位置渲染到相同的度量潜在空间中以估计它们的相似性。对于给定的相机姿态渲染，PfNet[36]使用空间变换的鸟瞰图像，而LaLaLoc[12]假设已知相机和天花板高度，并渲染布局深度图像。由于昂贵的渲染和编码过程，这些方法在对时间敏感或受SWaP限制的应用性能方面受到限制。神经辐射场（NeRF）[15,17]是一个新兴的领域，它使用反向传播学习从场景特定的神经表示中合成逼真的图像。相比之下，我们的场景表示是从PointNet推断出的渲染码书，其估计过程是与场景无关的。此外，我们的潜在空间渲染合成了视角相关的潜在特征。Circular-Feat.Circular-Feat.(From Map)(From Image)Image Circ-Feat.WindowDoorS�Fi, Fj�=�Vα=1 cos(f αi , f αj )2V+ 0.5(3)R�F, θ�= {f (α+ V θ2π )%V | α = 0 · · · V −1}(4)P(I | p) = P(I | t, θ) = A · S�FI, R�Ft, θ��(5)111240ResNet0输入特征 � � = (� � , � �, � � )0楼层地图（二维点云）0或测量0� � �)0后验 � � �)0（b）地图分支0（c）测量分支0（a）图像分支0潜在空间渲染0从 �(�) 中采样0NMS和阈值0（d）细化分支0匹配0旋转0改进0更差0渲染码本0旋转对齐样本0循环特征0ResNet0{� � , � � }0PointNet0细化器0测量 � � �)0拒绝更新0��, ��0全景透视0图2. LASER推理工作流程。可学习的组件显示为深灰色框。（a）全景图或透视图像经过ResNet50处理成循环特征。（b）栅格化的二维点云地图使用PointNet编码成渲染码本，从中我们渲染出均匀采样的循环特征。（c）在它们最佳匹配的旋转位置上测量图像和地图循环特征之间的相似性。（d）最终的估计在其似然性不再改善时进行迭代优化。03. 方法03.1. 问题表述0我们将相机定位定义为估计给定查询图像 I 关联的参考地图 M 中的二维姿态 p � = [ t , θ ]∈ SE (2) 。姿态参数 t ∈ R 20和 θ ∈ [0 , 2 π )分别定义了相机的平面位移向量和偏航轴旋转。输入查询 I可能是全景图或具有已知视场的透视图像。我们不限制地图M的格式，但假设它编码了二维平面内的占用信息。蒙特卡洛定位。通用的蒙特卡洛定位（MCL）框架[7]定义了一个测量模型 P ( I | p ; M )，它表示图像 I 在相机姿态 p上观察到的可能性。因此，我们为简单起见，在我们的公式中省略了非随机参数 M。在观察到 I 后，p的后验分布是我们感兴趣的解。根据贝叶斯规则，MCL估计后验分布 P ( p | I ) 为0P ( p | I ) = P ( I | 0P ( I ) (1)0其中 P ( I ) 是一个可以安全忽略的归一化常数，而 P ( p )是先验相机姿态分布，我们假设在地图区域内均匀分布。最后，可以通过从 P ( p )中抽取粒子来近似完整的后验分布，这些粒子的似然将使用在第5式中定义的测量模型进行估计。度量学习的定位。在MCL框架中，测量模型 P ( I | p )定义了相机姿态和图像域之间的相似性。我们采用深度度量学习[11]来学习一个统一的度量空间，用于比较查询图像和相机姿态假设之间的跨域相似性，如图2所示。我们0详细说明了图像和相机姿态如何分别在第3.3节和第3.2节中编码到度量空间中。循环特征。与度量学习中常规的平面描述符相反，我们引入了循环特征来编码空间可见性，从而实现了我们的几何结构化度量学习。我们将循环特征定义为一组有序的特征向量0F = { f α | α = 0 ∙ ∙ ∙ V − 1 } (2)0其中 V 是特征段的数量。每个特征段 f α ∈ R D 编码了一个2π的局部方向视场0V个，范围为2πα0V 在二维平面上。我们将这个有序集合 F称为循环特征，因为第一个和最后一个特征段对应相邻的视场。通过这种设计，全向二维空间信息隐含在特征段的顺序中。测量模型。我们首先定义两个循环特征 F i = { f α i | α= 0 ∙ ∙ ∙ V − 1 } 和 F j = { f α j | α = 0 ∙ ∙ ∙ V − 1 }之间的相似度测量为0其中 cos ( ∙ , ∙ )计算向量余弦相似度，并且函数输出归一化到 [0 , 1]。我们进一步定义一个旋转运算符 R � F , θ �，通过给定的角度 θ 旋转循环特征 F 的基础空间信息0其中当索引产生非整数值时，一维特征空间进行线性插值。最后，我们将测量模型定义为θopmt= argmaxθtS�FI, R�Ft, θt��(6)P(I | t) = A′ · S�FI, R�Ft, θopmt��(7)𝑑𝑖𝜓𝑖𝒎𝑖𝜓𝑖 (𝑑𝑒𝑔)Feat.0𝐠𝑖010𝐠𝑖120𝐠𝑖230𝐠𝑖3……𝒏𝑖𝑑𝑖 (𝑚)Feat.0𝒉𝑖00.5𝒉𝑖11.0𝒉𝑖21.5𝒉𝑖3……Gψi2πi+ h111250其中 A 是PDF归一化常数，F I 和 F t是从查询图像编码的循环特征和在地图上位置 t处渲染的循环特征。旋转减少。由于MCL需要大量样本来近似相机姿态后验概率在SE(2)中，我们系统地减少了MCL采样步骤中的旋转维度。对于具有规范方向的样本位置 t，其循环特征 F t 相对于图像循环特征 F I的最佳相对旋转可以通过以下方式找到0代入方程5，我们得到一个简化的测量模型，只依赖于 t，而不依赖于 θ ，如下所示0为了解决方程6，我们在 [0 , 2 π ) 范围内均匀采样 θ t，并保留最佳值。这种离散搜索将旋转初始化为一个粗略值，稍后将在第3.4节中进行细化。旋转匹配过程非常高效，因为它重用相同的循环特征，不会渲染新的假设，其吞吐量在表3中详细说明。03.2. 地图分支0在本节中，我们展示了如何根据给定的相机姿态从二维楼层地图中渲染循环特征。栅格化的二维点云地图。给定一般的二维地图表示M（例如楼层平面图或占用网格），编码区域占用信息，我们在占用边界（即墙壁）上均匀采样点，形成二维点云 M ={ m i | i = 0 ∙ ∙ ∙ N − 1 } 。每个点 m i = [ t i , n i , s i ]编码其位置 t i ，法向量 n i 和可选的语义信息 s i。可用的语义信息（例如门或窗标签）被编码为附加到点表示的多个二进制掩码。潜在空间渲染。为了避免低效的两阶段渲染和编码过程，我们提出了潜在空间渲染，通过聚合可见地图点的特征直接为给定位置渲染循环特征。然而，可见性被证明是选择和渲染潜在空间特征的必要但不充分的线索（如图4所示）。更具体地说，对于静态环境，大多数采样位置的可见性在局部上是恒定的，提供了有限的空间上下文。为了减轻我们表示的潜在同质化的潜在风险，我们分析了细粒度的渲染动态，例如特征和采样位置之间的视线长度和入射角，并定义了自适应渲染机制。渲染码本。为了赋予地图点以视角相关的特征来编码渲染动态，我们提出了一个过度规范的潜在空间。我们使用PointNet的二维变体对二维点云地图进行编码。0� � = � � 2 + � � 30� �0图3.渲染码本。地图点特征在渲染时根据码本和渲染动态动态确定。码本中的相邻码之间进行线性插值。多个码本的特征通过求和进行聚合。0[21]使用两组特征 G i = { g β i | β = 0 ∙ ∙ ∙ G − 1 } 和 H i ={ h γ i | γ = 0 ∙ ∙ ∙ H − 1 } 来为每个地图点 m i分配特征，其中 G i 和 H i分别表示距离和入射角码本。码本中的特征与圆形特征段 gβ , h γ ∈ R D具有相同的维度。在渲染时，根据其距离和入射角与渲染位置的关系从码本中选择地图点特征，如图3所示。形式上，假设渲染位置 ˆ t 和地图点 m i = [ t i , n i , s i ]，则可以通过以下公式计算其渲染动态0d i = ∥ d i ∥ (8)0ψ i = atan2 � ∥ d i × n i ∥ , d i ∙ n i � (9)0其中 d i 和 ψ i 分别是距离和入射角。顺时针入射角 ψ ∈[0 , 2 π ) 区分了四个象限。通过与 m i 相关联的码本 G i 和H i ，可以确定其特征 f i ，如下所示0f i = g0dmax ,H ) i (10)0其中 d max是预定义的距离码本的最大距离。与公式4类似，对于非整数索引，我们在两个最接近的码之间进行线性插值。最后，如果 m i通过到位置 ˆ t 的可见性测试，我们将 f i 投影到圆形特征 F ˆt= { f α ˆt | α = 0 ∙ ∙ ∙ V − 1 } ，如下所示0f0ˆt 2 π = f i (11)0其中 ω i 是视线 d i的角度。最后，将投影的地图点特征平均分配到每个段中。更多渲染细节请参见补充材料。03.3. 图像分支0在本节中，我们展示了如何从全景图和透视图像中提取圆形特征。全景图中的圆形特征。对于等距投影的全景图像，每个图像列对应于固定的水平视场，如图2(b)所示。这样111260捕获配置有助于我们将相邻输入图像列的组与我们渲染的圆形表示中的段之间建立双射映射。查询全景图像被输入到ResNet50[10]编码器中以获取特征图，然后通过在垂直维度上进行平均池化来压缩特征维度以适应我们圆形段的特征维度，并在水平方向上再次进行平均池化，得到 V个元素，与每个圆形特征中预配置的特征段数相对应。透视图像中的圆形特征。我们假设输入的透视查询图像具有已知的视场和与地平面的零俯仰/滚动角度。注意，对于室内查询图像，俯仰/滚动角度可以从消失点估计中矫正[6,9]。因此，每个透视图像列对应于非固定但已知的水平视场，如图2(a)所示。我们使用ResNet50编码器提取图像特征图，使用平均池化来压缩垂直维度，并在特征图上应用透视到等距投影的变换，得到最终的圆形特征。由于透视图像的视场不超过180°，其圆形特征将具有未分配值的段，在计算中将被掩盖。公式3也将重新归一化为范围[0 ,1]。在补充材料中，我们详细介绍了我们模型对捕获俯仰/滚动角度对齐噪声的鲁棒性。03.4. 优化分支0我们通过提出一个轻量级的连续优化分支来解决我们MCL方法的离散姿态采样特性，以改进当前的估计。如图2(d)所示，对于当前最佳估计 t � 和 θ �，我们的优化分支以两个圆形特征 F I 和 R � F t � , θ � �作为输入。优化网络使用两个带有圆形填充的1D卷积层，后跟一个全连接层，预测平移和旋转的两个偏移量 δ t 和 δθ。然后，我们渲染更新后的地图圆形特征 R � F t � + δ t , θ �+ δθ � ，并使用公式3计算其与 F I的相似度。如果相似度得分优于原始相机姿态，则接受该步骤并进行迭代，否则认为优化已收敛。第一个优化总是被接受以解除估计的量化。这种优化通常在3次迭代内收敛。0训练和推断0三元组损失。我们使用三元组损失[26]来学习图像和地图之间的相互度量空间。为了形成一个三元组，我们将图像循环特征FI作为锚点，将地图循环特征在真实相机姿态处F+ = R × Ft gt, θgt作为正样本，将地图循环特征在随机采样的相机姿态处F− = R ×0将图像循环特征FI作为锚点，将真实相机姿态处的地图循环特征F+ = R× Ft gt, θ gt作为正样本，随机采样一个相机姿态处的地图循环特征F−= R × Ft rnd, θ rnd作为负样本。然后，三元组损失定义为0L triplet = 2 ∙ max(S(F I, F +) − S(F I, F −) + 0.5, 0)0上下文损失。我们的相似性函数S，以及我们的三元组损失Ltriplet，依赖于聚合逐元素比较，从而有效地忽略了任何内部特征上下文。我们设计了额外的上下文损失，为特征段提供更广泛的循环特征范围，以学习上下文信息（即房间/地图的属性）。我们首先将循环特征上下文F定义为其归一化特征段的均值。0F = ∑α=1 f0V0我们将这个损失应用于我们的训练三元组，类似于公式120L context = max(cos(F I, F +) − cos(F I, F −) + 1.0, 0)0通过上下文损失，循环特征在粗粒度表达上更好，提高了具有有限视野的查询图像的召回率，如表2所示。该损失还作为正则化器，通过减小特征段的方差，使后验估计更加平滑，如图4所示。细化损失。为了训练细化分支，我们从真实相机姿态附近的0.5米半径和30度角度内采样循环特征。我们使用回归损失监督细化分支，定义为0L refine t = λ(t gt − t �) − δt0L refine r = min(θ gt − θ �) − δθ, 2π − (θ gt − θ �) − δθ0（15）实现细节。对于三元组和上下文损失，我们采样100个负样本，并在每个训练迭代中广播单个的真实样本。对于细化损失，我们从真实相机姿态附近采样20个困难负样本，扰动采样自均匀分布，范围在30度和0.5米半径之内。我们将所有损失的均值以相等的权重进行组合。我们将超参数设置为G = H = 32，V = 16，D = 128和d max =10m，在整个基准测试中保持一致。我们将地图采样为二维点云，间隔为10厘米。我们在地图范围内的0.1m×0.1m均匀网格上渲染循环特征。对于求解公式6中的相对旋转，我们评估16个均匀采样的角度，并保留最佳结果。最后，使用公式1和7估计后验分布。为了从后验网格地图中提取最终的估计值，我们应用3×3的非极大值抑制来提取最大值。对于得分大于阈值（即0.8）的最大值，我们将它们发送到细化分支，以获得带有不确定性估计的最终估计值。按照它们的似然排序，可以得到前k个估计值。更多细节请参见补充材料。1m0.5mGTWindowDoor1m0.5mGTWindowDoorFloor Map60° FoV Query90° FoV Query120° FoV QueryOurs (60° FoV Query)Ours (90° FoV Query)Ours (120° FoV Query)MCL (120° FoV Query)MCL (90° FoV Query)MCL (60° FoV Query)111270我们的方法（无上下文损失）我们的方法（无语义）我们的方法（无循环特征）我们的方法（无码本）0MCL PfNet LaLaLoc0查询全景图0楼层地图0图4.后验地图与全景查询的比较。我们的方法利用语义信息，提供了一个清晰的最大值，相比基线方法没有歧义。没有上下文损失，后验地图会稍微变得更加嘈杂。没有语义标签，会出现对称的歧义。没有循环特征，无法从聚类中准确地找到一个清晰的最大值。没有码本，后验地图无法显示清晰的最大值。0图5.透视查询的后验地图比较。随着查询视场的增加，我们的方法对GT位置的置信度增加。与MCL相比，我们的方法利用了语义信息，大大减少了歧义。04. 实验04.1. 数据集和设置0我们在Zillow室内数据集（ZInD）[5]和Structured3D数据集（S3D）[38]上进行测试。ZInD提供了1,575个真实的未装修住宅，共有59,361个全景图像，而S3D是一个包含3,500个房屋的合成数据集，由设计师创建，每个房屋有21,835个全景图像，每个图像具有不同的照明和家具级别。这两个数据集都提供了带有窗户和门标签的2D楼层平面图，并且360°全景图像已经注册到楼层平面图上。我们遵循这两个数据集的官方训练/测试划分，并为全景图像和透视图像分别训练模型。对于基准测试（表1和图7a），我们报告了多个透视图像视场的性能，透视图像的模型使用从45°到135°均匀采样的视场训练。对于消融研究实验，我们报告了以下性能0一个代表性的90°视场，模型专门在90°视场的图像上进行训练。所有的透视图像都是从数据集中的全景图像中裁剪出来的，这些全景图像的俯仰角和翻滚角都为零，随机的偏航角和相等的水平/垂直视场。04.2. 基准测试0我们使用LaLaLoc [12]，PfNet [36]和MCL[7]作为我们的基准方法（见表1）。对于MCL，我们模拟了一个带有无噪声的72线2D激光雷达作为其输入给出的地面真实距离。PfNet的输入是一个与图4中的语义标记的楼层平面图相同的语义标记的楼层平面图。对于LaLaLoc，我们遵循他们的原始协议，将具有已知旋转的全景图像作为输入，并在0.5m×0.5m网格上采样。对于PfNet和MCL，我们使用与我们的框架相同的16个旋转角度的0.1m×0.1m网格进行采样。我们还附加了一个随机基线，以显示数据集的统计信息。为了与不使用语义地图标签的方法（即MCL，LaLaLoc）进行比较，我们也报告了我们在不使用语义信息的情况下的性能。与我们的基准方法相比，LASER在准确性和召回率上表现出更高的精度。当没有语义标签时，LASER的召回率接近于使用GT深度作为输入的MCL。对于全景查询，由于ZInD中存在轻微的注释错误，LASER在S3D上的准确性略高于ZInD。对于透视查询图像，由于房间布局有时不可观察，提取距离信息变得更加困难。在这种情况下，LASER在S3D中的家具房间中表现更好，家具为测量距离提供了线索。更详细的讨论请参见补充材料。04.3. 性能研究0定性研究。在图4、5中，我们可视化了LASER和我们的基准方法的后验地图。似然度相对于它们的上限和下限进行了归一化，这些上限和下限在不同的方法之间有所变化。我们对余弦距离进行了平方以获得更好的可视化效果。Window BehindDoor111280ZInD Structured3D（家具级别：完整）0查询方法 < 1m中误差（cm） < 1m中角度误差（deg） 10cm召回率（%） 50cm召回率（%） 1m召回率（%）1m和30°召回率（%） top-3 1m召回率（%）0< 1m中误差（cm） < 1m中角度误差（deg） 10cm召回率（%） 50cm召回率（%） 1m召回率（%）1m和30°召回率（%） top-3 1m召回率（%）0- 随机（70.71）（90.00） 0.00 0.61 2.15 0.26 5.71（70.71）（90.00） 0.00 0.53 2.36 0.29 7.480全景0PfNet 48.77 15.20 0.70 19.21 37.15 28.82 50.58 44.37 14.97 1.65 27.52 47.38 36.48 64.05 LaLaLoc 10.65 - 35.61 71.69 76.00 - 91.62 6.83 - 58.57 85.98 87.51 - 98.23 MCL 11.88 5.60 38.96 86.33 90.15 85.21 98.666.44 7.18 57.22 77.49 86.51 67.12 99.41 Ours（无语义） 5.66 0.49 67.52 86.81 88.48 85.24 96.17 4.83 0.28 59.99 75.19 83.50 67.00 97.17 Ours 5.16 0.47 78.83 96.83 97.12 96.99 98.90 3.87 0.23 79.20 95.05 95.5294.76 98.410透视60°视场0PfNet 63.31 23.48 0.21 5.23 15.86 9.19 24.87 61.27 17.60 0.35 6.01 16.91 11.20 26.75 MCL 21.72 5.40 6.05 18.66 23.58 20.13 39.76 21.79 7.50 5.48 14.50 18.80 12.79 35.12 我们的方法（无语义） 26.22 1.27 3.5619.40 24.94 20.95 42.46 我们的方法 29.39 1.21 4.61 34.42 44.30 42.10 61.880透视90°视场0PfNet 56.55 14.24 0.55 10.97 26.78 19.63 38.62 60.00 12.49 0.59 8.78 24.34 18.74 34.41 MCL 17.00 5.08 11.28 30.18 34.72 31.41 53.43 15.41 6.14 9.55 22.63 26.81 20.33 46.91 我们的方法（无语义） 19.29 0.94 7.9929.87 35.15 31.57 54.37 我们的方法 22.09 0.85 9.42 51.62 59.40 57.77 76.230透视120°视场0PfNet 53.81 11.74 0.74 14.21 31.42 25.94 43.83 60.27 12.51 0.77 10.14 28.05 22.39 38.95 MCL 14.72 5.17 17.12 43.19 48.17 43.96 66.52 12.66 6.61 16.44 34.00 39.13 29.40 59.46 我们的方法（无语义） 15.56 0.9214.19 42.49 46.99 43.75 65.86 我们的方法 19.07 0.80 15.18 65.37 72.14 71.08 85.280表1.在ZInD和S3D（完全布置）数据集上与基准方法的比较。为了表示准确性，我们报告了所有在1m范围内定位的实例的中位翻译误差（terr）和旋转误差（rerr）。我们报告了不同翻译准确性水平下的召回率，内点（< 1m和< 30°）的召回率以及1m的前3个召回率。0全景透视 90°视场0模型 < 1m 中位翻译误差（cm） < 1m中位旋转误差（度） 1m 召回率（%）0< 1m 中位翻译误差（cm） < 1m中位旋转误差（度） 1m 召回率（%）0基础模型 7.22 5.45 97.06 20.59 5.46 54.55 + 改进 5.16 0.47 97.12 20.76 1.15 54.53 -上下文损失 8.54 5.45 95.76 21.57 5.46 50.52 - PointNet 7.84 5.46 95.87 23.46 5.6850.26 - 码本 22.74 5.87 64.26 61.05 23.70 10.34 - 循环特征 17.30 - 58.24 46.31 - 20.110‘ + ’ 带有组件 ‘ − ’ 不带组件0表2.模型组件的消融研究。基础模型使用后验地图的估计而没有进行改进。没有码本，每个地图点被分配一个固定的特征。没有PointNet，具有相同语义标签的所有地图点共享一个固定的码本。没有循环结构（即V=1），特征对旋转变得不可知。0可视化。图6显示LASER对于复杂的外观和几何条件具有鲁棒性。尽管大多数失败案例是由于模糊性引起的，但一些长尾分布的位置和纹理也会导致失败。模型消融。在表2中，我们展示了在ZInD数据集上对模型组件进行的消融研究。报告了全景和透视90°输入的召回率和中位误差。我们的改进步骤使离散估计解码，从而提高了旋转准确性。当采样密度成为瓶颈时，翻译准确性也得到了类似的提高。上下文损失提高了召回率，并且对于视场较小的查询，改进更加明显。将PointNet替换为具有相同语义标签的所有地图点共享的码本使LASER对输入地图域不可知，但稍微降低了所有指标。省略码本渲染或循环特征编码会大幅降低所有性能指标。视场上的性能。在图7a中，我们展示了不同查询图像视场的性能。透视查询图像具有相同的水平和垂直视场，而全景查询图像始终具有180°的垂直视场。0(a) 布置和非方形房间0(b) 非兰伯特墙面0(h) 遮挡引起的模糊性0(c) 靠近开门处0(d) 房间模糊性0(f) 对称模糊性0(e) 长尾位置失败0(g) 长尾纹理失败0图6. 在具有挑战性的情况下对方法鲁棒性进行定性研究。成功、模糊和失败的案例分别放置在绿色、黄色和红色框中。GT位置在后验地图中用红色圈出，不确定性在后验地图中用黄色圈出，地板地图叠加在上面。0随着图像视野的增加，LASER始终获得更好的性能。LASER在等距视图中具有较低的平移误差，但在透视视图中具有较低的旋转误差，而它们的1m召回率相似。超参数性能。图7b显示，入射角码本提高了旋转精度，而距离码本在平移方面更好。两者的结合效果最好。性能对码本大小不敏感，适度数量（例如16）是令人满意的。图7c显示，增加平移采样密度可以提高召回率和平移精度，但在0.1m×0.1m之后，这种改进变得微不足道。虽然召回率对旋转采样密度不敏感，但适度数量（例如16）是令人满意的。图7d显示，适度的渲染分辨率V（例如16/32）是令人满意的。4590135180225270315360FoV (deg)020406080100Recall (%)EquirectangularPerspectiveRecall @ 1mRecall @ 10cmRecall @ 1m (Top-3)4590135180225270315360FoV (deg)0102030Med. Trans. Error @ <1m (cm)0246Med. Rot. Error @ <1m (deg)EquirectangularPerspectiveTrans. ErrorRot. Error1481624324048Codebook Size (#)8163264Med. Trans. Error @ <1m (cm)Ang. OnlyDist. OnlyBothPanoramaPersp. 90° FoV1481624324048Codebook Size (#)124816Med. Rot. Error @ <1m (deg)Ang. OnlyDist. OnlyBothPanoramaPersp. 90° FoV0.050.100.200.501.00Trans. Sampling Interval (m)406080100Recall @ 1m (%)0204060Med. Trans. Error @ <1m (cm)PanoramaPresp. 90° FoVRecallError816243248Rot. Sampling Numbers (#)406080100Recall @ 1m (%)00.20.40.60.8Med. Rot. Error @ <1m (deg)PanoramaPresp. 90° FoVRecallError148163248V (#)020406080100Recall (%)Recall @ 1mRecall @ 20cmRecall @ 1m (Top-3)PanoramaPersp. 90° FoV148163248V (#)01020304050Med. Trans. Error @ <1m (cm)0246Med. Rot. Error @ <1m (deg)PanoramaPersp. 90° FoVTrans. ErrorRot. ErrorWindowDoorℍ𝔾𝔾 + ℍ111290(a) 视野性能。 (左：召回率) (右：准确率)0(b) 码本性能。 (左：平移) (右：旋转)0(c) 采样密度性能。 (左：平移) (右：旋转)0(d) 渲染分辨率性能。 (左：召回率) (右：准确率)0图7. 性能详细分析。不同的查询类型以不同的线型显示。不同的度量/配置以不同的颜色显示。注意，一些图表有两个y轴，分别显示不同的度量指标。0(d) 恢复的布局0(a) 码本可视化 (b) 地图度量空间可视化0(c) 恢复的语义标签0查询全景图0图8. 可视化和可解释性。 (a) 使用余弦核PCA进行码本可视化。 (b)使用余弦核t-SNE进行地图度量空间可视化。 (c,d)通过将图像循环特征与所有地图点码本进行逆匹配，恢复图像语义标签和房间布局。 (d)恢复的视角射线和入射角分别以灰色和绿色线显示。0码本可视化和可解释性。如图8（a，b）所示，码本和采样特征图在相邻码之间呈现平滑过渡，而在远离码和不同房间之间呈现出差异性。在一定距离后，距离码本的变化较小，这是选择d max的线索。此外，我们将图像特征与所有地图点的码本进行全面匹配。我们贪婪地记录与距离最近的码，从其地图点中可以恢复语义标签，如图8（c）所示。距离和入射角也可以从其码本中恢复，如图8（d）所示。这表明我们的模型在隐式学习从图像中提取语义和布局。计时。如表3所示，LASER在采样和查询方面比现有方法快得多，这使其可以应用于时间敏感的重新定位。在查询中，由于顺序渲染无法进行大规模并行化，因此细化步骤相对较慢。0方法采样帧率采样时间（秒）查询帧率查询模块时间（毫秒）0PfNet 2471 ± 1328 48.95 ± 38.95 5.06 ± 1.77 ResNet50 10.5 ± 1.2 LaLaLoc 15.47

下载后可阅读完整内容，剩余1页未读，立即下载