相机姿态自动编码器：改善姿态回归，轻量级测试时间优化，在剑桥地标和7Scenes基准中取得最先进的位置精度

188 浏览量更新于2023-11-30 收藏 738KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

+v：mala2255获取更多论文用于改善姿态回归的相机姿态自动编码器尤利·斯基特和尤西·凯勒Bar-Ilan University，Ramat Gan，以色列{yolisha，yosi.keller} @ gmail.com抽象的。绝对姿态回归器（APR）网络被训练以在给定捕获的图像的情况下估计相机的姿态。他们计算潜像表示，从相机的位置和方向回归。与提供最先进精度的基于结构的定位方案相比，APR提供了定位精度、运行时间和存储器之间的不同权衡。在这项工作中，我们介绍了相机姿态自动编码器（PAE），通过教师-学生的方法来编码凸轮训练的多层编码器，时代提出使用APR作为他们的老师。我们表明，由此产生的潜在的姿态表示可以密切再现APR性能，并证明其有效性相关的任务。具体来说，我们提出了一个轻量级的测试时间优化，其中最接近的火车构成编码，并用于完善相机位置估计。这一方案实现了一个新的国家的最先进的位置精度的年利率，在剑桥地标和7Scenes基准。我们还表明，训练图像可以从学习的姿势编码中重建，为整合来自训练集的视觉信息铺平了道路。存储器成本低。我们的代码和预训练模型可在https://github.com/yolish/camera-pose-auto-encoders上获得。1介绍在给定查询图像的情况下估计摄像机的位置和方向是计算机视觉中的一个它在多个领域都有应用，例如虚拟和增强现实、室内导航、自动驾驶等。当代最先进的相机定位方法是基于将查询图像中的像素与3D世界坐标进行匹配。这种2D-3D对应关系通过场景坐标回归[3，4，5]或通过提取和匹配查询和参考图像中的深度特征来获得，其中3D信息可用[36，28，23，10]。所得到的对应关系用于使用视角 N点（PSNR）和RANSAC [11]估计相机姿态。因此，这两种方法都需要查询相机的内在参数，这可能是不可用的或不准确的。此外，匹配查询图像和参考图像通常涉及将视觉和3D信息存储在远程服务器或终端设备上。另一种方法是使用绝对姿态回归器（APR）直接从查询图像[16]回归相机姿态使用这些方法，arXiv：2207.05530v1 [cs.CV] 2022年7+v：mala2255获取更多论文��Ƹ��2Y. Saught和Y. 凯勒图像首先使用卷积骨干[18，21，42，44，33，43，7]或变压器编码器[34]编码为潜在表示。潜像表示然后用于用一个或多个多层感知器头回归位置和取向。APR通常通过监督地面真实姿态[16，32，15]进行优化，并且可以按场景进行训练，或者如最近提出的那样，以多场景方式进行训练（为多个场景训练单个模型）[34，2]。虽然不如最先进的（SOTA）基于结构的定位方法准确[3，4]，但APR通过更快和更简单，在准确性与运行时间和内存之间提供了不同的权衡。此外，它们不需要查询相机的内部参数作为输入。一个相关的机构的工作重点是回归之间的相对运动的一对图像。当参考图像的相机姿态已知时，其相对于查询的相对运动可以用于通过简单的矩阵求逆和乘法来估计其姿态。通过利用相对姿态回归进行相机姿态估计，相对姿态回归器（RPR）可以提供更好的泛化和准确性[9]，但需要图像或其模型特定的高维编码在推理时可用（补充部分1.1）。虽然RPR也可以与顺序采集相结合，但我们主要对一次仅提供单个查询图像的场景感中文（简体）培训引入前科中文（简体）Fig. 1. 使用教师-学生方法训练相机姿态自动编码器（PAE），以生成与由教师APR计算的姿态编码相同的姿态编码，使得教师能够执行准确的姿态回归。经过训练的学生PAE允许引入先验信息并提高教师APR定位准确性。在这项工作中，我们建议在推理时间内提供参考图像（训练集）的几何和视觉信息，而不会产生显着的内存或运行时成本。我们的动机是保持有吸引力的属性的APR（快速，轻量级，独立），同时提高其定位精度使用先验信息。为此，我们提出了图1所示的相机姿态自动编码器（PAE）：经过训练的MLP以将相机姿态编码到由APR从相应图像学习的潜在表示中。我们使用教师-学生方法培训PAE，教师APR��Ƹ��学生PAE+v：mala2255获取更多论文用于改善姿态回归的相机姿态自动编码器3使用预先训练的教师APR获得的图像的潜在表示，学生PAE学习为相应的相机姿势生成相同的编码姿势编码被优化为尽可能类似于潜像表示，并且能够利用教师APR进行准确的姿势回归所提出的训练方案使用从具有不同外观的相似姿势获取的多个图像因此，所得到的基于PAE的姿态编码对于外观是鲁棒的。一旦PAE被训练，我们可以使用它来引入先验信息并提高APR定位精度。我们在Cambridge Landmarks和7Scenes数据集上评估了我们的方法，这些数据集提供了各种室外和室内定位挑战。我们首先表明，学生PAE可以密切复制他们的教师在数据集，APR和PAE架构的性能。然后，我们提供了使用PAE来改善相机姿态回归的例子。我们描述了一种轻量级的测试时间优化方法，其中给定初始姿态估计，训练集中最近的姿态可以被编码并用于导出改进的位置估计。与当前跨数据集的APR解决方案相比，这个简单的过程实现了新的最先进的定位我们进一步表明，可以从相机姿态编码重建图像，允许执行相对姿态回归，而不需要存储实际图像或其模型特定的编码。这又导致竞争位置估计，并改善教师APR的初始估计。概括而言，我们的主要贡献如下：– 我们介绍了一个教师-学生的方法来学习编码的姿态到外观强大的信息潜在的表示，并表明，训练有素的学生相机姿态自动编码器（PAE）有效地再现他们的老师年利率。– 我们提出了一个快速和轻量级的测试时间优化程序，利用PAE，并实现了一个新的国家的最先进的绝对姿态回归的位置精度。– 我们表明，学习的相机姿态编码可用于图像重建，为耦合相对和绝对姿态回归和改善姿态估计铺平了道路，而没有RPR的典型内存负担2相关工作2.1基于结构的位姿估计基于结构的姿态估计方法检测或估计与一组参考3D坐标匹配的2D或3D特征点。然后，基于2D到3D匹配，应用Pestrian方法来估计相机姿态[36]。3D场景模型通常使用SfM [30]或深度传感器[8]获取。这样的方法实现了SOTA定位精度，但是需要一组参考图像的地面实况姿态和3D坐标及其各自的局部特征，以及参考图像的本征参数+v：mala2255获取更多论文4岁。Saught和Y. 凯勒查询和参考相机。它们还需要存储用于检索将被匹配的参考图像的图像描述符以及它们的局部特征的3D坐标。通过3D点描述符的乘积量化[39]或仅使用所有3D点的子集[19，30]，可以减少所需的内存。例如，可以通过优先匹配步骤获得该子集，该步骤首先考虑更有可能产生有效2D到3D匹配的特征[30]。最近，Sarlin等人。[29]提出了一种CNN来检测多级不变视觉特征，对查询和参考图像具有像素级置信度。Levenberg-Marquardt优化以由粗到精的方式应用，以使用其置信度匹配相应的特征，并且训练是有监督的由预测的姿势。代替检索参考图像和匹配局部特征以获得2D到3D对应，一些方法直接从查询图像回归3D场景坐标[35]。从查询图像回归的2D像素和3D坐标之间的所得匹配用于使用PnP-RANSAC估计姿态。Brachmann和Rother[3，4]的推广这种方法通过训练端到端可训练网络来实现。使用CNN来估计与查询图像中的像素相对应的3D位置，并且可微分PnP-RANSAC使用2D到3D对应关系来估计相机姿态。这种方法实现了最先进的精度，但类似于其他基于结构的姿态估计方法，需要查询相机的固有特性。2.2基于回归的位姿估计Kendall等人。[16]是第一个将卷积骨干应用于绝对姿态回归的人，其中相机姿态直接从查询图像回归。具体来说， MLP头被连接到GoogLeNet骨干，以回归相机基于回归的方法远不如基于SOTA结构的定位准确[3，4]，但允许在几毫秒内进行单次前向传递的姿态估计，而无需查询可能不准确且不可用的相机固有参数。一些APR公式使用不同的CNN骨干[18，21，44，33]和MLP头的更深架构[44，21]提出。其他作品试图通过对随机丢弃的激活模型的预测进行平均来减少过拟合[17]，或者通过使用长短期记忆（LSTM）层来减少全局图像编码的维度[42]。多模态融合（例如，使用惯性传感器）也被建议作为提高精度的一种手段[6]。基于注意力的方案和变压器最近被证明可以提高APR的性能。Wang等人建议使用注意力来指导回归过程[43]。点积自注意力被应用于CNN主干的输出，并使用基于注意力的新表示（通过求和）进行更新。然后用MLP头部回归姿势。一种基于变换器的多场景绝对姿态回归方法是由Switt等人提出的。[34]。在他们的工作中，作者使用了一个共享的主干，使用一个完整的Transformer对多个场景该方案被证明提供SOTA多场景姿态精度相比，目前的APR。APR中的主要挑战之一是权衡位置和方向损失。Kendall等人+v：mala2255获取更多论文∈∈用于改善姿态回归的相机姿态自动编码器5[15]学习损失之间的权衡以提高定位精度。尽管这种方法被许多姿态回归器采用，但它需要手动调整不同数据集的参数初始化[41]。为了减少对额外参数的需求，同时保持相当的准确性，Strit等人[33]训练了位置和方向的单独模型。提出了其他定向公式，以改善姿态损失平衡和稳定性[44，6]。查询图像和参考图像之间的相对运动，其中地面真实姿态是已知的，也被用来估计绝对相机姿态在一个类似的，但单独的工作子类。因此，学习这种RPR模型的重点是回归给定一对图像的相对姿态[1，9]。由于模型不受限制，这些方法具有更好的推广性到一个绝对的参考场景，但需要一个姿势标记的锚数据库在推理时间。结合相对和绝对回归已被证明以实现令人印象深刻的准确性[25，9]，但需要对训练图像进行编码或使用多个查询图像进行定位。由于图神经网络（GNN）允许在视频剪辑的非连续帧之间交换信息，因此研究人员有动机使用它们来学习用于绝对姿态估计的多图像RPR。Xue等人。[45]介绍了GL-Net GNN对于多帧学习，其中应用相对姿态损失的估计来正则化APR。Turkoglu等人。[40]还将GNN应用于多帧相对定位。在训练和测试阶段，NetVLAD嵌入用于检索最相似的图像。将GNN应用于检索到的图像，并使用消息传递来估计相机的姿态。Saha等人在AnchorPoint定位方法中使用了视觉标志[27]第10段。通过这种方法，锚点均匀地分布在整个环境中，以允许网络在呈现查询图像时预测除了锚点相对于查询图像的位置之外，哪些锚点将是最相关的。最近提出了神经辐射场（NeRF）的反演，用于相机姿态的测试时间优化[46]。在所提出的方案中，输入查询和渲染图像之间的表观偏差被用于优化相机姿态，而不需要显式的3D场景表示（因为NeRF可以直接从图像估计）。虽然提供了一种新颖的和创新的方法来估计相机的姿态，这个过程是相对缓慢的结构和基于回归的定位方法相比。在这项工作中，我们专注于利用单个图像的绝对姿态回归。我们的目标是保持低内存和运行时间的要求，同时通过编码的姿态先验提高精度。3使用姿态自动编码器的摄像机姿态Pi可以用元组x，q表示，其中，<相机在世界坐标中的位置，并且qS3是对其空间方向进行编码的单位四元数。APRA[16，32，15]可以被分解为编码器Ex和Eq，其将查询图像编码为相应的潜在+v：mala2255获取更多论文冻结APR编码器6岁。Saught和Y. 凯勒表示zx∈Rd和zq∈Rd，以及分别从zx和zq回归x和q的头Rx和Rq 在这项工作中，我们提出了相机姿态自动编码器（PAE）f，它编码的姿态的高维后期nt编码，zx∈Rd和zq∈Rd，分别。我们将喜欢将E-Zx和E-Zq编码为几何和视觉信息，使得APR<我们表明，PAE可以适用于单场景和多场景的APR。3.1训练相机姿态自动编码器APRA在训练f中扮演双重角色，既作为教师又作为解码器。特别地，PAEf可以被认为是A的学习，使得ALf= ||zx−zx||2个以上||zq−zq||2+ Lp，（1）其中，PAE的输出为PAEx和PAEq。我们需要使用相应的回归量Rx和Rq来精确解码姿态x，q，从而最小化相机姿态的损失[15]，由下式给出的位置和定向损失：<和Lx=||x0−x||第二章（三）QLq=||q0−||Q||||二、（四）根据以前的工作[16，15，34]，我们将q归一化为单位范数四元数，以将其映射到有效的空间旋转。f的训练和公式化可以通过附加地编码场景索引s（作为输入给出）来扩展到多场景APR图2说明了专业会计师的培训过程。0：<图二、教师-学生培训方案专家的方法。训练的APR教师网络用于训练学生PAE网络。L =−2+ −2 +L��中文（简体）��Ƹ��冷冻APR头PAE��Ƹ��+v：mala2255获取更多论文..- 是的- 是的- 是的 ΣΣ−∈x= ax，s.t.a=1.（6）ii吉吉zqR i=0XQ i=0用于改善姿势回归的相机姿势自动编码器73.2网络架构在这项工作中，我们使用两个MLP分别编码x和q来实现相机姿态自动编码器f。根据[26，38]的观察，高频函数可以帮助学习低维信号（特别是相机姿势[20]），我们首先使用傅立叶特征将x和q嵌入到高维空间中。我们使用[20]的公式和实现，并应用以下函数：γ（p）= sin 20πp， cos 20πp，· · ·， sin 2−1πp， cos 2−1πp，（5）γ将R映射到高维空间R2 L，并分别应用于x和q的每个坐标。我们还连接原始输入，以便编码的最终维度为2L+d0，d0是嵌入输入的维度。然后将相应的MLP头应用于所得到的表示以计算ex∈Rd和eq∈Rd。在具有ns个编码场景的多场景中，场景索引s = 0，.，使用傅立叶特征编码，如等式（1）中所示。5，类似于x和q，然后在应用相应的MLP头之前级联到它们的编码。3.3摄像机位姿自动编码器的应用PAE允许我们引入先验信息（即，训练集我们通过两个示例应用程序证明了这一想法：测试时位置精化和虚拟相对姿态回归。给定预训练的APR A和查询图像，我们首先计算潜在表示zx和zq以及姿态估计p：x，q>。<使用p，我们可以从训练集中得到k个图像的姿态，其姿态最接近查询图像的姿态。这仅需要存储姿态信息x，q>R7，而不是图像本身。<给定预先训练的姿态自动编码器f，我们对k个训练参考姿态中的每一个进行{pi}k−1，i n到后nt表示：{zi，zi}k−1。我们在简单的测试时间操作-如图3所示，我们可以将x估计为训练职位：k−1Ri=0权重向量a是通过针对最接近图像的潜在编码的训练姿态编码的仿射组合优化MLP回归量来计算的k−1a= argmin||zp−aiz||2,一S.T. ai= 1，zp=pri=0+v：mala2255获取更多论文8岁。Saught和Y. 凯勒一个类似的测试时间优化被证明可以很好地从最近的图像描述符估计相机姿态[31]。然而，与姿态相反，图像描述符主要对图像外观进行编码，因此依赖于编码器。��= 0中文（��简体）图3. 利用 PAEs进行位置估计的测试时间优化。虚拟相对姿态回归所提出的姿态嵌入对视觉和几何信息进行编码，从而允许仅在给定输入姿态p：x，q>的情况下重建相应的图像。<这可以通过训练简单的MLP解码器D来实现，以最小化原始图像和重建图像之间的L1损失，如图1所示四、重建图像的能力中文（简体）原始图四、从学习的相机姿势编码解码图像。从姿态编码为执行虚拟相对姿态回归铺平了道路。而在基于回归的RPR中，图像是由CNN编码的，我们建议使用PAE只对定位参数进行编码。具体而言，与常见的相对姿态回归相反，其中相对运动从查询和最近图像的潜像编码回归，这里我们可以对重构图像进行“即时”编码。我们可以进一步利用虚拟姿态回归来改进APR的定位（图5）。与我们的测试时优化过程类似，我们首先计算姿态估计p：x，q>使用APRA从查询图像中提取。<然后，我们检索最接近的训练参考姿态，用预训练的姿态自动编码器f对其进行编码，并用预训练的解码器D重建图像。给定查询图像，在重建的训练图像中，可以应用预训练的RPR来回归相对平移，从该相对平移可以获得精确的位置估计3.4实现细节所提出的PAE由两个MLP头组成，每个头具有四个具有ReLU非线性的全连接（FC）层，将初始傅立叶特征维度分别扩展到64、128、256和d，即APR潜在维度在我们测试时间优化中文（简体）k姿势参考构成AprPAE��Ƹ��Ƹ��重构��Ƹ��解码器PAE��Ƹ��+v：mala2255获取更多论文用于改善姿态回归的相机姿态自动编码器9∆��中文（简体）中文（简体）��图五. 用于位置估计的虚拟相对姿态回归。在实验中，对于所有APR架构，我们设置d= 256。我们应用Eq. 5与L= 6，用于编码x、q以及多场景PAE的场景索引s。对于训练和评估，我们考虑不同的单场景和多场景APR教师：具有不同卷积骨干的PoseNet [16] 架构（ MobileNet[14] ， ResNet 50 [13] 和 EfficientNet-B 0[37] ），以及最近最先进的基于变换器的 APR （ MS-Transformer[34]）。我们使用选择的卷积骨干和额外的两个FC层以及ReLU非线性来实现类似PoseNet的APR，以将骨干维度映射到d并生成x和q的相应潜在表示。回归头由两个FC层组成，分别回归x和q对于MS-Transformer，我们使用了作者提供的预训练实现。我们的测试时间优化是用k= 3个最近邻和n= 3次迭代来实现的。对于图像重建，我们使用具有ReLU非线性的四层MLP解码器，将初始编码维度d增加到512、1024、2048和3hw2，其中h和w（重建图像的高度和宽度）被设置为64。为了执行虚拟相对姿态回归，我们将具有类似架构的Siamese网络应用于我们的PoseNet类APR。我们将Efficient-B 0用于卷积骨干并应用两次。将得到的扁平化激活图连接起来，然后用于回归x和q，如在PoseNet类APR中一样（唯一的区别是第一个FC层，它从两倍的主干维度映射到d）。我们在PyTorch中实现了所有模型和建议的过程[24]。训练和推理在具有8Gb的NVIDIA GeForce GTX 1080 GPU上执行。为了支持报告结果的轻松再现，我们提供了本文中描述的所有架构和过程的实现，并公开了我们的代码和预训练模型。4实验结果4.1实验装置数据集。使用7Scenes [12]和Cambridge Landmarks [16]数据集评估所提出的PAE方案，这些数据集通常在当代姿势回归工作中进行基准测试[16，15，34]。7Scenes数据集由7个小规模场景（101- 10平方米）组成，描绘了室内办公环境。中文（简体）重构参考图像参考最近的姿势PAERPR解码器Apr+v：mala2255获取更多论文∼−10Y. Saught和Y. 凯勒有六个场景中的剑桥地标数据集（900 - 5500平方米）在室外城市的位置，其中四个场景被认为是我们的比较分析，因为它们通常用于评估年利率。培训详情。我们使用Adam优化单场景APR教师，β1= 0。9，β2= 0。999，且π =10 −10。我们最小化学习的姿势损失（等式2）。2）并初始化其参数，如[41]中所示。每个APR训练300个epoch，批量大小为32，初始学习率为 10−3 。对于 MS-Transformer 教师，我们使用CambridgeLandmarks和7Scenes数据集提供的预训练模型[34]。在优化Eq.中的损失时，使用与其教师相同的训练配置来1. 我们的测试时间优化是使用AdamW和学习率进行的10-3。我们应用Adam来优化我们的解码器和相对姿态回归器，初始学习率分别为10−2和10−3。补充材料（补充材料）中提供了其他增强和培训详情。4.2相机姿态自动编码器（PAE）我们通过比较教师APR的原始定位误差和使用APR的头部从PAE编码回归姿势时观察到的误差来我们分别报告了Cambridge- Landmarks（表1）和7Scenes（表2）数据集的结果，使用MS-Transformer作为教师APR。表1. 当从图像学习时以及当从学生PAE解码潜在姿势编码时，以米/度为单位的中值位置/方向误差。我们使用在CambridgeLandmarks数据集上预先训练的MS- Transformer[34]作为我们的教师APR。方法K.学院旧医院商店门面圣玛丽教师APR0.83/1.47 1.81/2.390.86/3.07 1.62/ 3.99学生PAE0.90/1.49 2.07/2.58 0.99/3.88 1.64/4.16在这两个数据集上，与教师APR相似。虽然在大多数情况下，学生的准确性仍然不如老师，但在某些情况下（例如，火灾场景的方向误差），学生提供了更好的估计。表2. 当从图像学习时以及当从学生PAE解码潜在姿势编码时，以米/度为单位的中值位置/定向误差（S. PAE）。我们使用在7Scenes数据集上预训练的MS-Ttransformer [34]作为我们的老师APR（T. APR）。方法 Chess Fire Heads Office南瓜厨房楼梯T.四月0.11/4.66 0.24 /9.60 0.14/12.2 0.17/5.66 0.18/4.440.17/5.94 0.26/8.45S.0.12/4.95 0.24/ 9.31 0.14/12.5 0.19/5.79 0.18/4.89 0.18/6.19 0.25/8.74+v：mala2255获取更多论文用于改善姿态回归的相机姿态自动编码器114.3消融研究我们进一步进行不同的消融，以评估建议PAE架构和鲁棒性的建议的概念，在不同的教师年利率。表3示出了来自CambridgeLandmarks数据集的KingsCollege场景的中值位置和定向误差，其利用三种不同的PAE架构获得：2层MLP、4层MLP和结合傅立叶特征（选定架构）应用的4层MLP。虽然所有三种变体都实现了类似的性能，但后者实现了位置和方向之间的最佳权衡。在我们的补充材料（补充第1.3节）中提供了傅立叶特征维数（L表3. PAE结构的消融。我们比较了使用具有和不具有傅立叶特征（位置编码）的浅层和深层MLP架构时的中值位置和方向误差。报告了KingsCol场景（CambridgeLandmarks数据集）的性能。教师是一个 PoseNet APR 与MobileNet架构。自动编码器架构位置[m]方向[度]双层MLP1.273.414层MLP1.263.54傅立叶特征+ 4层MLP1.153.58由于PAE不限于特定的APR教师，我们进一步评估了几种单场景和多场景APR教师架构：三种具有不同卷积骨干和MS-Transformer的PoseNet变体。表4显示了KingsCollege场景的结果学生自动编码器能够密切再现其教师表4.教师烧蚀（单/多场景）APR架构。我们比较了在图像上训练和从学生自动编码器解码时的中值位置和方向误差报告了KingsCollege场景的性能（CambridgeLandmarks数据集）。APR架构教师APR[m/deg]学生PAE[m/deg]PoseNet+MobileNet1.24/3.451.15/3.58PoseNet+ResNet501.56/3.791.50/3.77PoseNet+EfficientNet0.88/2.910.83/2.97MS-变压器0.83/1.470.90/1.49学习编码相机姿态使我们能够以潜在的低成本利用可用的先验信息。我们报告了与使用PAE以及检索和存储参考姿势相关的运行时和内存要求（表5）。应用多场景PAE需要额外的运行时间1。22ms和1Mb用于模型<把剑桥的所有姿势都储存起来+v：mala2255获取更多论文12岁。Saught和Y. 凯勒marks和7Scenes数据集总共产生2个。15Mb，平均检索运行时间为0。16毫秒表5. 使用PAE以及检索和存储参考姿势所需的额外运行时和内存。要求运行时[毫秒]存储器[Mb]组件相机姿态自动编码器1.220.89检索和存储姿势0.162.154.4基于编码位姿的精确位置估计我们评估了PAE（第3.3节）用于位置细化和图像重建的建议用途。表6和表7分别显示了CambridgeLand-marks和7Scenes数据集获得的位置/方向误差中值（以米/度为单位）的平均值。我们报告了单场景和多场景APR的结果，以及使用我们的MS-变压器测试时优化程序优化位置时的结果（使用MS-变压器估计方向，无需优化）。使用训练图像的相机姿态编码实现了两个具体来说，我们改善了目前的SOTA APR（MS变压器）的平均位置误差从1。28米到一个亚米误差（0. 96米）的CambridgeLandmarks数据集，并减少了17%的7Scenes数据集（0。15对018）。我们在我们的补充材料（补充第1.4节）中报告了具有位置细化的单场景APR的附加结果以及从姿势的初始猜测开始时获得的验证结果，围绕地面真实姿势进行采样我们的测试时间优化实现了一致的改进趋势，无论使用的是什么特定的APR架构，也无论是跨场景和数据集。所提出的测试时优化（检索姿势、编码姿势和计算仿射变换的权重）所需的总额外运行时间为7。51毫秒我们进一步探讨应用相机位姿编码的影像重建和虚拟相对位姿回归。图6示出了来自商店门面（Cambridge Landmarks数据集）和头部（7Scenes数据集）场景的原始图像和重建图像。我们简单的MLP解码器学习解码64x64分辨率的图像。虽然重建的图像是模糊的，但它们的主要视觉识别特征清晰可见。在我们的工作背景下，图像重建的目的是服务于虚拟的相对姿态回归，以重新确定的位置的APRs。表8报告了ShopFacade和Heads场景、单场景和多场景APR以及通过图像重建和相对姿态回归（第3.3节）优化位置时的中位位置误差。对于这两个场景，所提出的过程提高了教师APR的初始估计的位置精度，并实现了新的SOTA位置精度的绝对姿态回归。此过程（检索最接近的姿势，对其进行编码，对图像进行解码，应用回归量以及计算新位置）所需的总运行时间为15。31毫秒+v：mala2255获取更多论文用于改善姿态回归的相机姿态自动编码器13表6. Cambridge Landmarks数据集的本地化结果。我们以米/度为单位报告中值位置/方向误差的平均值。最佳结果以粗体突出显示。APR架构平均值[m/deg]PoseNet[16]2.09/6.84[17]第十七话1.92/6.28[42]第四十二话1.30/5.52[21]第二十一话1.33/5.17GPoseNet[7]2.08/4.59[15]第十五话1.43/2.85[15]第十五话1.63/2.86MapNet[6]1.63/3.64IRPNet[33]1.42/3.45MSPN [2]2.47/5.34MS-变压器[34]1.28/2.73MS-变压器+优化位置（我们的）0.96/2.73表7.7Scenes数据集的本地化结果。我们以米/度为单位报告中值位置/方向误差的平均值最佳结果以粗体突出显示APR架构平均值[m/deg]PoseNet[16]0.44/10.4[17]第十七话0.47/9.81[42]第四十二话0.31/9.86GPoseNet[7]0.31/9.95[15]第十五话0.24/7.87[15]第十五话0.23/8.12MapNet[6]0.21/7.78IRPNet[33]0.23/8.49AttLoc[43]0.20/7.56MSPN[2]0.20/8.41MS-变压器[34]0.18/7.28MS-变压器+优化位置（我们的）0.15/7.284.5局限性和未来研究虽然我们的工作证明了所提出的PAE对于提高APR精度的有用应用，但它们集中在位置估计和图像重建上。我们的初步实验表明，对于方向估计，所提出的编码可以提供合理的估计，但不能提高SOTA APR精度（补充第1.5节）。进一步研究方向优化编码，以及不同的架构选择，我们的解码器和相对姿态回归，是进一步改进的方向。另一个有趣的方面是相机PAE通过编码虚拟的不可见姿态来增加训练集的分辨率的能力，这可以以最小的成本丰富现有的我们还注意到，年利率是一个家庭的方法，本地化工作的更大主体（第2节）。虽然我们的工作重点是提高APR的准确性，并将其扩展到使用先验信息，同时保持其优点（轻量级，快速，鲁棒的查询相机+v：mala2255获取更多论文十四岁。Saught和Y. 凯勒(a)(b)（c）第（1）款(d)（e）（f）见图6。从学习的相机姿势编码重建的图像。（a）-（c）64 x64分辨率的商店正面和头部场景的原始图像。（d）-（e）对应的重建图像。intrinsic），但在准确性方面仍然不如基于结构的方法我们提供了不同的代表性本地化方案的比较，以显示当前的差距和取得的进步（补充第1.6节）。表8. 对于ShopFacdade和Heads场景，具有/不具有虚拟相对姿势回归的中值位置误差（方向误差保持固定）。GPoseNet[7]1.14 0.21[15]第十五话[15]2015年12月28日[6]1.49 0.18IRPNet[33]AttLoc[43]−−0.61MSPN[2]2.92 0.16MS-变压器[32]0.86 0.14MS-Transformer+虚拟RPR（我们的）0.62 0.105结论在本文中，我们提出了相机姿态自动编码器，用于将相机姿态编码为可用于绝对和相对姿态回归的潜在表示。编码相机构成铺平了道路，引入视觉和几何先验相对较小的运行时间和内存成本，并提高位置估计和实现新的SOTA绝对姿态回归精度在当代室外和室内基准。APR架构店铺门面[m]头[m]PoseNet[16]1.460.29[17]第十七话1.250.31[42]第四十二话1.180.21[22]第二十二话0.63−−+v：mala2255获取更多论文用于改善姿态回归的相机姿态自动编码器15引用1. Balntas，V.，Li，S.，Prisacariu，V.：Relocnet：使用神经网络的连续度量学习重新定位。在：欧洲计算机视觉会议（ECCV）会议记录（2018年9月）2. 布兰顿，H.，格林威尔角，Workman，S.，雅各布斯，N.：将绝对姿态回归扩展到多个场景。IEEE/CVF计算机视觉和模式识别研讨会论文集。pp.383. Brachmann，E.，Krull，A.，Nowozin，S.，Shotton，J.，Michel，F.，Gumhold，美国， Rother，C.： Dsac -可微RANSAC为相机本地化。2017年IEEE计算机视觉和模式识别会议（CVPR）。pp.2492-2500.IEEE 计算机学会， Los Alamitos ， CA ，美国（ 2017 年 7月）。https：//doi.org/10.1109/CVPR.2017.267，https：//doi.ieeecomputersociety.org/10.1109/CVPR.2017.2674. Brachmann，E.，Rother，C.：学习越少越好-通过3d表面回归实现6d相机定位。于：2018IEEE/CVF计算机视觉与模式识别会议。pp.4654-4662（2018）。https://doi.org/10.1109/CVPR.2018.004895. Brachmann，E.，Rother，C.：利用dsac从rgb和rgb-d图像进行视觉相机重定位。IEEE Transactions on Pattern Analysis and Machine Intelligence（01），16. Brahmbhatt，S.，顾，J.，金，K.，Hays，J.，Kautz，J.：用于相机定位的地图的几何感知学习。 IEEE计算机视觉与模式识别会议（ CVPR ）（2018）7. Cai，M.，沈，C.，里德，I.：摄像机重新定位的混合概率模型（2019）8. Cavallari，T.，Golodetz，S.，主啊，不适用，瓦伦丁太平绅士迪斯蒂法诺湖，Torr，P.H.S.：在线相机重新定位的回归森林的动态适应。在：2017年IEEE计算机视觉和模式识别会议，CVPR 2017，檀香山，HI，美国，2017年7月21日至26日pp. 218-227 IEEE计算机协会（2017）9. 丁，M.，王志，孙，J.，施，J.，Luo，P.：Camnet：用于相机重新定位的粗到精检索。在：IEEE/CVF计算机视觉国际会议（ICCV）论文集（2019年10月）10. Dusmanu，M.，罗科岛，Pajdla，T.，Pollefeys，M.，Sivic，J.，Torii，A.，萨特勒，T.：D2-net：一种可训练的cnn，用于联合描述和检测局部特征。2019年IEEE/CVF计算机视觉和模式识别会议（CVPR）。pp.8084https://doi.org/10.1109/CVPR.2019.0082811. Fischler，文学硕士，Bolles，R.C.：随机样本共识：模型拟合的范例，应用于图像分析和自动制图。Commun. ACM24（6），38112. Glocker，B.，Izadi，S.，Shotton，J.，Criminisi，A.：实时rgb-d相机重定位。 2013 年 IEEE 混合与增强现实国际研讨会 pp.173https://doi.org/10.1109/ISMAR.2013.667177713. 他，K.，张，X.，Ren，S.，Sun，J.：深度残差学习用于图像识别。2016 年 IEEE 计算机视觉与模式识别会议（ CVPR ） pp. 770-778（2016）。https://doi.org/10.1109/CVPR.2016.9014. 霍华德，A.G.，Zhu，M.，陈伯，Kalenichenko，D.，王伟，Weyand，T.，安德里托，M.，亚当，H.：Mobilenets：用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv：1704.04861（2017）+v：mala2255获取更多论文16岁Saught和Y. 凯勒15. Kendall，A.，Cipolla，R.：使用深度学习进行相机姿态回归的几何损失函数 2017 年 IEEE 计算机视觉和模式识别会议（ CVPR ）。 pp.6555https://doi.org/10.1109/CVPR.2017.69416. Kendall，A.， Grimes，M.， Cipolla，R.： Posenet：A卷积网络的实时 6 自由度相机重新定位。 2015 年 IEEE 国际计算机视觉会议（ICCV）。pp.2938-2946（2015）。https://doi.org/10.1109/ICCV.2015.33617. Kendall，A.，Cipolla，R.：在深度学习中对相机重新定位的不确定性建模。在：机器人与自动化国际会议（ICRA）

下载后可阅读完整内容，剩余1页未读，立即下载