基于学习的高效视觉定位算法在大规模场景中的应用

140 浏览量更新于2023-10-15 收藏 796KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2892Imposing：用于高效视觉定位的Arthur Moreau矿业巴黎高科华为技术Thomas GillesMINES ParisTech华为技术华为技术有限公司华为技术有限公司Bogdan StanciulescuMINES ParisTechArnaud de LaFortelle MinesParisTech摘要我们提出了一种新的基于学习的制定视觉定位的车辆，可以在城市规模的环境中实时操作视觉定位算法使用一组地理参考图像或3D场景表示来确定捕获图像的位置和取向。我们的新定位范式，名为隐式姿势编码（Imposing），嵌入图像和相机姿势到一个共同的潜在表示与2个独立的神经网络，这样我们可以计算每个图像姿势对的相似性分数。通过以分层方式评估潜在空间中的候选项，摄像机位置和方向不直接回归，而是逐步细化。非常大的环境迫使竞争对手存储千兆字节的地图数据，而我们的方法是非常紧凑的独立的参考数据库的大小。在本文中，我们描述了如何有效地优化我们的学习模块，如何将它们结合起来实现实时定位，并展示了在不同的大规模场景中的结果，这些结果在准确性和计算效率方面明显优于先前的工作。1. 介绍定位系统是自动车辆、移动机器人和增强现实应用的必要组成部分。已知环境内的精确自我位置可以使用各种传感器以多种方式恢复。基于视觉的定位算法[29]预测查询图像的6个自由度的相机姿态，给定在环境中捕获的一组参考图像并标记有相应的姿态。我们的目标是开发能够在自主车辆的嵌入式设备中有效运行的重定位算法在目标区域很宽并且收集的数据集很大的部署场景中。由于更大比例的地图和动态的室外环境，这个问题是具有挑战性的。最准确的视觉定位方法[36，57]首先检索粗略定位（即，该区域在图像中被描述），然后通过将2D图像特征与存储在存储器中的3D点及其对应的描述符相连接，利用几何推理来计算精确的摄像机姿态。最终的准确性是以高内存占用和低延迟为代价的，这会随着环境大小和参考数据库的增加而增加。基于直接学习的方法[18，26，7]通过使用单个神经网络学习整个任务来规避此此解决方案便于嵌入式部署：高吞吐量、低内存占用和在训练期间受益于大量数据而不牺牲测试时间效率的能力另一方面，图像特征提取和地图记忆与网络的权重纠缠在一起我们的建议提高了基于直接学习的方法的准确性和可扩展性，同时保留计算效率属性。在计算机视觉中表示场景的常用方法是使用显式表示，如点云，八叉树，体素或网格。然而，它们都存储离散的信息，而它们所代表的潜在信号本质上是连续的。因此，这些表示涉及分辨率和内存消耗之间的权衡。最近，隐式神经表示[54]，将场景坐标与神经网络的潜在代码连接起来，由于其能够对嵌入紧凑网络权重中的连续信号进行建模，因此在许多计算机视觉任务中取得了巨大成功2893在本文中，我们提出了一种新的直接方法，在大场景中进行视觉定位，通过分离图像和地图编码，比姿势回归方法表现得更好，同时避免了计算成本和基于结构的方法由于一个implicit地图表示的内存占用。其核心思想是将图像和相机姿态表示连接起来，这两个表示分别由两个不同的神经网络在一个公共的潜在空间中学习。我们使用隐式神经表示来编码场景中的特定视点（即，6-DoF相机姿态）转换为更高维向量。利用该公式，可以在单个网络前向传递中计算场景中的任何相机姿态（甚至是在参考图像中未观察到的姿态我们利用这一特性，通过搜索与学习图像表示最相似的候选姿势来解决定位任务为了做到这一点，我们引入了一个几何采样过程，能够检索正确的相机时代的观点，只使用几个批量查询的姿态编码器网络。我们的本地化方法，称为隐式姿态编码（ImPosing），提供了实时的亚度量本地化性能，可以快速部署在大面积上。我们在广泛的视觉本地化数据集上评估了我们的系统，包括几个具有挑战性条件（季节和外观变化，有限的训练数据）的大规模道路环境。我们观察到，我们的方法在准确性和训练效率方面优于基于回归的竞争对手，特别是在大规模场景中。2. 相关工作基于图像的定位。用于实时应用的来自RGB图像的相机定位可以通过下面讨论的不同类别的现有方法来解决绝对姿态回归通过使用深度神经网络在输入图像和相机姿态之间进行端到端监督回归来PoseNet [18]是一项开创性的工作，它使用了一种编码器-解码器架构，其中编码器是在ImageNet上预训练的CNN从那时起，提出了许多架构改进：值得注意的是，VidLoc [10]使用连续的视频帧来合并时空约束，AtLoc [52]在解码步骤之前使用基于注意力的模块，Xue等人。[55]使用图神经网络建模问题， TransPoseNet [42] 使用transformer，CoordiNet [26]使用解码器层中具有几何归纳偏差的全卷积架构。这类方法的主要优点是与实时部署的兼容性，这要归功于快速推理、低内存要求和不确定性估计[17，26]，这使得能够过滤掉故障情况。的与其他方法[39]相比，绝对姿态回归所表现出的定位精度是有限的，但是已经观察到高度依赖于可用训练图像的数量和多样性，这可以通过新颖的视图合成[27]来改进。ImPosing不会显式地回归相机的姿态，而是学习将查询图像连接到隐式地图的潜在在下文中，我们通过实验表明，该公式比绝对位姿回归更适合于大城市区域的定位。场景坐标回归学习2D图像特征与可观察图像块的3D场景坐标之间的对应关系。它能够使用投影几何学检索相机姿态，通过使用RANSAC鲁棒地解决透视N点问题[14]。场景坐标回归的种子工作依赖于RGB- D图像，并使用随机森林存储3D坐标[43]。从那时起，场景坐标回归流水线已经适应了由全卷积网络处理的RGB图像[24，6]。RANSAC步骤已被其可微分对应物DSAC [5]取代，并且ESAC [7]使用专家的混合物来改进对大环境的扩展。这类方法表现出比绝对姿态回归更高的精度，并且效率使得能够进行实时计算，然而这些方法限于相对较小的环境[8]。通过考虑全局图像描述而不是局部特征提取，ImPosing能够以较小的定位性能损失为代价扩展到更大的场景。用于定位的图像检索算法解决了稍微不同的任务：这些方法不是计算查询图像的姿态，而是从大型数据库中的查询检索最接近的地理参考图像[1，15，32，30]。排名靠前的图像用于定义查询图像的粗略定位。基于GPS信息[38]的姿态平均[50]或特定重新排序用于提高定位精度。图像检索方法使用通过特征图池化[1]或密集局部特征提取[49]获得的全局图像描述符描述符空间中的最近邻搜索将查询与数据库中最相似的示例相关联。这些方法自然可以扩展到非常大的规模[40]，但其精度受场景中参考图像的密度和多样性的限制。如此大的数据库难以收集，并且线性地扩大数据库会增加内存占用和最近邻搜索的计算成本。这一特性使得图像检索成为视觉位置识别的一个有吸引力的解决方案，但不便于相机姿态估计。我们的方法与图像检索有相似之处：全局图像描述器与该映射匹配。在我们的例子中，地理参考的图像数据库被一个隐式地图所取代2894∈fI初始姿势1 ×D图像签名Cosine相似度∈[0，1]N地图签名N ×D位姿编码器fM最佳候选人摄像机姿态预测（pn）0N×7候选人（pn）kN×7K×图1：用于分层图像定位的隐式姿态编码。将一组初始地图签名与图像签名进行比较以确定相机的最可能定位。相似性分数指导用于计算第二细化定位步骤的新地图签名的新一批姿态候选的选择。重复该过程多次以预测最终相机姿态。表示.因此，我们可以计算地图中任何相机姿态的描述符，而不是被限制在有限的参考图像集。然而，对于给定的场景，较大的数据集提高了地图表示的分辨率，而不会增加地图的内存占用，存储为网络权重。基于结构的方法将局部2D图像特征与3D模型进行比较以估计相机姿态。使用诸如SuperPoint [11]的CNN从查询图像中提取2D特征，并与3D模型[35]进行匹配以建立鲁棒的2D-3D对应关系，这使得能够使用PNP +RANSAC [34]或Levenberg-Marquadt优化[51，36]来计算姿态。通常表示为描述符的点云的3D 然而，在这方面，在大的动态环境中，高精度的3D重建对于制造和存储要求是具有挑战性的来自最近图像的相对姿态回归[19，3，12]可以替代地用于预测姿态，但是存储需求甚至更大。拼版不依赖于场景的3D模型，仅使用图像和参考姿势进行操作。隐式表征。神经网络的性能在很大程度上取决于用于给定空间的表示。最近的研究表明，使用完全连接的神经网络来表示3D数据提供了许多好处：该表示是连续的、存储器高效的并且便于在任何可微流水线中学习[54]。神经表示的成功示例包括3D形状[28，2]，声音[44]，静态[25，45，16]和动态场景[23]或实时RGB-D SLAM [47]的神经渲染。在本文中，我们的目标是学习一个有效的表示的地图，一个给定的场景内的相机重新定位。该地图是作为一组具有6D相机姿态的图像给出的：表示3D平移矢量和3D旋转通过四元数、直角、轴角或旋转矩阵。Zhou等人[56]已经证明，这些旋转表示都不是连续的，从连续地将坐标映射到神经网络产生的潜在空间的意义上说，这正是我们感兴趣的问题。Zhu等人。[58]提出了一种学习的相机姿态表示，这对视图合成和姿态回归是有益的。我们建议使用一个相关的摄像机姿态表示优化，直接匹配对输入图像表示，使姿态估计的迭代采样和评估的姿态候选人。3. 方法我们的方法ImPosing估计查询图像I的6-DoF相机姿态（t，q）SE（3），其中t是平移向量，q是单位四元数。我们使用在目标区域收集的姿势图像（Ik）的参考数据集来训练我们的解决方案，并且我们不使用场景的额外3D模型。所提出的算法，如图1所示，通过图像编码器计算表示图像的矢量。然后，通过评估分布在地图上的初始姿态候选者来搜索相机姿态。姿态由姿态编码器处理以产生可以与图像向量匹配的潜在每个姿势候选者基于到相机姿势的距离接收分数高分数提供用于选择新候选者的粗略定位先验。通过重复这个过程几次，我们的候选池收敛到实际的相机姿势。3.1. 实施本地化流程本节描述了从图像到最终相机姿态估计的逐步定位过程，如图1所示，提议者候选人2895∈Σ∈×⊂我我100s（I，h）1.图像编码器：我们使用我们的图像编码器从输入查询I计算全局图像特征向量fI（I）Rd。编码器架构包括预训练的具有d个输出神经元的全连接层。特征密度混合模型：100P（x）=πN（x|h，v/k），其中πi=1s（I，hi）Σl=1L（二）向量比全局图像通常用于图像检索的描述符（我们使用d=256，而Revaud et al.[32]使用d=2048），以便在后面的步骤中将其有效地与大的姿态候选集合进行比较。2. 初始姿势候选者：我们的起始点是从参考姿势集合（=训练姿势）采样的N个相机姿势的集合（p n）0。通过这种初始选择，我们为定位过程引入了先验，类似于[33]中的锚点姿势或计算相对姿势而不是绝对姿势的回归方法[13]。我们观察到该算法对这种选择是鲁棒的：地图上的2D网格产生类似的结果。3.位姿编码器：姿态候选者由输出潜在向量的神经网络处理。该隐式表示学习给定场景中的相机视点与由图像编码器提供的特征向量之间的对应关系。首先，继Tancik等人。[48]，摄像机姿态的每个分量（tx，ty，tz，qx，qy，qz，qw）被投影到更高的位置。尺寸使用Fourier特征：X→（x，sin（2kx），cos（2kx））0≤k≤10，因为它有助于低维输入的网络拟合高频函数。然后，我们使用一个MLPfM，它有4层256个神经元，隐藏层上有ReLU激活。每组姿势候选者在单个批量向前传递中计算。4. 相似性评分：我们通过计算每个图像姿态对（I，p）的fI（I）和fM（p）之间的余弦相似性来获得相似性得分s。我们在点积之后添加一个ReLU层，使得[0，1]。直觉上，我们的目标是学习接近实际相机姿势的候选姿势的高分。利用该公式，我们可以评估关于相机姿态的假设并搜索具有高分数的姿态形式上，我们的分数定义为：v=[v tx，v ty，v tz，v rz，v ry]是采样过程的方差，是由平移向量和欧拉角组成的超参数。6. 迭代姿态细化：我们将步骤3-4-5中描述的姿态候选的评估重复K次。在每次迭代之后，噪声向量v除以2，使得新的候选被采样为更接近先前的高分。因此，我们可以收敛到一个精确的姿态估计而仅评估有限的稀疏姿态集。我们在每个时间步独立地评估每个相机帧，然而，可以使用来自先前时间步的定位先验来减少车辆导航场景中的迭代次数在每次迭代中所选择的姿势的示例如图2所示。2.通过采样N个候选人的初始姿势，我们保持一个恒定的记忆峰值。7. 姿势平均：我们的最终相机姿态估计是具有较高分数的256个姿态候选的加权平均，其表现出比选择最佳分数姿态更好的插值特性。我们使用分数作为加权系数，并在以下[22]中实现3D旋转平均。图2：迭代候选项细化。在定位过程的每k步，选择得分最高的姿态以在步骤k+1对新的候选姿态进行采样。从左至右：在k=0到k=5处的最高得分姿势，黄色点是训练示例的位置，蓝色箭头是姿势候选，红色箭头是候选中的所选姿势。整个推理过程需要图像编码器上的1个正向传递和姿态编码器上的Ks（I，p）=<$fI（I），fM（p）<$I（I）1fI（I），fM（p）>0（一）3.2. 训练过程我们不通过最小化错误来训练系统。5. 候选人提名人：基于在前一次迭代中用姿态（ pn ） k-1获得的分数，为第k次迭代选择新姿态（pn）k。首先，我们选择具有前B=100个较高分数（hi）0≤i B的姿势（pn）k−1。然后，在高斯分布中从（hi）中采样新的候选者。最终的相机姿态估计。相反，我们将损失函数直接应用于预测分数。因此，一次训练迭代提供了对包含比单个定位误差更多信息的K N个图像-姿态对的监督。我们观察到，这种性质导致=CNN骨干，其次是全球平均池，以及我.2896×−G（q，q）=cos−1ΣΣ|12v=[8. 0米，0. 两米八。0米、 1米、 5米、 1米]训练效率优于回归方法（见4.4）。我们基于摄像机姿态pI=（tI ，qI）和候选姿态p =（t，q）之间的平移和旋转距离来定义目标分数s t：st（I，p）=ReLU（1−λt<$ti−t<$2−λr G（qi，q））（3）其中λt和λr是设置为5和0.1的加权参数，G是测地距离，定义为2次旋转之间的最小角度：最后给出了对Imposing超参数的消融研究。补充材料中包括显示轨迹的视频。实施详情：ImPosing在PyTorch中实现。图像以小分辨率135 240. 图像编码器使用在 ImageNet 上预训练的ResNet34骨干。在每次K = 6细化时评估N = 4096个姿势候选步对于候选采样，噪声向量被设置为.（tr（MqMq−1）−1）<$◦◦◦ 其中y是海拔高度1 22Mq是与旋转q相关联的3D旋转矩阵。我们通过计算参考图像和以K个不同分辨率采样的姿态候选者之间的分数来训练fI和fM，如第3.1节所述出于训练目的，我们在初始姿势中添加了在[v，v]中采样的均匀噪声，因为我们观察到它减少了过拟合。我们还使用与候选人提案中的最高目标分数相关的姿势，以及最高预测分数，以便指导在早期迭代中训练收敛。最后，我们的优化目标是：K N−1轴，我们使用100 GMM组件。我们使用Adam opti-mizer以1 e − 4的恒定学习速率训练图像编码器和姿态编码器250个epoch。我们没有针对每个场景专门调整这些参数，这表明它们应该适用于任何自动驾驶场景。补充资料中提供了更多详细信息，包括数据集配置。基线：我们的第一个目标是将ImPosing与其基于直接学习的方法的竞争对手进行比较。我们使用Co-ordiNet[26]报告牛津数据集上绝对姿态回归的最新结果作为基线。我们报告了以前发表的关于该数据集的结果，L=1s（I，pNk=0n=0氮钾）−st（I，p氮钾）|（五）为其他数据集提供自己的实现。我们用ResNet34替换EfficientNet主干，以进行公平比较可以与基于内容的图像检索进行类比[1，32]：全局描述符通常使用由查询图像、正样本和负样本组成的图像三元组来训练。正样本是在度量或语义域中接近查询的数据，这取决于最终应用，而负样本是具有与查询无关的内容的图像全局描述符可以通过最小化三重边际损失来训练[1]。在我们的情况下，正示例是具有非零分数的姿势，而负示例是比任意阈值更远离相机姿势的候选者。而不是二元分类（正面或负面的例子），我们排名的相对重要性的积极样本，根据他们的距离地面真理标签。4. 实验我们将我们的方法与最近的方法在几个数据集上进行比较，这些数据集涵盖了大规模户外地图中的各种自动由于室外环境的动态部分（移动对象、照明、遮挡等），该任务是高度挑战性的。我们验证了我们的配方可以在9个不同的大型户外场景中进行精确然后，我们表明，我们的方法可以很自然地扩展到多地图的情况下，我们使用这种设置报告的结果我们也比较的Imposing。如第2节所述，我们通过将全局描述符与地图进行匹配，与图像检索具有相似性。为了比较植入和检索，我们使用NetVLAD [1]（VGG16骨干网）和 Revaud 等人。 [32] （ GeM pooling ， Resnet101backbone）公开可用的实现1.全尺寸图像用于计算全局图像描述符，随后是用于特征比较的余弦相似度，然后我们对前20个数据库图像的姿态执行姿态平均，如[39]所示。场景坐标回归[7，8]不能扩展到大环境，因此不考虑进行评估。我们没有使用基于结构的方法进行实验[34，36，57]。由于使用3D模型进行几何推理，这些方法比我们的方法更准确，但也以与我们不同的计算规模运行（见图3），使得嵌入式部署变得困难。在可以提供的场景中，植入可以被认为是粗略定位步骤，随后是3D模型的细化，类似于HLoc[34]架构。4.1. 单场景定位Oxford RobotCar [21]包含一辆车在牛津一年多的时间里记录的图像。我们复制实验1https://github.com/Nanne/pytorch-NetVlad和https://github.com/naver/deep-image-retrieval、（四）2897姿态回归图像检索数据集[26]第二十六话AtLoc [52]NetVLAD [1]Gem [32]牛津全中位数3.55米/1.1°11.1米/5.3°1.42米/1.4°1.36米/1.3°1.90米/1.3°是说14.96米/5.7°29.6米/12.4°4.47米/2.4°3.49米/2.3°4.25米/4.3°Oxford Loop中位数2.27米/0.9°5.36米/2.1°2.16米/1.1°2.39米/1.0°1.93米/1.0°是说4.15米/1.4°8.73米/4.6°4.16米/1.9°6.92米/3.1°3.03米/1.8°平均中值2.91米/1.0°8.23米/3.7°1.79米/1.2°1.88米/1.1°1.92米/1.1°是说9.56米/3.4°19.17米/8.5°4.32米/2.1°5.20米/2.7°3.64米/3.0°稻香湖中路6.82米/0.4°–8.92米/0.8°27.13米/1.1°1.62米/0.3°是说25.18米/1.0°–152.2m/15.5°328.8米/19.5°8.40米/0.5°表1：Oxford RobotCar和稻香湖数据集上的定位误差。通常报告的基于学习的方法[26，52，55]：我们在循环和完整场景上进行评估，仅使用2个序列进行训练。结果报告于表1中。首先，我们观察到图像检索比姿态回归性能更好以前的基于学习的方法由于低数据状态[26，27]和大型地图中回归精度的降低而挣扎。牛津市是一个具有丰富功能的环境，类似于视觉位置识别训练数据集，这使得NetVLAD [1]和GeM [32]在这种情况下成为强大的基线。Imposing exhibits在Oxford Loop场景中具有最先进的准确性，以及最佳的平均平均误差。这些结果是通过减少大量的大故障的情况下，发生与现有的方法。我们还观察到，尽管作者[20]提供了新提供的RTK地面实况，但在某些区域，参考姿态在很大程度上是不准确的因此，评估度量在厘米级别上并不显著，并且模型训练可能受到该错误姿势标签的影响。出于这个原因，我们对两个最近发布的数据集进行了基准测试，这些数据集具有更可靠的地面实况。稻香湖[57]在北京12公里的环路中收集了4个月的时间。有8个记录可用，我们使用7个用于训练，1个用于测试，仅使用前置摄像头的图像。这个场景包含我们实验中最大的地图和训练数据集。中位数和平均误差见表1。稻香湖是一个比牛津更有挑战性的数据集，因为重复的区域几乎没有区别性的特征和各种环境（城市，城郊，公路，自然等）。因此，图像检索的性能比姿态回归差。ImPosing更准确，其中位数误差比竞争对手小4倍。四季[53] 包含慕尼黑地区记录的数据在不同的场景（城市、居民区、乡村）中，具有不同的季节条件。我们选择了6个场景，其中至少提供了3种不同的录音：我们使用1作为测试图像，其他图像作为训练图像。这由于序列之间的极端外观变化、某些场景的小数据范围、无特征的环境（参见柔性材质中的插图）和大比例尺地图，基准测试极具挑战性结果见表2。首先，绝对定位精度在不同场景之间是非常不均匀的。我们注意到，训练图像很少的场景是最具挑战性的。特别地，农村包括围绕田地的导航，而城市环路是10公里的地图，其中训练数据集由具有雪的冬季序列和具有相机镜头上的模糊的雨天序列组成。在这些极端情况下，姿态回归和图像检索都无法估计可靠的姿态，而ImPosing能够提供粗略的定位。对于足够大的训练数据集，我们的方法仍然表现出更精确的姿态估计。4.2. 多场景定位用于重新定位的基于学习的方法需要场景特定的训练，从而导致在几个区域中大规模地潜在部署的繁重计算。最近的工作[4，41]已经将绝对姿态回归扩展到多场景。其核心思想是用来自多个地图的图像训练系统，同时共享图像编码器参数，这些参数可以学习以通用的方式提取特征。由于我们的方法将图像和地图表示分开， ImPosing 自然扩展到多场景。为了使ImPosing适应多地图场景，我们执行以下修改：在所有地图之间共享图像编码器主干，而对于每个场景学习一个特定的姿态编码器。我们还学习了图像编码器的最终线性层的场景特定参数，以便于图像特征投影到所需的地图表示。我们在4个季节的6张地图上训练多场景模型[53]。结果报告于表2中。由于计算的限制，该模型已经训练了20个时期，但仍然优于除单场景ImPosing模型外的所有竞争对手。在multimap公式中，单个场景的收敛速度较慢（但在n个地图上训练多场景比在每个地图上执行n个不同的训练要快，请参见补充说明）。2898CoordiNet（APR）GeM（IR）Imposing（our）NetVLAD（IR）基于结构的方法数据集详情图像检索CoordiNet [26]ImPosing道路长度运行图像NetVLAD [1]Gem [32]单sc.多sc.邻域20006165200.72米/0.9°0.69米/0.9°0.74米/0.6°0.53米/0.7°0.82米/1.0°办公室环路26005209156.85米/3.0°6.39米/2.8°6.25米/1.5°0.99米/1.1°1.58米/1.3°农村620031980432.24米/1.2°30.87米/1.3°47.33米/2.9°2.61米/0.9°5.46米/1.1°总线校园1000261321.19米/1.3°1.96米/1.2°22.57米/6.0°1.16米/1.3°1.70米/1.6°城市环线1000021742761.60米/3.5°317.4米/6.9°584.4米/14.4°5.32米/2.4°10.53米/2.5°老城45003139593.45米/1.2°4.46米/1.6°50.83米/3.8°2.59米/1.2°3.71米/1.3°平均---17.67米/1，8 °60.30米/2，4 °118.7米/4.9°2.2米/1.3°3.97米/1.5°表2：4Seasons数据集上的中值定位误差。材料），它能够以最小的内存存储要求（见第4.3节）定位在巨大的区域4.3. 效率比较存储占用空间。我们的方法只需要在设备中存储神经网络权重和初始姿态候选者。它表示图像编码器为23MB，姿态编码器小于1MB，初始姿态候选者为1MB。我们还在图3中报告了记忆足迹的比例律w.r.t.不同类别的视觉定位方法的参考数据库大小这在大量数据可用的自动驾驶场景中是一个重要方面对于给定的地图，基于学习的方法具有恒定的内存需求，因为地图信息嵌入在网络权重中。为了估计检索方法的存储需求，我们考虑数据库图像描述符的大小（GeM为2048，NetVLAD为4096）以及图像编码器的大小。对于参考图像超过10万幅的大规模场景，检索方法的存储空间要求超过1GB为了估计基于结构的方法的内存需求，我们考虑[34]中给出的数字：从4328个图像构建的3D模型由685k个3D点组成。如果我们考虑一个由3D点组成的尺寸为128的局部描述符，我们可以推导出一个线性规则，根据参考图像的数量来确定3D模型的尺寸。这是一个粗略的估计，但我们可以估计，基于结构的方法需要至少3倍以上的存储容量比图像检索方法。压缩技术的存在使算法在设备存储中扩展性延迟精度IR+2D-3D匹配3D模型+ IR DB + NN（5- 100 GB）高低高IR+相对PR带图像的IR DB + NN（5- 100 GB）高低介质IRIR DB + NN（2- 50 GB）高介质低AprNN（约25MB）介质高低SCRNN（约25MB）低高高Imposing（我们的） NN（25MB）高高介质表3：方法之间的定性比较。比较了视觉定位类方法的性质。存储要求、在大型地图中操作的能力IR代表图像检索，PR代表姿态回归，SCR代表场景坐标回归，DB代表数据库，NN代表神经网络权重。IR数据库的存储详见[46]。这些方法更容易处理[37，9]，然而压缩的地图仍然表示千兆字节并且不太准确。104103102104 105图像数量（对数标尺）图3：设备内内存使用情况。当参考数据集增长时，基于结构的方法（黑色）和图像检索（蓝色和紫色）使用更多内存，而姿势回归方法和ImPosing（粉色和青色）存储要求不依赖于数据集大小。计算复杂性。我们的算法复杂度取决于图像编码器骨干（ResNet34的36亿使用默认的超参数，它涉及48亿FLOP。我们使用NVIDIA RTX 2080 GPU测量了单个图像的总推理时间为41 ms复杂度是线性的。细化的数量K、姿态候选的数量N和MLP中的层的数量。它是w.r.t.的二次方。潜维D.应该注意的是，并行计算减少了N和D对推理时间的影响。考虑到这些性质和4.4中提供的烧蚀，可以选择与计算要求相匹配的相应超参数。摘要Imposing具有非常紧凑的存储要求和快速的推理时间加上国家的最先进的准确性。值得注意的是，内存占用和计算复杂性都不依赖于参考数据库中的图像数量，这是图像检索方法的一大优势[1，32]。我们还通过实验观察到，我们的方法收敛约2倍设备内存储（Mb）2899432100123456789改进次数K432101，024 2，048 4，0968，192候选人人数43210164128 256 512姿态平均候选项98765432100 5 10 15 20训练迭代（×103）图4：从左到右：中值定位误差取决于细化的数量、姿态候选和最终的数量平均姿态。姿势回归[26]和ImPosing之间的训练时间比较。比pose回归竞争对手更快[26] w.r.t. 训练迭代的次数（参见图4）。4.4.消融研究我们在图4中报告了几个超参数对ImPosing定位精度的影响。我们评估细化步骤的数量K、姿态候选的数量N和用于姿态平均的最佳候选的数量。我们使用在稻香湖上训练的模型，并在测试时改变参数。增加细化和候选的数量以更高的计算成本为代价提高了局部化精度我们使用K=6和N=4096作为我们的默认设置。我们观察到姿态平均对准确性有积极影响，但所选候选人的数量在补充材料中提供了关于姿态编码器中的层数和相似性分数的计算的附加消融研究。5. 讨论姿势编码器学习什么？在姿态回归方法中，图像和相机姿态通过作为单个前馈神经网络的相应输入和输出来连接该公式将特征提取、地图记忆和相机姿态预测纠缠在一个模型中。虽然已知深度神经网络在第一个方面表现良好，但已观察到它们在姿势预测方面不准确[39]。我们的解决方案通过将解码器层与姿态编码器“反转”来规避这个问题我们不试图从特征中预测姿势，而是将给定的姿势与其各自的潜在特征联系起来。我们让网络学习连接图像和相机姿势的最佳潜在空间，只有一个约束：接近实际相机姿态的姿态可以具有与图像表示相对相似的矢量。该属性使得能够以粗略到精细的方式搜索最佳姿态候选，并且解释所得到的分数具有跨地图的位置的多模态分布。我们提供这些分布和潜在空间补充材料中的结构。好处、局限性和今后的工作。我们的方法保持了基于直接学习的方法的主要优点：我们通过神经网络推理有效地获得姿态，我们不使用场景的3D模型或检索数据库，从而导致非常紧凑的内存占用。我们观察到，我们的方法的准确性高度依赖于可用的训练数据的数量。与回归相似，我们的方法不会外推到远离训练示例的相机位置。然而，最近的方法表明，这些限制可以通过合成数据集来克服此外，在驾驶场景中，粗略的定位估计可能是足够的，因为由于感知，可以恢复水平定位（道路车道）[31]。我们提出的新范式可以在许多方面得到改进。它包括探索姿势编码器的更好架构，灵感来自最近的基于坐标的表示[58]。另一个有趣的方向是通过找到一种隐式表示3D模型的方法，将隐式地图表示扩展到局部特征而不是全局图像签名6. 结论我们提出了一种新的视觉局部化公式，它在大型环境中为基于直接学习的方法提供了最先进的精度。通过使用地图的隐式表示，我们将相机姿势和图像特征连接在一个潜在的高维man- ifold中，非常适合于定位。我们已经证明，通过一个简单的姿态候选采样过程，我们能够估计图像的绝对姿态。我们的建议可以直接应用于自动驾驶系统，通过提供一个高效，准确的基于图像的定位算法，可以在大规模的实时操作。我们相信，除了我们的工作，隐式场景表示，通过他们的能力，在一个固定大小的神经网络模型复杂的连续信号，是一个有前途的研究方向摄像机姿态估计。平移（m）旋转（°）平移（m）旋转（°）[26]第二十六话检验中位误差平移（m）旋转（°）2900引用[1] R. Arandjel o vi c´，P. Gronat，A. Torii、T. Pajdla和J. Si vic. NetVLAD：用于弱监督位置识别的CNN架构。2016年在IEEE计算机视觉和模式识别会议上发表[2] Matan Atzmon和Yaron Lipman。Sal：从原始数据中学习形状的符号不可知论。在IEEE/CVF会议计算机视觉和模式识别（CVPR），2020年6月。[3] Vassileios Balntas、Shuda Li和Victor Prisacariu。Reloc-net：使用神经网络的连续度量学习重新定位。在欧洲计算机视觉会议（ECCV），2018年9月。[4] Hunter Blanton Connor Greenwell Scott Workman 和Nathan Jacobs 将绝对姿态回归扩展到多场景。在IEEE/CVF计算机视觉和模式识别研讨会会议集，第38-39页[5] Eric Brachmann、Alexander Krull、Sebastian Nowozin、Jamie Shotton、Frank Michel、Stefan Gumhold和CarstenRother。用于摄像机定位的可微分变换。在IEEE计算机视觉和模式识别会议论文集，第6684-6692页[6] Eric Brachmann和Carsten Rother。学得越少越好- 经由3D表面回归的6D相机定位。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。[7] Eric Brachmann和Carsten Rother。专家样本共识适用于相机重新定位。在ICCV，2019年。[8] Eric Brachmann 和 Carsten Rother 。使用dsac从 RGB 和RGB-D 图像进行视觉相机重新定位。在 IEEETransactionsonPatternAnalysisandMachineIntelligence，第1-1页[9] Federico Camposeco，Andrea Cohen，Marc Pollefeys，and Torsten Sattler.用于视觉局部化的混合场景压缩。2019 年 IEEE/CVF 计算机视觉和模式识别会议（CVPR），第7645-7654页[10] Ronald Clark ， Sen Wang ， Andrew Markham ， NikiTrigoni，and Hongkai Wen. Vidloc：一个用于6-dof视频剪辑重定位的深度时空模型。在IEEE计算机视觉和模式识别会议论文集，第6856-6864页[11] Daniel DeTone，Tomasz Malisiewicz，and Andrew Rabi-novich. Superpoint：自监督兴趣点检测和描述。在2018年的CVPR深度学习Visual SLAM研讨会[12] Mingyu Ding，Zhe Wang，Jiankai Sun，Jianping Shi，and Ping Luo. Camnet：用于相机重新定位的粗到精检索。在2019年IEEE/CVF计算机视觉国际会议（ICCV）上，第2871-2880页[13] Mingyu Ding，Zhe Wang，Jiankai Sun，Jianping Shi，and Ping Luo. Camnet：用于相机重新定位的粗到精检索。在IEEE/CVF计算机视觉国际会议论文集，第2871-2880页[14] M. Fischler和R.波尔斯随机样本一致性：模型拟合及其在图像分析中的应用SIS 和自动制图。 Communications of the ACM ， 24（6）：381[15] A.作者：Gordon，J. Revaud和D. 拉勒斯深度视觉表示的端到端学习，用于图像检索。IJCV，2017年。[16] Chiyu Max Jiang ， Avneesh Sud ， Ameesh Makadia ，JingweiHuang ， MatthiasNießner ， andThomasFunkhouser.三维场景的局部隐式网格表示。IEEE Conf.计算机视觉和模式识别（CVPR），2020年。[17] 亚历克斯·肯德尔和罗伯托·西波拉在深度学习中对相机重新定位的不确定性2016年IEEE机器人与自动化国际会议（ICRA），第4762-4769页。IEEE Press，2016.[18] A. Kendall，M. Grimes和R.西波拉Posenet：用于实时6-dof相机重新定位的卷积网络。2015年IEEE国际计算机视觉会议（ICCV），第2938-2946页[19] Zakaria Laskar ，Iaroslav Melekhov，Surya Kalia，andJuho Kannala.通过使用卷积神经网络计算成对相对姿态的相机重新定位。2017年10月在IEEE计算机视觉国际会议（ICCV）上发表。[20] 威尔·马登，杰弗里·帕斯科，马修·

下载后可阅读完整内容，剩余1页未读，立即下载