学习压缩场景以实现相机重新定位

134 浏览量更新于2023-10-25 收藏 1.33MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8259SceneSqueezer：学习压缩场景以实现相机重新定位杨露薇1*Rakesh Shrestha1* 李文波2刘帅成3张国锋2崔兆鹏2<$谭平1，4<$1西门菲莎大学2浙江大学CAD CG国家重点实验室3电子科技大学4阿里巴巴XR实验室{luweiy，rakeshs，pingtan} @ sfu.ca，{wenboli，zhangguofeng，zhpcui} @ zju.edu.cn，liushuaicheng@uestc.edu.cn摘要标准视觉定位方法构建场景的先验3D模型，其用于建立与查询图像中的2D关键点的对应。存储这些预先构建的3D场景模型对于大规模环境可能是极其昂贵的，特别是在具有有限存储和通信带宽的移动设备上。我们设计了一个新的框架，压缩场景，同时仍然保持定位精度。场景被压缩为三个阶段：首先，使用成对共同可见性信息对数据库帧进行聚类。然后，学习点选择模块考虑最终姿态估计精度来修剪每个聚类中的点。在最后阶段，使用学习量化进一步压缩所选择的点查询图像配准仅使用压缩的场景点来完成。据我们所知，我们是第一个提出学习场景压缩视觉定位。我们还证明了我们的方法在各种户外数据集上的有效性和效率，它可以以低内存消耗进行准确的定位。1. 介绍视觉定位旨在估计相机姿态（即，位置和旋转）。这是3D计算机视觉中的基本问题，具有各种应用，诸如自动驾驶、增强现实、室内导航等。经典的视觉定位方法预先构建场景的3D点云模型，其中每个点与一个或多个图像描述符相关联，所述图像描述符用于与查询中检测到的2D点进行匹配*同等贡献，通讯作者项目页面：sfu-gruvi-3dv.github.com/s_squeezer形象一旦建立了2D-3D对应关系，就可以应用鲁棒的姿态估计[11，19]来恢复相机姿态。对于大规模环境，保留预构建的3D场景模型会消耗昂贵的内存使用，特别是在存储空间有限的移动设备上部署时。因此，已经提出了许多方法来压缩3D场景模型，以提高可扩展性，同时保持定位精度。以前的3D场景压缩方法可以大致分为三类。第一类[7，39]使用量化压缩3D点的描述符，不可避免地牺牲了特征的独特性，同时仅提供有限的压缩量。第二种是基于学习的视觉定位方法[14，16，49]。在没有明确存储3D场景模型的情况下，它们通过深度神经网络直接回归每个像素的相机姿态或场景坐标，这可以被认为是一种特殊类型的场景压缩，因为网络权重对3D场景信息进行编码。然而，这些方法要么精度低，要么通用性差.第三种也是最常见的类别是通过基于某些手工标准仔细选择3D点的子集来压缩3D模型，这些标准通常包括所选点的空间覆盖和视觉独特性[6，23，27]。然而，这些标准未能直接考虑压缩对最终姿态估计的影响已知手动设计选择点的规则对于绝对和相对姿态估计都是具有挑战性的问题[13]。受最新的分层定位方法[36，38]的启发，这些方法引领了视觉局部化的基准，我们提出了一种新的3D场景压缩分层策略。具体来说，我们在三个层次上压缩3D在粗层次上，我们进行数据库图像聚类，并将场景划分为多个簇，使我们能够单独压缩簇。这也通过限制匹配来加速本地化8260将查询关键点转换为更小的3D点集。对于中间层，我们解决QP问题[27]以从每个聚类中选择3D点。然而，与[27]不同的是，我们设计了一种新的可微分点选择方法，使我们能够根据其2D观察结果和对最终姿态估计的影响来学习选择3D点为此，我们设计了一个新的多视图观察融合器，学习提取和聚合的功能，每个3D点的基础上，他们产生正确的匹配。利用提取的多视图特征，我们可以学习点的独特性分数和成对接近度，这些点用于通过可微QP求解器选择点的子集[1]。我们的实验表明，我们的学习点选择性能优于启发式方法。在最精细的层次上，我们利用最新的可微量化方法[12]来进一步压缩特征描述符。有了这三个级别的压缩，我们的系统优于现有的基于压缩的定位方法。本文的贡献可以概括如下。首先，我们从最新的视觉层次定位方法中得到启发，提出了一种新的用于场景压缩的层次管道。其次，我们提出了一种新的可微点选择，学习场景点的区分度和成对接近度。我们在特征匹配和姿态估计的同时训练它，这使得点的选择能够基于姿态估计的准确性而大量的实验表明，在各种基准数据集上，该方法的性能优于2. 相关工作摄像机定位：传统上，摄像机姿态估计的问题已经通过从手工制作的关键点描述符[22，24，39-41，45 ]生成2D- 3D对应关系，然后是透视n点（PSPOT）算法[ 11，19 ]来解决尽管性能令人印象深刻，但由于手工制作的功能，这些方法仅限于纹理良好的场景深度学习已经被提出作为传统方法的替代方案。PoseNet [16]及其后续工作[14，49]使用CNN和LSTM直接回归查询图像的绝对相机姿态然而，就性能而言，这些方法更类似于图像检索，而不是基于结构的姿态估计[43]。更鲁棒的基于学习的方法[2-尽管取得了一些成功，但它们在较大的场景中表现不佳，并且需要昂贵的再训练来适应新的场景。场景不可知回归[47，50]减轻了泛化限制，但在内存方面成本很高，因为它们需要存储整个数据库的场景坐标图。许多最近的方法[9，35，46]利用深度学习来获得更好的特征描述符和匹配器。HLoc [36]通过利用SuperGlue匹配器[37]以及用于姿态估计的分层、从粗到细的方法来实现令人印象深刻的结果。PixelLoc [38]学习提取密集图像特征，以将查询图像与数据库图像对齐，同时还遵循[37]的分层定位所有这些方法仍然需要显式的3D模型与大量的点，以实现良好的性能。场景压缩：K-cover是一种减少3D场景点数量的流行技术。Li等[23]使用K- cover来找到具有均匀空间分布和高可见性点的子集Cao和Snavely [6]对其进行了扩展，并提出了一种概率K覆盖解决方案，以最大化点的Camposeco等人[5]提出了一种基于K-覆盖的混合压缩算法，具有不同描述符分辨率的两组点。Sun等人[8]提出了一种自适应加权K覆盖解决方案，以最大限度地提高选定点的可见性。这些K-覆盖变体是NP-难的，只能近似求解。场景压缩的另一种常见公式是二次规划（QP）。Chen等人[44]制定一个混合整数QP问题，以优化可见性和空间分布。Dymczyk等人[10]通过将问题划分为单独解决的共同可见子图来改进[44]的可扩展性。混合整数QP是非凸的，因此尽管是存储器/时间密集型的，但不能保证最优解。Mera-Trujillo等人[27]提出了一个凸QP公式，并为他们的问题公式设计了一个有效的求解器这些方法使用手工制作的算法来编码视觉独特性，这通常需要基于数据集进行调整或改变一种不同的场景压缩方法是特征量化。Cheng等人[7]提出了一个级联的并行过滤器来压缩描述符以压缩二进制表示。Sattler等人[39]将场景特征压缩为量化词汇表。学习点云采样：虽然不总是针对本地化，但点云子采样是一个相关主题。早期的方法使用最远点采样，其已扩展到可微形式并用于各种神经网络架构[31，33，51]。SampleNet [18]提出了一种特定于下游任务的学习采样方法。我们的方法的目的是克服的弱点，同时保留他们的长处。我们借用了[27]的凸QP问题公式，并实现了一个可微分的解决方案，以学习直接基于姿态估计精度选择点，并消除了手工制作的算法的需要。8261.i，j=∈联系我们----}{{∈|Σ∈∈∈场景3D点+框架点式Transformer可微点选择查询图像+关键点多视图观察定影器F壮举…fusedfeatconcat.+Dist. 评分内核可微QP检索xyzuint8xyz uint8德昆特（MLP）共可见聚类验证设置2D keypoint feats.壮举锚集合3D点数+专长。xyzfeat点分布壮举. 量化强力胶2D-3Dxyzfeat…选择xyz浮动xyzxyzuint8xyzuint8corres.浮子……场景压缩绝对姿态查询注册图1. 我们系统的管道。场景压缩分为3个阶段：共视帧聚类、三维场景点选择和特征量化。然后，压缩的场景用于查询帧配准。3. 方法我们的目标是生成一个压缩的场景表示，适合于估计绝对相机姿态的校准查询图像IQw.r.t的场景。输入是3D点{Xi}和{Xj}：日志|{Xi}{Xj}||{Xi}{Xj}|.（一）场景数据库，包括图像帧IR（称为参考帧）和3D点XR ，以及它们的观察到的 2D 关键点 PR= （ xR ，FR），其中xRR2是图像平面中的关键点的位置，FR2 是图像平面中的关键点的位置。R256是其对应的SuperPoint [9]描述符。图1显示了我们的场景压缩管道。它可以分为3个阶段：1）粗粒级：共同可见帧聚类，其中数据库中的共同可见帧使用分层聚类[28]进行分组，并且仅保留稀疏帧集用于定位（第3.1节）;2) 中级：微分点选择，一个点选择网络，用于通过考虑2D-3D对应关系和3D点的高级特征来压缩每个聚类中的点云（第3.2节）;3) 精细级：特征量化，其中所选点3.1. 共可见帧聚类从每个集群中，我们保留最多20个帧，这些帧观察到最多数量的3D点作为共同可见帧。3.2. 学习选点我们将通过减少3D点的数量来进一步压缩每个聚类，同时最大限度地减少本地化质量的损失。众所周知，准确的位姿估计不仅取决于正确的2D-3D对应，这与点的独特性有关然而，没有黄金标准来明确评估最终姿态估计的点的独特性和分布[13]。为此，我们设计了一个可微点选择模块，可以与最终的姿态估计一起训练，通过它，我们可以学习从训练数据中评估区分性和分布。具体地，给定m个3D点，Xa=XiR3i= 1，.，m，我们估计分布αRm在其中，较高的αi意味着选择点Xi的可能性较高。与[27]类似，我们通过优化以下QP问题来计算α由于我们的点选择网络的内存限制，具有数百万点的大规模点云的压缩是不可行的，我们将场景划分为多个簇，并单独压缩每个簇。另外，我们可以减少数据库帧的数量，尽量减少α受αTKα−τdTαMαi= 1，（2）我通过选择覆盖大多数观察点的较少图像，进行基于图像检索的粗略定位0≤αi1≤νm;i = 1，...，M从每个集群。我们使用分层聚类[28]方法，其中两个帧i和j之间的距离是共视距离，表示为它们的观测值的交集其中dRm是3D点，KRm×m是点之间的对称成对邻近矩阵，ν（0，1]是压缩因子，其中ν= 1意味着没有压缩和降低壮举壮举MLPDSQ壮举8262n∈n∈nn一----∈{∈|}--一--一一∈1n∈外观验证锚点验证融合：然后我们根据锚点和验证集的外观和几何相似性将它们融合图2描绘了验证框架Vn成对相似性concat. +的几何验证汇总验证用锚点。验证帧Vn的关键点与锚点之间的外观相似性矩阵表示为EV→ARmA×ln。在这里，我们在最佳传输层之前使用SuperGlue的得分矩阵（Sinkhorn算法[30]），以便图2. 验证框架Vn和锚定集合A。v增加压缩（即，选择较少的点）。τ是平衡两个成本的标量权重。与采用启发式规则的[27]不同，我们建议从学习的3D点特征计算d和K因此，我们以可微的方式解决QP问题[1]，使我们能够学习d和K。选择对应于top-vmα的点，并丢弃其余的点。我们将在下面的章节中解释如何从学习的点特征中获得d和K。3.2.1多视角观察融合器为了更好地估计3D点的视觉独特性，我们首先通过使用它们在多个视图中的2D观察来提取点的特征。我们考虑3D点和所有可能的2D观测之间的相似性，而不是天真地聚合相应2D关键点的SuperPoint特征。相似性是根据预先训练的SuperGlue匹配器[37]产生的2D- 3D对之间的相关矩阵以及3D点与2D关键点位置的重投影距离来定义的这些分别编码3D点和2D观测之间的外观和几何相似性。锚点-验证分割：在多个帧中使用其配对的2D关键点对所有3D点进行穷举迭代是昂贵的，因此我们将共同可见的集群分为两组：锚点帧，覆盖大部分3D点，其余是验证帧。然后，2D-3D对被限制为来自锚定帧的3D点和来自验证帧的2D关键点。只有包含在锚定帧内的3D点被考虑用于子帧压缩。具体地，设 A=A k 是具有 m 个 A3D 点 XiR3i=1，.，m A及其特征FARmA×C. 3D点特征FA是通过使用均值池聚合对应的2D关键点的特征来生成的。设{Vn}为验证帧的集合获得连续的相似性值而不是硬分配。令MV→ARmA×ln是成对几何相似性，其被定义为V n中的2D关键点与验证帧上的锚点{Xi}的2D投影之间的重投影距离的倒数。随后的验证特征GV→A∈RmA×C和HV→ARmA×C是验证的加权和基于与3D点的外观和几何相似性的阳离子关键点特征FVnHVn→A=θ（EVn→A）FVnGVn→A=θ（MVn→A）FVn，（3）其中θ表示使用softmax的逐行归一化。然后将级联的GVn→A和HVn→A馈送到MLP（β）中以获得聚合的验证特征OVn→A，其考虑了外观和几何相似性。最后，融合特征Fagg∈ RmA×C将来自所有验证帧Vn的聚合验证特征OVn→A与锚特征FA组合。这是使用缩放的点积注意力来完成的[48]：Fagg=注意（OV→A，...，OV→A，FA），（4）其中，FA充当注意机制的Key，OVn→A充当注意机制的Query详情请参阅补充3.2.2学习区别性和接近性利用锚点集合A的融合特征Fagg，我们估计3D点的独特性d及其成对接近度K，其用于使用等式（2）求解点分布α如图1所示，d和K是使用两个相同的点转换器[52]网络获得的。我们选择Point Transformer而不是其他基于点的架构[32，33]，因为它们具有卓越的基于自我注意力的信息聚合机制和在各种3D任务中令人印象深刻的性能。有关网络架构的更多详细信息，请参阅我们的补充材料。融合的验证特征Fag连同它们的锚特征Fa和3D共同地形成。FVn ∈ R是l n个2D关键点的特征，ln×C坐标XA被馈送到两个点变压器中以生成验证帧Vn。每个关键点的特征通过使用SuperGlue计算用于计算成对邻近矩阵K的每个3D点的独特性得分d和点特征fR64。成对接近度K通常被设置为K空间[27]，其中每个条目是（高斯）径向基锚验证重复。强力胶SoftmaxSoftmaxMatMulMatMulMLP8263IJ2∥ −∥2σjH . .YΣ我Σ我∥− ∥+αx−πQ（gt，X），（7）+双对数（σ），（6）点对（i，j）之间的空间距离函数I. e. K空间=RBF（Xi−Xj，σRBF），其中高RBF（x，σRBF）=exp.X2-2σRBF 2.（五）我们不是只使用K的空间距离，而是添加一个学习矩阵K以获得K=1（K空间+K）。设f为f的归一化特征。我们使用成对特征距离的RBF来生成RBF：对于每对点（i，j），这使得我们不仅可以获得良好的空间覆盖，而且还可以潜在地减少视觉冗余并避免所选点的姿态估计退化。在生成d和K之后，我们使用可微QP求解器[1]优化等式（2）中的α，以便在训练期间将误差梯度反向传播到K，d和τ3.3. 精细级特征量化对于每个选定的点XS，我们需要其特征FS，一个32位浮点数的256维向量，以便执行查询帧配准。我们使用自动编码器网络压缩这些描述符。我们的编码器包含一个2层MLP，它将输入描述符FS的维度减少了一半，以及一个可区分的软量化（DSQ）[12]层，它将MLP输出从32位浮点数量化为8位无符号整数。令FS表示所得到的量化特征。然后，由与编码器相同的MLP组成的解码器尝试以与FS具有相同维度和数据类型的F′S的形式恢复原始描述符。网络训练我们-ing L2-损失：L Q=F′SFS2.在场景压缩之后，我们仅存储由增强生成的较低维量化描述符F_S编码器网络，从而减少了八倍，奥里在运行时本地化期间，解码器网络输出-低图3. 学习到的独特性分数的可视化。我们的系统学习为可以与查询图像在对应于点Xj的查询帧中。πQ是将世界坐标系中的3D点映射到给定相机姿态和本征的2D图像坐标的投影函数。引用点和查询点之间的（j，i）对应关系由预先训练的Super-Glue匹配器预测。上述损失函数的灵感来自贝叶斯深度学习[15]。第一项是预测的2D-3D匹配（j，i）的加权误差，而第二项用作正则化器以防止所有点退化为高不确定性。最后，点Xj的独特性得分被设置为dj= 1.2，这意味着在将3D点与其2D关键点匹配时较低的不确定性导致较高的独特性得分。图3显示了来自Cambridge Landmarks数据集[16]的2个示例图像的学习独特性得分d。在图中，我们可以看到，像角和边这样的明显特征获得高分。由于2D和3D信息都用于计算d，因此分数可以考虑3D结构以及外观信息。另一个损失项L试图最大化使用从分布α中采样的点估计的相机姿态的准确性：将F′S用于特征匹配。3.4. 培训损失L=h=14i=1HπQ（我们使用两个损失Ld和L来训练我们的网络，以产生适当的d，K和随后的α。Ld鼓励网络将高d值分配给更容易跨多个帧跟踪的点4hQRi我我i=1其中我们随机采样h= 1，...，H个假设，每个假设h由4个具有显著性的点组成分数{αh|i=1，…4}随机从一组L=1Σ∥π(ξ，X）−x三维点XR∈Rk×3。XQ∈Rk×2 代表2DDj∈A 2σj2 （j，i），i∈QQ gtji我查询帧Q中对应于XR的关键点位置122Jj∈A从SuperGlue匹配器获得。是使用PSNR [19]的4点解决方案的假设h的估计姿态，并且是查询帧的真实姿态。其中，σj表示锚点集合A中的3D点Xj的不确定性，Q是具有地面真实姿态的查询帧，xi∈R2是关键点等式（7）中的求和内的第一项更新基于姿态误差的假设中的所有4个点的αi由于较高的姿态误差并不一定意味着所有4个点都导致了不正确的匹配，因此我们添加了第二项α8264×其基于xQ和XR之间的预测的2D-3D对应的重投影误差来更新精确的αi。聚类中心的40 °和45°被用作来自剩余40%的查询帧。我我通过这样做，我们可以鼓励点的选择，以确保4个选定点的任何组合都将导致良好的定位，同时还学习单个点的独特性。3.5. 简体中文在我们的网络经过训练后，我们使用[27]中提出的基于序列最小优化（SMO）的二次规划求解器的自定义实现来压缩每个集群这使我们能够使用预测的d，K和τ有效地压缩大型点云。我们还压缩了帧的AP-GeM[34]全局描述符，其中包含来自每个共同可见聚类的最多观察到的3D点第3.3节的相同技术用于将2048维浮点AP-GeM描述符转换为1024个8位无符号整数描述符。仅保留压缩的点云和量化的特征用于定位。对于运行时查询帧注册，我们使用类似于HLoc [36]的策略。首先，图像检索[34]用于找到与查询帧IQ相似的最近的共同可见聚类。然后，我们将查询帧与对应于图像检索结果的每个压缩点云聚类进行配准，使用Pestrian +RANSAC [19]。通过对来自导致成功配准的聚类的所有2D-3D对应再次运行PRANSAC +RANSAC来获得最终的摄像机姿态PRANSAC关于全局描述符量化和本地化过程的更多细节可以在补充文档中找到。4. 实验数据集：我们使用RobotCar Seasons[26]数据集的训练集来训练我们的网络，并在Cambridge Landmarks[16]和Aachen Day-Night[42]数据集上评估训练后的网络。所有的数据集都是城市规模的，捕捉小/中（剑桥地标）到大（亚琛昼夜，RobotCar季节）规模的场景。虽然基于SIFT [25]的3D重建可用于数据集，但由于我们的网络基于SuperPoint特征，因此我们以与[36]类似的方式使用地面实况相机姿势执行场景的重新三角测量。训练数据集：RobotCar Seasons数据集由各种天气条件下的5.7K训练图像组成，如黎明，黄昏，夜晚等。它还包含一组额外的26 K图像，称为overcast-reference，用于生成3D场景点云和共同可见聚类（第3.1小节）。总共有4.1K个共同可见的聚类，其中20%用作验证集。在一次训练迭代中，我们取一组共同可见的帧，其中30%的帧被选为锚帧，另外30%作为验证帧。在10米范围内的帧-测试数据集：在[5，27]之后，我们从剑桥地标数据集中选择了4个场景商店门面，国王我们还使用亚琛昼夜数据集来评估我们的方法在大规模的场景和更chal-challing夜间条件。它们的训练集被用作参考框架，测试集被用于评估。使用这些数据集对我们的网络进行微调。与[36]类似，我们选择Cambridge Landmarks数据集查询帧的前15个图像检索匹配，以及较大的AachenDay-Night的前50个图像检索匹配，以找到查询图像可能属于的潜在聚类，然后执行更精细的姿态估计（第3.5小节）。实现细节：我们的网络在PyTorch中实现[29]。训练在具有24 GB内存的NVIDIA A5000 GPU上进行我们使用Adam优化器[17]，初始学习率为510−4，批量大小为1。由于内存限制，我们不优化SuperGlue网络的权重，并在训练期间通过随机选择将输入到QP求解器的点云的大小限制为1000虽然QP输入被截断，但我们使用所有点来计算公式6和7中的损耗。空间和特征距离核的RBF带宽（σRBF）都固定为1。0，而学习的权重τ初始化为0.5。压缩比v固定为1。5%，而在测试过程中，它是1。5%，只要集群中压缩点的数量至少为100。否则，应用自适应压缩比，使得点数为100，以便能够准确地定位属于那些聚类的查询图像。详情请参阅我们的补充文件。4.1. 定量比较Cambridge Landmarks数据集：我们对表1中的各种定位方法进行了定量比较。QP+RootSIFT [27]、Hybrid[5]、KP [23]、KCP [6]是基于压缩的方法。在我们的比较中，我们还包括未压缩的方法作为参考. DSAC++ [3]和PoseNet（Geo.）[14]是场景特定的方法，其在其深度网络权重中隐式地编码场景。另一方面，场景不可知的SANet [50]存储整个训练集的RGBD图像。主动搜索（AS）[41]和HLoc [41]是基于稀疏特征的方法，其中场景被存储为未压缩的3D点云以及它们的2D关键点描述符。我们的方法和HLoc执行分层，粗到细本地化，而其余的不。除了以米为单位的中值平移误差和以度为单位的中值旋转误差外，我们还报告了8265方法大小（MB）店铺外观事务错误腐Err（m）（°）大小（MB）旧医院事务错误腐Err（m）（°）大小（MB）国王事务错误腐Err（m）（°）圣玛丽尺寸转换错误腐误差（MB）（m）（°）压缩方法我们0.130.110.380.530.370.530.30.270.380.950.150.37QP+RootSIFT [27]0.410.721.41.10.92.172.21.531.093.30.560.89混合动力车[5]0.160.190.540.620.751.011.010.810.591.340.50.49[23]第二十三话0.850.510.8761.351.063.11.481.23180.460.69KCP [6]1.300.440.88.21.1915.90.990.86240.40.61非压缩方法PoseNet（Geo.）[14个]500.883.78503.23.29500.881.04501.573.32[第四十一话]38.70.120.411400.521.122750.570.73590.220.62SANet [50]270.10.471050.320.531430.320.541740.160.57DSAC++[3]2070.060.32070.20.32070.180.32070.130.4HLoc [36]3160.040.213350.150.318770.120.220090.070.21表1. 剑桥地标定量比较。我们以MB为单位报告场景表示的大小，以米（m）为单位的中值平移误差和以度（°）为单位的中值旋转误差。百分之七十四百分之七十二百分之七十百分之六十八百分之六十六百分之六十四低于10px的点的百分比重投影错误。表2. 亚琛昼夜定量比较。我们报告了场景表示的大小（MB）和查询帧的百分比（%），分别在给定的平移和旋转误差（米和度）内成功定位。每种方法存储的以MB为单位的场景表示。我们的方法优于所有现有的基于压缩的方法，同时也保持了较低的内存占用。至于未压缩的方法，我们的方法优于主动搜索（AS）[41]，也与SANet [50]相当。虽然DSAC++ [3]和HLoc [36]产生更好的定位性能，但与我们的方法相比，它们的内存成本相当高。亚琛昼夜数据集：我们将我们的方法与表2中的亚琛昼夜数据集上的现有方法进行了比较。方法由于[27]没有可用的源代码，我们使用他们方法的实现，但保留我们的图像检索模块（由QP+RootSift* 表示）。我们包括扩展DSAC++ [3]的未压缩方法ESAC（50）[4]以及端到端方法PixLoc（E2E）[38]。我们的方法比所有其他方法表现得更好或与所有其他方法相当，对于所有阈值，HLoc是一个没有。百分之六十二0.0 0.2 0.4 0.6 0.8 1.0标准化独特性评分图4. 不同输入下的可微点选择性能。基于独特性分数d的阈值来选择3D点（在x轴中示出），并且在y轴中报告相对于其2D对应性具有小于10个像素重投影误差的所选择的点的百分比。他们的记忆4.2. 消融研究使用验证集的有效性：在该实验中，我们使用Cambridge Landmarks数据集的4个场景，并选择三种不同类型的输入以馈送到我们的可区分点选择（DPS）模块，并检查其如何影响独特性得分d：1）使用外观和几何相似性（等式（3））聚合锚和验证帧特征，由外观+ Geo. 2）仅使用外观相似性（称为Appear. 用于聚集锚和验证特征 ; 3 ）直接使用Anchor框架的SuperPoint特征，而不与验证框架融合，表示为SuperPoint特征。图4示出了3D场景点的预测独特性得分（归一化）相对于正确的2D-3D场景点的百分比表异常。然而，HLoc的更高性能是以陡峭的内存成本为代价的。基于压缩的方法查询帧中的3D匹配。这里我们选择具有高于给定阈值（x轴）的独特性分数的场景点的子集。在使用地面实况相机姿势将这些3D点重新投影到查询图像平面出现+ GE出现SuperPoint f吃吧O.方法大小（MB）亚琛日0.25米，2°/0.5米，5°/5米，10°亚琛之夜0.25米，2°/0.5米，5°/5米，10°压缩方法我们3175.51999年7月至1999年7月，50.0/67.3/78.6[7]第七话14076.7/ 88.6 /95.833.7/ 48.0 /62.2[27]第二十七话3162.6 1999年12月31日至1999年12月31日16.3/ 18.4 /24.5非压缩方法[38]第2189 61.7 1996年12月31日至1997年6月31日，46.9 1999年12月31日至1999年12月31日百分比（%）8266百分之九十百分之八十百分之七十百分之六十百分之五十百分之四十1 2 3 4压缩比（%）固定核K空间学习核K可学习内核固定内核Top-K区随机选择图5. 我们的系统在使用学习内核与固定空间内核时的性能。我们报告了在平移和旋转误差阈值（0.5m，5 °）下的定位回忆。顶部不同点的随机选择和朴素选择（Top-k dist. ）基线也包括在比较中。相对于其匹配的查询关键点的投影距离为低于10像素（y轴）。学习核与固定核：我们评估在求解方程（2）以找到选定点时使用固定空间距离核K空间而不是学习核K时的定位性能。为了比较，我们还显示了当我们随机选择点时以及当我们直接选择具有最高区分度得分d（Top-kdist. ） . 我们选择 Kings College 场景进行实验，结果如图5所示。随机选择和其他方法之间的差距很大，这表明我们学习的区分度得分d对应于将3D点与查询图像关键点正确匹配的能力使用Kspatial和d的性能优于Top-k dist。并且学习的K执行得最好，尤其是在较高的压缩（对应于较低的压缩比）下。随着压缩比的增加，学习核、固定核和最高区分度得分之间的准确性差异变小。这是因为将使用更多的点进行定位，这增加了正确的2D-3D匹配的数量，并且具有RANSAC [19]方案的PSTK对离群值变得更加鲁棒。图6示出了使用固定和学习的内核重构在共同可见的集群中的两个帧上的点选择。两者都使用1.5%的压缩比。固定核只使用3D位置信息，而学习核也考虑2D位置和特征信息。因此，学习的内核在图像坐标中而不仅仅是3D坐标中导致更好的特征分布。这可以解释为什么学习的内核比图5中的固定空间内核性能更好。压缩时间：在表3中，我们报告了我们的系统（压缩比1.5%）、QP+ R.Sift [27]、KC [23]和KCP [6]对来自剑桥地标数据集的圣玛丽教堂场景进行场景压缩所需对于QP+R.Sift，KC和KCP，我们给出了[27]报告的压缩时间。我们的压缩时间与KC相似，但低于KCP，但它明显优于KC。图6. 使用固定和学习的内核对选定的点进行可视化。选定的3D点将重新投影到图像平面并显示为绿点。[23]第二十三话：我的世界，我的世界[6]484 18 328 798表3.不同方法的压缩时间（秒）。高于QP+ R.Sift，因为我们对d和K的计算比QP+ R.Sift更复杂。5. 限制我们的系统有几个限制：1）我们的共同可见集群由最多20帧组成，其中30%是锚帧。虽然我们选择了观察点最多的帧，但仍有一些点被忽略。一个更聪明的战略，同时考虑到效率和更广泛的覆盖率可以用于改进; 2）由于现有点Transformer的容量有限，我们一次只能处理一个集群。这可能导致处理重叠群集的不必要成本; 3）需要多个检索候选来获得查询图像的准确配准。对于较大的场景，如亚琛昼夜[42]，需要大量的候选人来解决模糊检索。这对于实时应用来说可能过于昂贵，特别是对于计算资源有限的移动平台。6. 结论我们提出了一种新的方法，压缩场景，同时保持视觉定位精度。我们的场景压缩分为三个阶段：共可见帧聚类，学习点选择和学习特征量化。与现有方法[5，6，23，27]不同，我们不使用手工制作的几何学，而是学习选择可以保持姿态估计精度的场景点的子集。各种数据集上的实验证实了我们的方法谢谢。本工作得到了加拿大NSERC发现项目（611664）、国家自然科学基金（No.61872067号62102356）和浙江实验室（2021PE0AC01）。65.0%60.6%百分之五十六点三52.8%77.0%74.1%70.6%百分之六十六点五百分之七十八点一76.1%74.3%80.2%79.0%百分之七十七点三70.8%8267引用[1] Akshay Agrawal ， Brandon Amos ， Shane Barratt ，Stephen Boyd，Steven Diamond和J Zico Kolter。可微凸优化层。NeurIPS，2019。二、四、五[2] Eric Brachmann、Alexander Krull、Sebastian Nowozin、Jamie Shotton、Frank Michel、Stefan Gumhold和CarstenRother。用于摄像机定位的ransac。在CVPR，2017年。2[3] Eric Brachmann和Carsten Rother。学习越少越好-通过3d表面回归的6d相机定位。在CVPR，2018年。二六七[4] Eric Brachmann和Carsten Rother。专家样本共识适用于相机重新定位。在ICCV，2019年。二、七[5] Federico Camposeco，Andrea Cohen，Marc Pollefeys，and Torsten Sattler.用于视觉局部化的混合场景压缩。在CVPR，2019年。二、六、七、八[6] 宋曹和诺亚·斯内弗利。从运动模型中提取结构的最小场景描述。CVPR，2014。一二六七八[7] Wentao Cheng ， Weisi Lin ， Kan Chen ， and XinfengZhang.级联并行滤波，用于节省内存的基于图像的定位。在ICCV，2019年。一、二、七[8] Wentao Cheng ， Weisi Lin ， Xinfeng Zhang ， MichaelGoesele，and Ming-Ting Sun.数据驱动的点云简化框架，用于城市规模的基于图像的本地化。TIP，26（1）：262-275，2016年。2[9] Daniel DeTone，Tomasz Malisiewicz，and Andrew Rabi-novich. Superpoint：自监督兴趣点检测和描述。在CVPRW，2018年。二、三[10] Marcin Dymczyk ，Simon Lynen ，Michael Bosse，andRoland Siegwart.保持简短：可伸缩地创建压缩的本地化地图。InIROS，2015. 2[11] Xiao-Shan Gao，Xiao-Rong Hou，Jianliang Tang，andHang-Fei Cheng. 透视三点问题的完全解分类。 T-PAMI，25（8）：930-943，2003年。一、二[12] Ruihao Gong ， Xianglong Liu ， Shenghu Jiang ，Tianxiang Li，Peng Hu，Jiazhen Lin，Fengwei Yu，andJunjie Yan.可区分的软量化：桥接全精度和低位神经网络。在CVPR，2019年。二、五[13] You-Yi Jau ， Rui Zhu ， Hao Su ， and ManmohanChandraker.几何约束下基于深度关键点的摄像机姿态估计在IROS，2020年。第1、3条[14] 亚历克斯·肯德尔和罗伯托·西波拉使用深度学习进行相机姿态回归的几何损失在CVPR，2017年。一、二、六、七[15] 亚历克斯·肯德尔和亚林·加尔贝叶斯深度学习在计算机视觉中需要哪些不确定性？NeurIPS，2017。5[16] AlexKendallMatthewGrimes 和 RobertoCipollaPosenet：用于实时6-dof相机重新定位的卷积网络在ICCV，2015年。一、二、五、六[17] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[18] 伊泰·朗、阿萨夫·马诺和沙伊·阿维丹。Samplenet：不同的点云采样。在CVPR，2020年。2[19] Vincent Lepetit ， Francesc Moreno-Noguer ， and PascalFua. Epnp ： pnp 问题的精确 O （ n ）解。 IJCV ， 81（2）：155-166，2009. 一、二、五、六、八[20] Xiaotian Li，Shuzhe Wang，Yi Zhao，Jakob Verbeek，and Juho Kannala.用于视觉定位的分层场景坐标分类和回归。在CVPR，2020年。2[21] 李啸天、尤哈·伊里奥纳斯和尤霍·坎纳拉。用于基于图像的定位的全帧场景坐标回归。arXiv预印本arXiv：1802.03237，2018。2[22] Yunpeng Li ， Noah Snavely ，

下载后可阅读完整内容，剩余1页未读，立即下载