基于图像定位的级联并行过滤方法及其在大型SfM模型中的应用

128 浏览量更新于2023-10-12 收藏 1.05MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1032基于图像定位的郑文涛1，2，林伟思1，陈侃2，张新锋31新加坡南洋理工大学2弗劳恩霍夫基金会新加坡新加坡3中国科学院大学wcheng005@e.ntu.edu.sg，wslin@ntu.edu.sg，Chen. fraunhofer.sg，zhangxinf07@gmail.com摘要基于图像的定位（IBL）旨在估计给定查询图像的6DOF相机姿态。可以根据查询图像与运动恢复结构（SfM）模型之间的2D-3D匹配来计算相机姿态。尽管IBL最近取得了进展，但仍然难以同时解决大型SfM模型的内存消耗和匹配模糊性问题。在这项工作中，我们提出了一个级联的并行过滤方法，杠杆年龄的特征，可见性和几何信息，以过滤错误的匹配下的二进制特征表示。其核心思想是，我们将具有挑战性的过滤任务分为两个并行的任务，然后推导出一个辅助相机的最终过滤的姿态。一个任务专注于保留潜在的正确匹配，而另一个任务专注于获得高质量的匹配，以促进后续更强大的过滤。此外，我们提出的方法提高了定位精度，通过引入质量感知空间重构方法和主焦距增强的姿态估计方法。在真实世界数据集上的实验结果表明，我们的方法在内存有效的方式实现了非常有竞争力的定位性能。1. 介绍基于图像的定位（IBL），即。计算查询图像的6DOF相机姿态是一个基础，在许多计算机视觉任务中存在会话问题。例如，IBL在增量式运动恢复结构（SfM）重建[13，36]，视觉位置识别[29]和自动驾驶车辆的视觉导航[33]中起着关键作用。IBL通过深度学习[18，19]和图像检索技术[1，2，34]见证了巨大的进步。然而，基于结构的IBL [6，21，23，31，37，38，41]通过直接建立查询图像SfM模型仍然是最流行的策略。最新的最先进的方法在具有语义一致性的高维特征表示下处理匹配歧义[38]。然而，它仍然是具有挑战性的和关键的，以解决这个问题下紧凑的特征表示。一个大的SfM模型需要禁止存储器消耗存储数以千万计的描述符。同时，匹配过滤变得困难，因为它可能包含许多几乎相同的描述符。特别地，特征（例如，视觉相似性），可见性（例如，点-图像关系）和几何形状（例如，IBL中的相机姿态）信息导致三个有趣的问题：是否有可能提高每个信息的辨别能力如何将它们统一起来，使各自发挥应有的作用，即把它的辨别力用在发球台上？何时是在IBL管道中使用特定信息的适当阶段准确性也是IBL的一个关键问题，特别是在自动驾驶应用中。可以通过使用RANSAC [12]中的最小姿态求解器[5]来估计相机姿态。为了实现高精度，应当防止对退化姿态假设进行采样或选择。在本文中，我们提出了一种级联并行滤波方法，通过汉明嵌入[15]的二进制特征表示。使用这种二进制特征表示，我们可以大大减少内存消耗。同时，它会引入比高维特征表示更多的歧义，使匹配过滤变得臭名昭著地困难。为了打破这一困境，我们提出的方法过滤错误的匹配，在级联的方式依次利用内在的功能，可见性和几何信息。当涉及一种类型的信息时，我们使用一个宽松的标准来拒绝匹配并保留一个专注于保留正确匹配的匹配池。并行地，我们使用严格的标准来获得高置信度的匹配，这便于随后的过滤步骤。在特征过滤中，我们用双边汉明比测试重新制定了传统的匹配评分函数[16]，以更好地评估匹配的独特性。在能见度方面-1033方法特征类型紧匹配滤波无先验SR可视性几何形状[31]第三十一话SIFT✗严格✓ ✗ ✓ ✗WPE [21]SIFT✗放松✓ ✗ ✓ ✗CSL [37]SIFT✗放松✗ ✓ ✗∗✗CPV [41]SIFT✗放松✗✓✗∗✗[29]第二十九话SIFT✓放松✓✓✓RPE中[23]第二十三话SIFT+二进制✗放松✓✗✓✗TC [6]SIFT✗放松✗✓✓✗SMC [38]SIFT✗放松✓ ✓ ✗∗✗我们的方法二进制✓放松✓RPE之前的检查表1：我们的方法与其他基于结构的IBL方法之间的比较。其中，位姿估计是指预先知道摄像机的垂直方向，SR表示空间重构，RPE表示基于RANSAC的位姿估计。明智的过滤，我们探索点图像的关系，过滤错误的匹配，通过检索相关的数据库图像。此外，我们提出了一个两步匹配选择方法，通过探索点-点关系，这使我们能够获得大量的2D-3D匹配计算辅助相机位姿。在几何滤波中，我们将该辅助相机姿态应用于保留的匹配池，以通过重新投影误差来拒绝错误的匹配。我们的方法还旨在提高定位精度的基础上两个关键的意见。第一个观察结果是，出现在稀疏区域中的正确匹配对于建立非退化相机姿态假设是必不可少的。由于这种匹配的稀缺性，它们通常在相机姿态估计中被忽略。因此，我们提出了一个质量感知的空间重构方法，以增加采样的可能性，这样的匹配在基于RANSAC的姿态估计。第二个观察结果是，具有相似和现实焦距值的几个排名靠前的相机姿态假设在此基础上，我们移动焦点，以找到一个主要的焦距值，以便我们可以获得一个更准确的相机姿态。在基准数据集上的测试结果表明，与现有方法相比，该方法具有更低的内存消耗，并能得到更好的我们的方法的源代码可以在https：//github上找到。公司简介相关的工作。近年来，许多基于结构的IBL方法[6提出如表1显示了最先进的基于结构的IBL方法的概述。主要依赖于广泛使用的SIFT比率测试[24]的逐行过滤是IBL中的基本策略。高效的2D-3D特征匹配方法[9，31]需要严格的特征过滤标准来生成高度置信的种子匹配。与种子匹配频繁共同可见的匹配被优先化以加速匹配过程。最近的作品[6，21，28，37，38，41]通常放松功能明智的过滤标准，以保留更多的正确匹配，并将过滤任务转移到可见性或几何工具。Li等通过对具有频繁共可见性的样本进行优先级排序来引入RANSAC采样策略[21]。Liu等提出了一种通过全局利用马尔可夫网络上的可见性信息的排名算法[23]。然后通过传统的SIFT比率测试过滤排名靠前的匹配。Cam- Poseco等。提出了一种几何离群值过滤方法，其中新颖的2点求解器能够计算近似的相机位置[6]。假设重力方向和摄像机高度的近似估计是已知的，Zeisl等人。和Svarmet al.目前的地理测量离群值过滤方法来处理极大的离群值比率[6，37]。Toft等人通过结合已知的重力方向先验和语义信息推导出离群值过滤方法[38]。为了减少大型SfM模型的内存消耗，点云简化方法[7，8，22，25]通过公式化集合覆盖问题来选择代表性3D点的子集。然而，点的减少通常会降低定位的有效性和准确性。基于学习的方法通过训练CNN模型来回归相机姿势[18，19，40]或场景坐标[4]来隐式压缩SfM模型。然而，当面对大型SfM模型时，这些方法要么精度低[18，19]，要么遇到完全的训练失败[4]。Sattler等人将模型描述符转换为16M精细视觉词汇表，以减少内存消耗[29]。为了处理病态空间分布，他们改进了有效的内点计数算法 [14] 并将其应用于RANSAC验证阶段。相比之下，我们提出的质量感知的空间重构方法之前采用基于RANSAC的姿态估计，这使我们能够获得更多的非退化的姿态假设与相同数量的RANSAC迭代。2. 该方法图1显示了使用我们的方法的基于结构化的IBL流水线在本节中，我们将详细描述每个步骤。1034PPQ联系我们P{∈ P|联系我们Q{∈ Q|联系我们Qp∈QQ∈P|Q|| Q||P|（逐行滤波teral Hamm可见度滤波ing辅助摄影机姿势主焦距质量感知的空间重构几何滤波输入查询图像比值检验;高婷）塞安秤排名靠前的数据库映像明智地投票自信的比赛推断可能正确：VFC-I匹配最后一场比赛2D-3D匹配3DSfM模型离线Hamming嵌入最终相机姿势输出智能匹配池可视性和功能置信度（VFC）匹配可见性匹配池图1：使用我们的级联并行滤波方法的定位流水线概述从左到右示出了特征、可见性和几何方面的滤波步骤的级联在特征方面（绿色）和可见性方面（蓝色）过滤步骤中应用两个并行任务。一项具有严格标准的任务旨在促进后续步骤。另一个放宽标准的任务（红色箭头）旨在保留正确的匹配。2.1. 特征匹配过滤首先，我们引入特征匹配过滤步骤。这一步骤的目标有两个：1）通过拒绝明显错误的匹配来保留特征方面的匹配池，2）获得一组特征方面的置信匹配以便于随后的过滤步骤。数据预处理。设为SfM模型中的3D点。每个3D点与一组SIFT描述器相关联。一般或特定的视觉词汇应首先使用聚类技术进行训练。在离线阶段，通过最近邻搜索将3D点的描述符分配给其最近的视觉词。为在这一步中，我们应用了一个粗略过滤方案，使用较大的汉明距离阈值τ。因此，对于匹配m=q p，可以与查询描述符q形成匹配的3D点的集合可以被定义为：（q）=p h（s q，s p）τ.类似地，可以与3D点p形成匹配的查询描述符的集合可以表示为（p）=Qh（s q，s p）τ. 我们的核心思想是，如果一个匹配对应的汉明距离明显小于（q）和（p）中的平均汉明距离，则该匹配应该是独特的。为了评估查询图像的特征空间内的匹配，我们应用图像侧汉明比测试，如下所示：Σ为了提高效率，我们遵循[31]，将3D点的SIFT随后，每个整数平均描述符被控制。t（m）=j∈Q（p）h（sj，sp）h（s，s）|Q（p）|第二条第一款转换成一个紧凑的二进制签名包含B位使用汉明嵌入[15]。给定查询图像，提取一组SIFT描述符，表示为。对于每个描述符q，我们首先将其分配给其最接近的视觉单词。使用汉明嵌入，我们还获得了描述符q的二进制符号，表示为sq。对于每个3D点p，如果其相关联的整数平均描述符之一被量化为具有查询描述符q，2D-3D匹配可以被建立为m={qp}。m的汉明距离可以测量为h（sq，sp）。双侧汉明比检验。为了评估所得到的2D-3D匹配的独特性，以前的工作主要是其中一个（p）在（p）2用于计算平均值。年龄汉明距离，另一个是惩罚匹配其对应的3D点建立多个匹配。当匹配在查询图像的特征空间中明显模糊时，拒绝匹配是安全的。因此，我们拒绝匹配，如果它们对应的图像侧边比测试分数小于阈值λ。我们观察到，0的情况。三是在实践中做得好。类似地，要评估匹配的独特性在SfM模型的特征空间内，我们应用模型侧汉明比测试如下：Σh（ s，s）t′（ m）=j∈P（q）QJ .（二）通过使用固定的汉明距离将焦点集中在SfM模型侧[35]、高斯加权[17]或密度估计[3]。在查询图像侧的过滤上很少受到关注，其中相应的特征空间由于其稀疏性而更容易区分正确的匹配受[41]中的可变半径搜索的启发，我们提出了一种对查询图像和SfM模型进行操作的双边汉明比测试为了防止正确的匹配被拒绝h（s q，s p）|P（q）|由于项（q）可能随着使用不同大小的视觉词汇而显著变化，所以这里我们此外，大型SfM模型通常包含比图像多的描述符数量级这使得模型侧汉明比测试倾向于拒绝正确的匹配，1035FC≤MMM{1}|}MMM∈MMMMM=∈EV NFC\M。FCMFC联系我们|∈ M∈E}直接设置硬阈值。因此，我们只在其对应的查询描述符尚未出现时才应用t′（m）作为软评分函数来评估匹配。最终的双边汉明比检验可以定义如下：.t′（m），t（m）≥在D之前。此外，我们只考虑数据库图像，收到至少三个投票，以确保高相关性的查询图像。在累积了比赛分数T（ m）=0，否则。（三）对于数据库图像，我们采用词频权重，以便惩罚观察大量3D点的数据库图像。设Pd={p|（p，d）∈E}是3D的集合聚合高斯加权函数。为了为加强特色，我们建议高斯加权函数的适应版本[16]如下：由数据库图像D观察到的点、投票score可以定义如下：Σ低点：S（d）=m∈MdCE（m）.（六）σ2−（h）2|Pd|eσ、0的情况。5σ h≤τw（h）=4e−0。25，0<小时0。5σ0，否则，（四）较大的投票得分固有地指示对应的数据库图像与给定的查询图像更相关，因此更可能找到正确的匹配。我们首先其中h是匹配的汉明距离，σ通常是ally设置为二进制特征维度的四分之一[3]。通过聚合高斯加权函数，匹配m的分数因此可以计算如下：E（m）= T（m）w（h（m））。（五）总的来说，我们可以保留一个功能方面的匹配池，=m E（m）>0，其集中于保留正确匹配。我们还获得了一组智能置信（F C）匹配MFC={m|E（m）≥α}，α>0.2.2. 可见性智能匹配过滤给定匹配集和FC，我们描述了如何利用SfM模型中的可见性信息来进一步过滤错误匹配。在现阶段，我们特别要达到两个目的：1）拒绝错误的匹配以保留良好地保留正确匹配的可见性匹配池，2）选择大量的高质量匹配的集合以导出辅助相机姿态用于稍后的几何滤波。编码的可见性信息检索具有最大投票分数的排名前k的数据库图像d（k）。对于匹配m，如果在d（k）中的至少一个图像中观察到其对应的3D点，则将其选择到集合d（k）中。注意，只考虑可见性信息，并且我们在Md（k）中保留FC和非FC匹配。类似地，我们通过使用更大的k1来选择另一组匹配d（k1）来应用宽松的标准，其可以包含更多的正确匹配，但也可以包含更多的匹配。噪音比d（k）。d（k1）将用于可见性匹配池，稍后将在第2.3节中进行过滤。两步匹配选择。很自然我们可以将d（k）中的匹配定义为可视性置信（VC）匹配。由于特征模糊匹配的存在，VC匹配可能包含大部分的离群值，使得它们难以直接应用于相机姿态估计。我们提出了一个两步匹配选择方法来过滤VC匹配。在第一步骤中，我们从VC匹配中选择FC作为可视性和特征置信度（VFC）匹配，其可以定义如下：在SfM模型中，可以表示为二分可见性图G={P，D，E}。每个节点p∈ P表示3D点，并且每个节点d∈D表示数据库图像。d（k）VFC、M|m∈ Md（k）、∧E（m）≥α .（七）边（p，d）如果在数据库中观察到点p，则图像d. 直觉上，正确的匹配通常聚集在与给定查询图像相关的数据库图像。因此，匹配过滤的问题可以转化为寻找相关数据库图像的问题。与FC比赛。使用可见性图G，VFC比赛表现出很高的信心是正确的因为它们不仅在排名靠前的数据库图像中被观察到，而且在特征空间中也是高度独特的。主要的困难是如何区分正确的匹配从其余的可视性明智的，但不是特征明智的信心（VNFC）匹配，可以被定义为Md（k）为2D-3D匹配m={qParticipate}可以投票给每个Md（k）d（k）V FC观察点p的数据库图像。为了防止为了避免模糊匹配干扰投票过程，我们只使用FC匹配来投票数据库图像。受[29]的启发，我们还实施了一个局部唯一的投票方案。让D=M=QpMFC，（p，d）是投票给数据库映像d的FC匹配。我们强制数据库映像d的匹配可以添加到Md1036GG在图像投票过程中，我们利用二分可视图中的点-图像关系。现在，我们使用中的点-点关系来帮助我们过滤VNFC匹配。直观地，如果一个VNFC匹配的3D点表现出与排名靠前的数据库图像中的VFC匹配的3D点的强共视性关系，则其应被视为潜在正确的匹配。本1037MV FCd（k）d（k）MM∈V FCd（k）V NFCV NFCd（k）≥∪MBV FC我ωln（1+VFC）。（八）′M′M← M{m}∈M=算法1可视性匹配过滤要求：匹配基于特征匹配分数E（m），匹配分数阈值α2.3. 几何匹配过滤在本节中，我们将描述如何使用获得的VFC和VFC-I匹配以计算辅助摄像机要求：Md（k）←MV FC-I←，Md（k1）←姿势，这有助于对一曰： /* explore point-image 能见度 */第二章：使用等式（1）应用具有FC匹配的图像投票。63：Topk和k1数据库图像d（k）和d（k1）第四章：选择d（k1）中的所有匹配作为可见性匹配池的d（k1）5：单独的VFC匹配MVFC和VNFC匹配V NFC使用Eq. 7第六章：/* 探索点-点可见性 */7：对于所有d d（k）做8：计算VFC匹配的数量ωd9：计算VNFC匹配的数量ωd10：对于所有m∈ Md，11：使用等式11计算更新的匹配分数E（m）812：对于所有m∈MVNFCdo13：如果E（m）α，则d（k）d（k）14：V FC-I V FC -Id（k）可见性匹配池Md（k1）。质量感知空间重构。一共同估计相机姿态的方法是在RANSAC循环内使用姿态求解器。输入的2D-3D匹配的质量，即。内点比是鲁棒和有效的相机姿态估计的基本因素确保输入匹配具有均匀的空间分布也很重要，特别是当大多数输入匹配聚集在高度纹理化的区域中时，如图所示。二、正确的匹配，罕见的，但关键的，在纹理不良的地区是不太可能在RANSAC假设阶段进行采样。由于难以获得非退化姿态假设，这将显著降低定位精度我们的目标是通过从VFC和VFC-I匹配中进行选择来获得一组同时具有大的内点比率和均匀的空间分布的匹配为此，我们首先将查询图像分成4乘4大小相等的块箱，表示为B。 VFC和VFC-I比赛是15：返回MVFCd（k）V FC-I 和Md（k1）根据它们的图像坐标被量化为关联的2D查询描述符。为了使所选匹配的空间分布更加均匀，我们应用空间最后，我们进行第二步匹配选择以从VNFC匹配推断对于每个数据库图像d d（k），我们首先计算VFC匹配和VNFC匹配，我们称之为ωd，重新配置方法，以惩罚具有更多量化匹配的密集仓，并强调具有更少量化匹配的稀疏仓。令Nb是被量化到binb∈ B中的匹配的数量。设Rb为DV NFC 分别如果VFC比赛占据更大的孔-可以从binb中选择的匹配，空间重建，与一个数据库映像中的VNFC匹配项相比，每个VNFC匹配项都应该从可以通过如下计算Rb√NbVFC分别匹配。因此，对于VNFC匹配，我们计算其更新的匹配分数如下：Rb=Σi∈B你好（十）′E（ m）= E（ m）+Σα2d∈d（k）ωddV NFC为了实现有效的相机姿态估计，我们限制总体上最多可以选择N个匹配因此，对于每个二进制数b，匹配选择配额是Rb N。我们首先选择具有较大匹配分数的VFC匹配更新的匹配分数越大，对应的VNFC匹配越可能是正确的。使用先前的匹配分数阈值α，我们可以从VNFC匹配中选择一组潜在正确的匹配由于这些可能正确的匹配主要通过利用VFC匹配探索可见性信息来推断，因此我们将它们称为VFC-I匹配，并且它们可以定义如下：根据每个bin之后，如果存在仍未达到选择配额的箱，则我们从这些箱中选择VFC-I注意，VFC-I匹配表现出比VFC匹配差的质量，因为它们仅对可见性有信心为了确保所选比赛的高质量，VFC比赛应该是主导的。假设所选择的VFC匹配的数目是NVFC，我们限制至多βNVFC VFC-I、d（k）V FC−Id（k）′，M |m ∈ MVNFC<$E（m）≥α.（九）可以选择匹配。在本工作中，我们将β设置为0。三十三岁。具有主焦距的辅助相机姿态。然后，我们在质量感知空间因此，我们从d（k）中选择的匹配是VFC和VFC-I匹配的并集。算法1示出了可行性匹配滤波的过程。在一些实施例中，相机可以被重新配置以计算辅助相机姿态。作为给定查询图像的焦距未知的一般场景，我们可以采用4点姿态求解器ω1038M匹配集1第二组图2：匹配的均匀空间分布的影响。左上：具有242个以绿色示出的内点和64个以青色示出的离群点的原始匹配集（内点比率为0.79），匹配被聚类在山区中;左下角：通过应用空间重构从原始匹配集中进行选择，该选择具有 63 个内点和 31 个外点（内点比率为0.67），匹配更均匀地分布在图像上;右：通过运行1000个相机姿态估计试验，这两个匹配集的定位误差统计。黄色框：内部正确但稀疏的匹配在匹配集2中被强调。(P4P)[5]估计外部校准和焦距。在基于RANSAC的摄像机位姿估计中，估计的摄像机位姿通常是由最大数量的内点支持的位姿假设。然而，我们注意到，这种策略变得不可靠时，很少有正确的匹配存在。在这种情况下，共面退化样本可能导致估计的相机将远离场景，具有不现实的焦距。为了解决这个不可靠的问题，我们提出了一个统计验证计划，找到一个可靠的相机姿态。令ε是在运行一定数量的RANSAC+P4P循环之后姿态假设的内点的最大数量。我们存储前10个姿势假设，其对应的内点大于0。7ε。对于成功的定位，我们注意到大多数顶级假设具有数值接近的焦距值。这些焦距值，而不是具有最大数量的内点的焦距值，为我们提供了更稳定和可靠的相机姿态估计。受RANSAC变量[10]的启发，投票选择最佳参数值，我们建议选择其焦距为顶级姿势假设中的中值的姿势假设。我们将所选择的姿态假设定义为辅助相机姿态，并且将其对应的焦距定义为主焦距f。使用辅助相机姿势进行过滤。所计算的辅助相机姿态表现出足够的准确度。使用它来恢复潜在的正确匹配可以进一步提高定位精度。我们将辅助相机姿态应用于可见性匹配池d（k1）以实现几何滤波。我们定义了一个宽松的重新投影误差阈值θ，在拒绝潜在的校正的情况下表2：所用数据集的总结。数据集数据库3D查询图像点图像杜布罗夫尼克[22]6,0441.89M800[33]第三十三话20,8626.77M11,934亚琛昼夜[33]4,3281.65M922SF-0 [21，34]610,77330M442rect匹配。因此，如果相对于辅助相机姿态的重新投影误差低于θ，则匹配可以被选择为潜在正确匹配。在这项工作中，我们选择10像素的阈值。最终相机姿态估计。由辅助相机姿态选择的匹配展现高质量和高数量。此外，我们还得到了可靠的焦距值f基于这些，我们可以直接应用3点姿态解算器（P3P）[20]来计算最终的相机姿态，该3点姿态解算器比4点姿态解算器有效得多3. 实验3.1. 数据集和评估指标我们在表2中总结的四个基准数据集上评估了我们提出的方法。对于Dubrovnik数据集，我们采用了相关作品中使用的相同评价指标[6，22，23，30，31，37，41]。如果RANSAC之后的最佳相机姿态具有至少12个内点，则查询图像被认为是成功配准或定位的。Dubrovnik数据集上的定位精度可以被测量为估计的相机中心位置与查询图像的地面实况相机中心位置之间的距离。RobotCar Seasons [33]数据集是从安装在自动驾驶汽车上的摄像头捕获的图像中重建的。该数据集涵盖了广泛的条件变化，例如天气、季节、昼夜，这使得在该数据集上进行基于图像的定位具有挑战性。通过将所有49个SfM子模型与LIDAR点云对齐来获得查询图像的地面实况相机姿态。亚琛昼夜数据集的查询图像包括824张白天条件下的图像和98张夜间条件下的图像。对于RobotCar Sea-sons和Aachen Day-Night数据集，我们遵循[33]中的评估指标，并报告查询im-sons的百分比。年龄定位在Um和Vo内，来自地面实况相机姿势。在不同的本地化水平下进行评估，精度，我们使用[ 33 ]中定义的三个精度区间，如下所示：高精度（0. 25m，2◦），中等精度（0. 5m，5◦）和粗-精（5m，10◦）。对于大规模SF-0数据集[21]，我们使用评估包pro-参见[34]，其包含用于442个查询图像的参考相机姿态。1039表3：我们的方法和杜布罗夫尼克数据集上最先进的方法之间的比较。方法误差四分位数[m]局部化表4：与RobotCar Seasons和Aachen Day-Night数据集上的最先进的定位方法相比，在我们提出的方法的三个姿势准确度区间内定位的查询图像的百分比。红色和蓝色表示最佳和次佳方法，星号表示使用关于重力方向的知识3.2. 实现细节对于杜布罗夫尼克数据集，我们使用[31]训练的相同的 10k 通用视觉词汇。对于 RobotCar Seasons 和Aachen Day-Night数据集，我们在参考SfM模型中的1000个随机选择的数据库图像中找到的所有直立RootSIFT描述符上训练对于大规模SF-0数据集，我们在所有整数均值RootSIFT描述符上训练了50 k特定视觉词汇表。对于 Dubrovnik 和 RobotCar Seasons 数据集，我们设置B=64，τ=19和α=0。8、过滤器过滤器在可视性方面的过滤步骤中，我们设置 k=20 并且k1=100。在几何滤波步骤中，我们设置N=100。对于Aachen Day-Night数据集，我们发现在保持其他参数不变的情况下，设置τ=16和k1=50可以获得足够正确的2D-3D匹配。由于大尺度SF-0与上述三个中等尺度数据集之间的显著不同特征，我们相应地将B调整为128，τ调整为32，α为了计算辅助相机姿态和最终相机姿态，我们运行1000次RANSAC迭代。为了在杜布罗夫尼克数据集上进行公平比较，我们使用4像素的阈值进行最终姿态估计。为了在RobotCar Seasons和AachenDay-Night数据集上进行公平的比较所有实验都是在具有Intel i7-6800K CPU、3.40 GHz和32 GB RAM的PC上用单个CPU线程进行的。3.3. 与最新技术在杜布罗夫尼克数据集上，我们比较了三种无先验的最先进方法：高效全局匹配（EGM）[23]，主动搜索（AS）[31]和环形约束（TC）[6]。在其他三个数据集上，其中图像是在街道上捕获的，我们包括与使用重力方向的知识的方法进行比较。具体来说，我们与城市规模定位（CSL）[37]，摄像机姿势投票（CPV）[41]和语义匹配一致性（SMC）[38]进行了比较。对于兼容性，我们还比较了两种基于检索的方法，即DenseVLAD [2]和NetVLAD [1]。中等规模数据集的评价。表3显示了Dubrovnik数据集的比较。可以看出，我们的RobotCar季节m度整天整晚0.25/ 0.5 /5.010年2月5日0.25/ 0.5 /5.010年2月5日作为35.6/ 67.9 /90.40.9/ 2.1 /4.3DenseVLAD7.7 1999年1月31日至1999年3月31日1.0/ 4.5 /22.7NetVLAD6.4 1996年12月26日至91日，0.4/ 2.3 /16.0CSL*45.3/ 73.5 /90.10.6/ 2.6 /7.2SMC*50.6/79.8/95.17.6/21.5/45.4我们的方法48.0/78.0/94.23.4/9.5/17.0亚琛昼夜m度天晚上0.25/ 0.5 /5.010年2月5日0.25/ 0.5 /5.010年2月5日作为53.7/83.7/19.4/ 30.6 /43.9DenseVLAD0.0/ 0.1 /22.80.0/ 2.0 /14.3NetVLAD0.0/ 0.2 /18.90.0/ 2.0 /12.2CSL*52.3/ 80.0 /94.324.5/33.7/49.0SMC*--我们的方法76.7/88.6/95.825.5/38.8/54.1方法在定位精度方面优于现有技术的方法与此同时，我们保持了非常有竞争力的效率，即，成功本地化查询图像的数量表4显示了在RobotCar Seasons和AachenDay-Night数据集上，与最先进的定位方法相比，我们提出的方法在三个姿势精度区间内定位的查询图像的百分比。我们的方法在RobotCar Seasons数据集上实现了第二好的本地化性能。有趣的是，我们的方法显着优于CSL，需要有关重力方向的先验知识。SMC依赖于神经网络进行语义分割。请注意，SMC中使用的训练数据包括来自原始RobotCar数据集的几个手动标记的图像[26]。在亚琛昼夜数据集上，我们的方法在大多数情况下实现了最佳的定位性能。内存消耗。我们还调查了我们的方法和其他方法所需的理论消耗。在不失一般性的情况下，我们只与AS进行比较，AS是最先进的基于结构的定位方法中最具内存效率的。表5显示了详细的比较。与AS相比，我们的方法需要显著降低的内存消耗。内存减少的原因是，我们的方法只需要存储一个紧凑的二进制签名（8字节时，B=64）每个视觉字为每个3D点。当AS需要存储百分之二十五百分之五十百分之七十五图像EGM0.240.702.67794TC0.221.072.99800作为0.401.405.307961040正确本地化查询[%]表5：我们的方法和其他最先进的方法之间的内存消耗（以GB为单位）比较表6：在杜布罗夫尼克数据集上进行的消融研究。设置误差分位[m]局部百分之二十五百分之五十百分之七十五图像基线投票0.250.692.19778不含QSR0.260.742.53793不含PFL0.310.802.70794100我们的完整方法 0.220.642.1679480Disloc（NN）Disloc（SR）Disloc（SR−SfM）DenseVLAD（NN）DenseVLAD（SR）40DenseVLAD（SR−SfM）NetVLAD（NN）NetVLAD（SR）NetVLAD（SR−SfM）20个Hyperpoints（3D）CPV w/ GPS（3D）CPV w/o GPS（3D）我们的方法（3D）00 5 10 15 20 25 30距离阈值[米]图3：SF-0数据集上的实验结果。每个3D点的每个视觉字的SIFT描述符的整数平均值（128字节）。总的来说，我们的方法是内存效率和实现非常有竞争力的本地化性能的中等规模的数据集。大规模SF-0的评价。图3显示了SF-0数据集的结果。我们主要比较了两种基于结构的方法： CPV 和Hyperpoints [29]。注意，图1B中的SR-SfM方案。3通常需要几分钟来处理一个查询图像。与CPV使用完整的描述符相比，我们的方法实现了竞争力的结果为5m或更小的阈值。然而，我们的方法并没有表现得比Hyperpoints更好，其中使用了精细的词汇表，更适合于大规模的位置识别问题。此外，使用SF-0中可用的GPS标签将有益于弥补我们的方法的缺点，粗级定位（5 × 30米）。3.4. 消融研究我们对杜布罗夫尼克数据集进行了消融研究，以评估我们方法中关键组件的影响。两步匹配选择方法中的匹配分数阈值与双边汉明比检验密切相关为了简单起见，我们可以一起评估这两个组件。为此，我们首先实现了一个基线投票方法，过滤错误的匹配建立从二进制签名。在基线实现中，匹配由等式（1）评估。4.第一章然后，我们从排名前20的数据库图像中选择所有匹配以用于计算辅助相机姿态，并且我们从排名前100的数据库图像中选择所有匹配以获得可行性匹配池。我们方法中的其他成分保持不变。我们在等式中使用多个汉明距离阈值测试。4，基线实现在将阈值设置为11时实现最佳如表6所示，我们的方法可以比基线实现多定位16个查询图像。这表明双边汉明比检验与两步匹配选择法相结合有利于更好地进行滤波。我们还进行了一个实验，以调查的影响，质量感知的空间重构（QSR）方法和主焦距估计（PFL）在第节2.3我们首先禁用QSR，并选择与启用QSR时相同数量的VFC和VFC-I匹配。请注意，QSR中禁用的匹配项将选择具有最大匹配分数的匹配项。如表6所示，QSR显著提高了定位精度。这指示在基于RANSAC的姿态估计之前获得均匀分布的匹配的集合为了检验PFL的优点，我们在计算辅助摄像机位姿时，使用传统的RANSAC方案进行了实验。最佳相机姿态是具有最大数量的内点的姿态我们可以看到，PFL也显着提高了定位精度。这表明使用PFL选择的辅助相机姿态对于应用几何匹配滤波更鲁棒。4. 结论本文提出了一种级联并行滤波的图像定位方法。我们的方法包含一个级联的功能，可见性和基于几何的过滤器，其中两个并行的标准被应用于保留正确的匹配，并获得高质量的匹配。通过质量感知的空间重构和主焦距方法提高了定位精度。对真实世界数据集的全面实验证明了我们方法的好处。可以通过引入基于CNN的特征描述符[11]或分层定位方案[27]来实现进一步的改进鸣谢：本研究由新加坡教育部Tier-2基金MOE 2016-T2-2- 057（S）和新加坡总理办公室国家研究基金会在其新加坡国际研究中心资助计划下支持。方法内存消耗杜布罗夫尼克机器人汽车亚琛作为0.752.720.76我们的方法0.140.520.14601041引用[1] ReljaArandjelovic´ ， PetrGronat ， AkihikoTorii ，TomasPa-jdla，and Josef Sivic.Netvlad：用于弱监督位置识别的CNN架构。在Proc. CVPR，2016中。1、7[2] Relja Arandjelovic和Andrew Zisserman关于Vlad在Proc.CVPR，2013中。1、7[3] Relja Arandjelovic和Andrew Zisserman脱位：用于位置识别的可缩放描述符独特性。在Proc.ACCV，2014中。三、四[4] Eric Brachmann和Carsten Rother。学习越少越好-通过3d表面回归的6d相机定位在procCVPR，2018年。2[5] Martin Bujnak、Zuzana Kukelova和Tomas Pajdla。未知焦距相机p4p问题的一般解法。在Proc.CVPR，2008年。1、6[6] Federico Camposeco，Torsten Sattler，Andrea Cohen，An- dreas Geiger，and Marc Pollefeys.高离群值比率下两点定位在procCVPR，2017年。一、二、六、七[7] 宋曹和诺亚·斯内弗利。从运动模型中提取结构的最小场景描述。在Proc. CVPR，2014。2[8] Wentao Cheng ， Weisi Lin ， Xinfeng Zhang ， MichaelGoesele，and Ming-Ting Sun.一个数据驱动的点云简化框架，用于城市规模的基于图像的本地化。 IEEETransactions on Image Processing，26（1）：262-275，2017。2[9] Siddharth Choudhary和PJ Narayanan。从sfm数据集和应用程序可见性概率结构。在procECCV，2012年。2[10] Ondˇrej Chum和Jiˇr´ı Matas。最佳随机化搜索。IEEETransactionsonPatternAnalysisandMachineIntelligence，30（8）：1472-1482，2008. 6[11] Mihai Dusmanu、Ignacio Rocco、Tomas Pajdla、MarcPolle-feys、Josef Sivic、Akihiko Torii和Torsten Sattler。D2-net：一个可训练的cnn，用于联合检测和描述局部特征。在Proc. CVPR，2019中。8[12] 马丁·菲施勒。随机抽样一致性：模型拟合的范例及其在图像分析和自动制图中的应用。Commun. ACM，24（6）：381- 395，1981. 1[13] Michael Goesele，Noah Snavely，Brian Curless，HuguesHoppe，and Steven M Seitz.多视图立体声为社区照片收藏。载于《国际刑事法院判例汇编》，2007年。1[14] Arnold Irschara ， Christopher Zach ， J-M Frahm ， andHorst Bischof.从运动恢复结构点云到快速位置识别。在Proc.CVPR，2009中。2[15] 她的妻子，马提斯·杜兹，还有科迪莉亚·施密德。大规模图像搜索中的汉明嵌入和弱几何一致性。在Proc.ECCV，2008年。第1、3条[16] 她的妻子，马提斯·杜兹，还有科迪莉亚·施密德。论视觉元素的突发性。在Proc.CVPR，2009中。1、4[18] 亚历克斯·肯德尔和罗伯托·西波拉使用深度学习进行相机姿态回归的几何

下载后可阅读完整内容，剩余1页未读，立即下载