大规模3D模型在视觉定位中的必要性探讨

121 浏览量更新于2023-10-15 收藏 1.47MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1637大规模3D模型对于精确的视觉定位真的有必要吗Torsten Sattler1Akihiko Torii2Josef Sivic3，5Marc Pollefeys1，4Hajime Taira2Masatoshi Okutomi2TomasPajdla51ETHZürich 计算机科学系2Tok yo技术学院3Inria4微软，雷德蒙德5捷克布拉格技术大学摘要精确的视觉定位是自主导航的关键技术。基于3D结构的方法采用场景的3D模型来非常准确地估计相机的全6D0F姿态。然而，构建（和扩展）大规模3D模型仍然是一个重大挑战。相比之下，基于2D图像检索的方法仅需要地理标记图像的数据库，这是微不足道的大比例尺三维模型地理标记图像查询图像本地3D模型来建造和维护。它们通常被认为是不准确的，因为它们仅近似于相机的位置。然而，理论上，当检索到足够的相关数据库图像时，可以恢复精确的相机姿态。在本文中，我们通过实验证明了大规模的3D模型对于精确的视觉定位并不是严格必要的。我们为一个大型且具有挑战性的城市数据集创建参考姿势。使用这些姿势，我们表明，结合基于图像的方法与局部重建的结果在一个姿态的准确性类似的国家的最先进的基于结构的方法。我们的研究结果表明，我们可能要重新考虑目前的方法，准确的大规模定位。1. 介绍确定照片拍摄的位置是自动驾驶汽车和无人机[28]、机器人[30]、移动增强现实[31，32]和运动恢复结构（SfM）[2，14，42，43]等自动驾驶车辆另外，解决视觉定位问题使得系统能够确定照片的内容。这可以用于开发有趣的新应用，例如，虚拟旅游[46]和照片的自动注释[16，52]。目前，解决视觉定位问题的方法分为两类（c.f.图1和Tab.①的人。视觉位置识别方法[6，12，17，37，WILL O W项目，法国高等师范学校信息系统，ENS/INRIA/CNRSUMR8548，PSLResearchUniversity.图1.大规模视觉定位的最新技术。基于2D图像的方法（底部）使用图像检索并返回最相关的数据库图像的姿态。基于3D结构的方法（顶部）使用针对3D模型的2D-3D匹配来进行相机姿态估计。这两种方法在很大程度上是相互独立开发的，以前从未进行过适当的比较。48，49]将定位问题转换为图像检索，即，实例级识别、任务和将场景表示为地理标记图像数据库给定查询照片，他们采用纯粹在图像级别上操作的基于2D图像的定位然后，最相关的检索照片的地理标签通常用作对进行查询的位置的近似基于图像的定位方法[13，19，26，36，38，57]将定位问题视为相机切除任务。它们通过3D模型表示场景，图像描述符连接到3D点，这些点从SfM或通过将局部特征/补丁连接到3D点云[7，44]获得。然后，基于3D结构的定位算法使用这些描述符来建立一组2D-3D匹配。反过来，这些匹配被用来恢复完整的6DOF相机姿态，即，查询图像的位置和方向[18，25]。一个常见的看法是，基于2D图像的方法可以是基于3D结构的方法的一部分，以确定场景的哪些部分在查询中可能是可见的[9，19，36，40]。由于仅近似查询的真实摄像机位置，基于PADE2D的技术被认为不适合于准确的视觉定位对比基于2D和3D的定位方法，仅在位置识别性能方面进行比较[36，？？1638二维图像定位基于三维结构的定位场景表现地理标记图像具有关联图像描述符的方法图像检索描述符匹配后的姿态估计输出与查询相关的数据库图像集，粗位置估计查询图像（位置和方向）优势易于维护/更新数据库直接提供姿势估计缺点需要额外的后处理来获得6DOF姿势需要构建一致的3D模型表1.视觉定位方法的系统级总结37，57]。然而，这忽略了这样一个事实，即如果可以检索两个或更多个相关数据库图像，则可以计算出更准确的位置以及相机方向[55，58]。这自然会导致基于2D图像的定位方法是否可以实现与基于结构的方法相同的姿态精度的问题由于这两种方法表示场景的方式，这是一个引人注目的问题：特别是对于大规模场景，构建和维护基于结构的技术所需的3D模型同时，基于图像的技术仅需要地理标记图像的数据库，其易于生成和维护。捐款. 在本文中，我们想回答大规模的3D模型是否实际上是必要的准确的视觉定位或是否足够精确的姿态估计已经可以从地理标记的图像的数据库中获得。我们的工作做出了以下贡献：i）我们为旧金山地标数据集的查询图像生成参考相机姿态注释[12]，从而产生具有此类信息的第一个城市规模数据集。我们将参考姿势与复制我们的结果或使用我们的数据集进行进一步研究所需的所有数据和评估脚本一起公开1。ii）我们使用这个新的数据集对基于2D和3D的定位方法进行第一次比较，以了解它们的姿态精度。为此，我们将基于2D图像的方法与基于SfM的后处理步骤相结合，以进行姿态估计。我们的研究结果清楚地表明，基于2D图像的方法可以实现类似的，甚至更好的位置精度比基于结构的方法。因此，我们的论文驳斥了纯粹基于图像的方法是不准确的。iii）我们证明了先前使用的通过地标识别任务评估定位方法的策略此外，我们表明，在较小的地标数据集上获得的姿态精度结果不会转化为大规模的本地化。因此，我们的新基准填补了文献中的一个关键空白，并将有助于推动对准确和可扩展的视觉定位的研究2. 相关工作基于图像的方法将本地化建模为图像检索问题。他们采用标准的检索技术1http://www.ok.sc.e.titech.ac.jp/目录/project/vlocalization/例如具有倒排文件的词袋（BoW）表示[45]、快速空间验证[34]或更紧凑的表示，例如VLAD或FischerVectors [5，21]。可以通过仅使用每个位置的信息特征来构建更具区分性的BoW表示[41]。类似地，检测和去除混淆特征[24]，例如，结构出现在多个地方，或降低其影响力[49]也会提高性能。Arandjelovic ′ Zisserman考虑描述器空间密度来自动加权图像特征的影响[6]。因此，重复结构上的特征对图像之间的相似性分数的影响小于具有独特局部外观的特征。视觉定位中的一个主要挑战是处理照明的大变化，在白天和黑夜之间。为此，Toriiet al.通过使用与街景图像相关的深度图来扭曲原始图像，从新的视点创建合成视图[48]。将这些图像添加到数据库减轻了特征检测器处理视点和照明变化的负担最近，卷积神经网络（CNN）已被用于直接学习适用于位置识别的紧凑图像描述符[3，35]。另一种方法是将视觉定位建模为分类任务[10，17，51]。这样的方法将场景细分为各个地方，然后学习分类器，基于BoW表示[10，17]或使用CNN [51]来区分属于不同地方的图像基于3D结构的定位基于结构的局部化方法假设场景由3D模型表示。每个3D点与一个或多个局部描述符相关联。因此，基于结构的方法经由描述符匹配建立查询图像中的特征与3D点之间的2D-3D匹配。在第二阶段中，可以通过在RANSAC [15，39]循环内采用PnP求解器[8，18，25]描述符匹配很快成为存在定位管道和三种（部分正交的）方法来加速该阶段：i）优先搜索策略[13，27，38]提前终止对应搜索，ii）模型压缩方案仅使用所有3D点的子集[11，27]，iii）基于检索的方法仅将匹配限制为排名最高的数据库图像中可见的3D点[11，19，36，40]。Lowe1639通常用于拒绝模糊匹配。更大的3D模型会导致更密集的描述符空间，迫使比率测试将更多正确的匹配拒绝为模糊的[26]。为了处理由放松测试产生的较高离群值比率，大规模的基于结构的局部化方法使用共同可见性信息[36，38]或高级姿态估计方法[26，47，57]。最近提出的基于CNN的方法不是从2D- 3D匹配中明确估计相机姿态，而是直接学习从图像中回归6DOF姿态[22，23，50]。然而，如[50]和我们自己的实验结果所示，这些方法确实（尚未）实现与基于3D结构的算法相同的定位3. 重游旧金山在本节中，我们首先通过回顾当前使用的评估协议来激励我们的新姿势数据集。接下来，我们回顾旧金山数据集，然后详细介绍如何为其一些查询图像生成参考姿势。目前的评估协议的缺点。基于3D结构的定位方法通常通过计数多少查询图像具有至少X个内点的估计姿态来评估，其中X是某个阈值。这是基于对较小数据集的观察，即错误的姿态估计很少得到许多内点的支持然而，这种观察并不转移到大规模数据集[36，37]。重复的结构和纯粹的大小增加了找到更多几何上一致的错误匹配的机会[36，57]。因此，简单地对具有至少X个内点的查询图像进行计数会高估基于结构的方法的性能因此，还需要考虑姿态精度。通常用于评估基于结构的方法Dubrovnik [27]和ArtsQuad [14]的定位准确性的数据集都主要描述具有显著纹理的场景。因此，通常可以找到许多匹配，这有助于姿势准确性。这样的场景在城市环境中变得不那么频繁，这是由于反射或无纹理表面的流行。这就需要评估更复杂数据集的姿态精度。基于2D图像的定位主要在地标或地点识别的背景下进行评估[3，6，12，37，49，49，55，56]。对于地标识别，目标是检索至少一个描绘与查询照片相同的地标或场景元素的数据库图像[12]。视觉是长距离传感器，因此，相关数据库图像可能在距离查询图像的位置数十米或数百米处拍摄时描绘相同的地标。因此，这样的图像的地理标签不一定是对查询的位置尽管如此，通过摄像机姿态估计来精确地确定该位置是可能的（参见图11）。秒4）.的贡献本文的目的是评估地标识别性能在多大程度上转化为精确定位。在地点识别方面，基于图像的定位方法的任务是找到其地理标签在查询的GPS位置的一定半径内的数据库图像。 [49，55]。事实上，视觉是一个长距离的传感器再次造成问题，在这种设置，因为它可以是困难的以区分描绘接近或远离查询位置拍摄的场景的相同部分的数据库图像[37]。此外，与查询图像相关联的GPS位置可能相当不准确，特别是在城市环境中[12]，需要使用数十米甚至数百米的高旧金山数据集。公开可用的旧金山（SF）数据集最初在[12]中提出，由1，062，468张从汽车顶部拍摄的街景图像和803张用手机拍摄的查询图像组成。所有的照片都描绘了旧金山市中心（见图中的灰色点）。2用于数据库图像的分布）。每个数据库图像都与精确的GPS位置和建筑物ID相关联，通过将城市的3D模型反向投影到图像中生成[12]。类似地，大多数查询图像具有GPS位置和其中可见的建筑物的ID列表。不幸的是，查询照片的GPS坐标不是非常精确，因此不能用作测量定位精度的地面实况。存在两个旧金山模型的SfM重建[26]。SF-0版本的数据集包含约3000万个3D点，与SIFT描述符[29]相关，从610，773张图像重建为了创建SF-1变体，对数据库图像进行直方图均衡化在提取垂直SIFT特征之前，得到一个包含从790409张图像重建的大约7500万个点的对于这两个3D模型，每个3D点可以与来自数据库照片的建筑物ID相关联，该建筑物ID是从数据库照片重建的。因此，SF数据集通常用于在地标识别的背景下评估和比较基于结构和图像的局部化方法。3.1. 生成参考姿势在没有任何精确的地理标签的情况下，由于多路径效应，在市区难以获得精确的地理标签，获得大规模地面实况姿态的最简单方法是使用SfM算法。我们遵循这种方法。然而，不是将查询图像添加到现有模型中，这将需要我们解决基于视觉的定位问题，而是围绕查询生成局部重建，随后进行地理配准。虽然我们非常小心地确保姿势估计的准确性，但其中仍然存在一定的（难以量化的）误差因此，我们使用术语1640在下文中，我们详细介绍了我们的过程的步骤。生成局部重建。第一步是从查询图像周围的数据库图像生成SfM重建不幸的是，SF数据集提供的查询图像的GPS坐标不准确方法\一致性试验绝对相对两COLMAP195258125VisualSFM139263134COLMAP VisualSFM7611045表2.统计重建的SfM姿态与我们的手动注释的一致性。误差可达数百米。因此，我们通过利用容易获得的建筑物ID来确定相关的数据库图像对于每个查询，我们对所有具有相关建筑ID的数据库照片进行特征匹配，然后进行近似几何验证[34]。我们视觉检查具有最大数量的内点的20个图像，只要它们具有至少5个内点，并且选择视觉上与查询图像最相似的照片。使用该数据库照片的准确地理标记，我们在查询图像和所选照片的50米范围内的数据库照片上运行为了冗余，我们使用COLMAP [42]和VisualSFM [53，54]来获得两个SfM重建。地理配准。为了在每个局部重建中获得相机的全局位置和取向4.1854.1844.1834.1824.1814.18×106PCI-UTM查询5.5 5.51 5.52 5.53 5.54[米]×105我们将局部模型坐标系转换为UTM坐标我们首先将数据库图像的GPS标签转换为UTM，其中每个相机的高度设置为零。然后，我们估计模型中的相机位置和它们的UTM坐标之间的相似性变换验证除了不能在模型中配准查询图像之外，SfM重建可能以多种方式提供对查询的相机姿态的不准确估计例如，可能只找到很少的匹配，或者对应关系可能处于不稳定的配置中，所有匹配都位于查询图像的小区域中因此，我们通过一组一致性检查来验证注册过程给定上面选择的数据库图像D和也配准到UTM坐标的SF-0模型，我们为查询图像Q生成一组2D-3D匹配。从SF-0模型中，我们获得了在D中可见的3D点的列表。我们将这些3D点投影到D中以获得2D像素位置，我们使用该位置手动注释相应的图像。查询图像中的年龄位置。这导致一组2D-3D匹配，并且作为副产物，还产生Q和D之间的一组2D-2D对应。为了获得额外的对应关系，我们手动注释20到50个2D-2D匹配D和Q。我们使用所有这些2D- 2D匹配来计算两个图像之间的相对姿态，并使用2D-3D匹配来确定比例的翻译。然后使用光束法平差[1]来细化UTM坐标中的所得姿态。理想情况下，该过程应该导致Q的相机姿态的精确估计然而，很难获得准确的手动和-标记的像素匹配，导致姿势上的一些不准确。因此，我们使用它的绝对相机姿势的一致性检查如果在10以内，则检查接受SfM姿势图2. 旧金山数据集与参考姿势查询图片。我们提供了查询图像（蓝色）的参考姿态，可用作旧金山数据集上大规模本地化基准的基础事实米的位置和从手动匹配获得的姿势的15度的视角内。第二一致性检查采用D和Q之间的手动标注的2D-2D匹配。从两个SfM模型中的每一个，我们提取描述两个图像之间的相对姿态的基本矩阵E。对于给定的2D-2D匹配（xQ，xD），我们测量由E和E−1定义的对极线的像素距离。E是如果两个误差均小于3个像素，则认为与匹配一致。如果E与手动注释的对应中的至少10个一致，则我们认为通过SfM获得的姿态与该相对对于每个查询图像，通过COLMAP或如果VisualSFM通过两个一致性检查之一，则它被接受为参考姿势如果来自COLMAP和VisualSFM的姿势都通过该测试，则我们选择由COLMAP估计的姿势。统计我们为SF数据集的803张查询图像中的684张创建了手动注释。选项卡. 2显示了关于使用COLMAP或VisualSFM获得的SfM姿势的数量通过两个一致性检查的统计信息。基于结果，我们获得了442个参考姿势，与我们的手动注释一致。4. 基于二维图像的定位引言提出了基于2D图像的定位方法是否可以实现与基于结构的方法相同的姿态精度的问题。换句话说我们1641感兴趣的是确定底层3D表示对于高定位精度是否是必要的在下文中，我们首先回顾了我们选择用于评估的基于2D图像的方法，然后解释我们如何使用不同的策略来获得它们的相机姿势。我们评估了三种基于2D图像的方法的性能，这些方法在解决图像重建的方式上有所不同基于2D的方法固有的trieval问题。Disloc [6，37]. Disloc是一种基于BoW范式和Hamming嵌入的最先进方法[20]。在检索管道的投票阶段，Disloc考虑了Hamming空间的密度，以减少重复结构上发现的特征的权重，同时强调独特特征的影响。我们将Disloc与geomet结合使用- 最近在[37]中提出的Ric突发性加权方案。给定Disloc找到的经过空间验证的数据库图像列表，加权策略根据其地理标签将这些照片聚类到位置中。它确定了作为来自不同地方的数据库照片的内点的查询图像，即，在重复结构上发现的特征最后，该策略执行第二次重新排序步骤，其中这些特征的影响较小，这已被证明可以提高整体性能。[48]第四十八话Disloc基于BoW范例，因此需要在倒排文件中为每个图像特征存储一个条目这很快会导致大规模场景（如旧金山）需要大量内存。DenseVLAD描述符[48]是基于紧凑图像表示的最先进定位算法的示例。每个图像由单个VLAD向量表示[5，21]，从而产生更紧凑的数据库表示。DenseVLAD描述符是通过聚合RootSIFT [4]描述符来构建的，这些描述符在每个图像中的规则网格上密集采样因此，该方法放弃了特征检测阶段，该阶段已被证明可以产生更鲁棒的检索结果，特别是在存在强烈照明变化的情况下[48]。NetVLAD [3].DenseVLAD描述符基于手工制作的RootSIFT描述符。相反，NetVLAD表示使用卷积神经网络来学习聚合到VLAD描述符中的描述符。使用弱监督的三元组丢失以端到端的方式训练该表示已经被示出为相对于DenseVLAD和其他紧凑的图像描述符提高位置识别性能4.1. 基于二维方法的位姿估计最近邻（NN）。传统上，大多数基于2D图像的定位方法通过最相关的数据库图像的姿态来近似查询图像的姿态。年龄，即，具有最相似BoW或VLAD描述符的数据库照片。我们使用这种策略作为基线，并将其称为最近邻姿势（NN）。空间重新排序（SR）。在空间验证之后对检索到的数据库图像进行重新排序可以提高图像检索性能。作为第二基线，我们使用验证后的最佳匹配数据库图像的姿态，并将此策略称为空间重新排序姿态（SR）。我们对检索到的前200张图像进行空间验证[34]对于Disloc，我们利用在检索过程中计算的匹配，同时我们提取和匹配两种基于VLAD的方法的RootSIFT特征。对于Disloc，我们基于几何突发性分数重新排序，同时基于DenseVLAD和NetVLAD的内点数量重新排序。SfM on the fly（SfM）。前两种姿态估计策略只考虑排名最高的数据库图像。他们忽略了每个基于2D的方法通常检索描绘同一地点的多个数据库图像此外，数据库照片的地理标签还可以用于识别更大的潜在相关图像集。受[43]的启发，他们通过重复查询图像数据库从单个照片生成SfM模型，我们使用小规模SfM来获得查询图像周围的局部3D模型。然后可以通过基于数据库图像的地理标签将SfM重建配准到UTM坐标中来将局部模型中的姿态转换为全局姿态。对于DenseVLAD和NetVLAD，我们从前200个检索到的图像中生成一个小的子集，这些图像位于通过NN或SR策略获得的姿势的25米范围内。对于具有几何突发性的Disloc，我们利用它计算的位置聚类[37]。我们使用那些来自同一个地方的顶部检索的照片的前200名检索的图像。我们使用VisualSFM对选定的照片，以获得三维重建。如果VisualSFM无法恢复查询相机的姿态，当重建失败时，我们求助于NN或SR姿态。5. 基于3D结构的定位本节回顾了本文中使用的两种基于3D结构的定位方法，并证明了它们的选择。摄影机姿势投票（CPV）[57]。在[47]之后，CPV假设相机的局部坐标系和3D模型的全局坐标系中的重力方向与相机在地面上方的高度及其内在校准的粗略先验一起已知。在这种情况下，知道凸轮的高度era直接定义了相机到匹配3D点p的距离dist（p），最大为±ε，其中ε是一个小距离，模拟了点可能不会重新投影的事实。完美地融入到图像中。因此，相机1642μ m半径dist（p）+p周围的ε。如[57]所示，固定摄像机的最终2方向角也固定了摄像机在圆形带内的位置。最后一个观察直接导致来自[57]的相机姿势投票方案：在一组离散相机高度（由粗略高度先验定义）和一组离散相机方向上迭代，每个2D-3D匹配投票用于相机需要包含的2D区域3对接收最多投票的单元进行投票的匹配定义了一组推定的内点，并且单元的位置与对应的高度和取向一起提供了对相机姿态的近似。然后，通过在这些匹配上应用具有3点姿态（P3P）求解器的RANSAC来细化这种近似如果可用的话，GPS先验可以用于进一步限制合理小区的集合，从而限制可能的相机位置。CPV被选择用于我们的评估，因为[57]在基于结构的定位方法中，它报告了杜布罗夫尼克数据集[27]上最先进的姿态准确性和旧金山的最先进的识别性能[36]第三十六话HP方法搜索局部唯一匹配，而不是使用Lowe比率检验（其在描述符相似性方面强制匹配的全局唯一性）[ 36 ]。它使用具有16M单词的精细视觉词汇表[33]来定义查询图像特征f的描述符d（f）与描述符基于排序函数的3D点p的d（p）：r（p，f）=i如果d（p）落入d（f）的第i个最接近的视觉字。如果d（p）不属于d（f）的k = 7个最近字中的任何一个，则点一个2D- 3D匹配（f，p）是局部唯一的，如果不存在与p共同可见的其他3D点p0，并且r（p0，f）≤ r（p，f）。如果两个点同时被观察，则它们是共同可见的。用于重建模型的数据库图像之一。每个局部唯一的2D-3D匹配（f，p）对观察到p的所有数据库图像进行投票，并且具有最多投票的前N个图像被考虑用于姿态估计。假设D是这些数据库图像之一。其3D点在D中可见的所有匹配点以及在一个附近图像中可见的所有匹配点用于基于RANSAC的姿态估计。估计如果两个图像在SfM模型中共享至少一个共同观察的3D点，则认为它们是附近考虑D之外的点增加了获得更多正确匹配的机会。将附加匹配限制到附近的相机避免考虑不相关的匹配，因此避免RANSAC中的高离群值比率。在为每个检索到的数据库图像计算相机姿态之后，选择具有最高有效内点计数的姿态。与姿势的内点数量不同，有效内点计数考虑了内点数量及其空间分布[19]。2其他的角度已经通过知道重力方向而固定。3区域说明了姿态参数的离散化。选择HP是因为它代表了基于2D图像和基于3D结构的定位方法之间的混合。此外，HP还优于采用检索技术的其他基于结构的方法[11，19，40]。6. 实验本节使用我们的新参考姿势来比较基于2D图像和3D结构的方法的定位精度。在描述了实验装置和评估协议后，我们定量地评估了不同的方法。然后我们讨论结果及其相关性。实验装置。对于Disloc [6，37]、DenseVLAD [48]和NetVLAD [3]，我们使用作者提供的源代码进行评估。Disloc使用一个20万字的视觉词汇表，在所有数据库图像的子集上训练。DenseVLAD使用的字典有128个单词，也是在SF数据集上训练的，而NetVLAD使用64个单词。不幸的是，NetVLAD没有提供在旧金山进行微调的版本。相反，我们使用在30k数据集上训练的变体[3]。DenseVLAD和NetVLAD都生成4，096个维度描述符。对于 Hyperpoints （ HP ） [36] 和 Camera PoseVoting（CPV）[57]，我们使用SF-0数据集[26]上估计的姿势。评价指标。我们主要关注的是通过不同方法实现的姿态精度。我们测量了UTM坐标中的位置误差，因为用于构建参考位姿和SF-0重建的局部模型被配准到该坐标系。然而，SF数据集仅提供GPS坐标，而不提供相机的高度。因此，在这些配准中存在一个自由度，即由GPS坐标定义的平面上方的高度。相应地，我们测量2D坐标中的位置误差，并评估在一定的距离阈值内，不同方法可以正确定位多少图像。我们的参考姿态提供了查询图像的位置和方向估计然而，我们在基于图像的定位中遵循通用协议，并且仅评估位置精度[13，26，27，38，57]。定量评价。我们首先评估通过不同的基于2D图像的方法实现的位置精度。我们比较了使用最佳匹配数据库图像检索后（NN）的姿态，空间验证后（SR）的最佳匹配图像的姿态，并在本地SfM重建（SfM）后获得的准确性。如果不能从局部模型估计姿态，则后者诉诸NN（NN-SfM）和SR（SR-SfM）图3示出了基于BoW的方法（a）和基于VLAD的方法（b）的结果。空间重新排序（SR）增加了排序最高的数据库图像与查询相关的机会，即，所检索的数据库照片的位置接近查询的参考姿态1643Disloc（NN）Disloc（SR）Disloc（SR-SfM）DenseVLAD（NN）DenseVLAD（SR）DenseVLAD（SR-SfM）NetVLAD（NN）NetVLAD（SR）NetVLAD正确本地化查询[%]正确本地化查询[%]10010010080 808060 606040 404020 202000 5 10 15 20 2530距离阈值[米]00 5 10 15 20 2530距离阈值[米]00 5 10 15 20 25 30距离阈值[米]（a）二维（BoW）（b）二维（VLAD）（c）二维与3D图3. 评估基于BoW的方法（a）、基于VLAD的方法（b）以及比较基于2D和3D的方法（c）的位置定位精度。每个图显示了在一定距离（X轴）内正确定位的查询（y轴）的分数可以看出，使用局部SfM重建（SFM）来估计相机姿态允许基于2D的方法（Disloc、DenseVLAD）实现类似于或优于基于3D的方法（Hyperpoints、相机姿态投票）的位置精度。因此，对于较大的距离阈值，可以正确地定位更多的查询图像。然而，SR并不改善5m或更小的阈值的性能。原因是SF数据集的数据库图像是从在道路上行驶的汽车捕获的，而查询照片是由人行道上的行人拍摄的。因此，在它们各自的位置之间存在一定的最小距离。当使用局部SfM重建（SfM）时，可以获得更好的位置估计，将正确定位在5米内的查询的百分比从低于20%提高到20%。1008060402000 51015202530距离阈值[米]1008060402000 51015202530距离阈值[米]超过40%。我们观察到，具有位置间地理度量突发性重新排序的Disloc的性能优于无位置间地理度量突发性重新排序的Disloc，这是可以预期的，因为它被证明是优越的根据[37]中的内点数量重新排序。对于基于VLAD的表示，我们注意到具有NN策略的NetVLAD比DenseVLAD（NN）执行得更差。DenseVLAD的优势在于它的词汇表是在SF上训练的，而NetVLAD是在另一个数据集上训练的。然而，它们的性能与空间重排序和局部SfM的组合几乎相同图3（c）比较了性能最佳的基于2D的方法与两种基于结构的方法（ Hyperpoints （ HP ）和 Camera PoseVoting（CPV））的位置精度。可以看出，Disloc和DenseVLAD对于误差为2m或更小的查询都与HP一样好。虽然HP在2m到10m的误差范围内优于所有其他方法，但基于2D的方法能够整体定位更多图像。如果不能经由局部SfM估计姿态，则基于2D的方法诉诸于报告最高排名的数据库图像的位置对于HP和CPV观察到的局部图像的总体较低对于这些图像，它们的2D-3D匹配阶段未能产生足够的匹配用于姿态估计。有趣的含义是，即使姿势估计失败，仍然可以找到相关的数据库图像。图4.参考子集的定位精度姿势，选择以包括更准确的相机姿势：（左）参考-来自COLMAP或VisualSFM的通过两个一致性检查（214个参考姿势）和（右）参考姿势的姿势，其中两个重建都通过两个检查（45个姿势）。许多有趣的应用，例如，自动驾驶汽车需要高度精确的姿势。为了更好地理解基于2D和基于3D的方法在高精度区域中的行为，我们在参考姿势的两个子集上比较了它们的性能。包含214个姿势的第一子集是从所有参考姿势构建的，对于这些参考姿势，COLMAP或VisualSFM提供通过第2节中解释的两个一致性检查的姿势。第3.1条该子集表示在我们的所有参考姿势中更准确的。第二子集包含所有45个姿态，其中两个重建姿态都通过两个测试，因此包含最有可能高度准确的参考姿态。图图4描述了不同方法在两个子集上的性能在第一个子集（图。4，左），我们再次观察到HP在2m至12m的误差范围内表现更好，而DenseVLAD和Disloc总体上定位更多的图像。可以对包含通过最严格的一致性检查的45个参考姿势的第二子集进行有趣的观察对于小距离阈值（2 m），DenseVLAD、Disloc和HP表现同样良好DenseVLAD（SR-SfM）Disloc（SR-SfM）Hyperpoints（3D）CPV w/GPS（3D）CPVDenseVLAD（SR-SfM）Disloc（SR-SfM）Hyperpoints（3D）CPV w/GPS（3D）CPVw/o GPS（3D）正确本地化查询[%]DenseVLAD（SR-SfM）Disloc（SR-SfM）Hyperpoints（3D）CPV w/GPS（3D）CPVw/o GPS（3D）正确本地化查询[%]正确本地化查询[%]1644然而，预先构建的3D模型可以帮助提高某些图像的准确性，否则这些图像无法准确定位结果的相关性。为了将使用我们的参考姿势获得的结果置于上下文中，我们提供了杜布罗夫尼克数据集的结果[27]。3D模型由从6k个数据库图像重建的1.9M 3D点组成选项卡. 3比较了DenseVLAD变体与CPV。此外，我们还提供了主动搜索[38]的结果，这是一种使用优先级的基于结构的有效方法，以及PoseNet [22，23]，一种基于学习的方法。HP不适用于此数据集，因为它是为内存消耗和匹配质量存在问题的较大规模场景而设计的。有趣的是，仅执行检索而不进行任何姿态估计（DenseVLAD（NN））比通过PoseNet学习回归姿态产生更准确的从Tab中可以看出。3.将DenseVLAD与局部SfM相结合，定位精度与主动搜索相当，但比CPV差。对于较大的SF-0模型，情况正好相反，其中DenseVLAD（SR-SfM）明显更精确。原因是在Dubrovnik数据集上找到好的匹配很容易，而对于更大的SF-0模型来说则极具挑战性。当比较CPV在Dubrovnik（0.56 m）和SF-0（> 2 m）上的中位定位精度时，这一点很明显局部SfM的匹配步骤能够恢复CPV丢失的匹配，从而实现大规模的更准确的姿态。DenseVLAD（SR-SfM）的姿态精度在很大程度上取决于局部3D模型的质量在这里，SF-0模型是更好地适合由于其数据库图像的规则的空间分布。相比之下，杜布罗夫尼克的数据库照片的空间密度变化很大，使得它更难获得良好的局部模型的一些查询图像。另一个有趣的观察结果可以从HP和CPV对SF-0的相对性能中得出。在此之前，SF数据集用于评估地标识别场景中基于结构的定位方法的性能[26，36，57]。在这种情况下，如果图像观察到由SF数据集提供的建筑物ID指定的正确建筑物，则认为图像被正确定位。根据其95%精密度下的回收率对方法进行评价，即，基于正确定位的图像表3.杜布罗夫尼克数据集的其他比较[27]。因为它能够大规模地测量姿态精度。时间选项卡. 3示出了不同算法的在线分量的定时。计算杜布罗夫尼克数据库图像的DenseVLAD和NetVLAD描述符虽然我们使用杜布罗夫尼克和SF-0的现有3D模型，但我们预计重建数据集分别需要不到1天和大约1-2周的时间。HP在SF-0上要求每张图像大约5秒。7. 结论在本文中，我们已经提出了第一个比较的2D图像为基础的定位方法和3D结构为基础的定位方法在大规模的定位精度为了便于这种比较，我们已经为来自旧金山数据集的一些查询图像创建了参考姿势[12]。我们的研究结果表明，纯粹基于2D的方法实现了最低的定位精度。然而，它们提供了高效的数据库建设和维护的优势，即使局部特征匹配失败，也可以定位图像。相比之下，基于3D的方法提供更精确的姿态估计，代价是模型构建和维护明显更复杂。特征匹配在大规模时变得更难，并且找到更少的匹配导致更低的姿势质量。将基于2D的方法与局部SfM重建相结合，结合了两个世界的优点，简单的数据库构建和高姿态精度，并导致大规模定位的最先进的结果。然而，这是以重大的代价--在本地化过程中，运行时间大大延长。据我们所知，我们的数据集是第一个可用于测量大型复杂数据集上的姿态估计精度的数据集我们的研究结果表明，我们的数据集填补了文献中的一个关键空白，因为这种情况没有被以前的基准和评估协议所覆盖。同时，我们的研究结果表明，在姿态精度方面仍有改进的空间。我们公开了我们的参考姿势以及评估所需的所有数据，以促进对这一主题的进一步研究5%的错误。在这种情况下，CPV实现召回率为67.5%和74.2%，分别没有和有GPS的先验。相比之下，惠普仅获得了63.5%的召回率这表明，在地标识别任务上的良好性能不一定转化为姿态精度。因此，我们的新数据集填补了文献中的一个关键空白鸣谢。这项工作得到了EU-H2020项目LADIO No. 731970，JSPS KAKENHI授权号 15H05313 ， ERC 授权 LEAP （编号： 336845 ），CIFAR机器大脑学习计划和ESIF，OP研究，开发和教育项目 IMPACT& No.CZ 02. 1 . 一、 01/0 。 0/0 。 0/15003/0000468和谷歌探戈。PoseNet [22，23]粤ICP备05007779号-1在以前的实验中。但是菲格4（右）显示了从20%（HP）到50%（Den-4）的明显和实质性的改善。方法美国（NN）时间[秒]1.42分位数误差[m]25% 50% 百分之七十五1.4 3.9 11.2seVLAD、Disloc）定位图像，范围在1 m以内。基于[48]第四十八话1.430.92.99.0结果，我们得出结论，大规模的3D模型是没有重新-[48]第四十八话：∼2000.31.05.1这对于高度精确的视觉定位是非常必要的。怎么-摄影姿势投票（CPV）[57][38]第三十八话3.780.160.190.50.561.32.095.01645引用[1] S. Agarwal，K. Mierle及其他谷神星解算器网址：//ceres-solver.org网站。4[2]S. 阿加瓦尔 N. 狡猾 I. 赛门， S. M. 塞茨，和R. 塞利斯基罗马在一天之内建成在proc ICCV，2009年。1[3] R. Arandjel o vi c´，P. Gronat，A. Torii、T. Pajdla和J. Si vic. NetVLAD：用于弱监督位置识别的CNN架构。在Proc. CVPR，2016中。二三五六[4] R. Arandjelovic和A.齐瑟曼。每个人都应该知道的三件事，以提高对象检索。在Proc. CVPR，2012。5[5] R. Arandjelovic和A.齐瑟曼。关于VLAD 在Proc. CVPR，2013. 二、五[6] R. Arandjelovic和A.齐瑟曼。脱位：用于位置识别的可缩放描述符独特性。在procACCV，2014年。一二三五六[7] M.奥布里湾C. Russell和J.西维克通过区别性视觉元素将绘画与 3d 模型对齐。 ACM Trans. on Graphics（TOG），33（2）：14，2014. 1[8] M. Bujnak，Z. Kukelova和T.帕杰拉焦距未知的摄像机绝对位姿问题的一种新的有效解法。InProc. ACCV，2010. 2[9] S. Cao和N.很聪明基于图的位置识别判别学习。在Proc.CVPR，2013中。1[10] S. Cao 和 N. 很聪明基于图的位置识别判别学习在Proc.CVPR，2013中。2[11] S. Cao和N.很聪明

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

大规模3D模型在视觉定位中的必要性探讨

3D 定位分析

qtopengl导入3d模型

立创3d模型导出到ad

AI 图片生成3D模型之

maya建立好的3D模型，怎么使温度数据在这个3D模型中显示

相机标定、三维重建、3d视觉定位

给i大似然估计在3d视觉中的应用

已知手机的3D模型与手机的图片，将3D模型匹配到与图片中手机一样的角度

halcon获取3D模型

已知3D模型顶点，显示出3D模型。输入，顶点与顶点的位置，输出3D模型正视图

html加载3d模型

QT 生成使用3d模型

ugui 显示3d模型

已知3D模型的位姿估计方法

vscode插入3d模型

vue2查看3d模型

ad导出3d模型并重新运用到ad

android展示3d模型

unity3d模型描边shader,非常方便实用强大

对3D模型进行定位 修改此代码

最新资源

对3D模型进行定位修改此代码