没有合适的资源?快使用搜索试试~ 我知道了~
1基于感兴趣目标密集匹配回归Philippe Weinzaepfel Gabriela Csurka Yohann Cabon Martin Humenberger NAVERLABS Europefirstname. naverlabs.com摘要我们介绍了一种新的基于CNN的方法,从一个单一的RGB图像,依赖于密集匹配的一组感兴趣的对象(OOI)的视觉在这篇文章中,我们专注于平面物体,这是高度描述性的环境,如绘画在博物馆或标志和店面在商场或机场。对于每个OOI,我们定义一个参考图像,3D世界坐标可用于该参考图像。给定一个查询图像,我们的CNN模型检测OOI,将它们分割,并在每个检测到的OOI与其对应的参考图像之间找到一组密集的2D-2D匹配。给定这些2D-2D匹配,连同每个参考图像的3D世界坐标我们表明,参考图像的2D-3D匹配,以及OOI注释,可以获得所有的训练图像,从一个单一的实例注释每个OOI的结构,从运动重建 。 我 们 介 绍 了 一 种 新 的 合 成 数 据 集 ,VirtualGallery,它的目标挑战,如不同的照明条件和不同的闭塞水平。我们的结果表明,我们的方法实现了高精度,并对这些挑战具有鲁棒性。我们还使用在购物中心捕获的百度本地化数据集进行我们的方法是第一个基于深度回归的方法,可以扩展到这样一个更大的环境。1. 介绍视觉定位包括从给定区域(也称为地图)内的单个RGB图像估计6-DoF 这一点尤其重要,没有其它定位技术可用,例如,在GPS拒绝的环境中,例如室内位置。有趣的应用包括机器人导航[8],自动驾驶汽车和增强现实(AR)[6,22]。主要的挑战包括查询和训练图像之间的大的视点变化、不完整的地图、没有有价值信息的区域(例如,无纹理表面),对称和重复的元素,变化的照明条件,结构变化,动态对象(例如,人),以及大面积的可扩展性传统的基于结构的方法[17,18,24,26,27,34]使用查询图像和地图之间的特征匹配然而,在处理时间和存储器消耗方面,从各种视角和在不同条件下覆盖大区域为了克服这一点,图像检索可以用于加速大规模定位问题的匹配[10,29,35]。最近,基于深度学习的方法[2,16]已经显示出有希望的结果。PoseNet[16]及其改进[4,7,15,39]通过直接从输入图像回归相机姿势来进行。即使可以获得粗略的估计,学习精确的定位似乎太困难,或者需要大量的训练数据来覆盖位置和内在相机参数方面的差异。更有趣的是,Brachmannet al. [2,3]学习密集3D场景坐标回归并解决Perspective-n-Point(Pestival)问题以进行准确的姿态估计。CNN是端到端训练的,这要归功于RANSAC的可微分近似公式,称为DSAC。基于场景坐标回归的方法在静态环境下表现出色,而不改变目标、遮挡或照明条件。然而,它们在场景规模方面受到限制。视觉定位的上述挑战在非常大且动态的环境中变得更加重要基本的假设,如静态和未改变的场景被违反,地图很快就会过时,而不断的再培训是具有挑战性的。这促使我们设计了一种算法,该算法受到实例识别[11]的启发,依赖于稳定的预定义区域,并且可以在非常生动的场景中弥合精确定位和长期稳定性之间的差距。我们提出了一种新的基于深度学习的视觉定位方法,该方法通过在查询图像中的一些感兴趣对象(OOI)和相应的参考图像之间找到一组密集匹配来进行,即,对象的规范视图,对于该对象,2D-3D对应的集合是可用的。我们将感兴趣对象定义为3D地图中可以可靠检测到的判别区域56345635OOI数据库CNN检测、分割OOI+密集2D-2D匹配相机定位查询图像图1.我们的管道概述给定一个查询图像,我们使用CNN首先检测和分割预定义的感兴趣对象列表这些参考图像包含密集的2D像素到3D坐标的映射。因此,我们通过传递性获得2D-3D匹配,并解决Pestrian问题以获得相机定位。从多个视点、部分遮挡以及在各种照明条件下。图1显示了我们的管道的概述。我们的模型依赖于DensePose[9],这是Mask R-CNN [11]的最新扩展,不仅可以检测和分割人类,还可以回归图像中像素与网格表面之间的密集匹配。在我们的情况下,我们使用它(i)检测和分割OOI,以及(ii)获得检测到的OOI与其参考图像之间的2D-2D匹配的密集集。给定这些匹配,连同参考图像的2D-3D对应关系,我们获得一组2D-3D匹配,通过使用RANSAC解决Pestival问题来获得相机定位。我们的方法是精心设计的,以解决视觉定位的公开挑战,它有几个优点,和最先进的限制很少。首先,2D推理允许从少量训练数据中训练模型:我们可以利用单应性数据增强来人为地为每个对象生成丰富的视点集合,并且我们可以利用颜色抖动来实现对照明变化的鲁棒性。其次,我们的方法可以处理动态场景,只要OOI保持静态。例如,即使训练数据不包含任何人类,也可以准确地估计博物馆中有游客的姿势第三,如果一些OOI被移动,我们不需要像基于姿态和场景回归的方法所要求的那样重新训练整个网络,而是我们只需要更新参考图像的2D-3D映射。第四,我们的方法侧重于区分对象,从而避免模糊的无文本区域。第五,我们的方法可以扩展到大面积和大量的OOI,因为对象检测器可以分割数千个类别[13]。我们的方法的一个明显的限制是,查询图像没有任何OOI不能本地化。然而,在诸如AR导航之类的许多应用中,大多数时间存在OOI,并且局部姿态跟踪(例如,视觉-惯性测距法[1])可以在两者之间使用。OOI检测本身在这样的应用中是有趣的,例如。在博物馆或商店中显示绘画的元数据,商场和机场。此外,在一个复杂的现实世界的应用程序中,OOI可以用来更容易地引导用户成功地本地化像“拍摄最近的绘画”这样的命令在本文中,我们将OOI限制为现实世界应用中常见的平面对象:在诸如购物中心、机场或博物馆的本地化具有挑战性的环境中,绘画、海报、店面或标识是常见的。虽然该方法可以推广到非平面对象,但考虑平面OOI除了单应性数据增强之外还具有若干优点。首先,在训练图像和其参考图像中的OOI的任何实例之间的变换是单应性,从而允许仅使用几个对应来容易地传播匹配的密集集合。第二,由于可以在3D中稳健地重建平面,因此可以从一小组图像建立参考图像中的2D像素与3D世界最后,平面OOI允许我们在2D中进行推理,与3D坐标回归相比,去除了一个自由度。此外,我们表明,我们的方法可以使用最少量的手动注释,在任何训练图像中的每个(平面)OOI的一个实例分割我们在两个具有挑战性的数据集上展示了我们方法的 优 势 。 第 一 个 是 新 引 入 的 合 成 数 据 集VirtualGallery,它代表一个艺术画廊。第二个是在一个购物中心捕获的百度本地化数据集[33],在训练时只有几个视点,在测试时场景发生了一些变化,显示了我们的方法在复杂现实环境中的适用性。虽然我们的方法在VirtualGallery上是准确的(即使有不同的照明条件和遮挡),实现了小于3cm和0.5°的中位误差,但它也可以扩展到更大的环境,如百度本地化数据集。相比之下,深度的最先进的基于回归的方法在这种情况下失败。PNP56362. 相关工作视觉定位的方法可以分为四类:基于结构的方法、基于图像检索的方法、基于姿态回归的方法和基于坐标回归的方法。基于结构的方法[17,18,24,26,27,34]使用描述符匹配(例如,SIFT [21])在与局部描述符和关键点描述符相关联的地图的3D点之间查询图像中的变量。然而,这些点特征不能创建对诸如不同天气、照明或环境条件的具有挑战性的现实世界场景足够鲁棒的表示。此外,它们缺乏捕获全局背景的能力,并且需要数百个点的强大聚合,以便形成共识来预测姿势[41]。基于图像检索的方法[10,29,35,36,37]使用全局描述符或视觉词将查询图像与地图的图像进行匹配,以从顶部检索到的图像中获得图像位置。检索到的位置可以-可以将搜索范围限制在基于结构的方法的大地图内[5,28],或者直接计算检索图像和查询图像之间的姿态[42]。这些方法允许在大环境中加速搜索,但在使用基于结构的方法进行精确姿态计算时具有类似的缺点。InLoc [35]显示了利用密集信息的基于图像检索的方法的最新进展。它使用深度特征首先检索最相似的图像,然后估计地图中的相机姿态。一个缺点是沉重的处理负荷和准确的密集的3D模型的需要。基于姿势回归的方法[4,16,39]是第一种端到端训练的深度学习方法,用于视觉本地化。他们通过使用CNN从查询图像直接回归6-DoF相机姿势来进行,如下所示-[16]第16章:我的女人通过利用视频信息[7]、递归神经网络[39]、沙漏架构[23]或贝叶斯CNN来确定定位的不确定性[14],该方法已经以多种方式进行了扩展。最近,Kendallet al. [15]用依赖于场景几何形状和重投影误差的新损失来替换朴素的L2损失函数Brahmbhatt等人[4]另外,在训练时利用图像对之间的相对姿态。总体而言,基于姿态回归的方法已经显示出对许多挑战的鲁棒性,但在准确性和规模方面仍然有限。基于场景坐标回归的方法[2,32,38]通过回归密集的3D坐标并使用具有RANSAC的Pestrian求解器估计姿势来进行。当跑-在过去使用dom森林[32,38],Brachmannet al. [2]最近通过训练CNN密集回归3D坐标来获得非常准确的姿态估计。他们还引入了RANSAC的可微分近似,称为DSAC,允许端到端训练以多步训练为代价进行视觉定位,第一步需要深度数据。DSAC++ [3]是该方法的改进,其中真实深度数据不是强制性的,并且可以由深度先验代替。网络仍然在多个步骤中训练:首先基于深度数据或先验;第二,基于重投影误差最小化;最后利用DSAC模块基于摄像机定位误差进行定位。DSAC++在相对较小规模的数据集上获得了良好的性能,这些数据集具有恒定的光照条件和较小的动态性。然而,该方法不收敛于较大的场景。相比之下,我们的方法是建立在对象检测管道上的,它可以扩展到大型环境。与DSAC++相比,由于我们考虑平面对象,我们可以回归2D匹配而不是3D坐标,这去除了一个自由度,并允许单应性数据增强。3. 视觉定位管道在本节中,我们首先在第3.1节中概述我们的方法。接下来,我们将详细介绍用于分割OOI和密集匹配的CNN模型(第3.2节)。最后,第3.3节解释了如何利用SfM图来训练我们的方法,使其免受弱监督。3.1. 根据检测到的OOI进行视觉定位设O为OOI的集合,|O| OOI类的数量。我们的方法依赖于参考图像:每个OOIo∈ O与规范视图相关联,即,图像IO,其中O是完全可见的。我们现在假设每个OOI在环境中是唯一的,并且参考图像中的2D像素p′与世界中的对应3D点Mo(p′)之间的映射Mo是已知的。给定一个查询图像,我们的CNN输出一个检测列表。每个检测包括(a)具有类标签O的边界框,即,检测到的OOI的id和置信度分数,(b)分段掩码,以及(c)一组2D-2D匹配查询图像中的像素q与感兴趣对象o的参考图像1。中的像素q'之间的{q→q'},参见图1。 通过传递性,我们应用将M_0映射到参考图像中的匹配像素,并针对每次检测获得2D图像查询图像中的像素和世界坐标中的3D点:{q →Mo(q′)}。给定查询图像中所有检测的2D-3D匹配列表和固有相机参数,我们通过使用RANSAC解决透视n点问题来估计6-DoF相机姿态。请注意,如果在查询图像中没有检测,则我们没有匹配,因此我们无法执行定位。然而,在博物馆或机场等场所,OOI可以在大多数图像中找到。此外,在现实世界的应用中,本地化是结合使用的,5637图2.网络架构的概述,以检测和分割OOI以及获得相对于参考图像的密集匹配。因此,系统的精度比覆盖范围更重要。总之,在我们的方法中学习的唯一组件是查询图像与OOI的参考图像之间的检测和密集匹配。处理非唯一OOI。到目前为止,我们假设每个OOI都是唯一的,即,它在环境中只出现一次虽然大多数OOI具有高度的歧视性,但其中一些在一个环境中可以有多个实例,例如,商场里的标志在这种情况下,由于检测器无法区分它们,因此我们将相同的OOI聚合在单个类中,并使用公共参考图像训练模型。映射M0不再是唯一的,因为对于同一参考图像存在多个3D坐标候选,即,环境中存在的每个实例一个鉴于在实践中,我们每个OOI具有有限数量的重复,并且每个图像具有有限数量的检测,我们使用几何可扩展性检查来解决可能的坐标的最佳组合的Pestival问题详细地,我们最小化查询图像中的OOI 3D中心点的重投影误差的总和。理想地,3D中心点位于分段检测的中间。由于OOI的不完全检测,我们忽略了噪声。3.2. 检测OOI并与引用匹配我们遵循DensePose [9],这是Mask R-CNN [11]的扩展,旨在寻找人体上任何点与表面网格上对应点之间的密集对应。对于由区域建议网络(RPN)[25]生成的每个框,C维卷积特征以固定分辨率进行估计,14×14使用RoIAlign层。特征金字塔网络(FPN)改进[19]用于更好地处理小物件长方体特征被馈送到两个分支。其中一个是用来预测班级成绩(人类vs.在他们的情况下非人类),并执行类特定的框坐标回归,遵循更快的R-CNN设计[25]。另一个分支是完全卷积的,预测每像素人体部位标签和每像素对应(即,两个坐标)与相应的网格表面。 在实践中,CNN预测分割和在每个方框中的56×56的密集网格上的对应关系然后将其内插以获得每像素预测。在我们的例子中,考虑到RoIAlign之后的框特征,我们使用与DensePose类似的CNN模型,参见图2。一个分支预测OOI分数并回归边界框,唯一的区别是我们有|O|+1个类(包括背景类)而不是2个。 第二branch预测不同的任务:(a)每个OOI的二进制分割,(b)OOI特定的u和v参考图像坐标回归。在训练时,几个损失是组合。除了FPN损失的箱子建议,我们使用交叉熵损失的箱子分类。对于地面实况类,我们在其框重新上使用平滑L1损失gressor,56×56掩码预测器的交叉熵损失,以及u−和v−回归器的平滑L1损失。训练需要一个地面真实的面具和匹配的ev-每个像素。在3.3节中,我们解释了如何从最小注释中自动获得这样的注释。在测试时,我们保持分类得分大于0的盒子检测。5,并将点的匹配保持在分割掩码内。实作详细数据。我们使用FPN [19]与ResNet 50 [12]和ResNeXt 101 - 32 x8 d [40]骨干。预测分割和匹配回归的分支遵循Mask R-CNN架构:它由8个卷积和ReLU层组成,然后是每个任务的最终卷积层。 我们训练网络50万次迭代,从学习率0开始。00125,并在300k和420k迭代后将其除以10 我们使用SGD作为优化器,动量为0。9,权重衰减为0。0001为了使所有回归都在同一尺度下进行,我们将[0,1]中的参考坐标归一化。数据扩充。 由于我们的CNN回归仅在2D中匹配,因此我们对所有输入图像应用单应性数据增强。为了生成合理的视点,我们为4个角中的每个角计算一个受图像大小33%限制的随机位移,并拟合相应的单应性。我们不使用翻转数据增强,因为OOI(徽标,油漆,海报)是左右有序的。我们研究了使用颜色抖动(亮度,对比度,饱和度)对我们实验中不断变化的照明条件的鲁棒性的影响(第5节)。3.3. 弱监督OOI标注我们的方法的关键是所需的手动注释量最小,这要归功于利用COLMAP [30]获得的SfM重建的传播算法。提供的唯一注释是每个平面OOI的一个分割掩模,参见图3中间的蓝色掩模。该OOI的参考图像由注释掩模定义。使用来自SfM的2D到3D匹配的集合,我们标记与注释的OOI分割中的2D像素匹配的3D点,参见图3中的蓝色线和点。我们2fc+ReLURoIAlign骨干+FPN8conv+ReLUdeconv +上采样563816m11m参考图像图3.蓝色手动遮罩注释的边界框(中间帧)定义了OOI的参考图像。我们使用注释(蓝色掩模)内关键点的3D位置将OOI传播到其他训练图像(左图中的绿色掩模)。如果没有足够的匹配,传播可能会失败(右图)。将标签传播到包含这些3D点的观测的所有训练图像如果在图像中存在至少4个匹配,则我们可以拟合单应性,假定001是平面的。为了对噪声具有更强的鲁棒性,我们只考虑具有最少7个匹配的区域,并使用基于RANSAC的单应性估计。该单应性用于传播掩码注释以及密集的2D-2D匹配,参见图3左侧图像上的绿色掩码。由于匹配数量少导致传播丢失(见图3右图),或者由于SfM模型中的幸运的是,CNN模型在某种程度上对噪声或丢失的标签具有鲁棒性。处理非唯一OOI。 对于非唯一的OOI,例如在购物中心多次出现的徽标,我们为OOI的每个实例注释一个分割掩码,并将我们的传播方法独立地应用于每个如上所述,任何检测器都不可能区分不同的实例。因此,我们将它们合并到单个OOI类中,并使用SIFT描述符[21]匹配计算不同实例的参考图像与专用主参考图像之间的单应作为类(OOI)的主要参考,我们选择具有最高数量的3D匹配的参考图像。由于回归的2D-2D匹配对应于主类,因此我们还使用计算的类内单应性应用透视变换,参见第3.1节。4. 数据集VirtualGallery数据集。我们引入了一个新的合成数据集来研究我们的方法的适用性,并进一步测量不同的照明条件和遮挡对不同定位方法的影响它由一个包含3-4个房间的场景组成,见图4(左),其中42幅免费使用的名画1放置在1https://images.nga.gov/图4. 左:平面图的艺术画廊与不同的培训- ING循环。右图:6台摄像机位于固定高度(青色)的训练循环,测试摄像机位于不同的合理位置。图5.从VirtualGallery测试样本第一行:不同视点的测试第二排和第三排:不同的照明条件。第四行:不同的人口密度(遮挡)。墙该场景使用Unity软件创建,允许提取地面实况信息,例如深度、语义和实例分割、2D-2D和2D-3D对应关系以及渲染图像。我们考虑一个现实的情况下,模拟的场景拍摄的机器人的训练和照片的游客进行测试。摄像机设置由6个摄像机组成,360°配置,固定高度为165 cm,见图4(右)。机器人在画廊内沿着5个不同的环路行驶,大约每20厘米拍摄一张照片,每个相机大约有250张照片,见图4(左)。在测试时,我们对随机位置、方向和焦距进行采样,确保视点(a)合理且真实(在方向、高度和到墙的距离方面),以及(b)跨越整个场景。这涵盖了视点变化和训练图像与测试图像之间的内在相机参数为了研究对照明条件的鲁棒性,我们使用6种不同的照明配置生成场景,在训练和测试时,它们之间具有显著的变化,参见图5的第二行和第三行。为了评估对诸如访客的遮挡物的鲁棒性,我们生成包含随机放置的人体模型的测试图像,参见图5的最后一行。测试集包括-回路1回路2环3回路4环55639图6.来自百度本地化数据集的训练图像示例,带有传播的掩码注释。496张图像的列表,这些图像针对6种照明条件中的每一种以及存在于场景中的4种不同密度的人(包括空的情况)进行渲染。该数据集可以在http://www.europe.naverlabs.com/Research/3D-Vision/Virtual-Gallery-Dataset上找到。利益相关对象我们把每一幅画作为感兴趣的对象,每一幅画在场景中都是独一无二的。我们使用从网站下载的原始图像作为参考图像。我们使用Unity获得每个图像的地面真实分割掩码和2D-2D对应关系。我们还得到了绘画在场景中的位置和大小,从而提供了2D-3D映射功能。请注意,在测试图像中,496个中有5个不包含任何OOI,另外23个(分别为48个)没有超过50%(分别为80%)可见的OOI。百度本地化数据集[33]。它由在中国购物中心捕获的图像组成,涵盖了视觉定位的许多挑战,如反射和透明表面,移动的人和重复的结构。它包含689张用数码单反相机拍摄的图像作为训练集,以及2000多张不同用户在几个月后拍摄的手机照片作为测试集。与训练图像相比,测试图像包含显著的视点变化,训练图像都是相对于主走廊平行或垂直拍摄的所有图像均半自动配准到由LIDAR扫描仪定义的坐标系。我们使用所提供的相机姿势,用于训练(OOI的3D重建和注释传播)和测试(结果的地面实况评估)。我们没有使用LIDAR数据,即使它可能会提高我们OOI的3D重建质量。利益相关对象我们手动注释了一个segmenta- tion掩码为220个实例,从164类代表不同类型的平面对象,如标志或海报的店面。然后,我们将这些注释传播到所有训练图像,参见第3.3节。 这个真实世界的数据集比VirtualGallery更具挑战性,因此,一些OOI传播是嘈杂的。图6示出了在传播之后在OOI周围具有掩模的训练图像的示例。5. 实验结果我们在VirtualGallery(第5.1节)和百度本地化数据集(第5.2节)上评估了我们的5.1. 虚拟画廊的实验我们使用不同的训练/测试场景来评估我们的方法的一些变体,并研究最先进的方法对照明条件和遮挡的鲁棒性。在下面的实验中,我们使用从Unity获得的地面实况对应。我们尝试了手动注释,并获得了类似的性能。数据扩充的影响。我们首先研究单应性数据增强在训练 中 的 影 响 。 我 们 用 ResNet50 训 练 模 型 ( 分 别 是ResNext101)在标准照明条件的第一个循环上的主干,并在图7中报告具有标准照明条件和没有人类的成功定位图像的百分比(分别为纯蓝色和点蓝色)。黑色,曲线)。单应性数据增强显著提高了性能,特别是对于高度准确的定位:5cm和5°范围内的局部化图像的比例从25%增加到69%。在较高的误差阈值下,影响不太显著,在25 cm和5°下从72%改善到88%。训练时的单应性数据扩充允许生成OOI的更多视点,并且因此更好地检测和匹配在测试时从未知视点捕获的OOI。回归密集2D-2D匹配的影响。我们现在将依赖于2D-2D密集对应的方法与几种变体进行比较。首先,我们直接回溯在检测到的OOI和其参考图像之间的8-DoF单应性参数(OOIs-homog)其次,我们直接回归每个OOI实例(OOI-2D-3D)的3D世界坐标,而不使用参考图像。图7中报告了与上述相同的培训/测试方案的性能。回归单应性的8个参数导致性能下降,只有70%的图像可以成功地定位在25cm和5°内。CNN难以回归变换的参数,其中微小的差异可能导致结果的显著变化。3D变体的表现相当不错,大约70%的图像定位在10 cm和5°范围内,81%在25 cm和5°范围内。然而,我们的方法与2D参考图像优于3D变量,特别是低位置误差阈值。我们的2D参考图像确保所有3D点都在平面对象上,而3D变体增加了一个额外的和不必要的自由度。最后我们用ResNeXt 101 - 32 x8 d代替ResNet 50主干,在低阈值下获得了更精确的定位(8%的额外图像定位在5cm和5°以内);在较高的阈值处,该差异变得微不足道。与最新技术水平的比较。我们现在将我们的方法与SfM方法(COLMAP [30,31]),具有几何损失的PoseNet [15]和使用3D模型训练的DSAC++进行比较[3]。所有方法都在所有循环上训练,5640OOIs-homogOOI-2D-3D我们的w/o数据aug我们的(ResNeXt 101)w/o数据aug。我们我们的(ResNeXt101)我们的-所有循环我们的-Loop 1我们的- 50% Loop 1我们的- 25%循环1我们的- 10% Loop 1我们的- 7%循环1DSAC++ -所有循环DSAC++ -Loop1DSAC++ - 50%环路1DSAC++ - 25%回路1DSAC++ - 10%环路1DSAC++ - 7%环1COLMAPPoseNetDSAC++DSAC +c我们我们的+cCOLMAPPoseNet产品介绍我们我们的COLMAPPoseNet产品介绍我们我们的局部图像(%)局部图像(%)局部图像(%)局部图像(%)10010010080 80 8060 60 6040 40 4020020406080 1002002040608010020020406080 100位置误差阈值(cm)位置误差阈值(cm)位置误差阈值(cm)图7.在VirtualGallery测试集上使用标准照明条件(无人类)对不同位置误差阈值和固定方向误差阈值(5°)的局部图像进行存储。左:我们的方法在标准照明条件的第一个循环上训练的变体之间的比较。中间和右边:对于我们的方法(中)和DSAC++(右),对较少量的训练数据(来自标准照明条件)的鲁棒性。10010010080 80 8060 60 6040 40 4020020406080 1002002040608010020020406080 100位置误差阈值(cm)位置误差阈值(cm)位置误差阈值(cm)图8.对于不同的位置误差阈值和固定的5°方向误差阈值,VirtualGallery测试集上的局部图像百分比对照明条件和遮挡的鲁棒性。左:在标准照明条件下进行训练,在没有人类的所有照明条件下进行测试(+c表示使用颜色抖动进行训练中:在所有照明条件下进行培训(COLMAP除外),在所有照明条件下进行无人测试。右:在所有照明条件下进行培训(COLMAP除外),在所有人类遮挡水平下进行所有照明条件下的测试。在没有人类遮挡的所有照明条件下进行测试,除了仅使用标准照明训练的COLMAP。图8(中间)中报告了给定误差阈值下完全定位图像的百分比具有几何损失的PoseNet的性能[15]相当低,因为训练数据不包含足够的变化:所有的图像都是在相同的高度上以0°滚动和俯仰捕获的。因此,它学习这种训练数据偏差,这在测试数据上不再有效。COLMAP表现最好,约95%的图像定位在10cm和5°范围内。DSAC++将75%的图像定位在5cm和5°范围内。我们的方法在低阈值下表现相似,成功定位在5cm和5°范围内的图像百分比大致相同在更高的阈值下,我们的方法比DSAC++更早地饱和(ResNeXt101主干约为88%我们发现,我们的方法无法检测OOI的情况下,他们是可见性差(见图5的右上角的例子),因此我们不能定位这样的图像。相比之下总的来说,我们的方法仍然在至少存在一个OOI的标准情况下计算高度准确的定位我们实现了小于3cm的中位误差,略低于DSAC++。训练数据量的影响。图7(中间)显示了我们的方法在减少训练数据量。局部图像的百分比大致恒定,即使在第一次循环的15个图像中仅训练1个图像(7%)相比之下,DSAC++,见图7(右),在几个图像上训练时表现出更大的性能下降,突出了我们的方法对少量训练数据的鲁棒性。我们没有观察到与COLMAP的显著差异,因为每个点的两个视图足以为基于结构的方法构建这个简单数据集的地图。对光照条件的鲁棒性。为了研究对不同照明条件的鲁棒性,我们比较了测试集的平均性能,其中所有照明条件都没有人类,当仅在标准照明条件的所有循环上训练时,参见图8(左)与图8(左)。所有回路和所有照明条件下的培训,见图8(中)。PoseNet的性能下降约10%,在1米和5°时,训练只有一个照明条件,尽管颜色抖动的训练。即使我们仅使用标准光照条件进行训练,COLMAP的性能也保持不变(SfM不能很好地处理来自相同姿势的多个图像,就像我们在不同光照条件下的训练数据一样)。高质量的图像和独特的模式是很容易处理的照明不变的SIFT描述符。当在一种照明条件下训练时,没有任何颜色数据增强的DSAC++的性能显著下降;具体来说,下降了约局部图像(%)局部图像(%)5641COLMAPPoseNetDSAC++Ours w/o data aug.Ours我们的(ResNeXt101)我们的(ResNeXt101)+BA60402001 2 3 4 5位置误差阈值(m)图9. 左:具有掩模覆盖检测的输入图像。右:对于每个检测到的类,我们根据从回归匹配拟合的单应性来扭曲参考图像。6、这是不同照明条件下的数量这意味着只有具有与训练相同照明的图像被定位,而几乎没有其他图像。然而,当在训练时将颜色抖动添加到DSAC++时, per-tone略有增加。当在一个光照条件下训练时,我们的方法的性能(纯蓝色曲线,在左侧图中)显著高于DSAC++和我们还尝试在训练中加入颜色抖动(左侧图上的蓝色虚线),并获得了显着的性能提升,实现了近85%的局部图像,误差低于25cm和5°。该性能非常接近在所有光照条件下训练时获得的性能(中间图),这可以被认为是可实现结果的上限。在实践中,这意味着对于真实世界的应用,即使训练数据中只存在一个照明条件,也可以使用我们的方法对闭塞的稳健性。为了研究对遮挡的鲁棒性,我们比较了在所有环路和所有照明条件下训练时所有方法的性能,并在(a)没有访客的所有照明条件下测试,参见图8(中间),以及(b)所有照明条件和各种访客密度,参见图8(右)。所有方法的性能都略有下降。对于我们的方法,性能的下降主要来自于图像,其中(a)仅存在一幅绘画,以及(b)OOI大部分被遮挡。这会导致OOI检测失败。然而,在大多数情况下,我们的方法是强大的,尽管没有看到任何人在训练。图9示出了在人类存在的情况下的实例分段的示例(左)为了可视化匹配的质量,我们在测试图像和参考图像之间拟合单应性,并将参考图像扭曲到查询图像平面上。我们观察到面具和匹配仍然准确。图10.百度本地化数据集上的本地化图像的存储对于不同的位置误差阈值和5°的定位误差阈值。误差小于1m,位置为10°误差在1 ~ 2.5m之间,位置误差为20°。误差大于2.5m。5.2. 百度本地化数据集上的实验图10显示了百度本地化数据集的结果[33]。该基准表示现实场景,这使得其极具挑战性:(a)训练数据限于在大约240米的商场中捕获的689个图像,(b)训练和测试图像具有不同的相机和视点,以及(c)环境在照明条件和动态对象方面具有一些变化。深度最先进的方法表现不佳,只有不到2%的图像定位在2m和10°范围内。COLMAP能够定位更多的图像,在1m和5°处约有45%,在5m和20°处约有58%。我们的方法是第一个基于深度回归的方法,能够在这个数据集上与基于结构化的方法竞争。我们成功地定位了约25%的图像在1米和10°,近40%的5m和20°。为了进一步提高准确性,我们运行了非线性最小二乘优化(稀疏束调整[20])作为后处理(灰色曲线),获得了约2%的性能提升。图10再次突出显示了单应性数据增强在训练时的好处(普通vs.蓝色虚线)。我们无法定位约10%的查询图像,其中没有检测到OOI。6. 结论我们提出了一种新的视觉定位方法,依赖于密集匹配一组感兴趣的对象。这是第一个基于深度回归的本地化方法,可以扩展到像百度本地化数据集这样的大环境此外,我们的方法在较小的数据集上实现了高精度,如新引入的Vir- tualGallery。由于我们的方法依赖于OOI,因此只有在OOI存在的情况下,定位才是可能的。这个假定的缺点是我们的方法的核心特征,因为它使视觉定位在快速变化和动态的环境中使用为此,我们假设在这种情况下,至少所选择的OOI保持稳定,或者在被移动或改变时可以被跟踪我们的方法的学习组件允许增加对不断变化的照明条件和视点变化的鲁棒性。未来的工作包括OOI的自动挖掘以及推广到非平面OOI。局部图像(%)5642引用[1] Michael Bloesch,Michael Burri,Sammy Omari,MarcoHutter,and Roland Siegwart. 采用直接光度反馈的基于迭代扩展卡尔曼滤波的视觉-惯性里程计。IJRR,2017年。2[2] Eric Brachmann、Alexander Krull、Sebastian Nowozin、Jamie Shotton、Frank Michel、Stefan Gumhold和CarstenRother 。 用 于 相 机 定 位 的 DSAC 可 微 分 RANSAC 在CVPR,2017年。第1、3条[3] Eric Brachmann和Carsten Rother。学习越少越好-通过3D表面回归进行6D相机定位。在CVPR,2018年。一、三、六[4] Samarth Brahmbhatt,Jinwei Gu,Kihwan Kim,JamesHays,and Jan Kautz.用于相机定位的地图的几何感知学习在CVPR,2018年。第1、3条[5] Federico Camposeco,Andrea Cohen,Marc Pollefeys,and Torsten Sattler.混合相机姿态估计。在CVPR,2018年。3[6] Robert Castle,Georg Klein,and David W Murray.用于可穿戴增强现实的多地图中的视频速率定位。2008年可穿戴计算机国际研讨会。1[7] Ronald Clark , Sen Wang , Andrew Markham , NikiTrigoni,and Hongkai Wen. Vidloc:一个用于6-dof视频剪辑重定位的深度时空模型。在CVPR,2017年。第1、3条[8] 马克·康明斯和保罗·纽曼。FAB-MAP:出现空间中的概率定位和映射。IJRR,2008年。1[9] RızaAlpGuéler,Na taliaN ev er ov a,andIasonasKokkinos. 密度:野外密集的人体姿势估计。在CVPR,2018年。二、四[10] 郝强、蔡瑞、李志伟、张磊、庞烟薇、凤舞。用于地标识别的3D视觉短语。CVPR,2012。第1、3条[11] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick. 面 罩 R-CNN 。 InICCV , 2017. 一 、二、四[12] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。4[13] RonghangHu,PiotrDolla'r,KaimingHe,TrevorDarrell,andRoss Girshick. 学 会 把 每 一 件 事 都 分 割 开 来 。 在CVPR,2018年。2[14] 亚历克斯·肯德尔和罗伯托·西波拉在深度学习中对相机重新定位的不确定性InICRA,2016. 3[15] 亚历克斯·肯德尔和罗伯托·西波拉使用深度学习进行相机姿态回归的几何损失在CVPR,2017年。一、三、六、七[16] AlexKendallMatthewGrimes 和 RobertoCipollaPosenet:用于实时6-dof相机重新定位的卷积网络在ICCV,2015年。第1、3条[17] Yunpeng Li,Noah Snavely,and Dan Huttenlocher.使用优先化特征匹配的位置识别。ECCV,2010年。第1、3条[18] Yunpeng Li , Noah Snavely , Dan Huttenlocher , andPascal Fua.使用3D点云的全球姿态估计。ECCV,2012年。第1、3条5643[19] 林宗义、杜拉拉、葛希克、何开明、哈里哈兰、贝隆吉.用于对象检测的特征金字塔网络。在CVPR,2017年。4[20] 马诺利斯·卢拉基斯和安东尼斯·阿吉罗斯。基于Levenberg-Marquardt算法的通用稀疏光束法平差软件包的设计与实现技术报告,计算机科学研究所-福斯,伊拉克利翁,克里特岛,2004年。8[21] David G.洛从尺度不变关键点中提取独特的图像特征。IJCV,2004年。三、五[22] Simon Lynen、Torsten Sattler、Michael Bosse、Joel AHesch、Marc Pollefeys和Roland
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功