没有合适的资源?快使用搜索试试~ 我知道了~
4373是这里吗?室内视觉定位中的几何-语义位姿验证Hajime Taira1Hajime Rocco2Jiri Sedlar3Masatoshi Okutomi1Josef Sivic2,3 Tomas Pajdla3 Torsten Sattler4Akihiko Torii11东京工业大学,2InriaUniversity,3布拉格CIIRC CTU†,4查尔姆斯理工大学摘要在由弱纹理房间和重复几何图案主导的大型复杂室内场景中的视觉定位是具有挑战性的问题,对于诸如增强现实和机器人技术的应用具有高度的实际相关性。为了处理这种情况下出现的歧义与查询图像具有最大几何一致性的姿态然后在第二阶段中选择内围值计数的形式。虽然大量的研究集中在第一阶段,但在第二阶段的工作却少得多。因此,在本文中,我们专注于姿势验证。我们表明,结合不同的形式,即外观,几何和语义,大大提高了构成验证和con-tropose准确性。我们开发了多个手工制作以及可训练的方法来加入几何语义验证,并在非常具有挑战性的室内数据集上显示出对最先进技术的显着改进。1. 介绍视觉定位是估计6自由度(DoF)姿态的问题,图像相对于3D场景从该6自由度(DoF)姿态拍摄。视觉定位对于增强和混合现实[15,44]、智能系统(如自动驾驶汽车和其他自主机器人[41])以及3D重建[61]等应用至关重要。用于精确视觉定位的最新方法基于2D图像和3D场景坐标之间的匹配[10,11,16,40,46,47,56,71,72,85]。这些2D-3D匹配或者使用显式特征WILL O W项目,法国高等师范学校信息系统,ENS/INRIA/CNRSUMR8548,PSLResearchUniversity.CIIRC-捷克信息学、机器人学和控制论研究所,捷克技术大学,位于布拉格。(a)(b)(c)第(1)款(d)(e)(f)(g)(h)㈠(j)(k)(l)图1:使用进一步的方式进行室内视觉定位。给定查询图像(a,g)的一组相机姿态估计,我们寻求识别最准确的估计。(b,h)由于严重的遮挡和弱纹理,现有技术的方法[72]无法识别正确的相机姿态。 为了克服这些困难,我们使用了几种模态以及视觉外观:(顶部)表面法线和(底部)语义。(c,i)我们的方法通过比较从查询(d,j)和数据库(f,l)提取的语义和表面规范来验证估计姿态。匹配[40,56,71,72,85]或通过基于学习的场景合作,纵坐标回归[10,11,16,46,47,65]。在大规模或具有许多重复结构元素的复杂场景中,由于全局模糊性,建立唯一的2D-3D匹配成为一个难题[40,71,85]。避免这种模糊性的策略是限制2D-3D匹配的搜索空间。例如,图像检索[49,69]可以4374可以用来识别场景中最有可能在查询图像中看到的几个部分[29,58,72]。然后对每个这样检索到的位置执行2D-3D匹配,从而导致每个位置一个姿势假设。随后,传统上,然而,已经表明,在存在重复结构和全局模糊性的情况下,(加权)内点计数不是一个好的决策标准[55]。[72]建议将查询照片与使用估计姿势渲染的场景图像进行比较,而不是仅考虑内点形式的积极证据[72]已经表明,这种逐像素的比较,称为密集姿态验证(DensePV),导致“最佳”姿态的明显更好的定义在本文中,我们遵循[72]中的方法,该方法纯粹专注于比较重新渲染的图像和实际查询图像之间的低级外观和几何信息。本文提出的问题是,是否有可能提高姿态验证阶段,从而提高视觉定位方法的姿态精度。为此,我们分析了使用进一步的几何和语义模态以及在验证阶段的学习的影响。具体而言,本文做了以下贡献:1)我们研究了使用多模态的影响用于室内视觉定位在 具 有 挑 战 性 的 场 景 中 。 我 们 手 工 设 计 了 原 始DensePV方法的几个我们表明,这些方法改进了原始的DensePV策略,在极具挑战性的InLoc数据集上设置了新的最先进的定位性能[72]。这些方法都不需要对用于本地化的实际数据集进行微调,因此通常适用。我们不知道先前的工作结合了这些方式。2)我们还研究了一种可训练的姿态验证方法。我们表明,它优于原来的DensePV,它使用手工制作的表示。然而,它无法超越我们的新修改,即使它是在描述用于定位的场景的数据上训练的3)我们表明,通过更先进的组合,仍然有很大的改进空间,为未来的工作开辟了道路。此外,我们表明,文献[21,22,74,75]中用于室外场景的4)我们公开源代码和训练数据1.2. 相关工作视觉定位。基于结构的视觉定位使用3D场景模型来建立2D-3D匹配,1http://www.ok.sc.e.titech.ac.jp/res/RIGHTP/在查询图像中的像素位置和模型中的3D点之间[11,14,16,29,40,42,56,65,71,72,85]。的场景模型可以显式地表示,例如,运动恢复结构(SfM)点云[29,39,40,56]或激光扫描[72],或者隐含地,例如,通过卷积神经网络(CNN)[10,11,45]或随机测试[16,45在前一种情况下,2D-3D匹配通常通过匹配SIFT等局部特征来建立[43]。相比之下,基于隐式场景表示的方法直接从2D图像块回归3D场景坐标[10,11,16,45]。在这两种情况下,通过在RANSAC [18,19,25]循环内应用n点姿态求解器[27,35,38],从所得的2D-3D匹配中估计相机姿态。基于场景坐标回归的方法明显比基于局部特征的方法更准确[11,72]。然而,它们目前无法扩展到更大和更复杂的场景[72]。与视觉定位密切相关的是位置识别问题[1,4,17,26,34,36,55,60,77,78,84]。给定地理标记图像的数据库,地点识别方法旨在识别给定查询图像中描绘的地点,例如,通过图像检索[3,19,49,69,76]。最相似的数据库图像的地理标签通常用于近似查询图像的姿态[30,31,77,84]。地点识别方法也可以用作视觉定位流水线[13,29,53,62,72]:2D-3D匹配可以被限制为在n个视觉相似的数据库图像的短列表中可见的场景的部分这种限制有助于避免场景中全局模糊性,在匹配过程中,由场景中不相关部分的相似结构引起[54]。这种基于检索的方法目前构成了复杂场景中大规模定位的最新技术[53,55,72]。在本文中,我们遵循这一策略。然而,与以前的工作集中在改进检索[1,4,20,26,34,36]或匹配[56,72]不同,我们集中在姿态验证阶段,即,从N个估计姿态中选择“最佳”姿态的问题上述定位方法的替代方案是训练CNN,直接从给定的输入图像回归相机姿势[9,12,32,33,50,79]。然而,最近的研究表明,这种方法并不总是优于简单的图像检索基线[59]。语义视觉定位。在动态环境中长时间运行的情况下,场景的外观可能会随着时间的推移而急剧变化[57,62,72]。然而,对于这种变化,每个场景部分的语义描述基本上保持不变.语义视觉定位方法[5因此使用场景理解,例如,通过语义分割或对象检测,作为某种形式的不变场景表示。以前的工作集中在改进特征检测和描述[34,62],fea-4375DD真实关联[7,37,52,63,70,75,81],图像检索[5,34,62,68,74,82]和姿态估计阶段[50,70,74,75]。相比之下,本文的重点是姿态验证阶段。确认姿势与本文最相似的是相机姿态验证的工作。经典方法是在所有候选姿势中选择具有最大数量的(加权)内点的姿势[25,29,61]。然而,(加权)内点计数在具有重复结构的场景中不是适当的决策标准,因为不正确的姿势可能比正确的姿势具有更多的内点[55]。相反,有必要明确说明这种结构[55]。不过,关注特征匹配的几何一致性只能说明积极的证据。为了考虑所有像素,[72]建议从估计的姿势重新渲染场景。他们使用密集提取的RootSIFT [2,43]特征将结果图像与原始查询照片进行比较。在本文中,我们建立在他们的密集姿态验证(DensePV)方法的基础上,并将额外的模态(表面法线和语义分割)集成到验证过程中。这些自适应模态进一步提高了姿态验证阶段的性能。虽然DensePV是一种手工制作的方法,但我们也提出了一种可训练的变体。[21,22,74,75]使用语义场景理解进行姿势验证:给定一个姿态,它们将场景模型中的3D点投影到查询图像的语义分割中。他们衡量语义一致性的百分比年龄的三维点投影到一个图像区域与正确的标签。除了确定估计的相机姿态是否与场景几何结构一致[21,22]之外,该测量还可以用于识别不正确的匹配[75] 并 改 进 姿 态 估 计 [70 , 74] 。 我 们 表 明 , 这 种approach,这是迄今为止一直用于室外场景,是不适用于本文所考虑的室内场景。视图合成。在[72]之后,我们使用视图合成通过从估计的视点重新渲染场景来验证估计的相机姿势。视图合成也被用于在强烈的外观[8,77]或视点[64,66,77]变化下实现定位。然而,我们不知道以前有任何工作结合了多种模式并提出了一种可训练的核查方法。3. 几何-语义姿态验证在本文中,我们有兴趣在室内场景中使用更多的信息,而不是纯粹的外观摄像机姿态验证的好处进行分析。因此,我们提出了多种方法的基础上的外观,场景几何形状和语义信息相结合的姿态验证我们将我们的方法集成到InLoc管道[72]中,这是一种最先进的视觉定位方法几何信息可以集成到InLoc同样,SEC。3.3讨论了语义信息如何用于姿态验证。由于获得室内场景的大型训练数据集可能很困难,因此本节重点介绍不需要训练数据的验证算法。秒4然后介绍了一种可训练的验证方法。3.1. 室内定位与姿态验证InLoc管道通过一组具有已知姿势的RGB-D图像来表示场景。给定RGB图像作为输入查询,它首先通过图像检索识别场景中可能在查询中可见的一组位置。对于每个位置,它执行特征匹配,并根据通过2D几何验证阶段的匹配数量对位置进行重新排序。然后仅对排名靠前的位置估计和验证相机姿势。候选位置检索InLoc使用NetVLAD [1]描述符用于识别与查询在视觉上最相似的100个数据库图像。对于检索,忽略可用于每个数据库图像的深度图密集特征匹配和姿态估计(DensePE)。NetVLAD将密集检测的CNN特征聚合到紧凑的图像级描述符中。给定前100个重新检测的图像,InLoc执行密集提取的CNN特征的相互最近邻匹配,并通过拟合单应性执行空间验证。对于具有最大数量的单应性-内点的前10个候选者,InLoc估计6DoF相机姿势:当考虑数据库图像的深度图时,查询图像与检索到的数据库图像之间的密集2D-2D匹配定义2D-3D匹配的集合。然后使用标准P3 P-RANSAC [25]估计姿态。密集姿态验证(DensePV)。在最后阶段,In-Loc在10个估计的相机姿势中选择“最好的”。为此,InLoc使用数据库RGB-D扫描的颜色和深度信息从每个估计的姿态重新渲染场景:与检索到的数据库图像D所源自的数据库RGB-D全景扫描相对应的彩色点云被投影到图像中。在一个实施例中,该方法包括生成查询图像Q的估计姿态以形成合成查询图像QD。InLoc然后,它评估两个图像之间的(不)相似性,作为对应于相同像素位置的描述符之间的逆欧几里德距离让1S(x,y,D)=d(Q,x,y)−d(Q,x,y)−(1)是在Q中的像素位置(x,y)处提取的Root-SIFT描述符之间的局部描述符相似性函数,以及用于大型室内场景。 节中3.1、我们先回顾一下InLoc算法秒 3.2然后讨论如何使用额外的2RootSIFT来实现对均匀照明变化的鲁棒性。4376QD. Q和QD之间的相似性得分则为DensePV(Q,Q D)=中位数(SD(x,y,D))。(二)x为oh使用中位数而不是平均值,因为它对离群值更稳健。无效像素,没有3D点投影到其中的像素在等式(1)二、InLoc最终选择使用数据库图像D估计的姿态,其最大化DensePV(Q, QD)。3.2. 集成场景几何当量2度量原始查询图像与其合成版本之间的外观相似性。InLoc流水线中的原始公式化具有两个缺点:1)它仅考虑从对应于检索到的数据库图像D的单个扫描位置看到的3D几何形状。由于查询图像的姿态可以与数据库图像的姿态基本上不同,因此这可以导致合成图像中没有3D点被投影到其中的大区域(参见图1)。图1(i))。2)室内场景通常由大型无纹理部分(如白色墙壁)主导。这些区域的图像外观即使在强视点变化下也保持恒定。因此,仅考虑这些区域中的在下文中,我们提出了解决这些问题的战略。通过扫描图合并几何图形。为了避免合成图像中出现大面积的像素缺失,我们在重新渲染查询时使用来自多个数据库RGB-D扫描的3D数据。我们构造了一个图像扫描图(c.f.图2),其描述了场景的哪些部分与每个数据库图像相关并且因此用于生成合成查询图像。给定检索到的数据库图像D,该图使我们能够使用比在与D3相关联的全景RGB-D扫描中可见的那些点更多的3D点来重新渲染查询视图。为了构建图,我们首先为每个数据库图像选择十个空间上最接近的RGB-D全景扫描。我们通过将3D点投影到数据库图像中来估计数据库图像中每个3D扫描的可见性,如果超过10%的数据库图像像素共享源自扫描的3D点,则我们在数据库图像和扫描给定查询图像Q、检索到的数据库图像D和使用DensePE获得的估计相机姿态,我们可以利用构造的扫描图来渲染多个合成查询图像,每个合成查询图像用于连接到图中的D的每个扫描然后,通过深入和法线方向来处理遮挡。我们的方法假设扫描是密集的和相当完整的,并且不同的扫描被准确地3我们实验中使用的InLoc数据集由多个全景RGB-D扫描组成,每个扫描细分为多个数据库图像。图2:InLoc数据集的图像扫描图[72]。(a)示例RGB-D全景扫描。(b)相邻数据库映像。(c)RGB-D全景扫描的3D点投影到数据库图像的视图上。(d)红点显示捕获RGB-D全景扫描的位置。蓝线表示全景扫描和数据库图像之间的链接,基于视觉重叠建立。w.r.t.对方.这些假设在实践中并不总是成立的。然而,我们的实验表明,与使用单独扫描相比,使用扫描图通过减少合成视图中的无效像素的数量来提高定位性能(c.f.秒(五)。测量表面法向一致性。在弱纹理区域中缺乏信息的问题也可以通过考虑其他互补图像模态(诸如表面法线)来解决。当渲染合成视图时,我们可以利用RGB-D图像中的深度信息来创建相对于给定姿势的法线贴图。对于投影到图像空间中的2D点p中的每个3D点P,通过拟合局部3D邻域中的平面该3D邻域被定义为在p周围的5×5像素块内投影的3D点的集合。 这将生成法线贴图ND,其中每个条目ND(x,y)对应于单位长度表面法线方向。在查询图像方面,我们使用神经网络[83]来预测表面法线映射NQ。我们定义了两种验证方法,使用表面或-正常稠度。两者都基于在像素位置(x,y)处估计的法线之间的余弦相似性:SN(x,y,D)= N Q(x,y)<$N D(x,y).(三)第一种策略称为密集正态验证(DenseNV),它反映了DensePV,但考虑了正态相似性SN而不是描述符相似性SD:DenseNV(Q,Q D)=中位数(SN(x,y,D))。(四)x为oh表面法线相似性图SN可以包含比描述符相似性图SD更丰富的信息。5m(一)(b)第(1)款(d)其他事项(c)第(1)款4377无纹理区域的情况然而,对于高度纹理化的区域,情况 将 相 反 因 此 , 我 们 提 出 了 第 二 种 策 略(DensePNV),其包括表面法向一致性作为描述符相似性的加权项:DensePNV(Q, QD)=中值(w(x,y,D)·SD(x,y,D)),x为oh(五)其中加权项w(D)将正常相似性移位并归一化为为了保证语义一致性,我们使用语义信息来确定我们认为几何和外观信息不可靠的地方。我们将语义类分为五个“超类”:人,短暂的,稳定的,固定的,户外的。瞬态超类包括容易移动的对象,例如,椅子、书或垃圾桶。稳定超类包含不经常移动的对象,例如,桌子、沙发或衣柜。固定超类包含不太可能移动的对象,例如,墙壁、地板和天花板。当w(x,y,D)=1+max(0,SN(x,y,D))2.(六)在计算DensePV、DenseNV或DensePNV分数时,我们忽略查询图像中属于人的像素通过w,法线相似性充当描述符相似性上的注意力机制,将注意力集中在法线一致的图像区域上。实作详细数据。对于没有深度信息的查询图像,使用[83]估计表面法线[83]中的原始实现首先将输入图像裁剪成正方形,并将其重新缩放为256×256像素。然而,裁剪操作可以减小视场,从而去除潜在的重要信息[73]。为了保持视野,我们修改了网络配置,以预测矩形图像的表面法线,并缩放每个图像,使其长边为256像素。3.3. 集成场景语义DensePV、DenseNV和DensePNV隐含地假设场景是静态的,即,合成的查询图像应该看起来与真实的查询照片相同。在实践中,这一假设往往是违反的场景随着时间的推移而变化例如,墙上或公告板上的海报可能会被改变,或者家具可能会被移动。处理这样的变化需要对场景有更高层次的理解,我们通过语义场景理解来建模。投影语义一致性(PSC)。使用场景理解进行姿势验证的标准方法是测量语义一致性[21,74,75]:这些方法使用语义标记的3D点云,例如,通过将从RGB图像提取的语义标签投影到点云上以及查询图像的语义分割来获得。标记的3D点云通过估计的姿态被投影到查询图像中。然后通过计算查询和合成图像之间的匹配标签的数量来计算语义一致性忽略瞬态对象。PSC在户外场景中工作良好,其中存在相对多的类,并且其中投影到诸如天空的“空”区域中的点清楚地指示不正确/不准确的姿势估计。我们将在SEC中展示。5、它在室内场景中效果不好和瞬态超类。我们将这些方法称为DensePV+S、DenseNV+S和DensePNV+S。实作详细数据。语义提取使用的CSAIL语义分割/场景解析应用程序,方法[87,88]基于金字塔场景解析网络[86],在包含150个类的ADE 20K数据集[87,88]上训练。关于类到超类的映射的细节在[73]中提供。4. 可训练姿势验证在上一节中,我们开发了几种不需要任何训练数据的相机姿态验证方法。受最近几种计算机视觉任务的可训练方法的成功的启发,本节介绍了一种用于姿势验证的可训练方法(TrainPV),其中我们将从正确和不正确姿势的示例中训练姿势验证评分函数。我们首先描述了所提出的模型(C.F。图3),然后我们如何获得训练数据,最后用于训练的损失。用于姿势验证的网络架构。 我们网络设计遵循类似于DensePV的方法,其中给定原始Q和合成查询图像QD,我们首先提取密集特征描述符d(Q,x,y)和d(QD,x,y)使用完全卷积网络-工作 这个特征提取网络扮演着DensePV的密集RootSIFT描述符。然后,通过余弦相似度4计算描述符相似度得分图:SD(x,y,D)=d(Q,x,y)<$d(Q D,x,y).(七)最后,由Eq. 7由估计Q和QD之间的一致性的分数回归CNN处理,得到标量分数。这个分数回归CNN由几个卷积层组成,后面是ReLU非线性和最终平均池化层。直觉是,连续卷积层可以识别描述符相似性得分图中的一致相似性(和相异性)模式这是因为没有大多数像素属于墙壁、地板或天花板。相反,4描述符预先进行了L2归一化。4378i=1i=1图3:可训练姿势验证的网络架构。输入图像通过特征提取网络F以获得密集描述符f。 这些是然后通过计算描述符相似性图SD.最后,分数回归CNNR产生分数s可训练姿势验证模型的一部分。SD. 然后,最终的平均池化在得分图上聚合正面和负面证据以接受或拒绝候选姿势。请注意,我们的架构与最近的图像匹配方法[51]和光流估计[24]相似。与这些估计全局几何变换或局部位移的方法相反,其中P是3D-2D投影函数。训练损失。 需要适当的损失以便训练上述网络用于姿态验证。给定查询图像Q和一组候选合成查询图像{Q Di} N,我们希望以平均重投影误差(c.f. 当量(八)。为了做到这一点,我们假设每个合成图像QDi具有对应于查询图像的最佳匹配姿态的相关联的离散概率p(QDiN个候选人中的Q该概率应与来自方程的重投影误差不相关8,即,具有高重投影误差的姿态几乎不可能是最佳匹配。然后,得分si=s(Q,QDi) pro.通过我们训练的姿势验证CNN可以用来将该概率p(QDi)的估计建模为我们的输入图像(Q,QD)已经在空间上p(QD)=exp(si).(九)我们试图衡量他们的一致性。INk=1 exp(sk)训练数据。为了训练所提出的网络,我们需要适当的注释训练数据。为此,我们使用为InLoc工作台记录的其他视频序列为了定义地面实况概率分布p,我们利用来自等式(1)的重投影误差ri= r(Q Di)。第八章:exp(−ri)标记[72],与实际测试图像分开我们通过人为新图像创建了6自由度相机姿势p(QDi)=Nk=1exp(−rk)、(10)人工注释和运动恢复结构(SfM)[73]。对于每个图像,我们以两种不同的方式生成用于训练的姿势候选者。第一种方法随机扰动地面真实姿态,3D平移和旋转高达±1m,±20度我们使用扰动的随机姿势来生成通过将3D点云投影到合成图像,InLoc数据库扫描关联到该图像。第二种方法使用DensePE管道[72]作为为附加图像生成逼真估计姿态的一种方式。为此,我们通过本地化管道运行图像,获得姿态估计和相应的数据库图像。然后我们在这些姿势上运行合成图像渲染,并使用这些图像进行训练。注意,与从正确的查询-数据库图像对生成图像的随机化方法相反,这里合成图像可以从不相关的对生成这是因为本地化流水线可能无法生成示例对应于其它看起来相似但不同的位置。在这两种情况下,对于每个真实图像和合成图像对,地面实况(PGT)和估计(PG T)姿态都是知道的为了生成可用作训练信号的标量分数,我们计算平均2D重投影其中,r_i=r_i/m_in_kr_k是相对于所考虑的候选内的最小值的相对重投影误差。软最大值函数用于获得归一化的概率分布5。训练损失L被定义为地面实况和估计分布p和p′之间的交叉熵:ΣNL=−p(QDi)logp(QDi),(11)i=1其中该和是N个候选姿态的总和。请注意,由于地面实况分数分布p是固定的,因此最小化p和p之间的交叉entropy相当于最小化这两个分布之间的Kullback-Leibler散度。因此,最小值是在p与p精确匹配时实现的。还应注意,在最佳情况下,候选姿态之间的地面实况排名如所期望的那样被尊重。实作详细数据。 特征提取网络由完全卷积的ResNet-18架构(高达conv 4 -2层)[28]组成,在ImageNet[23]上进行预训练。它的重量在训练过程中保持固定,3D点云{Xi}N的误差r(QD)在图像空间中:大量的参数将导致在我们的小规模训练集中的过拟合。评分回归CNNr(QD)=1ΣNNi=1P(Xi,PGT)−P(Xi,P5相对重投影误差用于防止软最大函数饱和。4379由四个卷积层组成,每个卷积层具有5×5滤波器和填充2,每个卷积层后面都是ReLU非线性。每个卷积层在32个通道上操作作为输入和输出,除了第一个卷积层和最后一个卷积层之外,第一个卷积层将单个通道描述符相似性映射dD最后,一个AV-平均池化层用于获得最终得分估计s(Q,QD)。使用PyTorch框架[48],使用Adam优化器和10- 5的学习率,对评分回归CNN进行了10次训练。5. 实验评价数据集。我们在最近提出的InLoc数据集[72]上的室内视觉定位的背景下评估了我们的方法。该数据集基于[80]中的3D激光扫描模型,并描绘了多个大学建筑物中的多个楼层10 k个数据库图像对应于从使用安装在激光扫描仪上的照相机捕获的RGB-D全景扫描创建的一组透视图像,即,深度图可用于每个数据库图像。这329张查询图像是在数据库图像之后大约一年使用iPhone7记录的,并且与数据库图像进行了比较。查询和数据库图像之间场景外观的变化使数据集比其他室内数据集(如7 Scenes [65])更具挑战性。评价措施。在[57,72]之后,我们将估计姿态的误差测量为与数据集提供的参考姿态的位置和方向的差异对于不同的阈值对(X,Y),我们报告其估计姿态与参考姿态相差不超过X米和Y度的查询图像的百分比。基线。我们的方法是基于InLoc方法[72],这是目前大规模室内定位的最新技术,因此作为我们的主要基线(c.f.秒第3.1节)。我们构建在[72]作者发布的代码之上。对于给定的输入图像,我们首先通过NetVLAD使用预训练的30 K [1] VGG-16 [67]模型检索前100个数据库图像。然后,还使用NetVLAD的VGG-16 [ 67 ]架构的密集提取的CNN特征在查询和检索图像之间执行特征匹配重新排名后误差[米,度]方法[0.25、5][0.50、5][1.00,10][2.00,10]无扫描图DensePE [72]35.046.257.161.1DensePV [72]38.955.669.974.2PSC30.444.455.958.4DensePV+S39.857.871.175.1DenseNV32.245.658.162.9DenseNV+S31.646.560.564.4DensePNV40.158.172.376.6DensePNV+S40.159.072.676.3w/扫描图DensePV39.859.069.071.4PSC28.343.255.058.4DensePV+S41.361.771.474.2DenseNV34.350.562.966.6DenseNV+S35.951.464.468.4DensePNV40.460.572.975.4DensePNV+S41.060.572.375.1TrainPV(随机)39.556.572.376.3TrainPV(DPE)39.556.872.376.3Oracle(上限)43.563.877.580.5表1:使用扫描图对InLoc数据集[ 72 ]进行姿态验证的影响。我们报告的百分比查询本地化给定的位置和旋转误差范围内。8060402000 0.25 0.5 0.75 1 1.25 1.5 1.75 2距离阈值[米]图4:几何和语义信息对姿势验证阶段的影响。我们验证了所提出的方法的性能,这些方法考虑了InLoc数据集上的附加几何和语义信息[72]。每条曲线显示了在不同的距离阈值(x轴)和最多10度的固定旋转误差内定位的查询的百分比将通过数据库图像标记的点添加到查询中,并计算具有一致标签(PSC)的点的数量。根据单应性-内点的数量的图像列表,我们使用一组密集内点匹配和数据库深度信息(DensePE)来估计前10个最佳匹配图像的姿态候选。对于每个候选项,DensePV会根据数据库图像所源自的RGB-D全景扫描渲染视图。原始视图和渲染视图之间的相似性计算为密集提取的手工制作特征的中值距离[2,43]。作为语义基线,我们对数据库进行3D如[72]中所报告的,DSAC [10,11]和PoseNet [32,33]无法在InLoc数据集上进行训练。因此,我们在实验中不考虑它们。使用其他模式的影响。 选项卡. 1和图4比较基线姿势验证方法与我们在第2节中提出的新变体的定位性能3 .第三章。即使与基线DensePE相比,DenseNV和PSC也表现最差。这并不奇怪,因为两者都完全忽略了视觉外观,而是专注于信息本身是不太有区别的DensePE [72]DensePV [72]带扫描图的DensePV带扫描图的DensePV+S带扫描图的DensePNV带扫描图的DensePNV+S带扫描图的[Oracle(上限)]正确本地化查询[%]4380(a)(b)(c)第(1)款(d)(e)(f)图5:使用扫描图进行视图合成的典型失败案例。上图:在DensePV期间使用扫描图获得的合成图像,受(a)3D扫描与平面图的未对准,(b)3D扫描的稀疏性和(c)强度变化的影响下图:DensePV的典型故障案例,扫描图:(d)查询图像,(e)重新渲染的查询,(f)用RootSIFT计算的错误映射。(分别为曲面法线和语义分割)。另一方面,与DensePV相比,将几何和/或语义信息与外观信息相结合提高了局部化性能。这清楚地证实了我们使用多种模式的想法。我们通过使用扫描图观察到最大的改进,这并不奇怪,因为它减少了无效像素的数量,从而为渲染图像添加了更多信息使用扫描图的DensePV+S在更高的精度水平下显示出最佳使用扫描图的DensePNV结合了外观和正常信息,与DensePV相比,不断显示超过5%的性能增益。然而,具有扫描图的DensePNV+S与其单扫描变体相比显示出较少的改进,并且对于较大的误差阈值甚至表现更差这部分是由于数据库图像的不准确的深度和相机姿态(c.f.图5(a-c))。也有失败的一个单一的扫描已经提供了一个相当完整的视图。图图5(这种故障无法使用扫描图解决。有趣的是,简单地将所有模式结合起来并不一定会产生最佳性能。为了确定这些模态是否只是不互补,或者这是否是由于它们的组合方式,我们创造了一个神 谕 。 oracle是 从 我 们 提 出 的 四个 变 体 ( DensePV[72],DensePV w/scan-graph,DensePV+S w/scan graph和DensePNV w/scan-graph)计算的:每个变体提供排名靠前的姿势,并且具有对地面事实的访问权的预言机简单地选择具有最小误差的姿势。从Tab中可以看出。1和图4,预言机的性能明显优于我们提出的任何变体。我们还观察到,DenseNV+S提供了比oracle(不使用DenseNV+S)更好的姿势,大约9%的查询,这可能会导致进一步的改进。这表明,不同的模式确实是相辅相成的。因此,我们将DensePNV+S观察到的收益递减归因于我们结合语义和正常信息的方式。我们假设,更好的结果可以得到与法线和语义,如果一个原因的一致性,而不是在一个像素级的图像区域(如通过使用中位数)。可训练的姿势验证。接下来,我们评估两种可训练方法(TrainPV),其通过随机扰动视图(随机)或通过基于DensePE估计(DPE)选择视图来训练(c.f.秒4).尽管两者都是仅使用外观信息进行训练的,但它们仍然能够使用更高级别的场景上下文,因为它们使用从预训练的完全卷积网络中提取的密集特征。选项卡. 1比较了两种TrainPV变体与基线和我们手工制作的方法。尽管这两种变体使用不同的训练集,但它们实现了几乎相同的性能。这表明训练集的选择在我们的设置中并不重要。结果表明,TrainPV优于DensePV基线,但不一定是我们基于多种模态的手工制作的变体。这一结果验证了我们基于不同信息源的姿势验证的想法我们还尝试了使用多种模式的TrainPV变体,但没有观察到进一步的改进。6. 结论我们提出了一种新的姿态验证方法来改进大规模室内摄像机定位,由于存在重复的结构,弱纹理场景以及随时间动态出现/消失的对象,这是非常具有挑战性的为了解决这些挑战,我们已经开发并验证了多种策略来组合外观、几何形状和语义以进行姿势验证,从而显示出比当前最先进的室内定位基线有显著改进。为了鼓励年龄的进一步进展,具有挑战性的室内定位问题,我们使我们的代码公开。致谢。这项工作得到了JSPS KAKENHI资助号15H05313,17H00744,17J05908的部分支持,EU-H2020 项 目 LADIO 编 号 731970 , ERC grant LEAP No.336845,CIFAR学习机器脑计划和欧盟结构和投资基金,业务研究,发展和教育项目影响(注册&。不,CZ。02. 1 .一、01/0。0/0。0/ 15 003/ 0000468 )。我们衷心感谢NVIDIA公司的支持,捐赠Quandro P6000 GPU。6我们正在考虑每个查询的几个候选姿势的离散重新排名问题。因此,有非常相似的结果并不奇怪4381引用[1] 雷 利 亚 Arandjelo vic' , Pet rGronat , Akihik oTorii ,TomasPa-jdla,and Josef Sivic.NetVLAD:用于弱监督位置识别的CNN架构。在Proc. CVPR,2016中。二、三、七[2] Relja Arandjelovic和Andrew Zisserman每个人都应该知道的三件事来提高对象检索。 在procCVPR,2012年。 三、七[3] Relja Arandjelovic和Andrew Zisserman。关于VLAD在Proc.CVPR,2013中。2[4] Relja Arandjelovic和Andrew Zisserman脱位:用于位置识别的可缩放描述符独特性。在Proc.ACCV,2014中。2[5] Relja Arandjelovic和Andrew Zisserman具有语义扭曲的视觉在Proc.ACCV,2014中。二、三[6] Shervin Ardeshir , Amir Roshan Zamir , AlejandroTorroella,and Mubarak Shah.GIS辅助的目标检测和地理空间定位。在Proc.ECCV,2014中。2[7] Nikolay Atanasov,Menglong Zhu,Kostas Daniilidis,and George J.帕帕斯通过矩阵永久性从语义观察定位。国际机场J. of Robotics Research,35(1- 3):73-99,2016. 二、三[8] 马修·奥布里,布莱恩·C.罗素和约瑟夫·西维克通过区别性视觉元素将绘画与3D模型对齐ACM事务处理图表,33(2):14:1-14:14,Apr 2014.3[9] Vassileios Balntas , Shuda Li , and Victor AdrianPrisacariu. RelocNet:使用神经网络的连续度量学习重新定位。Proc. ECCV,2018。2[10] Eric Brachmann、Alexander Krull、Sebastian Nowozin、Jamie Shotton、Frank Michel、Stefan Gumhold和CarstenRother。DSAC-用于相机局部化的可微分RANSAC在Proc. CVPR,2017中。一、二、七[11] Eric Brachmann和Carsten Rother。学习越少越好-通过3D表面回归进行6D相机定位 在procCVPR,2018年。一、二、七[12] Samarth Brahmbhatt,Jinwei Gu,Kihwan Kim,JamesHays,and Jan Kautz.用于Cam时代定位的地图的几何感知学习在Proc. CVPR,2018中。2[13] 宋曹和诺亚·斯内弗利。基于图的位置识别判别学习。在Proc.CVPR,2013中。2[14] 宋曹和诺亚·斯内弗利。从运动模型中提取结构的最小场景描述。在Proc. CVPR,2014。2[15] Robert Castle、Georg Klein和David W.默里用于可穿戴增强现实的多地图中的视频速率定位。ISWC,2008年。1[16] 放大图片创作者:Thomas A. Lord,Julien Valentin,Luigi Di Stefano,and Philip H.S. 乇在线摄像机重新定位的回归森林的动态适应。在Proc. CVPR,2017中。一、二[17] D a vidM. Chen,Geo r gesBaatz,KevinK? se r,SamSTsai,RamakrishnaVedantham,TimoPyl va? na? inen,KimmoRoimela , XinChen , JeffBach , MarcPollefey
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功