没有合适的资源?快使用搜索试试~ 我知道了~
10107LaLaLoc:动态、未访问环境中的潜在布局本地化牛津大学HenryHoward-Jenkins主动视觉henryhj@robots.ox.ac.ukJose-Raul Ruiz-Sarmiento机器感知和智能机器人小组jotaraul@uma.es牛津大学Victor AdrianPrisacariu主动视觉victor@robots.ox.ac.uk摘要我们目前LaLaLoc本地化的环境,需要事先访问,并在一种方式,是强大的场景外观的大变化,如家具的全面重新安排。具体而言,LaLaLoc通过房间布局的潜在表示进行本地化。LaLaLoc学习了RGB全景图和从已知平面图推断的布局之间共享的丰富嵌入空间,该平面图对位置之间的结构相似性此外,LaLaLoc在其潜在空间中引入了直接的跨模态姿势优化。因此,LaLaLoc使得能够在场景中进行细粒度姿态估计,而不需要先前的访问,并且对诸如家具配置的变化之类的动态是鲁棒的。我们表明,在国内环境中,LaLaLoc能够准确地定位一个单一的RGB全景图像在8.3cm内,只给出一个平面图作为优先级。1. 介绍摄像机重定位是计算机视觉中的一个基本问题。基于图像的重新定位表示在给定关于周围环境的一些先验知识的情况下估计看不见的图像的相机姿态的目标。在本文中,我们解决了以前没有访问过的环境中的本地化任务,并且其中可能存在相当大的场景动态-已经确定了为了解决这个问题,我们建议相对于已知的平面图和在场景内的位置处可见的布局进行本地化。基于楼层平面图的定位特别适合于长期定位设置,因为虽然对象和家具可能已经移动,但是在结构楼层平面图中表示的项目(诸如墙壁、地板和天花板)将保持静态。因此,它能够在长时间段内进行定位,而不需要连续的重新训练或重新映射。此外,在该公式中,我们仅需要先前的楼层平面图,从而消除了对先前平面图的需要。目标环境的访问,即没有图像的训练轨迹。我们提出了LaLaLoc,它执行基于平面图的本地化,通过潜在的代表性的房间布局。该布局潜在空间是跨模态的,在从楼层平面图推断的布局和在推断时查询的RGB全景之间共享。更具体地,LaLaLoc在两个阶段中执行定位,如图1所示。第一阶段通过跨模态检索提供姿态的粗略估计。对于第二阶段,我们提出了一个跨模态直接优化的姿态,通过differentientiable渲染。可微分渲染已被证明对于对象姿态估计是有效的[23,12]。但是这些工作通常依赖于相似渲染损失,诸如渲染图像和目标图像之间的像素误差。然而,由于LaLaLoc跨查询和先验之间的多种数据模式操作,因此对于比较损失将需要相反,我们建议直接在布局潜在空间中优化姿势。通过这个公式,LaLaLoc能够准确地将平面图与杂乱的RGB全景对齐,而无需明确预测其布局。本文的贡献可以概括为:• 我们提出了LaLaLoc,一个高度准确的定位方法,是强大的场景动态,如家具的配置,并能够本地化在一个新的场景,而无需事先访问。• 我们在潜在空间中引入直接姿势优化。这允许跨模态姿态优化,而不需要解码器遍历数据模式以计算匹配成本。• 通过实验评估,我们证明了LaLaLoc的准确性以及验证其公式。这包括显示房间布局的表示对基于布局的本地化的功效具有显著影响,并且不能互换地使用。10108图1.使用LaLaLoc的本地化概述。在检索阶段,利用Φ图像将查询图像映射到版面潜在空间。然后,我们从已知的平面图中采样一个姿势网格,渲染它们的布局,并通过Φ布局计算它们各自的潜在表示。通过在该共享潜在空间内的最近邻搜索找到初始姿态估计然后,最近的邻居姿势被这是在共享潜在空间中进行的基于梯度的姿态优化,因此消除了解码成公共数据模式的需要。为了清楚起见,在此可视化中省略了我们的Vogel Disc重采样阶段。2. 相关工作已经产生了各种各样的方法来处理相机定位的任务。存在场景特定的方法,其需要对每个单独的场景进行微调。 姿势回归方法[18,17,10]训练用于每个场景的深度网络,以从输入直接预测相机姿态,但是这些方法在准确性方面受到限制[27]。场景坐标回归方法[30,7,8,9,35]密集地预测查询与环境之间的2D-3D对应关系,而不是回归相机姿势,这然后允许经由PnP求解姿势。另一方面,一些方法组能够跨场景生成,而不需要重新训练。图像检索方法[28,1,2,13]通过使用图像数据库中最相似图像的姿态来估计姿态。相反,基于3D结构的方法[21,20,26]在查询图像和SfM模型中的点之间建立2D-3D。然而,所讨论的场景特定的和可推广的方法确实具有共同性,因为它们需要在执行定位的区域的相同数据模态中的先前访问:场景特定的方法需要它来进行再训练,而可推广的方法需要它来进行地图/数据库构建。相比之下,LaLaLoc在没有先前访问的情况下执行本地化,而是仅将已知的楼层平面图杠杆化作为先验。特别是在机器人领域内,已经提出了一些关于平面图进行定位的方法这些方法通过聚合深度[40]、检测诸如布局角[14]之类的合适特征、或提取查询RGB和/或深度图像内的布局边缘[6,38,34]来进行操作当深度信息可用时,扫描匹配技术[24]通过诸如迭代最近点(ICP)[ 3]、通用ICP [4]、迭代最近点(ICP)[5]、迭代最近点(ICP)[6]、迭代最近点(ICP)[7]、迭代最近点(ICP)[8]、迭代最近点(ICP)[9](GICP)[29]或正态分布变换(NDT)[4]。基于ICP的扫描匹配技术已经成功地用于在平面图内执行定位[5,39]。这些方法通常依赖于多个顺序测量的信息流,通常与运动先验一起,例如来自车轮或相机里程计,并且作为假设权重被馈送到蒙特卡罗局部化(MCL)[33]框架中。然而,在本文中,我们接近的任务,本地化从一个瞬时的观察,没有运动或时间相干性的线索,并与假设一个良好的初始化姿势。此外,与扫描匹配方法不同,我们不需要深度信息,并且实际上我们完全消除了在查询时对布局几何形状的任何显式预测的需要,而仅仅利用布局的潜在表示。Kim等人[19]首先提出了捕获房间布局相似性的潜在空间的学习。具体地,这被应用于图像检索的任务,其中图像被嵌入以反映它们的底层房间布局,并且对于给定的查询图像,目标是返回具有类似布局的其他图像。Zheng等[42]后来采用了布局嵌入空间来帮助预测房间布局。然而,这两个作品都集中在遵循盒子近似的房间布局上,其中布局采用凸长方体内部的形式。这导致可能布局的空间中的可变性大大减少:有11种类型的房间布局可以在图像中看到,其中[19]只考虑了1。相反,我们考虑一般的房间布局,而不对它们的结构施加任何假设然而,它是相同的布局潜在空间的概念,在其上启用LaLaLoc3. 任务和定义我们在作为先验知识提供的平面图内执行相机姿势定位具体地说,我们定位210109MMM··DoF相机姿势P到2D楼层平面中的点。对于参考布局的渲染,我们假设相机和天花板高度是给定的,并且通过2D平面图的挤出产生场景的3D平面图。只包括墙壁、地板和天花板。在整个论文中,我们处理了三种主要的数据类型,它们可以在平面图内的位置处被捕获或渲染,P p:I p是捕获的RGB全景图;L p是对应于被投影到所述图像中的渲染深度图像;Cp是通过反向投影Lp形成的点云,实际上是M的子采样。4. 潜在布局LaLaLoc由具有两个平行分支的网络组成,以形成准连体网络。一个分支Φimage计算RGB全景图像的特征描述符,而另一个分支Φlayout计算来自布局渲染的描述符。用于RGB全景图像的嵌入应当与针对在相同相机姿态处的布局渲染计算的这意味着LaLaLoc的任务是计算房间布局的奇异潜在表示,如在楼层平面图内的特定位置处可见,而与用于计算它的传感器数据无关。为了学习这样的嵌入空间,我们采取了类似于知识蒸馏的方法[15]。知识提取通常首先将复杂模型训练为教师,然后使用该复杂模型来改进较小的复杂模型 相反,我们在eas上训练一个模型-图2. LaLaLoc培训流程概述。上图:仅由Φ布局执行的布局潜在空间的学习。底部:用于训练Φimage以将RGB全景映射到Φlayout学习的潜在空间的例程。布局再现的潜在表示之间的距离应当反映它们各自布局中的结构差异。这是通过对数比损失公式,提出了金等人。[19]:更高的任务:Φ布局执行布局到布局匹配,以及log比率(p,i,j)=.洛戈D(gi,gp)-日志 Ch(Ci,Cp)Σ2用它作为一个更复杂的任务:Φ图像学习封装D(gj,gp)Ch(Cj,Cp)(一)呈现在RGB图像中布局信息。该方法允许我们通过仅考虑学习布局之间的关系来最大化布局潜在空间的丰富性,然后训练Φimage也将图像映射到该空间。然而,LaLaLoc中的这种学习公式与更一般的知识提取不同,因为我们保留Φ布局用于与Φ图像的输出进行匹配。因此,该任务要求Φ图像不仅保持嵌入之间的相对差异,以及它们各自的布局相似性,而且它被修改为Φ布局的对应嵌入。在下文中,我们描述了潜在空间的学习,以及其他模态到它的映射。图2顶部显示了该培训程序的概述,补充材料中给出了所使用的架构。4.1. Φ布局:布局相似性潜在空间我们首先通过施加用于单独训练布局分支Φ布局的度量损失来嵌入空间的条件是其中(p,i,j)表示由锚定单元组成的三元组p,由RGB全景的姿态给出,其中i和j作为p的两个邻居;g= Φlayout(L)表示从布局渲染L计算的布局嵌入;C指示从布局深度的反投影生成的点云; D()是欧几里得距离函数,并且Ch()是倒角距离。除了布局相似性损失之外,我们还利用布局解码器进行训练。解码器采用本征向量g= Φlayout(L)并将其解码为布局深度图像L’,从而在训练期间形成布局自动编码器。我们以以下形式应用解码损失:decode=|L′−L|第一条、第二条选择L1范数用于深度估计[11]的有利性能4.2. Φimage:学习将图像与布局一旦布局潜在空间已经被教师分支学习,我们就训练我们的学生分支Φimage以将RGB图像嵌入为、10110MMM在这个训练中,我们冻结Φ布局,因此RGB分支的任务仅是将图像映射到固定的布局空间,并且可以通过Φ布局的响应来辅助。我们简单地通过在RGB嵌入f和布局嵌入g之间的欧几里得距离上应用损失来做到这一点。这反映了定位策略,其中将通过潜在空间中的相应嵌入之间的欧氏距离来预测图像布局匹配。损失简单地由下式给出:L2(p)=|fp−gp|二、(三)5. 本地化虽然当在新场景中定位时可以微调由LaLaLoc计算的潜在表示,但是我们提出了作为固定网络的方法,其能够在没有任何微调或RGB训练轨迹的情况下推广到新场景。LaLaLoc是一种两阶段本地化方法:粗略的全局检索阶段,随后是通过可区分渲染的跨模态姿态优化。定位方法的概述如图1所示。在下文中,我们更详细地描述这些阶段中的每一个。5.1. 粗检索5.2.1潜在的姿势我 们 提 出 了 一 个 直 接 的 姿 态 优 化 , 通 过differentientiable渲染。虽然基于可微分渲染的方法已被证明对姿态估计有效[23,12],但这些工作依赖于均匀数据来计算预测和目标之间的损失,通常采用基于摄影测量或深度重建误差的像素损失然而,在我们的应用程序中,我们必须再次解决查询(RGB)和引用(布局)数据类型不对称的挑战。相反,我们优化了具有潜在损失的姿势,使用我们的网络计算的嵌入之间的距离来模拟RGB图像和布局之间的匹配能量。这样,我们就能够弥合数据模式之间的差距这是通过采用可微渲染器来计算姿势估计P r处的布局来实现的,我们可以确保计算P r处的布局嵌入的操作链是可微的:g r= Φlayout(Ω(P r,)),其中Ω(Pr,)是布局渲染。因此,我们可以使用基于梯度的优化来细化姿势,目标是:minD(Φlayout(Ω(P r,)),f p)。(四)Pr粗略检索阶段通过在已知平面图上的均匀网格中对候选姿态进行采样来操作。在每个采样姿势处,我们根据已知的平面布置图几何形状来渲染布局,然后将其用于计算潜在向量。这些潜在向量及其相关联的姿态形成用于定位的参考数据库。当执行查询图像的定位时,我们计算查询图像的潜在向量,并计算其相对于参考数据库中的每个条目的距离粗略定位估计由属于最近邻潜在向量的姿态给出。5.2. 姿态细化LaLaLoc定位方法的第一粗略阶段受到楼层平面图内的采样姿态的密度的限制因此,我们包括姿态细化,以使能更精细的估计相机的位置。为此,我们提出两种方法:- 基于检索的方法,其在粗略估计周围更密集地重新采样并且再次通过检索进行定位;或者通过潜在空间中的布局相似性直接优化姿态。为了从粗略检索中更密集地探索最近邻居周围的区域,我们在以最近邻居为中心的Vogel Disc [36]中采样姿势这在邻居周围的圆形区域中产生(近似)均匀采样然后,将细化的姿态返回为与这些新采样的姿态最相似的姿态。我们将在下面更彻底地描述直接优化的公式化。6. 数据集在Structured3D数据集[41]上执行训练和评估。该数据集由3,500个合成室内场景组成。每个场景由多个房间组成,总共有21,835个房间。对于我们的任务重要的是,提供了3D楼层平面图,以及为场景中的每个房间渲染的照片真实感全景图像。我们遵循预定义的场景分割,3000用于训练,250用于验证,250用于测试。我们发现,一些场景的数据已损坏,这些场景被排除在外,导致2979/246/249个场景用于训练/验证/测试。由于分割是在场景上进行的,这意味着本文中的所有评估都是在未访问的房间上进行的,其中我们将未访问定义为没有先前图像捕获的场景,例如在目标场景中捕获的训练轨迹。对于每个图像,有三种家具配置:空的、简单的、充实的。其中的每一个都在三种光照条件下渲染:温暖、凉爽和原始。除非另有说明,否则在训练期间的每次迭代中随机选择配置,并且分别在“全”和“暖”家具和照明设置中执行评估,其中全是最困难的,7. 实验我们详细介绍了LaLaLoc的本地化性能,用于我们在看不见的环境中进行本地化的主要任务,如10111×个表1.Structured3D测试集上我们训练模型和基线的布局定位精度图3.定性描述查询姿势(用粉红色“X”标记)对于每个采样的姿势,我们通过其与查询的相应距离的对数对其进行左:我们绘制地面实况布局距离。中间:布局距离是LaLaLoc预测的距离右图:由LaLaLoc在其布局到布局配置中预测。并分析了LaLaLoc除非另有说明,否则我们以0.5m0.5m的分辨率对位置的2维网格进行采样然后,我们要么将最近的邻居姿势作为我们的预测,要么使用它来初始化细化阶段。我们的Vogel Disc重采样设置为网格分辨率两倍的半径。值得注意的是,所有的评估都只使用前1个检索来执行,这是最难的测试设置,因为从坏的检索我们包括LaLaLoc的两种主要的操作模式的结果。第一个假设地面实况室布局对于查询图像是已知的。在该配置中,单独使用布局分支Φ布局。此设置对于确定学习的布局潜在空间的表现力是理想的,因为不会导致差异通过从图像到布局潜在空间的转换。然而,另一种配置是更现实的场景,其中RGB全景被用作查询图像,Φimage将它们映射到LaLaLoc对于基线比较,我们包括基于ICP的方法的结果类似的方法被广泛用于像用于运动估计[22]、场景重构、地图构建和定位[25]的机器人技术等领域。补充资料中提供了该方法的实施细节。此外,我们还与HorizonNet形成的基线进行了比较[32]。给定一个查询图像,我们使用HorizonNet来显式预测其布局。然后,我们通过深度之间的L1距离从采样网格中重新检索最近的邻居。我们在最近的邻居处执行初始化的VDR。最后,我们在预测布局和从平面图渲染的布局之间执行值得注意的是,这是HorizonNet执行本地化的重要扩展在以下实验中编译各种性能度量,这些实验涉及检索和姿势的最终估计。检索度量提供了对第一定位阶段的性能的洞察:布局召回率@1测量预测的最近邻布局是最相似布局的时间比例; Pose Recall@1测量预测的最近邻居的分数,该预测的最近邻居是具有与查询最近的姿势的邻居。定位精度由下式给出:中值姿态误差作为查询和预测姿态之间的中值距离;准确度<τ列出了定位到在阈值内,τ。7.1. 使用平面图进行本地化通过第5节中概述的完整定位程序,我们在表1中详细介绍了LaLaLoc首先值得考虑的是检索的准确性。布局到布局检索性能仅从布局预言略微恶化,这表明潜在空间能够查询类型模型布局R@1姿势R@1定位精度中位数(cm)1cm 5cm10cm<1mOracle百分百百分之九十一点一20.4百分之零点三3.61%13.5%92.9%二维ICP布局--0.587.9%百分之九十九点八百分之九十九点八百分之九十九点九10112×个×个图4.失败示例。顶部:由于布局的不明确性而检索到错误的房间的情况,但是对齐通常与查询图像中看到的布局一致。Bot- tom:检索到正确的房间,但对齐不正确。在这些情况下,通常会看到房间角落与对象(例如桌子和台面)的边缘不正确地对齐。捕捉布局非常好。为了对此进行定性确认,我们在图3中绘制了地面实况和推断的布局距离。可以看出,布局之间的推断的差异或相似性高度代表了地面实况。鉴于增加的困难,从RGB图像中推断布局,交叉模态检索性能的LaLaLoc,如图3中定性看到的,是非常好的。这是强调检索的准确性,其中87.5%的检索是在1米的真实姿势,因此在半径内的沃格尔光盘细化。在布局到布局配置中,LaLaLoc能够与我们的ICP基线竞争。这是ICP的理想情况,因为它直接计算点云上的对齐,这两者都是已知的精确比例,而LaLaLoc在引用和查询之间引入了一层抽象在全景到布局设置中,我们看到LaLaLoc优于测试的基线,包括涉及使用HorizonNet [32]进行显式布局预测并将其与已知平面图几何形状对齐的方法。我们在图4中看到了LaLaLoc最常见的是检索到具有相似几何图形的错误房间。在这种情况下,姿态通常仍然被细化到产生合理对准的位置在另一种情况下,重新检查了正确的房间,但对准不正确。在这种情况下,我们经常会看到地板或墙壁边缘与房间中的对象对齐,这表明细化可能已经陷入局部最小值。在表2中,我们提供了用于采样的姿态的较低分辨率网格的定位性能的进一步结果。具体来说,我们采样的分辨率为1米1米,而不是原来的0.5米0.5米。尽管检索误差是0.5米网格的两倍多,但LaLaLoc仍然能够在其细化阶段从中恢复,最终精度仅略有下降。定位误差方法Med.<1cm 10cm1mRetr. Oracle 42.7 0.0% 2.9% 75.7%二维ICP 0.776.9% 99.4% 99.6%LaLaLoc0.556.1% 70.5% 84.3%二维ICP 21.77.3%34.7% 69.4%拉腊洛克11.52.6%46.1% 79.5%表2.在较低分辨率1m× 1m网格上采样时的定位性能。家具布局姿势中间带表3.家具水平对本地化性能的影响。LaLaLoc使用全细化方案(VDR + LPO)运行,用于计算定位误差。7.1.1家具水平的鲁棒性在第二个测试设置中引入家具后,LaLaLoc的有效性变得显而易见。LaLaLoc现在在几乎所有评价指标中均 显 著 优 于 ICP 基 线 。 在 表 3 中 , 我 们 通 过 评 估Structured3D数据集中提供的性能来进一步分析家具配置对最终定位准确度的影响。 这里,变得明显的是,尽管ICP基线在对地面实况布局进行操作时表现得非常好,但是当查询类型变得越来越多时,其性能显著下降。另一方面,结果表明,LaLaLoc看到很少恶化的干扰物的数量在场景中增加,从空到满。这表明LaLaLoc内的Φ图像能够从RGB图像准确地推断房间布局,即使当房间杂乱时。7.1.2姿态细化为了评估LaLaLoc的姿势细化的性能具体而言,我们研究了Vogel Disc重新采样和潜在姿势优化的组合,以改善通过检索预测的粗糙姿势我们还包括一个明确的预测和对齐策略,“VDR +解码”。这通过保持解码器不进行训练并使用它来显式地预测查询布局来实现Pose是前-躺帕诺水平法R@1R@1误差(cm)空2D ICP--2.4拉拉洛克百分之七十六点四百分之七十四5.7简单2D ICP--10.010113表4.潜在姿势优化与渲染和比较方法“解码”以及与无优化的比较。所有细化方法都是在从我们的Vogel圆盘重新采样返回的姿势处初始化的。图5.在执行潜在姿势优化之前,对Vogel Disc的采样密度的影响进行调查我们include的结果执行潜在的姿势优化,而无需预先的Vogel光盘重新采样,以及参考初始检索精度用于初始化这些细化方案。通过对L1距离进行基于梯度的优化来指示在预测布局和来自楼层平面图的渲染布局之间结果列于表4中。的VDR和LPO细化阶段的LaLaLoc都被证明是有效的,每一个能够提高检索单独。我们单独应用的潜在姿势优化优于VDR,相似性回忆姿势误差校正度量@1中位数(cm)房间构成百分百19.8百分百边缘79.3%20.383.6%结果是潜在空间内的优化导致优异的结果。事实上,通过解码的细化姿态我们认为,在细化精度的差异可以解释为布局更容易捕捉布局的潜在空间,比他们是明确的,即明确预测。简单的深度解码器可能不够复杂以预测适合于该细化的布局毕竟,一般房间布局的预测本身就是一个活跃的研究领域[16,32,31]。作为潜在姿势优化的进一步评估,我们在朴素VogelDisc细化策略中使用不同数量的更密集采样的姿势进行细化。如在图5中可以看到的,来自重新采样的益处该实验还证明了潜在姿势优化从由Vogel Disc重新采样提供的在所有测试的配置中,潜在姿势优化能够改善重新采样的最近邻,并且准确度的降低远没有那么严重。7.2. 消融在本节中,我们验证了LaLaLoc设计的各个组成部分除非另有说明,否则结果都是验证准确性并且仅对应于检索,而不执行姿势细化在实验中,我们用 * 标记我们选择的设计。表5.Structured3D验证分割上本地化任务的布局相似性度量评估姿势指的是在采样网格中拾取离查询最近的位置。7.2.1布局相似性度量当从平面图讨论定位时,认为房间形状彼此相同并不是不合理的,因此导致显著的模糊性并且在没有其他线索的情况下在某种程度上,当仅相对于布局进行本地化时,不能完全消除这种模糊性。然而,我们假设,有显着差异之间的布局representations和各自的措施相似性,在他们的敏感性,这种歧义。这意味着,如果选择了错误的度量标准,布局相似性可能会成为本地化的表达信号。因此,我们探讨了一个任意的房间布局的表示提供了最佳的本地化性能。具体来说,我们评估四个表示和布局相似性度量对:边缘,布局中边缘像素集之间的2D倒角距离,表示为边缘分割,在[ 6 ]中用于平面图定位;深度,定义为渲染为深度图像的布局之间的L1距离;相对深度,相对深度图像之间的L1距离(所有图像中的最大深度值= 1);和倒角距离,其中深度图像被反向投影,并且倒角距离在所得到的点云之间被计算。我们在表5中列出了结果。从表中可以看出精制方法Med.定位错误<1cm 5cm 10cm检索22.5百分之零点三3.19%百分之十一点八仅VDR11.0百分之零点八百分之十五点一百分之四十五点三但最佳定位性能是通过使用深度80.3%20.184.0%重新采样以初始化潜在姿势优化。Rel. 深度百分之七十七点一20.185.4%与解码基线相比,从图中可以清楚地看出:倒角 *百分之九20.092.1%10114查询训练布局姿势中位数类型常规R@1 R@1误差(cm)端到端81.1% 80.4% 20.92级 *89.3% 87.6% 19.9端到端24.4% 23.7% 62.72级 *70.7% 70.5% 21.7表6.检索与Structured3D验证分割的端到端培训的比较。布局姿势中间带损失R@1 R@1误差(cm)Oracle 100% 90.8% 20.0表7. Struc-tured 3D验证集上的布局到布局教师模型消融。我们评估用于训练布局分支的每个损失的贡献。将布局表示为具有倒角距离的点云提供了所测试的那些的最佳公式,显著优于所测试的基于图像的相似性度量。7.2.2端到端培训我们将我们提出的2阶段培训与端到端的制定进行比较。我们使用与前面描述的相同的损失,但是我们发现当应用于L 2时,最好削减g的梯度。因此,Φ布局仅被优化以最小化Φ对数比和Φ解码,反映2阶段方法。在表6中,我们列出了这种训练策略的结果。Φlayout仍然能够学习代表性的潜在空间,尽管与单独训练时相比明显更少。然而,Φimage在以这种方式训练时表现非常差,尽管尝试了许多不同的损失缩放因子。我们假设其他损失污染了Φ图像的成分,类似于为训练Φ图像引入附加损失,如稍后所探讨的。有了这个,我们的两阶段训练似乎更有效,或者至少更宽容。7.2.3布局潜在空间学习在这里,我们评估多个目标函数来学习LaLaLoc结果在表7中列出,其中我们看到对数比损失和解码器损失的组合为布局相似性匹配和定位提供了最有效的潜在空间。值得注意的是,看起来自动编码器公式比单独使用关系相似性约束的训练更具代表性。布局姿势中位骨干预测值R@1 R@1误差(cm)ResNet18* FC*89.3% 87.6% 19.9ResNet50 FC 87.5% 85.3% 20.0ResNet18 MLP 87.2% 86.3%19.9表8. Structured3D验证分割上Φ布局的网络架构比较。布局位姿中值损失R@1R@1误差(cm)Oracle 100% 90.8% 20.0L2*70.7% 70.5% 21.7′对数比59.6% 56.9% 25.1L2+L2+表9.Structured3D验证集上的图像到布局模型消融我们评估用于从冻结布局分支训练Φ图像的每个损失的贡献。在表8中,我们评估了Φ布局的一些替代架构。具体来说,我们测试用ResNet50替换ResNet18骨干,并在池化后用2层MLP替换单个完全连接的层。虽然所有的选项执行类似,我们发现,最简单的架构产生了最好的检索结果。7.2.4将图像映射到潜在空间当训练Φ图像时,对于如何最好地学习RGB图像到现有潜在空间的映射存在许多可能性在表9中,我们列出了在LaLaLoc设计中考虑的各种训练目标的结果。在本表中:’log ratio是指原始损失的跨模态自适应,其中g p由f p代替;补充材料中提供了这些损失的方程式。有趣的是,最简单的目标,减少图像嵌入和其相应的布局嵌入之间的欧氏距离,导致了最好的结果。8. 结论在本文中,我们提出了LaLaLoc,本地化的方法,本地化的RGB查询到一个已知的平面图匹配的潜在空间,编码布局相似性。我们进一步利用这种表现力的潜在空间,通过微分渲染的直接姿态优化我们表明,LaLaLoc是能够本地化与相当的准确性,在看不见的或高度动态的环境。躺RGB对数比78.8%百分之七十七点三20.5解码百分之九十点九84.6%20.110115引用[1] Relja Arandjelovic,Petr Gronat,Akihiko Torii,TomasPa-jdla,and Josef Sivic. Netvlad:用于弱监督位置识别的CNN架构。在IEEE计算机视觉和模式识别会议论文集,第5297-5307页,2016年。二个[2] Vassileios Balntas、Shuda Li和Victor Prisacariu。Reloc-net:使用神经网络的连续度量学习重新定位。在欧洲计算机视觉会议(ECCV)的会议记录中,第751-767页,2018年。二个[3] P. J. Besl 和 N.D. 麦 凯 一 种 三 维 形 状 配 准 方 法 IEEETransactionsonPatternAnalysisandMachineIntelligence,14(2):239-256,1992。二个[4] P. Biber和W.斯特拉瑟正态分布变换:一种新的激光扫描匹配方法在Proceedings 2003 IEEE/RSJ InternationalConference on Intelligent Robots and Systems ( IROS2003)(Cat. No.03CH37453),第3卷,第2743-2748页,第3卷,2003。二个[5] 赫尔曼·布鲁姆、朱利安·斯蒂费尔、塞萨尔·卡德纳、罗兰·西格瓦特和阿贝尔·高维尔。建筑三维平面图中机器人 的 精 确 定 位 。 arXiv 预 印 本 arXiv : 2006.05137 ,2020。2[6] Federico Boniardi、Abhinav Valada、Rohit Mohan、TimCaselitz和Wolfram Burgard。使用房间布局边缘提取网络在楼层平面图中的机器人定位。arXiv预印本arXiv:1903.01804,2019。二、七[7] Eric Brachmann、Alexander Krull、Sebastian Nowozin、Jamie Shotton、Frank Michel、Stefan Gumhold和CarstenRother。用于摄像机定位的可微分变换。在IEEE计算机视觉和模式识别会议论文集,第6684-6692页二个[8] Eric Brachmann和Carsten Rother。学习越少越好-通过3d表面回归的6d相机定位在IEEE计算机视觉和模式识别会议论文集,第4654-4662页,2018年二个[9] Eric Brachmann和Carsten Rother。专家样本共识适用于相机重新定位。 在IEEE/CVF计算机视觉国际会议论文集,第7525-7534页,2019年。二个[10] Samarth Brahmbhatt,Jinwei Gu,Kihwan Kim,JamesHays,and Jan Kautz.用于相机定位的地图的几何感知学习。 在IEEE计算机视觉和模式识别会议论文集,第2616- 2625页,2018年。二个[11] Mar c elaCar v alho , BertrandLeSaux , PaulineTrouv e´-Peloux,Andr e´ sAlmansa,andFre´ d e´ ricChampagnat. 关于深度估计的回归损失2018年第25届IEEE国际图像处理会议(ICIP),第2915-2919页IEEE,2018年。三个[12] Wenzheng Chen , Jun Gao , Huan Ling , Edward JSmith , Jaakko Lehtinen , Alec Jacobson , and SanjaFidler.学习使用基于插值的可区分渲染器预测3d对象。arXiv预印本arXiv:1908.01210,2019。1、4[13] Mingyu Ding,Zhe Wang,Jiankai Sun,Jianping Shi,and Ping Luo. Camnet:用于相机重新定位本地化在IEEE/CVF计算机视觉国际会议论文集,第2871-2880页,2019年。二个[14] 哈兰·海勒和加埃塔诺·博列洛。使用照相手机在室内环境 中 定 位 和 定 向 。 IEEE Computer Graphics andApplications,28(4):32-39,2008. 二个[15] Geoffrey Hinton Oriol Vinyals和Jeff Dean。 提取神经网络中的知识。arXiv预印本arXiv:1503.02531,2015。三个[16] Henry Howard-Jenkins,Shuda Li,and Victor Prisacariu.跳出框框思考:生成无约束的3D房间布局。亚洲计算机视觉会议,第432-448页。Springer,2018. 七个[17] 亚历克斯·肯德尔和罗伯托·西波拉使用深度学习进行相机 姿 态 回 归 的 几 何 损 失 在 Proceedings of the IEEEConference on Computer Vision and Pattern Recognition中,第5974-5983页,2017年。二个[18] AlexKendallMatthewGrimes 和 RobertoCipollaPosenet:用于实时6-dof相机重新定位的卷积网络。在IEEE计算机视觉国际会议论文集,第2938-2946页,2015年。二个[19] Sungyeon Kim , Minkyo Seo , Ivan Laptev , MinsuCho,and Suha Kwak.超越二进制监督的深度度量学习。在IEEE/CVF计算机视觉和模式识别会议论文集,第2288-2297页,2019年。二、三[20] Hyon Lim , Sudipta N Sinha , Michael F Cohen , andMatthew Uyttendaele.大规模环境下基于实时图像的6-dof定位。2012年IEEE计算机视觉和模式识别会议,第1043IEEE,2012。二个[21] Liu Liu,Hongdong Li,and Yuchao Dai.大规模3d地图中摄像机定位的高效全局2d-3d匹配。在IEEE计算机视觉国际会议论文集,第2372-2381页,2017年。二个[22] Jor geLMart'ınez,Ja vierGonza' lez,Jesu' sMorales,AnthonyMandow,and Alfonso J Garc' ıa-Cerezo.移动机器人运动估计的二维扫描匹配与遗传和迭代最近点算法。Journal of Field Robotics,23(1):21-34,2006. 五个[23] Andrea Palazzi , Luca Bergamini , Simone Calderara ,and Rita Cucchiara.通过可微分光栅化的端到端6-dof对象姿态估计。在欧洲计算机视觉会议(ECCV)工作室会议记录中,第0-0页,2018年。1、4[24] FrancisColas和RolandSiegwart。移动机器人点云配准算法综述。Foundations and Trends in Robotics,4(1):1-104,2015. 二个[25] Jose-Raul Ruiz-Sarmiento 、 Cipriano Galindo 和 JavierGonzalez-Jimenez。为移动机器人操作建立多通用语义地图。基于知识的系统,119:257-272,2017。五个[26] Paul-Edouard Sarlin,Cesar Cadena,Roland Siegwart,and Marcin Dymczyk.从粗到细:大规模的鲁棒分层定位。在IEEE/CVF计算机视觉和模式识别会议论文集,第12716-12725页,2019年。二个10116[27] Torsten Sattler , Qunjie Zhou , Marc Pollefeys , andLaura Leal-Taixe.了解基于cnn的绝对相机姿态回归的局限性。在IEEE/CVF计算机视觉和模式识别会议论文集,第3302-3312页,2019年。二个[28] 格兰特·辛德勒马修·布朗理查德·塞利斯基城市规模的位置识别。2007年IEEE计算机视觉和模式识别会议,第1IEEE,2007年。二个[29] Aleksandr Segal,Dirk Haehnel,and Sebastian Thrun.广义ICP 机器人:科学与系统,第2卷,第435页。2009年,华盛顿州西雅图。二个[30] Jamie Shotton 、 Ben Glocker 、 Christopher Zach 、Shahram Izadi、Antonio Criminisi和Andrew Fitz
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功