没有合适的资源?快使用搜索试试~ 我知道了~
在线相机重新定位的适应性森林方法
1用于在线相机重新定位的托马索·卡瓦拉里1Stuart Golodetz2分钟尼古拉斯·A. 主2Julien Valentin3Luigi Di Stefano1Philip H. S. Torr21博洛尼亚大学计算机科学与工程系2牛津大学工程科学系3perceptiveio,Inc.1{tommaso.cavallari,luigi.distefano}@ unibo.it2{smg,nicklord,phst}@ robots.ox.ac.uk3julien@perceptiveio.com摘要摄像机重定位是计算机视觉中的一个重要问题,在同时定位和地图绘制、虚拟/增强现实和导航等领域有着广泛的应用。常见技术或者将当前图像与具有来自跟踪器的已知姿态的关键帧进行最近,回归森林已成为建立这种对应关系的一种流行的替代方法。它们可以获得准确的结果,但必须在目标场景中进行离线训练,防止在新环境中重新定位在本文中,我们展示了如何通过使预先训练的森林适应新场景来规避我们的适应性森林实现了与离线森林相当的每秒钟重新定位,并且我们的方法在150毫秒以下运行,这对于需要在线重新定位的实时系统来说是理想的1. 介绍摄像机姿态估计是计算机视觉中的一个重要问题,在同时定位和映射(SLAM)[29,28,19]、虚拟和增强中现实[1,4,14,30,31,38]和导航[21]。在SLAM中,相机姿态通常在开始重建时初始化,并且然后从一个帧到下一个帧被跟踪,但是跟踪可能由于例如以下原因而容易丢失场景中的快速移动或无纹理区域;当这种情况发生时,重要的是能够相对于场景重新定位相机,而不是迫使用户从头开始重新重建在试图构建全球一致的地图时,相机重新定位对于环路闭合也至关重要*S. Golodetz和N.主断言联合第二作者。[7、18、40]。传统的相机重新定位方法是基于两个主要范例之一:(i) 图像匹配方法将来自相机的当前图像与存储在图像数据库中的关键帧进行匹配(在必要时,可能在关键帧之间进行一些插值)。例如,Galvez-Lopez等人。[10]描述了一种方法,该方法基于当前图像的BRIEF描述符来计算二进制字袋,并使用L1得分将其与数据库中关键帧的二进制字袋进行比较。Gee等人。[12]从一组合成(即,渲染的)场景的视图。他们的方法很有趣,因为与许多图像匹配方法不同,他们在某种程度上能够从新的姿势重新定位;然而,复杂性随着所需合成视图的数量线性增加,这对实际使用造成了重大限制Glocker等人[13]使用Randomised Ferns对帧进行编码,当在图像上进行评估时,会产生二进制代码,可以通过它们的汉明距离快速匹配:如[ 23 ]中所述,这使得他们的方法在实践中比[ 12 ]快得多。(ii) 基于关键点的方法找到当前图像中的关键点与3D场景点之间的2D到3D对应,以便部署例如透视n点(PSNR)算法[16](在RGB数据上)或Kabsch算法[17](在RGB-D数据上),以生成多个摄像机姿态假设,这些假设可以使用RANSAC [ 8 ]修剪成单个假设。例如,Williams et al.[41]使用随机列表的集合来识别/匹配关键点,并且在生成假设时排除不可靠或模糊的他们的方法是快速的,但需要大量的内存来存储列表。Li等人[23]使用图形匹配来帮助区分视觉上相似的关键点。他们的方法使 用BRISK 描 述 符作 为 关 键 点, 运 行 速 度 约为 12FPS。Sattler等人[32]描述了一种大规模的本地化方法,44574458RGB深度重建场景...RGB深度重建场景...培训前在线调整相机姿态估计RGB深度...姿势假设1姿势假设N抢先RANSAC输出姿态假设图1:我们的方法概述。 首先,我们离线训练回归森林来预测2D到3D的对应关系,一个普通的场景为了使这个森林适应新的场景,我们删除了森林树叶中的场景特定信息,同时保留了树木的分支结构(使用学习的分裂参数);然后,我们使用来自新场景的训练示例在线重新填充叶子。可以部署适应的森林来预测新场景的对应关系,这些对应关系被馈送到Kabsch [17]和RANSAC [8]以进行姿态估计。在应用6点DLT算法来计算姿态假设之前,在2D到3D和3D到2D方向上的对应关系他们使用一个视觉词汇来根据建立潜在匹配的成本来排序。一些混合方法使用这两种范例。例如,Mur-Artal etal.[27]描述了一种重新定位方法,该方法最初使用词袋识别[ 11 ]找到姿势候选者,他们将其纳入其更大的ORB-SLAM系统(与[10]不同,他们使用ORB而不是BRIEF特征,他们发现这可以提高性能)。然后,他们 使 用 PADER 和 RANSAC 来 细 化 这 些 候 选 姿 势Valentin等人[36]提出了一种方法,该方法使用检索森林和多尺度导航图的组合来找到初始姿势候选者,然后使用连续姿势优化来细化它们。也尝试了一些不太传统的方法。Kendall等人[20]训练卷积神经网络以从当前图像直接回归6D相机姿势。Deng等人[6]将表示场景的3D点云与从一组查询图像构建的本地3D点云进行匹配,该查询图像可以由用户递增地扩展以实现成功的匹配。Lu等人[24]执行3D到3D定位,使用运动恢复结构从短视频重建3D模型,并将其与多任务点检索框架内的场景进行匹配。最近,Shotton et al.[34]提出了使用回归森林来直接预测当前图像中所有像素的场景中的3D对应。与传统的基于关键点的方法相比,这有两个关键优势:(i)不需要关键点的显式检测、描述或匹配,使得该方法更简单且更快速,以及(ii)可以使用显著更大数量的点来验证或拒绝相机姿态假设。然而,它受到需要离线(提前)在场景上训练回归森林的关键限制,这防止了实时相机重新定位。后续工作显著改善了[34]的重新定位性能。例如,Guzman-Rivera et al.[15]依赖于多元回归森林来生成多个相机姿态假设,然后将它们聚类,并使用其姿态最小化重构误差的聚类的平均姿态作为结果。Valentin等人[37]用各向异性3D高斯的混合替换[ 34 ]中森林树叶中使用的模式,以便更好地对3D点预测中的不确定性进行建模,并表明通过将其与连续姿势优化相结合,他们可以重新定位比[34]多40%的帧。Brachmann等人[3]部署堆叠的分类回归森林,以实现与[37]的RGB-D重新定位质量相似的结果。Massiceti等人[26]回归森林之间的地图4459niΩΩ和神经网络,以尝试利用神经网络的性能优势进行密集回归,同时保留随机森林的效率进行评估。他们使用鲁棒几何中值平均来实现RGB本地化的约7%的改进[3然而,尽管所有这些进步,这些论文都没有消除提前在感兴趣的场景上进行培训的必要在本文中,我们表明,这种需要离线训练的场景感兴趣的,可以克服通过在线适应一个新的场景的回归森林,已预先训练的通用场景。我们实现了真正的动态重新定位,类似于使用基于关键帧的方法[13]可以获得的重新定位,但总体上具有显着更高的重新定位性能,以及我们可以从新姿势重新定位的特定优势事实上,我们的适应性森林实现了与离线训练的森林竞争的重新定位性能,同时不需要在感兴趣的现场进行预先训练,并接近实时地重新定位。这使得我们的方法成为一种实用和高质量的替代基于关键帧的方法在线重新定位在新的场景。2. 方法2.1. 概述图1显示了我们的方法的概述。最初,我们离线训练回归森林,以预测通用场景的2D到3D对应性,如[37]所述。为了使这个森林适应新的场景,我们移除森林中叶子节点的内容(即,GMM模式和相关联的协方差矩阵),同时保留树的分支结构(包括学习的分裂参数)。然后,我们在线调整森林以适应新场景,方法是向森林中的训练样本提供数据以填充空叶子,动态学习一组特定于该场景的叶子分布其中,D(p)是p处的深度,C(p,c)是p处的第c个颜色通道的值,并且k是随机采样的特征参数的向量。对于我们随机生成128个“DA-RGB”。我们将这些函数在每个感兴趣的像素处的评估连接起来,以产生256D特征向量。在训练时,训练示例的集合S,每个训练示例由这样的特征向量f∈R256、其在场景中的对应3D位置和其颜色组成,通过从地面实况RGB-D视频采样,其中每个帧具有已知的相机姿态(通过从深度相机输入跟踪获得)。这些训练示例的随机子集被选择来训练森林中的每棵树,然后我们并行地训练所有的树。从每个树的根开始,我们递归地将当前节点中的训练示例集分成两个,使用二进制阈值函数。决定如何分割对于每个节点n,我们随机生成512个可分割参数对的集合Θn,其中每个θ=(φ,τ)∈Θn表示二元阈值函数θ(f)=f[φ] ≥ τ。(三)其中,φ∈[0,256)是随机选择的特征索引,τ∈R是阈值,被选择为随机选择的训练示例中的特征φ的例子通过测试的被路由到n的右子树;剩余的被路由到左。为了选择一个合适的分裂函数,我们使用穷举搜索来找到一个θn∈θn,其相应的分裂函数使信息增益最大化这可以通过分裂达到n的训练示例来实现。形式上,对应于分裂参数θ∈Θn的信息增益为现场因此,森林可用于预测可用于相机姿态估计的新场景的对应性重用树结构备件ΣV(Sn)−i∈{L,R}|S i(θ)|V(Sn(θ)), (4)|S n|我们从昂贵的离线学习部署在一本小说场景,允许在飞行中重新定位其中V(X)表示集合X的空间方差,并且SL(θ)和SR(θ)表示左子集和右子集,n n2.2. 细节2.2.1离线森林培训训练如[37]中所述,在简单阈值函数的随机参数上对标准的空间方差减少目标进行了像[37]一样,我们使用其中训练样本的集合Sn<$S达到n是由θ表示的分裂函数分割。 空间变异根据拟合的3D高斯协方差行列式的对数定义方差[37]。对于一个给定的树,上述过程简单地递归到最大深度15。在[37]中,我们每个森林训练5棵树。叶中的(近似的,经验的)分布在这个过程结束时被丢弃(我们替换为在线森林适应过程中,如下文所述)。f深度=D(p)−D.Σδp+D(p)(一)2.2.2在线森林适应.fDA-RGB=C(p,c)−Cp+Σδ得双曲余切值.D(p)(二)4460为了使森林适应新的环境,我们在预训练结束时替换从其叶子中丢弃的分布4461(a)(b)第(1)款图2:在线自适应对预训练森林的影响的说明性示例:(a)显示了在来自7-Scenes数据集的Chess场景上预训练的森林的少量随机选择的叶子中存在的模态[34](每个模式的颜色表示其包含的叶子);(b)显示了在使森林适应厨房场景的过程中添加到相同叶子的模态聚类。而动态更新的则完全来自新场景。在这里,我们详细介绍了如何重新定位器使用的新的叶分布计算和在线更新。我们从水库取样[39] 在SemanticPaint [38]中,它可以在有限的内存中存储经验分布的无偏子集在初始化时,我们(在GPU上)为前森林的每个叶子分配一个固定大小的样本库。我们的储存库包含多达1024个条目,每个条目存储3D(世界坐标)位置和相关颜色。 在运行时,我们传递训练示例(作为根据§2.2.1)沿着森林向下,并识别每个示例映射到的叶子然后我们添加3D位置,每个例子的颜色与其叶子相关的水库。为了获得训练示例的3D位置当对来自数据集的序列进行测试时,这通常可用作地面实况相机姿态,但在现场场景中,它通常将作为易出错跟踪器的输出获得。为了避免破坏森林中的水库,我们避免在跟踪不可靠时将新的样本传 递 到 森 林 我 们 使 用 [18] 中 描 述 的 支 持 向 量 机(SVM)方法来测量跟踪器的可靠性对于可靠的相机姿态可用的帧,我们进行如下:1. 首先,我们计算图像中像素子集的特征向量,如§2.2.1所述。我们通过在具有4像素间距的规则网格上密集地进行子采样来经验性地选择子集,即,我们选择像素{(4i,4j)∈[0,w)×[0,h):i,j∈N},其中w和h分别是图像的宽度和高度。2. 接下来,我们将每个特征向量传递到森林中,添加相应的3D位置和颜色。场景指向每棵树中到达的叶子的水库。我们基于CUDA的随机森林实现使用[33]中描述的节点索引。3. 最后,对于每个叶子水库,我们使用真正快速移动(RQS)[9]的CUDA实现对包含的点进行聚类,我们在每个叶子中按大小递减的顺序对聚类进行排序,并且每个叶子最多保留10个模态聚类对于我们保留的每个聚类,我们计算3D和颜色质心以及协方差矩阵。在估计以下可能性时使用聚类分布:相 机 姿 态 , 以 及 连 续 姿 态 优 化 期 间 ( 参 见§2.2.3)。由于在森林中的所有叶子上运行RQS如果在单个帧中运行将花费太长时间,因此我们通过以循环方式在每个帧中并行更新256个叶子来一个典型的森林大约有42000片叶子,所以每片叶子大约每6秒更新一次。根据经验确定上述库大小、每叶的模态聚类数和每帧更新的叶数,以实现在线处理速率。图2说明了在线自适应对预训练森林的影响:(a)显示了在7-Scenes数据集[34]的Chess场景上预训练森林的一些随机选择的叶子中存在的模态聚类;(b)显示了在将森林适应厨房场景的过程注意,虽然预测模式的位置已经(毫无疑问地)完全改变,但森林的分支节点中的分割函数4462我我我我2.2.3相机姿态估计如在[37]中,相机姿态估计基于[5]的抢先的局部优化的RANSAC。我们首先随机生成一组初始的1024个姿势,假设假设H∈SE(3)是一个变换将相机空间中的点映射到世界空间。 为了-假设每个姿势,我们应用Kabsch算法-rithm [17]到形式为(xC,xW)的3个点对,其中在此初始挑选之后,我们使用抢先RANSAC将剩余≤64个假设修剪为单个最终假设。我们迭代地(i)扩展样本集I(每次添加500个新像素),(ii)通过Levenberg-Marquardt优化[22,25]来细化姿势。能量函数E,(iii)重新评估和重新评分的假设,和(iv)丢弃较差的一半。在实践中,实际优化不是在SE(3)中执行的,在SE(3)中,实际优化将C −1ii很难做,但在相应的李代数se(3)中。Xi =D(ui)K(ui,1)是通过将a其中,X是从实时深度图像D中随机选择的点ui到相机空间中的对应场景点,并且XW是从M(u i)随机采样的世界空间中的对应场景点,M(u i)是森林将ui映射到的叶子的模式。其中,K是深度相机的固有校准矩阵在ac-接受一个假设,我们要对它进行一系列的检验:1. 首先,我们随机选择三个点对(xC,xW),并比较核心的RGB颜色这个过程的细节可以在[37]中找到,李代数的更长解释可以在[35]中找到。这个过程产生一个单一的姿势假设,如果需要,我们可以返回然而,在实践中,进一步的姿势细化有时是可能的。例如,如果我们的重新定位器被集成到诸如InfiniTAM [18]的开源3D重建框架中,则我们可以尝试使用ICP [2]进一步细化姿态。 由于像3D这样的任务,建筑是我们方法的关键应用之一我我将彩色输入图像中的像素ui对应于我们从中采样xW的模式的颜色质心(参见§ 2.2.2)。我们拒绝假设,如果两者之间的L0距离超过阈值。2. 接下来,我们检查三个假设场景点彼此足够远。我们拒绝假设,如果任何一对点之间的最小距离小于30厘米。3. 最后,我们检查所有场景点对与它们对应的反向投影深度点对之间的距离是否足够相似,即,假设的变换是“足够刚性的”。我们拒绝假设,当情况并非如此。如果一个假设被其中一个检查拒绝,我们会尝试生成一个替代假设来替换它。在实践中,我们使用1024个专用线程,每个线程尝试生成一个假设。每个线程继续生成假设,直到(a)它找到通过所有检查的假设,或者(b)达到最大迭代次数无论我们在这个过程结束时得到多少个假设,我们都继续下去。在生成了大量的初始假设集之后,我们接下来通过对每个假设进行评分并保留64个最低能量的变换(如果少于64个假设,我们将保留所有假设),将其削减到更小的规模为了给假设打分,我们首先选择一个初始集合,I={i},并且如上所述将未标注的像素ui反向投影到相机空间中的对应点xC。然后,我们对每个假设H进行评分,将每个xC在H下的变换与其最近模式之间的马氏距离求和:我们在表1中报告了使用和不使用ICP的结果。3. 实验我们进行定量和定性实验来评估我们的方法。在第3.1节中,我们将我们的自适应方法与直接在感兴趣的场景中训练的最先进的离线重定位器进行了比较。我们表明,我们适应的森林实现了竞争性重新定位,尽管在非常不同的场景中进行训练,但它们的性能仍然很好,使其能够用于在线重新定位。在§ 3.2中,我们证明了我们可以从实时序列中实时执行这种自适应,使我们能够支持跟踪丢失恢复。在交互式场景中。在§ 3.3中,我们评估了我们的方法与以下方法相比,基于关键帧的随机蕨类植物重定位器基于[13]。这种重定位器对于即时重定位也是实用的(因此它在InfiniTAM中使用[18]),但是它对关键帧的使用阻止了它很好地推广到新的姿势。相比之下,我们甚至可以从离训练轨道很远最后,在§3.4中,我们比较了我们的方法与随机蕨类植物的速度在正常操作(即,当场景被成功跟踪时)和重新定位。我们的方法比随机蕨类植物慢,但仍然接近实时,并实现了更高的重新定位性能。进一步的分析见补充材料。3.1. 调适性能在评估我们能够在多大程度上适应回归森林已经在与感兴趣的场景不同的场景上被预先训练,我们寻求回答两个问题。首先,一个适应的森林与一个Σ。E(H)=min¨ ¨Σ-1C-已经在目标现场离线训练过了第二、在多大程度上适应了森林i∈I¨(μ,μ)∈M(ui)2(Hxi−µ)?(五)在预先训练好的场景上停留?敬-4463训练场景国际象棋消防队长办公室南瓜厨房楼梯我们的(作者测试场景国际象棋消防首长办公室南瓜厨房楼梯平均(所有场景)雷洛克99.8% 95.7% 95.5% 91.7% 82.8% 77.9% 25.8% 81.3%+ ICP 99.9% 97.8% 99.5% 94.1% 91.3% 83.3% 28.4% 84.9%Reloc 98.4% 96.9% 98.2% 89.7% 80.5% 71.9% 28.6% 80.6%+ ICP 99.1% 99.2% 99.9% 92.1% 89.1% 81.7% 31.0% 84.6%Reloc 98.0% 91.7% 100% 73.1% 77.5% 67.1% 21.8% 75.6%+ ICP 99.3% 92.3% 100% 81.1% 87.7% 82.0% 31.9% 82.0%雷洛克99.2% 96.5% 99.7% 97.6% 84.0% 81.7% 33.6% 84.6%+ ICP 99.4% 99.0% 100% 98.2% 91.2% 87.0% 35.0% 87.1%Reloc 97.5% 94.9% 96.9% 82.7% 83.5% 70.4% 30.7% 75.5%+ ICP 98.9% 97.6% 99.4% 86.9% 91.2% 82.3% 32.4% 84.1%雷洛克99.9% 95.4% 98.0% 93.3% 83.2% 86.0% 28.2% 83.4%+ ICP 99.9% 98.2% 100% 94.5% 90.4% 88.1% 31.3% 86.1%Reloc 97.3% 95.4% 97.9% 90.8% 80.6% 74.5% 45.7% 83.2%+ ICP 98.0% 97.4% 99.8% 92.1% 89.5% 81.0% 46.6% 86.3%雷洛克97.3% 95.7% 97.3% 83.7% 85.3% 71.8% 24.3% 79.3%雷洛克98.4% 95.3% 97.9% 87.8% 82.2% 75.2% 29.8% 80.9%表1:在7-Scenes数据集的各种场景上进行预训练后,我们的自适应方法的性能[34]。我们在左栏中展示了用于预训练森林的场景。预训练的森林在线适应测试场景,如正文所述百分比表示≤5cm的测试框架的比例平移误差和≤5°角误差。为了解决这两个问题,我们比较了在各种场景上预先训练的适应森林的性能(来自7场景数据集的每个场景[34],加上包含第一作者的办公桌的新场景我们的方法使用的确切测试过程如下。首先,我们在一个通用场景上预训练一个森林,并删除其叶子的内容,如§ 2所述:这个过程离线运行数小时甚至数天(但我们只需要做一次)。 接下来,我们调整森林通过从在感兴趣的场景上捕获的训练序列向其馈送新的例子:这以帧速率在线运行(在真实的系统中,这允许我们在训练在后台进行的如图3.2所示)。最后,我们测试适应森林使用它来重新定位从每一帧单独的测试在感兴趣的场景中捕获的序列。如表1所示,结果非常准确。虽然在不同场景上预训练的适应森林所实现的性能肯定存在一些变化(特别是,在来自数据集的Heads和Pumpkin场景上训练的森林稍差),但差异并不深刻:特别地,重新定位性能似乎与感兴趣的场景的难度比与森林被预先训练的场景更紧密地耦合。值得注意的是,我们所有的适应森林都实现了在最先进的离线方法的打击距离内的结果(表2),并且比在线竞争者(如基于关键帧的随机蕨类植物重新定位器immers.com)可以实现的结果要好得多。在InfiniTAM中实现[13,18](参见§3.3)。然而,尽管如此,这里在性能和实用性之间显然要进行权衡:在感兴趣的场景上进行预训练对于即时重新定位是不切实际的,但是可以获得稍微好一些的结果,这可能是由于提供了使森林结构适应目标场景的机会。通过使用Infini-TAM [ 19 ]中的基于ICP的跟踪器[ 2 ]改进我们的重定位器的姿态估计,可以在一定程度上减轻Valentin等人[37]观察到通常用于评估重定位器的5cm/5误差度量是“相当严格,并应允许任何强大的基于模型的跟踪器恢复“。在实践中,基于ICP的跟踪在许多情况下能够以甚至更大的误差从初始姿态恢复:事实上,如表1所示,在启用ICP细化的情况下,我们能够从显著更高比例的测试帧重新定位。虽然ICP显然也可以用于细化离线方法的结果,但在这种情况下,重要的是ICP很快,并且不会显著增加我们方法的整体运行时间,它仍然接近实时。因此,使用ICP改进我们的姿势估计产生了一个高质量的重新定位器,仍然适用于在线使用。3.2. 跟踪损失恢复在§3.1中,我们研究了我们通过用来自该场景的训练序列的数据填充森林的叶子来使森林适应新场景的能力,然后在在同一个场景拍摄的不同测试序列。在这里,我们通过从测试序列中逐帧填充叶子来量化我们在飞行中执行这种适应的能力:这允许在交互式sce- nario中从跟踪丢失中恢复,而不需要对现场序列以外的任何内容进行预先训练,使我们的方法非常一致。+ ICP99.2%百分之九十七点七百分百88.2%百分之九十点六百分之八十二点六31.0%百分之八十四点二+ ICP99.2%97.4%百分之九十九点八百分之九十点九90.1%83.5%33.5%百分之八十四点九4464现场[34][15][37][3]联系我们联系我们+ICP国际象棋92.6% 96% 99.4% 99.6% 99.2% 99.4%火灾82.9% 90% 94.6% 94.0% 96.5% 99.0%头49.4% 56% 95.9% 89.3% 99.7% 100%办公室74.9% 92% 97.0% 93.4% 97.6% 98.2%南瓜73.7% 80% 85.1% 77.6% 84.0% 91.2%厨房71.8% 86% 89.3% 91.1% 81.7% 87.0%楼梯27.8% 55% 63.4% 71.7% 33.6% 35.0%平均值67.6% 79.3% 89.5% 88.1% 84.6% 87.1%表2:比较我们的自适应方法与7场景数据集上最先进的离线方法[34](百分比表示≤5cm的测试帧的比例平移误差和≤5°角误差)。 对于我们的方法,我们报告的结果,通过适应森林前,接受过Office序列培训(表1)。我们是com-百分百百分之九十百分之八十百分之七十百分之六十百分之五十百分之四十百分之三十百分之二十百分之十0%的百分比0% 20% 40% 60%80%观察到的试验轨迹%国际象棋消防队长办公室南瓜厨房楼梯与离线方法相比,有时甚至更好,而不需要在测试场景中进行预训练。适用于交互式3D重建等任务。我们的测试程序如下:在每一个新的帧(除了第一帧),我们假设跟踪失败,并尝试使用我们在该点可用的森林重新定位;我们记录这是否成功。无论如何,我们然后恢复地面实况相机姿势(或实时序列中的跟踪相机姿势),并且如果跟踪实际上没有失败,则使用来自当前帧的如图3所示,我们能够在实时序列中几乎立即开始重新定位(在帧的问题上,通常4-6帧就足够了)。随后的表现会根据序列的难度而有所不同,但很少会低于80%,除了chal-chalingStairs序列。这使得我们的方法对于交互式重新定位非常实用,我们也在补充视频中展示了这一点。3.3. 关于Novel Poses为了评估我们的方法如何推广到新的姿势,我们检查了我们可以重新定位的帧的比例如何我们将我们的方法与Infini-TAM [ 18 ]中基于关键帧的重定位器进行比较,该方法基于Glocker等人的随机蕨类方法。[13 ]第10段。从新姿势的重新定位是基于关键帧的方法的一个众所周知的失败案例,因此我们预计随机蕨类植物方法在远离训练轨迹的情况下表现不佳;相比之下,有趣的是,我们的方法可以在多大程度上从广泛的新姿势中重新定位。我们分别对每个7场景序列执行比较对于每个序列,我们首先将测试姿势按姿势nov分组到bin中。根据测试姿态相对于训练轨迹的最大平移和旋转差来指定每个仓(例如,在5cm图3:我们跟踪损失恢复的方法的性能(第3.2节)。直接从测试序列中逐帧填充在Office上预先训练的森林的叶子这使得我们的方法非常实用,活动场景,如3D重建。图4:与基于[13]的基于关键帧的随机蕨类植物重新定位器相比,评估我们的方法如何推广到新的姿势随着测试姿势远离训练轨迹,我们的方法比随机蕨类植物的性能衰减要轻得多任何训练姿势的5cm和5cm被分配给第一个仓,在10cm和10cm内的剩余姿势被分配给第二个仓,等等)。 然后我们确定的测试姿态,对于这些测试姿态,可以使用(a)随机蕨类方法、(b)我们的没有ICP的方法和(c)我们的有ICP的方法将其重新定位到5cm平移误差和5cm所示如图4所示,随着测试姿势远离训练轨迹,我们的方法比随机蕨类植物的性能下降要少得多。图5中显示了我们从新姿势重新定位的能力的定性示例。在主图中,我们展示了一系列测试姿势,我们可以从中重新定位,精确重新定位帧的累积比例4465[18]第十三话美国每帧训练0.9ms9.8ms重新定位10ms141毫秒图5:新姿势的定性示例,我们能够在7-Scenes的Fire序列上重新定位到5cm/5cm以内[34]。姿势新颖性测量训练轨迹(黄色)上测试姿势与附近姿势(蓝色)的距离。我们可以从两个简单的姿势(距离训练轨迹35厘米/35厘米,绿色)和硬姿势(>35厘米/35厘米,红色)。主图下方的图像显示了训练姿势的场景视图和测试姿势。火灾场景,将它们与训练轨迹上的附近姿势联系起来,以说明它们与我们训练过的这些测试姿势中最困难的也显示在下面的图像中,旁边是它们附近的训练姿势,直观地说明了两者之间的显著差异。如图4和图5所示,我们在从与我们训练的姿势显著不同的姿势进行重新定位时已经相当有效;然而,似乎还有进一步改进的可能。例如,这项工作的一个有趣的扩展可能是探索在回归森林中使用旋转不变分裂函数来提高其泛化能力的可能性。3.4. 定时为了评估我们的方法在新场景中用于动态重新定位的有用性,我们将其与在InfiniTAM中实现的基于关键帧的随机蕨类植物重新定位器进行比较[13,18]。为了在实时系统中实用,重定位器需要在正常操作期间实时执行(即,用于在线训练,同时成功地跟踪场景),并且理想地用于重新定位本身(当系统失去跟踪时)花费不超过大约200 ms。因此,重定位器,如[34,15,37,3,26],同时实现IM-表3:比较我们的方法与在正常操作和重新定位期间随机的蕨类植物。我们的方法比随机蕨类植物慢,但实现了显着更高的重新定位性能,特别是从新颖的姿势。我们所有的实验都是在一台配备Intel Core i7- 4960X CPU和NVIDIA GeForce Titan Black GPU的机器上运行的。令人印象深刻的结果,在这种情况下是不实际的,因为它们需要在感兴趣的场景上进行离线训练。如表3所示,随机蕨类植物重定位器对于在线训练和重定位都是快速的,仅花费0。每帧9毫秒更新关键帧数据库,10毫秒在跟踪丢失时重新定位。然而,撇开速度不谈,它能够重新定位的姿势范围相当有限。相比之下,我们的方法,而采取9。8毫秒用于在线训练,141毫秒用于实际重新定位,可以从更广泛的姿势重新定位,同时仍然以可接受的速度运行。此外,应该注意的是,我们目前以研究为重点的实现并没有得到很大的优化,这使得它似乎可以通过额外的工程努力进一步加速。4. 结论近年来,使用回归来预测2D到3D对应关系的离线方法[34,15,37,3,26]已经实现了最先进的相机重新定位结果,但在诸如InfiniTAM [19,18]的实际系统中采用在线重新定位受到了需要提前对目标场景进行广泛训练的阻碍。我们将展示如何通过调整离线训练的回归森林来规避这一限制,以适应在线的新场景。我们的适应森林在7场景上实现了重新定位性能[34],这与现有方法的离线训练森林具有竞争力,并且我们的方法在150ms以下运行,使其在实践中与基于快速关键帧的方法(如随机蕨类植物)具有竞争力[13,18]。与这样的方法相比,我们还能够更好地从新姿势重新定位,使用户在重新定位时免于手动搜索已知姿势。确认我们要感谢VictorPrisacariu和OlafK?hler为我们提供了InfiniTAM源代码。这 项 工 作 得 到 了 EPSRC 、 ERC 资 助 ERC-2012-AdG321162-HELIOS、EPSRC资助Seebibyte EP/M013774/1和EPSRC/MURI资助EP/N 019474/1的支持。4466引用[1] H. 裴 M. 沃克 J·怀特 Y. 潘 Y. 孙先生, 和M.戈帕尔瓦法德快速和可扩展的基于运动的结构定位,用于高精度移动增强现实系统。The Journal ofMobile User Experience,5(1):11[2] Besl和N. D.麦凯一种三维形状配准方法。TPAMI,14(2):239-256,February 1992. 五、六[3] E. Brachmann , F.Michel , A.Krull , M.Y. Yang ,S.Gumhold和C.罗瑟不确定性驱动的6D姿态估计的对象和场景从一个单一的RGB图像。在CVPR,2016年。二三六七八[4] R.卡斯尔湾Klein和D. W.默里可穿戴增强现实中多地图的视频速率局部化。IEEEInternational Symposium onWearable Computers,第15-22页,2008年。1[5] O. Chum、J. Matas和J.基特勒局部优化的RANSAC。在Joint Pattern Recognition Symposium , 第 236-243 页 ,2003年。5[6] L. 邓氏Z.陈湾,澳-地Chen,Y.Duan和J.舟基于增量图像集查询的定位。神经计算,208:315-324,2016。2[7] N. Fioraio,J.泰勒,A. 菲茨吉湖 D. 斯特凡诺,S.伊扎迪使用在线子体积配准的大规模无漂移表面重建。在CVPR,第4475-4483页,2015年。1[8] M. A. Fischler和R.C. 波尔斯随机样本共识:模型拟合的范 例 与 图 像 分 析 和 自 动 制 图 的 应 用 。 CACM , 24(6):381 一、二[9] B. Fulkerson和S.索阿托真正的快速转换:GPU上的图像分割。ECCV,第350-358页,2010年。4[10] D. Ga'l v ez-L o' pez和J. D. 塔尔多。二进制字包的实时循环检测在IROS,第51-58页一、二[11] D. G a'l v ez-Lo' pez和J。D. 太晚了。用于图像序列中快速位置识别的二进制词包RO,28(5):1188-1197,2012. 2[12] A. P. Gee和W.马约尔-奎瓦斯使用合成视图回归的RGBD相机的6D重新定位。在BMVC,第1-11页,2012年。1[13] B.作者声明:A. Criminisi和S.伊扎迪实时RGB-D相机重新定位通过随机蕨类植物的关键帧编码。TVCG,21(5):571-583,May 2015. 一、三、五、六、七、八[14]S. Golodetz*,M.Sapienza*,J.P. C. Valentin,V.Vineet,M.-M. Cheng,V. A. 普里萨卡留岛 Kahler,C. Y. Ren,中国茶条A.阿纳S. L. Hicks , D. W. 默 里 , S 。 Izadi , 和 P. H. S. 乇SemanticPaint:3D世界的交互式分割和学习。ACMSIGGRAPH Emerging Technologies,第22页,2015年。1[15] A. 古兹曼-里韦拉 P. Kohli, B. 格洛克 J·肖顿,T. Sharp,A. Fitzgibbon和S.伊扎迪多输出学习的相机重新定位。在CVPR,第1114-1121页,2014年。二、六、七、八[16] R. Hartley和A.齐瑟曼。计算机视觉中的多视图几何。剑桥大学出版社,第2版,2004年。1[17] W. Kabsch一个解决方案的最佳旋转相关的两组向量。晶体学报A部分:晶体物理,衍射,理论和一般晶体学,32(5):922-923,1976年。一、二、五[18] O. Kaühler,V. A. Prisacariu和D. W. Murra y 实时大规模密集三维重建与循环闭合。在ECCV,第500-516页,2016年。一、四、五、六、七、八[19] O. Kaühler *,V.A. Prisacariu*,C.Y. Ren,X.Sun,P.T或r,以及D.默里移动设备上深度图像的极高帧率体积积分。TVCG,21(11):1241 一、六、八[20] A. Kendall,M. Grimes和R.西波拉PoseNet:一个用于实时6自由度摄像机重新定位的卷积网络。在ICCV,第2938-2946页,2015年。2[21] Y. H. Lee和G.梅迪奥尼基于RGB-D摄像头的可穿戴式导航系统,适用于视障人士。CVIU,149:3 1[22] K.莱文伯格最小二乘中某些问题的一种解法。Quarterlyof Applied Mathematics,2(2):164-168,1944. 5[23] S. Li和A.卡尔威使用成对几何和简洁关键点集的RGBD重新定位。在ICRA,第6374-6379页,2015年。1[24] G. Lu,Y.延湖,澳-地Ren,J. Song,N. Sebe和C.坎布-哈梅图。随时随地本地化我:多任务点检索方法。在ICCV,第24342[25] D. W.马夸特非线性参数的最小二乘估计算法Journal ofthe Society for Induestry and Applied Mathematics , 11(2),1963. 5[26] D. Massiceti,A.Krull,E.Brachmann角Rother和P.H. S.乇 随 机 森 林 与 神 经 网 络 arXiv 预 印 本 arXiv :1609.05797,2016年。二、八[27] R. Mu r-Artal,J. M. M. 蒙铁尔和J。D. 塔尔多
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功