没有合适的资源?快使用搜索试试~ 我知道了~
4919KFNet:使用卡尔曼滤波学习时间相机重新定位雷洲1罗子欣天威神1张嘉辉2明民镇1姚姚1天方三号龙泉一号1香港科技大学2清华大学3珠峰创新科技1{lzhouai,zluoag,tshenaa,mzhen,yyaoag,quan}@cse.ust.hk2jiahui-z15@mails.tsinghua.edu.cn3fangtian@altizure.com摘要时间相机重新定位估计的姿态相对于每个视频帧的顺序,而不是一个镜头的重新定位的重点是一个静止的图像。即使考虑了时间依赖性,当前的时间重定位方法在准确性方面仍然普遍低于最先进的单次方法。在这项工作中,我们通过使用一个网络架构,结合卡尔曼滤波(KFNet)的在线摄像机重新定位的时间重新定位方法。特别地,KFNet将场景坐标回归问题扩展到时域,以便递归地建立用于姿态确定的2D和3D对应关系。网络结构设计和损失公式是基于贝叶斯学习背景下的卡尔曼在多个重定位基准上进行的大量实验表明,KFNet在单次重定位和时间重定位方法中具有很我们的代码发布在https://github.com/zlthinker/KFNet。1. 介绍相机重新定位用作包括SLAM [15]、增强现实[9]和自主导航[45]的应用的子例程。它在已知的场景坐标系中估计查询RGB图像目前的重定位方法主要集中在一个静态图像的一次性重定位。它们主要可以分为三类[13,50]:(1)相对姿态回归(RPR)方法,它确定 相对 于 相 对于 数 据 库图 像 [3 , 29], (2 ) 通过PoseNet [25]及其变体[23,24,60]回归绝对姿态的绝对姿态回归(APR)方法,以及(3)使用主动搜索[48,49]或场景坐标回归(SCoRe)[52]建立2D-3D对应的基于结构的方法,然后通过PSNR求解姿态算法[18,42]。特别是,SCoRe最近被广泛采用,以从密集训练中学习每像素场景坐标由于其即使在无纹理场景中也能形成密集和准确的2D-3D匹配的能力,因此可以为场景提供数据[5,6]。如在[5,6,50]中广泛评估的,基于结构的方法通常比RPR和APR方法显示出更好的姿态精度,因为它们明确地利用了投影几何和场景结构的规则[50]。除了单次重定位之外,相对于视频帧的时间重定位也值得研究。然而,几乎所有的时间重定位方法都是基于PoseNet [25]的,一般来说,其精度甚至低于基于结构的单次方法。这主要是因为它们的准确性从根本上受到PoseNet检索性质的限制。如[50]中所分析的,基于PoseNet的方法本质上是通过图像检索近似姿态估计,并且在准确性上不能超过检索基线。在这项工作中,我们的动机是基于结构的重定位方法的高精度和诉诸SCoRe估计每像素场景坐标的姿态计算。此外,我们建议以递归方式将SCoRe扩展到时间域,以增强2D-3D匹配的时间具体而言,在贝叶斯学习的背景下提出了一种名为KFNet的递归网络[37],方法是将SCoRe嵌入深度学习框架内的卡尔曼滤波器中它由以下三个子系统组成,如图所示。1.一、• 该测量系统具有一个称为SCoordNet的网络,以获得单个图像的场景坐标的最大似然(ML)• 该处理系统使用OFlowNet,其对跨时间步长的图像像素的基于光流的过渡过程进行建模,并产生场景坐标的先验预测此外,测量和过程系统提供了不确定性预测[40,23],以模拟随时间变化的噪声动态。• 滤波系统融合两种预测,并导致最终场景坐标的最大后验(MAP)估计。4920此外,我们提出了基于贝叶斯公式的KFNet的三个子系统的概率损失,使子系统或整个框架的训练。我们总结的贡献如下。• 我们是第一个将场景坐标回归问题[52]以可学习的方式扩展到时域的人,用于时间一致的2D-3D匹配。• 我们将传统的卡尔曼滤波器[22]集成到一个递归CNN网络(KFNet)中,该网络解决了时间序列图像上的像素级状态推断。• KFNet弥合了时间和单次重新定位方法之间的现有性能差距,并在多个重新定位基准上实现了最高精度[52,57,25,43]。• 最后,为了更好的实用性,我们提出了一个统计评估工具,使KFNet能够在运行中自我检查潜在的2. 相关作品摄像机重新定位我们将相机重新定位算法分为三类:相对位姿回归(RPR)方法、绝对位姿回归(APR)方法和基于结构的方法。RPR方法使用由粗到精的策略,首先通过图像检索[55,2]在数据库中找到相似图像,然后计算相对姿态w.r.t.检索到的图像[3,29,46]。它们对不可见的场景有很好的泛化能力,但检索过程需要将查询图像与所有数据库图像进行匹配,这对于时间要求严格的应用程序来说代价很高。APR方法包括PoseNet [25]及其变体[23,24,60],其通过CNN学习从输入图像回归绝对相机姿势。它们简单有效,但在准确性方面通常落后于基于结构的方法,如[5,6,50]所验证的。从理论上讲,[50]解释了基于PoseNet的方法与图像检索的关系比通过3D几何进行准确的姿态估计更密切基于结构的方法明确建立2D图像像素和3D场景点之间的对应关系,然后通过Pestrian算法求解相机姿势[18,42,30]。传统上,通过主动搜索[48,49]及其变体 [32 , 10 , 33 , 47] 将 补 丁 特 征 与 运 动 恢 复 结 构(SfM)轨道进行匹配来搜索对应关系,这在无纹理场景中可能是低效和脆弱的。最近,通过用地面真实场景坐标训练随机森林[52,58,36]或CNN [5,6,31,7]来预测像素的场景坐标来解决对应问题,这被称为场景坐标回归(SCoRe)。除了单次重定位,一些工作已经将PoseNet扩展到时域以解决时间重定位。t -1不图1:拟议的KFNet的架构,它被分解为过程,测量和过滤系统。本地化VidLoc [11]通过BLSTM [51]对固定长度的视频剪辑执行离线和批量重新定位。Coskun等人通过在卡尔曼滤波器中嵌入LSTM单元来细化姿态动态[12]。VLocNet [56]和VLocNet++ [43]建议联合学习姿势回归和视觉里程计。LSG [63]将LSTM与视觉里程计相结合,以进一步利用时空一致性。由于所有方法都是PoseNet的扩展,因此根据[50]的分析,它们的准确性从根本上受到PoseNet的检索性质的限制。时间处理。在处理时间序列图像数据时,ConvLSTM[61]是一种标准的建模方法,可以通过时间[59,35,28]对局部上下文的空间相关性进行建模。然而,一些工作已经指出,隐式卷积建模不太适合发现相邻帧之间的像素关联,特别是当需要像素级精度时[21,39]。因此,在以后的工作中,光流被强调为一种更明确的方式来描绘跨顺序步骤的像素对应关系[41]。例如,[41,20,28,53,39]通常预测光流场,以引导特征图跨时间步长扭曲。然后,通过加权[65,66]或池化[38,41]融合扭曲的特征,以聚集时间知识。在这项工作中,我们遵循流引导扭曲的实践,但与以前的工作不同的是,我们建议通过利用卡尔曼滤波器原理融合预测[37]。3. 贝叶斯公式本节介绍了贝叶斯公式的递归场景坐标回归的时间域中的时间相机重新定位。在此基础上,建立了KFNet网络,并对概率损失进行了估计。在SEC罚款。四块六。表1中总结了下面使用的符号,以供快速参考。给定直到时间t的RGB图像流,即,It={11,...,It−1,It},我们的目标是预测过程系统OFlowNet光流图之前场景坐标&不确定性测量系统过滤系统可能性场景坐标&不确定性后场景坐标&不确定性PNPSCoordNet卡尔曼滤波翘曲成本量递归循环4921++ttt−1该系统可以近似地表示为线性测量方程:zt=θt+vt,(5)其中vt N(0,Vt),VtSN表示-噪声,zt可以解释为观察到场景坐标这样一来,可能性就可以重新--记作P(z |θ,I),用z代替I。不tt − 1tt表1:本报告中使用的变量和符号汇总令et表示从时间t-1预测zt的残差。KFNet的贝叶斯公式1、因此−et=zt−θt =zt−Gtθ<$t−1。(六)每个帧,即, 场景坐标映射,然后用于姿势计算。我们把这个映射记为θt∈因为Gt和θt−1都是已知的,所以观察zt等于-注意观察E。因此,可能性P(z |θ,I)RN×3,其中N是像素数。 通过强加T不tt−1高斯噪声假设的状态,状态θ条件可以重写为P(et| θt,It−1)。代入Eq. 5进入不t上的t遵循未知的高斯分布:θ+d=ef(θ |I)N(θn,θ n),(1)当量6,我们有et= θt可以描述−-θt +vt,因此,ttttt其中θt和θt是期望和方差,(et|θt,It−1−)<$N(θt−θt,Vt)。(七)测定在贝叶斯定理的常规下,θ t的后验概率可以分解为:基于多元统计中的定理[1,37],结合两个分布47给出二元正态分布:P(θt|It)P(θt|It−1)P(It|θt,It−1),(2)Σ。 Σ。Σθ。t. It−1NΣ。−Σθˆt,.RtRtΣΣ.(八)其中It= It−1<${It}。第一个因子P(θt|It−1)的右侧(RHS)et-是的0RtRt+ Vt等式2表示从时间t−1通过过程系统获得的关于θt的先验信念。但不得─设条件变量为e,给出了后验分布,或动态对象时,连续坐标θ+d=ef(θ |I)=(θ |e我)<$N(θ<$,θ)映射可以近似地由线性过程关联tt不不tt−1t t(九)描述它们的像素对应关系的等式,其中−θN(θt +Ktet,Rt(I-Kt)),θt= Gt θt−1+ wt,(3)其中KtRtVt+Rt 在概念上被称为其中Gt∈RN×N是由从时间t−1到t的光流场给出的稀疏状态转移矩阵,并且卡尔曼增益和et作为创新2[37,19]。如图1、后景的推断图像像素的坐标θ和方差θ进行wt <$N(0,Wt),其中Wt∈SN1为过程噪声。t t++给定It−1,我们已经有概率陈述(θt−1|It−1)<$N(θ<$t−1,θ <$t−1)。那么从时间t−1开始的θt先验估计随着时间t的发展递归地进行,然后将其用于在线姿态确定。具体地,首先将具有大于λ的变化的像素作为离群值排除。然后,应用RANSAC+P3P [18]求解器来计算初始θ−d=ef(θ|我−−)<$N(θt,Rt),(四)从2D-3D对应关系中提取相机姿态,然后进行姿态细化的非线性优化。∈=模块输入输出过程系统θt−1t−1It−1ItGtWt−θˆ ˆ不 = Gtθt−1Rt=Gtt−1GT+ Wt不- 转移矩阵- 处理噪声协方差- 先验状态平均- 先验状态协方差的测量系统ItZtVt- 状态观测- 测量噪声协方差过滤系统−θˆ不ztRtVt−et=zt−θtK =Rt不V t +R t−θt=θt + Ktett= Rt(I− Kt)- 创新- 卡尔曼增益- 后验状态均值- 后验状态协方差4922不其中θ≤t =Gtθt−1,Rt=Gtθt−1GT+Wt。第二个因子P(It| θt,It−1)的RHS方程。2描述了在时间t进行图像观测的可能性,通过测量系统。 该系统模拟了It如何从潜在状态θ t导出,形式上为It=h(θt)。然而,h(·)的高度非线性使得后续计算变得棘手。或者,我们通过[ 12 ]启发的非线性函数将It映射到zt∈R N×3,因此4. 测量系统测量系统基本上是一个生成模型,解释了如何从潜在场景坐标θt生成观测值z t,如等式2所示。五、然后,剩下的问题是学习从It到zt的底层映射。这类似于SCoRe任务[52,5,6],但不同的是等式2所施加的关于zt的约束五、下文1SN++ 表示N维正定矩阵的集合2、Eqs。第8章见补充资料4923..我(一)..1米0米(一)(b)第(1)款10米0米例在训练过程中,通过用不确定性度量进行加权来自动淡化这些误差是明智的。图2(a)说明了这种情况下的不确定性预测。5. 过程系统图2:不确定性的可视化,它模拟了测量噪声和过程噪声。(a)SCoordNet从物体边界上的单个图像中预测出更大的不确定性,这些图像会出现更大的(b)OFlowNet从遮挡或动态对象出现的区域上的连续图像(覆盖)给出更大的不确定性。首先介绍了SCoordNet的体系结构,它输出场景坐标预测,以及不确定的处理系统对从时间t-1到t的像素状态的转变过程进行建模,如由等式(1)的处理方程所描述的3 .第三章。在这里,首先,我们提出了一个基于成本体积的网络,OFlowNet,预测光流和过程噪声协方差共同为每个像素。一旦光流被确定,Eq.3等价于[41,20,28,53,39]中常用的从时间t-1到t的 第二,翘曲后,以模拟测量噪声Vt。然后,我们定义状态的先验分布,即, θ−−N(θ基于似然性P(zt)的概率损失|θt,It−1)的测量系统。4.1. 架构SCoordNet与[ 6 ]共享类似的完全卷积结构,如图所示。1.一、然而,它要轻量级得多,参数不到[6]的八分之一它包含12个3×3卷积层,其中3个使用步长2将输入缩小到8倍。每一个人,都有自己的归宿,除了最后一个人。为了简化计算,为了避免过度参数化的风险,我们假设了多元高斯分布当量4、可以评价。然后,我们基于训练OFlowNet之前定义概率损失。5.1. 架构OFlowNet由两个组件组成:成本卷构造器和流估计器。成本体积构造器首先通过七个3×3卷积分别从两个输入图像It-1和It中提取特征,其中三个卷积的步长为2。的输出特征图Ft−1和Ft的空间大小为1,八分之一的输入和通道数C。然后我们为每个像素p建立成本体积C∈Rw×w ×c,测量噪声,即,V(一)=v(i)23对于每个像素Pi,I+I特征图Ft,因此,其中 I3表示3×3单位矩阵。因此,输出具有4个通道,包括3-d场景坐标和1-d不确定性测量。..Ft(pi)Ci(o)=−Ft(pi).Ft−1(pi+ o).、(11)<$Ft−1(pi+ o)<$24.2. 损失根据等式5、潜景坐标θ(一)其中w是搜索窗口的大小,其对应于全分辨率图像中的8w个像素,并且o∈{−w/2,., w/2}2是fset的空间。我们应用L2-pi x elpi应遵循分布N(z(i),v2I3)。记录θ(i)的概率密度函数(PDF)的负对数,我们基于相似性定义损失,该相似性导致每个像素的最大似然(ML)估计,形式为[23]:如[62,34]中所示,在微分之前沿着通道维度对特征图进行归一化下面的流估计器对用于流推断的成本卷进行操作我们使用具有跳跃连接的U-网络[44],如图所示1,首先对成本进行子采样ΣN - 是的z−yǁ2Σ对于扩大的感受野,体积增加8倍,L=3 logv+㈠㈠2、 (10)然后将其上采样到原始分辨率。输出是可能性i=1(一)2v㈠2每个像素的w×w×1无界置信图再-与y(一)作为θ(一). 对于数字-延迟工作通常通过基于在成本量封装cal稳定性,我们使用对数方差的不确定性闭塞自行车不4924在实践中的测量,即,s(i)=10gv(i)2。在损失公式中包括不确定性学习,低一个量化的预测误差不仅源于数据中的固有噪声,而且来自定义的模型[14]。例如,在具有深度不连续性的边界处,子像素偏移将导致突然的共-共[62、54]。然而,这将在随后的步骤中导致不可微性,其中光流将被进一步用于空间扭曲。因此,我们通过可微空间softmax算子[16]传递置信度图,以计算光流作为搜索窗口内像素偏移的期望值从形式上讲,很难建模的纵坐标偏移。SCoordNet很容易遭受重大损失,defo=E(o)=Σsoftmax(fo)·o,(12)O4925(一)(一)(一)(一)N(一)7scenes 12scenes剑桥图3:OFlowNet在三个不同数据集的连续图像(叠加)上预测的样本光流[52,57,25]。其中f0是偏移量0处的置信度。为了实现过程噪声建模,在Eq.3,我们在U-Net的瓶颈之后添加三个全连接层来回归对数方差,如图所示1.一、光流预测的样本3 .第三章。5.2. 损失一旦计算了光流,方程(1)的状态转移矩阵Gt就三是可以评估。然后,我们完成方程的线性过渡过程3通过扭曲场景坐标图和不确定性图从时间t-1到NIS图4:过滤系统的NIS测试示意图。直方图绘制卡尔曼滤波器的归一化新息平方(NIS)值的示例分布。红色曲线表示3自由度卡方分布χ2(3)的PDF。NIS检验的工作原理是过滤掉NIS值位于χ2(3)的95%可接受区域(红色阴影)之外的不一致预测。6.1. 损失Forapix elpi在时间t, N(z(i),v(i)2/3)和−N(θ∈(i),r(i)2,I3)分别是线性和先验的−[64]这是一个很好的例子。设θ∈(i)而σ−2是场景坐标的分布。 把变量在方程式中69,我们评估了新息和卡尔曼warped场景坐标和高斯方差,以及w(i)2是像素pi的过程噪声的高斯方差,时间t然后,p的先验坐标,记为θ-,像素pi处的增益为−r(i)2我应该遵循分布(一)e(i)=z(i)−θ(一),且k(i)= v(i)2+r(i)2.(十五)θ−(一)−N(θ2I3),(13)在卡尔曼滤波的线性高斯假设下,以最小平方误差为准则,其中r(一)2=σ−2+w(一)二、取负对数遵循下面的后验分布[37]:在θ−的PDF中,我们得到过程系统的损失为θ+<$N(θ<$+,σ第二章第一节)、(16)−Σǁθˆ(i)−y(i)ǁ2(一)−(一)(i)3L优先级=103logr(i)+2r(i)22分。(十四)其中θθ+ =θθ(一)+k(i)e(i)和σ(一)2=r(一)2(1−k(i))。i=1值得注意的是,损失定义使用先验分布,因此,卡尔曼滤波系统是无参数的,基于后验分布定义的损失:θ−的分配为训练提供弱监督<$N<$θ<$+−y ǁ2OFlowNet,不依赖于光流标记。所提出的处理系统的一个问题是,它假设没有发生遮挡或动态对象L后部=i=1103logσ(i)+(一)2σ(一)(一)22岁,(17)这是跟踪问题的两个突出挑战[27,67]。我们的过程系统通过给出过程噪声的不确定性测量来部分地解决这个问题如图2(b),OFlowNet通常为来自遮挡区域和动态对象的像素产生这有助于在损失计算中对具有不正确的流预测的这些像素给予较低的6. 过滤系统前两节中的测量和处理系统分别导出了场景坐标θt的似然估计和先验估计。滤波系统旨在基于Eq.9,以获得后验估计。然后将其添加到允许端到端的全部损失结束KFNet培训如下:L全=τ 1 L似然+τ 2 L先验+ τ 3 L后验。(十八)6.2. 一致性检验在实际应用中,由于不稳定的场景坐标回归或流跟踪失败导致的离群值估计,滤波器可能会表现不正0.400.350.300.250.200.150.100.050.00024681095%验收区域(3)第二章PDF4926确。从长远来看,这将导致累积的状态误差。因此,我们使用统计评估工具归一化创新平方(NIS)[4]来过滤推断过程中的不一致预测。通常,新息变量e(i)∈R3遵循高斯分布N(0,S(i)),如等式(1)所示8、在哪里4927一次性重新定位时间再定位场景MapNet[八]《中国日报》CamNet[13个国家]活性搜索[49]产品介绍[6]美国SCoordNet(我们的)VidLoc[第十一届]LSTM-KF[12个]VLocNet++[四十三]LSG[63个]KFNet(我们的)7scenes象棋0.08米,3.25°0.04米,1.73°0.04米,1.96°0.02米,0.5°0.019米,0.63°0.18米,-0.33米,6.9°0.023米,1.44 °0.09米,3.28°0.018米,0.65°火0.27米,11.7°0.03米,1.74 °0.03米,1.53°0.02米,0.9°0.023米,0.91°0.26米,-0.41米,15.7°0.018米,1.39°0.26米,10.92°0.023米,0.90°头0.18米,13.3°0.05米,1.98°0.02米,1.45°0.01米,0.8°0.018米,1.26°0.21米,-0.28米,13.01°0.016米,0.99°0.17米,12.70°0.014米,0.82°办公室0.17米,5.15°0.04米,1.62°0.09米,3.61°0.03米,0.7°0.026米,0.73°0.36米,-0.43米,7.65°0.024米,1.14°0.18米,5.45°0.025米,0.69°南瓜0.22米,4.02°0.04米,1.64°0.08米,3.10°0.04米,1.1°0.039米,1.09°0.31米,-0.49米,10.63°0.024米,1.45°0.20米,3.69°0.037米,1.02°红厨房0.23米,4.93°0.04米,1.63°0.07米,3.37°0.04米,1.1°0.039米,1.18°0.26米,-0.57米,8.53°0.025m, 2.27°0.23米,4.92°0.038米,1.16°楼梯0.30米,12.1°0.04米,1.51°0.03米,2.22°0.09米,2.6°0.037米,1.06°0.14米,-0.46米,14.56°0.021米,1.08 °0.23米,11.3°0.033米,0.94°平均0.207米,7.78°0.040米,1.69°0.051米,2.46°0.036米,1.10°0.029米,0.98°0.246米,-0.424米,11.00°0.022米,1.39°0.190米,7.47°0.027米,0.88°剑桥GreatCourt---0.40米,0.2°0.43米,0.20°----0.42米,0.21°国王学院1.07米,1.89°-0.42米,0.55°0.18米,0.3°0.16米,0.29°-2.01米,5.35°--0.16米,0.27°老医院1.94米,3.91°-0.44米,1.01°0.20米,0.3°0.18米,0.29°-2.35米,5.05°--0.18米,0.28°店铺外观1.49米,4.22°-0.12米,0.40°0.06米,0.3°0.05米,0.34°-1.63米,6.89°--0.05米,0.31°圣玛丽教堂2.00米,4.53°-0.19米,0.54°0.13米,0.4°0.12米,0.36°-2.61米,8.94°--0.12米,0.35°街--0.85米,0.83°---3.05米,5.62°---平均11.63米,3.64°-0.29米,0.63°0.14米,0.33°0.13米,0.32°-2.15米,6.56°--0.13米,0.30°DeepLoc--0.010米,0.04°-0.083米,0.45°--0.320米,1.48°-0.065米,0.43°1平均值不包括GreatCourt和Street的误差,因为某些方法不报告两个场景的结果。表2:不同重定位方法的平移和旋转误差中位数最佳结果以粗体显示单触发时间DSAC++ESAC [7]SCoordNetKFNet百分之九十六点八百分之九十七点八百分之九十八点九99.2%表3:12个场景的单次和时间重新定位方法的5cm-5deg精度[57]。与每个场景的表面积成比例,并且学习速率从γ下降到γ/25。特别地,我们使用SCo-ordNet作为所提出的方法的一次性版本。其次,使用每个数据集的所有场景训练OFlowNet,其中先验损失为L先验(等式2)。第14段)。它也经历了-S =(v2+R(2)I. 那么,NIS=eTS−1e是超级结果表明,学习速率从γ衰减到γ/25。每批(一)(一)(i)3(一)(一)(一)假设 服从卡方 分布,具 有三个 自由度, 表示为χ2(3)。因此,如果像素状态的NIS值位于χ2(3)的接受区域之外,则将其视为离群值是合理的。如示于图4、我们使用临界值0。05,这意味着我们至少有95%的统计证据将一个像素状态视为阴性。测试失败的像素的不确定性,例如。σ(i)被重置为无限大,使得它们在随后的步骤中将没有影响。7. 实验7.1. 实验设置数据集。根据以前的工作[25,5,6,43],我们使用两个室内数据集-7scenes[52]和12 scenes[57],以及两个室外数据集-DeepLoc[43]和Cambridge[25]进行评估。每个场景都被分成不同的序列进行训练和测试。数 据 处 理 . 7 个 场 景 和 12 个 场 景 的 图 像 被 缩 小 到640×480 , DeepLoc 和 Cam- bridge 的 图 像 被 缩 小 到848×480。 7个场景的地面实况场景坐标,12个场景是基于给定的相机姿态和深度图计算的,而DeepLoc和Cambridge的场景是从用训练图像重建的表面渲染的。训练我们的最佳实践选择参数设置为τ1=0。2,τ2=0。2,τ3=0。六、 ADAM优化器[26]使用β1=0。9和β2=0。999我们使用初始学习率γ= 0。0001然后以指数衰减的方式下降培训过程有三个阶段。第一、我们为每个场景训练SCoordNet,L似然(Eq.第10段)。迭代次数设置为pro-4928由两个连续的帧组成。 窗口大小对于上述四个数据集,原始图像中的OFlowNet的值分别设置为64、128、192和256,这是由于通过它们的自我运动增加。 三是通过优化全损耗Lfull(等式2),联合微调KFNet的所有参数。18),学习率从γ/24到γ/25。第三阶段中的每个批次包含四个连续帧。7.2. 结果7.2.1重新定位精度在[5,6,11,56]之后,我们使用两个准确性度量:(1)位姿的中值旋转和平移误差(见表2);(2)5cm-5deg精度(见表3),即,平移和旋转误差分别小于5 cm和5°的位姿的平均百分比。不确定性阈值λ(Sec. 3)7个场景和12个场景设置为5 cm,DeepLoc和Cambridge设置为50 cm。一 次 性 重 新 定 位 。 我 们 的 SCoordNet 在 7scenes 和Cambridge上实现了最低的姿态误差,在单次方法中在12 scenes上实现了最高的5cm-5deg精度,分别超过了最先进的相对和绝对姿态回归方法CamNet [13]和MapNet [8]特别是,SCoordNet优于最先进的基于结构的方法DSAC++ [6]和ESAC [7],但参数较少(分别为24M vs.210 M vs.28M)。SCoordNet的优势应该主要归功于不确定性建模,我们将在补充材料中进行它在7scenes和Cambridge上也超过了Active Search(AS)[49],但在DeepLoc上表现不佳。我们发现,在实验49297scenes12个场景DeepLoc剑桥是说stddev是说stddev是说stddev是说stddevDSAC++28.833.128.847.1--467.3883.7SCoordNet16.823.39.820.0883.01520.8272.7497.6KFNet15.321.77.313.7200.79398.8241.5441.7DSAC++ SCoordNet KFNet KFNet过滤图5:不同重定位方法预测的点云。我们的SCoordNet和KFNet越来越多地抑制红框突出显示的噪声,并产生比最先进的DSAC++更整洁的点云[6]。KFNet过滤面板过滤掉KFNet中不确定性太大的点,并给出相当干净和准确的映射结果。表4:以厘米为单位的预测场景坐标误差的平均值和标准差.在DeepLoc上的AS[50]中,AS在使用训练和测试图像构建的SfM模型上进行测试。这可能解释了为什么AS在DeepLoc上比在其他平台上更准确。(a) 无/有运动模糊的图像(b) 无运动模糊的(c) 具有运动模糊的数据集,因为测试图像和SfM轨迹之间的2D-3D匹配已经建立,并且它们的几何形状已经在SfM重建期间优化。时间重新定位。我们的KFNet在所有数据集上都优于SCo- ordNet,如表2和3所示。剑桥的改进是微不足道的,因为图像是从稀疏的视频中过采样的。帧之间的太大的运动使得难以对时间相关性进行建模。KFNet获得比其他时间方法低得多的姿态误差,除了它在7个场景上具有比VLocNet++ [43]更大的平移误差。然而,VLocNet++的性能在不同的数据集上是不一致的。在VLocNet++的作者收集的数据集DeepLoc上,VLocNet++的姿势误差比KFNet大得多,尽管它也将语义分割集成到学习中。在[50]中也观察到了不一致性,这表明VLocNet++不能在本质上超过基于检索的方法的准确性[55,2]。7.2.2映射精度基于SCoRe [52,6]的重新定位方法可以通过预测每像素场景坐标来为每个视图创建映射结果。因此,重新定位和映射可以被视为双重问题,因为一旦知道另一个就可以很容易地解决在这里,我们想评估一下图6:(a)人工运动模糊图像。(b)(c)积云─应用运动 模糊之前和之后的 位姿误差的动态 分布函数(CDF)映射精度与测试图像的场景坐标误差的平均值和标准如表4所示,标测精度与第12节中报告的重新定位精度一致。7.2.1.与DSAC++相比,SCoordNet大大降低了平均值和标准偏差值,KFNet进一步将SCoordNet的平均误差降低了8。百分之九,二十五。5%,77. 3%和11. 4%,分别在四个数据集上改进也反映在预测的点云中,如图1所示。五、SCoordNet和KFNet预测噪声较少的场景点,与DSAC++具有更好的时间一致性。此外,我们过滤掉KFNet中不确定性大于λ的点,如图1的KFNet过滤面板5,这有助于提供更整洁,更准确的3D点云。7.2.3运动模糊实验虽 然 , 在 表 中 的 平 均 场 景 坐 标 误 差 方 面 。 4 ,SCoordNet比DSAC++高出41以上。6%,KFNet进一步提高了SCoordNet的范围从8。9%至77。3%,中位数方面的改善店铺外观办公室2 -火4930单触发时间SCoordNetConvLSTM [61][41]第四十一话SWeight [65]KFNet0.029米,0.98°0.040米,1.12°0.029米,0.94°0.029米,0.95°0.027米,0.88°表5:由不同时间100001000100101位姿平移误差(cm)100001000100101场景坐标误差(cm)7个场景的聚合方法。我们的KFNet实现了更好的姿势0.1010 20 30 40 50 60 70 80 90 100 1100.1010 20 30 40 50 60 70 80 90 100 110比其他时间聚合策略更准确。表2中的姿态误差不那么显著。主要原因是,基于RANSAC的PSNR求解器减少了由场景坐标改进带来的益处,因为只有RANSAC选择的精确场景坐标的一小部分在姿态精度中起作用。因此,为了突出KFNet的优势,我们对实际场景中非常常见的运动模糊图像进行了更多的chal-challening实验。对于7个场景的测试图像序列,我们对每10个图像应用具有30个像素的核大小的运动模糊滤波器,如图所示。第6(a)段。在图6(b)(c)中,我们绘制了应用运动模糊之前和之后的姿态误差的累积分布函数。由于不确定性推理,无论是否存在运动模糊,SCo-ordNet通常都比DSAC++获得更小的姿态误差。虽然SCoordNet和DSAC++在应用运动模糊后显示出性能下降,但KFNet保持了姿态精度,如图所示。6(b)&(c),从而使KFNet和SCoordNet之间的差距更加显著,并表明KFNet使用的时间模型的好处。7.3. 消融研究时间聚合的评估。本节研究了我们基于卡尔曼滤波器 的 框 架 与 其 他 流 行 的 时 间 聚 合 策 略 ( 包 括ConvLSTM [61,28],时间点(TPoetry)[41]和相似性加 权 ( SWeight ) [65 , 66] ) 的 有 效 性 。 KFNet 与TPoetry和SWeight更相关,它们也在n帧邻域内使用流引导扭曲。为了公平比较,与KFNet相同的特征网络和概率损失被应用于所有。我们使用ConvLSTM的内核大小为8,以确保图像中的窗口大小为64相同的OFlowNet结构和3帧邻域用于TPoetry和SWeight以进行流引导扭曲。表5显示了7个场景的比较结果。Con-vLSTM在姿态精度方面大大低于SCoordNet和其他虽然采用了流引导翘 曲 , 但 TPoffic 和 SWeight 仅 实 现 了 SCoordNet 与KFNet的比较的边际改进与TPosit和SWeight相比,卡尔曼滤波器表现为一种更有纪律和非启发式的时间聚集方法,可确保线性高斯状态空间帧索引帧索引(a)(b)(c)第(1)款图7:(a)(b)使用NIS测试[4],姿态和场景坐标的误差在失去跟踪后迅速恢复正常。(c)样本序列的姿态表明,在没有NIS测试的情况下,丢失的跟踪对后续帧的姿态精度产生不利影响。[17 ]第17话被发现3 .第三章。一致性检查的评估在这里,我们解释了使用NIS测试的一致性检查的功能[4](见第2节)。6.2)。由于在构建良好的重定位数据集中经常出现极端离群值预测,我们通过从7个场景和12个场景的每个测试序列中修剪一个子序列来模拟跟踪丢失的情况。令Ip和Iq表示修剪之前的最后一帧和修剪之后的第一帧从Ip到Iq的不连续运动将导致KFNet对Iq的图7绘制了Iq周围的帧的平均姿态和场景坐标误差,并可视化了样本修剪序列的姿态使用NIS测试,误差在Iq之后立即恢复到正常水平,而没有NIS测试,Iq之后的姿势的准确性受到不利影响。NIS测试通过赋予它们无限大的不确定性来阻止I q的离群值预测传播到后面的步骤,因此Iq+1将从I q中删除先验,并使用测量系统的预测重新初始化自己。8. 结论这项工作通过提出一个名为KFNet的递归网络来解决时间相机重新定位问题。它将场景坐标回归问题扩展到时域,用于在线姿态确定。KFNet的架构和损失定义基于卡尔曼滤波器,该滤波器允许以一种有纪律的方式随时间聚集像素级预测。所提出的方法在多个基准上产生最高的精度,在最先进的重定位方法中。虽然KFNet仅在摄像机重新定位任务中得到验证,但可以预期直接应用程序以及其他任务,如视频处理[20,28]和分割[59,39],对象跟踪[34,669. 确认这项工作得到香港研资局GRF 16206819 16203518和T22-603/15 N的支持。丢失追踪带NIS测试Wout NIS测试丢失追踪带NIS测试Wout NIS测错误姿势红色:带NIS测试蓝色:Wout NIS4931引用[1] 西奥多·威尔伯·安德森。多元统计分析导论,第2卷。1958年[2] Relja Arandjelovic,Petr Gronat,Akihiko Torii,TomasPa-jdla,and Josef Sivic. Netvlad:用于弱监督位置识别的CNN架构。在CVPR,2016年。[3] Vassileios Balntas、Shuda Li和Victor Prisacariu。Reloc-net:使用神经网络的连续度量学习重新定位。在ECCV,2018。[4] Yaakov Bar-Shalom , X Rong Li , and ThiagalingamKirubarajan. 应用于跟踪和导航的估计:理论算法和软件。2004年[5] Eric Brachmann、Alexander Krull、Sebastian Nowozin、Jamie Shotton、Frank Michel、Stefan Gumhold和CarstenRother。用于摄像机定位的可微分变换。在CVPR,2017年。[6] Eric Brachmann和Carsten Rother。学习越少越好-
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功