没有合适的资源?快使用搜索试试~ 我知道了~
DeepTAM:深度跟踪和映射周惠中*Benjamin Ummenhofer*ThomasBrox弗莱堡大学{zhouh,ummenhof,brox} @ cs.uni-freiburg.de抽象。我们提出了一个基于关键帧的密集相机跟踪和深度图估计系统,完全是学习。对于跟踪,我们估计当前相机图像和合成视点之间的小姿态增量。这大大简化了学习问题,并减轻了相机运动的数据集偏差此外,我们表明,生成大量的姿势假设导致更准确的预测。对于映射,我们在以当前深度估计为中心的成本体积中积累信息映射网络然后组合成本体积和关键帧图像以更新深度预测,从而有效地利用深度测量和基于图像的先验。 我们的方法产生国家的最先进的结果,很少的图像,是强大的噪声相机构成。我们证明了我们的6自由度跟踪的性能与RGB-D跟踪算法竞争。我们与强大的经典算法和深度学习驱动的密集深度算法相比毫不逊色。关键词:摄像机跟踪,多视点立体,ConvNets1介绍与识别相比,将深度学习应用于相机跟踪或3D映射任务的工作有限这是因为,与识别相比,3D映射领域已经拥有非常好的解决方案。尽管如此,学习方法可以为相机跟踪和3D映射提供很多帮助。在应用深度学习的有限数量的子任务上,它的表现优于经典技术:在视差估计上,所有领先的方法都基于深度网络,并且在密集运动立体声[30]上的第一项工作立即在该任务上实现了最先进的性能。在这项工作中,我们扩展域的学习为基础的映射方法进一步向全面的SLAM系统。我们提出了一种深度学习方法,用于视觉SLAM中两个最重要的组件:相机姿态跟踪和密集映射。本文的主要贡献是一个学习的跟踪网络和映射网络,它可以很好地推广到新的数据集,并优于强大的竞争算法。这是通过以下关键组成部分实现的– 用于增量帧到关键帧跟踪的跟踪网络架构,其被设计为减少数据集偏差问题。*同等贡献2H. 周湾Ummenhofer和T.Brox– 用于相机姿态的多假设方法,其导致更准确的姿态估计。– 将深度测量与基于图像的先验相结合的映射网络架构,其是高度鲁棒的并且产生准确的深度图。– 结合网络和窄带技术的有效深度细化策略。最相关的经典方法是DTAM [23],它代表密集跟踪和映射。从概念上讲,我们遵循非常相似的方法,只是我们将其表述为学习问题。因此,我们将我们的方法称为DeepTAM。对于跟踪,DeepTAM使用神经网络来对准当前相机图像,以便从相机中获取图像,并在相机中显示该图像。 为此,我们使用一个小而快速的网络堆栈,其实现了从粗到精的方法。 网络堆栈递增地细化估计的相机姿态。 在每个步骤中,我们更新虚拟关键帧,从而改善预测的相机姿态的收敛。 这种增量公式化显著简化了学习任务,并减少了数据集偏差的影响。此外,我们表明,生成大量的假设提高了姿态的准确性。我们的映射网络是建立在平面扫描立体的想法[3]。我们首先在成本量中累积来自多个图像的信息,然后通过将基于图像的先验与累积的深度测量相结合,使用深度网络提取深度图为了进一步改进深度预测,我们附加了一个网络,该网络使用在先前表面估计周围的窄带上定义的成本量迭代地细化预测所获得的深度可以是许多视觉任务的有价值的线索,例如,对象定位[26,4],场景理解[11,12],图像去雾[8,36,35]。作为一种学习方法,DeepTAM非常擅长整合各种线索并学习有关所使用相机的隐式先验。这与经典方法形成对比,经典方法基本上依赖于手工制作的功能,如SIFT [22]和光一致性最大化。基于学习的方法的一个众所周知的问题是过拟合,我们在架构的设计和学习问题的定义中特别小心,以便网络不能学习不会泛化的简单捷径。因此,DeepTAM可以很好地推广到新的数据集,并且是第一个具有全6 DOF关键帧姿势跟踪和密集映射的学习方法在标准基准测试中,它与最先进的RGB-D跟踪相比毫不逊色,同时使用更少的数据。DeepTAM采用密集映射,可以处理任意许多帧和运行在交互式帧速率。2相关工作最相关的工作是DTAM [23]。我们建立在相同的通用思想上:通过密集的深度图对关键帧进行无漂移的相机姿态跟踪,并随着时间的推移进行深度但是,我们使用完全不同的技术来实现这个概念。特别是,跟踪和映射都是由深度网络实现的,深度网络只从数据中学习任务。DeepTAM:深度跟踪和映射3×与学习方法最相关的是DeMoN [30],其实现了两个图像的6 DOF自运动和深度估计作为学习问题。与DeMoN相比,我们处理两个以上的图像。我们通过使用关键帧来避免漂移,并且随着更多的帧进入,我们可以细化深度图最近又出现了一些基于深度学习的作品,它们与目前的工作有着微弱的联系Agrawal等[2]训练神经网络来估计自我运动,其主要用作特征学习的监督。Kendall等人[16]将深度学习应用于相机定位任务,Valada等人[31]示出了视觉定位和里程计可以在一个网络内联合求解。DeepVO [33]运行用于视觉里程计的深度网络,即, 使两帧之间的自运动回归。 没有映射部分,并且自运动估计仅适用于训练期间看到的环境。 Zhou等人[37]提出了一种用于自运动和深度估计的深度网络,可以用无监督损失进行训练。该方法在训练期间使用两个图像进行深度估计然而,当在运行时估计深度时,其忽略第二图像,因此忽略运动视差。SfM-Net [32]也使用无监督学习思 想 , 并 且 ( 尽 管 它的 标 题 ) 不 使 用 运 动 视 差 进 行 深度 估 计 。UnDeepVO [20]再次提出了基于无监督损失的自运动估计和深度估计。所有这些工作都像DeMoN一样,仅限于两帧的联合处理,并且仅限于数据集中存在的运动。大多数这些先前的工作[37,33,20]中的训练和实验都集中在KITTI数据集[10]上。这些驾驶场景主要示出了平面中的3自由度运动,其由2自由度动作空间(加速/制动、向左转向/向右转向)引起特别是摄像机平移和旋转之间的模糊性不存在,因为汽车不能侧向移动相比之下,目前的工作产生全6自由度姿态跟踪,可以处理这些模糊性,我们评估的6自由度基准。我们不能涵盖经典跟踪和映射技术的全部文献,但除了DTAM [23]之外,还有一些相关的工作值得一提。LSD-SLAM [7]是一种最先进的SLAM方法,其使用直接测量进行优化。它提供了一个完整的SLAM管道与循环关闭。与DTAM和我们的方法相比,LSD-SLAM只产生稀疏的深度估计。 Engel等人[6]提出一种稀疏直接方法。他们表明,集成图像形成过程的复杂模型显着提高了准确性。 对于我们的基于学习的方法,考虑成像过程的特征由训练过程覆盖。类似地,Kerl et al. [18]仔细模拟噪声分布以提高鲁棒性。同样,这是免费的,以学习为基础的CNN-SLAM [29]用单个图像深度图扩展LSD-SLAM与我们的方法相比,跟踪和映射不是以密集的方式耦合的特别地,跟踪使用深度图的半密集子集3跟踪给定当前相机图像IC和关键帧(其由图像IK和逆深度图DK组成),我们想要估计将关键帧坐标系中的点映射到坐标系的4 × 4变换矩阵TKC4H. 周湾Ummenhofer和T.Brox当前的相机帧。关键帧姿态TK和当前摄影机姿态TC相关TC= TKTKC,其中TC,TK,TKC∈ SE(3).(一)学习计算Tkc与找到当前图像Ic与关键帧(Ik,Dk)之间的2D-3D对应关系有关。众所周知,如果图像对之间的像素位移很小,则可以更有效和可靠地解决对应问题。由于我们想要以交互速率跟踪当前相机姿态,因此我们假设接近T_C的猜测T_V可用。类似于DTAM [23],我们生成虚拟关键帧(IV, DV),其从对应于TV的视点示出关键帧(IK,DK)的内容。代替直接估计TKC,我们学习预测增量δT,即,我们将当前相机姿势写为T C= T Vδ T。(二)这有效地减少了学习函数δT =f(IC, IV, DV)的问题我们使用深度网络来学习f。3.1网络架构我们使用如图1所示的基于编码器-解码器的架构1,用于学习估计关键帧(IK,DK)和图像IC之间的6DOF姿态。所有网络参数的详细说明可在补充材料中找到由于摄像机运动只能通过将关键帧与当前图像相关联来估计,因此我们使用光流作为辅助任务。预测的光流确保网络学习利用两个帧之间的关系我们证明了流动预测的重要性,在Tab。1.一、我们使用与第二网络分支中的光流预测任务共享的特征来生成姿势假设。正如我们在实验中所展示的那样(Tab。1),与直接预测姿态相比,生成多个假设提高了预测姿态的准确性姿势生成的最后一部分由N = 64个堆叠的分支组成,完全连接的层共享它们的权重。 我们发现,这种配置比计算N个姿势的完全连接层的单个分支更稳定和准确。每个生成的姿态假设是6D姿态向量δξi=(ri,ti)。3D旋转向量ri是最小角度轴表示,其中角度被编码为向量的量值平移ti以3D笛卡尔坐标编码为了简单起见,并且因为δi是小的刚体运动,我们将最终的姿态估计δ i计算为线性组合1NΣ=64δξ= Ni=1δi。(三)粗略的相机运动在小的图像分辨率下已经可见,而小的运动需要更高的图像分辨率。因此,我们使用一种由粗到细的策略来实时有效地跟踪相机我们训练了三个不同的跟踪网络,如图所2,其处理在不同分辨率下的姿态估计问题,并且细化相应的先前分辨率水平的预测DeepTAM:深度跟踪和映射5图1.一、 跟踪网络使用编码器-解码器型架构,在编码和解码部分之间具有直接连接。解码器用于两个任务,即光流预测和姿态假设的生成。光流预测是两个卷积层的小堆栈,并且仅在训练期间激活以刺激运动特征的生成 姿态假设生成部分是下采样卷积层的堆叠,随后是全连接层,其然后分裂成N = 64个全连接卷积层,以简化δξi。在具有实时相机图像I C的情况下,我们提供虚拟关键帧(I V,D V)作为网络的输入,其是使用虚拟关键帧(IK,DK)和实时像素IV来检索的。 我们检查所描绘的网络架构三次,其中每个实例以不同的分辨率操作,如图1B所示。二、图二、跟踪网络和增量姿态估计的概述我们采用一种由粗到细的方法来有效地估计当前的相机姿态。我们训练了三个跟踪网络,每个网络专门用于与输入图像尺寸(80× 60),(160× 120)和(320× 240)对应的不同分辨率水平。每个网络计算一个姿势将时间δTi与时间间隔TV进行比较。这是电视是来自i0以前跟踪的帧。跟踪网络中的每一者使用最新位姿猜测以相应分辨率水平产生虚拟关键帧,且借此间接地跟踪具有到所述或原始关键帧(IK,DK)的时间间隔的所述相机。 finalp osestimateeTC由所有线性关系poseup datesδTi的预处理组成。3.2培训基于学习的方法的一个主要问题是对合适的数据集的强烈依赖数据集通常不覆盖所有重要的模式,这使得新数据的通用化变得一个例子是用于自动驾驶的KITTI数据集[10],其仅限于平面内的运动,并且不覆盖完整的6自由度运动。因此,基于学习的方法很容易过拟合这种类型的运动,并且不能泛化。人工数据可用于缓解该问题,但生成具有地面真实深度的逼真图像并非微不足道。6H. 周湾Ummenhofer和T.BroxLLL√1ΣNN我我我0我们用两种方法来解决这个问题首先,通过使用(2)中的增量公式,即,我们估计小的增量δT而不是关键帧和当前相机图像之间的绝对运动这减小了运动的幅度并且降低了任务的难度。其次,我们使用渲染图像和深度图作为真实关键帧的代理。给定一个关键帧(IK,DK),我们对初始姿势猜测进行采样V从以地面真实姿态TC为中心的正态分布来生成虚拟帧(IV, DV)。这模拟了所有可能的6自由度运动,因此有效地增加了数据,以克服数据集中的有限运动集数据集我们对来自SUN3D数据集[34]和SUNC数据集[27]的图像对进行训练。对于SUN3D,我们以最大40cm的基线对图像对进行 对于SUCG,我们生成具有标准偏差为15cm的正态分布基线和标准偏差为0的旋转角度的图像。15弧度 当对图像对进行采样时,我们拒绝图像重叠小于50%的样本。 对于关键帧深度图Dk,我们在训练期间使用来自数据集的地面实况深度。训练目标跟踪网络的目标函数是Ltracking=Lflow(w)+Lmotin(δm)+Luncrtainty(δmi)。 (四)所述预处理的光学流和所述预处理的p〇sδξ是两个工作者的输出。损失流定义辅助光流任务。我们使用端点错误ΣL流量=i、jw(i,j)−wgt(i,j)<$2,(5)这是光流的常见误差度量用于生成姿态假设的两个损失运动和不确定性Lmotion=αr−rgt2+t−tgt2,andd(6)L不确定度=12log(|Σ|)− 2log.xΣ−1xΣ2.- 对数Kv.ΣΣ2x−1 x.(七)向量r和t是(3)中定义的线性组合δξ的旋转和平移部分。我们使用参数α来平衡两个分量的重要性我们将直接作用于预测的平均运动的这种损失与长度相结合,其中长度是多个预测的L个估计的对数似然函数的整数。我们从预测的姿势样本计算Σ为 Σ=( δξ−δξ ) ( δξ−δξ),并且向量x=δ−δgt。在执行最小化操作期间,我们会重新进行数据分析。函数Kv是第二类修正贝塞尔函数我们根据经验发现,基于多元拉普拉斯分布的损失比多元正态分布产生更好的结果不确定性损失推动网络预测不同的姿态δξi。我们使用Adam [19]和[21]中提出的学习率计划进行优化我们使用Tensorflow [1]实现和训练网络在NVIDIA GTX1080Ti上训练跟踪网络只需不到一天的时间我们在补充材料中提供了不DeepTAM:深度跟踪和映射7N−1×W224映射我们将场景的几何形状描述为一组深度图,我们为每个关键帧计算。为了实现高质量的深度图,我们在成本量中积累来自多个图像的信息。然后通过卷积神经网络从成本体积中提取深度图设C为成本体积,C(x,d)为像素x在d∈pthlabeld∈Bfb处的光一致性成本。我们将N个指定的表集合定义为一个fixed drangge[dmin,dmax]aBfb={bi|bi=dmin+i·dmax−dmin,i=0,1,. ,N-1}。(8)给定m个图像I1,.,I malong with their camera poses T1,..,T m我们计算光一致性成本为ΣC(x,d)=i∈{1,...,m}ρi(x,d)·wi(x).(九)光致一致性ρi(x,d)是从图像K的keye和从图像x到dd的图像pointx之间的3 3个斑块的绝对差之和(SAD)。我们可以使用一个warping功能(Ii,Ti(TK)-1,d),其中使用相对姿态和深度将图像Ii应用于关键帧。然后,加权因子wi被计算为1Σ。∗2Σwi(x)=1−N−1d∈Bfb\{d}exp −α·(ρi(x,d)−ρi(x,d)).(十)wi描述匹配置信度,如果存在一个明确且唯一的最小值ρi(x,d*),且d*=arg mindρi(x,d),则w i接近于1在经典的方法中,成本体积被视为数据项,并且可以通过搜索最小成本来获得深度图然而,由于成本量中的噪声,已经引入了各种复杂的正则化项和优化技术[13,9,14]以稳健的方式提取深度相反,我们训练一个网络来使用成本量中的匹配成本信息,并同时将其与基于图像的场景先验相结合,以获得更准确、更鲁棒的深度估计。对于基于成本-体积的方法,精度受到深度标签的数量N的限制。因此,我们使用自适应窄带策略来增加采样密度,同时保持标签的数量恒定。 我们定义了在预处理器上使用的最小化预处理器的深度条带的窄带Bnb={bi|bi=dprev+i·σnb·dprev,i=−N,…,N-2}。(十一)σnb确定窄带宽度。我们重新计算窄带的成本体积,以选择少量的帧,并再次搜索更好的深度估计。窄带允许我们在深度图中恢复更多细节,但也需要良好的初始化和正则化来保持波段在正确的位置。我们使用多个编码器-解码器类型的网络来解决这些任务。图 3示出了具有固定频带和窄带级的映射架构的概述。8H. 周湾Ummenhofer和T.Brox图3.第三章。映射网络概述。 映射由固定频带模块和窄带模块组成,它是基于一个编码器-解码器架构。 固定带模块:该模块采用关键帧图像IK(320× 240 × 3)和成本体积C fb(320 × 240 × 32),该成本体积C fb(320 × 240× 32)是利用在范围[0.01,2.5]内等距间隔的32个深度标签生成的,并且输出是一个非线性的局部化的图像。 该fixedb和depthetimatimatimimi 窄带模块迭代地运行;在每次迭代中,我们从分布在当前深度估计周围的一组深度标签构建成本量C nb,其中带宽σnb为0。0125. 它由两个编码器-解码器对组成 第一对得到成本体积Cn b(320 × 240 × 32)和关键帧图像IK(320 ×240 × 3)作为输入,并且生成一个完整的 成本 体积Cnblearn(320×240×32)。ΣThedepthmapisthenobtainedusinga可微软argmin运算[15]:D nb1=d∈Bnb B nb× softmax(−Cnblearn)。的第二编码器-解码器对得到当前深度估计Dnb1和关键帧图像并且产生细化的深度Dnb2。4.1网络架构训练网络以从关键帧图像IK预测关键帧逆深度DK,并且从图像集合I1,…Imand camera pose T1,.,T m. D K被表示为逆深度,这使得能够以更近的距离进行更精确的表示。我们沿着深度轴应用由粗到细的策略因此,映射被划分为固定频带模块和窄带模块。固定频带和模块构建的成本量Cnb在整个深度范围内分布,而窄带成本量Cnb以当前深度估计为中心,并在接近该估计的小频带内累积信息固定频带模块回归最小深度标签与最大深度标签之间的内插因子作为输出。因此,网络无法推理场景的绝对规模,这有助于使网络更灵活,更好地泛化。与包含一组正面平行平面作为深度标签的固定带不同,窄带的离散标签对于每个像素是单独预测内插因子是不合适的,因为窄带调制中的网络不知道该频带的带宽。我们通常不提供具有带形状(即,带宽度)的R行带网络每个深度标签所代表的深度值),因为网络倾向于过拟合到该直接线索并且忽略成本量中的成本信息。然而,带形状的缺失使得深度正则化困难,这可以在图1B中观察4.第一章因此,我们增加了另一个细化网络,重点是深度正则化问题。两DeepTAM:深度跟踪和映射9××GTw/精炼不精炼关键帧网络一起可以被理解为交替地求解变分方法的数据项和平滑项。详细的架构如图所示3.第三章。图4.第一章窄带细化的效果我们应用窄带模块进行15次迭代,有和没有细化。在没有细化的情况下,模块缺乏带形状的知识,并且它只能基于成本体积中的测量进行更新这可以帮助捕获更多细节,但也会导致强烈的伪影。使用先前的深度估计作为输入来构建细化网络允许更好的正则化和更稳定的深度估计。4.2培训我们使用基于Tensorflow的 Adam [19]从头开始训练映射网络[1]框架. 我们的培训过程包括多个阶段。我们首先用长度为8的二次采样视频序列训练固定频带模块。然后,我们固定参数并顺序地将两个窄带编码器-解码器对添加到训练。在最后一个阶段,我们展开窄带网络来模拟3次迭代,并联合训练所有部分在NVIDIA GTX 1080Ti上训练映射网络总共需要大约8天数据集我们在各种数据集上训练映射网络,以避免过度拟合。SUN3D[34]有各种各样的室内场景。 对于地面实况,我们采用具有多帧TSDF填充的改进的Kinect深度。 SUNC [27]是具有真实场景比例的3D场景的合成数据集。 我们渲染SUNCG,通过从SUN3D姿态轨迹中随机采样来获得一系列数据。除了SUNCG和SUN3D之外,我们还使用来自运动流水线的C O L M A P结构在下面的计算M VS中进行数据处理[24,25]。MVS包含室内和室外场景,并使用广角GoPro相机以全图像和时间分辨率(2704 1520@50Hz)捕获。 为了训练,我们将采样降到(320 240),并使用每三帧。我们手动删除重建失败的序列在训练期间,我们使用来自数据集的(伪)地面实况相机姿势来构建成本体积。训练目标我们在逆深度图上使用简单的L1损失|以及[ 30 ]中所述的结构化投资组合:|andthescaleinvariantgradientlossproposedin[30]:Lsc-inv-grad=Σ Σgh[D](i,j)−gh[Dgt](i,j)h∈{1, 2, 4}i,j10H. 周湾Ummenhofer和T.Broxn2GTnI. D(i,j)nD(i,j)。哪里g [D](i,j)=.Σ⊤D(i+h,j)−D(i,j),D(i,j+h)−D(i,j).(十三)H|D(i + h,j)|+|D(i,j)||D(i,j + h)|+|D(i,j)|gh[D](i,j)和gh[Dgt](i,j)是强调不连续性的所述预处理的深度图和所述粗处理的深度图的最小值。h是差分算子gh中的步长。5实验5.1跟踪评价选项卡. 1显示了我们的跟踪网络在RGB-D基准测试中的性能基准提供图像和深度图,具有从外部多相机跟踪系统获得的准确的地面实况姿态我们在关键帧生成期间使用来自数据集的深度图来测量我们的方法的孤立跟踪性能(Tab.①的人。 我们与Kerl等人的RGB-DSLAM方法的关键帧测距分量进行比较。 [17 ]第10段。该方法使用全色并将其用于关键帧的数据集,并将其用于关键帧的数据集,而我们仅使用来自关键帧的数据集的在测试期间,如果旋转距离超过6度的阈值或平移距离超过15cm的阈值,则生成新的所产生的关键帧的数目类似于[17]中针对RGB-D SLAM所报告的关键帧的数目选项卡. 1表明,我们的基于学习的方法在大多数序列上优于最先进的RGB-D方法,尽管使用较少的信息。此外,结果还表明,迫使网络预测多个姿势假设进一步减少了大多数序列上的翻译漂移结果还显示了泛化能力,因为我们没有对基准的任何序列进行训练或微调5.2制图评价为了评估映射性能,我们使用以下误差度量:.Σ。ΣΣ2sc-inv(D,Dgt)=1i,jE(i,j)2−1i,jE(i,j),(14)其中E(i,j)=l〇gD(i,j)-l〇 gDgt(i,j)并且n是pixel的集合,L1-rel(D,D )=1Σ|D(i,j)−Dgt(i,j)|(15)gtni .Dgt(i,j) 。L1-inv(D,D )=1Σ。1−1.一、.(十六)sc-inv是在[5]中引入的尺度不变度量L1-rel度量相对于地面实况深度值对深度误差进行归一化通过计算深度值的倒数的绝对差,L1-inv对接近的深度值给出更重要的意义该度量还反映了随着到相机的距离增加,深度计算中的不确定性增加GTDeepTAM:深度跟踪和映射11固定频带窄带跟踪跟踪和映射序列RGB-D SLAM Ours OursOurs Kerl等人 [17](无流量)(无假设)*OursTateno et al. [29日]fr1/3600.1250.0690.0650.0540.5000.116fr1/desk0.0370.0420.0310.0270.0950.078fr1/desk20.0200.0250.0200.0170.1150.055fr 1/工厂0.0620.0630.0600.0570.1500.165fr 1/室0.0420.0510.0410.0390.4450.084fr1/rpy0.0820.0700.0630.0650.2610.052fr1/xzy0.0510.0300.0210.0190.2060.054平均0.0600.0500.0430.0400.2530.086表1. 在RGB-D基准[28]的验证集上评估我们的跟踪(左部分)以及组合的映射和跟踪(右部分)。这些值以[m/s]为单位描述平移RMSE跟踪:我们比较了我们的跟踪网络对Kerl等人的RGB-D SLAM方法的性能。[17]第10段。Kerl等人的编号[17]对应于帧到关键帧的测距评估,并且已经从他们的论文中复制。 Kerl等人[17]使用相机图像和深度流来计算姿势,而我们的方法仅对关键帧使用深度流,并且仅限于光度对齐。我们的(w/o flow)不学习光流。我们的(无假设)是一个只预测单个姿势的网络。我们使用光流来学习运动特征并预测多个姿势假设。跟踪和映射:我们比较了我们的跟踪和映射对CNN-SLAM由Tateno等人。[29]第10段。 * 为了公平比较,CNN-SLAM在没有姿势图优化的情况下运行。 为了避免初始化中的偏差,我们使用来自CNN-SLAM的深度预测用于每个序列的第一帧,然后切换到我们的组合跟踪和映射。关键帧2帧6帧10帧1 iter3 iters5升GT图五、 固定频带和窄带模块的深度预测的定性比较。 我们评估了在固定频带模块中使用的不同数量的帧和在窄带模块中使用的迭代的效果。固定频带随着帧的增加而在仅使用2个帧(包括关键帧)和6个帧之间可以观察到最大的改进。帧越多,性能越饱和 为了进一步提高深度图的质量,我们在固定频带的10帧结果上使用迭代窄带模块。在先前的深度估计周围使用窄带允许我们捕获更精细的细节并实现更高的准确性。12H. 周湾Ummenhofer和T.Brox×固定频带窄带映射比较2帧6帧10帧1升3升5升公司简介L1-inv 0.1170.0850.083 0.076 0.065 0.064-0.0860.059 0.036MVSL1-rel 0.2390.1630.159 0.142 0.113 0.111-0.5570.240 0.171sc-inv0.1930.1600.159 0.156 0.132 0.130 0.251 0.3050.246 0.146L1-inv 0.0750.0650.0670.049 0.039 0.036-0.1420.169 0.036SUNGL1-rel 0.4390.4180.4230.304 0.213 0.171-0.3800.533 0.083sc-inv0.2130.1990.2000.174 0.152 0.146 0.248 0.3430.383 0.128L1-inv 0.0970.0670.065 0.050 0.035 0.036-0.2100.197 0.064SUN3D L1-rel 0.2880.1980.193 0.141 0.082 0.083-0.4230.412 0.111sc-inv0.2060.1740.172 0.155 0.125 0.128 0.146 0.3740.340 0.130表2.在我们的训练数据集的测试分割上的关键帧深度图错误固定波段:用于计算固定频带模块的成本量的帧数的影响。累积来自多个帧的信息提高了性能,并且在添加六个或更多帧之后饱和。窄带:窄带模块的不同迭代次数的效果更多的迭代导致更准确的深度图。深度估计在大约三次迭代之后收敛,并且随着更多的迭代仅缓慢地改进在SUN3D上,如果迭代次数超过三次,结果会稍差 窄带宽度〇nb是常数,其可以由逐渐减小的策略或最佳地由深度估计的不确定性来代替。 映射比较:与其他基于学习和成本-容量的密集映射方法进行定量比较。我们从测试集评估长度为10的序列,并使用来自数据集的相机姿势来测量我们的映射的孤立性能DeMoN仅使用两个输入图像(每个序列的第一帧和最后一帧),而不使用姿势作为输入。由于DeMoN预测相对于其运动预测缩放的深度,因此我们仅在尺度不变度量sc-inv上进行比较SUNG和SUN3D具有大量低纹理的室内场景,而MVS包含室内和室外场景的混合并提供更多纹理。我们的方法在所有数据集上都优于基线在非常困难的室内数据集(SUNG、SUN3D)上,裕度特别大我们在Tab中定量评估了我们的固定波段模块和窄带模块2.结果表明,固定频带模块能够利用来自多个帧的累积信息,从而得到更好的深度估计。虽然这种行为对于传统方法来说是理所当然的,但对于基于学习的方法来说,情况并不一定如此这同样适用于像窄带模块这样的迭代过程迭代地运行窄带模块改进了深度估计。我们可以在表中定量地显示这一点2,在图中定性五、我们还将我们的映射与最先进的深度学习方法DeMoN [30]和两种强大的经典密集映射方法DTAM [23]和SGM [13]进行了比较。我们使用公开的重新实现OpenDTAM和我们自己的SGM实现16个方向。对于DTAM,SGM和DeepTAM,我们以320- 240的分辨率构建了具有32个标签的成本量 我们使用SAD作为照片一致性度量,并积累长度为10的视频序列的信息。我们使用来自数据集的相同的伪相机姿势地面实况,https://github.com/magican/OpenDTAM.gitSHA:1f92a54334c233f9c4ce7d8cbaf9a81dee5e69a6DeepTAM:深度跟踪和映射13Afaircomparisone. 对于有限的运动视差,从序列中给出第一帧和最后一帧以提供足够的运动视差。如Tab.所示2我们的方法在所有指标和测试集上都达到了最好的性能所有经典的方法往往遭受弱纹理的场景,经常发生在室内数据集和合成数据集。然而,我们不太受这个问题的影响,通过利用匹配的成本信息与场景先验,通过神经网络。这一点再次得到图1中定性比较的支持六、此外,所有经典的基于成本-体积的方法的映射性能都容易受到噪声相机姿态的影响,而我们的方法更鲁棒,这在图1中示8. 更多定性的例子可以在补充视频中找到在Tab的右侧。1我们将我们的组合跟踪和映射与没有姿势图优化的CNN-SLAM [29]进行CNN-SLAM使用半密集光一致性优化方法来计算相机姿态和基于不确定性的深度更新。我们没有在RGB-D基准数据集上训练[28]。我们学到的密集跟踪和映射推广得很好,并证明在大多数序列上更鲁棒和准确。虽然它的表现显然更差在FR 1/plant上,它很少失效,并且总体上产生更可靠的轨迹。为了进一步验证我们的泛化能力,我们在KITTI [10]上测试了我们的模型,而没有进行微调。图7显示了定性比较。关键帧SGM DTAM DeMoN Ours GT图六、10帧序列的定性深度预测比较DTAM在短序列和无文本场景方面存在问题 SGM也有同样的问题,但如果存在足够的纹理,则效果相当好。DeMoN即使在同质图像区域也能很好地工作,但会丢失许多细节。与其他方法相比,我们的方法可以使用少量的帧产生高质量的深度图,并捕获更多的细节6结论我们提出了一种新的深度学习架构,用于实时密集映射和跟踪。对于跟踪,我们表明,生成合成的观点,使我们能够逐步跟踪相对于一个关键帧。对于映射,我们的方法可以有效地MVS SUNG SUN3D14H. 周湾Ummenhofer和T.BroxGT我们妖DTAMSGM图像图7.第一次会议。KITTI的推广实验[10]。SGM、DTAM和Ours使用来自左侧彩色摄像机的5帧序列,而对于DeMoN,我们仅使用每个序列的第一帧和最后一帧。我们显示伪GT作为参考,这是通过计算相应的整流和同步立体声对的视差KITTI是用广角相机捕获的城市场景数据集,与我们的训练数据有很大不同此外,由于数据集的主要向前运动模式,核极在可见图像边界内,这使得深度估计特别困难。在没有微调的情况下,我们的方法可以很好地推广到这个数据集。更多的例子可以在补充文件中找到。姿态噪声图8. 定性深度预测比较DeepTAM,SGM,DTAM对增加姿态噪声。 我们仔细选择了一个纹理良好的视频序列,具有10帧和足够的运动视差。对于SGM和DTAM,我们使用具有64个标签的成本卷,而对于DeepTAM,我们使用32个标签我们发现使用64个而不是32个标签改善了两种基线方法的结果我们将所有方法的相同正态分布噪声向量应用于相机姿势,并将标准差从0(最左侧)增加到0。6 |ξ|(最右边)。 SGM和DTAM对噪声高度敏感,性能下降很快。 我们预测的深度保留了重要的场景结构,即使在大量的噪声。这种行为在跟踪期间是有利的,并且提高了整个系统的鲁棒性。利用成本体积信息和基于图像的先验,导致准确和鲁棒的密集深度估计。我们证明了我们的方法优于强大的经典和深度学习算法。在未来的工作中,我们计划扩展所提出的组件,以建立一个完整的SLAM系统。该项目的大部分资金来自欧盟地平线2020项目Trimbot2020。我们还要感谢bwHPC计划提供的计算资源,感谢Facebook捐赠的P100服务器和礼品资金。DTAM我们SGMDeepTAM:深度跟踪和映射15引用1. Abadi,M.,Agarwal,A.,Barham,P.,Brevdo,E.,陈志,西特罗角科罗拉多州科拉多戴维斯,A.,迪恩JDevin,M.,Ghemawat,S.,古德费洛岛Harp,A.,Irving,G.Isard,M. ,Jia,Y. ,Jozefowicz,R. ,Kaiser,L. ,Kudlur, M. , Levenberg , J. , Man'e, D. , Monga , R. , Moore , S. ,Murray,D.Olah,C.,Schuster,M.,Shlens,J.,Steiner,B.,萨茨克弗岛你好K ,Tuckerer,P. ,Vanhoucke,V. ,Vasudevan,V. ,Vi′egas,F. ,Vinyals,O. 2005年,Warden,P.,Wattenberg,M.,Wicke,M.,Yu,Y.,郑 X : TensorFlow : Large-Scale Machine Learning on Heterogeneous Systems(2015),软件可从tensorflow.org2. 阿格拉瓦尔,P.,卡雷拉,J.,Malik,J.:学习通过移动来观察2015年IEEEIternationalConfernceonComuterVision ( ICCV ) .pp.37- 4 5 ( D e c2015)。https://doi.org/10.1109/ICCV.2015.133. 科利恩斯河T. :Aspapa-sweepapproachtoruleemulti-imagematching. pp. 358-363IEEE(Jun 1996). https://doi.org/10.1109/CVPR.1996.5170974. Dhiman,V.,Tran,Q.H.,科尔索,杰杰Chandraker,M.:一种用于道路场景理解的连续在:2016年IEEE Conference onComputerVis isinandPaternRegnitin(CVPR)中。pp.4331- 4339(2016年6月)。https://doi.org/10.1109/CVPR.2016.4695. Eigen,D.Puhrsch,C.Fergus,R.:从单个图像预测深度图多尺度深度网络arXiv:1406.2283 [cs](2014年6月)6. Engel , J. , Koltun , V. Cremers , D. : 直 接 稀 疏 测 距 法 。IEEETransac-tionsonPatternAnalysisanddMachineIntellige40(3),611- 62 5(M a r 2018). https://doi.org/10.1109/TPAMI.2017.26585777. Engel,J. ,Schüops,T. ,Cremers,D. :LSD-SLAM:Large-scaldirectmonocularSLAM.In:EropeanConferenceonComuterVision. pp. 834-849 02TheDog(2014)8. 法塔尔河:单一图像去雾。在:ACM SIGGRAPH 2008论文。pp.72:1- 72:9。SIGGRAPHACM,新东西你好纽约,USA(2008年)。https://doi.org/10.1145/1399504.136067
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功