没有合适的资源?快使用搜索试试~ 我知道了~
无监督学习的单眼深度和自我运动估计的框架
1附近景观姿势CNNR, t视频深度和自我运动的无监督学习加州大学伯克利分校马修·布朗谷歌诺亚Snavely谷歌David G.LoweGoogle摘要我们提出了一个无监督学习框架的任务,单眼深度和摄像机运动估计的非结构化视频序列。与最近的工作[10,14,16]一样,我们使用端到端学习方法,将视图合成作为监督信号。在(a) 培训:未标记的视频剪辑。与以前的工作相比,我们的方法是完全无监督的,只需要单目视频序列进行训练。我们的方法使用单视图深度和多视图姿态网络,损失基于使用计算的深度和姿态将附近视图扭曲到目标。因此,网络在训练期间通过损失耦合,但可以在测试时独立应用。在KITTI数据集上的实验结果证明了该方法的有效性:1)单目深度比单目深度高出10%,目标视图深度CNN利用使用地面实况姿态或深度进行训练的监督方法,以及2)与在可比较的输入设置下建立的SLAM系统相比,1. 介绍即使在很短的时间尺度上,人类也能够推断出例如,在沿着街道导航时,我们可以很容易地定位障碍物并迅速做出反应以避开它们。 年几何计算机视觉的研究未能为真实世界场景重建类似的建模能力(例如,其中存在非刚性、闭塞和缺乏纹理)。那么,为什么人类在这项任务上表现出色一个假设是,我们通过过去的视觉经验对世界形成了丰富的结构性理解,这些视觉经验主要包括四处走动和观察大量场景,并为我们的观察建立一致的从数以百万计的这样的观察中,我们了解到了世界的基本情况--道路是平的,建筑物是直的,汽车是由道路支撑的,等等,我们可以在感知新场景时应用这些知识,甚至从单个单目图像。*大部分工作是在谷歌实习期间完成的。(b) 测试:单视图深度和多视图姿态估计。图1. 我们系统的训练数据仅由从不同视点捕获场景外观的未标记图像序列组成,其中不提供图像的姿态。我们的训练过程产生两个独立操作的模型,一个用于单视图深度预测,一个用于多视图相机姿态估计。在这项工作中,我们模仿这种方法训练一个模型,观察图像序列,并旨在解释它的观察通过预测可能的相机运动和场景结构(如图所示)。①的人。我们采取端到端的方法,允许模型直接从输入像素映射到自我运动的估计(参数化为6-DoF变换矩阵)和底层场景结构(参数化为参考视图下的每像素深度图)。我们特别受到先前的工作的启发,这些工作建议将视图合成作为一种度量[44],以及最近的工作,这些工作在端到端框架中处理校准的多视图3D情况[10]。我们的方法是无监督的,可以简单地使用图像序列进行训练,没有手动标记,甚至相机运动信息。我们的方法是建立在一个地质-RIC视图合成系统仅在其场景几何形状和相机姿态的中间预测对应于物理地面时才表现得一贯18511852真相虽然不完美的几何形状和/或姿态估计可以欺骗某些类型的场景的合理的合成视图(例如,无纹理),当呈现另一组具有更多样化布局和外观结构的场景时,相同的模型将惨败。因此,我们的目标是将整个视图合成流水线制定为卷积神经网络的推理过程,以便通过针对视图合成的“元”任务在大规模视频数据上训练网络,迫使网络学习深度和相机姿态估计的中间任务,以便对视觉世界做出一致的解释。对KITTI [15]基准的实证评估证明了我们的方法在单视图深度和相机姿态估计方面的有效性。我们的代码将在https://github.com/tinghuiz/SfMLearner网站。2. 相关工作结构和运动的同时估计是一个研究得很好的问题,技术的工具链[12,50,38]。虽然传统的工具链在许多情况下是有效和高效的,但是其对精确图像对应的依赖可能在低纹理、复杂几何结构/光度学、薄结构和遮挡的区域中引起问题。为了解决这些问题,最近已经使用深度学习解决了几个流水线阶段,例如,特征匹配[18]、姿态估计[26]和立体声[10,27,53]。这些基于学习的技术是有吸引力的,因为它们能够在训练期间利用外部监督,并且在应用于测试数据时可能基于变形的视图合成几何场景理解的一个重要应用是新视图合成任务,其目标是合成场景从新颖的摄像机视角看。用于视图合成的经典范例是首先显式地估计底层3D几何形状或建立输入视图之间的像素对应,并且然后通过合成来自输入视图的图像块(例如,像素块)来合成新视图[4,55,43,6,9])。最近,端到端学习已经被应用于通过基于深度或流来变换输入来重构新颖视图[ 10]DeepStereo [10 ],Deep3D [51]和Appearance Flows [54]。在这 些 方 法 中 , 底 层 几 何 分 别 由 量 化 深 度 平 面(DeepStereo)、概率视差图(Deep3D)和视图相关流场(Appearance Flows)表示。与直接从输入视图映射到目标视图的方法(例如,[45]),基于翘曲的方法被迫学习几何形状和/或对应性的中间预测。在这项工作中,我们的目标是从经过训练的CNN中提取这种几何推理能力,以执行基于扭曲的视图合成。从注册的2D视图学习单视图3D我们的工作与最近一系列关于从注册的2D观察学习单视图3D推理的Gargetal. [14]建议使用投影误差来学习单视图深度估计CNN,以用于监督校准的立体孪生。同时,Deep3D [51]预测第二立体视点使用立体电影镜头作为训练数据从输入图像中提取。Godard等人也采用了类似的方法。[16],增加了左右一致性约束,以及更好的架构设计,带来了令人印象深刻的性能。与我们的方法一样,这些技术仅从世界的图像观察中学习,而不像需要明确深度进行训练的方法,例如,[20、42、7、27、30]。这些技术与用于结构和运动估计的直接方法有一些相似之处[22],其中调整相机参数和场景深度以最小化基于像素的误差函数。然而,基于CNN的方法不是直接最小化误差以获得估计,而是对每批输入实例仅采取梯度步骤,这允许网络从相关图像的大型语料库中学习隐式先验。几位作者已经探索了在以这种方式训练的模型中构建可微渲染操作,例如,[19、29、34]。虽然大多数上述技术(包括我们的技术)主要集中在推断深度图作为场景几何输出,但最近的工作(例如,[13,41,46,52])也显示了基于类似的投影几何原理从2D观察中学习3D体积表示的Fouhey等人[11]进一步表明,通过利用场景规则性,甚至可以在没有3D标签(或配准的2D视图)的情况下学习3D推理从视频中进行无监督/自监督学习与我们相关的另一项工作是从视频中进行视觉表示学习,其总体目标是为从视频数据中学习通用的视觉特征,这些视觉特征以后可以被重新用于其它视觉任务,例如对象检测和语义分割。这样的借口任务包括自我运动估计[2,24],跟踪[49],时间相干性[17],时间顺序验证[36]和对象运动掩模预测[39]。虽然我们在这项工作中专注于推断显式场景几何和自我运动,但直观地说,深度网络(特别是单视图深度CNN)学习的内部表示应该捕获某种程度的语义,这些语义也可以通用于其他任务。与我们的工作同时,Vijayanarasimhanet al.[48]独立地提出了用于从视频联合训练深度、相机运动和场景运动的框架。虽然这两种方法在概念上是相似的,但我们的方法专注于无监督方面,而他们的框架增加了合并监督的能力(例如,深度、相机运动或场景运动)。在训练过程中,场景动态建模的方式存在显着差异,其中它们显式地解决了对象运动,而我们的可解释性掩模折扣了经历运动、遮挡和其他因素的区域。3. 方法在这里,我们提出了一个框架,用于从未标记的视频序列中联合训练尽管被联合训练,但是深度模型和姿态估计模型可以在测试时间推断期间独立地使用。我们的模型的训练示例包括由移动摄像机捕获的场景的短图像序列。虽然我们的训练过程在一定程度上是鲁棒的1853SItIt−1深度CNNItIsIIt+1图2.基于视图合成的监控管道综述深度网络仅将目标视图作为输入,并且输出像素x像素的深度图D_t。姿势网络工作既需要目标视图(It)和附近/源视图(例如,It−1和It+1)作为输入,并输出相关相机姿态(Tt→t−1,Tt→t+1)。然后,两个网络的输出被用于逆扭曲源视图(参见第3.2)来重建目标视图,并且光度重建损失用于训练CNN。通过利用视图合成作为监督,我们能够从视频中以无监督的方式训练整个框架。运动时,我们假设我们感兴趣的场景大多是刚性的,即,不同帧上的场景外观变化由摄像机运动支配。3.1. 将合成视为监督深度和姿态预测CNN的关键监督信号来自新视图合成的任务:给定场景的一个输入视图,合成从不同相机姿态看到的场景的新图像。我们可以合成给定图像中每像素深度的目标视图,加上附近视图中的姿态和可见性。如我们接下来将展示的,该合成过程可以以完全可微的方式实现,其中CNN作为几何和姿态估计模块。可见性是可以处理的图3. 可微分图像扭曲过程的图示。对于目标视图中的每个点pt,我们首先基于预测的深度和相机姿态将其投影到源视图上,然后使用双线性插值来获得翘曲的值。位置pt处的图像I_s。框架可以应用于没有姿态信息的标准视频。此外,它预测的姿势作为学习框架的一部分。请参见图2,以了解我们用于深度和姿态估计的学习管道的说明3.2. 基于可微分深度图像的绘制如Eq. 1,我们的学习框架的一个关键组成部分是一个可微的基于深度图像的渲染器,它通过从源视图I s中来重建目标视图It基于预测的深度图D_t和相对姿态T_t→s。令Pt表示目标视图中的像素的齐次坐标,并且K表示相机本征矩阵。我们可以通过2得到ptps<$KT<$t→sD<$ t(pt)K−1pt(2)注意投影坐标ps是连续值。 为了获得Is(ps)以填充Is(pt)的值(参见图3),然后我们使用可微双线性采样机制pro-p-p。在空间Transformer网络[23]中提出,该网络线性内插4像素邻居(左上,右上,左下角和右下角)近似Is(ps),即以及非刚性和其他非建模因素,使用Is(pt)=Is(ps)=i∈{t,b},j∈{l,r}wijIs(pij),其中wij是“可扩展性”掩码,我们稍后讨论(第二节)。3.3)。与Ps和Pij之间的空间接近度成线性让我们表示作为训练图像序列和吉吉i,jwS=1时。类似的策略在[54]中用于学习其中一个帧It是目标视图,源视图Is(1≤s≤N,sl=t)。视图合成目标可以公式化为ΣΣLvs=|It(p)− Is(p)|、(1)直接在不同的视图之间弯曲,而这里的坐标-通过能够对深度和相机姿态进行因式分解的投影几何来获得像素扭曲的结果。3.3. 建模模型限制S p请注意,当应用于单眼视频时,上述视图其中,pindexes在pixel坐标上,并且lxes是源视图,基于基于深度图像的渲染模块[8](在第12节中描述)将其扭曲到目标坐标系。3.2),取预测的深度Dλt,预测的4×4相机变换矩阵1并且源视图作为输入。请注意,视图合成作为监督的想法最近也被探索用于学习单视图深度估计[14,16]和多视图立体[10]。然而,据我们所知,所有以前的工作都需要在训练过程中设置图像集(在DeepStereo的情况下也需要测试),而我们的1在实践中,CNN估计欧拉角和3D平移向量,然后将其转换为变换矩阵。项目p tlptr经纱SSptp p英国广播公司pSSsptpDt(p)pt−1姿势CNN项目不!t−1pt+1不!电话+1项目1854合成公式隐含地假设1)场景是静态的,没有移动的对象;2)在目标视图和源视图之间不存在遮挡/去遮挡; 3)表面是Lambertian的,使得照片一致性误差是有意义的。如果在训练序列中违反了这些假设中的任何一个,那么gra-texture可能会被破坏并可能抑制训练。为了提高我们的学习管道对这些因素的鲁棒性,我们还训练了一个可解释性预测网络(与深度和姿态网络联合并同时),该网络输出一个per-pix el软掩码E为每个tar get-source pair设置,指示[2]为了简化符号,我们省略了矩阵乘法步骤中向齐次坐标的必要转换。1855输入卷积解卷积上采样+Concat预测(a) 单视图深度网络(b)姿势/可解释性网络图4.深度/姿态/可解释性预测模块的网络架构每个矩形块的宽度和高度分别指示输出通道和对应层处的特征图的空间维度,并且尺寸的每次减小/增大指示因子2的变化。(a)对于单视图深度,我们采用具有多尺度侧预测的DispNet [35]架构。除了前4个conv层分别为7、7、5、5之外,所有层的内核大小均为3用于第一转换层的输出通道的数量是32。(b)姿态和可解释性网络共享前几个卷积层,然后分别分支以预测6-DoF相对姿态和多尺度可解释性掩模。第一conv层的输出声道的数量是16,并且内核大小对于除了前两个conv和最后两个deconv/预测层之外的所有层是3,其中我们分别使用7、5、5、7更多详情请参见第3.5网络的信念,在那里直接视图合成将成功-完全建模为每个塔得到像素。基于所预测的Es,视图合成目标相应地被加权为Σ ΣLvs=Es(p)|It(p)− Is(p)|.(三) ∈S p由于我们没有对E的直接监督,因此具有上述损失的训练将总是导致网络的平凡解显式多尺度和平滑度损失(例如,如在[14,16]中),其允许直接从较大的空间区域导出梯度我们在这项工作中采用第二种策略,因为它对体系结构的选择不太敏感。为了平滑,我 们最 小 化 预测 深 度图的 二阶 梯 度 的L1范数( 类似 于[48])。我们的最终目标是Σ Σ预测E_s为零,这完美地最小化了损失。ToL最终=Ll +λsLl+λeLreg(El),(4)为了解决这个问题,我们添加一个正则化项Lreg(e)该等物质─vs平滑sL s通过最小化交叉熵损失来在每个像素位置处具有常数标签1。换句话说,鼓励网络最小化视图合成目标,但允许一定量的松弛用于贴现模型未考虑的因素。3.4. 克服梯度局部性上述学习流水线的一个剩余问题是梯度主要从I(pt)与I(ps)的四个相邻者之间的像素强度差导出,如果正确的ps(使用地面实况深度和姿态投影)位于低纹理区域中或远离当前纹理区域,则估计这是运动估计中众所周知的问题[3]。根据经验,我们发现有两种策略可以有效地克服这个问题:1)使用具有深度网络的小瓶颈的卷积编码器-解码器架构,其隐式地将输出约束为全局平滑,并且促进梯度从有意义的区域传播到附近区域; 2)其中不同图像尺度上的l个索引,源图像上的s个索引,并且λs和λe分别是深度平滑损失和可解释性正则化3.5. 网络架构对于单视图深度预测,我们采用[35]中提出的DispNet架构,该架构主要基于具有跳过连接和多尺度侧预测(见图4)。除了预测层之外,所有的conv层后面都是ReLU激活,其中我们使用1/(αsigmoid(x)+β),α=10,β=0。1,使预测深度在合理范围内始终为正值我们还尝试使用多个视图作为深度网络的输入,但没有发现这可以改善结果。这与[47]中的观察结果一致,其中需要强制执行光流约束以有效地利用多个视图。1856姿势姿势估计网络的输入是与所有源视图(沿着颜色通道)级联的目标视图,并且输出是目标视图和每个源视图之间的相对姿势。 该网络由7个stride-2 con组成,卷积后接1×1卷积,输出为6<$N−1通道(对应于每个源视图的3个欧拉角和3最后,将全局平均池应用于在所有空间位置聚合预测。除了最后一层没有应用非线性激活之外,所有conv层后面都是ReLU。可解释性掩码可解释性预测网络与姿势网络共享前五个特征编码层,随后是具有多尺度侧预测的5个反卷积层除了没有非线性激活的预测层之外,所有conv/deconv层之后都是ReLU每个预测层的输出通道的数量为2×(N-1),其中,每两个通道由softmax标准化,以获得可解释的-对应的源-目标对的ity预测(归一化之后的第二通道是E1,并且用于计算等式2中的损失(3)第三章。我们的预测图5. 我们在Cityscapes数据集上的样本预测仅使用在Cityscapes上训练的模型。4. 实验在这里,我们评估我们的系统的性能,并与先前的方法进行比较,单视图深度以及自我运动估计。我们主要使用KITTI数据集[15]进行基准测试,但也使用Make3D数据集[42]评估跨数据集泛化能力。输入图像我们的(CS)我们的(CS +KITTI)我们使用公开可用的TensorFlow [1]框架实现了该系统。 对于所有实验,我们设置λs=0。5/l(l是相应比例的缩小因子),λe=0。二、在训练过程中,我们对除输出层之外的所有层使用批量归一化[ 21 ],并使用β 1 = 0的Adam [28]优化器。9,β2=0。999,学习率0. 0002,小批量为4。训练通常在大约150K次迭代后收敛。所有的实验都是用单目相机捕获的图像序列进行的。在训练过程中,我们将图像的大小调整为128×416,但深度并且姿态网络可以在测试时针对任意大小的图像全卷积地运行。4.1. 单视图深度估计我们在[7]提供的分割上训练我们的系统,并排除测试场景中的所有帧以及平均光流幅值小于1像素的静态序列用于训练。我们将图像序列的长度固定为3帧,并将中心帧作为目标视图,将±1帧作为源视图意见. 我们使用这两种彩色摄像机捕捉的图像,但处理它们在形成训练序列时是独立这导致总共44,540个序列,其中40,109个用于训练,4,431个用于验证。据我们所知,以前没有系统存在,从单目视频中以无监督方式学习单视图深度估计。尽管如此,在这里我们提供了与具有深度监督的现有方法[7]和使用校准立体图像的最近方法(即具有姿势监督)图 7. 通 过 我 们 的 初 始 Cityscapes 模 型 和 最 终 模 型 ( 在Cityscapes上进行预训练,然后在KITTI上进行微调)对KITTI数据集进行Cityscapes模型有时会出现结构性错误(例如:车身上的孔),这可能是由于两个数据集之间的域间隙。训练[14,16]。由于通过我们的方法预测的深度被定义为比例因子,因此为了评估,我们将预测的深度图乘以将中值与地面真实值匹配的标量S,即, s=median(Dgt)/median(Dpre d)。与[16]类似,我们还试验了首先在较大的Cityscapes数据集上预训练系统[5](样本预测如图5所示),然后在KITTI上进行微调,这导致了轻微的性能改进。KITTI在这里,我们评估了来自[7]的测试分割的697张图像的单视图深度性能。如表1所示,我们的无监督方法使用几个su.检查方法(例如,Eigen等人[7] Garget al. [14]),但不符合Godard等人的并行工作。[16]其使用校准的立体图像(即,具有姿势监督),并且具有用于训练的左右循环一致性损失。对于未来的工作,这将是有趣的,看看是否将类似的周期一致性损失纳入我们的框架可以进一步改善结果。 图61857输入地面实况Eigen等人(深度补充) Garg等人( pose sup.)我们的(无人监督)图6. Eigen等的单视图深度估计的比较。[7](与地面实况深度监督),Garg等人。[14](有地面真相构成监督),和我们(无监督)。地面实况深度图是从稀疏测量值内插的,用于可视化目的。最后两行显示了我们模型的典型失败案例,它有时会在巨大的开放场景和靠近相机前面的物体中挣扎。提供了我们的结果和一些监督基线之间的视觉比较的示例,在各种示例。我们可以看到,虽然以无监督的方式训练,但我们的结果与监督基线的结果相当,有时更好地保留了深度边界和薄结构,如树木和路灯我们在图7中展示了由我们的初始Cityscapes模型和最终模型(在Cityscapes上预训练,然后在KITTI上微调)做出的样本预测。由于两个数据集之间的域差距,我们的Cityscapes模型有时难以恢复汽车/灌木的完整形状,并将它们误认为是遥远的物体。我们还对可解释性模型进行了消融研究(见表1),结果表明仅提供了适度的每秒钟增加。这可能是因为1)大多数KITTI场景是静态的,没有显著的场景运动,以及2)遮挡/可见性效应仅发生在短时间跨度(3帧)上的序列中的小区域中,这使得可解释性建模对于训练的成功不太重要尽管如此,我们的可解释性预测网络似乎确实很好地捕捉4.3),并且可能对其他更具挑战性的数据集更重要Make3D为了评估我们的单视图深度模型的泛化能力,我们直接将我们在Cityscapes + KITTI上训练的模型应用于在训练过程中看不到的Make3D数据集ing.虽然我们的方法和其他使用Make3D地面实况深度监督的方法之间仍然存在显着的性能差距(见表2),但我们的预测能够捕获1858方法数据集监督误差度量精度度量深度构成绝对相对值平方相对RMSERMSE日志δ<1。25δ<1。252δ<1。253列车组均值KC0.4035.5308.7090.4030.5930.7760.878Eigen等人[7]粗糙KC0.2141.6056.5630.2920.6730.8840.957Eigen等人[7]好的KC0.2031.5486.3070.2820.7020.8900.958Liu等[32个]KC0.2021.6146.5230.2750.6780.8950.965Godard等人[16个]KC0.1481.3445.9270.2470.8030.9220.964Godard等人[16个]CS + KC0.1241.0765.3110.2190.8470.9420.973Ours(w/o explainability)(我们的)K0.2212.2267.5270.2940.6760.8850.954我们K0.2081.7686.8560.2830.6780.8850.957我们CS0.2672.6867.5800.3340.5770.8400.937我们CS + K0.1981.8366.5650.2750.7180.9010.960Garg等人[14]帽50米KC0.1691.0805.1040.2730.7400.9040.962我们的(无可解释性)上限50米K0.2081.5515.4520.2730.6950.9000.964我们的帽子50米K0.2011.3915.1810.2640.6960.9000.966我们的帽子50米CS0.2602.2326.1480.3210.5900.8520.945我们的帽子50米CS + K0.1901.4364.9750.2580.7350.9150.968表1. KITTI数据集[15]上的单视图深度结果使用Eigen等人的分裂。[16][16 ][ 16]]对于训练,K = KITTI,CS =城市景观[5]。我们比较的所有方法都在训练期间使用某种形式的监督(地面真实深度或校准的相机姿势)。注:结果来自Garg et al.[14]在50米深处被覆盖,所以我们在表的下部分别将这些分开。输入地面实况我们方法监督误差 度量深度 构成绝对相对值平方相对RMSERMSE日志列车组均值C0.876 13.9812.270.307Karsch等人[25日]C0.428 5.0798.3890.149Liu等[33个]C0.475 6.56210.050.165Laina等人[三十一]C0.204 1.8405.6830.084Godard等人[16个]C0.544 10.9411.760.193我们0.383 5.32110.470.478表2.Make3D数据集上的结果[42]。与我们的相似,戈达德等人。[16]在训练过程中不使用任何Make3D数据,并直接将在KITTI+Cityscapes上训练的模型应用于测试集。遵循[16]的评估协议,仅在中心图像裁剪中深度小于70图8. 我们在Make3D数据集上的样本预测。请注意,我们的模型仅在KITTI + Cityscapes上训练,并直接在Make3D上测试。全局场景布局相当不错,无需对Make3D图像进行任何训练(参见图8)。4.2. 姿态估计为了评估我们的姿态估计网络的性能,我们将我们的系统应用于官方的KITTI里程计分割(包含11个驾驶序列,其具有通过IMU/GPS读数获得的地面实况里程计,我们仅用于评估目的),并使用序列00-08进行训练,使用序列09-10进行测试。在这个实验中,我们将系统的输入图像序列的长度固定为5帧。我们将我们的自我运动估计与单眼ORB-SLAM[37](一种成熟的SLAM系统)的两种变体进行比较:1)ORB-SLAM(全),其使用驱动序列的所有帧(即,允许循环闭合和重新定位),以及2)ORB-SLAM(短),它在5帧片段上运行(与我们的输入设置相同)。我们比较的另一个基线是5帧片段的汽车运动的数据集平均值(使用地面实况里程计)为了解决评估过程中的尺度模糊性,我们首先优化每种方法所做预测的缩放因子,以最佳地与地面实况对齐,然后测量绝对轨迹误差(ATE)[37]作为度量。ATE是在5帧片段上计算的,并在整个序列上取平均值3如表3和图9所示,我们的方法优于与我们共享相同输入设置的两个基线(平均odome-try和ORB-SLAM(短)),但低于ORB-SLAM(全),ORB-SLAM(全)利用整个序列(对于seq.09和1201用于seq。10)用于环路闭合和重新定位。为了更好地理解我们的姿态估计结果,我们3为了评估ORB-SLAM(完整),我们将完整序列的轨迹分解为5帧片段,并将参考坐标框架调整到每个片段的中心框架。1859目标视图可扩展性掩码源视图表3.KITTI圆顶上的绝对轨迹误差(ATE)-尝试在所有5帧片段上平均分割(越低越好)。我们方法的性能优于具有相同输入设置的基线,但低于严格使用更多数据的ORB-SLAM(完整)0.10.080.060.040.0200 0.1 0.2 0.3 0.4 0.5左/右转幅度(m)图9. 不同左/右转幅度下的绝对轨迹误差(ATE)(测试序列起始帧和结束帧之间的侧向坐标差)。当侧旋转较小时,我们的方法的表现显著优于ORB-SLAM(短),并且在整个光谱上与ORB-SLAM(全)相当。在图9中显示了在一个序列的开始和结束之间,汽车侧旋转量变化的ATE曲线。图9表明,当侧旋转很小时(即,汽车主要是向前行驶),并且在整个频谱上与ORB-SLAM(全)相当。我们和ORB-SLAM(短)之间的巨大性能差距表明,我们学习的自我运动可能被用作单目SLAM系统中局部估计模块的替代方案。4.3. 可视化可解释性预测我们在图10中可视化了我们的网络预测的示例可解释性掩码。前三行表明网络已经学会识别场景中的动态对象,因为我们的模型无法解释,同样,第4-5行是在后续视图中从帧中最后两行显示了可解释性加权损失的潜在负面影响:深度CNN在很好地预测薄结构方面具有低置信度,并且倾向于将它们掩盖为不可解释的。5. 讨论我们已经提出了一个端到端的学习流水线,该流水线利用视图合成的任务来监督单视图深度和相机姿态估计。该系统在未标记的视频上进行训练,但与需要地面实况深度或姿态进行训练的方法相比,性能尽管在基准评估上表现良好,但我们的方法绝不接近于解决3D场景的无监督学习的一般问题图10. 可解释性掩码的可视化示例。由于运动(行1-3)、遮挡/可见性(行4-5)或其他因素(行7-8),突出显示的像素被预测为网络无法解释结构推理一些重大挑战尚待解决:1)我们当前的框架没有明确地估计场景动态和遮挡(尽管它们被可解释性掩模隐含地考虑在内),这两者都是3D场景理解中的关键因素。通过运动分割(例如,运动分割)对场景动态进行直接建模。[48,40])可能是一个潜在的解决方案; 2)我们的框架假设相机固有的是给定的,这禁止使用具有未知相机类型/校准的随机互联网视频-我们计划在未来的工作中解决这个问题; 3)深度图是底层3D场景的简化表示。将我们的框架扩展到学习完整的3D体积表示(例如,[46])。未来工作的另一个有趣的领域是更详细地研究我们的系统所学习的表示。特别地,姿态网络可能在估计相机运动时使用某种形式的图像对应,而深度估计网络可能识别场景和对象的共同结构特征。探索这些,并调查我们的网络已经执行的程度,或可以重新用于执行,任务,如对象检测和语义分割,将是有趣的。致谢:我们感谢我们的同事,Sudheendra Vijaya- narasimhan,Susanna Ricco,Cordelia Schmid,Rahul Sukthankar和Ka-Terina Fragkiadaki的帮助。我们也感谢匿名评论者的宝贵意见。TZ要感谢Shubham Tulsiani提供的有益讨论,以及Clement Godard分享的评估代码。这项工作也得到英特尔/NSF VEC奖项IIS-1539099的部分资助卑鄙的奥多姆。ORB-SLAM(full)ORB-SLAM(短)绝对平移误差(m)方法Seq. 09Seq. 10ORB-SLAM(full)0的情况。014± 0. 0080的情况。012± 0. 011ORB-SLAM(短)0的情况。064±0. 1410的情况。064±0. 130卑鄙的奥多姆。0的情况。032±0. 0260的情况。028±0. 0231860引用[1] M. Abadi、A.Agarwal,P.Barham,E.Brevdo,Z.陈先生,C.西特罗湾S. Corrado,A. Davis,J. Dean,M. Devin等人TensorFlow:异构分布式系统上的大规模机器学习。arXiv预印本arXiv:1603.04467,2016。5[2] P. Agrawal,J. Carreira和J.马利克学习通过移动来观察。InInt. Conf. Computer Vision,2015. 2[3] J. Bergen,P. Anandan,K. Hanna和R. Hingorani基于层次模型的运动估计。在Computer VisionECCVSpringer,1992年。4[4] S. E. Chen和L.威廉姆斯用于图像合成的视图插值。第20届计算机图形和交互技术年会论文集,第279- 288页ACM,1993年。2[5] M.科德茨,M。奥姆兰,S。拉莫斯,T.雷费尔德,M。恩茨韦勒R.贝南森,美国弗兰克,S。罗斯和B。席勒Cityscapes数据集用于语义城市场景理解。在IEEE计算机视觉和模式识别会议论文集,第3213-3223页五、七[6] P. E. 德贝韦茨角J. Taylor和J.马利克从照片中建模和渲染建筑:基于几何和图像的混合方法。在第23届计算机图形和交互技术年会集,第11-20页。ACM,1996年。2[7] D.艾根角Puhrsch和R.费格斯。使用多尺度深度网络从单个图像进行深度图预测。神经信息处理系统进展,2014年。二五六七[8] C.费恩基于深度图像的3d电视渲染、压缩和传输新方法。电子成像2004,第93-104页。国际光学与光子学会,2004年。3[9] A. Fitzgills,Y. Wexler和A.齐瑟曼。使用基于图像的先验的基于图像的渲染。Int. Journal of ComputerVision,63(2):141-151,2005。2[10] J. Flynn , I. Neulander , J. Philbin 和 N. 很 聪 明 Deep-Stereo:学习从世界的图像中预测新的观点。在计算机视觉和模式识别,2016年。一、二、三[11] D. F.福伊,W. Hussain,A. Gupta,和M。赫伯特没有单个3D图像的单个3D图像。在IEEE计算机视觉国际会议论文集,第1053-1061页,2015年。2[12] Y.古川湾Curless,S. M. Seitz和R.塞利斯基向互联网规模的多视角立体。计算机视觉和模式识别,第1434-1441页。IEEE,2010。2[13] M. Gadelha,S. Maji和R. 王. 从多个对象的2D视图中诱导3D形状。arXiv预印本arXiv:1612.05872,2016年。2[14] R.加格BG、G. Carneiro和我里德用于单视图深度估计的无监督CNN:把几何图形放回休息室。 在欧洲会议中计算机视觉,2016年。一、二、三、四、五、六、七[15] A. Geiger,P. Lenz,和R.盖革,等.乌塔松我们准备好自动驾驶了吗?KITTI视觉基准测试套件。在计算机视觉和模式识别(CVPR),2012年IEEE会议上,第3354-3361页。IEEE,2012。二、五、七[16] C. 戈达尔湖,澳-地Mac Aodha和G.J. 布罗斯托具有左右一致性的无监督单目深度估计。在计算机视觉和模式识别,2017。一、二、三、四、五、七[17] R. Goroshin,J. Bruna,J. Tompson,D. Eigen和Y.乐坤。时空相干度量的无监督学习。IEEE InternationalConference on Computer Vision,第4086-4093页,2015年。2[18] X.汉,T.梁,Y.贾河,巴西-地Sukthankar和A. C.伯格。MatchNet:统一特征和度量学习,用于基于补丁的匹配.在 Computer Vision and Pattern Ammonition , 第 3279-3286页,2015中。2[19] A. Handa , M. Bloesch , V. Patraucean , S. Stent , J.McCor- mac,and A.戴维森gvnn:用于几何计算机视觉的神经网络库。arXiv预印本arXiv:1607.07405,2016.2[20] D. Hoiem,A. A. Efros,和M。赫伯特自动照片弹出。InProc. SIGGRAPH,2005. 2[21] S. Ioffe和C.赛格迪批次标准化:通过减少内部协变量偏移 来 加 速 深 度 网 络 训 练 。 arXiv 预 印 本 arXiv :1502.03167,2015。5[22] M. Irani和P.阿南丹关于直接方法。在视觉算法国际研讨会上,第267施普林格,1999年。2[23] M. Jaderberg , K. Simonyan 、 A. Zisserman 等 人 空 间Transformer网络。神经信息处理系统进展,2017-2025页,2015年。3[24] D. Jayaraman和K.格劳曼学习与自我运动相关的在Int.Conf. 计算机视觉,2015年。2[25] K.卡尔施角Liu和S. B.康深度转移:使用非参数采样从视频中提取深度。IEEE transactions on pattern analysisand machine intelligence , 36 ( 11 ) : 2144-2158 ,2014。7[26] A. Kendall,M. Grimes和R.西波拉PoseNet:用于实时6-DOF相机重新定位的卷积网络。InInt. Conf. Computer Vision,第2938-2946页,2015年。2[27] A.肯德尔H.Martirosyan,S.达斯古普塔P.亨利,R. Kennedy,A. Bachrach,和A.小布深度立体回归的几何 和 上 下 文 的 端 到 端 学 习 。 arXiv 预 印 本 arXiv :1703.04309,2017。2[28] D. Kingma和J. BA. Adam:一种随机优化方法。arXiv预印本arXiv:1412.6980,2014。5[29] T. D. Kulkarni、W.F. Whitney,P.Kohli和J.特南鲍姆深度卷积逆图形网络。In C. 科尔特斯N. D. Lawrence,D. D.李,M。Sugiyama和R. Garnett,编辑,神经信息处理系统进展,第2539-2547页CurranAssociates,Inc. 2015. 2[30] Y. Kuznietsov,J. Stückle r和B. Leibe 用
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功