没有合适的资源?快使用搜索试试~ 我知道了~
基于几何约束的单目视频联合优化的自监督框架
1基于几何约束的单目视频连接流量、深度和摄影机Yuhua Chen1,2 Cordelia Schmid1 Cristian Sminchisescu11 GoogleResearch2 ETH Zurichyuhua. vision.ee.ethz.ch,{cordelias,sminchisescu}@ google.com摘要我们提出了GLNet,这是一个自监督框架,用于从单目视频中学习深度,光流,相机姿态和内在参数-解决了为此类任务获取真实地面实况的困难。我们提出三个贡献:1)我们设计了新的损失函数,它可以捕获多个几何约束(例如,对极几何)以及支持刚性和非刚性的多个移动对象的自适应光度损失,2)我们扩展模型使得其预测相机本征,使其适用于未校准的视频,以及3)我们提出了几种在线细化策略,其依赖于训练和测试中的我们的自我监督损失的对称性,特别是优化模型参数和/或不同任务的输出,从而利用它们的相互作用。在所有几何约束和光度约束下联合优化系统输出的思想可以被视为经典光束法平差的密集推广。我们证明了我们的方法在KITTI和Cityscapes上的有效性,在这些方法中,我们在多个任务上的表现优于以前的自监督方法。我们还在YouTube视频中展示了迁移学习的良好概括。1. 介绍计算机视觉的基本问题之一是对运动摄像机拍摄的动态场景的三维几何形状进行估计。这包括许多视觉任务,例如深度估计、光流、里程计等。强大的解决方案将支持自动驾驶、机器人、增强现实和场景交互等广泛的应用。三维视觉重建问题已经得到了广泛的研究。在一端,有结构从运动系统,利用稀疏,手工制作的几何特征(例如,SIFT [29]或SURF [2]),精确线性代数关系[17](例如,对极约束和用于两个视图几何结构的基本矩阵),以及基于束调整的几何重投影损失下的结构和运动输出的非线性细化[39]。这种类型的令人印象深刻的实时处理流水线现在是可用的,但它们仍然提供稀疏重建,受部分遮挡的影响,并且在场景的几何形状或运动退化的情况下面临困难。另一方面,近年来已经见证了深度学习技术的发展,其中结构和运动估计是在监督集合中制定的[10,24],作为一个纯预测问题,很少涉及精确的几何关系。这会产生密集的3D估计,但会带来可能的几何不一致性的固有限制、对大型训练集的依赖、域敏感性以及使用特殊设备(如激光或具有敏感校准的立体钻机)收集高质量真实世界地面实况的困难[13]。另一种选择是使用合成数据[31],但弥合现实差距可能具有挑战性。最近,几位作者[15,51]专注于设计具有训练信号的自监督系统,这些训练信号来自图像对之间的光度一致性损失。这些系统是有效的,并且隐含地嵌入基本3D几何形状-在这项工作中,我们引入了一个自监督几何学习框架GLNet,它旨在整合现代基于深度学习的自监督系统的优势-(a)在没有标记数据的情况下进行训练,(b)提供密集的重建,其中可以自动合并先验知识,以及(c)利用多个相互连接的任务,以及经典的运动结构任务-(i)明确表示精确的数学关系(例如,对极约束),这始终适用于刚性场景,(ii)能够联合细化所有输出,包括深度,姿态和相机本质,在光度70637064Fαα2和几何约束,如在光束法平差中,以及(iii)打破训练和测试之间的不对称。建议的框架进行了广泛的评估KITTI和城市景观,在那里我们实现了最先进的性能增益。此外,我们的框架在迁移学习环境中表现出良好的性能,并且能够从未校准的视频中鲁棒地学习。2. 相关工作理解3D场景的几何和动态运动恢复结构(SfM)[11,17,34,37,39,44]或场景流估计[33,40]是成熟的方法,具有坚实的基础和实践进展记录。基于特征匹配和几何验证的结构和运动估计模型已经产生了令人印象深刻的结果[37],但它们的重建通常是稀疏的,并且在无纹理或遮挡区域中容易出错。为了解决准确特征匹配的瓶颈,最近的工作集中在几何推理的深度学习方法上。几种方法基于地面真实标签训练网络,并已成功应用于许多任务,如单目深度预测[9,10,27,28],光流[8,19,35,38]和相机姿态估计[22,23,24]。为了利用多个线索,可以通过融合边界检测[20]、表面法线估计[28]、语义分割[4,46,50]等来联合处理任务。为了使用地面真实标签进行训练,不同的作者要么依赖于专门的设备(例如,LIDAR)用于数据收集[13,14],这在实践中是昂贵的,或者用于合成数据集创建[31],这在许多情况下导致域转移[1,5,6]。为了减少训练所需的地面真实标签的数量,3. 方法概述我们的几何学习网络(GLNet),其概述如图所示。1,解决了单目深度预测、光流、相机姿态和本征估计的相互关联的任务,通过依赖于深度Dθ、相机Cα和内流Fδ的预测器,耦合优化目标。Dθ从单个图像估计深度图DCα预测两个相邻帧之间的摄像机姿态(R,t),以及未知时的内参数K。 Fδ在两个IM上运行-年龄帧和估计光流。任务的联合输出空间表示为Λ={D,R,t,K,F},其中参数的超集为Θ ={θ,δ,α}。 预测器{Dθ,Cα,Fδ}被实现为具有可训练参数Θ的三个神经网络,称为DepthNet,Cam。eraNet和FlowNet。我们制定了一个优化目标,它包括两个部分:一个自适应光度损失,捕捉静态和动态结构的外观相似性,和几何损失组成的几个组件,耦合的刚性和明显的运动。在训练中,优化目标被用作代理监督信号以学习预测器的参数Θ。在推断期间,我们可以基于在训练中使用的相同目标来进一步细化预测Λ,并且我们能够专注于细化模型参数Θ或输出Λ,而不是在几何束平差中不一样。这是支持我们的自我监督的目标和我们的显式表示的经典几何约束。3.1. 几何和外观基础考虑一幅源图像Is和一幅目标图像It,它们由一个具有本征函数Kα和自我运动Mα的潜在运动摄像机采集。3D刚性变换可以在齐次坐标中以旋转矩阵和平移向量表示为:最近出现的。其核心思想是在两幅图像之间产生一个可伸缩的变形,并使用光度差异作为代理监督。这已被应用于立体图像[12,15,49]和光流[21,32,45]。Mα=Σ ΣRαtα0 1(一)在这项工作中,我们专注于从单目视频学习。最近的许多方法都遵循类似的思路。Zhou等[51]将单眼深度学习和自我运动结合起来。Vijayanarasimhan等[41]另外学习多个物体的刚体运动参数。随后的方法进一步提出了基于各种技术的改进,例如ICP对准损失[30],来自SfM算法的监督[26],光流[48,52],边缘[47],通过实例分割[3],运动分割[36],最小投影损失[16]等来建模多个刚性运动。对于摄像机内部,我们将光学中心固定在IM处,年龄中心,忽略照相机倾斜和径向畸变,沿两个光轴将焦距参数化为fx和fy,并处理分辨率为h×w的图像。intrinsic相机矩阵写为10x0w/Kα=100fyh/2(2)0 0 1给定源图像Is中的像素p,源相机坐标系中的对应3D场景位置7065δ学习损失(Θ,Λ)= 第#个+10%+ 2015年10&自适应光度一致性几何约束推理前馈(FF)Λi= H(Θ0,I)参数微调(PFT) min(Θ,Λ)Θ输出微调(OFT)min(Θ,Λ模型Θ输出Λ深度网。D学习模型H(Θ0)CameraNet)*输入图像IFlowNet+6FKR,t图1. 建议的GLNet框架概述。我们的模型可以将连续的图像帧作为输入,解决包括深度、相机和流量估计在内的多个任务,并通过损失函数将它们耦合起来,这些损失函数在输出中捕获自适应的光度和几何约束。所提出的架构的一个重要特征是其训练-测试对称性,因为我们在训练阶段学习模型,并且在测试期间,我们基于相同的优化目标进一步细化参数和输出在齐次坐标中,可以反投影为Σ−1 ΣX =Dθ(p)Kα p1(三)自适应光度损失视图合成损失广泛用于自监督学习[51]。损失测量合成图像和实际图像之间的光度差异,其中合成是通过在第一帧中使用反投影像素假设我们刚性地移动x,则目标图像It中的相应坐标(投影)p′为强度,其次是刚性位移和透视投影在第二帧。然而,该位移仅对符合以下条件的场景结构有效:p′ =Σ ΣΣK α| 0 Mα−1ΣDθ(p)Kα p1(四)自我运动或根据全局刚性位移移动对于次要的或非刚性移动的对象,一个自适应的方法是必要的,我们追求一个在这里。给定源图像和目标图像Is和It,在这种情况下,位移场p′-p表示3D场景流的2D投影,即,由真实的基础3D刚性位移引起的真实图像运动。对于不能用刚性变换解释的像素,另一个关键量是测量的视在运动或光流Fδ,它分别在源图像和目标图像之间提供密集的对应场p′=p+F(p)(5)属于由自我运动(或全局场景运动)或由次级动态对象解释的区域对于全局刚性运动不能解释的场景结构,可以依赖于更灵活的光流。我们的自适应光度损失的主要直觉是通道参数更新只对那些配置,最好的解释位移,无论是由自我运动或秒-onceptide位移。因此,该项可以表示为两个位移之间的最小光度误差(即,光流和刚性运动),如下为了简单起见,并在一个轻微的滥用符号,我们还使用..ΣΣ−1ΣΣp作为上述等式中的2D(非均匀)图像坐标。3.2. 优化目标在本节中,我们描述了我们用于自我的损失Lapc= minS Is(p),It([Kα|0 Mα.S Is(p),It(p +Fδ(p))Dθ(p)Kαp1ΣΣ)的情况下,(六)深度、流量和相机矩阵的监督学习。这些任务通过光度和几何约束相互关联7066该项是两个分量之间的每像素最小值:第一部分表示如(4)中的刚性位移,并且第二部分表示由光学位移产生的位移。7067¨¨卡尔·弗劳,c.f.(五)、S是两个像素之间的相似性函数作为惯例[48,52],我们使用结构相似性加权和(SSIM)[43]和L1分量,权衡参数r(= 0. (85)如下1−SSIM(a,b)S(a,b)=r+(1−r)<$a-b<$1(7)2多视点三维结构一致性对于每个视点独立地预测深度通常会导致不同(例如,连续的)视图。为了加强三维空间中结构的一致性,我们设计了一个损失组件来惩罚多个视图中的三维结构偏差。给定源图像中的像素p,以及由(4)给出的目标图像p’中的其对应像素,它们的预测3D坐标可以通过反投影获得,c.f.(三)、为了获得一致的结构,一旦转换到目标相机其中[t]×是对应于平移向量t的反对称矩阵。该损失在来自光流的密集对应上强制执行全局epipo- lar约束,并且相关联的梯度用于更新Cam。eraNet{Kα,Rα,tα}和FlowNetFδ。我们还依赖于标准正则化项Lr用于我们的学习框架。具体而言,我们分别使用深度Dθ和光流Fδ上的单独空间平滑项,以及前向-后向流一致性约束。总损失总损失是前面介绍的损失的加权和,每个损失在图像像素上密集求和,为了简单起见L(Λ,Θ)=Lapc+Lmvs+Le+Lr( 10)模型以端到端的方式联合训练3.3. 在线优化在推理过程中,大多数现有的方法产生重新-Lmvs = x′−x1=(8)通过运行经过训练的模型前馈得到结果。 这可以¨Σ′−1′ΣΣ−1Σ¨问题是,多个国家之间的结构限制<$Dθ(p)Kαp¨1-MαDθ(p)Kαpé1¨1输出之间,或者输入和输出之间,例如,不再保留图像损失表示来自两个视图的预测的3D差异,并且梯度用于更新Camer-aNet{Kα,Rα,tα}和DepthNetDθ。请注意,这样的损失可以立即推广到多个视图。光流的外极约束损失外极约束广泛用于经典几何方法[17],以便计算封闭形式的解来初始化非线性光束法平差过程。值得注意的是,在现有的基于深度学习的结构和运动预测系统中不存在,极线约束是耦合3D场景投影的代数关系,例如,p和p′在两个视图中,通过基本或本质矩阵,其嵌入相机位移M的几何形状及其内参数K。我们在模型中利用的极线约束的另一种观点是作为假定对应的验证方程,如所提供的,例如。通过光流,c.f. (五)、光流传统上被表述为匹配和平滑损失的优化,或者更近的是深度学习方法中的逐像素回归问题[8,19]。然而,以这种方式计算的结果可能与任何对极几何不一致。为了赋予学习过程以几何意识,我们将极线约束作为光流计算的密集对应的惩罚。由此产生的对极约束损失写道:⊤ −⊤Σ Σ −1Le=p Kα Rαtα×Kα (p+Fδ(p))(9)我们的解决方案是在学习和推理过程中使用并优化过相似的(十)、这是可能的,因为我们的目标是自我监督的,因此它消除了训练和测试之间的不对称。因此,无论是模型参数还是模型输出的在线细化过程都是可能的,并且可以利用任务依赖性来实现最佳性能和无缝模型适应新环境。形式上,我们在训练集上优化模型以获得初始估计Θt。给定来自单目视频的测试图像对,以标准方式前馈计算初始预测,如下:{Dp,Fp,Rp,tp,Kp}.(自我监督的)目标(10)可以计算,因为不需要地面实况标签为了防止对优化目标的过拟合,基于单个图像对,我们进一步在输出空间上强制正则化器,以惩罚与学习模型的原始预测的较大偏差。完整的优化目标写为{Λ,θ}= arg minL(Θ,Λ)+Λ−Λp+θ−ΘtΘ, Λ(十一)为了更新输出,我们设计了两种策略,它们可以一起使用或单独使用。在参数微调(PFT)中,我们基于损失来更新预测器Θ的参数。在输出微调(OFT)中,我们直接优化输出,而无需重新计算网络,而是将训练的预测作为先验。这被实现=7068通过将输出Λ视为被初始化为经训练的神经网络的预测的自由变量,并且使用损失的梯度来细化它们。除了初始化之外,不再使用与深度模型相关联的计算图,并且仅需要通过深度模型的一次前向传递。此外,输出优化变量的数量通常远低于网络参数的数量。因此,OFT提供了提高速度的好处3.4. 网络架构这项工作的重点是不同的损失函数和微调选项,因此我们的网络设计主要与现有的自监督学习组件的几何处理。在这里,我们简要介绍了在这项工作中使用的架构。DepthNet将输入图像映射到每像素深度图。它基于完全卷积的编码器-解码器结构。编码器基于ResNet18[18]。解码器依赖于DispNet [31],由几个反卷积层组成。跳跃连接用于提供空间上下文,并且在四个不同尺度上预测深度。CameraNet将两个相邻的图像帧作为输入,并回归6DOF相机姿态,表示为平移向量和根据三个欧拉角参数化的相对旋转矩阵。当从未经校准的视频中学习时,网络还预测相机的内在特性。我们使用[51]的模型,这是一个具有8个卷积层的小型网络。最后一层上的全局池化用于最终预测。FlowNet预测两个相邻图像帧之间的光流F。我们使用[48]中描述的相同架构,这是一个具有ResNet主干的编码器-解码器请注意,我们的框架对每个组件网络的特定选择是不可知的,其他选项也是可能的。因此,我们可以受益于更高性能的网络,为个别任务。4. 实验在本节中,我们通过对深度、光流和相机姿态估计的广泛实验来验证GLNet我们首先介绍了实验中使用的数据集和参数设置。数据集我们的实验主要在KITTI [13,14]和Cityscapes[7]上进行。KITTI是一个广泛使用的数据集,用于基准几何理解任务,如深度估计,里程计和光流。图像是用安装在汽车上的摄像机捕捉的我们使用官方KITTI数据集提供的地面实况标签进行评估。我们还训练了框架Cityscapes [7],并研究所提出的模型在数据集之间的传输与KITTI类似,Cityscapes主要包含在欧洲城市行驶的汽车收集的数据。在训练中,我们使用Adam [25],β1=0。9和β2=0。999 初始学习率设置为2×10−4,批量大小设置为4。图像的大小被调整为128×416的分辨率.每个训练样本是由三个连续帧组成增补─通常,在训练期间使用随机缩放、裁剪、翻转和颜色抖动,以用于数据增强。骨干网络初始化与Ima-geNet权重,我们优化的网络最大30个时代,虽然收敛通常发生较早。对于在线细化,我们使用在训练阶段学习的我们使用的批大小为1.一、该批次由测试图像及其两个相邻帧组成。在线精化是在一个测试样本上进行50次迭代,并引入以前在推理阶段不使用数据扩充在所有的实验中,模型只有标准的(非)自适应)光度损失被用作基线。4.1. 深度估计我们从深度估计的评估开始。与之前使用的协议[51]一样,我们报告了使用原始KITTI数据集[13]的本征[10]分割进行深度估计的结果,该数据集由697张测试图像组成。从训练集中移除与测试场景相似的帧。我们比较了所提出的框架与基线的性能,以及在相同设置中的最新最先进的作品[3,30,42,47,48,51,52]。主要结果如表1所示,我们的方法在使用地面实况相机内在函数(作为典型)时,与其他计算方法一样,在基线上实现了显著的增益定性结果如图所示。2,其中我们观察到深度图的视觉质量的明显改善。我们注意到,除了[3]之外,在线精化没有在其他方法中使用。 为了便于比较,我们还报告了没有在线细化的GLNet的结果,表示为GLNet(-ref.)。尽管如此,这仍然比没有改进的竞争方法产生更好的性能[30,42,48,51,52],证明了我们提出的损失函数的有效性。在未校准的情况下,没有给出地面实况摄像机的内在函数,我们使用我们的CameraNet从输入图像中预测它们。结果性能与校准设置相匹配。这是一个健全性检查,但并不完全令人惊讶,因为用于收集测试集的相机与训练中使用的相机具有类似的设置。7069方法Calib.绝对相对值↓平方相对↓RMSE↓RMSE日志↓δ<1。25↑δ<1。252↑δ<1。253↑关于KITTIZhou等* [五十一]C0.1831.5956.7090.2700.7340.9020.959Mahjourian等人[30个]C0.1631.2406.2200.2500.7620.9160.968[48]第四十八话C0.1551.2965.8570.2330.7930.9310.973Wang等人[第四十二届]C0.1511.2575.5830.2280.8100.9360.974乐高[47]C0.1621.3526.2760.252---[52]第五十二话C0.1501.1245.5070.2230.8060.9330.973Casser等人[3]第一章C0.1090.8254.7500.1870.8740.9570.982基线C0.1561.4505.9130.2280.8610.9310.955GLNet(参考)C0.1351.0705.2300.2100.8410.9480.980GLNet×0.1000.8114.8060.1890.8750.9580.982GLNetC0.0990.7964.7430.1860.8840.9550.979CS培训[48]第四十八话C0.2101.7236.5950.2810.6810.8910.960Casser等人[3]第一章C0.1531.1095.5570.2270.7960.9340.975基线C×C0.2061.6116.6090.2810.6820.8950.959GLNet0.1441.4925.4730.2190.8310.9320.967GLNet0.1291.0445.3610.2120.8430.9380.976表1. KITTI本征分裂的深度估计结果。我们报告了在KITTI和Cityscapes上训练的模型。每个设置的最佳结果以粗体标记表示未进行在线优化的结果* Zhouet al.[51]是基于他们更新的Github版本。图2. 深度估计的定性结果。 顶行:输入图像,中间行:基线结果,底行:GLNet结果。 拟议的框架提供了更清晰的预测。该框架还在迁移学习环境中进行了测试。我们在Cityscapes 上自我监督训练模型,然后将其应用于KITTI。再次,我们观察到性能增益时,使用建议的组件,和整体更好的结果相比,竞争的方法。这表明了所提出的框架推广到新环境的能力。它还表明,几何约束是强大的,在封闭域差距,因为这种几何关系总是有效的。有趣的是,我们的方法仍然显示出竞争力的性能时,没有地面实况相机校准,即使城市景观的相机本质是不同的KITTI。为了进一步验证该方法的泛化能力,我们在从YouTube收集的一组视频上测试了GLNet,其中摄像机内部参数是未知的。我们在图3中展示了GLNet的定性结果。可以看出,所提出的方法能够从跨越各种对象、结构和场景的未校准视频帧中估计深度。这支持了我们的方法可以推广到未校准视频的说法。损耗的烧蚀研究为了分析每个损耗分量的单独影响,我们提供了不同损耗组合的烧蚀研究。如表2所示,我们的自适应光度损失比标准光度损失实现了健康的改善。通过使用几何损失,特别是当与在线细化相结合时,性能得到进一步改善。在提出的三种损失中,多视图结构一致性似乎对深度估计最有效,这是在7070图3. YouTube视频上的定性结果,其中摄像机本质未知。左:输入图像,右:GLNet的深度估计结果。所提出的方法可以鲁棒地估计深度从未校准的视频。表2. 对损失的消融研究。我们评估烧蚀版本的本征分裂的方法。请注意各种组件提供的改进。0.150.140.130.120.110.10.09PFT wo reg.OFTPFTPFT+OFT0 50 100150迭代因为它直接链接到3D并集成了多个视图上的信息,所以是可持续的。在线优化我们还对优化策略进行了消融研究。我们使用没有正则化器的正常参数微调作为基线,如[3]所示。我们比较了基线与两个建议的细化策略,即。OFT和PFT。如图4、使用标准微调,我们获得了一些性能增益,但缺点是快速过拟合到测试样本。对于PFT和OFT,正则化器可以有效地防止模型的过拟合。OFT的改善与PFT相当然而,与其他选项相比,它要快得多,因为OFT只更新输出变量,对于这个问题,其维数是像素的数量为10k。PFT需要更新神经网络的参数,其大小约为101M。在运行时,OFT大约需要2秒进行50次迭代,而PFT对于相同的迭代次数,通常运行大约40秒,这慢了一个数量级。结合PFT和OFT带来了一些改善,单独的PFT,并实现了最佳的整体性能。我们还注意到在线改进在迁移学习环境中特别有效。如示于图5、在新环境中运行标准前馈组件时,在KITTI上训练的模型产生错误的深度预测。PFT和OFT都能显著改善PFT提供的结果在视觉上比OFT稍微清晰,图4. 细化策略研究。我们报告的Abs Rel评估指标作为迭代的函数。我们的方法取得了最好的结果,并没有过拟合测试样本的细化进行。与定量结果一致。4.2. 光流为了对光流进行基准测试,我们使用KITTI 2015立体/流训练集[33],其中有200个训练图像。与以前的工作类似[48,52],我们使用训练集进行评估,因为所提 出 的 框 架 是 自 监 督 的 。 我 们 使 用 非 遮 挡 区 域(Noc)和整体区域(All)的平均端点误差(EPE)如表3所示,所提出的自适应损失和多视图结构一致性损失相对于基线没有显示出太多优势,这可能是由于它们对流预测的间接影响。然而,核线约束损失实现了相当大的性能增益超过基线。通过在线细化可以进一步改善结果。定性结果见图1。6,其中我们观察到几何约束大大提高了刚性移动场景区域的流质量。在未校准的设置中,性能非常接近校准的性能。这是可以理解的,因为光流预测不依赖于精确的本征函数,而是可以受益于几何对极校正,然而几何对极校正是校准敏感的。绝对相对值LAPCLmvsLe细化绝对相对值0.156C0.144CC0.138CCC0.135C0.137CC0.130CCC0.103CCCC0.0997071图5. YouTube视频在线改进的结果。从左至右:输入图像、前馈(FF)结果、OFT结果、PFT结果。在线优化的结果,OFT,明显优于前馈模型图6. 流估计的定性结果。顶行:输入图像,中间行:无几何约束,底行:有几何约束。几何约束显著提高了预测的刚性部件流的质量。方法NOC所有FlowNetS [8]8.1214.19[19]第十九话4.9310.06[48]第四十八话8.0510.81[52]第五十二话-8.98基线6.8012.28LAPC6.7812.26Lapc+ Lmvs6.7712.20Lapc+ Lmvs+ Le5.408.95GLNet4.868.35GLNet(未校准)4.908.41表4. 摄像机位姿估计的评价。 绝对跨表3. 光流的评价。我们报告了KITTI 2015流量训练集在非闭塞 区 域 ( Noc ) 和 整 体区 域 ( All ) 上 的 平均 终 点 误 差(EPE)前两种方法是有监督的,其他方法在KITTI上进行无监督训练。最佳结果用粗体标记。4.3. 姿态估计结果我们还评估了GLNet在官方KITTI视觉里程计基准上的性能。在标准设置中,我们使用序列00-08进行训练,序列09-10进行测试。姿态估计结果总结在表4中,示出了对现有方法的改进,以及我们的基线。5. 结论我们已经提出了GLNet,这是一个几何启发的学习框架,可以联合学习深度,流量,相机姿势将KITTI里程计数据集上的弹射误差(ATE)报告为评估度量。最佳结果以粗体显示。和单目视频的内部参数。该模型是自我监督的,并结合了新的光度和几何损失函数,一些基于基本关系,如极线约束-并依赖于不断估计的对应性从光流-,其他人的结构一致性随着时间的推移。我们鉴于其预测相机本质的能力,该模型可以应用于未校准的视频,并在不同的训练和测试域中表现出一致的性能。这支持了几何约束表示迁移学习设置中的有价值的正则化器的结论。方法Seq.09Seq.10ORB-SLAM(full)0的情况。014 ±0. 0080的情况。012 ±0. 011ORB-SLAM(短)0的情况。064 ±0. 1410的情况。064 ±0. 130Zhou等[五十一]0的情况。016 ±0. 0090的情况。013 ±0. 009Mahjourian等人[30个]0的情况。013 ±0. 0100的情况。012 ±0. 011[48]第四十八话0.012 ±0.0070.012 ±0.009[52]第五十二话0.017 ±0.0070.015 ±0.0097072引用[1] Amir Atapour-Abarghouei和Toby P Brecket。使用合成数据的实时单目深度估计,通过图像风格转换进行局部自适应。 在CVPR,2018年。 2[2] 赫伯特 ·贝、丁尼 ·图伊特拉 尔斯和吕克· 范古尔。SURF:加快了强大的功能。在ECCV,2006年。1[3] Vincent Casser、Soeren Pik、Reza Mahjourian和AneliaAngelova。没有传感器的深度预测arXiv:1811.06152,2018。二五六七八[4] 陈玉华、李文、陈晓然和吕克·凡古。从合成数据中学习语义分割:几何学引导的输入-输出自适应方法。在CVPR,2019年。2[5] Yuhua Chen , Wen Li , Christos Sakaridis , DengxinDai,and Luc Van Gool.域自适应更快的R-CNN用于野外目标检测。在CVPR,2018年。2[6] Yuhua Chen,Wen Li,and Luc Van Gool.道路:面向现实的适应城市场景的语义分割。在CVPR,2018年。2[7] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele. Cityscapes数据集用于语义城市场景理解。在CVPR,2016年。5[8] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。FlowNet:使用卷积网络学习光流在ICCV,2015年。二四八[9] David Eigen和Rob Fergus。使用通用多尺度卷积架构预测深度、表面法线和语义标签在ICCV,2015年。2[10] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度在NIPS,2014。一、二、五[11] Yasutaka Furukawa,Brian Curless,Steven M Seitz,andRichard Szeliski. 走向互联网规模的多视角立体。CVPR,2010。2[12] Ravi Garg ,Vijay Kumar BG ,Gustavo Carneiro ,andIan Reid.用于单视图深度估计的无监督CNN:几何学拯救了我们。 在ECCV,2016年。2[13] Andreas Geiger , Philip Lenz , Christoph Stiller , andRaquel Urtasun.视觉与机器人技术的结合:KITTI数据集。国际机器人研究杂志,32(11):1231- 1237,2013。一、二、五[14] Andreas Geiger,Philip Lenz,and Raquel Urtasun.我们准备好自动驾驶了吗?KITTI视觉基准套件。CVPR,2012。二、五[15] Cle' mentGodard,OisinMacAodha,andGabri elJBros-tow.具有左右一致性的无监督单目深度估计。在CVPR,2017年。一、二[16] Cle' mentGodard , OisinMacAodha , MichaelFirman ,andGabriel Brostow.深入研究自我监督的单目深度估计。arXiv预印本arXiv:1806.01260,2018。2[17] Richard Hartley和Andrew Zisserman。计算机视觉中的多视几何学。剑桥大学出版社,2003年。一、二、四[18] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。5[19] Eddy Ilg , Nikolaus Mayer , Tonmoy Saikia , MargretKeuper,Alexey Dosovitskiy,and Thomas Brox.FlowNet2.0:深度网络光流估计的演变在CVPR,2017年。二四八[20] Eddy Ilg,Tonmoy Saikia,Margret Keuper,and ThomasBrox.遮挡,运动和深度边界与视差,光流或场景流估计的通用网络。在ECCV,2018。2[21] J Yu Jason , Adam W Harley , and Konstantinos GDerpanis.回到基础:通过亮度恒定性和运动平滑性的光流的无监督学习。在ECCV,2016年。2[22] 亚历克斯·肯德尔和罗伯托·西波拉在深度学习中对相机重新定位的不确定性InICRA,2016. 2[23] 亚历克斯·肯德尔和罗伯托·西波拉使用深度学习进行相机姿态回归的几何损失在CVPR,2017年。2[24] AlexKendallMatthewGrimes 和 RobertoCipollaPoseNet:用于实时6-DOF相机重新定位的卷积网络在ICCV,2015年。一、二[25] Diederik P Kingma和Jimmy Ba。亚当:随机优化的一种方法。arXiv:1412.6980,2014。5[26] Maria Klodt和Andrea Vedaldi监督新与旧:从SFM学习SFM。在ECCV,2018。2[27] Iro Laina、Christian Rupprecht、Vasileios Belagiannis、Federico Tombari和Nassir Navab。使用全卷积残差网络进行更深的深度预测。在3DV,2016年。2[28] Bo Li , Chunhua Shen , Yuchao Dai , Anton Van DenHengel,and Mingyi He.深度和表面正常估计从单眼图像使用回归的深层功能和histi-cracical CRF。CVPR,2015。2[29] David G Lowe等.基于局部尺度不变特征的目标识别。载于ICCV,1999年。1[30] Reza Mahjourian,Martin Wicke,and Anelia Angelova.基于3d几何约束的单眼视频深度和自我运动的无监督学习。在CVPR,2018年。二五六八[31] Nikolaus Mayer , Eddy Ilg , Philip Hausser , PhilippFischer , Daniel Cremers , Alexey Dosovitskiy , andThomas Brox.用于训练卷积网络的大型数据集,用于视差,光流和场景流估计。在CVPR,2016年。一、二、五[32] Simon Meister,Junhwa Hur,and Stefan Roth. UnFlow:具有双向集中损失的光流的无监督学习。在AAAI,2018。2[33] Moritz Menze和Andreas Geiger。自动驾驶车辆的对象场景流。CVPR,2015。二、七[34] Richard A Newcombe,Steven J Lovegrove,and AndrewJ Davison. DTAM:实时密集跟踪和映射。见ICCV,2011年。27073[35] Anurag Ranjan和Michael J Black。使用空间金字塔网络的光流在CVPR,2017年。2[36] Anurag Ranjan,Varun Jampani,Lukas Balles,KihwanKim,Deqing Sun,Jonas Wulff,and Michael J Black.竞争性协作:深度、相机运动、光流和运动分割的联合无监督学习。在CVPR,2019年。2[37] Johannes L Schonberger和Jan-Michael Frahm. 结构-从运动重新审视。在CVPR,2016年。2[38] 孙德清、杨晓东、刘明宇和Jan Kautz。PWC-net:使用金字塔,扭曲和成本体积的光流CNN。在CVPR,2018年。2[39] 比尔·特里格斯、菲利普·F·麦克劳克伦、理查德·I·哈特利和安德鲁·W·菲茨吉本。捆绑式调整是一种现代综合法。在视觉算法的国际研讨会上,第298372.施普林格,1999年。一、二[40] Sundar Vedula 、 Simon Baker 、 Peter Rander 、 RobertCollins和Takeo Kanade。三维场景流。载于ICCV,1999年。2[41] Sudheendra Vijayanarasimhan,Susanna Ricco,CordeliaSchmid , Rahul Sukthankar , and Katerina Fragkiadaki.SfM-Net : 从 视 频 中 学 习 结 构 和 运 动 。 arXiv :1704.07804,2017。2[42] Chaoyang Wang,Jose 'Miguel Buenaposada,Rui Zhu,and Simon Lucey.使用直接方法从单眼视频学习深度。在CVPR,2018年。五、六[43] ZhouWang ,Alan C Bovik ,Hamid R Sheikh ,Eero PSimon- celli,et al.图像质
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功