跨任务一致性损失的无监督学习方法用于深度预测和光流估计

98 浏览量更新于2023-10-13 收藏 2.53MB PDF 举报

无监督学习

几何一致性

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

DF-Net：使用跨任务一致性的邹玉良1[0000 - 0002 - 8374 - 6662]、罗泽伦2[0000 - 0003 - 3597 - 5046]、黄家斌1[0000 -0002 - 0536 - 3658]1 2弗吉尼亚理工大学输入单独学习联合学习（Ours）图1：联合学习与分开学习。单视图深度预测和光流估计是两个高度相关的任务。然而，现有的工作往往是孤立地处理这两项任务在本文中，我们提出了一种新的跨任务一致性损失，使用未标记的单目视频来耦合这两个问题的训练。通过执行底层的几何约束，我们表现出显着改善的结果，这两项任务。抽象。我们提出了一个无监督学习框架，用于使用未标记的视频序列同时训练单视图深度预测和光流估计模型。现有的无监督方法通常利用亮度恒定性和空间平滑度先验来训练深度或流量模型。在本文中，我们建议利用几何一致性作为额外的监督信号。我们的核心思想是，对于刚性区域，我们可以使用预测的场景深度和摄像机运动，通过反向投影诱导的3D场景流来合成2D光流。刚性流（来自深度预测和相机运动）和估计流（来自光流模型）之间的差异允许我们施加跨任务一致性损失。虽然所有网络在训练期间都进行了联合优化，但它们可以在测试时独立应用。大量的实验表明，我们的深度和流量模型与最先进的无监督方法相比毫不逊色。1介绍单视点深度预测和光流估计是计算机视觉中的两个基本问题。虽然这两个任务旨在从场景中恢复高度相关的信息（即，场景结构和连续帧之间的密集运动场），现有的努力通常孤立地研究每个在本文中，我们展示了探索几何水流深度2Y. Zou，Z. Luo和J. - B. 黄无标签视频序列（我们的）图2：监督与无监督学习深度或流网络的监督学习需要大量的训练数据和像素级的地面实况注释，这在真实场景中很难获得。相比之下，我们的工作利用现成的未标记的视频序列来联合训练深度和流量模型。深度、相机运动和流量之间的关系，用于深度和流量估计模型的无监督学习。随着深度卷积神经网络（CNN）的快速发展，已经提出了许多方法来以端到端的方式解决密集预测问题。然而，用于这种任务的监督训练CNN涉及构建具有密集像素地面真实标签的大规模，多样化的数据集。在现实世界中收集这种密集标记的数据集需要大量的人力并且容易出错。RGB-D数据集构建的现有努力[18，45，53，54]通常具有有限的范围（例如，在位置、场景和对象方面），因此缺乏多样性。对于光流，密集运动注释甚至更难以获取[37]。因此，现有的基于CNN的方法依赖于用于训练模型的合成数据集[5，12，16，24]。然而，这些合成数据集并没有捕捉到运动模糊、遮挡和来自真实场景的自然图像统计的复杂性。训练的模型通常不能很好地推广到看不见的场景，在新的视觉域中没有对足够的地面实况数据进行微调。已经提出了几项工作[17，21，28 其主要思想在于利用亮度恒定性和空间平滑性假设的流场或视差图作为监督信号。然而，这些假设通常在运动边界处不成立，因此使得训练不稳定。许多最近的努力[59，60，65，73]探索的几何关系这两个问题。利用估计的深度和相机姿态，这些方法可以被实现。可以通过反向投影由相机自身运动引起的3D场景流来产生密集光流。然而，这些方法隐含地假设完美的深度和速度，同时使光学流的大小相同。深度或相机姿态估计中的在本文中，我们提出了一种技术，用于联合学习单视图深度估计模型和流量预测模型使用未标记的视频如图所示在图2中我们的关键观察是，从深度，姿势和光流的预测应该是相互一致的通过利用这种几何学基于跨任务一致性的3线索，我们提出了一种新的跨任务的一致性损失，提供额外的超级信号训练两个网络。我们验证了所提出的方法的有效性，通过广泛的实验在几个基准数据集。实验结果表明，我们的联合训练方法显着提高了两个模型的性能（图1）。所提出的深度和流量模型与最先进的无监督方法相比毫不逊色。我们做出以下贡献。（1）我们提出了一种无监督学习框架，用于同时训练深度预测网络和光流网络。我们实现这一点，通过引入一个跨任务的一致性损失，强制几何一致性。（2）我们表明，通过提出的非监督训练，我们的深度和流量模型与现有的无监督算法相比毫不逊色，并在几个基准数据集上与监督方法取得了竞争性的性能（3）我们发布了源代码和预训练模型，以方便未来的研究：http://yuliang.vision/DF-Net/2相关工作深度和流量的监督学习。使用CNN的监督学习已经成为深度和流量估计的有效方法，以避免在测试时手工制作的目标函数和计算上昂贵的优化。RGB-D数据集和深度学习的可用性导致了一条线的工作单视图深度估计[13，14，35，38，62，72]。虽然已经示出了有希望的结果，但是这些方法依赖于绝对地面实况深度图。然而，这些深度图是昂贵的并且难以收集。已经做出了一些努力[8，74]，通过探索从相对/顺序深度注释中学习来放松收集绝对深度的难度。最近的工作还探索了使用运动结构和多视图立体算法从网络视频[7]或互联网照片[36]收集训练数据集。与地面真实深度数据集相比，构建真实世界中不同场景的光流数据集更具挑战性。因此，现有方法[12，26，47]通常依赖于合成数据集[5，12]进行训练。由于构建多样化的高质量训练数据的可扩展性有限，完全监督方法通常需要在新的视觉领域中对足够的地面真实标签进行微调相比之下，我们的方法利用现成的现实世界的视频来联合训练的深度和流量模型。从未标记数据中学习的能力使具有有限地面真实数据的领域能够进行无监督的预训练。深度和流量的自我监督学习。为了减轻对大规模注释数据集的依赖性，已经提出了几项工作来利用视差图或流场上的亮度恒定性和空间平滑性的经典假设[17，21，28，43，71]。其核心思想是将估计的深度和流量视为潜在层，并使用它们将源帧可区分地扭曲到目标帧，其中源帧和目标帧可以是立体对或视频序列中的两个连续帧一4Y. Zou，Z. Luo和J. - B. 黄然后，合成帧和目标帧之间的光度损失可以用作训练网络的无监督代理损失然而，由于无纹理区域和遮挡边界的模糊性，单独使用光度损失是不够的因此，网络训练通常是不稳定的，并且需要对损失函数进行仔细的超参数调整。我们的方法建立在现有的无监督损失的基础上，用于训练我们的深度和流量网络。我们表明，所提出的跨任务一致性损失比单独训练的模型提供了相当大的性能提升。利用几何线索的方法。最近，许多工作利用深度、相机姿势和流量之间的几何关系来学习深度或流量模型[60，65，68，73]。这些方法首先估计输入图像的深度。与两个确定的帧之间的估计的相机姿态一起，该方法确定了区域流的大小。来自深度和姿态的合成流可以用于刚性区域中的流预测[60，65，68，48]，或者用于视图合成以使用单眼视频训练深度模型[73]。可以结合诸如表面法线[67]、边缘[66]、物理约束[59]的附加线索以进一步提高性能。这些方法利用结构和运动之间的固有几何关系。然而，由深度或相机姿态估计产生的误差我们的关键见解是，对于刚性区域，估计的流量（来自流量预测网络）和合成的刚性流量（来自深度和相机姿态网络）应该是一致的。因此，耦合训练允许深度和流量网络相互学习，并强制执行场景的几何一致性预测。结构源于运动。从给定场景的多个图像联合估计结构和相机姿态是一个长期存在的问题[46，15，64]。常规方法可以通过关键点跟踪/匹配来恢复（半）密集深度估计和相机姿态这些算法的输出可以潜在地用于帮助训练流网络，而不是相反。我们的工作有所不同，因为我们也对学习深度网络从单个输入图像中恢复密集结构感兴趣多任务学习。通过多任务学习同时处理多个任务[52]已经显示出优于处理单个任务的方法[70]。例如，通过分层模型[6，56]或特征共享[9]对视频分割和光流进行联合学习单视图深度模型学习也可以受益于与表面法线估计[35，67]或语义分割[13，30]的联合训练。我们的方法解决了学习深度和流量模型的问题。与现有的多任务学习方法不同，这些方法通常需要使用每个任务的真实训练数据进行直接监督，我们的方法利用元监督来耦合深度和流量模型的训练虽然我们的模型是联合训练的，但它们可以在测试时独立应用基于跨任务一致性的5深度净Concat构成净深度净流净Dt+1第二帧It+1R、TDt第一帧It向前流逆潮流反向遮罩向前流逆潮流前向-后向光流一致性损失（第3.4节）跨任务一致性损失（第3.5节）反向遮罩正向掩码刚性流合成（第3.2节）正向掩码前后向深度一致性损失（第3.4节）有效掩码生成（第 3.4节）有效掩码生成（第 3.4节）图3：我们的无监督联合学习框架概述。我们的框架由三个主要模块组成：（1）用于单视图深度估计的深度网;（2）姿态网络，其采用两个堆叠的输入帧并且估计两个输入帧之间的相对相机姿态;以及（3）估计两个输入帧之间的密集光流场的Flow Net。给定从未标记视频采样的一对输入图像I t和I t+1，我们首先估计每个帧的深度、6D相机姿势以及密集的前向流和后向流。使用预测的场景深度和估计的相机姿态，我们可以通过对诱导的3D前向和后向场景流进行反向投影来合成2D前向和后向光流（称为刚性流）（第3.2节）。由于我们没有用于监督的地面实况深度和流图，因此我们利用标准的光度和空间平滑度成本来规范网络训练（第3.3节，为了清楚起见，未在此图中显示）。为了在两个方向上加强流和深度预测的一致性，我们利用前向-后向一致性（第3.4节），并且采用从其导出的有效掩码来过滤掉无效区域（例如，遮挡/解除遮挡）来补偿光度损失。最后，我们提出了一种新的跨网络一致性损失（第3.5节）-鼓励光流估计（来自流网）和刚性流（来自深度和姿态网）在有效区域内彼此一致。3深度和流量3.1方法概述我们的目标是开发一个用于联合训练的无监督学习框架单视图深度估计网络和使用未标记视频序列的光流预测网络。图3显示了我们提出的方法的高级草图。给定从未标记视频采样的两个连续帧（I t，I t+1），我们首先估计帧I t和I t+1的深度，以及帧I t和I t +1之间的前向-后向光流场。然后，我们估计两个帧之间的6D相机姿态变换（I t，I t+1）。利用预测的深度图和估计的6D摄像机姿态，我们可以产生由摄像机自运动和反向投影引起的3D场景流6Y. Zou，Z. Luo和J. - B. 黄将它们映射到图像平面上以合成2D流（第3.2节）。我们将这种合成流称为刚性流。假设场景大部分是静态的，合成的刚性流应该与来自估计的光流（由光流预测模型产生）的结果一致。然而，来自两个分支的预测结果可能彼此不一致。我们的直觉是，刚性流量和估计流量之间的差异为两个网络提供了额外的监督信号。因此，我们建议跨任务一致性损失以强制执行此约束（第3.5节）。处理无法通过摄影机运动解释的非刚性变换和遮挡-非遮挡区域，我们利用前向-后向一致性检查来识别有效区域（第3.4节）。我们避免了对那些前后不一致的区域执行跨任务一致性。我们的总体目标函数可以用公式表示如下：L= L测光+ λsL平滑+ λf L前后+ λcL交叉。（一）所有四个损失项都适用于深度和流量网络。此外，所有四个损失项对于前向和后向方向都是对称的，为了简单起见，我们只推导出前向方向的损失项。3.2使用深度和姿态预测的流合成给定两个不规则帧It和It+1，预确定的映射Dt，以及预确定的映射Tt→t+1，则新算法可确定两个帧之间的预确定的像素点。令pt表示帧It中的像素的2D齐次坐标，并且K表示固有相机矩阵。我们可以使用等式[73]计算帧It+1中的ptpt+1=KTt→t+1Dt（pt）K−1pt.（2）然后，我们可以通过下式获得It中像素pt处的合成前向刚性流：Frigid（pt）=pt+1−pt（3）3.3亮度恒定性和空间平滑度先验在这里，我们简要回顾了我们在框架中用于正则化网络训练的两个损失函数。利用经典密集对应算法中使用的亮度恒定性和空间平滑度先验[4，23，40]，先前的工作使用扭曲帧和目标帧之间的光度差异作为无监督代理损失函数，用于在没有地面实况注释的情况下训练CNN。光度损失。假设我们有帧It和It+1，以及估计的流Ft→t+1（来自从流模型预测的光流或从估计的深度和相机姿态诱导的合成刚性流），我们可以用来自帧的新的图像来生成帧It基于跨任务一致性的7It+1。并非在空间p t +1 m i g h中的预jete d i m e d imigh d i m e d i mi g i g e d i m ig i g e d i g e d i g i g e d i g e d i g i g e d i g i g e et不对图像像素网格精确，我们因此应用在空间Transformer网络[ 27 ]中使用的可微分双线性内插策略来执行帧合成。通过从RAM+1开始的新操作，我们可以提高业务效率目标函数为Σ。ΣL=¯光度ρ I t（p），I t（p）.（四）p其中ρ（·）是用于测量像素值之间的差的函数先前的工作简单地选择L1范数或外观匹配损失[21]，其对于真实世界场景中的照明变化不是不变的[61]。在这里，我们采用基于损失的三元普查变换[43，55，69]，可以更好地处理复杂的照明变化。平滑度损失。亮度恒定性损失在场景的低纹理或均匀区域为了处理这个问题，现有的工作在正则化估计的视差图或流场之前结合平滑度。我们采用了[21]中提出的空间平滑损失。3.4前后向一致性根据亮度恒定性假设，变形帧应类似于目标帧。然而，该假设不适用于遮挡和非遮挡区域。我们解决这个问题，通过使用常用的前向-后向一致性检查技术来识别无效区域，并不施加这些区域的光度损失。有效面具。我们基于前向-后向一致性假设[58]（即，向前然后向后遍历流动矢量应该到达相同的位置）。这里我们使用[43]中提出的一个简单我们将像素标记为无效的，只要这个约束被违反。图4显示了通过使用合成刚性流的前后一致性检查标记的无效区域的两个示例（可以在AdobeReader中查看用V表示有效区域（来自刚性流或估计流），我们可以将光度损失项（4）修改为Σ。ΣL=¯光度p∈Vρ I t（p），I t（p）.（五）前后一致性损失。除了使用前向-后向一致性检查来识别无效区域之外，我们还可以对有效区域施加约束，以便网络可以对前向和后向方向产生一致的预测。类似的想法已经在[25，43]中被开发用于遮挡感知流量估计。在这里，我们将前向-后向一致性损失应用于流量和深度预测。8Y. Zou，Z. Luo和J. - B. 黄输入帧刚性流导致的无效遮罩图4：有效掩模可视化。我们通过检查合成的刚性流的前后一致性来估计无效掩模，这不仅可以检测遮挡区域，而且可以识别移动对象（汽车），因为它们不能用估计的深度和姿态来解释。动画可以在Adobe Reader中查看。对于流量预测，前向-后向一致性损失的形式为ΣL向前-向后，流量=p∈V流||F|1（6）|1(6)类似地，我们对深度施加一致性惩罚ΣL向前-向后，深度=p∈V深度||1（7）||1(7)其中Dt是从D t +1开始的，使用的是从D t t+1开始的已调整大小的指定流。虽然我们利用鲁棒函数来强制执行每个任务的光度损失、前向-后向一致性，但使用未标记数据的深度和流量网络的训练仍然是不平凡的，并且对超参数的选择敏感[33]。在现有损失函数的基础上，在下文中，我们引入了一种新的跨任务一致性损失，以进一步正则化网络培训3.5跨任务一致性在第3.2节中，我们证明了场景中刚性区域的运动可以由相机的自我运动和相应的场景深度来解释。一方面，我们可以通过从估计的深度和相对相机姿态反向投影诱导的3D场景流来估计刚性流。另一方面，我们有直接的估计结果，从光流网络。我们的核心思想是，这两个流场应相互一致的非闭塞和静态区域。最小化两个流场之间的差异，使我们能够同时更新的深度和流量模型。因此，我们建议最小化刚性流中的流向量（从估计的深度和姿态计算）和刚性流中的流向量之间的端点距离。基于跨任务一致性的9估计流量（根据流量预测模型计算）。我们将该大小化的流表示为 Frigid=（ urigid ， vrigid），并且将该大小化的流表示为 Fflow=（u_flow，v_flow）。使用计算的有效掩模（第3.4节），我们对有效像素施加跨任务一致性约束。ΣL交叉=p∈V深度∩V流||1（8）||1(8)4实验结果在本节中，我们验证了我们提出的方法在几个标准基准数据集上进行深度和流量的无监督学习的有效性更多的结果可以在补充材料中找到我们的源代码和预训练模型可在http://yuliang.vision/DF-Net/上获得。4.1数据集用于联合网络训练的数据集。我们使用来自KITTI原始数据集[18]的训练分割的视频剪辑来联合学习深度和流量模型。请注意，我们的训练不涉及任何深度/流标签。预训练数据集。为了避免联合训练过程收敛到平凡的解决方案，我们（无监督地）在SYN-THIA数据集上预训练流网络[51]。对于深度和姿态网络的预训练，我们使用KITTI原始数据集或CityScapes数据集[11]。SYNTHIA数据集[51]包含在不同场景和交通条件下驾驶车辆捕获的多视图帧。我们从所有夏季和冬季驾驶序列中拍摄左侧相机的所有四视图图像，其中包含约37K图像对。CityScapes数据集[11]包含真实世界的驾驶序列，我们遵循Zhou等人。[73]并预处理数据集以生成大约75K个训练图像对。评估数据集为了评估深度网络的性能，我们使用KITTI原始数据集的测试分割。KITTI raw的深度图在不规则间隔的位置进行采样，使用旋转LIDAR扫描仪捕获。遵循标准评估协议，我们仅使用具有地面真实深度样本的区域（图像的底部）来评估性能。我们还评估了深度网络的泛化能力使用Make3D数据集[53]的一般场景。为了评估我们的流量网络，我们使用具有挑战性的KITTI流量2012 [19]和KITTI流量2015 [44]数据集。地面实况光流从3D激光扫描仪获得，因此仅覆盖约50%的像素。4.2实现细节我们在TensorFlow [1]中实现了我们的方法，并在具有12GB内存的单个Tesla K80 GPU上进行了所有我们设置λ s= 3。0，λ f= 0。2和10Y. Zou，Z. Luo和J. - B. 黄Eigen et al. [14] Zhou et al. [73]我们的图5：KITTI原始测试集的样本结果。地面实况深度是从稀疏点云插值的，仅用于可视化与Zhou et al.[73]和Eigen et al.[14]，我们的方法可以更好地捕捉对象轮廓和薄结构。λ c= 0。2.对于网络训练，我们使用Adam优化器[31]，其中β1 = 0。9，β2= 0。99. 在下文中，我们提供了网络架构、网络预训练和所提出的无监督联合训练的更多实现细节网络架构。对于姿态网络，我们采用了Zhou等人的架构。 [73]见附件。对于深度网络，我们使用ResNet-50 [22]作为具有ELU [10]激活函数的特征骨干。对于流网络，我们采用UnFlow-C结构[43]-FlowNetC的变体[12]。由于我们的网络训练是模型不可知的，更先进的网络架构（例如，姿势[20]、深度[36]或流量[57]）可以用于进一步改进性能。无监督深度预训练。我们使用6个大小为576× 160的图像对的小批量大小来训练深度和姿态网络，这些图像对来自KITTI原始数据集或CityScapes数据集，用于10万次迭代。我们使用的学习率是2 e-4。在训练过程中，每次迭代大约需要0.8秒（向前和向后）无监督流预训练。Meister et al.[43]中，我们使用大小为1152 × 320的4个图像对的小批量训练流网络，来自SYNTHIA数据集，迭代300K。我们在前10万次迭代中保持初始学习率每次迭代大约需要2.4秒（向前和向后）。无监督联合训练。我们联合训练深度，姿势和流量网络，使用KITTI原始数据集的4个图像对的小批量大小进行10万次迭代。深度和姿态网络的输入大小为576× 160，而流网络的输入大小为1152× 320。对于每20K次迭代，我们将初始学习率除以2我们的深度网络在4个空间尺度上产生深度我们在最好的4个尺度上执行跨网络一致性在训练过程中，每次迭代基于跨任务一致性的11表1：KITTI原始数据集[18]测试分割的单视图深度估计结果。在KITTI原始数据集[18]上训练的方法表示为K.具有来自CityScapes [11]的额外训练数据的模型由CS+K表示。(D)表示深度监督，（B）表示立体声输入对，（M）表示单目视频剪辑。每个块中的最佳和第二佳性能以粗体和下划线突出显示。误差指标↓精度指标↑方法数据集Abs Rel Sq Rel RMSE log RMSE δ <1。25δ <1。252δ<1。253Eigen等人[14个]K（D）0.2031.5486.3070.2460.7020.8900.958Kuznietsov等人[32个]K（B）/ K（D）0.1130.741 4.6210.1890.8620.9600.986Zhan等人[第七十一届]K（B）0.1441.3915.8690.2410.8030.9280.969Godard等人[21日]K（B）0.1331.1405.5270.2290.8300.9360.970Godard等人[21日]CS+K（B）0.1211.0325.2000.2150.8540.9440.973Zhou等人[73个国家]K（M）0.2081.7686.8560.2830.6780.8850.957Yang等人[67个]K（M）0.1821.4816.5010.2670.7250.9060.963Mahjourian等人[41个]K（M）0.1631.2406.2200.2500.7620.9160.968Yang等人[第六十六话]K（M）0.1621.3526.2760.252---Yin等人[68个]K（M）0.1551.2965.8570.2330.7930.9310.973Godard等人[20个]K（M）0.1541.2185.6990.2310.7980.9320.973我们的（无向前向后）K（M）0.1601.2565.5550.2260.7960.9310.973我们的（无交叉任务）K（M）0.1601.2345.5080.2250.8000.9320.972我们K（M）0.1501.124 5.5070.2230.8060.9330.973Zhou等人[73个国家]CS+K（M）0.1981.8366.5650.2750.7180.9010.960Yang等人[67个]CS+K（M）0.1651.3606.6410.2480.7500.9140.969Mahjourian等人[41个]CS+K（M）0.1591.2315.9120.2430.7840.9230.970Yang等人[第六十六话]CS+K（M）0.1591.3456.2540.247---Yin等人[68个]CS+K（M）0.1531.3285.7370.2320.8020.9340.972我们的（无向前向后）CS+K（M）0.1591.7165.6160.2220.8050.9390.976我们的（无交叉任务）CS+K（M）0.1551.181 5.3010.2180.8050.9390.977我们CS+K（M）0.1461.182 5.2150.2130.8180.9430.978网络输入/输出的图像分辨率。由于UnFlow-C网络[43]的输入大小必须可被64整除，因此我们使用双线性插值将两个KITTI流数据集的输入图像对调整为1280× 384然后，我们调整估计光流的大小，并重新调整预测的流向量，以匹配原始输入大小。对于深度估计，我们首先将输入图像调整为与训练输入相同的大小以预测视差。然后，我们将预测的视差调整大小并重新缩放到原始大小，并计算逆值以获得最终预测。4.3评估指标继Zhou et al.[73]，我们使用几种误差度量（绝对相对差，平方相关差，RMSE，log RMSE）评估我们的深度网络对于光流估计，我们使用可用于每个数据集的地面实况流在KITTI flow 2015数据集[44]上，我们还计算了F1得分，这是EPE大于3像素的像素百分比和地面真值的5%12Y. Zou，Z. Luo和J. - B. 黄4.4实验评价单视图深度估计。我们将我们的深度网络与Eigen等人提供的KITTI原始数据集的测试分割[14 ]第10段。如表1所示，当与用单目视频序列训练的模型相比时，我们的方法实现了最先进的性能然而，我们的方法比利用校准的立体图像对的模型（即，姿态监督）或具有附加的地面实况深度注释。我们认为，性能差距可以归因于我们的姿势网络引起的错误将我们的方法扩展到校准的立体视频是一个有趣的未来方向。我们还通过去除前向-后向一致性损失或跨任务一致性损失来进行消融研究。在这两种情况下，我们的结果显示出显着的性能退化，突出了建议的一致性损失的重要性。图5显示了与[14，73]的定性比较，我们的方法可以更好地捕获薄结构并描绘清晰的对象轮廓。为了评估我们的深度网络在一般场景中的泛化能力，我们还将我们的训练模型应用于Make3D数据集[53]。表2显示，与现有的无监督模型相比，我们的方法实现了最先进的性能，并且相对于监督学习模型具有竞争力（即使没有对Make3D数据集进行微调）。表2：Make3D数据集的结果[54]。我们的结果是通过在Cityscapes +KITTI上训练的模型获得的，而无需对Make3D中的训练图像进行微调。根据[21]的评估协议，仅在深度小于70米的情况下计算误差每个块中的最佳和第二佳性能以粗体和下划线突出显示误差度量↓方法监督绝对值Rel Sq Rel RMSE log RMSE列车组均值-0.87612.9812.270.307Karsch等人[29日]深度0.4285.0798.3890.149Liu等人[39]第三十九届深度0.4756.56210.050.165Laina等人[34个]深度0.2041.840 5.6830.084Li等人[36个]深度0.176-4.2600.069Godard等人[21日]构成0.54410.9411.760.193Zhou等人[73个国家]没有一0.3835.32110.470.478我们没有一0.331 2.698 6.890.416光流估计我们在KITTI flow 2012和2015数据集上将我们的流网络与传统的变分算法，监督CNN方法和几种无监督CNN模型进行了如表3所示，我们的基于跨任务一致性的13表3：光流的定量评价。KITTI flow 2012 [19]、KITTI flow 2015 [44]数据集的结果。我们将“C”表示为FlyingChairs数据集[ 12 ]，“T”表示为FlyingThings3D数据集[ 42 ]，“K”表示为KITTI原始数据集[ 18 ]，“SYN”表示为SYNTHIA数据集[ 51 ]。（S）表示模型是用地面实况注释训练的，而（U）表示模型是以无监督的方式训练的。每个块中的最佳和第二佳性能以粗体和下划线突出显示KITTI 2012KITTI 2015列车试验火车火车测试方法数据集EPE珍珠棉EPEF1F1LDOF [3]-10.94 12.418.1938.05%-DeepFlow [63]-4.585.810.6326.52%29.18%EpicFlow [50]-3.473.89.2727.18% 27.10%流场[2]-3.33-8.33 24.43%-FlowNetS [12]C（S）8.26-15.4452.86%-FlowNetC [12]C（S）9.35-12.52百分之四十七点九三-间谍网[47]C（S）9.12-20.5644.78%-[33]第三十三话C（S）/ K（U）7.16-16.0238.77%-[26]第二十六话C（S） + T（S）4.09-10.06 30.37%-UnsupFlownet [28]C（U） + K（U）11.39.9---DSTFlow [49]C（U）16.98-24.3052.00%-DSTFlow [49]K（U）10.43 12.416.7936.00%39.00%Yin等人[68个]K（U）--10.81--UnFlowC [43]SYN（U） + K（U）3.784.58.80百分之二十八点九四29.46%我们的（无向前向后）SYN（U） + K（U）3.864.79.1226.27%百分之二十六点九我们的（无交叉任务）SYN（U） + K（U）4.705.88.9528.37%30.03%我们SYN（U） + K（U）3.544.48.9826.01% 25.70%[26]第二十六话C（S） + T（S） +K（S）（1.28）1.8（二点三十分）(8.61%）11.48%[43]第四十三话SYN（U） + K（U） + K（S）（1.14）1.7（1.86）（7.40%）11.11%[43]第四十三话SYN（U） + K（U） + K（S）（2.13）3.0（3.67）（17.78%）24.20%乌尔基蒂河SYN（U） + K（U） + K（S）（1.75）3.0（2.85）（13.47%）22.82%表4：KITTI Odometry datest [ 19 ]上的位姿估计结果。Seq. 09序列10ORB-SLAM（满）0.014±0.008 0.012±0.011ORB-SLAM（短）0.064±0.141 0.064±0.130卑鄙的奥多姆。0.032±0.026 0.028±0.023Zhou等人[73] 0.021±0.017 0.020±0.015Mahjourian等人[41]0.013±0.010 0.012±0.011Yin等人[68] 0.012±0.0070.012±0.009我们的0.017±0.007 0.015±0.00914Y. Zou，Z. Luo和J. - B. 黄输入Ground truth FlowNetS FlowNetC UnFlow-C Ours图6：KITTI流量数据集上的视觉结果。所有模型都直接应用，无需对KITTI流注释进行微调与监督/无监督方法相比，我们的模型方法在两个数据集上都实现了最先进的性能。目视比较可参见图6。通过对KITTI流数据集上可用的地面真值标签进行可选的微调这表明我们的方法可以作为一种无监督的预训练技术，用于在地面真实数据量稀缺的领域中学习光流。姿势估计。为了完整性，我们提供的姿态网络的性能评估。我们遵循与[73]相同的评估协议，并使用基于5帧的姿势网络。如表4所示，我们的姿势网络相对于最先进的视觉SLAM方法或其他无监督学习方法显示出竞争性能。我们相信，更好的姿态网络将进一步提高深度或光流估计的性能5结论我们提出了一个无监督的学习框架，使用未标记的视频序列的单视图深度我们的关键技术贡献在于提出了耦合网络训练的跨任务一致性。在测试时，可以独立地应用训练的深度和流量模型。我们通过在基准数据集上的广泛实验验证了联合训练的好处。我们的单视图深度预测模型与使用KITTI和Make3D数据集上的非结构化视频的现有无监督模型相比毫不逊色。我们的流量估计模型实现了具有竞争力的性能与国家的最先进的方法。通过杠杆老化的几何约束，我们的工作提出了一个有前途的未来方向，推进国家的最先进的多个密集的预测任务，使用未标记的数据。谢谢。这项工作得到了NSF的部分支持，（#1755785）.我们感谢NVIDIA公司捐赠GPU。基于跨任务一致性的15引用1. Abadi，M.，Agarwal，A.，Barham，P.，Brevdo，E.，陈志，西特罗角科罗拉多州科拉多戴维斯，A.，迪恩J Devin，M.，等：Tensorflow：异构分布式系统上的大规模机器学习。arXiv预印本arXiv：1603.04467（2016）92. 贝勒角Taetz，B.，斯特里克，D.：流场：用于高精度大位移光流估计的密集对应场。In：ICCV（2015）133. Brox，T.，布雷格勒角Malik，J.：大位移光流。载于：CVPR（2009）134. Bruhn，A.， Weickert，J.， Schn？rr，C. ：Luca/k可以描述局部和全局光流方法。IJCV61（3），2115. 巴特勒DJ Wulff，J.，Stanley，G.B.，布莱克，M.J.：一个用于光流评估的自然主义开源电影。In：ECCV（2012）2，36. Chang，J.，Fisher，J.W.：具有潜在流的拓扑约束分层跟踪。 In：ICCV（2013）47. 陈伟，Deng，J.：使用质量评估网络从视频中学习单图像深度。在：ECCV（2018）38. 陈伟，傅志杨，D.，Deng，J.：在野外的单一图像深度感知。在：NIPS（2016）39. 郑杰，蔡永宏，王，S.，Yang，M.H.：SegFlow：视频对象分割和光流的联合学习。In：ICCV（2017）410. Clevert地方检察官Unterthiner，T.，Hochreiter，S.：通过指数线性单元（elus）进行快速准确的深度网络学习In：ICLR（2016）1011. Cordts ， M. ， Omran ， M. ， Ramos ， S. ， Rehfeld ， T. ， Enzweiler ， M. ，Benenson河弗兰克，美国，Roth，S.，Schiele，B.：用于语义城市场景理解的cityscapes数据集。In：CVPR（2016）9，1112. 做得很好A Fische r，P.， I Ig，E.，Hsse r，P.， Hazırbas，C.， Golk ov，V.， v. D. Smagt，P.，Cremers，D. Brox，T.：FlowNet：使用卷积网络学习光流。In：ICCV（2015）2，3，10，1313. Eigen，D. Fergus，R.：使用通用的多尺度卷积架构预测深度、表面法线和语义标签。In：ICCV（2015）3，414. Eigen，D. Puhrsch，C. Fergus，R.：使用多尺度深度网络从单个图像进行深度图预测。见：NIPS（2014）3、10、11、1215. Furukawa，Y.，Curless，B.，Seitz，S.M.，Szeliski，R.：走向互联网规模的多视角立体。In：CVPR（2010）416. Gaidon，A.王建奎，Cabon，Y. Vig，E.：虚拟世界作为多目标跟踪分析的代理。在：CVPR（2016）217. 加格河Carneiro，G. Reid，I.：用于单视图深度估计的无监督CNN：几何学拯救了我们。In：ECCV（2016）2，318. Geiger，A.，Lenz，P.斯蒂勒角乌尔塔松河：视觉与机器人技术的结合：Kitti数据集。IJRR（2013）2、9、11、1319. Geiger，A.，Lenz，P.乌尔塔松河：我们准备好自动驾驶了吗？Kitti Vision基准套件。载于：CVPR（2012）9，1320. 戈达尔角Mac Aodha，O.，Brostow，G.：深入研究自我监督的单目深度估计。arXiv预印本arXiv：1806.01260（2018）10，1121. 戈达尔角Mac Aodha，O.，Brostow，G.J.：具有左右一致性的无监督单眼深度估计在：CVPR（2017）2，3，7，11，1222. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。在：CVPR（2016）1016Y. Zou，Z. Luo和J. - B. 黄23. Horn，B.K.，Schunck，B.G.：确定光流。人工智能17（1-3），18524. Huang，P. H.，Matzen，K.，Kopf，J.，Ahuja，N.，Huang，J

下载后可阅读完整内容，剩余1页未读，立即下载