时空对应的深度和流量估计的联合学习方法及其在KITTI基准数据集上的应用

59 浏览量更新于2023-10-19 收藏 1.44MB PDF 举报

无监督学习

深度学习方法

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于时空对应的赖雪英1蔡怡萱 2邱伟珍11台湾国立交通大学2美国NEC实验室摘要立体匹配和流估计是场景理解的两个基本任务，空间上在3D和时间上在运动。现有的方法一直集中在无监督的设置，由于有限的资源，以获得大规模的地面实况数据。为了构建一个可自学的目标，相关的任务通常被连接在一起，形成一个联合框架。然而，先前的工作通常为每个任务使用独立的网络，因此不允许跨模型学习共享的特征表示。在本文中，我们提出了一个单一的，原则性的网络，共同学习立体匹配和流量估计的时空对应，与一个新设计的几何连接作为无监督信号的时间相邻的立体声对。我们表明，我们的方法表现良好，对几个国家的最先进的基线，无监督的深度和流量估计的KITTI基准数据集。1. 介绍从真实世界视觉数据重建3D运动长期以来一直是计算机视觉中的基本问题，并且对于诸如机器人、虚拟/增强现实和自主驾驶的许多应用是重要的。在理解3D运动的任务中，两个最常研究的场景是光流估计和用于深度估计的立体匹配通常，在投影到相机的图像平面中之后的3D运动代表视频中的两个连续帧之间的光流因此，光流和立体匹配的估计，发现跨时间上相邻的帧和立体对的像素位移，提供了对3D信息的关键访问。最近，基于深度学习的方法在监督学习设置中的光流估计和立体匹配方面都有了巨大的改进[2，13，14，3，11，6，10，19]。然而，这些方法通常依赖于具有基本事实的大规模数据集，但这种方法图1.使用时间上相邻的立体对作为输入，我们的模型可以通过几何连接来估计每个立体对的对应映射，从而通过多次重建来桥接立体匹配和光流，形成循环。注释工作是非常昂贵的，特别是在用于光流和立体匹配的逐像素位移的为了消除数据集的限制和潜在的问题，例如跨各种场景的模型泛化能力差，最近提出了几种方法来探索无监督学习框架[31，17，9]。在无监督学习设置中，常见的实践是将不同的任务（例如，光流、深度估计或相机姿态估计），并利用照片度量一致性来测量跨帧的像素对应性[20，27，28，31，33]。然而，现有的方法利用单独的网络为每个任务，因此，功能表示没有有效地跨任务共享。在本文中，我们认为，应该存在一个原则性的模型，这是能够学习联合representations的任务是高度相关的。虽然用于立体匹配和光流估计的像素对应的性质略有不同，因为前者考虑了水平偏移，而后者在水平和垂直方向上都有运动18901891显然，共同的目标是共享的（即，找到像素对应）。通过利用这种相关性，我们提出了设计一个单一的网络，模拟估计光流和立体匹配，并表明这两个任务是有益的，通过学习共享的特征表示。此外，我们构建了一个无监督学习框架，基于时间相邻的立体对（如图1所示）对两个任务之间的几何连接进行建模，其中这种类型的数据很容易获得，因为立体摄像机很受欢迎。我们设计了一个考虑相邻视频帧之间一致性的扭曲函数，并顺序地从流和立体对中馈送训练数据以满足设计的几何约束。在KITTI2012 [8]和KITTI2015 [18]基准数据集上进行了大量实验以评估所提出的方法的有效性，并显示出良好的性能对几个国家的最先进的算法。此外，我们依次展示了共同学习光流估计和立体匹配任务的互利性，成功地展示了通过利用建立在立体视频数据上的拟议几何连接的改进。本文的主要贡献归纳如下：• 我们提出了一个单一的原则性网络，用于联合估计光流和立体匹配，以解释它们的共享表示，其中的共同目标是找到图像之间的像素对应关系。• 我们在联合学习过程中引入几何约束，这为一致性建模提供了有效的信号时空对应），然后用作无监督训练的目标。• 我们开发了一个有效的训练计划，在一个框架内的两个任务的联合优化，并表明这两个任务相互受益。2. 相关作品我们组织和讨论了相关的方法，包括立体匹配，深度估计，光流估计，以及它们的联合框架。深度估计的无监督学习。几十年来，用于深度估计的立体匹配一直是经典的计算机视觉问题。在深度学习最近重新诞生之前，提出了许多基于不同策略的方法来解决这个问题，例如作为手工制作的特征描述符，用于跨帧匹配局部区域，或者在图形模型上制定立体匹配并通过复杂的能量最小化来解决它。具有大型注释数据集的（例如，KITTI [8]）近年来，通过深度神经网络[15，30，1]学习了更好的匹配函数来测量图像块之间的相似性，从而显著提高了性能。同时，基于深度模型以监督学习方式直接从单目图像估计深度也被广泛探索[2，14]。然而，对具有地面事实的训练数据的要求是昂贵的，因此普遍采用无监督学习方案[31，9，32，16在这里，我们回顾其中几个如下。Godard等人[9]学习估计视差图，该视差图用于在立体对中的图像之间扭曲，以优化左右一致性的目标。在给定视频序列的情况下，[32]联合估计每个帧的单眼深度以及相机运动，而不是探索立体对内的像素对应关系，以便连续帧可以在彼此之间重建，并用于评估作为损失函数的光度在[16]中，作者结合了单目深度估计和立体匹配的概念，其中立体对中的双目视图首先通过使用从单目图像估计的深度图来合成。然后应用立体匹配网络来产生最终的深度估计。通常，这些方法试图仅从单眼回归深度图，这不可避免地取决于训练数据的质量，并且很难推广到不可见的场景。相比之下，立体匹配模型专注于学习图像之间的像素匹配在周等人的工作。[31]，作者提出通过迭代左右一致性检查来学习立体匹配。Godard等人[9]还扩展了他们的单目深度估计框架，以执行立体匹配，并相对于其单目版本获得更好的性能。光流的无监督学习。解决光流估计的研究工作遵循与深度估计相同的演变，从传统方法开始[4，5]，推进到基于监督设置的深度学习模型[3，11]，然后探索无监督学习方法[29，21，17]。当在FlowNet-Simple [29]和DSTFlow [21]中首次引入光流的无监督学习时，它们利用了跨帧的光度一致性和估计流图中的局部平滑度的类似目标然而，当存在具有大运动的对象时，这些工作没有考虑严重的遮挡问题为了解决扭曲操作导致的伪影，[25，17，12]通过分析前向和后向流图之间的不一致性来处理闭塞区域。[17]进一步用三元普查变换代替典型的L1损失，用于测量光度一致性。1892simulation，提供更可靠的恒常性假设在现实情况下。此外，[12]通过在时间窗口内对多个连续帧进行显式推理来推进光流深度和光流联合学习框架。最近，已经提出了许多作品，通过采用流量，深度和相机姿态之间的几何关系来联合学习深度和光流估计模型。在[32]中，基于刚性场景的假设，由摄像机运动引起的时间相邻帧之间的像素对应关系是从单目深度和摄像机姿态的估计中推导出来的GeoNet [28]遵循与[32]类似的想法，但特别引入了非刚性运动定位器来处理光流图中的移动对象Yang等[27]基于运动网络将视频中的动态对象从静态背景中明确地分离出来，并通过使用几何约束将其与深度、流和相机姿态估计一起因此，可以获得动态和静态区域的遮挡掩模以及3D运动图。DF-net [33]特别利用了几何图2.桥接立体声对与后接帧的关系。我们可以根据输入对及其重构方向估计任意方向的对应映射。我们的方法中的网络P基于Monodepth[9]中使用的模型，该模型现在从其单目深度估计的原始使用扩展到采用两个输入帧并输出跨输入帧的像素对应的作为-S. 对两个时间上相邻的立体声对进行采样，从光流估计的流量之间的一致性Il，t，Ir，t，Il，t+1，Ir，t+1其中上标l、r表示模型和从深度和相机运动估计获得的合成2D光流，其中它显示出同时训练单目深度预测和光流估计网络的益处。沿着无监督学习的相同轨道，但与上述研究工作不同，其中为每个任务学习单独的网络，我们提出的方法在单个原则性网络内处理立体匹配和光流估计，并通过建立在时间相邻立体对上的几何连接将它们联系起来。3. 该方法在本节中，我们首先描述如何构建立体视频之间的几何关系的总体结构。其次，我们介绍了所提出的方法的每个组成部分，包括在立体匹配和流量估计之间共享的无监督损失函数，新提出的2-Warp损失，用于测量两个任务之间的一致性，以及用于流量估计的遮挡处理。3.1. 整体结构由于之前的动机，光流估计和立体匹配的目标是找到图像之间的像素对应关系，我们的目标是以无监督学习的方式学习一个单一的原则性网络，用于这两个任务，并利用它们的几何关系源于立体视频。图3说明了所提出的方法的框架，将在以下小节中详细介绍。分别是立体声对中的左帧和右帧，t、t+1表示它们的时间索引。我们的网络P能够执行立体匹配以获得前向像素相关性。从Il，t到Ir，t的自相关性Dl，t→ r，t以及从Ir，t到Il，t的后向自相关性Dr，t→ l，t：Dl，t→r，t=P（Il，t，Ir，t）Dr，t→l，t=P（Ir，t，Il，t）（1）同样，对于时间t+ 1处的另一立体声对，我们获得：Dl，t+1 →r，t+1=P（Il，t+1，Ir，t+1）Dr，t+1 →1，t+1=P（Ir，t+1，Il，t+1）（2）左视图和右视图上的前向/后向光流图也可以使用我们的网络进行估计：F1，t→1，t+1=P（I1，t，I1，t+1）Fl，t+1 →l，t=P（Il，t+1，Il，t）Fr，t→r，t+1=P（Ir，t，Ir，t+1）（3）Fr，t +1 → r，t =P（Ir，t+1，Ir，t）总体关系如图2所示。利用这些像素对应关系，我们的目标是基于扭曲函数W重建给定立体对的对应物或其时间相邻性的帧。例如，帧Ir，t可以被重构为：I_r，t=W（I_l，t，D_r，t→l，t），（4）189312图3.我们方法的整体结构我们的框架包括一个单一的模型P，估计密集的对应映射的基础上的两个输入图像的立体匹配和光流的顺序每一对可以被馈送到P中，但是以不同的图像顺序（例如，（Il，Ir）和（Ir，Il）），并且因此能够基于从每一对获得的两个扭曲函数W来优化两个重构损耗L_rec这两个任务之间的两个区别是：（1）我们应用左右一致性Llr仅稳定立体匹配部分;(2)在重建损失上采用由两个相反方向的对应图导出的遮挡图，以解决仅针对光流的大遮挡区域。从其对应的左视图Il，t，并且后向立体匹配Dr，t→l，t。类似地，Il，t可以被重构为：I=I，t=W（I，t+1，F ，t→1，t+1），（5）确定可能被遮挡的区域。更准确地说，ap-通过其对应的WARD映射对后向映射进行扭曲操作，例如，W（F1，t+1→l，t，F1，t→l，t+1），理想情况下可以用一个负的正向映射来重建.在非闭塞区域中的有效标志为此，我们遵循--l ow。在[17]中使用的技术，从其第n个帧I1，t+1经由流F 1，t→I，t+1。F或SIM-的Il，t，Il，t+1作为一个例子，像素被认为是OC-。为了简单起见，我们跳过这里列出的跨帧的其他组合，这些组合应该很容易推导出来。3.2. 光流场的遮挡估计在我们的框架中引入设计的无监督损失函数之前，我们首先描述如何解决流量估计的常见遮挡问题。在训练期间，将存在仅在帧t处可见但在帧t+ 1处不具有对应像素的一些被遮挡区域，因为相机或对象可能具有大的移动。这就造成了重建图像与目标图像之间的变形过程在外观上的不一致。为了处理遮挡问题，我们利用前向-后向一致性检查[23，25，33]来局部地如果违反以下标准，则应予以排除：|2|2<α（|Fl，t→l，t+1|2个以上|W（Fl，t+1 →l，t，Fl，t→l，t+1）|2）+α，（六）其中超参数α1和α2被设置为0。01和0的情况。5的比例。然后通过以下步骤获得遮挡图O：对于那些被遮挡的区域设置0，否则设置1。3.3. 无监督损失函数使所提出的无监督方法工作的一个关键因素是设计合理的损失函数，可以利用跨视频帧的各种连接。下面，我们依次介绍利用损失1894DIJIJIJ(a)(b)（c）第（1）款图4.我们提出的双曲速模块。箭头指示扭曲方向，并且当具有相同颜色的箭头相遇时执行2-扭曲重建损失，迫使经由2-扭曲操作重建的图像是一致的。在这里，我们介绍了三种类型的2-warp函数，并将在实验部分讨论它们。函数，包括自监督重建损失、平滑损失、左右一致性损失和2-Warp模式的一致性损失。l立体视频之间的关系其中β表示边加权超参数。在这里，我们分别采用对应映射和图像上的二阶和一阶导数在这里，我们使用一对Il，t，Il，t+1作为一个例子，平面化和所有损失函数都适用于立体声/流动对，除非特别说明所提出的框架和损失函数的总体结构如图3所示。重建损失。重建损失Lrec类似于Monodepth [9]中使用的重建损失，但具有遮挡感知约束。损失是基于SSIM的损失和L1损失的加权和，L1损失比较Il，t及其重构Il，t：左右对应一致性丢失。为了提高对应图估计的准确性，同时平衡左右估计的性能，我们不仅检查左右重建的一致性，还可以检查左右对应关系。与阻塞检测类似，我们的左右一致性损失Llr是通过相互扭曲来重建对应映射对并计算绝对L1差异损失而得出的在[26]之后，该一致性项仅在立体声对上采用：ΣLl，t→r，t= 1|Dl，t→r，t+W（Dr，t→l，t，Dl，t→r，t）|（九）11−SSIM（Il，t，Il，t）lrNLl，t→l，t+1=[（αij iji、jreci，j，Oi、j第二章（七）2-翘曲一致性损失。加强…+（1−α）|Il，t−Il，t|）·O]，立体匹配和光流估计，我们介绍其中O是从第3.2节导出的遮挡图，下标i，j表示像素坐标，α表示SSIM和L1损失之间的权重。由于我们的遮挡图仅在用于流量估计的图像对中使用，因此当Lrec应用于用于立体匹配的图像对时，遮挡图中的所有元素将等于1平滑度损失。对于平滑度损失Lsm，我们采用[25]中引入的公式，该公式使对应映射局部平滑，但也保持应与图像结构对齐的边缘新的双曲速一致性损失也就是说，我们通过光流和立体侧两次扭曲图像。图4给出了我们研究的三种可能的2-warp我们将介绍第一个的细节如下，而其他人可以类似地推导根据先前的深度估计工作，我们不对立体对应用遮挡图，使得我们可以容易地从估计的流图导出2-扭曲遮挡图。为了经由I l，t从I l，t+1重建I r，t，遮挡图和2-扭曲重建图像被写为：Or，t → l，t+1=W（Ol，t → l，t+1，Dr，t+1 →l，t+1）.（十）I？r，t=W（W（Il，t+1，F l，t→l，t+1），Fr，t→l，1895L=t）.（十一）l，t→l，t+1sm1Σ ΣNi，jd∈（x，y）|∂2F l，t→l，t+1|德岛|∂dIl,t|（八）在时间t的立体对之间的遮挡区域是物体遮挡背景的区域1896t+1，因此遮挡区域可以由D1 ，t+1→r，t+1 映射。因此，将O l，t→l，t+1扭曲D r，t+1 →l，t+1作为我们的2-扭曲遮挡图是有效的。类似于（7），我们可以-在通过I l，t从Il，t+1重建的I？r，t和直接从I r，t +1重建的I？r，t之间提供遮挡感知重建损失，如图4（a）所示。11−SSIM（Ir，t，Ir，t）10，0.5，0.2}。当仅对立体声对进行训练时，λlr将为1以平衡批次中立体声对的比例。请注意，我们使用了一个没有2- warp一致性损失的模型变体（即，在表1、2和3中表示为我们的（流+立体声）），以便更好地初始化我们提出的完整模型的学习。4.2. 数据集和设置Lr，t→l，t+1=[（αij ij2warpi、jOr，t→l，t+12i、jKITTI数据集包含真实道路的立体序列+（1−α）|Ir，t−Ir，t|0r，t→l，t+1]。场景，提供精确但稀疏的深度和光流ij ij（十二）一个小子集的地面实况我们评估我们的方法KITTI 2012和2015数据集，其中有194和200对高质量注释的流和立体声全损。拟议框架的总损失是：Ltotal= Lrec+λsmLsm+λlrLlr+λ2warpL 2warp（13）我们注意到，除了2-Warp一致性之外，所有这些项在每个尺度上都有其镜像对应物，用于多尺度估计，如Monodepth [9]中所述。4. 实验结果我们在KITTI数据集上评估了所提出的深度估计和流量估计方法[8]。我们表明，我们的框架是能够实现有竞争力的perfor-曼斯在这两个任务。此外，为了展示联合学习共享特征表示的优点我们进一步实施几何约束，以构建立体视频中的时空对应关系，并表明这种约束通过我们新提出的翘曲函数提高了性能。代码和模型将向公众提供。补充材料中提供了更多结果。4.1. 实现细节在训练过程中，我们使用一批大小为2的数据，每个数据都有两个相邻的立体声对，即，4个立体声对和4个流动对。图像被缩放到512 × 256的大小。我们的模型基于Monodepth [9]，使用ResNet-50作为编码器，在每个尺度下输出之前修改最后一层，以生成包括水平和垂直对应映射的 2 通道映射。数据增强遵循Monodepth，包含左右翻转、随机伽马的颜色增强、亮度和颜色偏移，其中每个增强类型有50%的机会被选择。每个颜色增强通过在[0.8，1.2]，[0.5，2.0]，[0.8，1.2]分别我们使用Adam作为我们的优化器，使用默认参数设置。学习率设置为10−4，我们应用每3个epoch减半的学习率衰减在全训练集上训练5次。我们的超参数{α，β，λsm，λlr，λ2warp}被设置为{0.85，10，场景，涵盖KITTI原始数据集的28个场景。在训练期间，我们生成28968个周期（即，一个周期包含来自剩余33个场景的4个图像（如图2所示）。与Eigen等提出的基于分割测试集的深度估计方法进行比较。[2]，其中包含来自KITTI原始数据集中29个场景的697对，我们使用剩余的32个场景并对由8000个循环组成的子集进行采样以进行训练。我们将深度限制在0-80米，并使用与Garg等人相同的裁剪。[7]在评价过程中。4.3. 深度估计结果KITTI分裂。在表1中，我们将我们的结果与最先进的方法[24，9，27]进行了比较，这些方法通过在训练和测试期间使用立体声对进行相比[9]在相同的设置下，我们的模型同时考虑了流量和立体声对，在所有指标中始终表现得更好。请注意，我们在训练所有模型时使用相同数量的训练数据进行公平比较。通过在我们的变体之间进行比较，添加在具有立体对的相同模型内联合学习的流对仅立体声）显著地增大。进一步包括所提出的2-warp几何连接带来了额外的性能增益，使用如图4中的2-warp操作的任一类型。本征分裂。在表2中，我们显示了与最先进的方法[2，9，27，32，28]相比，本征分裂的深度估计性能。虽然现有的方法没有在训练/测试过程中使用立体声对的相同设置，但我们表明，我们的模型通过在测试过程中添加立体声对来显着请注意，在没有2-warp一致性的情况下添加流对并不能显著提高本征分裂中的性能潜在原因是由于流量估计被认为比立体匹配更难的性质因此，同时学习光流会导致收敛速度变慢，影响立体匹配的性能后1897表1.定量评估KITTI 2015立体声集的深度估计任务。我们的结果在0-80米之间。我们的完整模型包括具有来自图4的三种类型的2-warp操作的设置，并且完整的1、2、3分别对应于图4（a）、4（b）和4（c）。在训练/测试期间使用立体声对也在表中指示。方法火车立体声测试立体声绝对相对值低平方相对越好RMSE日志高越好δ<1。25 δ<1。252δ <1。253Wang等人[24日]0.1481.1875.4960.2260.8120.9380.975Godard等人[9]第一章C0.0970.8965.0930.1760.8790.9620.986Yang等人[27日]C0.0990.9866.1220.1940.8600.9570.986Godard等人[9]第一章CC0.0680.8354.3920.1460.9420.9780.989我们的（仅限立体声）CC0.0780.8114.7000.1740.9180.9650.983我们的（流动+立体声）CC0.06530.8194.2680.1510.9460.9790.990我们的（全-1）CC0.06310.7564.2070.1470.9470.9790.990我们的（满-2）CC0.06200.7474.1130.1460.9480.9790.990我们的（全-3）CC0.06300.7734.1950.1470.9470.9790.990表2.定量评价深度估计任务的KITTI原始数据集分裂Eigen等人。[2]的文件。所有结果均根据[7]中的设置进行裁剪。在训练/测试或监督数据期间使用立体声对在表中指示。方法火车立体声测试立体声超-vised 绝对相对值低平方相对越好RMSE日志高越好δ<1。25 δ<1。252δ <1。253Eigen等人[二]《中国日报》C0.2031.5486.3070.2820.7020.8900.958Godard等人[9]第一章C0.1140.8984.9350.2060.8610.9490.976Yang等人[27日]C0.1141.0745.8360.2080.8560.9390.976Zhou等人[32个]0.1981.8366.5650.2750.7180.9010.960[28]第二十八话0.1531.3285.7370.2320.8020.9340.972我们的（仅限立体声）CC0.0900.8444.3730.1900.9000.9540.976我们的（流动+立体声）CC0.0940.7914.4550.1880.8970.9570.978我们的（全-1）CC0.0890.7664.3690.1830.9050.9590.979我们的（满-2）CC0.0880.7594.3460.1840.9060.9590.979我们的（全-3）CC0.0870.7654.3800.1840.9060.9590.978在我们的完整模型中包括2-warp一致性目标，它成功地克服了上述问题并提高了性能，因为现在每个立体声对或时间上相邻的立体声对可以通过所提出的2-warp函数对同一网络P做出多次贡献4.4. 流量估算结果在表3中，我们显示了与最先进的监督方法[11，22]和无监督方法[17，28，33]相一致的无监督流结果。结果表明，我们的模型在不使用2-warp的情况下已经表现出与其他无监督框架相比的优势。它展示了使用单个网络来联合学习在两个高度相关的任务（即，流估计和立体匹配）并且有助于提高这两种性能。此外，即使光流估计是一项更困难的任务，我们提出的2-warp一致性损失也能够鼓励两个任务之间更紧密的连接，从而进一步提高性能。我们也是--1898来自KITTI 2015数据集的服务表明，我们的完整模型的所有三个变体都在显著的裕度上实现了类似的改进，其中它表明我们提出的2-warp一致性损失可以有益于像素对应性的估计，而不管翘曲方向如何。4.5. 不共享权重的结果为了证明使用单个网络进行流量估计和立体匹配而不是每个任务具有单独的架构的好处，我们训练了full-2的模型变体，其中解开了两个任务的权重，并在KITTI 2015上对其进行测试，表3中表示为Ours（w/osharing）。我们发现它的性能相当，我们的完整模型在立体匹配，但在光流估计差得多。主要原因是，如果没有良好的调整，流量和深度网络的学习速率现在很难平衡，并且对于2-warp操作，光流估计的性能变得不稳定这显示了具有单一和原则性1899表3.光流任务的定量评价。EPE表示平均端点误差，其中后缀“-noc”和“-occ”分别仅说明非遮挡区域和遮挡区域。F1表示流图值的错误率，其中如果EPE是3px或5%，则一个像素被认为是错误的。方法火车立体声监督KITTI 2012火车火车EPE-allEPE-noc列车EPE-all列车Fl-allKITTI 2015火车火车EPE-nocFl-noc列车EPE-occ列车运行[第11话]C4.09-10.0630.37%----[11]第十一话C3.55-8.9429.77%----[22]第二十二话C4.1410.3533.67%----UnFlow-CSS [17]3.291.268.1023.27%----[28]第二十八话- -10.81-8.05---D-net [33]3.54-8.9826.01%----我们的（仅限流量）4.291.989.7032.77%5.2325.89%26.0665.08%我们的（流动+立体声）C2.641.457.47百分之二十八点五四4.70722.56%17.8356.29%我们的（不共享）C3.491.998.7834.56%5.3328.65%21.3862.61%我们的（全-1）C2.591.417.02127.34%4.25721.41%17.5754.78%我们的（满-2）C2.611.397.04427.73%4.22921.65%17.8955.74%我们的（全-3）C2.561.3887.134百分之二十七点一三4.30621.19%17.7954.09%图片深度图GT深度图流量图GT流量图图5.KITTI上的示例结果在每一行中，我们依次显示时间t时的左侧图像、预测的深度图、地面实况深度、流预测和地面实况流。网络对于这两项任务。我们在图5中显示了一些示例结果。5. 结论在本文中，我们建议使用一个单一的，原则性的网络进行立体匹配和流量估计。其优点在于，特征表示可以在两个任务中联合学习和共享，这两个任务都旨在预测空间和时间上的像素对应关系。给定一个立体视频，我们进一步加强相邻立体对之间的几何连接，其中2-warp1900通过引入一致性项，利用翘曲函数优化反射损失。实验结果表明，该框架有利于从两个任务的信息，从而提高了深度和流量估计的性能。鸣谢本项目得到 MOST-108-2636-E-009-001的支持，我们感谢Na-台湾高性能计算中心的计算机时间和设施，以及NVIDIA公司的支持，捐赠了用于本研究的Titan XpGPU。1901引用[1] J. - R. Chang和Y. S.尘金字塔立体匹配网络。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。2[2] D.艾根角Puhrsch和R.费格斯。使用多尺度深度网络从单个图像进行深度图预测。神经信息处理系统进展（NIPS），2014年。一、二、六、七[3] P. Fischer，A.两个人都是E.Ilg，P.Hausser，C.哈齐尔巴斯Golkov，P. van der Smagt，D. Cremers和T.布洛克斯Flownet ：使用卷积网络学习光流 IEEE InternationalConference on Computer Vision （ ICCV ）， 2015 年。一、二[4] D. Fleet和Y.韦斯光流估计计算机视觉数学模型手册，第237-257页。2006. 2[5] D. 福尔通山口Bouthemy和C.Kervrann 光流建模与计算综述。计算机视觉和图像理解（CVIU），2015年。2[6] D. Gadot和L.狼Patchbatch：光流的批量增强损失。IEEE计算机视觉和模式识别会议论文集（CVPR），2016。1[7] R.加格湾V.Kumar，G. Carneiro和我里德用于单视图深度估计的无监督cnn：几何学拯救了我们。欧洲计算机视觉会议，2016年。六、七[8] A. Geiger，P. Lenz，和R.盖革，等.乌塔松我们准备好了吗？Kitti Vision基准套件。在IEEE计算机视觉和模式识别会议（CVPR）上，2012年。二、六[9] C.戈达尔湖，澳-地Mac Aodha和G. J·布罗斯托具有左右一致性的无监督单目深度估计在IEEE计算机视觉和模式识别会议（CVPR）上，2017年。一、二、三、五、六、七[10] F. Guéne y和A. 盖格河深离散流。在2016年亚洲计算机视觉会议（ACCV）1[11] E. Ilg，N. Mayer，T. Saikia、M. Keuper，A. dosovitskiy和T.布洛克斯流动网络2.0：利用深度网络的光流估计的演进。在IEEE计算机视觉和模式识别会议（CVPR）上，2017年。一、二、七、八[12] J. Janai ，F.Guéney，A. Ranjan ，M.J. Black 和A.盖格河带遮挡的多帧光流的无监督学习。在欧洲计算机视觉会议（ECCV），卷计算机科学讲义，第11220卷，第713-731页。Springer，Cham，Sept. 2018. 二、三[13] L. Ladicky，J. Shi，and M.波勒菲斯把事情扯远。2014年IEEE计算机视觉和模式识别会议，第89-96页，2014年。1[14] F. Liu，C. Shen，G.林和我D.里德使用深度卷积神经场从单目图像学习深度 IEEE Transactions on PatternAnalysis and Machine Intelligence（TPAMI），2016年。一、二[15] W. Luo，中国茶条A.G. Schwing和R.乌塔松用于立体匹配的高效深度学习在IEEE Confer-计算机视觉和模式识别（CVPR），2016年。2[16] Y. Luo，J. Ren，M. Lin，J. Pang，W.孙，H. Li和L.是林书单视图立体匹配。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。2[17] S. Meister，J. Hur，and S.罗斯UnFlow：具有双向普查损失的光流的无监督学习。在AAAI人工智能会议（AAAI）上，2018年。一、二、四、七、八[18] M.门策角Heipke和A.盖革车辆与场景流的联合三维估计。ISPRS图像序列分析研讨会（ISA），2015年。2[19] A. Ranjan和M. J.布莱克。使用空间金字塔网络的光流估计。在IEEE计算机视觉和模式识别会议论文集，2017年。1[20] A. Ranjan，V. Jampani，K. Kim，D. Sun，J. Wulff，M. J.布莱克。竞争性协作：深度、摄像机运动、光流和运动分割的联合无监督学习。ArXiv：1805.09806，2018。1[21] Z. Ren，J. Yan，B. Ni，B. Liu，X. Yang和H.扎。用于光流估计的非监督深度学习。2017年AAAI人工智能会议（AAAI Conference on Artificial Intelligence，AAAI）2[22] D. 太阳，X.杨，M.Y. Liu和J.考茨PWC-Net：使用金字塔，扭曲和成本体积的光流CNN。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。七、八[23] N. Sundaram，T. Brox和K.库茨用gpu加速的大位移光流实现稠密点轨迹欧洲计算机视觉会议（ECCV），2010年。4[24] C. Wang，J. Miguel Zaposada，R. zhu和S.露西使用直接方法从单眼视频学习深度。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年6月。六、七[25] Y. Wang，Y.杨，Z.扬湖，澳-地Zhao，P. Wang，and W.徐光流的遮挡感知无监督学习。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。二、四、五[26] Y. Wang， Z. Yang，P. Wang，Y.杨角，澳-地Luo和W.徐通过观看立体视频进行光流和深度的联合无监督学习。2018. 5[27] Z. Yang，P. Wang，Y. Wang，W. Xu和R.奈瓦提亚每个像素都很重要：无监督几何学习与整体3D运动理解。ArXiv：1806.10556，2018. 一、三、六、七[28] Z. Yin和J.Shi. Geonet：对密集深度、光流和相机姿态进行无监督学习。在IEEE计算机视觉和模式识别会议，2018年。一、三、六、七、八[29] J. J. Yu，A. W. Harley和K. G.德尔帕尼斯回到基础：通过亮度恒定性和运动平滑性的光流无监督学习。在ECCV研讨会，2016年。21902[30] J. Zbontar和Y.乐存。通过训练卷积神经网络来比较图像块的立体匹配Jour- nal of Machine Learning Research（JMLR），2016. 2[31] C. Zhou， H. Zhang，X. Shen和J.贾立体匹配的无监督在IEEE国际计算机视觉会议（ICCV）上，2017年。一、二[32] T. Zhou，M.布朗，N。Snavely和D. G.洛来自视频的深度和自我运动的非监督学习。在IEEE计算机视觉和模式识别会议（CVPR）上，2017年。二三六七[33] Y. Zou，Z.Luo和J. -B. 煌Df-net：使用跨任务一致性的深度和流量的无监督欧洲计算机视觉会议（ECCV），2018年。一二三四七八

下载后可阅读完整内容，剩余1页未读，立即下载