基于视差、光流和场景流估计的遮挡、运动和深度边界的学习方法

117 浏览量更新于2023-10-13 收藏 1.79MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

利用用于视差、光流或场景流估计的通用网络的遮挡、运动和深度边界Eddy Ilg*，Tonmoy Saikia*，Margret Keuper，and Thomas Brox德国弗赖堡大学{ilg，saikia，keuper，brox}@ cs.uni-freiburg.de抽象。遮挡在视差和光流估计中起着重要作用，因为在遮挡区域中匹配成本不可用，并且遮挡指示深度或运动边界。此外，遮挡与运动分割和场景流估计相关。在本文中，我们提出了一个有效的学习为基础的方法来估计遮挡面积联合视差或光流。估计的遮挡和运动边界明显优于现有技术。此外，我们目前的网络与流行的KITTI基准和良好的通用性能的最先进的性能。利用估计的遮挡，我们也表现出改进的运动分割和场景流估计的结果。1介绍当将密集对应应用于更高级别的任务时，通常需要除了原始对应之外的附加信息。那个-在一个图像中被另一个图像遮挡的EAS对于获得由于缺失测量而导致的潜在不可靠估计的指示是重要的。一个典型的方法来估计闭塞地区是通过计算对应并且事后验证它们的一致性。然而，由于封闭和对应是相互依赖的[17，32]和存在由于遮挡已经对对应性估计本身产生负面影响，因此后处理是次优的并且导致不可靠的遮挡估计。视差图和流场中的另一个有价值的额外信息分别是显式深度和运动边界参考Black Jepson的经典工作&[4]，“运动边界可以用于导航、运动结构、视频压缩、感知组织和对象识别”。在本文中，我们将遮挡估计以及深度或运动边界估计与基于FlowNet 2.0 [18]的视差或光流估计的深度网络优雅地集成在一起，并将这些量显式地提供为同等贡献2E. Ilg，T.Saikia、M.Keuper和T.Brox输出.与许多先前的工作相比，这导致了更好的遮挡和边界估计以及更快的整体运行时间。我们量化这种改善直接通过测量的闭塞和运动边界的准确性。我们还量化了这种改进的准确性对运动分割的影响。此外，我们改进了来自[29，11，18]的视差和光流估计网络的实现中的一些细节，这为我们提供了KITTI基准测试的最新结果此外，如果我们不将它们微调到特定场景，则网络在各种数据集上显示出虽然这些是较小的技术贡献，但它们与光流和视差的应用最后，与国家的最先进的光流，视差和遮挡估计到位，我们把一切放在一起，以实现良好的场景流性能在高帧速率，只使用使用我们预测的遮挡作为输入，我们提出了一个网络，学习插值遮挡区域，以避免错误的或者在计算场景流的两个视差图之间的运动补偿差时丢失信息2相关工作使用CNN的光流估计。基于深度学习的光流估计由Dosovitsky等人开创。[11]，他提出了一种端到端可训练的编码器-解码器网络。Ilg等人改进了这项工作[18]，他引入了一堆精化网络。Ranjan和Black [34]专注于效率，并提出了一种基于粗到细原则的更小的网络。Sun等人。[42]通过在不同的金字塔水平上引入相关性来扩展这一想法。他们的网络称为PWC-Net，目前取得了最先进的成果。然而，从粗到细的方法具有众所周知的限制，即无法估计小的快速移动的对象的流量。虽然这对基准测试的平均误差没有太大影响，但小对象对于应用程序场景中的决策非常重要。使用CNN进行视差估计。对于视差估计，Zbontar et al.[52]是第一个提出Siamese CNN用于匹配补丁的人。使用传统SGM方法[14]的后处理产生视差图。用CNN增强SGM的其他方法由[28，38]提出。Mayer等人提出了第一个端到端学习框架[29]第10段。命名为DispNetC的网络源自Dosovitskiy等人的FlowNetC。[11]局限于校正的立体图像。它包括产生成本量的相关层，该成本量由网络进一步处理Kendall等人[21]提出了GC-Net，它使用3D卷积来处理成本体积，也沿着视差维度并通过使用可微分的softargmin操作。Pang等人。[31]通过在顶部堆叠细化网络来扩展DispNetC，类似于FlowNet 2.0 [18]，不同之处在于第二个网络是在残差设置中提出在这项工作中，我们还使用了多达三个网络的网络堆栈，并使用其剩余的细化。遮挡、运动和深度边界3遮挡估计。遮挡和光流估计相互依赖，因此是典型的鸡和蛋问题[17，32]。Humayun等人[16]通过在当前和预计算输出的数据流的B_r_load_p_r_u_m上训练分类器来事后确定遮挡。 P'erez-Ru'aetal。[32]不需要密集的光流场，但需要运动候选项，如果“p l au s i b l e r ec on st r u c t i on”，则使用运动候选项。许多方法尝试联合地估计光流和遮挡。Leordeanu等人[27]基于包括当前运动估计的各种特征来训练分类器，并在流的能量最小化期间重复使用它。Sun等人。[41]利用超像素和局部分层用于能量公式，该能量公式针对层、光流和遮挡进行了联合优化Hur等人的最新工作。由于遮挡与深度变化直接相关[12]，因此在视差估计方法中明确考虑它们是非常常见的[12，19，9，44]。在本文中，我们表明，训练一个网络的遮挡估计显然是有益的，特别是如果经过训练的网络与视差或光流估计的网络配方相结合。我们并不试图解决鸡和蛋的问题，而是使用联合训练过程来解决这个问题。深度和运动边界估计。在许多能量最小化方法中，深度或运动边界估计以对平滑度约束中的离群值的鲁棒性的形式被隐含地包括。通常，这些边界并不明确。一个例外是Black Fleet [4]，他们估计平移运动和运动边界。运动边界在分层运动分割方法中也是显式的大多数这些假设一个预先计算的光流，只有少数估计分割和流量联合[40，8]。Leordeanu等人[26]介绍了一种用于也覆盖运动边界的边界检测器的组合优化的方法，而大多数其他方法利用外部图像边界检测器[1，10]。Sundberg等人[43]使用gPb [1]和LDOF [6]来计算与图像边界相邻的区域之间的运动差异Weinzaepfel等人[49]使用在外观和动作线索上训练的结构化随机森林。Lei等人。[25]提出了一个完全卷积的Siamese网络，该网络在注释的视频分割上进行训练仅使用视频分割地面实况进行训练，它们能够在推理期间推断边界点的运动。对于视差和深度边界，问题非常类似，并且上述方法中的大多数也可以应用于视差。Jia等人。[20]使用条件随机场从颜色和深度图像推断深度边界。在本文中，我们还获得了深度和运动边界的联合训练过程，并通过联合细化闭塞和视差或流。场景流估计。场景流估计是由Vedula等人的工作首次推广。[45]后来被变分方法[15][33][47]所主导。Vogel et al.[46]将场景流估计的任务与使用分段刚性模型进行正则化的超像素分割相结合。4E. Ilg，T.Saikia、M.Keuper和T.BroxSchuster等人[37]提出了一种变分方法来从稀疏匹配中插值稀疏场景流估计。Behl等人。[3]提出了一种3D场景流方法，该方法利用实例识别和3D几何信息，以在无纹理、反射和快速移动区域中获得改进的性能在本文中，我们研究的场景流估计的基础上估计对应性，只有，没有使用的三维几何信息。Mayer等人提出了在类似环境中唯一基于学习的方法[29]但是没有表现得同样好。3网络架构我们研究了使用CNN以及视差和光流来估计遮挡和深度或运动边界。为此，我们建立在来自FlowNet [11]的卷积编码器-解码器架构和来自FlowNet 2.0 [18]的堆栈上。我们的修改如图1（a）所示。为了简单起见，在下文中，我们提及流动情况。视差情况是类似的。在我们的[18]版本中，我们去掉了小位移网络。事实上，我们重新实现的版本的实验表明，堆栈可以在没有它的情况下在小位移上表现良好我们仍然保留前一个融合网络，因为它还执行平滑和锐化（见图1（a））。我们用网络名称中的字母“R”来表示这个网络（例如，FlowNet-CSSR）。该网络仅用于细化，并且看不到第二图像。我们进一步修改堆栈整合庞等人的建议。[31]并将残差连接添加到细化网络。与[18]一样，我们也输入扭曲的图像，但忽略亮度误差输入，因为这些可以很容易地由网络计算。最后，我们添加遮挡和深度或运动边界。虽然遮挡对于从一开始的细化是重要的，但是边界仅在稍后的细化阶段中需要。因此，我们在第三个网络中添加边界。在实验中，我们还发现，当在早期的网络中添加深度或运动边界预测时，这些网络可以更好地预测细节，但在错误的情况下会更严格地失败。早期预测精确的边界将与细化流水线的概念相反。通常，在遮挡区域中，从第一图像到第二图像的前向流如果前向流被正确地内插到遮挡区域中，则它类似于背景对象的流。由于该对象在第二图像中不可见，因此目标位置的反向流来自另一对象，并且正向流和反向流不一致。许多经典方法使用该事实来确定遮挡。我们将其引入图1（b）的网络架构在这个版本中，我们让网络联合估计前向和反向流以及遮挡因此，我们修改FlowNetC以包括第二相关性，该第二相关性从第二图像获取特征向量并计算与第一图像中的我们将输出连接起来，并添加第二个遮挡、运动和深度边界5前进发生率前向流Bwd流量前进发生率Bwd发生率前向流Bwd流量Bwd发生率流量L发生率LImgLt=0Disp t=0ImgRt=0Occ.t=0Img L t=1(a) FlowNet2的扩展，有闭塞和残余连接。+. . .+(b) 用于前向/后向流和遮挡的联合估计的架构。符号说明见图标题。. . .. . .(c) 具有相互扭曲的双重前向和后向估计架构。符号解释见图说明.(d) 将FlowNet-CSS和DispNet-CSS扩展到全场景流网络。图1.一、流、遮挡和运动边界的可能细化堆栈概述。剩余连接仅在第一个图中示出，并且在别处由+指示。Aux. 是指图像加上分别用于每个输入流的变形图像。视差情况的架构是类似的。跳过第二个映像的连接。该设置在图1（b）中显示为FlowNetC-Bi。然后，在整个堆栈中，我们估计向前和向后方向的流量和遮挡。图像0跃迁图像1图像0跃迁图像1图像0跃迁图像1流发生+FlowNetCFlowNetS流发生FlowNetS++错误Mag.+流发生率+ 流Ref+发生率+Bnd.图像1图像0FlowNetC-BiFlowNetSBwd发生率Bwd流量前进发生率前向流Aux.图像1图像0Aux.图像0FlowNetC前向流量前向发生+前向流FlowNetS+前进发生率图像1前向流翘曲Bwd流量图像0Bwd发生率FlowNetCBwdFlow+Bwd发生率FlowNetS+Bwd流量图像1Aux.相关性相关性相关性相关性前向流+前进发生率+Bwd流量Bwd发生率6E. Ilg，T.Saikia、M.Keuper和T.Brox在图1（c）的第三个变体中，我们将前向和后向流估计建模为单独的流，并在每个网络之后执行到另一个方向的相互扭曲。例如，在一个示例中，我们使用前向流将第一网络之后的估计后向流扭曲到第一图像的坐标随后，我们翻转弯曲流的符号，有效地将其转变为向前流。然后，网络在与输入相同的像素位置处具有前向流和对应的后向流最后，我们使用我们的网络的流量和差距，以建立一个场景流扩展。对于场景流任务，需要t= 0处的视差，并且通过视差变化[29]（类似于第三坐标中的变化）扩展流。为了计算该视差变化，可以估计t= 1处的视差，将它们扭曲到t= 0并计算差值。然而，在存在遮挡的地方，扭曲将是不正确的或未定义的因此，我们添加了图1（d）中所示的网络，以在给定扭曲视差、遮挡和图像的情况下为这些区域学习有意义的插值。4实验4.1训练数据为了训练我们的流网络，我们使用FlyingChairs [11]，FlyingThings3D[29]和ChairsSDHom [18]数据集。为了训练视差网络，我们只使用FlyingThings3D [29]数据集。这些数据集不提供我们的设置本身所需的对于FlyingChairs，使用[11]的作者提供的代码，我们重新创建了整个数据集，包括反向流，运动边界和遮挡。对于FlyingThings3D，直接提供深度和运动边界。我们使用流和对象ID来确定遮挡。对于ChairsSDHom，我们通过使用0的流幅度差阈值来找到对象ID之间和流中的不连续性来计算运动边界。75. 为了确定地面实况遮挡，我们还使用流和对象ID。4.2培训计划和设置为了训练我们的网络，我们还遵循FlowNet 2.0的数据和学习率计划[18]。我们一个网络一个网络地训练堆栈网络，总是修复已经训练好的网络。与[18]相反，对于每一步，我们只使用一半的迭代次数。最初的网络有点糟糕，但事实证明，改进可以很好地补偿它我们还发现，残差网络收敛得更快。因此，我们在FlyingChairs上对堆栈上的每个新网络进行600k次迭代，并在FlyingThings3D上进行250k次迭代。可选地，我们遵循与[18]中相同的用于在ChalrsSDHom上的小位移的微调过程（将d”-ft-s d”添加到在该空间中的两个k_nam）。我们使用caffe框架和与[18]相同的设置，只有一个小修改：我们发现数值缩放地面实况流矢量遮挡、运动和深度边界720表1. 训练FlowNetS以从不同输入估计遮挡区域。由于Sintel [7]没有提供地面实况反向流，我们还报告了FlyingThings3D [29]上的数字。结果表明，与文献[32]相反27，16]，遮挡估计甚至可以仅从两个图像进行。提供光流也明显改善了结果输入F-measure[29]第二十九话Sintel clean [7]图像0+10的情况。7900的情况。545图像0+1，GT前向流0的情况。9320.653图像0+1，GT前向流，GT反向流0的情况。930-图像0+1，GT正向流，GT反向流扭曲+翻转0.943-图像0+1，GT正向流，GT正向/反向一致性0.943-（通过因子1）在优化期间对于小位移产生噪声。我们建议将该系数改为1。由于这些都是微小的修改，我们在补充材料中提供了详细信息。为了训练流动和差异，我们使用正常的EPE损失。对于小位移训练，我们也应用[18]建议的非线性。为了训练遮挡和深度或运动边界，我们使用正常的交叉熵损失，将类别0和1应用于每个像素。为了组合不同类型的多个损失，我们在训练开始期间平衡它们的系数，使得它们的幅度近似相等。4.3使用CNN估计遮挡我们首先运行了一些基本的实验，估计闭塞与FlowNetS架构和所描述的地面实况数据。在过去，遮挡估计与光流估计紧密结合，并且在文献中被认为是“无差异的”[ 27]和无差异的方案[17，32]。然而，在我们开始对遮挡和视差或光流进行联合估计之前，我们从独立于光流估计遮挡的网络开始，或者从提供光流作为输入的网络开始。在最基本的情况下，我们仅向网络提供两个输入图像，而没有光流，即，该网络必须自己弄清楚如何使用两个图像之间的关系来检测遮挡区域。作为下一步，我们还向网络提供地面实况前向光流，以查看网络是否能够使用流信息来找到遮挡区域。由于检测遮挡的经典方式是通过检查第3节中提到的前向流和后向流之间的一致性，因此我们提供了后向流的不同版本直接反向流动;2.）使用前向流将后向流扭曲到第一图像并翻转其符号（有效地将后向流转变为前向流直到遮挡区域）; 3.）第三章提供前向流和后向流之和的大小，即，检测遮挡的经典方法从表1中的这些实验的结果，我们得出结论：8E. Ilg，T.Saikia、M.Keuper和T.Brox表2. 使用来自Sintel train clean的FlowNetC联合估计流量和闭塞。估计阻塞既不改善也不降低流动性能配置EPE F-measureFlowNetC估算流量3 .第三章。21-FlowNetC估计遮挡-0的情况。546FlowNetC估计血流+闭塞3 .第三章。200的情况。539FlowNetC-Bi估计正向/反向流量和正向堵塞3 .第三章。260的情况。542没有光流的遮挡估计是可能的。与现有文献相比，其中分类器总是使用流量输入[32，27，16，26]进行训练，或者遮挡与光流[41，17]联合估计，我们表明深度网络可以学习直接从两个图像中估计遮挡使用流作为输入会有所帮助。该流程提供了对应关系的解决方案，并且网络使用这些对应关系。显然，这是有帮助的，特别是因为我们提供了正确的光流。添加反向流略微改善了结果。直接提供反向流没有帮助。这是可以预期的，因为反向流的像素的信息存储在正向流的目标位置处，并且网络难以执行查找扭曲反向流或提供前向/后向一致性会有所帮助。4.4遮挡和光流的联合估计在一个单一的网络。在本节中，我们研究了与光流联合估计遮挡，正如许多经典方法尝试做的那样[41，17]。在这里，我们只提供图像对，因此可以使用FlowNetC而不是FlowNetS。表2的第一行示出了仅使用FlowNetC的遮挡估计执行类似于上一节的FlowNetS。令人惊讶的是，从表2的第一行到第三行，我们发现关节流量估计既没有改善也没有证明流量或遮挡质量。在表的第四行中，然而，我们发现这也不会对性能产生太大影响。当找到对应关系时，需要通过判定对于被遮挡像素不存在对应关系并且通过用从周围环境推断的某个值填充遮挡区域因此，关于遮挡的知识由于在我们的网络中显式进行遮挡估计不会改变结果，因此我们得出结论，仅针对流量的端到端训练网络已经隐式地执行了所有必要的遮挡推理。通过使其显式化，我们可以免费获得遮挡作为额外的输出，但流本身不受影响。遮挡、运动和深度边界9表3.Sintel列车上的优化堆栈结果干净。简单地以直接的方式添加遮挡执行得更好或类似于更复杂的方法。通常，添加遮挡的性能并不比仅估计流量的性能好配置EPE F-measure仅限FlowNet 2-CS中的流量[18]二、28-+ 闭塞（图1（a））二、250的情况。590+ bwd方向（图1（b））二、770的情况。572+ 相互翘曲（图1（c））二、250的情况。589表4. 来自我们的DispNet-CSS的估计视差遮挡与来自Middlebury 2001和2003数据集的示例的其他方法的比较（ Kol- mogorov 等人的结果）。 [24] Tan etal.[44][45][46][47][48][49] 只有在场景中的泰迪米德尔伯里我们的闭塞优于Kolmogorov等人。[24日]方法F-measure锥泰迪筑波金星新特尔清洁辛特尔决赛Kolmogorov等人[24日]Tan等人[第四十四届]0的情况。450的情况。440的情况。630的情况。400的情况。600的情况。500的情况。410的情况。33----我们0的情况。910的情况。570的情况。680的情况。440的情况。760的情况。724.5有了细化网络在最后一节中，我们研究了流量和遮挡的联合估计，这在文献中被称为“鸡和蛋”的问题。在我们的第一个网络已经估计了流量和遮挡的情况下，我们调查估计是否可以预测流量（“if a chic k e n cancom e froman egg”）。为此，我们研究了第2节中提出的三种架构我们在表3中示出了三种变体的结果。虽然来自图1（a）和图1（c）的架构对于附加遮挡输入是无关紧要的，但是具有联合前向和后向估计的架构执行得更差。总体而言，我们发现，提供明确的遮挡估计的细化没有帮助相比，估计只是光流。这意味着，被遮挡区域已经被基础网络正确地填充，或者在没有显式遮挡估计的堆栈中，第二网络可以容易地从流中恢复遮挡并且不需要显式输入。我们最终得出结论，可以在没有额外成本的情况下获得遮挡，但实际上不会影响流量估计，并且最好通过仅使用基线变体来将内部工作留给优化（图1（a））。这与经典方法的结果相反。4.6将遮挡估计与其他方法进行在表4和表5中，我们将我们的遮挡估计与其他方法进行了比较。对于视差，我们的方法优于Kolmogorov等人。[24]除了一个场景。对于更困难的情况下的光流，我们优于所有现有的方法10E. Ilg，T.Saikia、M.Keuper和T.Brox表5. 在Sintel训练数据集上比较FlowNet-CSSR-ft-sd的遮挡与其他遮挡估计方法。对于第一个条目，使用前向/后向一致性事后计算闭塞。所提出的方法产生更好的闭塞方法类型F-measure清洁最终[18]第十八话一致性0的情况。3770的情况。348[17]第十七话估计0的情况。3900的情况。348S2DFlow [27]估计0的情况。4700的情况。403我们估计0的情况。7030的情况。654远了这表明，使用CNN比使用经典方法更容易处理遮挡估计的鸡和蛋问题[44，24，17，27]，并且CNN可以在遮挡推理方面表现得非常好。图2的定性结果虽然一致性检查能够主要捕获大的遮挡区域，但S2DFlow [27]也设法找到一些细节。MirrorFlow [17]在许多情况下会遗漏细节。另一方面，我们的CNN能够估计大部分的细节。图二. 闭塞的定性结果。与其他方法和前后向一致性检查相比，我们的方法能够捕获非常精细的细节。图片0图像1图片0图像1图片0图像1发生率GT我们发生率GT我们发生率GT我们S2DFlow [27][17]第十七话S2DFlow [27][17]第十七话S2DFlow [27][17]第十七话一致性一致性一致性遮挡、运动和深度边界11表6. 我们的运动边界估计Weinzaepfel等人的比较。[49]在Sintel训练数据集上。下表显示了使用其评估代码计算的平均精度。Weinzaepfel et al.[49]在Sintel列车上训练过，我们的方法比他们的方法好很多方法新特尔清洁辛特尔决赛Weinzaepfel等人[49个]76.368.5我们86岁。379岁。54.7运动边界估计对于运动边界估计，我们比较Weinzaepfel等人。[49]这是我们所知道的最好的方法。它使用随机森林分类器，并在Sintel数据集上进行训练。虽然我们没有在Sintel上训练，但从表6的结果来看，我们的CNN优于他们的方法，很大的差距。从图3的定性结果中也可以很好地看到质量的提高。(a) 图0（b）边界地面实况(c)Weinzaepfel等人[49个](d)流地面实况（e）我们的（硬）（f）我们的（软）图三. Sintel列车上的运动边界干净。我们的方法成功地检测到在背景中的对象，并有更少的噪声周围的运动边缘比现有的approaches（见绿色箭头）。Weinzaepfel等人在背景中检测一些正确的运动细节然而，这些细节没有在地面实况中捕获。4.8应用于运动分割我们应用估计的遮挡的运动分割框架从Keuper等人。[22]第20段。这种方法与[5]一样，基于光流计算长期点为了决定轨迹何时结束，该方法依赖于可靠的遮挡估计。这些通常使用前向流和后向流的事后一致性来计算，这在第4.6节中表现不佳。我们用遮挡代替遮挡估计12E. Ilg，T.Saikia、M.Keuper和T.Brox表7. Keuper等人的运动分割结果。[22]在FBMS-59测试集[5，30]上（采样密度为8px）。第四行使用来自FlowNet2 [18]的流与我们的闭塞相结合。改进后的结果表明，遮挡有助于运动分割的一般。最后一行显示了使用我们的流和遮挡的分割，其表现最好，并且还改进了使用高阶运动模型的稀疏运动分割的最新技术水平[23]方法FBMS测试集（30个序列）精确召回F-测量对象数[23]第二十三话87.77%71.96%79.08%29/69DeepFlow [48]88.20%69.39%77.67%26/69FlowNet286.73%68.77%76.71%26/69FlowNet2 +我们的业务85.67%百分之七十点一五77.14%30/69我们88.71% 73.60%80.45%31/69我们的FlowNet-CSS。表7示出了在常见的FBMS-59运动分割基准上通过更可靠的遮挡估计在第四行中，我们展示了如何将我们的遮挡添加到FlowNet2的流量估计中可以改善结果。这表明，通过仅添加遮挡，我们恢复了30个对象而不是26个。我们的流和遮挡的最后一个结果进一步改进了结果。除了上一节中的直接定量和定性评估外，这还显示了我们的遮挡估计在相关应用中的有用性我们的最终结果可以产生甚至比最近提出的具有多切的三阶运动分割所产生的结果更好的结果[23]。4.9视差、光流和场景流最后，我们表明，除了估计的遮挡和深度和运动边界，我们的差距和光流达到最先进的性能。在表8中，我们示出了常见视差基准的结果我们还通过将每层中的通道数量缩减到37个来呈现我们的网络的较小版本。5%，如[18]中所建议的（由CSS表示）。虽然这个小版本产生了良好的速度/精度权衡，但较大的网络在KITTI 2015上排名第二，并且是KITTI 2012和Sintel上排名最高的方法在表9中，我们示出了光流的基准结果我们在Sintel上执行相同的操作，同时我们在两个KITTI数据集上设置了新的最新技术在表10中，我们报告了KITTI 2015场景流基准的数字。基本场景流方法使用前向流将下一帧视差图扭曲到当前帧中（参见[36]）不能以这种方式估计帧外被遮挡像素为了缓解这个问题，我们训练了一个CNN来推理遮挡区域中的差异（参见图1（d）的架构这产生了明显改善的结果，接近最先进的，而该方法是数量级更快。遮挡、运动和深度边界13表8. 差异估计的基准结果。我们报告Sintel的平均终点误差（AAE）。在KITTI上，Out-noc和D1-all分别用于KITTI 2012年和2015年的基准排名。Out-noc显示非遮挡区域中误差大于3 px的离群值的百分比，而D1-all显示所有区域中的百分比。括号中的条目表示在评估的数据集上进行了微调的方法。我们用“-ft”表示的网络在相应的训练数据集上进行了微调。我们在Sintel和KITTI 2015上获得了最先进的结果。此外，我们的网络可以很好地跨域推广，如非微调网络的良好数量以及在KITTI上微调并在Sintel上测试的网络的性能下降减少所示方法Sintel（清洁）AEE火车吉蒂吉蒂（2012年）（2015年）AEE Out-noc AEE D1-全部列车试验运行时（s）标准SGM [14]19号。6210个。06 -7 2110百分之八十六1 .一、1基于CNNDispNetC [29]五、661 .一、75 比1 五十九-0的情况。06DispNetC-ft [29]21岁881 .一、484. 百分之十一（0。4. 百分之三十四0的情况。06[31]第三十一话十六岁131 .一、11 -（0. 2. 百分之六十七0的情况。47GC-Net [21]--一个77% -2。百分之八十七0的情况。90MC-CNN-acrt [52]--两个43% -3. 百分之八十九67DRR [13]--三。百分之十六0的情况。4L-ResMatch [39]--两个27% -3。百分之四十二42联合OCC。est.SPS立体声[51]--三个39% -5. 百分之三十一2我们的DispNet-CSS二、331 .一、40比1 37-0的情况。07我们的DispNet-CSS-ft五、53（0。72） 1 .一、百分之八十二（0。71）2. 19%0的情况。07DispNet-css二、951 .一、53 比1 四十九岁0的情况。035结论我们已经证明，与传统方法相比，CNN可以非常容易地估计遮挡和深度或运动边界，并且它们的性能远远超过传统方法。虽然经典方法通常使用反向流来确定遮挡，但我们已经证明，在CNN的情况下，前向FlowNet 2.0堆栈的简单扩展表现最佳。我们还表明，这种通用的网络架构上的差异和流量估计本身的任务，并产生国家的最先进的结果基准最后，我们已经表明，估计闭塞可以显着提高运动分割。14E. Ilg，T.Saikia、M.Keuper和T.Brox表9. 光流估计的基准结果。我们报告了所有基准的平均终点误差（AAE），除了KITTI，其中Out-noc和F1-all分别用于KITTI 2012和2015的基准排名。Out-noc显示非遮挡区域中误差大于3 px的离群值的百分比，而F1-all显示所有区域中的百分比。括号中的条目表示在评估的数据集上进行了微调的方法。在Sintel数据集上，我们的网络与FlowNet2不相上下。当与具有联合遮挡估计的其他方法相比时，我们快了多个数量级。在KITTI 2012和2015上，我们获得了所有光流方法中最先进的结果（两帧，非立体）方法Sintel（清洁）AEE列车试验Sintel（最终）AEE列车试验K（AEE火车ITTI2012年）OUT-NOC测试KITTI（2015年）AEE F1-所有列车测试运行时（s）标准EpicFlow [35]二、274.第一章123 .第三章。56六、293 .第三章。097 .第一次会议。百分之八十八9 .第九条。27二十六岁百分之二十九42流场CNN [2]-3 .第三章。78-五、36-4.第一章百分之八十九-十八岁百分之六十八23DCFlow [50]-3 .第三章。54-五、12---十四岁百分之八十六9基于CNN[18]第十八话二、023 .第三章。963 .第三章。14六、024.第一章09-10个。06-0的情况。123[18]第十八话（1.第四十五章）4.第一章16（2.01）五、74（1.28）-（2.第30页）11个国家。百分之四十八0的情况。123SpyNet [34]4.第一章12六、69五、578. 43 9 .第九条。12---0的情况。016SpyNet-ft [34]（3.十七、六、64（4.32）8. 36（4.十三、12个。百分之三十一-三十五07%0的情况。016PWC-Net [42]二、55-3 .第三章。93-4.第一章14-10个。35三十三岁。百分之六十七0的情况。030PWC-Net-ft [42]（2.02）4.第一章39（2.08）五、04-4.第一章百分之二十二（2.第十六章）9 .第九条。百分之八十0的情况。030与联合occ est。[17]第十七话-3 .第三章。32-六、07-4.第一章百分之三十八-10个。百分之二十九660S2D流[27]-十八岁48-六、82----2280我们的FlowNet-CSS二、083 .第三章。943 .第三章。61六、033 .第三章。69-9 .第九条。33-0的情况。068我们的FlowNet-CSS-ft （1.47）4.第一章35（2.12）五、67（1.第十九章3 .第三章。百分之四十五（1.第七十九章）8. 百分之六十0的情况。068我们的FlowNet-css二、65-4.第一章05-五、05-11个国0的情况。遮挡、运动和深度边界15家。74033表10. 场景流估计的基准结果。“实习生。”意味着在稀疏区域中由KITTI基准套件自动内插的dispar- ity值。与[37]相比，我们获得了更好的结果，并缩小了与速度慢得多的最先进方法（如[3]）的性能差距，这些方法大量使用2D信息方法D1-所有D2-全部Fl-all SF-all 运行时间ISF [3]4.第一章46五、95 六、228. 08600SGM+流场（内部）[36个]十三岁37二十七岁80二十二岁82三十三岁。5729SceneFields（密集）[37]六、57 10个。6912个。88十五岁7865我们的（实习）二、16 十三岁718. 60 十七岁730的情况。22我们的（密集）二、16 六、45 8. 60 11个国家。340的情况。25确认我们感谢欧盟Horizon2020项目TrimBot2020和Gala Sports的资助，以及Facebook捐赠的GPU服务器。Margret Keuper承认DFG赠款KE 2264/1-1的资助。16E. Ilg，T.Saikia、M.Keuper和T.Brox引用1. Arbelaez，P.，Maire，M.，福克斯角Malik，J.：轮廓检测与分层图像分割。PAMI33（5）（2011年5月）2. 贝勒角Varanasi，K.斯特里克，D.：基于cnn的阈值铰链嵌入损失光流匹配算法。CVPR（2017）3. Behl，A. ，Jafari，O.H.，Mustikovela，S.K.，Alhaija，H.A.，Rother，C.，Geiger，A.：边界框、分割和对象坐标：在自动驾驶场景中，识别3D场景流估计有多重要？国际计算机视觉会议（ICCV）（2017）4. 布莱克，MJ Fleet，D.J.：运动边界的概率检测和跟踪。International Journal ofComputer Vision38（3），2315. 布洛克斯T.，马利克J.：对象分割通过长term分析的点轨迹。见：ECCV（2010），http://lmb.informatik.uni-freiburg.de//Publications/2010/Bro10c6. Brox，T.，Malik，J.：大位移光流：变化运动估计中的描述符匹配。PAMI33（3），5007. 巴特勒DJ Wulff，J.，Stanley，G.B.，布莱克，M.J.：一个用于光流评估的自然主义开源电影。欧洲计算机视觉会议（ECCV）（2012）8. 郑杰，蔡永宏，王，S.，Yang，M.H.：Segflow：视频对象分割和光流的联合学习（2017）9. 邓，Y.，Yang，Q.，林，X.，唐X：基于对称块的图形切割模型中的立体对应与遮挡处理（2007）10. 做吧，P Zitnic k，C. L. ：针对固定数据集的结构图（2013）11. 做得很好A Fische r，P.， I Ig，E.，Hsse r，P.， Hazırbas，C.， Golkov，V.，v. D. Smagt，P.，Cremers，D. Brox，T.：Flownet：使用卷积网络学习光流。在：IEEE国际计算机视觉会议（ICCV）（2015）12. Geiger，D.，Ladendorf，B.，Yuille，A.：遮挡和双目立体。IJCV（1995）13. Gidaris，S.，Komodakis，N.：检测、替换、改进：用于逐像素标记的深度结构化预测。IEEE计算机视觉与模式识别会议（CVPR）（2017）14. Hirschmülle r，H. ：通过简单的逻辑运算和多媒体信息来实现系统恢复。PAMI30（2），32815. Huguet，F.，Devernay，F.：从立体序列中估计场景流的变分方法。2007年IEEE第 11 届计算机视觉国际会议。 pp.1-7 （ 2007 年 10 月）。https://doi.org/10.1109/ICCV.2007.440900016. Humayun，A.，Aodha，O.M.，Brostow，G.J.：学习查找遮挡区域。IEEE计算机视觉和模式识别会议（CVPR）（2011）17. Hur，J.，Roth，S.：Mirrorflow：Exploiting symmetries in joint optical flow andocclusion estimation（2017）18. Ilg，E.，Mayer，N. Saikia，T.，Keuper，M.，Dosovitskiy，A.，Brox，T.：流动网络2.0：利用深度网络的光流估计的演进。IEEE计算机视觉与模式识别会议（CVPR）（2017）19. Ishikawa，H.，Geiger，D.：使用嵌入图的全局优化（2000）20. Jia，Z.Gallagher，A.陈T：《用颜色和深度学习边界》（2013）21. Kendall，A.，Martirosyan，H.，Dasgupta，S.，Henry，P.肯尼迪河

下载后可阅读完整内容，剩余1页未读，立即下载