统一的无监督光流场和立体声深度估计

34 浏览量更新于2023-10-19 收藏 1.24MB PDF 举报

CNN卷积神经网络

几何一致性

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8071t→st→st→sUnOS：统一的无监督光流场和立体声深度估计王阳1王鹏1杨振恒2罗晨旭3杨毅1徐伟11百度研究2南加州大学3约翰霍普金斯大学{wangyang59，wangpeng54，yangyi05，wei.xu}@ baidu.comzhenheny@usc.educhenxuluo@jhu.edu摘要在本文中，我们提出了UnOS，这是一种使用卷积神经网络（CNN）进行无监督光流和立体深度估计的统一系统，它利用了基于刚性场景假设的固有几何一致性UnOS显著优于其他独立处理这两项任务的最先进（SOTA）无监督方法具体而言，给定来自视频的两个连续立体图像对，UnOS用三个并行CNN估计每像素立体深度图像、相机自运动和光流。基于这些量，UnOS计算刚性光流并将其与从FlowNet估计的光流进行然后，我们鼓励几何一致性之间的两个估计流的刚性区域内，从我们得到一个刚性感知的直接视觉里程（RDVO）模块。我们还提出了刚性和闭塞意识流一致性损失的学习UnOS。我们在流行的KITTI数据集上评估了4个相关任务的结果，即。立体深度、光流、视觉里程计和运动分割。1. 介绍估计立体深度[23]和光流[19]是计算机视觉中的两个基本问题。共同考虑这两者提供了密集的3D场景流[34]，这使得许多应用成为可能，例如自动驾驶[34]，机器人导航[7，12]和视频分析[42，25]。目前最先进的（SOTA）策略，这两个任务依赖于CNN与监督学习的进步，例如。图1. UnOS与其他无监督方法的比较。(a)左图像，（b）来自[33]的光流，（d）UnOS光流，（c）来自[14]的立体深度，（e）UnOS立体。可以看出，对于光流和立体深度，UnOS生成的结果更加规则化，并且具有更清晰的边界，如缩放区域中所示的场景结构（最佳颜色视图立体声对或视频。这些方法极大地提高了学习模型的泛化能力。然而，在这些作品中，这两个任务大多在其流水线中独立处理，尽管在传统方法中将这两个任务作为3D场景流方面的整体考虑是非常有用的[43，35，41]。本文通过提出两个任务的联合学习来完成这一缺失的无监督学习，这在训练期间探索了它们的几何关系，并提高了双方的性能，如图所示1.一、我们在图中提供了我们的系统的概述。2.在训练过程中，给定两个连续的立体图像对，即。（Lt，Rt）和（Ls，Rs），UnOS联合输出立体声深度估计。分别从StereoNet、MotionNet和FlowNet中获得了运动（Dt）、摄像机自运动（Tt→s）和光流（Ft→s然后，刚性感知直接视觉里程计（RDVO）模块在MotionNet之后应用，它细化和PSMNet [5]和PWCNet [40]，它们严重依赖于更新摄影机运动（Tu）. 接下来，我们使用Dt，训练数据的可用性[11，32]。然而，视频Tut→s 计算刚性流Fr表示运动在考虑开放世界问题时，lems [58]，因此在每个地方为这些任务收集密集的地面实况是不切实际的因此，最近在立体深度/匹配[57]、单目深度估计[60]和使用CNN的光流[38]的无监督学习方面已经做出了大量努力和进展，仅由摄像机引起，与Ft→s，得到一个刚性掩模M。除了每个网络的个别损失外，和Ft→s是鼓励的在刚性区域M内是一致的，产生更多的ro-这两个任务的bust估计。我们的贡献概述如下，8072图2.UnOS系统。给定两个连续的立体对，光流Ft→s，立体深度Dt，相机运动Tt→s从三个网络预测。潜在的刚性像素，然后发现，和刚性感知的直接视觉里程计（RDVO）模块的设计，以改善相机的运动。所有的信息都发送到我们的全套损失LUnOS与刚性意识，闭塞（发生率.）感知和流深一致性（详见第4.1）。请注意，这里术语FlowNet是指用于估计光流的网络，我们在工作中使用了PWCNet [40]。1. 我们设计了一个统一的框架，用于无监督学习光流和立体深度，命名为2. 我们设计了一个刚性感知的直接视觉odomotry（RDVO）模块，仔细处理刚性区域使用光流匹配，产生更准确的相机运动估计。3. 我们在我们的训练模式中共同包括刚性和封闭性的属性，这对于学习CNN是有效的。UnOS比其他无监督立体深度和光流方法有显着改进。例如，在KITTI 2012基准测试中，UnOS将先前无监督方法的光流对于立体深度，它也优于将立体视频作为输入的SOTA方法[57]。 Unos还实现了更好的- 与[52]相比，无监督移动对象分割的ter性能。我们的方法的代码和模型可以在https://github.com/ baidu-research/UnDepthflow上找到。2. 相关工作立体匹配和光流估计一直是计算机视觉领域的重要问题。在这里，我们总结了由于空间限制而使用深度CNN的密切相关的工作。我们建议读者阅读关于这两项任务的调查论文[9，16]以获得更广泛的理解。监督光流和立体深度。一般来说，这两个任务共享用于找到密集像素对应的相同方法，其中立体深度是更受约束的问题。因此，在这里，我们审查他们作为一个整体，因为光流方法可以很容易地扩展到立体匹配的限制内dispar- ity线的搜索。基于CNN，早期的作品[55，8，28，39，15]开始使用图像补丁作为输入的各种损失来学习立体匹配，这可能很耗时在训练和推理中。最近，像SPyNet [36]这样的作品被设计为通过在架构中使用图像扭曲来实现有效学习来寻找2D光流。PWCNet [40]建立了一个在局部区域内计算的3D成本体积。尽管匹配范围有限，但由于使用了从粗到精的方案，PWCNet实现了SOTA光流结果。为了充分利用立体深度的有限维度和匹配范围，研究人员建立了更具体的体系结构和损失。 GCNet [23]提出通过密集比较参考图像像素处的特征与目标图像处所有可能的匹配网络通过一个软argmin操作找到最佳匹配。PSMNet [5]采用金字塔空间池和沙漏网络来利用图像上下文。后来的工作[6]增加了一个后处理模块，产生了更好的恢复细节。这些网络结构为无监督学习方法的发展提供了坚实的基础。无监督光流为了减少对大量训练数据的要求，最近在[38]和[22]中引入了无监督光流学习，其基本思想是使用空间变换网络[20]来反推比较原始和变形目标图像的光度匹配误差。后来的作品[46，33]通过显式处理遮挡改进了他们的结果在我们的例子中，我们通过共同考虑立体深度引入几何正则化，这产生了进一步的改进。无监督单眼和立体深度。基于立体图像对的监督，首次提出了单目图像的无监督深度学习。具体来说，最近的作品[50，10]采用CNN将单个图像作为输入并预测其视差，其中超视来自光度比较。后来通过使用固有的几何正则化[14，29]对其进行了改进。Zhou等人。 [60]使用来自mo的结构将相机自我运动纳入训练管道8073不SStion（SfM）[48]，这使得从单目视频中进行深度学习成为可能。后来的作品通过规则化场景结构[53]，改进相机自我运动[45，30]以及联合使用立体和单目视频进行学习[26，13]来改进性能。在这里，我们的RDVO是由可微分直接视觉里程计（DDVO）[45]驱动的。然而，RDVO依赖于刚性区域内的估计光流来进行像素匹配，而不是在求解相对相机姿态由于单目深度估计的成功，研究人员将相应的损失扩展到立体深度估计问题[14，59]，其中相应的网络架构是从那些被证明对监督学习有效的网络架构（如GCNet [23]）中借用的这些方法显示出基于局部分块匹配和平滑的传统无监督立体算法的显著性能提升[18，4，27]。在我们的例子中，我们通过限制匹配空间来采用更轻量级的PWCNet进行立体深度估计。最近，Zhong等人也提出了利用视频进行无监督立体深度估计。[58]，其中RNN用于隐式聚合来自先前帧的因此，测试需要视频序列。在我们的例子中，我们在训练中显式地考虑了具有相机运动和光流的连续帧之间的深度变换，并且只需要一个立体对进行测试。深度和流量的联合无监督学习。从视频中共同了解深度和流量通常称为3D场景流量估计[43，44]，其中2D光学流量用3D场景结构和摄像机几何结构来解释。最近，使用立体视频进行场景流估计的传统方法依赖于自下而上的超像素分段平面匹配[34]或自上而下的识别[2，49]。 Taniai等人[41]通过联合加强立体深度、摄像机运动和光流之间的一致性，利用每像素场景流理解加速了这些算法。然而，在他们的系统中没有引入学习成分在无监督深度学习的范围内，研究了基于单目视频的联合深度和光流学习。GeoNet [54]使用残余FlowNet来完善从深度和自我运动到完整精度如第1，在我们的系统中包括立体声深度估计从根本上促进了这两个任务的学习。3. 自我监督学习为了使本文自成一体，我们首先介绍了无监督立体深度[14]，单目深度[60]和光流[38]估计的原理，它们具有类似的合成监督的基本思想。找到对应的像素。如在第二节介绍。1中，我们将连续的立体图像对（L t，R t）和（L s，R s）作为输入，其中L，R表示左图像和右图像恢复，t，s表示目标图像和源图像。该网络使用（Lt，Rt），a相对摄像机姿态Tt→s∈SE（3），以及使用（Lt，Ls）的光流图Ft→s。对于目标图像Lt中的每个像素pt，我们可以通过以下等式找到对应的源像素，p rs= π（K [Tt→sφ（pt|K，Dt）]），pfs=pt+Ft→s（pt），x=px−f·B/Dt（pt）（1）其中prs表示基于刚性场景假设和相机运动在Ls处找到的像素，pfs表示通过光流在Ls处找到的像素，并且pss表示通过立体视差在Rt处找到的像素（上标x指定水平分量）。这里，φ（p t|K，Dt）=Dt（pt）K−1h（pt）是映射a2D像素到3D点。h（pt）是齐次坐标，迪纳特角π（[x，y，d]）= [x/d，y/d]T返回2D非齐次坐标。K是摄像机固有质量，f、B是立体图像对的焦距和基线。使用视图合成进行监督。给定对应的像素对pt和ps，ps可以是等式中的r、f或s(1))，我们可以使用可微双线性插值从不同的源图像生成合成的目标图像 L_（？）lation [20]，并且可以通过最小化光度误差来训练系统。相应的损失函数项定义为，光流，但没有明确的几何一致性，ΣL（O）=V（p，O）|L（p）−L（p，O）|.（二）sidered，它并没有明确区分静态和移动区域。EPC [52]发现了刚性区域，tt不pttt鼓励深度和流量估计之间的一致性，但它没有进行联合学习。最近的工作[37]将光流和刚性流拼凑在一起，并进行迭代学习以进行改进。DF-net [61]还提出了刚性流和光流之间的一致性损失。然而，由于单眼深度的内在限制，他们[37，61]都没有在流动任务上表现出很大的其中，Vt（pt，0）是可见性掩模，指示给定特定信息0和源图像，pt是否可以找到有效的匹配像素O可以是深度Dt或光流Ft→s。在这里，可见性掩模V是通过如[46]中提出的反向光流的因此，采用不同的匹配对触发不同的无监督学习管道，例如，使用prs，pss或pfsp8074ott图3.这是我们刚性潜力的一个例子。(a)形象(b)流一致性图。(c)可见性遮罩Vf。(d)刚性潜力。(e)地面真实刚性面具。我们可以看到，流一致性错误地表示在闭塞区域中的刚性势。[14][15][16][17][18][19][1同时使用prs和pss会导致立体视频的深度视觉里程计[26]。边缘感知平滑的正则化。单独的像素颜色匹配是不稳定和模糊的。因此，边缘感知平滑项通常被应用于每个预测。具体地说，这将在我们未来的工作中考虑。从等式（1）由prs=pfs 可知，光流Ft→s、深度Dt和摄像机运动Tt→s是刚性区域内的三个共轭量。给定Dt和Ft→s，我们可以应用n点算法[17]使用SVD以封闭形式求解Tt→s，基于此，我们稍后提出刚性感知直接视觉里程计Σ ΣLs（O，W，o）=2W（pt）|O（pt）|e−β|L（p）|（三）（RDVO）用于姿态细化。它细化了从MotionNet获得的摄像机姿态考虑到摄像机的精确姿态ptd∈x，yTut→s，Dt（pt）和Ft→s，我们建议包括几何-其中O表示输入的类型，W是权重图，并且O是平滑度梯度的阶数。例如，Ls（Dt，1，2）是空间平滑度项，L1范数的二阶梯度的深度Dt沿所有图像上的x和y方向，如[14]所提出的。4. 统一光流和立体深度用于统一深度和流量的学习的一种可能的方法是在训练期间一起使用prs、pss和pfs的匹配像素然而，它可能不会很好地工作，正如在以前的工作中也提到的[26，30]，因为一个任务的错误可能会对另一个任务产生负面影响。这主要是因为有从t到s的移动，像素是-在我们的损失设计中保持一致性。这两个部件将在下面详细说明。4.1. 刚性感知直接视觉里程计（RDVO）在该模块中，给定估计的 Dt 、 Ft→s 和来自MotionNet的相机姿态Tt→s的初始估计，我们的目标是找到相对姿态Tt→s以细化姿态Tt→s。这是必要的，因为MotionNet本身缺乏几何-这也是在[45，30]中提到的。在这里，我们提出了一个更简单，更有效的解决方案，使用所发现的刚性潜力。具体地，基于来自Eq. (1)是，对那些区域的渴望使仅处理自我运动的一个刚性运动约束失效。，发现。minTt→sΣ斯普雷普斯-pfs 第2章（5）普雷斯将不同于通过光学流找到的像素。pt∈S这种系统误差会影响整个模型的学习。因此，成功地统一两个任务的学习的一个关键是找到满足刚性假设的具有高潜力的像素。定位具有软势的刚性区域。在这里，我们考虑使用软刚性区域掩模[60]，而不是使用[37]中的硬二进制刚性掩模，其中每个像素都有可能满足刚性假设。这将是在我们的RDVO模块和损失后有用。具体地，像素pt处的刚性势被计算为，1）A=|pfs− prs|（4）其中γ是超参数。在这里，我们首先检查pfs和prs之间的consistentcy，并将被1−Vf（pt）遮挡的区域视为刚性区域。例如，在图像边界或道路上被遮挡的被移动的汽车所包含的，应该被认为是刚性的。图3可视化了我们的软刚性遮罩的示例，其中使用两个标准发现了更完整的刚性区域一个可能的错误是相互遮挡8075通过在Eq. (1)产量，pfs− prs=pfs− π（K[πTt→sTt→sφ（pt|K，Dt）]）惠φ（pfs|K，Ds）− <$Tt→sTt→sφ（pt|K，Dt）=（pfs|Ds）K−1h（pfs）− Tt→sTt→sDtK−1h（pt）（6）这意味着我们将2D像素反向投影到3D点云以进行优化。这里，（pfs|Ds）是使用来自源图像的深度图D s返回浮点坐标pfs处的深度值的双线性插值运算。注意pfs不一定有离散值，因此需要插值。优惠是指2D到3D投影。现在，Eq。（5）是一个标准的L2最小化问题，可以很容易地使用SVD [3]解决。在实践中，计算姿态可以通过选择最可靠的匹配来更准确地进行。视觉里程计[1]而不是使用所有像素。因此，在Eq.（5）的选取有两个准则：（1）Vf（pt）> 0.75，因为只有没有遮挡的像素对于匹配是有效的(2)电位Rt（pt）在前25%以内。这里我们根据相应的验证集选择这些参数8076Rst→sRVRRst→sRsRV图4.左栏：左目标图像（Lt）。右栏：在RDVO模块中选择的区域（即，区域S描述在Eq. （5））在地面上覆盖绿色的真实移动对象灰色面具的源图像进行合成。具体而言，对于用立体声对进行的监督，Lt来自ps s，Vs使用k y计算。对于监控光流，L_f_t来自p_fs，基于使用后向光流来计算V_f，I.E. Fs→t[46]。对于连续图像的监督，I. e. Lt来自prs（在RDV O之前），Vr表示刚性以及非遮挡区域，其计算为Vr=Vf <$Mt。我们将不同的视图合成损失项分别表示为Lsv、Lfv、Lrv此外，如第二节所述。4.1，我们还得到了在RDVO之后，通过优化图4将S中的选定像素（绿色）可视化，持续min-摄像机运动Tu产生新的结构匹配亚胺化我们可以清楚地看到，选定的像素（绿色）损失，我们记为Lu而Vu是根据-与移动的物体分开（灰色）。在RDVO之后，我们获得更新的相机运动ingly。边缘感知局部平滑。我们采用类似的平滑-Tut→s =<$Tt→sTt→s，我们可以将其反馈给calcu-性损失函数，如公式中所示（三）、具体地说，较晚的刚性匹配，产生更好的刚性潜力（等式。（四））。我们可以将这个过程迭代直到收敛，并使用更新的pu来产生各种损失。在实践中，我们对每个样本进行了两次测试，发现它在实现SOTA结果方面已经足够好了。最后，基于我们的刚性势，我们可以生成具有阈值的刚性分割掩模，Mt=Rt（p t）> 0。第五条，第（七）项对于深度，我们遵循[14]并使用Lss=Ls（Dt，1，2），这惩罚了深度的二阶梯度对于光流，我们选择平滑移动区域，I.E. Lfs（Ft→s，1−Mt，2）.在RDVO之后给定更新的相机运动Tu一致性损失被公式化为，它区分静态背景和运动对象的区域，并将在以后用于训练Lfc（F，D，Tu）=ΣMt（pt）|p upt-pfs|（九）网络.4.2. 几何一致性学习在本节中，我们将讨论如何利用我们的损失和网络架构的一致性来有效地监督UnOS。4.2.1训练损失刚性和遮挡感知结构匹配。正如SEC中所讨论的那样。3、光度匹配方程(2)遵循基于像素颜色的朗伯假设，其对照明变化不鲁棒。为了捕获局部结构，在[14]之后，我们从SSIM [47]中添加结构匹配成本。具体来说，我们的像素匹配损失是，Σ其中Mt（pt）是在等式（1）中计算的刚性掩模。（七）、由于我们的RDVO是不可区分的，因此这种一致性损失仅监督FlowNet和StereoNet。左右一致性给定立体声对，戈达尔[14]表明，联合预测左图像和右图像的深度，并检查它们的一致性有助于深度学习。我们还包括我们的StereoNet的这种损失，表示为Lsc。总之，我们的损失函数为UnOS写为，LUnOS=（Lfv+λfsLfs）+λrv（Lrv+Lu）+（λsvLsv+λssLss+λscLsc）+λfcLfc（10）λ=[λfs，λrv，λsv，λss，λsc，λfc]是平衡不同损耗的r型参数集。Lv（O）=V（pt，O）·s（Lt（pt），Lt（pt，O）），pt4.2.2网络架构。其中，s（L（p），L<$（p））=（1−α）·|L（p）−L（p）|+如第二节所述。 2、SOTA立体声深度和光学1.数据流算法能够共享类似的架构，α·（1− SSIM（L（p），L（p）。（八）2这里，α是一个平衡超参数。与Eq相同（2），O表示我们需要监督的输出的类型，其可以是立体深度估计Dt或光流Ft→s。V表示可视性遮罩，取决于类型8077方法论在我们的工作中，由于联合多任务训练-因此，我们更喜欢更轻量级的架构，以便将所有内容都放入单个GPU中。因此，为了处理立体匹配，而不是使用更强但相对较重的网络，例如。GCNet [23]或PSMNet [5]，我们选择PWCNet[40]用于光流估计，8078t→s方法火车立体声测试立体声监督列车NocKITTI列车发生率2012培训所有测试所有列车移动KITTI 2015列车火车静态所有测试所有Flownet2C––4.09–––10.06–Flownet2+英尺C––（1.28）1.8––（2.3）11.48%PWC-NetC––4.14–––10.35–PWC-Net+ftC––（1.45）1.7––（2.16）9.60%UnFlow-CSS [33]1.26–3.29–––8.10–Geonet [54]––––––10.81–Ranjan等人[37]第三十七届––––6.356.167.76–Wang等人[46个]––3.554.2––8.8831.2%Janai等人[21日]––––––6.5922.94%D-net [61]––3.544.4––8.9825.70%UnOS（仅限FlowNet）1.1511.22.683.25.927.687.88百分之二十三点七五UnOS（自我运动）CC2.276.672.863.135.94.5311.943.86%UnOS（Ego+RDVO）CC1.464.881.932.136.52.9910.6932.34%UnOS（完整）C1.045.181.641.85.305.395.5818.00%表1.光流任务的定量评价。这里报告的数字都是平均终点误差（EPE），除了最后一列（KITTI 2015测试），它是错误像素的百分比（F1-全部）。如果流终点误差为3px或5%，则认为像素被正确估计。重量轻，性能好。不同的是，我们修改PWCNet [40]以利用对极几何约束，即。pss在等式中(1)只能沿着水平轴在pt的左侧找到。因此，我们将搜索范围限制在成本量中的水平线上，水平流的值为负值。MotionNet的结构类似于[60]除了我们的网络只需要两个连续的图像作为输入，而不是三个或五个图像，并且还有两个卷积层。我们使用PWCNet进行光流估计。整个培训过程包括三个阶段。首先，我们使用Lfv，Lfs训练FlowNet。在第二阶段，我们使用Lsv，Lss，Lsc，Lrv联合训练StereoNet和MotionNet，而不需要RDVO或流一致性。这两个预训练阶段为我们提供了一个合理的选择，calflow和立体声深度估计。在最后阶段，我们添加RDVO模块和一致性项，并使用总损失LUnOS一起训练所有网络。为了推论，我们得到光流Ft→s和立体深度Dt直接来自相应的网络，以及在RDVO之后获得相机运动Tu运动对象分割由1-Mt计算。5. 实验我们在KITTI数据集上使用多种类型的地面实况评估UnOS，并将我们的结果与光流，立体深度，视觉里程计和运动分割任务上的现有监督和无监督SOTA方法进行比较。在所有的训练阶段中，我们使用Adam优化器[24]，β1= 0。9和β2= 0。999学习率设定为10−4。超参数β=10个。0在Eq. (3)，α=0的情况。85在Eq。 (8)，γ=0的情况。17在Eq. （四）、对于方程中的损失函数， (10)我们从[14]中借用参数用于立体声损失pa。8079[10][11][12][13][14][15][16][17][18][19][19][1 0 ，10。0，1。0，10。0，1。0，0。01]通过平衡各种损失的规模而不需要太多的调谐。在训练过程中，我们使用的批量大小为4。在每个阶段，我们训练大约15个epoch，并选择具有最佳验证精度的模型开始下一阶段的训练。将图像缩放为0到1之间的值，尺寸832 ×256我们唯一的数据增强是随机左右翻转和随机时间顺序切换-ing.数据集继以前的工作[14，46，60，52]之后，对于深度，光流和分割任务，我们使用KITTI中的所有原始数据训练我们的网络，不包括KITTI 2015 [34]训练集中出现的场景，我们采用这些数据作为我们的验证集，并用于与其他方法进行比较。我们还在KITTI 2012上评估了UnOS[11]来进一步验证我们的算法对于分割，我们只在KITTI 2015上进行评估，因为KITTI 2012中没有移动的东西。对于里程计任务，我们使用官方里程计分裂，即。使用序列00-08作为训练，序列09、10作为验证。我们所有的模型都是以纯无监督的方式从头开始训练的。5.1. 评价光流我们使用KITTI 2012和KITTI 2015评估我们的光流估计任务的方法，定量结果如表1所示。1.UnOS（仅限FlowNet）是我们在第一阶段训练FlowNet后的基线模型。可以看出，它优于一种无监督的光流方法UnFlow-CSS[33]证明了我们的闭塞感知损失和PWC网络结构的有效性 “UnOS (Ego-motion)” is the result of rigidflow, 在第二阶段训练结束时，使用prs-pt计算刚性流被证明是优于以前的一般光流，8080Rs方法火车立体声测试立体声超-vised绝对相对值平方相对降低RMSE更好RMSE日志 D1-所有δ1。25高越好δ1。252δ <1.一、253EPC [52]C0.1091.0046.2320.203–0.8530.9370.975Zhou等人[59个]CC––––9.41%–––[51]第五十一话CC––––8.79%–––Godard等人[14个]CC0.0680.8354.3920.1469.194%0.9420.9780.989Zhong等人[五十七]CC0.0751.7264.8570.1656.424%0.9560.9760.985开放世界[58]CC（0.056）（0.692）（3.176）（0.125）（5.140%）（0.967）––UnOS（仅Stereo）CC0.0600.8334.1870.1357.073%0.9550.9810.990UnOS（自我运动）CC0.0520.5933.4880.1216.431%0.9640.9850.992UnOS（完整）CC0.0490.5153.4040.1215.943%0.9650.9840.992PSMNetCCC––––1.83%–––表2.在KITTI 2015训练集上对立体声深度任务进行定量评估绝对Rel、平方Rel、RMSE、RMSE log、δ<1 .一、25，1。252 1 253是深度评估的标准指标[60]。我们将深度限制在0-80米之间，文学D1-all是视差的错误率。请注意，OpenWorld的结果是通过在KITTI 2015训练集上直接训练获得的，通过复制图像200次以形成伪视频，因此不能与其他方法直接比较。图5.在训练中的不同阶段的流量误差图的可视化错误的颜色图例绘制在底部。闭塞（6.67 vs. 11.2）和静态（4.53 vs. 7.68）区域。这一观察结果与我们关于刚性流在这些领域的优势的假设是一致的，并为我们提出的流动一致性损失（Lfc）提供了动力。刚性流在移动区域中更差，这是预期的，因为它只应该在静态区域中是准确的。在RDVO之后使用pu−pt计算流，而不使用第三阶段训练。结果表明，刚性对齐模块显著改善了刚性流动，静态区域（ 1.93 vs. 2.86 和 2.99 与 4.53 ）。 “UnOS（Full）”表示在具有流一致性的第三训练阶段结束时的光流估计。在静止区域，它仍然比刚性流更差，但具有最好的整体性能。对于KITTI 2012，我们的方法将之前的无监督方法[33]的误差降低了50%，并达到了监督方法[19]的类似性能，这证明了我们提出的方法和立体数据利用的好处。对于KITTI 2015，我们的方法也大大优于以前的无监督方法，尽管它仍然落后于相应的监督方法[40]。我们估计的光流的可视化可以在图中找到。6，我们可以看到，我们的结果更规则化，边界更清晰。我们还显示了误差图的光流从dif-表3.使用绝对轨迹误差的度量对里程计任务进行定量评估。方法序列09terr%rerr（/100）序列10terr%rerr（/100）ORB-SLAM（Full）15.300.263.680.48Zhan等人[56个]11.923.6012.623.43UnOS（MotionNet）13.985.3619.679.13UnOS（+RDVO）8.153.029.544.80UnOS（完整）5.211.805.202.18表4.使用平均平移和旋转误差的度量对里程计任务进行定量评估。ORB-SLAM（Full）的数量来自[56]。图中的不同训练阶段。5（蓝色表示更好，红色表示更差）。最初，来自自我运动的刚性流'UnOS（自我运动）'具有比'UnOS（仅FlowNet-only）'更差的性能。在添加RDVO之后，我们可以看到静态区域中的流量估计得到了极大的改善（比较（b）和（c）中的绿色圆圈）。在添加移动对象遮罩并应用一致性损失之后，与我们的基线相比，立体声深度我们在KITTI 2015数据集上评估了我们的深度估计，并在Tab中显示结果。2.这里，Zhong等人的数字。[57]和OpenWorld [58]是通过与作者的私人通信获得的。“UnOS（StereoNet-only）”是仅使用立体图像训练的StereoNet，是我们的基线算法。它是阿尔-方法帧立体声序列09序列10ORB-SLAM（Full）所有0.014 ±0.0080.012 ±0.011Zhou等人[60个]50.016 ±0.0090.013 ±0.009Geonet [54]50.012 ±0.0070.012 ±0.009Mahjourian等人[30个]30.013 ±0.0100.012 ±0.011Adv. [37]第三十七届50.012 ±0.0070.012 ±0.008UnOS（MotionNet）2J0.023 ±0.0100.022 ±0.016UnOS（+RDVO）2J0.013 ±0.0060.015 ±0.010UnOS（完整）2J0.012 ±0.0060.013 ±0.0088081图6. UnOS的定性结果。我们将每个输出与以前的SOTA结果进行比较。具体而言，（a）Godard等人 [14]，（b）UnFlow-CSS[33]，（c）EPC [52]。准备好比一些现有的无监督立体声深度算法[14，51]证明我们的StereoNet的有效性我们的立体深度也比SOTA单目深度方法表现得更好[52]。在添加时间连续图像的数据之后，深度精度提高，尤其是在大距离区域（0.593 vs. 0.833）。“UnOS（Full）”显示了使用具有刚性感知流一致性的RDVO后的结果，并给出了最佳性能。然而，它的性能仍然比PSMNet [5]等监督方法差。我们在补充资料中提供了KITTI 2015测试集上的3D场景流评估，我们估计深度的定性结果如图所示。6，其中UnOS计算出更好的场景结构，噪音更少。视觉里程计。我们使用两个常用的指标来评估相机运动。第一种方法是在SfMLEarner [60]中提出的，它测量了在使用地面实况重新缩放因子后所有重叠5帧片段上平均的绝对轨迹误差在我们的例子中，我们只有两个帧作为MotionNet的输入来预测它们的相对姿势。为了评估，我们累积4个连续的预测以获得5帧片段的结果。另一个度量在[56]中提出，其测量长度为（100，200，.，800）。对于该度量，我们将整个序列的所有两个帧估计累积在一起，而无需任何后处理。这两个指标的结果显示在选项卡中。3和Tab。4分别。方法像素Acc.平均加速平均IoUF.W.IOUEPC [52]0.890.750.520.87UnOS（完整）0.900.820.560.88表5.运动分割评估。这些指标是像素精度、平均像素精度、平均IoU和频率加权IoU。改进（UnOS（MotionNet+RDVO））。经过流一致性和RDVO训练后，效果得到进一步改善，即使使用了立体声信息，也能与其他SOTA方法相媲美。在选项卡中。4、UnOS比传统的ORB-SLAM更差，我们认为它采用捆绑平差来避免漂移误差，这是对UnOS的补充。运动分割使用KITTI 2015数据集[52]提供的对象图评估运动分割任务我们遵循[52]中使用的指标，包括像素精度和平均交集。如Tab.所示。5、我们也超越了他们的方法。定性结果见图。6，其中UnOS发现移动对象的更紧凑和更干净的段。6. 结论总之，我们的论文提出了一个统一的系统（UnOS）来学习光流和立体深度，它相互利用视频中的立体和时间信息。具体来说，它会自动发现刚性区域，我们可以看到MotionNet（UnOS（Motion-Net））的直接输出并不令人满意，比其他SOTA方法差得多然而，在RDVO模块之后，我们看到了显著的大大提高了KITTI数据集上的立体深度、光流、视觉里程计和运动分割的无监督学习。8082引用[1] Dan Barnes ， Will Maddern ， Geoffrey Pascoe ， andIngmar Posner.分心的：城市环境中鲁棒单眼视觉里程计的自我监督干扰学习。见ICRA，第1894-1900页。IEEE，2018年。[2] Aseem Behl ， Omid Hosseini Jafari ， Siva KarthikMustikovela，Hassan Abu Alhaija，Carsten Rother，andAndreas Geiger.边界框、分割和对象坐标：在自动驾驶场景中，识别对于3d场景流估计有多重要？2017年计算机视觉国际会议[3] Paul J Besl和Neil D McKay。三维形状配准方法。在Sensor Fusion IV 中： Control Paradigms and DataStructures，第1611卷，第586-607页。国际光学与光子学学会，1992年。[4] Michael J Black和Paul Anandan。多个运动的鲁棒估计：参数和分段光滑流场。计算机视觉与图像理解，63（1）：75[5] 张嘉仁和陈永生。金字塔立体匹配网络。在IEEE计算机视觉和模式识别会议论文集，第5410- 5418页[6] Xinjing Cheng，Peng Wang，and Ruigang Yang.通过卷积空间传播网络学习的亲和力进行深度估计在欧洲计算机视觉会议上，第108-125页。Springer，Cham，2018.[7] Guilherme N DeSouza和Avinash C Kak.用于移动机器人导航的视觉：一个调查。IEEE模式分析与机器智能学报，24（2）：237-267，2002年。[8] 冯一流，梁正法，刘恒柱高效的深度学习，用于更大图像块的立体匹配。在图像和信号处理，生物医学工程和信息学（CISP-BMEI），2017年第10届国际大会上，第1-5页。IEEE，2017年。[9] Denis Fortun，Patrick Bouthemy，and Charles Kervrann.光学流动建模和计算：调查。计算机视觉和图像理解，134：1[10] Ravi Garg ，Vijay Kumar BG ，Gustavo Carneiro ，andIan Reid.用于单视图深度估计的无监督CNN：几何学拯救了我们。在欧洲计算机视觉会议上，第740-756页。施普林格，2016年。[11] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。在计算机视觉和模式识别（CVPR），2012年IEEE会议上，第3354-3361页。IEEE，2012。[12] 安德里亚·吉亚切蒂、马可·坎帕尼和文森特·托瑞。利用光流进行道路导航。IEEE机器人与自动化学报，14（1）：34[13] C le mentGodard ， OisinMacAodha ， andGabrielBrostow.深入研究自我监督的单目深度估计。arXiv预印本arXiv：1806.01260，2018。[14] Cle' mentGodard，OisinMacAodha，andGabri elJBros-tow.具有左右一致性的无监督单目深度估计。在CVPR，第2卷，第7页，2017年。[15] 法特玛·古尼和安德烈亚斯·盖格。Displets：使用对象知识解决立体模糊性。IEEE计算机视觉和模式识别会议论文集，第4165-4175页，2015年[16] Rod Affendi Hamzah和Haidi Ibrahim。立体视觉视差图算法的文献综述。传感器杂志，2016，2016。[17] Richard Hartley和Andrew Zisserman。计算

下载后可阅读完整内容，剩余1页未读，立即下载