基于运动分割和立体光流的动态场景多帧方法的研究

155 浏览量更新于2023-10-16 收藏 2.17MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3939基于运动分割的谷合龙则·李健AIP苏迪普塔N.辛哈微软研究院佐藤洋一东京大学摘要我们提出了一种新的多帧方法，有效地计算场景流（密集的深度和光流）和摄像机自我运动的动态场景从移动的立体摄像机钻机观察。我们的技术还分割出移动物体从刚性场景。在我们的方法中，我们首先估计视差图和6-DOF相机运动使用立体匹配和视觉里程计。然后，我们识别与估计的相机运动不一致的区域，并仅在这些区域计算每像素光流。使用融合移动将该流建议与基于相机运动的流建议融合以获得最终的最佳流和运动分割。这种统一的框架有利于所有四个任务-我们的方法目前在KITTI 2015场景流基准测试中排名第此外，我们的CPU实现每帧运行2-3秒，比前六种方法快1-3个数量级。我们还报告了对挑战Sintel的彻底评估(a)左输入帧（参考）(c)地面实况差异(e)地面实况流(g)地面真值分割(b)放大立体帧(d)估计差异D(f)估计流量F(h)估计分割S具有快速相机和对象运动的序列，其中我们的方法始终优于OSF [30]，OSF目前在KITTI基准中排名第二。1. 介绍场景流是指3D流或等效的场景的密集3D运动场[38]。它可以从同步相机从多个视点[28，29，30，43]或RGB-D传感器[18，20，15，33]获取的视频中估计，并在视频分析和编辑，3D映射，自动驾驶[30]和移动机器人中应用。场景流估计建立在计算机视觉的两个核心任务上-尽管许多现有的方法已经可以独立地解决这两个任务[24，16，35，27，17，46，9]，但是用于计算场景流的立体和光流方法的简单组合无法利用这两个任务中的固有冗余或利用附加场景。*在微软研究院实习期间完成的工作，部分工作在东京大学完成图1.我们的方法估计稠密视差和光流从立体对，这相当于立体场景流估计。摄像机运动的同时恢复，并允许移动对象被明确分割在我们的方法。可能存在的结构。具体地，众所周知，静止（刚性）3D点的连续图像对之间的光流受到它们的深度和相机机架的相关联的6-D 0 F运动的约束然而，这个想法还没有得到充分利用现有的场景流方法。也许，这是由于同时估计相机运动和检测场景中的移动对象所涉及的额外复杂性。最近对立体场景流估计的重新关注已经提高了具有挑战性的基准点的准确性，这源于更好的表示、先验、优化目标以及使用更好的优化方法[19，45，8，30，43，28]。然而，这些现有技术的方法在计算上是昂贵的，这限制了它们的实际使用。此外，除了少数例外[40]，大多数现有的场景流方法处理事件。左t+1右侧t+1左t右t3940、/、、+/双目立体输入（、）的方式D初始化。视差、、、、+D+，D+S视觉里程计光流对极立体声初始运动分割F刚性波纹管SInit. 分段、+F、F流动融合图2.所提出方法的概述在前三个步骤中，我们使用立体匹配和视觉里程计技术来估计视差D和相机运动P。然后，我们通过使用从D和P计算的刚性流Frig来检测移动对象区域。仅对检测到的区域执行光流，并且将所得到的非刚性流F_non与F_rig融合以获得最终流F和分割S。每两个连续的帧独立地传播，并且不能有效地跨长序列传播信息。在本文中，我们提出了一种新的技术来估计场景流从一个多帧序列所获得的校准立体相机在一个移动的钻机。我们同时计算每帧上的稠密视差和光流图。此外，估计连续帧之间的6-DOF相对相机姿态以及每像素二进制掩模，该掩模指示哪些像素对应于刚性或非刚性独立移动对象（参见图11）。①的人。我们的顺序算法只使用过去和现在的信息，因此对实时系统很有用我们利用的事实，即使在动态场景中，许多观察到的像素往往对应于静态刚性表面。给定从立体图像估计的视差图，我们使用对离群值（场景中的移动对象）鲁棒的视觉里程计来鲁棒地计算6-DOF相机运动。给定自我运动估计，我们通过极线立体匹配来提高在遮挡像素处的深度估计。然后，我们识别出与摄像机运动不一致的图像区域最后，将该流程方案与基于摄像机运动的流程方案以获得最终的流图和运动分割。虽然这四个任务-立体，光流，视觉里程计和运动分割已被广泛研究，大多数现有的方法解决这些任务独立。作为我们的主要贡献，我们提出了一个统一的框架，其中一个任务的解决方案有利于其他任务。与一些尝试优化单个复杂目标函数的联合方法[43，30，28，42我们的方法比KITTI上的前六种方法快得多，每帧大约需要2-3不仅是我们的方法更快，但它也明确恢复相机运动和运动分割。我们现在讨论我们的统一框架如何使这四个任务中的每一个光流给定已知的深度和摄像机运动，刚性3D点的2D流，我们在本文中称为刚性流，可以更有效地和准确地恢复相比，一般的非刚性流。我们仍然需要计算非刚性流，但仅在与移动对象相关联的像素这减少了冗余计算。此外，这种表示对于遮挡是有效的。即使当对应点在连续帧中不可见时，只要深度和相机运动估计是正确的，就可以正确地计算刚性流立体声对于场景中的刚性表面，我们的方法可以恢复更准确的视差像素与左右立体遮挡。这是因为计算连续帧上的相机运动使得除了当前帧对之外还可以在时间上相邻的立体帧上使用多视图立体匹配。视觉里程计。显式运动分割使摄像机运动恢复更加鲁棒。在我们的方法中，来自前一帧的二元掩模用于预测当前帧中的哪些像素可能是离群值，并且必须在视觉里程估计期间被降权。运动分割这个任务在我们的方法中基本上是免费解决的。由于在每个帧上执行的最终优化融合了刚性和非刚性光流提议（使用MRF融合移动），因此所得到的二进制标记指示哪些像素属于非刚性对象。2. 相关工作从维多拉等人的开创性工作开始。[38，39]，从多视图图像序列估计场景流的任务经常被公式化为变分问题[32，31，3，45]。这些问题是用不同的优化方法[32，31]提出了一种基于水平集的体积表示的解决方案，而Basha等人。[3]提出了适用于遮挡推理和大运动的以视图为中心的表示。此前，Zhanget al. [47]研究了图像分割线索如何帮助恢复多视图场景流中的精确运动和深度不连续性。、、F非刚性流F流S分割自我运动D差异3941不tt+1随后，在双目立体设置中研究了这个问题[26，19，45]。Huguet和Devernay [19]提出了一种适用于双视图情况的变分方法，Li和Sclaroff [26]提出了一种多尺度方法，该方法在粗到精处理期间包含不确定性。Wedel等人[45]提出了一种适用于GPU的高效变分方法，其中场景流恢复被解耦为两个子任务-Valgavalet等人[36]提出了一种变分方法，处理具有未知外函数的立体相机。早期的工作场景流进行了评估序列从静态相机或相机移动相对简单并且从左到右的相机姿态P01=[I|-Bex]也是已知的。这里，I是恒等旋转，ex=（1，0，0）T，B是左摄像机和右摄像机之间的基线。我们假设输入的立体图像对具有相同大小的图像域，其中p=（u，v）T∈Z2是像素坐标。视差D、流F和分割S被定义为图像域上的映射，例如，D（p）：n→R+，F（p）：n→R2和S（p）：n→ { 0，1}.给定相对相机运动P和视差图D，在源图像中，通过刚性变换[14]，源图像中静止表面的像素p被扭曲到目标图像中的点p′=w（p;D，P），[30]详细讨论。Cech等人提出了一种立体场景流的种子生长方法[8]，该方法可以处理具有多个运动物体的真实感场景。w（p;D，P）=π.ΣK−10KP0T（fB）−1ΣΣΣΣpD（p）. （一）由移动的立体摄像机拍摄的照片的到来KITTI基准导致这一领域的进一步改进Vogel等人[41，42，40，43]最近探索了一种类型的3D正则化-虽然PRSM [43]是目前KITTI上的顶级方法，但其对3D几何形状，刚体运动和超像素分割的联合估计我们这里，p=（u，v，1）T是p的二维齐次坐标，函数π（u，v，w）=（u/w，v/w）T返回二维非齐次坐标，f是相机的焦距。该扭曲还用于使用以下公式找到源图像中的哪些像素p在目标图像中可见：基于z缓冲的可见性测试以及p′是否∈N。4.该方法设I0和I1，t∈ {1， 2，· · ·，N+ 1}为输入im-t t离散-连续优化是相当复杂的，计算成本高。Lv等人[28]最近提出了一种使用连续优化和固定超像素（称为CSF）的PRSM简化方法，其速度比[43]但是对于实际应用来说仍然太慢。作为与我们密切相关的方法，对象场景流（OSF）[30]基于固定的超像素将场景分割成多个刚性移动的对象，其中每个对象被建模为一组平面片段。该模型比PRSM更严格地正则化。通过最大乘积粒子置信度传播的推断在计算上也是非常昂贵的，每帧花费50分钟。更快的代码设置需要2分钟，但准确性较低不同的工作路线探索了来自RGB-D序列的场景流估计[15，33，18，20，21，44]。同时，基于深度卷积神经网络（CNN）的SU-有监督的学习方法显示出了希望[29]。3. 注释和预备在详细描述我们的方法之前，我们定义了nota-分别由校准的立体系统我们依次处理第一到第N帧，并估计它们的视差图Dt、流图Ft、摄像机运动Pt和运动分割掩模ST用于左（参考）图像。我们把移动和静止的物体称为前景和背景，地，分别。下面我们重点处理第t帧，并在不需要时省略下标t在高层次上，我们的方法被设计为隐式最小化图像残差ΣE（Θ）=<$I0（p）−I0（w（p;Θ））<$（2）p通过估计翘曲函数w的参数ΘΘ ={D，P，S，F非}。（三）如下使用参考图像I0上的二进制分割S以流图w（p; Θ）=p +F（p）的形式定义扭曲函数。并回顾本文中使用的基本概念我们表示两个图像F（p）=.F钻机(p)如果S（p）=背景（四）使用矩阵P=[R|t]∈R3×4，将源图像摄像机坐标系中的均匀三维点x∈=（x，y，z，1）T变换为目标图像摄像机坐标系中的三维点x′=Px∈. 为了简单起见，我们假设一个rec-已校准的立体声系统。因此，这两个摄像机具有相同的已知摄像机本征矩阵K∈R3×3F无（p）如果S（p）=前景这里，Frig（p）是使用等式（1）从视差图D和相机运动P计算的刚性流。Fnon（p）是非参数定义的非刚性流。直接估计该完整模型在计算上是昂贵的。相反，我们从一个更简单的刚性运动模型开始计算，3942不pp(a) 初始视差图D(b) [12]第十二话通过左右一致性检查获得映射O。在SGM期间计算不确定性图U，如[12]没有任何计算开销。我们还为U定义了一个固定的置信度阈值τu，即，如果U（p）> τu，则D（p）被认为不可靠。补充材料中提供了更多细节。4.2. 立体视觉里程计给定当前和下一个图像I0和I0和尼-t t+1(c) 遮挡图O（d）最终视差图D图3. 双目和极线立体。 (a)初始视差图。(c)不确定性图[12]（较暗的像素更有信心）。(b)遮挡贴图（黑色像素在右图中不可见）。(d)最终视差估计核立体。初始视差图D=1 0，我们估计当前帧和下一帧之间的相对相机运动P。我们的方法扩展了现有的立体视觉里程法[1]。这是一种直接方法，即，它通过直接最小化图像强度残差来估计6自由度相机运动PEvo（P）= Σ ωvoρ .|I0 (p) −I0Σ（w（p;Dt，P））|（六）根据简化的模型参数Θ={D，P}（等式10），（1）），然后通过以下方式增加运动模型的复杂度：ptp∈T电话+1添加非刚性运动区域S和它们的流Fnon。代替直接比较像素强度，在我们方法的各个步骤中，我们通过截断归一化互相关来鲁棒地评估图像残差<$I（p）− I′（p′））<$TNCC τ （ p ， p′ ） = min {1 − NCC （ p ，p′），τ}。（ 5）这里，NCC是计算的归一化互相关，分别以I（p）和I′（p′）为中心的5×阈值τ被设置为1。在下面的部分中，我们描述了我们的方法的建议管道。我们首先估计初始视差图D（Sec. 4.1）。然后，视差图D被用于估计视差。使用视觉里程恢复来匹配相机运动P（第二节）4.2）。该运动估计P被用在对极立体匹配阶段，其中我们改进了初始dispar。对于某些目标像素p∈T，使用刚性变形w等式（一）. 为了实现对异常值的鲁棒性（例如，通过mov-ing对象，遮挡，不正确的视差），使用由ρ表示的Tukey双权重[ 4 ]函数对残差进行在逆组成框架[2]中，通过迭代重新加权最小二乘来最小化能量Evo我们对这个方法作了如下修改。首先，为了利用我们的方法中可用的运动分割，我们以不同的方式调整权重ωvo它们被设置为0或1基于遮挡图O（p），但随后被降权1/8，如果p被先前的掩模St-1和流Ft-1预测为移动对象点。其次，为了降低直接方法对初始化的敏感性，我们生成了多个为优化器进行多种初始化并获得多个候选解决方案。然后我们选择最终估计值最大程度地最小化基于NCC的加权残差的Ph以获得最终视差图D（Sec.4.3）。d和E=p∈N ωvoTNC Cτ（p，w（p;Dτt，P））. 为了避免这种情况，P估计用于计算刚性流提案Frig并恢复初始分割S_（Sec.4.4）。然后，我们估计非刚性流建议F 非仅用于S的移动对象区域（秒）。4.5）。最后，我们融合刚性和非刚性流提案{Frig，Fnon}，并获得最终的流图F和分割S（Sec.4.6）。所提出的方法的所有步骤总结在图中。二、为了进行量化，我们使用（a）身份运动，（b）先前的运动Pt-1，（c）使用[25]通过基于特征的对应性进行的运动估计，以及（d）各种前向平移运动（大约16个候选，仅用于驾驶场景）。4.3. 对极立体细化如图所示3（a），初始视差图D.从当前立体声对{I0，I1}中输出的数据可能有错误4.1. Binocular Stereot t给定左右图像I0和I1，我们首先估计在右图像中被遮挡的像素处。为了解决这个问题，我们在颞叶上使用多视图核线立体技术- 左图像的初始视差图D，相邻的六个图像{I0，I1，I0，I1，I0，I1}和t−1t−1不tt+1电话+1结论图O和不确定性图U[12]。我们在图2中可视化示例估计。3（a）-（c）。作为事实上的标准方法，我们估计差异获得如图1所示的最终视差图D。第1段（d）分段。从双目立体的阶段，我们已经有了COM-我把一个匹配的成本量为I0为I1，我们把它。t t3943pt−11使用半全局匹配（SGM）[16]进行映射，记为Cp（d），具有某个视差范围d∈[0，Dmax]。固定视差范围[0， 1，···，DMax]. 我们的实施者-这里的目标是获得更好的成本体积Cepi（d），如在-SGM的站使用8个基本方向和基于NCC的SGM，通过将Cp（d）与匹配成本混合，匹配Eq.（5）数据项。闭塞四个目标图像I′∈{I01t−10电话+1t+1}。，我，我，我3944不p不ppPQPQp不I=Ippp不pppppp′0ppτncc由于当前到下一帧Pt和当前帧Pt-1之前的相对相机姿态已经由Sec.4.2，从I0到每个目标图像的相对姿态可以被估计为P′∈{P−1，P0 1P−1，Pt，P0 1Pt}。召回(a) 基于NCC的残差图（b）斑块强度方差wvart−1t −1pP01是已知的从左到右的相机姿态。然后，对于每个目标图像I′，我们通过pro-使用姿态P′和等式（1）的刚性变换将I0中的点（p，d）T投影到I（一）.由于C′（d）可能由于移动的对象而不可靠，因此我们在这里降低等式中的NCC的阈值τ（5）为1/ 4以获得更高的鲁棒性。将四个成本量平均以获得Cavr（d）。我们还截断了左右匹配在O（p）已知的封闭像素上，在τ=1/ 4处的成本Cp（d）。最后，我们计算改进的成本体积Cepi（d）通过线性混合Cp（d）与Cavr（d），（c）先前流Fpri[13]（d）深度边缘图wdep（e）图像边缘图wstr[11]（f）初始分割SpCepi（d）=（1−αp）Cp（d）+αpCavr（d），（7）图4.初始分割。我们使用来自（a）图像残差加权（b）补丁的线索来检测移动对象区域，p p强度方差和（c）先验流。我们还使用（d）深度边缘并利用Cepi（d）运行SGM以得到最终视差图D。混合权重αp∈[0，1]由不确定性映射U（p）计算（来自第 4.1）归一化为up=min {U（p）/τ u，1}，然后转换如下。以及（e）图像边缘信息，以获得（f）初始分割。计算I=I0和I =I 0之间基于NCC的匹配成本t+1作为αp（up）=max{up−τc，0}/（1−τc）。（八）C′ncc（I，I′）= TNCC（p，p′;I，I′）−τ（十）这里，τc是置信阈值。如果up≤τc，我们得到其中p′=p+Frig（p），τncc∈（0，τ）是阈值，αp=0，因此Cepi=Cp . 当up增加从老了然而，TNCC值在纹理较少时是不可靠的。τc到1，αp从0到1线性增加。因此，我们只需要在p处计算Cav r（d），其中up>τc，这节省了计算。我们使用τ c= 0。1.区域（见图中的高残留防水布（见第4（a）段）。此外─此外，如果p′在视场之外，则不能确定C′ncc（图中的黄色像素）。（见第4（a）段）。因此，类似于核线立体，我们将I0与I′∈{I0，I1，I0 ，I1}，并且t t−1t−1t+1t+14.4.初始分割计算有效匹配成本在初始分割步骤中，目标是找到Cncc=λwvar平均ΣC′ncc′Σ（十一）- 参考图像I0中的二值分割S，pnccpI′p（I，I）.显示了刚性流建议F钻机不准确的地方，因此必须重新计算光流回想一下，Frig是使用等式（1）从估计的视差图D和相机运动P（一）. 一个例子的S显示在图。4（f）。我们现在介绍细节。首先，我们定义二进制变量sp∈{0，1}作为S（p）的代理，其中1和0分别对应于前景（移动对象）和背景。我们的分割能量Eseg（s）被定义为：与许多图像匹配增加了检测的召回率，移动物体。为了提高匹配可靠性，Cncc由wvar = min（StdDev（I），τ w）/τ w加权，即以I（p）为中心的5 × 5贴片的截断标准差。权重图wvar在图1中可视化第4（b）段。如果p′在I′中被遮挡，我们还在0处截断C′ncc（I，I′）。能见度测试我们使用（λncc，τncc，τ w）=（4，0. 5，0。005）。流量项Cflo：该项评估流量残差rp=在刚性流F和（非刚性流）之间，ΣNCCFloCol初级刚性）由[13]计算的先验流Fpri（见图4（c））。我们-E段=CP+CP+CP+CPs′p+Epott s（s）.（九）给定阈值τflo和斑块方差权重wvar，p∈Ω在这里，s<$p=1−sp。带括号的项[·]是数据项p将C流定义为ΣCflo=λ wvar min（rΣ3945pppppp，2 τ flo）− τ flo/τ flo.（十二）其对掩码S的似然性进行编码，即，正值将sp偏置到1（接地移动）。Epotts是成对平滑项。我们在下面解释每个术语。外观项Cncc：该项通过检查刚性对齐图像的图像残差来查找移动对象。我们pflop p p pwvar之后的部分将（rp−τflo）归一化为位于[-1，1]。在每个像素p处通过下式计算阈值τflo：τflo= max（τ flo，γ<$Frig（p）<$）。（十三）3946ppp不p2PQPQPQPQPQp钻机这样，如果刚性运动Frig（p）很大，则放宽阈值。如果先验流Fpri（p）被双向一致性检查无效（图1中的黑洞）4（c）），C_flo被设置为0. 我们使用（λflo，τ flo，γ）=（4，0. 75，0。（3）第三章。先验项Cpri：该项基于来自先前帧的结果或经由地平面检测的场景上下文对分割先验进行编码。秒4.7细节颜色项Ccol：这是参考图像I0（p）中像素的RGB颜色向量Ip的标准颜色似然项[ 6 ]：(a) SGM流的非刚性流（b）一致性检查(c)非刚性流方案F非（d）刚性流方案F钻机ΣCcol=λcolΣlogθ1（Ip）−logθ0（Ip）。（十四）我们使用λcol= 0。5和643箱的直方图的颜色模型{θ0，θ1}。平滑项E波茨：这个术语是根据波茨（f）最终分割掩模S为所有相邻像素对（p，q）∈N在8连接像素网格上。Σ图5.光流与流融合。我们得到非刚性流建议（a）执行SGM，然后（b）进行一致性滤波和（c）通过加权中值滤波进行孔填充。这种流动Epotts（s）=λpotts（ωcol+ωdep+ωstr）|sp−sq|. （十五）建议与（d）刚性流建议融合，以获得（e）pq pq（p，q）∈N最后的流估计和（f）运动分割。我们使用三种类型的边权重。基于颜色的权重ωcol计算为=e− I −I2/κ1，其中4.6.流融合和最终分割QQQQp q2κ1估计为2<$Ip−Iq<$2的期望值，（p，q）∈N[34].计算基于深度的权重ωdep考虑到刚性和非刚性流动建议Frig和Fnon，我们将它们融合以获得最终的流量估计F。这当ωdep= e−|Lp+Lq|/κ2，其中Lp 为|D（p）|是绝对的融合步骤还产生最终分割S。这些视差图D的lute Laplacian。 κ2是估计的输入和输出，如图1A和1B所示。5（c）-（f）.类似于k1。基于边的权重ωstr使用一个优势融合过程类似于初始分割。由快速边缘检测器[11]获得的映射ep∈[0，1]，并且是表示最终se g的二进制变量sp∈{0，1}计算为ωstr=e−|ep+eq|/κ3。ωdep和现在还指出两个流动方案中的哪一个。strPQ （以1-wpq的形式）在图中可视化。4（d）选择F{Frig（p），Fnon（p）}作为最终流量估计。及（e）。我们使用（λpotts，κ3）=（10，0. 2）的情况。mateF（p）. 为此，Eq.（9）是modi-E的最小化seg与《易经》相似，如下所示。首先，Cncc被替换为割[34]算法，即，我们在最小化Cncc=λwvar[TNCC（p，p′）−TNCC（p，p′）]、（十六）使用图切割[5]和更新颜色模型的Eseg（s）{θ1，θ0}的Ccol从分割s。我们跑到五个pnccp′τrig′τ农其中prig=p+Frig（p）且pnon=p+Fnon（p）。秒-迭代直到使用动态最大流收敛[22]。第二，优先流F（p）在Cflo中由F（p）.普里普非4.5. 光流当p′在视图之外或Fnon（p）被无效，对于流遮挡图Oflo（p），我们将Cncc和Cflo设置为0。接下来，我们估计pp的非刚性流提案Fnon将运动前景区域估计为初始分割S_f。类似于全流[9]，我们将光流作为离散标签问题，其中标签表示2D在2D搜索范围内平移（参见第2节）。4.7用于距离估计）。代替[9]中使用的TRW-S [23]从SGM获得流程图后，如图所示。5（a），我们通过1）进行双向一致性检查来进一步过滤它(see图5（b）），2）通过加权中值滤波填充孔，以获得非刚性流建议Fnon。流一致性映射Oflo（p）被传递到下一阶段。我们对SGM的扩展很简单，详细信息请参见我们的补充材料以及改进方案。ω3947融合步骤仅推断标记为前的像素的sp因为背景标签是固定的，所以在初始分割S中的用于融合的图切割优化是通常非常有效，因为在S中标记为前景的像素通常是所有像素的一小部分。4.7.实现细节视差范围缩小。为了提高对极立体声的效率，通过从初始估计的Dmax（p）估计D max来减小视差范围[0，D max ]。我们计算Dmax鲁棒地通过使直方图的非闭塞的差异D（p）和忽略箱的频率小于0。百分之五然后选择Dmax作为max3948从剩余的有效非零bin中删除bin。流量范围估计。SGM流的2D搜索范围R=（[umin，umax] × [vmin，vmax]）估计如下。对于目标区域S，我们从基于特征的稀疏对应计算三个这样的范围，先验流动和刚性流动。对于后两者，我们通过制作流向量的2D直方图并忽略频率小于最大频率的十分之一的bin来鲁棒地计算范围那么，最终的范围R是覆盖所有三个的范围。为了使R更紧凑，我们重复范围估计和随后的SGM，S中的组件。成本图平滑。由于NCC和基于流量的成本在分割和融合中使用的映射Cncc和Cflo5.1. KITTI 2015场景流基准测试我们在表1中显示了KITTI基准测试结果的选定排名，其中我们的方法排名第三。我们的方法比所有顶级方法快得多，比快速方法更准确[10，8]。见图8、每个阶段的运行时间。我们的方法的大多数阶段的时间是小的和恒定的，而对于光流，它们取决于移动对象的大小而变化运动分割的结果在视觉上是相当准确的（见图）。（七）. 如表2所示，使用暂时相邻的立体帧的对极立体细化通过视觉检查通过相机运动和深度对齐的连续图像，我们验证了P P在自我运动估计中从不发生任何故障。步骤是嘈杂的，我们通过平均值来平滑它们在超像素中。我们使用OpenCV中[37]产生的大约850个片段的超像素化。分割先验。我们定义Cpri的方程。（9）如Cpri=5.2. 对Sintel数据集的评价与以前的场景流方法不同，我们还评估了p pλ Cmask+Cpcol.这里，C掩码∈[−0. 1， 1]是一个有符号的软我们在Sintel上的方法，并将其与OSF [30]进行了比较，屏蔽ppp由先前掩码St-1和流Ft-1预测的掩码。负的背景区域被向下加权0.1，更好地检测新出现的对象。我们使用λmask=2。Cpcol是类似于Eq.（14）相同λPRSM [43]（见表3回想一下PRSM不执行运动分割。虽然OSF和PRSM在KITTI上更准确，但我们的方法在所有指标上都优于OSF 此外，不像pcol但是使用在线更新的颜色模型作为过去颜色模型的平均值。对于道路场景，我们还使用地面先验，如图所示。6作为背景的提示。它是由使用RANSAC检测的地平面导出的。详见补充资料。图6. 分割地面优先。对于道路场景（左），我们从视差图（右）计算地面先验（中）。他人我们运行我们的算法对图像缩小，系数为0。4为光流和0。65（KITTI中的每个图像为1242× 375像素）。我们通过以下方式对SGM视差和流图进行子像素细化：标准局部二次曲线拟合[16]。5. 实验我们在KITTI 2015场景流基准上评估了我们的方法[30]，并进一步在具有挑战性的Sintel（立体）数据集上进行了广泛的评估[7]。在Sintel上，我们采用了最先进的两种方法PRSM是一种多帧方法，就像我们的方法一样。虽然OSF在分割中没有明确区分运动目标和静态背景，但占主导地位的刚性运动物体被分配了第一个目标索引，我们将其视为评估中的背景。我们的方法在C++中实现，并在具有四核3.5GHz CPU的计算机上测量运行时间。使用KITTI训练数据确定所有参数设置以进行验证。只有两个参数被重新调整为Sintel。OSF，我们的方法是多帧的。Sintel场景有快速，不-可预测的相机运动，剧烈的非刚性物体运动和变形，不像KITTI，车辆是唯一类型的移动物体。而OSF和PRSM需要强刚性正则化，我们采用逐像素推理，不需要分段平面假设。因此，我们的方法更容易推广到Sintel。只有两个参数必须修改如下。（λcol，τncc）=（1. 5，0。第25段）。局限性。当场景很远时（见图9中的山1），由于细微的视差，视觉里程计步骤可能会失败。当运动物体占据视场时，它也可能失败。我们的运动分割结果通常是准确的，但在未来，我们将提高时间一致性，以产生更连贯的运动分割。6. 结论我们提出了一个有效的场景流方法，统一了密集立体，光流，视觉里程计，运动分割估计。尽管我们的技术中使用了简单的优化方法，但统一的框架导致了更高的整体精度和效率。我们的方法目前在KITTI2015场景流基准中排名第三，仅次于PRSM [43]和OSF[30]，但比前六种方法快1-3个在具有挑战性的Sintel序列上，我们的方法优于OSF [30]，并且在准确性方面接近PRSM [43]。我们的有效方法可以用来初始化PRSM [43]，以提高其收敛速度。我们希望它能使新的，实际的应用场景流。3949表1. KITTI 2015场景流基准测试结果[30]。我们示出了参考帧（D1）和第二帧（D2）上的视差、背景（bg）、前景（fg）和所有像素处的光流（F1）和场景流（SF）的误差率（%）。如果终点误差为3px或5%，则认为视差或流量估计正确<<如果D1、D2和F1正确，则场景流被认为是正确的秩方法D1-bgD1-fgD1-所有D2-bgD2-fgD2-全部Fl-bgFl-fgFl-allSF-bgSF-fgSF-all时间12PRSM [43]OSF [30]3.024.5410.5212.034.275.795.135.4515.1119.416.797.775.335.6217.0222.177.288.376.617.0123.6028.769.4410.63300 S50分钟3FSF+MS（我们的）5.7211.846.747.5721.289.858.4829.6212.0011.1737.4015.542.7秒4CSF [28]4.5713.045.987.9220.7610.0610.4030.3313.7112.2136.9716.3380后5[42]第四十二话4.7413.746.2411.1420.4712.6911.7327.7314.3913.4933.7216.85150 S8[10]第十届全国人民代表大会代表6.3119.248.4619.1536.2722.0014.8962.4222.8025.7769.3533.020.08 s（GPU）12GCSF [8]11.6427.1114.2132.9435.7733.4147.3845.0847.0052.9259.1153.952.4秒(a)参考图像（b）运动分割S（c）视差图D（d）视差误差图（e）流图F（f）流误差图图7.我们对KITTI测试序列002和006的结果。错误热图中的黑色像素表示缺少地面实况。表2.通过对极立体声改善视差D1-bg所有像素D1-fgD1-所有无闭塞PID1-bg D1-fg像素D1-所有双目（D）7.9612.618.687.0910.577.61对极线（D）5.8210.346.515.578.846.0643210图8. KITTI的200个序列的运行时间。每帧的平均运行时间为2.7秒。这包括边缘提取[11]，超像素化[37]和特征跟踪。表3. Sintel评估[7]：我们显示了在帧上平均的视差（D1）、流（F1）、场景流（SF）和运动分割（MS）的错误率（%OSF [30]和PRSM [43]列中的单元格颜色显示相对于我们的表现;蓝色表示我们的方法比较好，红色表示比较差。我们大部分时间都比OSF表现好。我们D1-所有OSFPRSM我们Fl-allOSFPRSM我们SF-所有OSFPRSMMS-allOurs OSFalley_15.925.287.432.117.331.586.9110.047.905.4017.45alley_22.081.310.791.201.441.082.992.491.631.941.31Ambassador_236.9355.1341.7772.6887.3751.3380.3390.9661.921.7232.76Ambassador_423.3024.0524.0945.2349.1641.9949.8153.2546.1420.9819.82Ambassador_518.5419.5417.7224.8244.7025.2335.1552.2634.122.5019.39Ambassador_630.3326.1829.4144.0554.7541.9849.9358.4647.0853.9524.98Amplitude_723.4771.5835.0727.8722.473.3544.5177.9436.9226.7736.08竹_19.679.717.344.114.042.4111.0510.818.354.434.17竹_219.2718.0817.063.654.863.5821.3921.2419.234.084.54绷带_120.9319.3721.224.0018.403.3023.7236.5723.3733.3246.66绷带_222.6923.5322.444.7613.124.0624.1932.3323.6216.3741.14洞穴_46.225.864.2714.6233.9416.3217.5336.0417.7116.1316.92市场_26.816.615.275.1710.084.7710.3814.528.548.9713.90市场_513.2513.6715.3826.3129.5828.3829.9331.6032.0015.2615.33市场_610.6310.298.9913.1316.3910.7218.0720.1815.093.5937.63山_10.230.780.4217.0588.603.7117.0588.613.8531.630.00萨满_224.7728.2725.490.561.670.4625.0729.4325.7530.9827.04萨满_327.0952.2233.921.3111.451.7527.6155.5134.433.8129.64睡眠_23.522.971.740.020.010.003.522.971.740.000.54temple_25.965.544.929.6610.529.519.8210.559.871.324.13temple_310.6516.6211.0462.3481.3932.1063.5681.8634.604.2025.42平均15.3519.8415.9918.3228.1613.7027.2638.9323.5213.6819.95埋伏5GT4号洞GT山1GTGTPRSMGTPRSMGTPRSM我们OSF我们OSF我们OSFGTPRSMGTPRSMGTPRSM我们OSF我们OSF我们OSF我们OSF我们OSF我们OSF参考图像/运动分割视差图流图图9.辛特尔的第五埋伏、第四洞穴和第一座山的比较：[LEFT]运动分割结果-我们的，OSF和地面实况。通过我们的方法、PRSM流动融合初始分割光流对极立体声视觉里程计PriorEscherichow初始化每帧运行时间（秒）3950和OSF以及地面实况版本估计的[MIDDLE]视差和[RIGHT3951引用[1] H. S. Alismail和B.布朗宁直接视差空间：Ro-bust和实时视觉里程计。技术报告CMU-RI-TR-14-20，机器人研究所，匹兹堡，宾夕法尼亚州，2014年。[2] S. 贝克和我马修斯卢卡斯-卡纳德20年来：一个uni-fying框架。Int’l Journal of Computer Vision (IJCV)[3] T. Basha，Y. Moses和N. Kiryati。多视点场景流估计：一种以视图为中心的变分方法。[4] A. E. Beaton和J.W. 图基电源适配器列，意味着多项式，示出了带光谱数据。Technometrics，16（2）：147[5] Y. Boykov和V.哥洛夫的实验比较最小割/最大流算法的视觉能量最小化。IEEE传输模式分析马赫内特尔（TPAMI），26（9）：1124 -1137，2004.[6] Y. Y. Boykov和M.P. 好极了交互式图形切割ND图像中目标的时间边界区域分割。在国际会议记录中。计算机视觉（ICCV），第1卷，第105-112页，2001年。[7] D. J. Butler，J. Wulff，G. B. Stanley和M. J.布莱克。一用于光流评估的自然开源电影在proc 欧洲会议。计算机视觉（ECCV），第611-625页，2012年。[8] J. C.J. Sanchez-Riera和R. 霍罗德场景flowesti-通过种植对应的种

下载后可阅读完整内容，剩余1页未读，立即下载