基于运动恢复结构的自适应光流场估计方法

54 浏览量更新于2023-10-13 收藏 3.46MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于运动恢复结构的自适应光流场估计DanielMaurer1[0000−0002−3835−2138]、 Nico Marniok2、BastianGoldluecke2[0000−0003−3427−4029]和Andr´esBruhn1[0000−0003−0423−7411]1德国斯图加特大学可视化与交互系统研究所2德国康斯坦茨大学计算机视觉与图像分析组{maurer，bruhn}@ vis.uni-stuttgart.de{nico.marniok，bastian.goldluecke}@ uni-konstanz.de抽象。许多最近的基于能量的光流估计方法依赖于通常由某种特征匹配提供的良好初始化然而，到目前为止，这些初始匹配方法是相当一般的：它们不包含任何额外的信息，可以帮助提高估计的准确性或鲁棒性特别地，它们不利用关于相机姿势的潜在线索以及由此引起的场景的刚性运动在本文中，我们解决这个问题。为此，我们提出了一种新的结构从运动感知PatchMatch方法，与现有的匹配技术相比，结合了两个层次的特征匹配方法：最近的两帧PatchMatch方法的光流估计（一般运动）和专门定制的三帧PatchMatchap-proach刚性场景重建（SfM）。虽然运动补片匹配用作具有良好准确性的基线，但是SfM对应物在遮挡和具有不足信息的其他区域处接管实验与我们的新的SfM感知PatchMatch方法证明了它的实用性。它们不仅显示出所有主要基准点的优异结果（KITTI 2012/2015，MPI Sintel），而且与没有结构信息的PatchMatch方法相比1介绍近四十年来，从图像序列中估计光流是计算机视觉领域最具挑战性的任务之一。尽管最近基于学习的方法取得了成功[2，9，18，36，23]，但基于全局能量的方法仍然是解决这一任务的最准确的技术之一[16，17，22，44]。即使与部分学习[1，33，41，42]相结合，这些方法也提供了允许透明建模的优点，因为假设在底层能量泛函中明确声明。然而，由于模型的复杂性在过去几年中显着增长-2D. 毛雷尔N.马尼奥克湾Goldluecke和A.Bruhn在这种情况下，许多基于能量的方法[14，22，33，41]依赖于其他方法提供的合适的初始化。被认为可用作初始化的最流行的方法是EpicFlow [30]、Coarse-to-fine PatchMatch [15]和DiscreteFlow [25]这有两个主要原因：一方面，已知特征匹配方法在大位移的情况下提供良好的结果。另一方面，它们通常基于某种滤波或后验正则化，其使得初始化足够平滑且无异常。因此，初始流场已经提供了合理的质量，并且能量最小化从良好的解决方案开始，因此不太可能以不期望的局部最小值结束。虽然最近的方法促进使用基于特征的方法进行初始化，但它们也表明，在估计中整合额外的信息准确性和鲁棒性[1，16，17，33，41]。除了考虑域相关的语义信息[1，5，16，33]，它已被证明是有用的，整合结构约束和对称线索。例如，[41]提出了一种联合估计每个像素的刚度及其光流的方法。因此，结构约束仅施加在场景的刚性部分上。相比之下，[17]提出了一种利用对称性和一致性线索来联合估计前向流和后向流的方法。这进而允许与光流一起推断遮挡信息考虑到上述两种方法以及来自文献的许多其他最近的方法依赖于来自基于特征的方法的合适的初始化的事实，令人惊讶的是，到目前为止，这样的信息几乎没有进入初始特征匹配步骤。虽然对称性和一致性线索至少在简单的前向-后向检查方面被考虑以检测遮挡并去除相应的离群值[9，15，30]，但在刚性背景运动方面的结构约束根本没有找到进入用于计算光流的特征匹配方法的方式。因此，希望开发一种基于特征的方法，该方法允许利用结构信息，同时仍然能够同时估计独立移动的对象捐款.在我们的论文中，我们开发了这样一个混合的方法。在这方面，我们的贡献有三个方面。(i)首先，我们介绍了一种由粗到细的三帧PatchMatch方法，用于估计结构匹配（SfM），该方法将深度驱动的参数化与不同的时间选择策略相结合。而参数化鲁棒的估计，通过减少搜索空间，分层优化和时间选择提高了准确性。（ii）第二，我们提出了一个基于一致性的选择方案相结合的匹配，从这个基于结构的PatchMatch方法和一个无约束的PatchMatch方法。因此，反向流允许我们识别可靠的结构匹配，而一个强大的投票方案决定其余的情况。(iii)最后，我们将得到的匹配嵌入到完整的估计管道中。使用最近的插值和细化方法，我们的方法提供了密集的结果与亚像素精度。所有主要的基准测试的实验证明了我们的新的SfM感知PatchMatch方法的好处。基于SfM的自适应光流场估计算法31.1相关工作如上所述，整合附加信息可以使光流的估计显著更准确和鲁棒。我们首先评论相关的工作，这些信息的整合，而之后，我们专注于相关的PatchMatch方法的光流和场景结构。刚体运动为了在刚性背景的情况下提高准确性和鲁棒性，可以实施几何假设，例如极线约束[29，38，43，44]。然而，如果这个假设是被迫举行的整个场景，提出了Oisel等人。[29] Yamaguchi et al. [43，44]，该方法仅适用于完全刚性的场景，例如，KITTI 2012基准[11]。虽然这个问题可以稍微减轻软约束，提出了Valgaerts等人。[37，38]，非刚性场景的结果通常不好。因此，Wedel等人。 [40]建议关闭具有独立对象运动的序列然而，这根本不允许在标准光流设置中利用刚体先验因此，Gerlich和Eriksson [12]提出了一种更先进的方法，该方法将场景分割成具有独立刚体运动的不同区域虽然这种策略允许很好地处理具有其他严格移动对象的汽车场景，例如。序列类似于KITTI 2015基准[24]，它不能模拟任何类型的非刚性运动，例如如MPISintel 基准 [7] 中的不同特征所需。相比之下，我们的 SfM 感知PatchMatch方法结合了来自一般和基于SfM的运动估计的信息因此，它不限于完全刚性或对象方面的刚性场景。主要是刚性运动。与[12]相比，Wulff等人 [41]更进一步。他们不要求场景是对象刚性的，而是假设场景只是大部分是刚性的。为此，他们提出了一种复杂的迭代模型，该模型使用语义信息以及运动和结构线索将场景联合分割为前景和背景，同时使用专用的对极立体声算法估计背景运动。与这种方法相比，该方法使用一般光流法[25]作为初始化并在估计中自适应地集成强刚性先验，我们的SfM感知PatchMatch方法旨在在估计的最开始时集成已经在特征匹配的估计中的因此，我们的结果是相关的所有方法依赖于一个合适的初始化-包括工作的武尔夫等人。[41]如[17]或[33]。参数化模型最近变得非常流行的一种替代策略是避免使用全局或对象刚性先验，并对像素或分段刚性的运动进行建模。通常，这通过合适的流量（过）参数化来完成;参见例如：[13、16、24、28、39、45]。例如，Hornaˇceketal. [13]在平面的局部刚性运动的模态上，提供了一个9维的平行流动。类似地，Yang et al. [45]以及Hur和Roth [16，17]提出了使用基于超像素的空间相干8DoF单应性的方法。与这些方法相比，我们的SfM感知PatchMatch方法4D. 毛雷尔N.马尼奥克湾Goldluecke和A.Bruhn并不明确依赖于过度参数化。反之亦然，当计算SfM匹配时，它通过将搜索空间限制为1D来获得鲁棒性。此外，它以像素方式而不是分段方式估计流量。因此，它更适合于具有非刚性运动和精细运动细节的一般场景。语义信息。提高估计的准确性和鲁棒性的另一种方式是考虑语义。例如，Bai et al. [1]提出使用实例级分割来在计算背景和参与者两者的单独刚性运动之前识别独立移动的交通参与者。类似地，Hur和Roth [16]利用CNN将语义信息集成到联合方法中，用于估计流量和时间一致的语义分割。此外，Sevilla-Lara等人 [33]提出了一种分层方法，该方法在不同运动模型之间切换时依赖于语义信息最后，还有Wulff等人的方法。[41]（主要参见刚性运动）。虽然语义信息通常会改善结果，但它必须特别适应给定的领域。因此，相应的方法通常不能很好地跨不同的应用程序或基准进行推广。因此，我们不依赖这些信息。补丁匹配在无约束匹配（光流）的背景下，Patch-Match最初由Barnes等人提出 [4]。最近的发展包括Bao等人的工作。[3]引入了边缘保留加权方案以及Hu等人的方法。[15]这通过分层匹配策略提高了准确性和速度。此外，Gadot和Wolf [9]和Bailer et al. [2]，最近表明特征学习是有益的。然而，尽管取得了所有进展，上述光流方法中没有一个包括结构信息。相比之下，我们的SfM感知的方法利用这样的信息，明确地使用从一个专门定制的三视图立体/SfM PatchMatch方法的特征匹配在那里，PatchMatch已经由Bleyer等人首先引入。[6]谁提出了一个平面拟合的变种纠正的最近的发展包括沈[34]和加利亚尼等人的方法。[10]分别将PatchMatch扩展到未校正的两视图和多视图情况;见[32]。与所有这些方法相比，我们的SfM感知PatchMatch方法不仅提取纯立体信息。相反，它结合了来自光流和立体声的信息，因此也适用于具有独立对象运动的非刚性场景。此外，它依赖于分层优化[15]，到目前为止尚未在PatchMatch立体声的上下文中使用。最后，我们的算法的SfM部分使用直接的深度参数化。这反过来又使得这两种估计都非常稳健。2方法概述让我们首先简要概述所提出的方法。与许多最近的光流技术一样，它依赖于多阶段方法，该方法包括用于计算和细化初始流场的步骤;参见例如，[14、17、22、33、41]。但在基于SfM的自适应光流场估计算法5反向匹配（t→t−1）正向匹配（t→t+1）位姿估计结构匹配异常值滤波异常值滤波异常值滤波组合修复细化图1.一、我们的SfM感知PatchMatch方法的示意图概述与这些通常旨在改善已经给定的流场的方法中的大多数方法相比，我们的方法集中于产生精确且鲁棒的初始流场本身。为了实现这一目标，我们的方法将结构信息集成到特征匹配过程中，这对初始化起着至关重要的作用[15，25，30]。这种整合的动机是观察到许多序列包含由相机的自我运动引起的大量刚性运动[41]。由于该运动受到基础立体几何形状的约束，因此结构信息可以显著地改善估计。在我们的多阶段方法中，我们通过组合两种相互补充的历史特征匹配方法来实现这种集成：一方面，我们使用最近的两帧PatchMatch方法进行光流估计[15]。这允许我们的方法来估计场景中的无约束运动（向前和向后匹配）。另一方面，我们依赖于专门定制的三帧立体声/SfMPatchMatch方法（参见第二节）。3)与预先姿态估计[26]。这反过来又允许我们的方法来计算由移动相机引起的场景的刚性运动（结构匹配）。为了丢弃离群值并组合剩余的匹配，我们对所有匹配执行过滤方法，然后进行基于一致性的选择（参见第2节）。4）.最后，我们使用文献[14，22]中的最新方法对组合匹配进行修补和优化整个方法的概述在图中给出。1.3结构匹配在本节中，我们介绍了我们的结构匹配框架，该框架建立在PatchMatch算法[4]上-一种在这种情况下，我们采用最近提出的用于光流[15]的粗到细PatchMatch（CPM）的思想，并将其应用于依赖于基于深度的参数化[10，31]的上下文立体/SfM估计中。这不仅使得能够直接集成多个帧，而且还允许考虑时间平均和时间选择的概念[19]，后者是用于隐式遮挡处理的策略。6D. 毛雷尔N.马尼奥克湾Goldluecke和A.BruhnXXXycz（x）XZYXxt+1xt−1Xtt+ 1Zz（x）Xt−1不Y图二.左：所采用的深度参数化的图示。右：由图像位置xt和相关深度值z（xt）定义的对应点的图示。在这种情况下，3D点在一个视图中被遮挡，并且可以用时间选择的思想来处理。即通过来自另一时间步的视图。3.1深度参数化让我们从导出所采用的基于深度的参数化开始为此，我们假设所有图像都是由校准的透视相机捕获的，该相机可以在空间中移动，即，e.在节点Pt=K[Rt]处的C或R p上，|t]是已知的。这里，Rt是3× 3旋转矩阵，tt是平移3矢量，它们一起描述了相机在某个时间步长t处的姿态。此外，3× 3矩阵K表示由下式给出的固有相机校准矩阵：sx0cxK=0sycy，（1）0 0 1其中（sx，sy）表示缩放焦距，并且c =（cx，cy）表示主点偏移。给定投影矩阵Pt，3D点X∈R3被投影到图像平面上的2D点X∈R2，其中x=π（PtX~），其中波浪号表示齐次坐标，使得X= .⊤Σ⊤X、1、（二）和dπmapsahomogeneneouscoordinatertx.Σx~/x~.Σ⊤π（x~）=13 ，其中x=x1，x2，x3.（三）x2/x3现在，为了定义参数化，我们假设w.l.o.g.参考相机的相机姿态，即与在时间t拍摄的图像相关联的相机与世界坐标系对准，并且反转先前描述的投影，以通过图像位置x和沿着光轴的对应深度z（x）来指定表面s上的3D点;参见图2。二、这导致X=s（x，z（x））=z（x）K-1x~，（4）这允许我们通过投影到相应的图像平面上来描述具有单个未知数（深度z（x））的多个图像中的对应关系基于SfM的自适应光流场估计算法7MMMt+1不t−1t图3.第三章。图示显示了从3D点到位移矢量w.r.t.的转换过程到前向帧t+1和后向帧t-1。使用对应的投影矩阵;参见图2。最后，在我们的例子中，给定三个帧，使用投影矩阵Pt+1、Pt和Pt−1，可以直接将估计的深度值转换为相应的位移向量w.r. t。到前向帧t+1和后向帧t-1（图3）：ust ，fw（x，z（x））=π（Pt+1~s（x，z（x））-π（Pt~s（x，z（x）），（5）u st，bw（x，z（x））=π（Pt−1~s（x，z（x））−π（Pt~s（x，z（x）））。（六）3.2分层匹配有了深度参数化，我们现在转向实际的匹配。虽然将经典的PatchMatch方法[4]直接应用于该问题通常会由于不存在的显式正则化而产生噪声结果，但我们采用了集成分层粗到细方案的想法，该方案已被证明在光流估计[15]的上下文中不太容易产生噪声。在[15]中，我们不估计所有像素位置的未知数，但对于种子的多个集合Sl={sl}，在每个分辨率级别上定义l∈ {0，1，. . . ，k-1}的粗到细金字塔。而种子的数量对于每个分辨率级别保持相同，它们的空间位置由下式给出x（sl ）=η·x（sl−1）f或 l≥1，（7）其中·是返回最接近的整数值的函数，并且η=0。5是两个连续金字塔等级之间采用的下采样因子。此外，l=0（全图像分辨率）的位置位于具有3个像素的间距的规则图像网格的交叉点处，并且具有经由空间邻接定义的缺陷邻域系统。此外，这些邻域关系在整个粗到细金字塔中保持固定。现在以经典的从粗到细的方式执行匹配：从最粗的分辨率开始，通过迭代地执行随机搜索和邻域传播来处理每个级别，如[4]中所示。当粗化级别使用未知深度的随机初始化时，后续级别用下一个较粗级别的对应种子的深度值来初始化。此外，随机采样的搜索半径在整个粗到细金字塔中指数地减小，使得随机搜索被限制到接近当前最佳深度估计的值。Xxt+1xt−1XtXtxt−1xt+18D. 毛雷尔N.马尼奥克湾Goldluecke和A.Bruhn23.3成本计算和时间平均/选择由于我们考虑三个图像，因此有几种可能性来计算对应块之间的匹配成本一种可能的选择是计算所有成对相似性度量w.r.t.参考补丁并平均成本。虽然如果实际3D点在所有视图中可见，则这使得估计更鲁棒，但是在遮挡的情况下可能导致恶化的结果为了处理这个问题，可以应用时间选择的思想[19]并计算所有成对的相似性度量w.r.t.参考补丁，但只考虑最低的成对成本作为总成本。由此，可以确保，只要可以在至少一个视图中找到参考块并且在剩余的视图中被遮挡，则正确的对应关系保持小的成本。在我们的实验中，我们将使用这两种方法，时间平均和时间选择。最后，我们利用SIFT描述符[15，20，21]来计算两个相应位置之间的相似性这也使得匹配比直接对强度值进行操作更鲁棒。关于成本函数，我们遵循[15]并应用鲁棒的L1损失。由此产生的正向和反向结构在执行时的成本Ct+1和Ct−1分别由Ct+1（x，z（x））=||fSIFT（π（Pt+1~s（x，z（x）））−fSIFT（π（Pt~s（x，z（x）））||第1条，第（8）项Ct−1（x，z（x））=||fSIFT（π（Pt−1~s（x，z（x）−fSIFT（π（Pt~s（x，z（x）||第一条，（九）如果SI F T标识符不包含SIFT-f，则||·||1是L1-范数。时间平均和时间选择成本的计算或恢复Cavg（x，z（x））=1（Ct+1（x，z（x））+Ct−1（x，z（x），（10）Cts（x，z（x））=min（Ct+1（x，z（x）），Ct−1（x，z（x）. （十一）3.4离群值处理最后，我们将经典的双向一致性检查扩展到我们的三视图设置。因此，我们不仅以帧t作为参考视图来估计深度值，而且以其他两个帧作为参考来估计深度值。然后，我们取帧t处的估计深度值zt（x），将其投影到帧t +1和t−1中，取帧t处的估计深度值zt+1（x）和zt−1（x），并将其投影到帧t。只有当两个反投影中的至少一个映射到起始点x时，深度值zt（x）才被认为是有效的。在这种情况下，前向/后向结构匹配可以经由等式2从zt（5）-（6）。4组合匹配在这一点上，我们已经计算了从帧t到帧t+1和t-1的过滤的前向和后向结构为了清楚起见，让我们将这些m表示为chesbyst，fw和dust，bw。更多地，如图1中所示。1.一、我们已经计算出了对应的前向和后向光流匹配。基于SfM的自适应光流场估计算法9使用分层PatchMatch方法对相同帧进行无约束运动[15]。由于这些光流匹配经历了经典的双向一致性检查以去除离群值（这需要额外地计算来自frames t+1和t−1到framet的匹配），因此letusdentetembyoff，fw和duoff，bw。现在，组合步骤的目标是以这样的方式融合这四个匹配，使得场景的刚性部分可以从结构匹配中受益。因此，必须记住，光流匹配可以解释刚性运动，而结构匹配在独立物体运动的上下文中通常是错误的。为了避免在不适当的位置使用结构匹配，我们提出了一种保守的方法：我们增加光流匹配与结构匹配获得的匹配。这意味着我们总是保持前向流的匹配，如果它已经通过了离群值过滤。然而，否则，我们考虑通过结构匹配方法的匹配来增强在该位置处的最终匹配为了决定是否真的应该考虑这样的结构匹配，我们提出了三种不同的方法（见图1）。4）：许可方法。第一种方法是最宽容的方法。它包括所有的中断，如果在没有备用磁盘的情况下，它可以充当外部磁盘，这是可行的。限制性方法。第二种方法更具限制性。我们不包括所有结构匹配，而是强制执行额外的一致性检查。这允许降低盲目地包括可能的错误匹配的概率对于此情况，需要使用数据库库优化流程，bw。我们只对存储器数据流进行识别，如果数据库数据流存在差异，则数据流与存储器数据流之间存在差异。由于后向光流匹配没有通过离群值过滤，因此无法执行附加的一致性检查，因此我们不考虑结构匹配。投票方式。最后，我们提出了一种投票的方法，强制执行附加的一致性检查的限制性的方法，但仍然允许包括结构匹配的情况下，额外的一致性检查不能执行。对于每个序列单独地进行是否应当包括这种不可检查结构匹配的决定它基于一个投票方案：所有包含正向、反向和结构匹配的有效匹配的位置都有资格投票。如果结构匹配与前向匹配和后向匹配都一致，我们将其视为赞成包含不可检查匹配的投票如果投票超过某个阈值（在我们的实验中为80%），则添加所有不可检查的结构匹配。这可以被视为允许识别具有大量自我运动的场景的检测方案。5评价评估设置。为了评估我们的新方法，我们在管道中使用了以下组件（参见图1）：姿态估计使用增量SfM方法[26]的OpenMVG [27]实现，前向和后向匹配采用粗到细PatchMatch（CPM）[15]10D. 毛雷尔N.马尼奥克湾Goldluecke和A.Bruhn正向匹配反向匹配结构匹配（w. R. 测试前向帧）结构匹配（w. R. t后向帧）一致性检查失败/=合格选民允许式方法限制式方法投票法（投票失败）表决法（投票获胜）图4.第一章显示组合计算匹配的不同策略的插图顶部：颜色编码的输入匹配。白色表示不匹配。底部：融合结果。的方法，结构匹配和一致的组合进行描述，在第2节。图3和图4分别示出了图1和图2中的对应关系，随后是使用[14]的组合对应关系（ RIC ）的鲁棒插值最后，使用顺序自适应照明感知细化方法（OIR）[22]来细化修复的匹配。除了细化，我们使用训练数据优化[35]每个基准的三个加权参数，我们使用默认参数。基准。为了评估我们的方法的性能，我们考虑三个不同的基准：KITTI 2012 [11]、KITTI 2015 [24]和MPI Sintel [7]基准。这些基准表现出自我运动引起的光流的增加量。虽然KITTI 2012由纯粹的自我运动组成，但KITTI 2015还包括其他交通参与者的运动。最后，MPI Sintel还包含来自动画角色的非刚性运动。基线。为了衡量改进，我们建立了一个基线，不使用结构信息，只依赖于前向光流匹配（CPM）。作为Tab。1显示，我们的基线优于大多数相关的方法。只有DF+OIR [22]表现稍好，这是由于高级DF匹配[25]。结构匹配。接下来，我们研究了我们的新结构匹配方法的性能。因此，我们用我们的结构匹配方法（CPMz）的三种变体替换了我们基线中的匹配方法（CPM）：两帧变体、具有时间平均的三帧变体和具有时间选择的三帧变体。如Tab中的结果。1显示，结构匹配在纯自我运动场景中显著优于基线，而在具有独立运动的场景中自然存在问题。此外，它们表明使用多帧是有回报的。然而，虽然对于KITTI基准测试，时间平均的鲁棒性比时间选择的遮挡处理更有益，但对于MPI Sintel基准测试，情况相反。这反过来可能归因于MPI Sintel包含大量闭塞的事实。由于这两种策略都有各自的优势，我们考虑这两种变体进行进一步的评估。基于SfM的自适应光流场估计算法11图五、KITTI 2015基准测试示例[24]（#186）。第一行：参考帧、后续帧、地面实况。第二行：正向匹配、结构匹配（深度可视化）。后面几排。从左至右：使用的火柴（颜色编码见图4）、最终结果，像素可视化不良自上而下：基线法、允许法、限制法、表决法。无约束匹配。除了基线之外，我们还评估了仅基于无约束匹配的两个附加变体：仅使用后向匹配的变体和用后向匹配增强前向匹配的变体。因此，我们认为，在这一过程中，我们需要更多的创新，即：e. uf，fw=−uof，bw. 数据库的结果将在实验室中流出。因此，简单的模型不允许利用有用的信息来预测前向流。即使增强的变体与基线相比也没有改善联合方法。现在让我们来评价我们的综合办法。在此背景下，我们比较了不同组合策略的影响。可以在Tab中看到。第一，宽容的做法不是一种选择。虽然它对于主导自我运动工作得很好，但是在独立对象运动的情况下，它包括太多的错误相比之下，限制性的方法，防止包含错误的结构匹配，但不能利用这样的匹配在场景中占主导地位的自我运动的全部潜力。尽管如此，它已经显著优于基线，并为MPISintel提供了最后，投票方法结合了两种方案的优点。它为KITTI2012/2015提供了最佳结果，与基线相比，改进幅度高达50%，同时仍提供了改进w.r.t. MPI Sintel。这一观察结果也通过图1中的实施例得到证实。5/6.它们显示了在遮挡区域中包括结构匹配的有用性和过滤一般的假结构匹配的重要性。12D. 毛雷尔N.马尼奥克湾Goldluecke和A.Bruhn表1. KITTI 2012 [11]（所有像素），KITTI 2015 [24]（所有像素）和MPI Sintel[7]基准测试（干净渲染路径）的训练数据集的结果，包括平均端点误差（AEE）和坏像素百分比（BP，3px阈值）。方法名称匹配KITTI 2012 KITTI 2015修复细化AEE BP AEE BPSintelAEECPM-流量[15]相关CPM接近史诗ches（+base史诗线）3.00 14.58 7.7822.862.00RIC-Flow [14]CPMRicOpenCV 2.94 10.94 7.2421.462.16CPM+OIR [22]CPM史诗OIR2.789.687.3619.211.99DF+OIR [22]DF史诗OIR2.34 9.29 5.89 18.10 1.91基线CPMRicOIR2.61 8.98 6.8218.70 1.95仅结构匹配两帧CPMzRicOIR2.259.479.1523.02 17.09时间平均化CPMzRicOIR1.25 6.51 7.85 19.11 20.68时间选择CPMzRicOIR1.436.698.06十九点五二十五点六九仅无约束匹配逆潮流CPMRicOIR6.90四十三点九六44.124.00前向流CPMRicOIR2.618.986.82 18.70 1.95组合FW BWCPMRicOIR4.53十八点九三9.54二十七点四二2.05时间选择（TemporalSelection）允许进近CPM/CPMzRicOIR1.47 5.914.9514.122.53限制性方法CPM/CPMzRicOIR1.606.225.2015.10 1.88投票方式CPM/CPMzRicOIR1.48 5.82 4.91 13.95 1.90时间平均（TemporalAverage）许可方法CPM/CPMzRicOIR1.30 5.714.2113.722.92限制性办法CPM/CPMzRicOIR1.596.175.0414.97 1.90表决法CPM/CPMzRicOIR1.30 5.674.1613.61 1.92最近文学PWC-Net [36]CVPR4.14–33.672.55[18]第十八话CVPR4.09–30.372.02[23]第二十三话AAAI3.29–23.27–DCFlow [42]CVPR––15.09–MR-Flow [41]CVPR––14.09 1.83[17]第十七话ICCV––9.98–PWC-Net-ft[36]学习的CVPRg方法（微调）（1.45）–（2.16）（9.80）[18]第十八话CVPR（1.28）–（2.30）（8.61）[23]第二十三话AAAI（1.14）–（1.86）（7.40）与文学比较。最后，我们比较我们的方法从文献中为此，我们同时考虑训练和测试数据集;见表1。1和Tab。2所示的序列。关于训练数据集，我们的方法通常比没有微调的最近的学习方法（PWC-Net[36]，FlowNet 2 [18]，UnFlow [23]）产生更好的结果。此外，它在KITTI 2015基准测试中的表现也优于DCFlow [42]和MR-Flow [41]只有MR-Flow [17]（KITTI 2015）和MR-Flow（MPI Sintel）提供了更好的结果。这种良好的性能也适用于测试数据集，对此我们基于SfM的自适应光流场估计算法13图六、MPI Sintel基准测试示例[7]（ambush5 #44）。第一行：参考帧、后续帧、地面实况。第二行：正向匹配、结构匹配（正向匹配可视化）。后面几排。从左至右：使用的火柴（颜色编码见图4）、最终结果，像素可视化不良自上而下：基线法、允许法、限制法、表决法。评估了在训练数据上表现最好的方法。在这里，在KITTI 2012年，我们的方法表现良好（所有像素），甚至相比，基于纯自我运动和语义信息的方法。此外，它还优于在KITTI 2015上具有显式SfM背景估计（MR-Flow）的最近方法最后，排名第二和第六，我们的方法也产生了良好的性能上的清洁和最后一套MPI Sintel，分别。这表明我们的方法不仅在纯自我运动的背景下工作得很好，而且还可以处理大量的独立对象运动。固定参数集。最后，我们调查的结果如何变化时，没有优化的细化参数分别为每个基准。为此，我们考虑了时间平均的投票方法，并在所有参数固定的情况下对训练数据进行了实验。作为Tab。图3示出了当针对所有基准使用单个参数集时结果几乎没有恶化运行时间。不包括姿态估计的流水线的运行时间对于大小为1024×436（MPISIinttel）的一个帧是32 s，其使用在IintteIRC或 eTMi7- 7820 XCPU@3.6GHz上的时间，其分为：离群值过滤），<0.1s组合，1.5s修复，25s细化。姿态估计在整个图像序列上运行，其对于具有50帧的序列花费83s14D. 毛雷尔N.马尼奥克湾Goldluecke和A.Bruhn表2. KITTI 2012/2015 [11，24]和MPI Sintel基准[7]测试数据的前10个非匿名光流方法，不包括场景流方法。KITTI 2012Out-Noc Out-All Avg-Noc Avg-All KITTI 2015 Fl-bg Fl-fg Fl-allSPS-F113.38%10.06%0.9像素2.9像素PWC-Net9.66%9.31%9.60%PCBP-流程13.64%8.28%0.9像素2.2像素MirrorFlow8.93%17.07%10.29%SDF23.80%7.69%1.0像素2.3像素SDF28.61%23.01%11.01%MotionSLIC 13.91%10.56%0.9像素2.7像素无流量10.15% 15.93% 11.11%我们的方法h 4.02%6.15%1.0像素1.5像素CNNF+PMBP 10.08%18.56%11.49%PWC-Net4.22%8.10%0.9像素1.7像素我们的方法9.66% 22.73%11.83%取消流动4.28%8.42%0.9像素1.7像素MR-Flow210.13% 22.51%12.19%MirrorFlow4.38%8.20%1.2像素2.6像素DCFlow 13.10% 23.70%14.86%ImpPB+SPCI4.65%13.47%1.1像素2.9像素SOF214.63% 22.83%百分之十五点九九CNNF+PMBP4.70%百分之十四点八七1.1像素3.3像素JFS215.90% 19.31%16.47%MPI Sintel清洁所有匹配的不匹配MPI Sintel最终所有匹配不匹配MR-Flow22.5270.95415.365PWC-Net5.0422.44526.221我们的方法2.9101.01618.357DCFlow5.1192.28328.228流场+3.1020.82021.718FlowFields CNN5.3632.30330.313CPM23.2530.98021.812MR-Flow25.3762.81826.235MirrorFlow3.3161.33819.470S2F-IF5.4172.54928.795DF+OIR3.3310.94222.817我们的方法5.4662.68328.147S2F-IF3.5000.98823.986InterpoNet ff5.5352.37231.296SPM-BPv23.5151.02023.865RicFlow5.6202.76528.907DCFlow3.5371.10323.394InterpoNet cpm5.6272.59430.344RicFlow3.5501.26422.220ProbFlowFields5.6962.54531.3711 使用对极几何作为硬约束，仅适用于纯自我运动2 利用语义信息表3.细化参数优化的影响。方法KITTI 2012 KITTI 2015 Sintelname参数AEE BP AEE BP AEE投票方法单独优化1.305.674.16 13.61 1.92投票方法单参数集1.315.704.16 13.70 1.936结论在本文中，我们解决了这个问题的结构信息集成到特征匹配方法计算的光流。为此，我们开发了一种分层深度参数化的三帧SfM/立体PatchMatch方法，具有时间选择和先前姿态估计。通过自适应地将所得到的匹配与用于一般运动估计的最近PatchMatch方法的匹配相结合，我们获得了一种新颖的SfM感知方法，该方法受益于全局刚性先验，同时仍然能够独立地估计实验不仅在所有主要基准测试（KITTI2012/2015，MPI Sintel）上显示出出色的结果，而且在没有结构信息的基线由于我们的方法是基于修复和完善先进的功能匹配，它提供了另一个优势：其他光流方法可以很容易地受益于它通过将其匹配或所产生的密集流场作为初始化。致谢。我们感谢德国研究基金会（DFG）在SFB/Transregio 161项目B04和B 05中提供的财政支持。基于SfM的自适应光流场估计算法15引用1. 白，M.，罗，W.，Kundu，K.，乌尔塔松河：光流的语义信息挖掘与深度匹配In：Proc.欧洲计算机视觉会议pp. 1542. 贝勒角Varanasi，K.斯特里克，D.：基于CNN的阈值铰链嵌入损失光流匹配。在：Proc.IEEE Conference on Computer VisionandPatternRecognition中。pp. 27103. 鲍湖，加-地Yang，Q.，Jin，H.：大位移光流的快速边缘保持PatchMatch。在： Proc.IEEE Conference on Computer Vision and Pattern Rec o gnit i tion中。pp. 15104. 巴恩斯角Shechtman，E.，Finkelstein，A.，Goldman，D.B.：PatchMatch：一种用于结构图像编辑的随机对应算法。ACM Transactions on Graphics 28（3），24（2009）5. Behl ， A. ，贾法里岛 Mustikovela ， S. ， Alhaija ， H. ， Rother ， C. ，Geiger，A.：边界框、分割和对象坐标：识别对于自动驾驶场景中的3D场景流估计有多重要在：Proc. IEEEInterna-tio nalCo nfere nceo nComuterVisio n中。pp. 25746. Bleyer，M.，Rhemann，C.，Rother：，C.：PatchMatch立体-立体匹配与SLANTEDS UPPORTWINDWS.In：Proc.BritishMac hi neVisi o nCo nfere。pp.14：17. 巴特勒DJ Wulff，J.，Stanley，G.B.，布莱克，M.J.：一个用于光流评估的自然主义开源电影。在：Proc.欧洲计算机视觉会议。pp. 6118. Demetz，O.，Stoll，M.，Volz，S.，Weickert，J.，Bruhn，A.：学习亮度转换函数，用于联合恢复照明变化和光流。在： Pr oc.EuropeanConferenceonCom up uterVision。pp. 4559. Gadot ， D. ，沃尔夫湖： PatchBatc

下载后可阅读完整内容，剩余1页未读，立即下载