光流一致性策略在光流估计中的应用

192 浏览量更新于2023-10-25 收藏 2.05MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3181‡†光流场估计的一致性Jisoo Jeong1Jamie Menjay Lin2，< $h Porikli1Nojun Kwak3，1高通人工智能研究院2谷歌研究院3首尔大学{jisojeon，fporikli} @ qti.qualcomm.comnojunk@snu.ac.krjmlin@google.com摘要通过代理任务强加一致性已被证明可以增强数据驱动的学习，并在各种任务中实现自我监督。本文介绍了新的和有效的一致性策略的光流估计，一个问题，标签从现实世界的数据是非常具有挑战性的。更具体地说，我们提出了自监督学习形式的遮挡一致性和迫零，以及半监督学习形式的变换一致性。我们应用这些一致性技术的方式，网络模型学习更好地描述像素级运动，同时不需要广告注释。我们证明了我们的一致性策略应用于使用原始数据集和标签的强基线网络模型，提供了进一步的改进，在非立体类别的KITTI-2015场景流基准测试中获得了最先进的结果。我们的方法实现了最佳的前景精度（4.在F1-all中为33%），即使仅使用单目图像输入，在立体和非立体1. 介绍光流表征跨图像的对应像素之间的密集位移，例如视频中的两个连续帧之间的密集位移[9，19，40，43]。它广泛应用于视频分析应用，包括视频压缩[32，46]，动作识别[6，29]，视频降噪，[3，8]和对象跟踪[25，52]，以指出几个。与光流估计同样重要的是，光流估计也面临着重大挑战。由于摄像机和物体运动引起的遮挡呈现出一个固有的困难，其中场景的一部分在一个图像中可见，但在该对图像的另一个图像中不可见。有几种方法通过显式估计要排除的区域来解决这个问题[34，51]，* Qualcomm AI Research是Qualcomm Technologies，Inc.的一项计划这项工作是在Qualcomm AI Research完成的。Nojun Kwak获韩国政府资助的韩国国家研究基金会（NRF）资助（2021R1A2C3006659）。图1.在训练过程中，我们通过应用随机遮挡模式和施加网络来检测连续图像（I t，I t +1）之间的遮挡区域，从而通过自我监督来加强遮挡一致性。我们还采用变换的一致性（等方差几何变换），在半监督的方式为图像对（It ，It+k ）和trans-t。形成对（T（It），T（It+k）），其中k≥1。自我监督[31]，或通过纳入上下文信息[43]。然而，这些方法的接受度有限，因为它们依赖于多个向前-向后迭代来预测遮挡区域[34，41]，或者对于更大的遮挡失败。获得光流的精确注释是直接影响学习性能的另一个挑战。由于像素级运动注释需要专门且昂贵的数据采集系统，并且在许多情况下，此类注释不支持高精度和空间分辨率，因此光流数据集在数量、种类和真实度方面受到限制[9，19]。因此，对大规模真实世界数据集的需求成为瓶颈。为了减轻注释问题，过去已经提出了无监督学习[20，24，34，45]和半监督学习[27，47]方法。然而，无监督学习方案通常会导致性能下降，落后于完全监督学习3182Σ¨¨×[24，30，45]。相比之下，半监督学习[27]可以通过数据增强以及生成对抗网络[14]提供潜在的性能增益。在本文中，我们介绍了两个一致性策略的光流估计，以解决这些挑战，如图所1.一、首先，我们提出了遮挡一致性，它生成一个随机遮挡掩模，用于创建额外的图像对，并约束网络以自监督的方式预测掩模和零强迫流场。与其他方法不同，我们的遮挡一致性允许生成遮挡地面实况，而无需向前-向后迭代。虽然这种直观的策略很简单，但它使网络不会将遮挡模式混淆为运动指示器，而不会失去其对未遮挡图像区域的代表它还有助于网络在不需要额外标记的情况下为内核的局部感受野内的部分遮挡区域我们还结合了一个基于变换的一致性正则化，该正则化在使得能够在没有附加标记的情况下从更多样化的图像对集合中学习。• 将这两种一致性策略联合应用于训练并将遮挡估计通道集成到架构中，我们的模型产生了优于其基线的结果，在KITTI-2015场景流非立体单目数据集中实现了最先进的性能。2. 相关工作光流：经典的解决方案已经研究了几十年[4，15]，最近的进展是深度学习方法[9，19，37，39，43，51]。RAFT [43]通过从相应的图像对（It，It+1）中提取每像素特征，为所有像素对构建多尺度4维相关体积，并通过具有门控递归单元（GRU）[7]的细化模块迭代调整流量估计，并在相关体积中重复查找，证明了显著的改进。在地面实况光学信号之间计算损耗。半监督图像分类和目标检测任务[21，22，28，36，42]。这一策略有助于模型-流量f（It，I电话+1）和预测的光学流f_i（It，It+1）通过这种一致性正则化来构成等方差我们应用整个图像的几何变换，包括翻转，平移和旋转。然后，在评估整体变换一致性损失之前恢复变换。当我们的转变-在具有l1范数每次迭代NLRAFT=γN−if（It，It+1）−fi（It，It+1）i=1、（1）1通过两次前向流估计来推导周期一致性，通过一次前向流估计和另一次后向流估计来计算周期一致性[44据我们所知，这是第一次尝试通过一致性正则化光流估计施加等方差请注意，我们的方法是从传统的数据增强计划，expand训练样本，而不强加复杂的一致性损失在训练过程中不同。我们提出的自监督和半监督一致性学习策略不仅补充了先前最先进的RAFT [43]基线，而且能够显著改善模型准确性性能，如我们的实验结果所示。我们提出的方法实现了新的最先进的精度，并在KITTI-2015场景流非立体声排行榜上名列前茅（我们的：4。33%，6. 01%，3. 99% vs. RAFT：5. 百分之十，六。百分之八十七4.第一章在Fl-all、Fl-fg和Fl-bg中分别为74%我们的火车-与一致性策略相结合，其他密集预测任务。综上所述，我们的主要贡献如下：• 我们提出了一种新的遮挡一致性策略，该策略有助于以自监督的方式有效地学习遮挡鲁棒表示。• 我们将转换一致性等同于-其中N是GRU迭代的次数，γ是衰减因子（γ1）。最后的预测流量为f<$N（I t，I t+1）=f<$N（I t，I t+1），即所有迭代后的预测。遮挡处理方法：UnFlow [34]通过向前-向后约束识别遮挡[41]，并在训练期间排除遮挡区域。对于前向-后向约束，需要双向光流，并且误差可能累积和传播，部分原因是估计中连续值的离散化自监督学习也被引入到最近的作品光流估计。例如，SelFlow [31]对非遮挡区域进行流量估计，并使用这些预测来估计遮挡区域中的流量。然而，它需要四个光流推断（前向/后向遮挡/非遮挡对），并且显著增加了获得遮挡图和非遮挡 / 遮挡流的计算和存储器成本。Maskflownet [51]提出了一种可学习的遮挡掩模，当计算It和It+1的特征之间的相关性时，将其应用于下一个图像帧It+1。最近的研究[18，24]还提出了使用附加通道预测遮挡掩模，我们采用了这种方法。另一种解决方案是集成上下文信息。最近，RAFT[43]提出了一个上下文子网络，3183×··(a) 小咬合(b) 大咬合图2.遮挡问题的图示：（a）在轻微遮挡的情况下，可以使用更大的空间背景（红色到绿色）来校正遮挡区域(b)然而，在严重遮挡的情况下，遮挡区域会使较小可见区域（绿色到红色）的准确估计光流退化。并结合邻近像素信息。通过假设对象或片段中的像素具有相似的流，它细化了遮挡区域中的估计流场然而，如图5（RAFT结果）所示，在严重闭塞的情况下，匹配部分可能会被错误更新我们在下面的小节中更详细地分析上下文信息与以前的算法相比，我们的方法生成遮挡本身，并强制网络预测遮挡区域，而无需多次推理。1上下文信息：使用上下文来正则化图像片段内的估计可以改善光流，如[43]上下文子网络所预期的那样。然而，这种正则化需要在记住遮挡程度的同时进行图2示出了示例。在轻微遮挡的情况下，上下文片段（汽车）中的大多数像素（绿色）可能会被正确估计这里，上下文子网络可以在细化迭代上提供足够的支持。另一方面，在严重遮挡的情况下，遮挡区域的主要部分（红色）可能偏向于不正确的上下文，从而可能导致对应性估计的显著恶化图5中的RAFT估计给出了一个真实的例子，这个问题发生在一个主要的闭塞。为了解决这个问题，我们提出了遮挡一致性策略，如3.1节所述。自我监督学习：通过为未标记数据定义借口任务，然后使用它们来预训练模型，自我监督允许最大限度地利用未标记数据并提高下游模型的性能。1请注意，我们的贡献不是简单地添加一个通道，而是提出了一个新的方案，该方案在没有遮挡预测的情况下生成和训练遮挡。任务[13，50]。在[50]中，图像旋转了一个随机角度，并且预测了这个角度。通过旋转估计的辅助任务，网络为原始任务的性能改进留出了空间。然而，据报道，这种辅助任务的使用在监督设置中表现不佳，而在半监督和自我监督设置中表现更好[13，50]。半监督学习：具有一致性正则化的数据增强在半监督学习中很流行[28，36，42]，其中一组预定义的变换被应用于原始标记数据，并且扰动输入的输出被强制与原始数据的输出一致[28]。损失被定义为原始输入和扰动输入的输出之间的失配。结果表明，一致性正则化通过平滑底层数据流形来提高鲁棒性[36]。一致性正则化损失和监督损失通常是聚合的。类似的想法也适用于本地化问题，并表现出更好的性能[21，22]。在我们的工作中，我们将这个有前途的概念扩展到光流估计。也有关于半监督光流估计的研究，以减少对标记数据的依赖。在[27]中，使用了对抗学习设置，其中判别器学习光流是真实的（通过与地面实况的比较）还是用模型生成的在最小化网络损失的过程中，使用未标记的数据对训练生成器。在[47]中，从有雾图像生成干净图像，并且从干净图像生成有雾图像。模型使用干净和模糊图像之间的可互换样本进行训练。这些算法需要额外的网络来将图像转换为流量估计。在我们的建议中，我们不需要任何单独的网络作为我们训练框架的一部分，因为我们简单地通过比较原始对与变换对来获得基于等方差的一致性损失。3. 光流的一致性在这里，我们总结了本文中使用的符号我们将地面真实光流表示为f（It，It+k），并且两幅图像之间的预测光流为f（It，It+k）I t和I t+k在时间上相隔k。图片大小为WH.原始图像的被遮挡版本I t及其相应的遮挡掩模分别表示为I t、occ和O t。将预测的遮挡掩模表示为O*t。我们还使用T（）和R（）分别表示变换和变换恢复操作。我们下面描述的一致性策略是以自我和半监督的方式应用的，不需要额外的基础事实。3184∈NΣ¨¨N¨¨t不≥γN−i−Ot（p）log（Oi（ p））γN−ifi（I，I）3.1. 咬合一致性在本小节中，我们将讨论我们的遮挡一致性策略中的两种技术：迫零和掩码匹配丢失。迫零：为了对图像应用有意义的遮挡，我们定义了一个遮挡掩模OtRw×h。我们采用cow-mask [10，11]来创建足够随机但局部连接的遮挡模式，因为遮挡可以发生在图像中的任何大小，任何形状和任何位置，同时表现出局部可解释的结构。遮挡主要垂直于围绕对象边界（场景深度不连续性）移动对象（相机运动）的运动方向（深度不连续性），因此遮挡区域通常是连接的。使用带有随机遮挡掩模的自监督学习，使我们的网络能够响应和学习场景中这种复杂的遮挡结构。在自我监督的方式中，我们通过逐像素地将遮挡掩模与图像相乘来将遮挡掩模应用于单个图像，这允许我们获得新的图像对（It，It，occ），而不需要任何基础事实。遮挡掩模Ot的每个条目取二进制值;Ot（p）=1表示未遮挡像素p，Ot（p）=0对应于被遮挡像素。我们把流动闭塞这使我们能够计算迫零损失为图3.遮挡一致性：将随机掩模应用于原始图像It以构建It，occ。然后，针对图像对（It，It，occ）估计光流以及遮挡掩模。在这种情况下，目标基础真值是f（It，It，occ）= 0。我们将掩码匹配损失定义为Σ。1ΣΣi=1不NLZF=γN−i fi（It，It，occ）i=1.（二）1这里，我们使用交叉熵，γ和N是与（1）中定义的相同的参数。3.2. 转换一致性作为对遮挡一致性的增强，我们进一步引入了一种特殊情况，其中O t=1（无遮挡），这意味着新形成的对中的两个图像是相同的，即，该对为（It，It），这导致新的迫零损失Σ¨ ¨i=11变换一致性策略利用两种方法：一致性正则化和半监督学习的跳帧。我们将空间变换一致性应用于输入图像对，创建用于在原始对的估计光流和变换对的估计光流之间执行等方差的情况，此外，图4显示了光流的监督损失。此外，作为对这一转变的增强，掩码匹配损失：由于我们可以自动生成遮挡掩码，我们的直觉是，我们也可以在网络中估计它们，并通过以下方式增强另一种一致性：匹配生成的Ot掩码和估计的Ot掩码。To为了实现这一点，我们在网络的输出中引入了一个额外的通道来估计像素的遮挡状态这也有助于相关体积的更好特征对应，因为网络可以直接访问其层中的内部遮挡掩模。此外，遮挡掩模估计可以在迭代过程中以及与监督一起被细化。因此，我们在我们的遮挡一致性策略中同时和迭代地采用迫零损失和遮挡掩模匹配损失。tency方法中，我们将时间间隔从k = 1扩展到k 1，以包括图像描绘较大运动的对。现有数据集通常仅在连续图像帧It和It+1之间提供地面实况流场f（I t，It+1），而图像采样率可以从一个数据集到另一个数据集显著变化。允许具有更大帧间隙的对能够实现更通用的表征，以不同的速度对潜在的对象和相机运动进行控制一致性正则化：当对中的输入图像经历相同的空间（几何）变换2例如，Sintel [5]数据集的帧速率是每秒24帧，而KITTI [12]的帧速率是每秒10帧。零，即f（It，It，occ ）=0，因为没有运动，只有LMM=WH（四）pLZF=.（三）3185tr−iL=γ·E（L）。（9）TRI{α=1}trL--LLLLt t+k标识符掩码α（α∈Rw×h）如下αi=.1、如果Li <ϵ（八）0，否则。在这里，λ是一个很小的正常数，然后在最终的损失函数中使用它来防止网络发散NN i itr图4. Trans f denseconsistency. T（It）和T（It+k）是利用图像对（I t，I t + k）的逐图像变换（如图所示的随机旋转）生成的。通过相同的模型计算光学流f（It ，It+k ）和f（T（It），T（It+k）），图像对及其变换图像对。然后，估计通过应用变换恢复操作来重新映射变换对的流。如果我们有标记的数据，则在f和地面真实值f之间计算监督损失。是双射的我们利用这一特性，并在训练过程中对图像对进行直观的一致性正则化更具体地说，我们应用二维图像变换，包括翻转和随机旋转，我们观察到有效的选择，输入图像和相应的估计光流。图4示出了变换一致性正则化的示例我们将图像It和It+k变换为i=1其中I α i= 1表示仅对掩码中的那些满足期望。对于迭代流细化，在第i次迭代中计算i，如在（7）中，并且γ和N是与（1）相同的参数。跳帧：我们还利用跳帧，这是一种受ScopeFlow启发的技术[2]。我们的直觉是，数据集中较大的位移[5，12]主要存在于图像的边缘附近;因此，使用包含较大位移的样本进行训练可以提高模型性能。帧跳变（对于k >1的图像对（It，It+k））不仅提供更多的训练样本，而且提供具有更大位移的样本以增强学习。3.3. 累积损失我们的总损失包括常规监督损失（基础），迫零损失（ZF），掩码匹配损失（MM）和变换一致性损失（TR），如下所示：Ltotal=Lbase+LZF+λ 1 LMM + λ 2 LTR。（十）通过使用平衡参数λ1和λ2来组合标记数据的监督损失（（1）中的Lbase）和未标记数据的非监督损失（（2）中的LZF）、（（4）中的LMM）和（（9）中的LTR），以导出最终损失3。I，I−→TT（It），T（It+k）（5）4. 实验并使用我们的模型计算原始和变换对的光流。我们的假设是，在应用变换恢复后，估计的最优流应该是等价的f∈（It，It+k）=R.f<$（T（It），T（It+k））<$.（六）使用这个，我们计算转换一致性损失Ltr在f和R（f）之间，如下L=<$f（I，I）−R。f（T（I），T（I））2.（七）3186L数据集实现细节：在我们的实验中，我们使用了FlyingChairs（C）[9]，FlyingThings3D（T）[33]，Sintel （ S ） [5] ， KITTI （ K ） [12 ， 35] 和 HD1K（H）。[26]数据集，这是光流估计问题中最流行的基准有关我们的实验分析的更多细节，请参见补充材料。所有实验都是在相同的设置下进行的，官方代码为RAFT4。我们遵循相同的批量大小、优化器、GRU迭代次数等。随着图像对数量的增加，方法，我们增加了迭代次数的比例-特雷t t+kt t+k ？2盟友与RAFT类似，我们按顺序对模型进行了预训练在培训的最初阶段，一个更大的转变-不一致性TR更有可能发生，因此列车-可以发散。为了解决这个问题，我们引入了一个3零强制损失的计算与监督学习4https://github.com/princeton-vl/RAFT3187--联系我们表1.Sintel和KITTI的光流结果我们使用Flyingchairs（C）和Flyingthings（T）数据集训练模型，并在Sintel（S）和KITTI（T）的训练数据集上测试模型。对于Sintel和KITTI测试，我们使用Sintel，KITTI和HD1K（H）训练数据集的预训练模型（C+T）对模型进行了（数字越小越好。灰色的数字没有什么意义，因为它们是在训练数据上测量的。将没有标签的测试图像作为未标记的数据进行训练，并在KITTI-2012和KITTI-2015数据集上进行训练。* 是热启动的结果，§是未公开方法的结果。）方法培训数据集Sintel（列车-EPE）KITTI（火车）Sintel（测试-EPE）KITTI（试验）（清洁）（最终）（Fl-epe）（F1-全部）（清洁）（最终）（F1-全部）HD 3 [49][19]第十九话PWC-Net [39][第16话][17]第十七话VCN [48]MaskFlowNet [51]C+T3.842.022.552.482.242.212.258.773.543.934.043.783.683.6113.1710.0810.3510.398.978.36-24.030.033.728.525.925.123.1-3.96------ 六点零二分------------[43]第四十三话我们的（RAFT-小型+OCTC）2.211.953.353.137.516.5326.922.1------[43]第四十三话我们的（RAFT + OCTC）1.431.312.712.675.044.7217.416.3------SelFlow [31]ScopeFlow [2]C+T+S+K1.68-1.77---1.18-3.743.594.264.108.426.82[49]第四十九话[40]第四十话VCN [48]MaskFlowNet [51][43]第四十三话手工艺[1][38]第三十八话[第23话]Ours（RAFT +OCTC）Ours（RAFT +OCTC）Ours（RAFT +OCTC）C+T+S+K+H1.301.711.66-0.76--0.620.730.74-1.622.342.24-1.22--1.061.231.24-1.471.501.16-0.63--0.570.670.710.784.85.34.1-1.5--1.21.72.02.33.483.452.812.521.94/1.61*1 .一、45§2.01/– /1.58/1.55/1.41*4.694.604.404.173.18/2.86*二、42§3.14/– /2.95/2.98/2.57*7.627.726.306.105.104.794.785.154.72–4.33未公开A+T+S+K+HC+T+S+K+HFlyingChairs和FlyingThings3D。由于Flyingchair样本没有超过两个连续的图像，因此只应用了自监督学习。参数在（10）中被设置为（λ1，λ2）=（0.1，0.01），在（8）中被设置为λ2，并且k被设置为2。5对于遮挡一致性学习中的各种随机模式，我们使用与[11]中相同的参数应用cowmask6实验中使用的所有样本都来自原始数据集，没有额外的数据。实验结果：表1示出了所提出的方法和一些最近的光流估计算法的性能。用C+T训练的模型，RAFT报告了先前最先进的性能。然而，当我们应用我们的学习方案OCTC（遮挡一致性和转换一致性）时，我们进一步提高了它的性能。此外，我们的方法在包含真实图像的KITTI基准测试中优于其他方法。我们的方法达到了0.26和0.225我们在32，52，72中执行网格搜索，以获得等式中的Δ值。8和1.0、0.1、0.01、0.001中的值以上。10个。最佳超参数为[λ1，λ2]=（0.1，0.01）。这些实验的更多细节和结果见补充文件。6 https ： //github 。 com/google-research/google-research/tree/master/milking_cowmask3188Sintel-clean 和 Sintel-final 的 EPE 分别相对于 RAFT-small有所改善。对于KITTI数据集，EPE下降了令人印象深刻的0.98，Fl-all下降了4.8%。使用RAFT-大模型，我们在预测光流方面的性能仍然获得了额外的改进; Sintel-clean和Sintel-final的EPE减小了0.12和0.04，KITTI数据集的EPE减小了0.32，Fl-均减小了1.1%表1的下半部分显示了Sintel和KITTI测试数据集模型使用Sintel和KITTI的训练数据集进行训练。对于在Sintel数据集上训练的模型，与RAFT相比，clean和final的测试EPE分别降低了0.12和0.09对于在KITTI-2015数据集上训练的模型此外，我们用测试图像训练了我们的模型，而没有将它们视为未标记的数据。在 Sintel中，干净版本和最终版本的测试与MaskFlowNet一样，当我们对KITTI- 2012和KITTI-2015进行微调时，我们的模型显示出进一步的性能改善，Fl-all得分为4.33%，这在KITTI-2015数据集上达到了最新水平。所提出的方法比传统的RAFT模型具有约0.77%的增益。当我们申请3189GroundTruthRAFT OursOcclusionGTOurs（Ot）图5.使用RAFT和我们的RAFT+OCTC（遮挡一致性和转换一致性）模型（使用C+T训练）的Sintel训练集的定性结果。第一行表明，我们的RAFT+OCTC，它采用帧跳变换的一致性，更好地为大位移比RAFT。第二行显示我们的RAFT+OCTC可以预测遮挡区域，它可以帮助我们的模型防止错误的预测。图像RAFT Ours图6.使用RAFT和我们的RAFT+OCTC（闭塞一致性和转换一致性）模型（使用C+T+S+K+H训练）的KITTI测试集的定性结果。我们的方法与热启动，它也显示了性能的改善。与其他算法相比，我们的方法对Sintel和KITTI数据集都带来RAFT-A [38]显示KITTI数据集的性能有所改善，但其性能在Sintel数据集中有所下降。GMA [23]报告了Sintel数据集中最先进的性能，但其性能并不一致;它比KITTI数据集中的基线RAFT更差。定性结果：图5提供了对Sintel训练数据集的定性比较，其中长距离移动和大面积遮挡的场景分别显示在顶部和底部行中。在这两种情况下，我们的模型表现出比RAFT基线更高的准确性，表明我们的一致性实施策略的影响具体来说，在第一行中，我们用帧跳跃训练的模型可以改进长距离运动的处理在最下面的一行中，我们的RAFT+OCTC展示了大面积遮挡的改进的鲁棒性（更多示例请参见补充文件）。图6提供了KITTI测试数据集的定性比较，其中我们的算法还证明了预测输出的改进一致性。表 2. 闭塞一致性（ OC ）的消融研究我们使用Flyingchairs（C）和Flyingthings（T）数据集训练了我们的模型，并在Sintel（S）和KITTI（T）的训练数据集上进行了测试。 LZF和LMM 分别是（2）中的迫零损失和（4）中的掩码匹配损失。方法（小）额外损失Sintel（列车-EPE）KITTI-15（列车）清洁最终Fl-epeFl-allRAFT（基线）-2.213.357.5126.9RAFT + OCLZF（It，It）LZF（It，It，occ）LMMLZF（It，It，occ）+LMM2.232.172.112.053.593.353.313.188.277.227.147.0725.824.224.323.55. 讨论遮挡一致性项：如表2所示，当我们最初使用（I t，I t）进行迫零（即，相同的样本作为没有遮挡的特殊情况），我们观察到可能由于过拟合而导致的性能下降。当我们在其中一个样本（It，It，occ）中应用遮挡我们注意到，L MM和迫零的组合产生了显着的性能改进，可能是GRU中的相互学习的结果，同时在上下文信息的可用性中进行流量和遮挡预测。3190表3.转化一致性（TC）的消融研究。H和R是水平翻转和随机旋转（其他符号与表2相同）方法（小）K 转型Sintel（列车-EPE）KITTI-15（列车）清洁最终Fl-epeFl-allRAFT（基线）--2.213.357.5126.9RAFT + TC1,2HR2.062.053.193.156.416.5022.622.5RAFT + TC1,21,2,3R2.052.053.153.146.506.6922.522.6表4.变换一致性与遮挡一致性的组合（其他符号同表2）方法（小）Sintel（列车-EPE）KITTI-15（列车）清洁最终Fl-epeFl-allRAFT（基线）2.213.357.5126.9RAFT + OC2.053.187.0723.5RAFT + TC2.053.156.5022.5RAFT + OC + TC1.953.136.5322.1表5.在24次GRU迭代后，在KITTI上与RAFT基线在精度、模型大小和推理时间方面的比较。模型KITTI数量参数推理时间Fl-epeFl-all筏（小）RAFT + OCTC（小型）7.516.5326.922.1990,162997,04399.03毫秒101.53毫秒筏RAFT + OCTC5.044.7217.416.35,257,3655,263,803140.18毫秒143.21毫秒变换恢复：我们考虑了在从变换中恢复坐标时，不仅要反转位移量，还要反转符号和轴。例如，在恢复90°旋转时，我们计算了像素位置的倒数，并更改了符号和流矢量轴。模型大小和速度：我们使用Nvidia V100 DX-8 C GPU测量KITTI数据集的平均推理时间。如表5所示，我们的模型在只有最小模型开销的情况下显著优于基线RAFT。到转换一致性：我们使用水平翻转和随机旋转在我们的变换一致性策略中，我们评估了每种类型的这些变换的性能7。如表3所示，这两种类型的转换显示出相当的准确性增益，尽管旋转在Sintel中的效果更好。这些有趣的观察结果可归因于数据样本的特征。例如，KITTI图像样本通常由驾驶场景中的向下像素移动主导，同时在向右和向左移动之间相当平衡。这可以为是否在垂直和水平方向上应用对称泛化提供策略在我们的补充材料中，我们提供了几个数据集的分布曲线。我们还尝试了一系列的k值。在一定的k范围内，Sintel和KITTI样品都产生了明显的改善。然而，有趣的是，Sintel和KITTI根据经验证明了其最合适的k范围的上界有些不同，这可能再次归因于垂直和水平方向上的流量分布的数据样本系统的分析可以提供更多的洞察力的准确性提高的方式。组合一致性策略：在表4中，两种一致性策略都显示了相对于基线模型（RAFT-小）的性能改进。并且，应用这两种方法显示出更好的性能。我们的猜想是，每个策略的影响得到增强，并且通过联合学习提高了泛化能力。7一些转换方法可能会提高性能。请注意，旋转（90度、180度和270度）和水平翻转可确保一一对应支持转换一致性，没有增加模型大小。遮挡一致性要求小模型大小在大模型和小模型上分别仅增加0.12%和0.69%，用于掩码推导，这对推理时间的影响也很小此外，在训练过程中，我们的模型按顺序计算基线和转换输出，而不需要额外的内存。局限性：我们的算法可以进一步改进，以适用于非常大的遮挡区域。此外，我们目前在我们的遮挡训练中只使用自监督学习，使用从单个图像（It，It，occ）创建的样本对。此外，我们推测，在某些低频区域中预测准确的光流可能是具有挑战性的，在这些低频区域中，由于遮挡，边界可能被隐藏。这个问题可以使用带有标记数据的遮挡生成网络来研究。另一个需要进一步研究改进的领域可能是对帧速率的分析。除了我们的一致性，迫零和帧跳变的方法，时间一致性等方面可以进行调查。6. 结论在本文中，我们介绍了新颖的和有效的一致性学习策略，促进遮挡consideration和变换的一致性，光流估计。我们进一步引入增强，零强迫，ING作为一个特殊的情况下，遮挡一致性和帧跳跃作为一个概括的变换一致性，我们的整体一致性学习框架。联合应用这些方法，我们证明了超过基线的经验优势。具体来说，我们的方法设置了新的最先进的性能，并在KITTI-2015场景流非立体声排行榜中排名第一。我们打算在今后的研究中使我们的框架适应更广泛的任务3191引用[1] 匿名的交叉注意力流Transformer。网址：//www.cvlibs。net/datasets/kitti/eval_scene_flow.php？基准=流量，2021年。6[2] 阿维拉姆·巴尔-海姆和里奥·沃尔夫。Scopeflow：光流的动态在IEEE/CVF计算机视觉和模式识别会议论文集，第7998-8007页，2020年。五、六[3] Kireeti Bodduna和Joachim Weickert。结合区块滤波器与光流法去除多帧高斯噪声。电子成像杂志，30（3）：033031，2021。1[4] 托马斯·布洛克斯，还有布鲁恩，尼尔斯·帕彭贝，约阿希姆·韦克特。基于翘曲理论的高精度光流估计。欧洲计算机视觉会议，第25-36页。Springer，2004. 2[5] Daniel J Butler 、 Jonas Wulff 、 Garrett B Stanley 和Michael J Black。一个用于光流评估的自然开源电影。欧洲计算机视觉会议，第611-625页。Springer，2012.四、五[6] Zixi Cai，Helmut Neher，Kanav Vats，David A Clausi，and John Zelek.基于姿态和光流的曲棍球动作识别。在IEEE计算机视觉和模式识别研讨会会议论文集，第0-0页1[7] KyunghyunCho，BartVanMerrieünboer，CaglarGulcehre ， Dzmitry Bahdanau ， Fethi Bougares ，Holger Schwenk，and Yoonge Bengio.使用rnn编码器-解码器学习短语表示用于统计机器翻译。arXiv预印本arXiv：1406.1078，2014。2[8] Vale'ryDe wil，Je're' myAnger，AxelDa vy，ThibaudEhret，Gabriele Faciolo和Pablo Arias。多帧视频盲去噪的自监督在IEEE/CVF计算机视觉应用冬季会议论文集，第2724-2734页1[9] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet：使用卷积网络学习光流。在IEEE计算机视觉国际会议的论文集，第2758-2766页，2015年。一、二、五[10] Geoff French ， Timo Aila ， Samuli Laine ， MichalMackiewicz，and Graham Finlayson.半监督语义分割需要强的、高维的扰动。 arXiv 预印本 arXiv ：1906.01916，2019。4[11] Geoff French，Avital Oliver和Tim Salimans。用于半监督图像分类的挤奶奶牛面罩。arXiv预印本arXiv：2003.12022，2020。四、六[12] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun. Vision meets robotics：The kitti dataset.The InternationalJournal of Robotics Research ， 32（11）：1231-1237，2013. 四、五[13] Spyros Gidaris，Praveer Singh和Nikos Komodakis。通过预测图像旋转的无监督表示学习。arXiv预印本arXiv：1803.07728，2018。3[14] Ian Goodfellow 、 Jean Pouget-Abadie 、 Mehdi Mirza 、Bing Xu 、 David Warde-Farley 、 Sherjil Ozair 、 AaronCourville和Yoshua Bengio生成性对抗网。在神经信息处理系统的进展，第26722[15] Berthold KP Horn和Brian G Schunck。确定光学流量。图像理解的技术和应用，第281卷，第319-331页。国际光学与光子学学会，1981年。2[16] Tak-Wai Hui，Xiaoou Tang，and Chen Change Loy. Lite-flownet：一个用于光流估计的轻量级卷积神经网络。在IEEE计算机视觉和模式识别会议论文集，第8981- 8989页6[17] Tak-Wai Hui，Xiaoou Tang，and Chen Change Loy.一种轻量级的光流计算方法--重访数据保真和正则化。arXiv预印本arXiv：1903.07414，2019。6[18] Junhwa Hur和Stefan Roth。联合光流和遮挡估计的迭代残差细化。在IEEE计算机视觉和模式识别会议论文集中，第5754-5763页，2019年。2[19] Eddy Ilg ， Nikolaus Mayer ， Tonmoy Saikia ， MargretKeuper，Alexey Dosovitskiy，and Thomas Brox.Flownet2.0：深度网络光流估计的演变。在IEEE计算机视觉和模式识别会议的论文集，第2462-2470页，2017年。一、二、六[20] Joel Janai 、 Fatma Guney 、 Anurag Ranjan 、 MichaelBlack和Andreas Geiger。具有遮挡的多帧光流的无监督学习。在欧洲计算机视觉会议（ECCV）的会议记录中，第690- 706页，2018年。1[21] Jisoo Jeong ， Seungeui Lee ， Jeesoo Kim ， and No

下载后可阅读完整内容，剩余1页未读，立即下载