无监督学习中提高光流估计的方法

69 浏览量更新于2023-10-16 收藏 1.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2061光流：感知光流变化的无监督学习Rémi MARSAL*<$Florian CHABOT*Angelique LOESCH*Hichem SAHBI<$*Université Paris-Saclay，CEA，LIST，F-91120，Palaiseau，Francefirstname. cea.fr法国巴黎索邦大学CNRS LIP 6 F-75005firstname. lip6.fr摘要无监督光流估计依赖于这样的假设，即表征相同观察对象的像素应该在视频帧中表现出稳定的外观在这种假设下，流量估计背后的长期原则在于优化光度损失，其最大化连续帧中成对像素之间的相似性。然而，由于场景的辐射特性及其观看条件，这些帧可能会受到强烈的亮度变化在本文中，我们提出了一种新的方法来训练任何光流估计网络在一个无监督的方式。它包括训练两个网络，共同估计光流和亮度变化。然后在光度损失中补偿这些变化，使得由于阴影或反射引起的重建误差不会对训练产生负面影响。由于这种补偿机制仅在训练阶段使用，因此我们的方法不会影响参数的数量或推理的复杂性。在标准数据集和光流场结构上进行的大量实验表明，该方法具有一致的增益。源代码可在https://github.com/CEA-LIST/BrightFlow上获得。1. 介绍光流测量在连续时刻获取的给定场景中每个像素的相对运动。这任务具有许多应用，包括运动分割[51，50，48]，视频中的异常检测[25，26，1]或视频表示[11，32]。虽然传统方法[3，6，5，35]基于具有手工特征，几何和统计标准的优化问题，但更近的方法依赖于深度学习方法[13，42，43]，需要在大型数据集上训练神经网络。他们的原则在于学习一个映射，图1：光度损失图，显示亮度变化对其的影响在这里，汽车的后侧在第二幅图像中留下了阴影，导致了亮度的重大变化。它诱导的光度损失的峰值，而光流是很好的估计。估计流量与其基础事实之间的监督损失然而，这些回归模型的成功高度依赖于大型标记集合的可用性。虽然密集标记的合成集合非常丰富[9，7，28]，但它们无法捕捉真实世界场景的内在变化，这可能导致深度网络具有较弱的跨域泛化能力。相反，标记的现实视频集合是稀缺的，因为它们的标记是时间/精力要求。无监督光流估计是一种替代方法，可以避免缺乏标记数据。在这些方法中，通过最小化测量视频中的原始帧和变形帧之间的亮度一致性的光度损失来实现训练。尽管如此，亮度一致性在实践中可能不成立;一方面，场景的内在内容变化导致遮挡。另一方面，由于反射、阴影，20626420亮度变化（一）20100亮度变化（b）第（1）款图2：EPE（a）和ER（b）的性能随亮度变化而变化。Sintel最终数据集中的所有未被遮挡的像素已根据亮度变化的幅度被分成四组（从具有最低亮度变化的25%像素到具有最高亮度变化的25%像素它表明，较高的亮度变化导致更差的结果。传感器取向等。在下文中，我们将所有这些外观变化归类在亮度变化的通用术语下，亮度变化是指在第二图像中仍然可见的第一图像的元素的外观的任何变化。因此，被遮挡的像素不被认为是亮度变化的一部分。文献中已对闭塞问题进行了广泛研究：有不同的方法来估计它们[4，45];几种方法使用知识蒸馏来监督人工遮挡区域中的流量预测[22，23]，而其他方法则使用专用技术来估计遮挡区域中的光流[37，24]。相比之下，亮度变化受到的关注要少得多，而它们误导了光流估计，因为对于不同的外观，找到相应的像素更难（见图2）。在本文中，我们将重点放在防止亮度变化影响测光损失。当前最先进的无监督光流估计方法使用光测量损失中的软普查损失[10]来比较图像及其重建。它是[53，36]的可微版本，因此可以用作损失函数来训练神经网络。然而，虽然对许多亮度变化（诸如乘法重新缩放和伽马校正）具有全局鲁棒性，但是这种损失是不可预测的。筏筏EPE儿2063仅对全局加性变化不变;使其在亮度变化的某些情况下是次最佳的（参见图1）。因此，亮度变化仍将引起光度损失的误差，这是光流网络权重的不适当更新的原因。考虑到上述问题，我们在本文中介绍了一种新的框架，该框架通过专用于此任务的神经网络来模拟亮度变化，并且其训练是无监督的。其输出校正图补偿了光度测量损失中的亮度变化。目标是通过减少光度损失中引起的偏差来帮助光流网络处理请注意，我们的方法不依赖于任何渲染模型[2，31]，这可能需要有关场景的光源定位或3D考虑到上述问题，拟议的工作包括以下贡献：• 亮度校正网络是一种神经网络，它将源图像、变形的目标图像和底层遮挡图作为输入。它预测源相对于目标的逐像素亮度变化图。它是优化与非监督光度损失，衡量扭曲和原始帧之间的差异。• 一种新颖的光度损失，包括亮度校正门控机制，以充分利用亮度校正图。• 所提出的方法适用于任何光流体系结构。此外，它只在训练过程中被考虑，以提高光流网络的泛化能力。这使得我们的方法的运行时间和内存占用类似于推理时的原始光流网络。• 最后，通过涉及不同数据集和光流体系结构的大量实验，证明了我们的方法的一致增益。我们还强调了更好的跨域推广。2. 相关工作2.1. 监督光学估计深度学习的进展在光流估计领域产生了重大影响。早期的解决方案基于卷积网络，包括FlowNet的开创性工作 [13]及其多栈变体[14]。[33]通过用在较低尺度下估计的光流扭曲图像来迭代地进行PWC-Net和LiteFlowNet [42，12]使用成本量来衡量从连续图像推断的特征图许多工作改进了PWC-Net [42]：使用不同的相关性2064不不∈我我我不∈L LLV{}T {V}在成本卷[49，44]或利用闭塞预测[55]。尽管上述方法是从粗到细的，但最近的解决方案RAFT [43]立即评估涉及连续帧中所有成对像素的成本量，然后使用门控递归单元[8]以唯一分辨率细化流。随后的贡献已经改进了RAFT（注意[17]，稀疏和更复杂的成本量[18，38，54，56]）或使用变换器的修正光流估计[15，47]。2.2. 无监督光流估计方法由于光流地面实况的高昂成本，已经开发了许多无监督的方法早期作品[52，34]仅利用光度和平滑度损失。随后的方法通过利用遮挡[29，45]，前向-后向一致性标准[29]，两个以上的帧作为输入[16]或知识蒸馏[22，23]来实现更好的准确性。处理被遮挡像素的光流也已经由OIFlow研究[24]提出了一种特殊的结构来修补遮挡，以及SMURF[37]，其将光流逆向先前的图像，以便估计被遮挡物体的运动。SMURF [37]还对完整图像而不是摄影计量损失中的裁剪图像应用扭曲，以减少边界遮挡量。架构也在无监督方法中进行了调整，具有改进的上采样模块[27]或更轻的网络，标准化的成本量和辍学[19]。最近的方法依赖于复杂的数据增强[21]或从随机形状的图像掩模的叠加中生成高度变化的数据集[41]。2.3. 亮度变化光流估计方法建立在这样的假设上，即表征相同物理对象的像素应该在视频中的帧之间表现出相似的外观。然而，这种假设在照片级真实感数据集的情况下是错误的，因为阴影和反射会导致亮度变化（不同帧中相应像素的外观改变）。监督和非监督光流方法都通过直接处理图像的光流网络受到亮度变化的影响为了使网络对亮度变化不可知，采用了非对称数据增强[43，37]。它包括将流量估计器暴露于具有人工生成的强亮度变化的图像，以便使其对大范围的亮度变化有弹性。更具体地，两个输入图像接收不同的光度数据增强。在光流的无监督学习的情况下，光度损失也暴露于亮度变化。这可能在光度损失中引起假阴性，这可能损害光流网络的训练。虽然闭塞具有虽然在文献中已经充分阐述了亮度变化，但相对而言，亮度变化受到的关注要少得多[23，37]。我们的方法侧重于后一个问题。由于非对称数据增强强调亮度变化，因此它可能不是一个充分的解决方案。常用的解决方案是设计为在一定程度上对亮度变化具有弹性的函数，如SSIM [46]或当前在最先进的方法中使用的软中心损耗[10然而，这些功能是手工制作的，可以限制处理一些亮度变化。在本文中，我们提出了一种新的方法，mixFlow，使软普查损失的光度损失动态由于网络训练，以模拟亮度变化。3. 方法3.1. 无监督光流的若干问题设=ii是视频的集合，其中每个视频是表示为i= Iit的有序帧序列，其中IiRH×W×C和H、W、C分别代表帧高度、宽度和通道数。的图像可以重新排列成连续帧的并集。设（I1，I2）是的一个元素，估计从I1到I2的光流包括推断向量场F1RH×W×2，该向量场解释了I1中每个像素相对于I2中相应像素的二维相对运动。该场可以捕获物体和传感器的刚性/非刚性移动。它是用一个映射函数来估计的，使得<$θ（I1，I2）=F1.在实践中，θ对应于具有可学习参数θ的深度神经网络。详细的架构和训练过程中给出的子表和实验。当进行光流预测时，我们定义从I1到I2的前向方向和从I2到I1的后向方向。在无监督设置之后，并且考虑没有光流基本事实的连续图像的训练集，可以找到θθ的最佳参数θθ= argminθL（θ），其中L是定义为的全局损失，L（ θ）=γphLph1 （ θ）+γsmLsm1 （ θ）+γselfLself1（θ）（1）其中ph1，sm1，self1分别代表光计量、平滑度和自监督前向损失;γph、γsm、γself是它们各自的权重。每个损失都是反向计算的，但在本节的其余部分（简称），我们只描述每个损失的正向版本通过交换索引1和2获得相应的后向表达式，然后对前向和后向损失进行平均。光度损失。在没有地面实况的情况下，可以学习光流，因为用光流F1扭曲I2提供了I1的重建：2065L11¨. x.c∈{r，g，b}. 埃克斯湾. 伊 .. yk.？将其解释为光流估计中的误差，尽管它们对性能有影响，如图2所示。在-光流和亮度校正网络块共享权重（更多细节请参见图4）。它们从图像I1和I2在前向方向上预测光流F1和校正映射C1对称地，它们还从图像I2和I1在向后方向上预测光流F2和校正图C2然后，在光度损失Lph1中，将图像I1与利用光流F1变形的校正图像I2+C2进行比较。同样，测光损失Lph2将图像I2和利用光流F2变形的校正图像I1+C1作为输入。w是具有光流的图像的扭曲函数。ph的损失损害了图像与其重建之间的光度误差。然而，只有当成对像素在I1和I2中都可见时，这种损失的一致性才Lph1（θ）=<$O1<$ρ（I<$1，I1）<$1/<$O1<$1，（2）应传达相似的运动场;在高度纹理化的区域和对象边界上禁用该行为。自我监督损失。一个具体的解决方案解决了像素的问题，走出了图像帧（边界闭塞）。它依赖于教师预测FT对学生预测FS的监督，教师预测FT被认为是伪预测。1 1其中，1表示1-范数，1表示 Hadamard乘积，地面真相教师预测FT由下式获得：uct. ρ代表条目距离，此处为软普查损失[10]，它测量两个图像之间的差异（关于我们实现软census损失的更多细节O1是指一个二进制遮挡掩模，当且仅当底层观察点在I1和I2中都可见时，其给定像素条目设置为1;否则，条目设置为0。有关遮挡计算的更多信息在没有任何数据增强的情况下，通过网络传输θ图像I1和I2然后，相同的图像被裁剪并仅使用光度数据增强来增强。这些图像被用作预测FS的输入。自我监督损失涉及c广义Charbonnier函数[39，40]，其表达式为：L（θ）=1||c（FT，FS）||、在实现细节部分提供了映射。自我1HW1 11平滑度损失。为了提高物体级光流的一致性，平滑度损失被利用3.2. 亮度变化校正上述损失使得能够以无监督的方式训练光流估计模型，具有特定的so-1¨HW.λ Σ3. 1. Σ。F1赛车。解决方案来处理被遮挡的像素。然而，处理Lsm1（θ）=exp−.C.-是的.亮度变化的损失仍然被忽视，.λ Σ. 1. Σ。F1.事实上，人口普查的软损失虽然强劲，但仍然对+exp −.C.-是的."，一些亮度变化，误导光度损失其中λ是标量，k是平滑阶，I1c是I1的第c个通道，并且指数逐项应用。利用该平滑项，具有低梯度范数的像素使指数变高，从而促使流的梯度取小值。换句话说，属于同一对象的像素（即，低梯度）mation 它主要涉及强烈的亮度变化，例如，由于阴影而引起的过度/不足或非常复杂的变化。为了解决这个弱点，我们提出了一个新的光流框架，处理亮度变化没有监督（见图3）。这种方法可以建立在任何光流网络之上，3 c∈{r，g，b}206611L−LpH1-L1FpHCpH1Lsue，我们建议将光度损失重写为：Lph1（θ，θc）=<$O1<$ρ（I<$c，I1）<$1/<$O1<$1，（3）是I<$c=w（I2+C2，F1）而不是I<$1=w（I2，F1）在等式2中。I2被I2+C2取代，所以，RIC损耗需要前向和后向光流。前者（F1）直接用于Lph1中的翘曲操作，而后者（F2）用于获得校正C2。现在，用C2最小化Lph1的简单解决方案是C2=w−1（I1，F1）−I2，这是θ不可及的图4：图3中“光流&亮度校正网络”模块的详细功能。光流网络将图像I1和I2作为输入来预测光流F1。为了返回校正图C1，亮度校正网络被馈送图像I1、具有光流F1的扭曲图像I2和遮挡图O1。不影响其架构，因此在推理时，其属性在计算成本和内存消耗方面保持不变，以获得更好的该方法包括联合学习光流和逐像素亮度变化校正图。然后在光度损失中使用校正来补偿亮度变化。目标是防止光度损失，以提高重建错误，这是由于亮度变化时，流量是很好的估计。据我们所知，这是第一个使用动态光度损失处理亮度变化的方法。3.2.1亮度校正网络亮度校正网络对连续帧之间的亮度变化进行建模。这个模块，记为Iθc，作为输入（I1，Iθ1，O1），其中Iθ1=w（I2，F1），C因为F1不在其输入中然而，当前向流和后向流一致时，则w-1（. F1）= w（.， F2）在未被遮挡的像素上。因此，人们可以预期，该模型将有利于F1和F2的一致性，但要花费它们对运动的建模能力，因此可以通过预测C2=I2来实现ph 1的最小化I2. 为了克服这个问题，使前后一致性有约束的不可能是适得其反的，因为真正的流是一致的。所以我们的解决方案是I从模型的计算图中的输入θc。因此，不影响和潜在地篡改光流网络。由公式3引起的光测误差将基于流量F1和校正C2而不是流量F2反向传播。最后，模型的其他元素影响光流网络的方式，可以是不兼容的过度，前后一致性。它包括平滑性和自监督损失，以及以下事实：光度量损失被应用于光流网络的每个预测，而亮度变化仅从光流网络的最后预测估计。3.2.2亮度校正选通在F2的估计误差的情况下，即使在非遮挡区域中，扭曲图像I1也可能不能正确地重建I2。因此，不匹配的像素将在I2和I2中具有相同的坐标。这样的输入可以欺骗亮度校正网络，导致校正图C2中的误差。为了减轻它们在损失ph1（等式3）中的影响，仅保留使重构误差ρ'最小化的像素然而，掩盖估计不佳的核心-rections防止它们在损失中的惩罚，因此防止校正估计器的适当训练。这就是为什么-给出了一个稠密的亮度校正图C1∈RH×W×3其他损耗Lc被添加到先前描述的pho。在三个RGB通道上，如图4所示。 C1补偿非遮挡像素上从I1到I2的照明变化。可以通过在Lph1（等式2）中插入I 1 + C 1而不是I1来训练NRFLOW。因此，C1=I1I1将最小化pH1. 然而，由于I1和I1在亮度校正网络的输入中，因此后者仅需推断I1和I1之间的差异。所以在流量估计器的流量损失（重命名为f）。这种新的光度损失专门用于校正估计器的优化。为此，将梯度停止应用于在Iwc的绘制中使用的光流F1。经过亮度变化校正的最终光度损失为：最后，流估计器将崩溃。为了解决这个问题-Lph1（θ，θc）=Lph1（θ）+γcLph1（θc）（4）2067F111C××pHpH1××FFL数据集新特尔清洁辛特尔决赛KITTI架构EPE EREPE EREPE ER筏3.938.243.9711.222.878.39RAFT + BASED Flow（Ours）3.257.493.3310.262.887.98GMA3.207.423.6610.523.478.73GMA +超声波流量（我们的）3.247.093.4410.023.248.23SCV3.406.773.8410.325.0010.62SCV +流量（我们的）3.286.743.7110.294.419.85表1：Sintel和KITTI数据集的RAFT [43]，GMA [17]和SCV [18]架构上无监督学习的性能比较Lph1（θ）=<$O1<$ρ（M1<$I<$c+M1<$I<$1，I1）<$1/<$O1<$1（5）增强如RAFT，其包括空间增强（翻转、拉伸、重新缩放、裁剪）和光度增强（亮度的随机变化，作为M1=1{ρ′（Ic，I1）≤ρ′（I1，I1）}（带指示器）对比度、饱和度和色调），其可以针对每个输入图像独立地进行。估计遮挡掩模函数1{. ≤。}应用条目），M1它的补数，和用Wang方法[4]用于KITTI。与SMURF [37]类似，模型针对75k次迭代进行优化，批量大小设定为Lph1（θc）=<$O1<$ρ′（I<$c，I1）<$1/<$O1<$1。（六）8和亚当[20]优化器。学习率初始设置为同样，ρ是软普查损失，ρ′对应于实际中的1尽管有这种选择机制，一些校正仍然可能被高估，导致一些像素强度超过正常图像的范围值。为了防止这种行为而不影响亮度校正网络的优化，校正图像的像素值在光学系统的光度损失中被裁剪cal流估计器L（等式5）。实际上，L210−4呈指数衰减，直到210- 7在过去的迭代总数的20%光流网络首先预训练20k次迭代（直到达到良好的光流性能）。然后，对于5k次迭代，我们在训练中包括亮度校正网络，而不将其校正应用于光度损失以初始化亮度校正网络。从步骤25 k开始，我们使用照片中的校正pH1pH1度量损失Lf.在所有实验中，γf= 1，γf=使用增强图像，但不使用Lf（详情请参阅pH0的情况。1ph phγ补充资料中的流伪代码）。4. 实验4.1. 数据集我们评估了我们的方法在标准数据集上的性能，即Sintel [7]，KITTI 2015 [30]和HD1K，它们表现出强烈的亮度变化。这些数据集仅为训练数据提供基础事实因此，我们互换了相关工作中常用的训练集和测试集[19，37]。像SMURF [37]一样，KITTI的输入图像尺寸为296 696，Sintel为368 496;评估是在原始图像尺寸下进行的。4.2. 实现细节我们在光流网络的以下三种架构之上应用了光流：RAFT [43]，GMA [17]和SCV [18]。亮度校正网络架构包括从RAFT获取的编码器和上采样器，以返回与输入图像相同分辨率的校正图。我们从头开始进行所有的实验（基线和训练与ESTFlow）。我们使用相同的数据-self设置为0除非另有说明。系数2068LpHpHL在前40%的迭代中，然后在随后的10%迭代中线性增加到平滑度损失的超参数取决于数据集：一阶平滑度和γsm= 2。对于Sintel，γ sm = 5;对于KITTI，γsm= 4只有边缘灵敏度保持不变：λ= 150。除c外，所有损失均应用于RAFT、GMA或SCV以SMURF序列丢失的方式[37]。C仅应用于最后的光流预测。4.3. 结果我们使用像素的平均端点误差（EPE）和百分比的错误率（ER）来评估我们的方法的性能。对于后一种测量，如果其距离超过3个像素或5% w.r.t.，则在给定像素处的流量估计被认为是错误的。它的地面真相定量结果总结见表1，定性结果见图5和补充材料。它表明，训练 RAFT、 GMA 或SCV 光流架构作为RAMPFlow的一部分提供了比在没有亮度校正的情况下训练这些网络更好的结果。这在合成数据集上观察到，2069γpH1pHpHFL图5：在KITTI上使用或不使用RAFT Flow训练的RAFT的定性结果（最佳彩色视图从上到下，图像是I1、I2、I2+ C2、C2、F1，它们是通过在没有使用RAFT流的情况下训练的RAFT然后使用RAFT流训练的。Sintel以及包括KITTI在内的照片级逼真数据。平均而言，EPE和ER中的无监督学习分别提高了7%和5%，EPE和ER中的RAFT分别提高了11%和8%。在EPE指标方面，两种配置（KITTI+RAFT和Sintel+GAM）在使用ESTFlow时的这很容易解释，因为我们仅使用RAFT架构对Sintel数据集进行了消融研究（参见4.4），超参数c可能不是其他配置的最佳参数，即使它始终能够改善ER指标。值得注意的是，无监督训练的光流体系结构的性能排名与相关工作中报告的结果不同，当它们的训练受到监督时（例如，参见[18，17]）。事实上，全球海洋环境状况评估并没有在所有基准上都优于其他架构;GMA在合成数据（Sintel）上超过了其他人，但在照片级真实数据（KITTI）上低于RAFT。同样，SCV相对于其他架构的排名也是不同的，而其性能预计将劣于RAFT和GMA。图6说明了亮度校正网络对性能的影响，取决于不同的亮度变化量。无论它们的大小如何，使用亮度校正网络训练模型都会提高性能。增益进一步放大，上具有更高的亮度变化的像素。这清楚地表明，我们的方法能够弥合满足亮度一致性的像素和其他（更具挑战性的）像素之间的精度差距。我们提出了跨域推广的结果，表2. 这表明，在某些情况下，一个标准的无监督训练的光流网络。EPE和ER的平均改善率均为2%。这证实了我们的方法在更困难的任务上的鲁棒性，即跨数据集评估。4.4. 消融研究在这一节中，我们研究了XNUMBERFlow的每个组件对性能的影响，包括亮度校正网络、应用于其输入的梯度停止和亮度校正选通机构。为了显示它们对我们的方法的好处，已经进行了几次训练，每次增加一个贡献所有这些组件对性能的影响如表3所示。根据观察到的结果，利用光度损失中的亮度变化此外，当梯度停止、校正图像的裁剪和门控机制被启用时，还观察到额外的增益。表4还提供了对不同γc值的研究。为了更好地理解亮度校正网络学习的内容，我们进行了额外的实验（更多细节请由于这些实验都没有超过我们的方法，这些结果证实了数据增强的重要性，并且亮度校正网络不仅学习了第3.2.1节的平凡解，也没有阈值来过滤cen。2070−→−→−→ →−→ Flo wpHpH光流体系结构KITTI Sintel clean KITTI Sintel final KITTI HD1K SintelKITTI EPE ER EPE EREPE ER筏3.498.383.97 11.221.17 5.12 15.12 23.63表2：跨域泛化。这些结果比较了使用或不使用光流训练的光流网络对来自不同数据集而不是训练数据集的帧进行预测的能力。−10−15−200−5−10−15亮度变化（a）Sintel清洁Sintel决赛BCNGSCCIGMEPE儿EPE儿3.97 11.22✓3.67 10.70中国3.58 7.81 3.47 10.75澳门新萄京3.78 7.89 3.41 10.39澳门新葡8455 7.83 3.36 10.34澳门银河3.25 7.49 3.33 10.26表3：我们方法的每个组件的影响。它包括亮度校正网络（BCN）、输入端的梯度停止（GS）、流量光度损失校正图像的裁剪（ CCI ）和亮度校正门控机制（GM）。这些实验是在Sintel数据集上用RAFT作为光流网络进行的。亮度变化（b）图 6 ：在 Sintel 数据集上使用 Bright-Flow 训练 RAFT时，%EPE（a）和ER（b）的相对增益作为亮度变化最终Sintel的所有未被遮挡的像素根据亮度变化的幅度被分成四组（从具有最低亮度的25%像素到具有最高亮度的25%像素）。SUS损失异常值。根据这些结果，我们相信它学会了识别假设的亮度变化是真实的（由于阴影或反射）或流量估计中的错误以及如何处理它们的情况。5. 结论我们在本文中介绍了一种新的非监督方法，即训练深度神经网络进行光流估计。所提出的方法的优势在于其模拟亮度变化的能力。光学cSintel清洁Sintel决赛EPE儿EPE儿0.013.667.643.3810.220.13.257.493.3310.2613.517.653.4310.48103.307.923.4310.78表4：改变γc对在Sintel数据集上用RAFT Flow训练的RAFT的性能的影响。流网络与亮度校正网络联合训练，亮度校正网络对由于阴影和反射引起的光度差异进行建模，以补偿它们的损失。由于后一种网络仅在训练期间使用，因此它对推理期间光流估计的时间/内存占用没有影响在标准数据集上进行的大量实验突出了我们提出的解决方案w.r.t.相关的作品。6. 确认这份出版物是利用FactoryIA超级计算机完成的，该计算机得到了法兰西岛地区委员会的资助。筏筏EPE（%）百分比（%）γ筏✓3.828.354.6711.761.044.9313.6923.32GMA4.058.614.7112.041.255.4015.9224.56GMA✓3.828.384.5311.61.185.2513.8823.57SCV3.257.534.7512.381.194.9716.8123.56SCV✓3.317.464.6512.151.124.5417.1323.742071引用[1] Khalil Bergaoui 、 Yassine Naji 、 Aleksandr Setkov 、AngéliqueLoesch 、 MichèleGouiffès 和 RomaricAudigier。以对象为中心和记忆引导的视频异常检测正态重构。ICIP，2022年。[2] Benedikt Bitterli ， Chris Wyman ， Matt Pharr ， PeterShirley，Aaron Lefohn，and Wojciech Jarosz.用于动态直接照明的实时光线跟踪的时空存储器ACM Transactionson Graphics（TOG），39（4）：148[3] 迈克尔·J·布莱克和帕德马纳班·阿南丹。鲁棒的动态运动估计随时间的推移。在CVPR，1991年。[4] Thomas Brox ， Andrés Bruhn ， Nils Papenberg ， andJoachim Weickert.基于翘曲理论的高精度光流估计。见ECCV，2004年。[5] 托马斯·布洛克斯和吉坦德拉·马利克大排量光学流量：变分运动估计中的描述符匹配。IEEE transactions onpattern analysis and machine intelligence，33（3）：500[6] 安德雷斯·布鲁恩，约阿希姆·韦克特，克里斯托夫·施诺尔。Lucas/Kanade遇上Horn/Schunck：结合局部和全局光流方法。国际计算机视觉杂志，61（3）：211[7] D. J. Butler，J. Wulff，G. B. Stanley和M. J.布莱克。一个用于光流评估的自然主义开源电影ECCV，2012年。[8] Kyunghyun Cho ， Bart Van Merriënboer ， DzmitryBahdanau，and Yoonge Bengio.关于神经机器翻译的特性：编码器-解码器方法。SSST-8，2014年。[9] A. 多索维茨基山口Fischer、E.Ilg，P.豪塞尔角Hazırbas，V. Golkov，P. v.d. Smagt，D. Cremers 和T. 布洛克斯Flownet：使用卷积网络学习光流在ICCV，2015年。[10] 大卫·哈夫纳，奥利弗·德梅茨，约阿希姆·韦克特。为什么普查变换有利于稳健的光流计算？在SSVM，2013年。[11] Tengda Han，Weidi Xie，and Andrew Zisserman.用于视频表示学习的自监督协同训练。神经IPS，2020年。[12] Tak-Wai Hui，Xiaoou Tang，and Chen Change Loy. Lite-flownet：用于光流估计的轻量级卷积神经网络。在CVPR，2018年。[13] Eddy Ilg ， Nikolaus Mayer ， Tonmoy Saikia ， MargretKeuper，Alexey Dosovitskiy，and Thomas Brox.Flownet2.0：深度网络光流估计的演变在CVPR，2017年。[14] Eddy Ilg ， Nikolaus Mayer ， Tonmoy Saikia ， MargretKeuper，Alexey Dosovitskiy，and Thomas Brox.Flownet2.0：深度网络光流估计的演变在CVPR，2017年。[15] Andrew Jaegle 、 Sebastian Borgeaud 、 Jean-BaptisteAlayrac、Carl Doersch、Catalin Ionescu、David Ding、Skanda Koppula、Daniel Zoran、Andrew Brock、EvanShelhamer 、 Olivier J Henaff 、 Matthew Botvinick 、Andrew Zisserman、Oriol Vinyals和Joao Carreira。感知器IO：结构化输入输出的通用在ICLR，2022年。[16] Joel Janai 、 Fatma Guney 、 Anurag Ranjan 、 MichaelBlack和Andreas Geiger。具有遮挡的多帧光流的无监督学习。在ECCV，2018。[17] Shihao Jiang ， Dylan Campbell ， Yao Lu ， HongdongLi，and Richard Hartley.学习使用全局运动聚合来估计隐藏运动。ICCV，2021。[18] Shihao Jiang ， Yao Lu ， Hongdong Li ， and RichardHartley.从几场比赛中学习光流。在CVPR，2021年。[19] Rico Jonschkowski，Austin Stone，Jonathan T Barron，Ariel Gordon，Kurt Konolige，and Anelia Angelova.无监督光流中的在ECCV，2020年。[20] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。ICLR，2015年。[21] Liang Liu ，Jiangning Zhang，Ruifei He ，Yong Liu ，Yabiao Wang ， Ying Tai ， Donghao Luo ， ChengjieWang，Jilin Li，and Feiyue Huang.类比学习：无监督光流估计转换的可靠监督。在CVPR，2020年。[22] Pengpeng Liu，Irwin King，Michael R Lyu，and Jia Xu.Ddflow：学习光流与未标记的数据蒸馏。在AAAI，2019年。[23] Pengpeng Liu，Michael Lyu，Irwin King，Jia Xu. Self-low：光流的自我监督学习。在CVPR，2019年。[24] Shuaicheng Liu ， Kunming Luo ， Nianjin Ye ， ChuanWang，Jue Wang，and Bing Zeng.Oiflow：通过无监督学习进行遮挡修复的 IEEE Trans-actions on ImageProcessing，30：6420[25] W. Liu，L.Lian W.Luo和S.高.用于异常检测的未来帧在IEEE计算机视觉和模式识别会议（CVPR），2018。[26] Zhian Liu ， Yongwei Nie ， Chengjiang Long ， QingZhang，and Guiqing Li.一种通过内存增强流重构和流引导帧预测的混合视频异常检测框架。在IEEE计算机视觉国际会议论文集，2021年。[27] Kunming Luo ， Chuan Wang ， Shuaicheng Liu ，Haoqiang Fan，Jue Wang，and Jian Sun.Upflow：用于无监督光流学习的上采样金字塔。在CVPR，2021年。[28] N.迈耶，E. Ilg，P. Häusser，P.费希尔，D. Cremers，A.Dosovitskiy和T.布洛克斯一个大型数据集，用于训练视差、光流和场景流估计的卷积网络在CVPR，2016年。[29] Simon Meister，Junhwa Hur，and Stefan Roth. Unflow：对具有双向集中损失的光流进行无监督学习。在AAAI，2018。[30] Moritz Menze和Andreas Geiger。自动驾驶车辆的对象场景流。CVPR，2015。[31] Ben Mildenhall，Pratul P Srinivasan，Matthew Tancik，Jonathan T Barron ， Ravi Ramamoorthi ， and Ren Ng.Nerf：将场景表示为用于视图合成的神经辐射场。在ECCV，2020年。[32] AJ Piergiovanni，Anelia Angelova，and Michael S Ryoo.无监督视频表示学习的演变损失。在CVPR，2020年。[33] Anurag Ranjan和Michael J Black。使用空间金字塔网络的光流在CVPR，2017年。2072[34] Zhe Ren，Junchi Yan，Bingbing Ni，Bin Liu，XiaokangYang，and Hongyuan Zha.用于光流估计的无监督深度学习。InAAAI，2017.[35] JeromeRevaud，PhilippeWeinzaepfel，ZaidHarchaoui，and Cordelia Schmid. Epicflow：光流对应的边缘保持插值。CVPR，2015。[36] 弗里德约夫·斯泰因使用普查变换的光流的高效计算在联合模式识别研讨会，2004年。[37] Austin Stone ， Daniel Maurer ， Alper Ayvaci ， AneliaAngelova，and Rico Jonschkowski.Smurf：具有全图像变形的自学在CVPR，2021年。[38] Xiuchao Sui ， Shaohua Li ， Xue Geng ， Yan Wu ，Xinxing Xu，Yong Liu，Rick Goh，and Hongyuan Zhu.工艺：交叉注意力流量 Transformer 强大的光流 . 在CVPR，2022年。[39] 孙德庆，斯特凡·罗斯，迈克尔·J·布莱克。光流估计的秘密及其原理。CVPR，2010。[40] 孙德庆，斯特凡·罗斯，迈克尔·J·布莱克。光流估算的当前实践及其背后的原理的定量分析。InternationalJournal of Computer Vision，106（2）：115[41] Deqing Sun，Daniel Vlasic，Charles Herrmann，VarunJampani ， Michael Krainin ， Huiwen Chang ， RaminZabih，William T Freeman，and Ce Liu. Autoflow：学习光流的

下载后可阅读完整内容，剩余1页未读，立即下载