基于变换的可靠监督无监督光流估计方法

188 浏览量更新于2023-10-23 1 收藏 1.34MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6489EpiFlow类比学习：基于变换的无监督光流估计的可靠监督刘亮1张江宁1何瑞飞1刘勇1 <$王亚彪2应太2罗东浩2王成杰2吉林李2黄飞跃21浙江大学2腾讯优图实验室{leonliuz，186368，rfhe}@ zju.edu.cn，yongliu@iipc.zju.edu.cn{casewang，yingtai，michaelluo，jasoncjwang，jerolinli，garyhuang}@ tencent.com摘要光流的无监督学习，它利用了从视图合成的监督，已经成为一个有前途的替代监督方法。然而，无监督学习的目标在具有挑战性的场景中可能是不可靠的。在这项工作中，我们提出了一个框架，使用更可靠的监督转换。它只是通过使用增强转换的数据运行另一个前向传递，并使用原始数据的转换预测作为自我监督信号，从而扭曲了一般的无监督学习管道此外，本文还通过一个高度共享的流解码器，提出了一个轻量级的多帧网络。我们的方法在几个基准测试中始终获得性能飞跃，在深度无监督方法中具有最佳准确性此外，我们的方法取得了竞争力的结果，最近的完全监督的方法，而少得多的参数。1. 介绍光流作为图像的运动描述，已广泛用于高级视频任务[47，48，52，3，2，31]。受益于深度学习的发展，具有相当高的准确性和有效推理的基于学习的光流方法[39，30]正在逐渐取代经典的基于变分的方法[36，25，44]。然而，在现实中很难收集密集光流的地面真值，这使得大多数监督方法严重依赖于大规模合成数据集[7，26]，并且当模型转移到现实世界时，域差异导致潜在的退化。从另一个角度来看，许多作品提出以无监督的方式学习光流[37，27，42，24]，其中不需要地面真值这些工作的目的是训练网络的目标从视图合成[51，49]，主要在腾讯优图实验室实习期间完成的工作†通讯作者。98765432018年之前2019年2020年年图1.平均端点误差（AEPE）的时间轴在深光流中的进展标记大小表示网络大小，过大的标记已被调整.我们的方法优于所有以前的无监督方法，也产生可比的准确性，对监督方法来说是很有吸引力的，同时参数较少。†表示使用两个以上帧的模型。I.E. 优化参考图像和流动变形的目标图像之间的差异这个目标是基于亮度恒定性的假设，这将是vio- lated具有挑战性的场景，例如。具有极端亮度或部分遮挡。因此，需要适当的正则化，如遮挡处理[42，17]或局部平滑[27]。最近的研究集中在更复杂的正则化，如3D几何约束[34，41，22]和全局对极约束[50]。如图1.这些工作与监督方法之间还有很大的差距。在本文中，我们不依赖于几何正则化，而是重新思考任务本身以提高精度。有趣的是，我们注意到几乎所有的非监督作品，如[42，24，41]，避免使用大量的增强组合，即使它在监督流作品中被证明是有效的[15，38，14]。我们得出结论的原因有两个：（i）数据扩充基本上是多样性和有效性之间的权衡。它可以通过增加数据的多样性来改进模型，但也会导致数据分布的偏移，从而降低准确性。Sintel测试清洁的AEPEUnFlow-CSS温苏普韦尔韦的SupervisedOccAwareFlowMFOccFlowFlowNet-SSelFlowDDFlowLiteFlowNetPWC-NetOursOurs-MVIRR-PWCSelFlow-ftContinualFlow6490在无监督学习中，多样性的好处是有限的，因为丰富的训练数据很容易访问。（ii）数据增强将生成具有挑战性的样本，对于这些样本，视图合成更有可能是不可靠的，因此对象无法引导网络获得正确的解决方案。最近，有一些基于知识蒸馏的工作减轻了闭塞区域中不可靠目标的问题[23，24]。这些方法的训练分为两个阶段。在第一阶段，训练教师模型对原始数据进行预测，并离线创建具有随机裁剪或遮罩的遮挡样本。在第二阶段中，这些来自教师模型的人工样本然而，这些方法仅设计用于部分闭塞的情况。因此我们问：我们能否将遮蔽的升华推广到其他变换的情况？此外，由于冻结的教师模型，该方法具有瓶颈。因此，我们问：我们可以联合优化教师模型和学生模型，还是只训练单个网络？在这项工作中，我们解决了上述两个问题，一个新的无监督学习框架的光流。具体来说，对于第一个问题，使用不同的变换来生成具有挑战性的场景，例如低光、曝光过度、大位移或部分遮挡。对于第二个问题，我们不是用蒸馏优化两个模型，而是简单地在正则学习框架中扭曲训练步骤由于转换的自我监督避免了无监督目标在挑战场景中的模糊性，我们的框架允许网络通过与原始样本类比来学习，并逐渐掌握处理挑战样本的能力。总的来说，我们的贡献是：（i）我们提出了一种新的方法，通过只训练单个网络，将来自大量增强的自监督信号用于无监督光流;（ii）我们证明了我们的方法对于各种增强方法的适用性。除了遮挡，我们开发了一个更具有挑战性的转换的一般形式（iii）我们的方法在深度无监督方法中实现了性能的飞跃。它还实现了相当的性能w.r.t.以前的监督方法，但具有更少的参数和出色的跨数据集泛化能力。2. 相关工作监督光流。从FlowNet [7]开始，已经提出了各种具有监督学习的光流网络，例如。FlowNet2 [15]，PWC-Net [38]，IRR-PWC [14].这些方法在精度上与精心设计的变分方法[36，25]相当，并且在推理过程中更有效。然而，超级的成功-可视化方法严重依赖于大规模的合成数据集[26，7]，这导致在转移到真实世界应用时的潜在退化。作为替代方案，我们深入研究了无监督方法，以减轻对密集光流的地面真实值的需求。无监督光流Yu等人[18]首先介绍了一种用于学习具有亮度恒定性和运动平滑性的光流的方法，该方法类似于传统方法中的能量最小化。进一步的研究通过遮挡调整[42，27]、多帧扩展[17，11]、极线约束[50]、具有单眼深度的3D几何约束[53，49，34]和立体深度[41，22]来提高准确性。虽然这些方法已经变得复杂，但与最先进的监督方法仍然存在很大最近的工作通过以知识蒸馏的方式学习遮挡像素的流动来提高性能[23，24]，而这些工作中的两阶段训练是微不足道的。我们的方法没有研究复杂的几何约束，而是专注于基本的训练策略。它将遮挡蒸馏的情况推广到更多种类的具有挑战性的场景，具有简单的单阶段学习框架。学习增强。数据扩充是改进培训的最简单方法之一。最近，有一些关于将增强集成到学习框架中的新内容。Mounsaveng等人[29]和Xiaoet al.[45]建议使用空间Transformer网络[16]进行学习数据增强，Xie等人[46]建议通过一致性训练在半监督任务中使用增强。Peng等[33]介绍了优化数据增强与特定任务的网络联合培训。作为AutoML的一个新趋势，人们提出了一些自动搜索最佳增强策略的努力[5，12，21所有这些方法都针对监督或半监督学习。在这项工作中，我们提出了一个简单而有效的方法来整合丰富的增强与无监督的opti- cal流。我们建议使用原始样本的可靠预测作为自我监督信号来指导增强样本的预测。3. 预赛这项工作旨在从图像中学习光流，而不需要地面实况。为了完整起见，我们首先简要介绍了无监督光流方法的一般框架，如图1的左半部分所示。二、给定图像序列I的数据集，我们的目标是训练一个网络f（. ）来预测两个连续RGB帧{I1，I2}∈I的密集光流U12，U12=f（I1，I2;Θ），（1）其中Θ是网络中的可学习参数集。6491θ.Sθ尽管缺乏来自地面实况的直接监督具体地，图像I2可以被扭曲以合成视图与光流U12的预测，I1（p）=I2（p+U12（p）），（2）其中p表示图像中的像素坐标，并且双线性采样用于连续坐标。然后，视图合成的目标，也称为光度损失Lph，可以用公式表示为：ΣLphp（θI），（3）p图2.我们提出的方法的管道。一个完整的训练步骤包括两个前锋：（i）左侧显示第一个前锋。其中ρ（. 是逐像素的相似性测量，例如，ℓ1距离或结构相似性（SSIM）。然而，当像素被遮挡或移出视图时，I 2中没有对应的像素。作为[27，40]中的常见做法，我们用二进制遮挡图O 12表示这些像素。该映射由经典的前向-后向检验方法得到，其中通过交换输入图像的顺序来估计后向流在遮挡区域中的光度量损失将被丢弃。此外，仅基于光计量损失的监督对于无纹理或具有重复图案的地方是模糊的。减少模糊性的最常见方法之一被称为平滑正则化，Σ Σ通过第3节中介绍的常规管道发送原始样本。然后，我们分别对图像、预测流和遮挡图进行变换以构造增强样本。（ii）右侧示出了具有变换图像的输入的附加前向，并且输出流由原始样本的流预测来监督。更具体地说，在对原始图像进行常规的正向传递之后，我们还对trans-transmitted图像运行另一个正向传递。∗所形成的图像来预测光流U 12。同时，在第一次前向中的光流预测由Tflo一致地变换：U 12→U 12。我们的方法的基本假设是，增强带来了具有挑战性的场景，其中无监督L smd∈x，yU12-1pe−|埃尔德岛|、（四）损失将是不可靠的，而转换后的预测原始数据可以提供可靠的自我监督。因此，我们优化了转换后的sam的一致性，这限制了与x中的邻居相似的预测以及当不存在显著的图像梯度时的y4. 方法而不是视图合成的目标。我们遵循光流监督学习中常用的广义Charbonnier函数：由于一般的管道遭受不可靠的监督具有挑战性的情况下，以前的无监督的作品避免使用沉重的增强。在本节中，我们介绍-奥格河Σ。.。p.U12（p）Σ∗-U12.Σ.（p）. +、（五）引入一种新的框架来重用现有的重增强，这些重增强在监督场景中已被证明是有效的，但具有不同的形式。管道如图所示。2，我们将在下面详细解释。4.1. 作为正则化的增广形式上，我们将由随机向量θ参数化的增强定义为Timg：It→It，从中可以基于数据集中的原始图像{I1，I2}对增强图像{I1，在一般的流水线中，网络是用从增强数据集。相比之下，我们在原始数据上训练网络，但利用增强样本作为正则化。其中，S（？）代表停止梯度，与监督工作[ 38 ]相同的设置，q= 0。4，且θ= 0。01给对离群值的惩罚更少。为了稳定性，我们停止传播到变换后的原始流U 12的L aug的梯度。此外，仅考虑非遮挡区域中的损失两次转发后，光度损失Eq。（3）、平滑正则化方程（4），以及增强正则化Eq.（5）向后立即更新模型。我们的学习框架可以与几乎所有类型的增强方法集成。在下文中，我们总结了三种变换，它们构成了光流任务的常见增强。图中示出了一些示例。3 .第三章。LphO21第一章θ当量ToccO12奥格河U21LsmT流U12U12θ当量U*12imgI1I 2TθI1I 2当量（六）Q649212θθθθ目标图像I2预测流量U12真实数据（未使用）最终变换的遮挡O12是这些遮挡的并集老两部分注意，O12中的未被遮挡的像素可能新在O12中。它提供了一种有效的学习方法（一）（b）第（1）款目标图像I2预测流量U转换后的流量U12被遮挡区域的光流。为了稳定，只有老O12中的未被遮挡的像素导致损失Laug.此外，由于我们将空间变换公式化为在变形过程中，在变换之后可能存在超出边界的像素常用的解决方法，如填充零或边界像素值，将导致严重的伪影。因此，我们重复采样transfor-图3.一些主要思想的例子。同一个网络分别用于预测原始图像和变换图像的光流(a)空间变换和外观变换生成的场景具有大位移和低亮度。（b）遮挡变换引入了额外的遮挡。从原始预测U 12变换的伪标签U12可以提供可靠的监督。空间转换。我们假设导致像素位置变化的变换称为空间变换，其包括随机裁剪、翻转、缩放、仿射变换或更复杂的变换，如薄板样条或CPAB变换[8]。这里我们给出了这些变换的一般形式。设τθ是像素坐标的变换。图像Timg：It→It的变换可以公式化为：It（p）=It（τθ（p）），（6）其可以通过可微分的翘曲过程来实现（二）、由于改变像素位置会导致光流场的变化，因此我们应该在中间流场U盘12而不是原来的fl ow。光流的变换为Tflo：U12›→U12可表示为：直到所有变换的像素都在原始视图的区域中。另一方面，这种策略通常增加了像素的位移遮挡变换。空间变换为边界附近有大位移或遮挡的流动提供了可靠的监控。作为补充，最近的工作[23，24]提出了在任意遮挡区域中学习光流，并具有知识表示。这些方法的一般学习过程包括训练教师模型，离线创建遮挡样本，并提取到学生模型。我们认为，模型蒸馏的方法过于繁琐，冻结的教师模型存在性能瓶颈。我们将遮挡幻觉整合到我们的一阶段训练框架中，并命名为遮挡变换。具体来说，有两个步骤：（i）随机作物。实际上，随机裁剪是一种空间变换，但它有效地在边界上产生新的遮挡作为遮挡变换的预处理，我们对这对图像进行裁剪。（ii）随机掩码输出。该算法利用高斯噪声随机屏蔽掉目标图像中的一些超像素，这将为源图像引入新的遮挡。请注意，我们采用与spa一致的策略老只有在O12中未被遮挡的像素.U12（p）=τθ（p+U12（p））−τθ（p），（七）贡献给L。它不同于以往的蒸馏工作，他们在其中推理一个新的闭塞U1 2（p）=U2（τθ（p））.此外，空间变换带来了新的封闭性。如上所述，我们从双向光流的预测由于变换样本的预测是有噪声的，我们在-而不是从原始预测中提供变换后的遮挡图转变Tocc：O12→O12由以下组成：老两部分：新视图中的旧遮挡O12（p）和新新的遮挡O12（p），用于其对应出了边界，前者可以通过与Timg相同的扭曲过程获得，但具有最近邻插值，而后者可以通过检查边界从流U 12显式地估计：从变换图像的噪声预测映射。此外，为了避免创建-fline的变换样本，我们采用了类似于[35]的超像素分割的快速方法。我们的框架中的遮挡变换通过在一个阶段中优化单个模型并进行端到端学习来简化模型蒸馏的方式外形变化。更多的转换只改变图像的外观，如随机颜色抖动，随机亮度，随机模糊，随机噪声。作为相对简单的情况，外观变换不改变像素的位置，也不引入新的遮挡。尽管如此，这种转变也给一般方法带来了风险e.G.光度损失是毫无意义的，当图像新O12（ p）=.Σp+ U12（ p）∈/。（八）6493曝光过度，模糊，或在极低的光。相反地，我们的方法可以利用这些转换，因为预-6494Fl10Fl−110Fl−11221211212倾斜层相关性否定2x2倍上采样，2倍放大暹罗特色金字塔网络水平2xXLU10l+1共享解码器0经纱cvl10FlXL121Conv.Fl10Fl12LI0X2经纱cvl122x12l+1UU12l−1U10l−1Level−12x我LU101l−1X0经纱CV−1L10X1l−1Fl−1Fl−1−11012l−1XConv2经纱l−1CV12I2U2xL12Feature Volume ConstructionFlow Estimation图4. PWC-Net的轻量级多帧扩展的网络架构[38]。它为金字塔中的所有级别共享一个半密集流解码器，包括前向流和后向流。为简单和完整起见，显示了特征金字塔中两个级别的管道不同的线条颜色代表不同的流程级别。原始样本的判定提供了一种在具有挑战性的变换场景中学习光流的方法。4.2. 总体目标和收敛性分析我们的框架假设转换后的预测通常比转换后的样本的预测更准确事实上，我们确保与每个损失的范围收敛，即，哪些像素影响每个损失。模型的大小应该受到关注。因此，我们引入了一个轻量级的架构，并将其扩展到多个帧。我们从一个著名的光流任务网络PWC-Net开始[38]。原始网络与图像的连体特征金字塔网络共享特征编码器对于金字塔中的层级1，目标图像x1的特征图通过扭曲操作与来自较高层级的流预测U1+ 1对准。那么成本量cvl12是用相关运算构造的。的如图2、培训的总体目标步骤由两次转发中的三个损失项组成，流解码器Fl的输入通过级联源图像xl的特征图、来自源图像xl的上采样流、以及来自源图像xl的上采样流来组织。越高的水平Ul+1，. 最后，Lall=Lph（U12）+λ1Lsm（U12）+λ2Laug（S（U12），U12），（9）1212联系我们第一前锋联系我们第二前锋级别L的特定流解码器预测光流L.通过在金字塔上迭代，网络预测其中前两项传播原始样本的梯度，最后一项用于变换样本。原始数据和增强数据被不同地处理通过设置一个较小的权重λ2，我们可以确保原始数据始终占主导地位，因此不良情况的影响有限。此外，测光loss Lph是O 12中未被遮挡的像素。因此，增强一致性损失对于新遮挡像素，这使得网络能够有效地学习具有遮挡的光流。此外，增强损失Laug的范围避免了网络被误导，从原来的闭塞预测。4.3. 轻量级网络架构我们提出的学习框架可以应用于任何流网络。然而，光流通常在高级视频任务中扮演子模块的角色[47，48，31]，其中不同尺度我们的方法遵循原始PWC-Net的主要管道，但进行了一些修改。我们的多帧扩展的流程图如图所示4.第一章我们注意到PWC-Net的大部分可学习参数都在每个特征级别的流解码器中，因此我们采取了几个步骤来减少参数：（i）原始实现在每个解码器中采用全密集连接，而我们减少连接，仅保留最近两层中的连接。（ii）我们共享金字塔上所有级别的流解码器，每个级别都有一个额外的卷积层来对齐特征图。（iii）我们通过重复向后特征的扭曲和相关性将模型扩展到多个通过改变光流的符号和特征拼接的顺序，在多帧扩展中，前向流和后向流共享流解码器U64955. 实验结果5.1. 实现细节我们在PyTorch中实现了我们的端到端方法[32]。所有模型都由Adam优化器[19]训练，β1= 0。9，β2=0。99，批量为4。学习率为10−4方法Sintel培训Sintel测试#参数。清洁最终清洁最终澳门金沙城中心官网[7]（3.66）（4.44）6.96 7.76 32.07 MLiteFlowNet-ft[13]（1.64）（2.23）4.86 6.09 5.37 MPWC-Net-ft[38]（2.02）（2.08）4.39 5.04 8.75 MIRR-PWC-英尺[14]（1.92）（2.51）3.84 4.58 6.36 M[24]（1.68）（1.77）3.74 4.26 4.79 M在训练中不做调整损失权重为正则化设置为λ1= 60和λ2= 0。01对于所有数据集。此外，可以使用可选的预训练以获得更好的结果，其在几乎与上述相同的设置下，但λ2= 0，即常规的训练步骤，而没有在forward1中的变换的通过。只有随机翻转和随机时序切换作为常规的数据扩充。监督作品[15，38，13]中增强的大量组合被用作我们框架中的外观变换和空间变换，包括随机旋转，平移，放大，以及亮度，颜色和对比度的加性高斯噪声，高斯模糊和随机抖动。5.2. 数据集我们首先在三个成熟的光流基准上评估我们的方法， MPI Sintel [1] ， KITTI 2012 [10] 和 KITTI 2015[28]。然后，我们使用另一个光流数据集FlyingChairs[7]和分割数据集CityScapes [4]进行交叉数据集实验我们在以前的无监督作品中遵循类似的数据设置[23，24]。对于MPI Sintel基准测试，我们从原始电影中提取所有帧，并手动按镜头对帧进行预训练，其中包括14，570个图像对。然后，在标准训练集上对模型进行微调，该训练集提供了1，041个图像对，具有两个不同的渲染通道（“Clean”和“Final”）。对于KITTI2012和KITTI 2015，我们在KITTI原始数据集[9]上预训练模型预训练集由28，058个图像对组成。然后，模型在多视图扩展数据上进行微调，但丢弃包含与验证相关的帧的样本，即。9-12号。最终的训练集包含6,000个基本模型样本和3,600个多帧模型样本。5.3. 与最新技术我们比较了我们的方法与监督和非监督的方法在光流基准。使用光流的标准度量，包括平均端点误差（AEPE）和错误像素的百分比（FI）。表1报告了MPI Sintel基准测试的结果我们的基本两帧模型此外，我们的多帧模型1代码可从https://github.com/lliuz/ARFlow获得。UnFlow-CSS [27]-（7.91）9.38 10.22 116.58 MOccAwareFlow [42]（4.03）（5.95）7.95 9.15 5.12 MMFOccFlow† [17]（3.89）（5.52）7.23 8.81 12.21 MEpiFlow train-ft [50]（3.54）（4.99）7.00 8.51 8.75 MDDFlow [23]（2.92）（3.98）6.18 7.40 4.27 MSelFlow† [24]（2.88）（3.87）6.56 6.57 4.79 M我们的（ARFlow）（2.79）（3.73）4.78 5.892.24 M我们的（ARFlow-MV†）（2.73）（3.69）4.49 5.672.37 M表1. MPI Sintel Flow：AEPE和CNN参数的数量被报告。缺失条目（-）表示未报告相应方法的结果，†表示使用两个以上帧的模型。KITTI 2012 KITTI 2015方法训练测验（F1）澳门金沙城中心-澳门金沙城中心[15]（1.28）1.8（2.30）11.48%LiteFlowNet-ft [13]（1.26）1.7（2.16）11.48%PWC-Net-ft [38]（1.45）1.7（2.16）9.60%SelFlow-ft† [24]（0.76）1.5（1.18）8.42%BridgeDepthFlow§ [20] 2.56CCFlow§ [34]UnOS-stereo§ [41] 1.64 1.8 5.58 18.00%EpiFlow-train-ft§ [50]（2.51）3.4（5.55）16.95%DDFlow [23] 2.35 3.0 5.72 14.29%SelFlow† [24] 1.69 2.2 4.84 14.19%我们的（ARFlow）1.44 1.82.8511.80%我们的（ARFlow-MV†）1.26 1.53.4611.79%表2. KITTI光流2012和2015：报告了AEPE和FI。对于无监督方法，仅显示2019年发表的作品。缺失条目（-）表示未报告相应方法的结果†表示模型使用更多比两个框架。§表示具有几何约束的训练之前最好的AEPE从6.18 [23]到4.49，在干净的通道上，提高了27.3%，从6.57 [24]到5.67，在最后一个通道上，提高了13.7%。对于KITTI基准测试，表2显示了显著的改进。在训练集上，我们在KITTI 2012上实现AEPE=1.26，相对改善25.4%，在KITTI 2015上实现AEPE=2.85，相对改善41.2%。最好的无监督方法[24]。在测试集上，我们的方法在无监督方法中分别达到最佳AEPE=1.5和F1-all=11.79%。文中还介绍了几种有代表性的监督方法，以供参考.因此，我们的无监督模型首先达到或接近一些强大的全监督方法，如LiteFlowNet [13]，PWC-Net [38]，即使PWC-Net的参数为27.1%。MPI Sintel和KITTI上的样品见图。五、与最先进的竞争对手[24]相比，对于MPI Sintel中的低光照和大位移场景，我们的方法在总体上保持了更好的性能，监督无监督监督无监督6496Sintel Clean(a) 参考图片（b）我们的预测（c）SelFlow [24]预测（d）我们的错误（e）SelFlow错误[24]图5.与无监督SelFlow相比的定性可视化[24]。前两行来自Sintel最终通道，其中错误以灰色显示最后两行来自KITTI 2015，其中正确的预测用蓝色表示，错误的预测用红色表示。更多样本将在相应基准的网站上提供。模型架构ARSintelCleanSintel FinalALLNOCOCC所有NOC OCC#参数。St在OT所有NOCOCCs 0 -10s10-40s40+[38]2.481.19二十一点七一3.471.9825.198.75米PWC-Net-small [38] 2.761.2823.923.622.1628.154.05百万✓2.141.0018.630.622.8317.56+降低密集度2.532.041.230.9021.3618.473.472.972.031.7221.05✓ ✓✓ ✓✓2.092.040.950.9018.9018.470.590.612.652.5518.0317.05+ 多帧2.24✓1.890.86十六点七九2.851.6620.02表3. 消融研究我们的学习框架与多模型架构。报告场景的特定区域中的AEPE和CNN参数的数量。AR：将增强作为正则化框架进行训练。准确地围绕边界。对于KITTI结果，我们的光流中的形状对于对象来说更有结构性，并且在无纹理区域中更准确。5.4. 消融研究为了进一步分析每个组件的性能，我们进行了四组消融研究。我们随机地将Sintel训练集重新拆分为一个新的训练集和一个场景验证集。我们在所有像素（ALL）、非遮挡像素（NOC）、遮挡像素（OCC）上评估不同区域中的AEPE，并根据速度（s 0 -10、s10- 40和s40+分别是移动小于10个像素、10和40之间以及大于40的像素）主消融。表3评估了我们的增强作为多模型架构下的正则化学习我们的框架consistently提高了光流的精度超过10%的所有架构，无论是闭塞或非闭塞像素。为了考虑模型参数的数量，我们从原始PWC-Net和名为PWC-Net-small的变体开始，在流解码器中没有密集连接[38]。虽然删除密集连接可以减少一半的参数，但它会导致严重的性能表4. 变换组合的比较报告了特定地区的AEPE。 ST：空间变换，AT：外观变换，OT：遮挡变换。降解相比之下，我们的减少密集的变体保持性能，同时减少39.2%的参数。在特征金字塔上共享解码器，仅用原始模型的25.6%的参数就可以改善流。多帧扩展以最小的额外参数开销达到最佳性能。组合变形。此外，委员会认为，我们将深入研究框架中的转换类型表4显示了使用三种转换的几种组合训练的模型的性能。以下是一些重要的意见：（i）每个变换可以单独地提高性能。（ii）空间变换对所有测量都是最有帮助的，特别是对于大位移估计。（iii）通过遮挡变换或空间变换可以显著提高遮挡区域的精度。所有这些观察结果都与我们的假设一致，即转换将引入新的具有挑战性的场景，并且我们的方法可以提供可靠的监督。增强的使用。如上所述，几乎所有的无监督学习方法都避免使用大量的增强组合。作为参考，我们Sintel决赛2.24百万✓3.473.232.031.9324.2021.980.820.823.773.4833.4830.78✓3.361.9423.950.813.7032.17✓2.532.391.231.2021.3619.610.610.612.742.5624.3023.14✓2.401.1320.670.612.8121.95+ Share Decoder2.301.0820.003.191.8422.77✓1.950.8517.852.861.6620.251.0419.603.181.8622.362.37百万✓✓✓3.043.011.781.7621.2521.400.780.753.553.4827.8028.48✓✓ ✓2.971.7221.050.773.4027.256497方法Sintel Clean Sintel Final方法训练椅SintelSintelKIITIKITTI2012年2015年所有S0-10S10-40s40+所有S0-10S10-40s40+[38 ]第38届中国国际航空航天博览会（2.31）3.6810.52没有Aug.2.530.612.7424 30 三点四七0.82 3.77八月直接2.710.693.1127.133.800.954.03三十五点九8月蒸馏2.360.642.6119.903.310.863.5030.18Ours（aug. as reg.）2.040.612.5517.052.970.773.40二十七点二五分表5.我们的学习框架与直接数据增强和[23，24]中使用的数据蒸馏框架Sintel Clean Sintel Final方法所有S0-10 S10-40s40+所有S0-10 S10-40s40+没有Aug.2.530.612.7424.303.470.823.7733.48CPAB [8]2.380.612.7821.603.320.813.5931.09自动增强[5]2.300.622.5921.183.290.813.5330.11我们的（ST +AT）2.090.592.6518.033.010.753.4828.48表6.与我们的框架集成的不同增强转换的比较。AT：外观变化，ST：空间转换用不同的用法评估相同的转换。表5报告了以下结果：（i）在没有大量增强的情况下进行训练，（ii）使用转换作为常规的数据增强和直接训练，（iii）使用与[23，24]相似的数据蒸馏进行训练，（iv）使用我们提出的学习框架进行训练。结果表明，直接增强使所有指标更差。蒸馏不是直接应用转换，而是解决不可靠监督的问题。然而，冻结的教师模型仍然是学生模型的瓶颈。此外，繁琐的多阶段知识积累训练过程是不希望的。我们的框架避免了不可靠的pho- tometric损失的转换后的样本。它通过单级优化达到最佳效果。集成复杂的增强。通过实施- 通过光流和遮挡图的相应变换，我们的框架可以与几乎所有类型的增强相集成。我们评估了一个称为CPAB的复杂空间变换[8]和AutoML中最近的一项工作，即寻找最佳增强策略AutoAugment [5]。请注意，首先应用随机放大以避免变换的无效坐标值。表6显示，与我们的框架集成的两种策略都请注意，AutoAugment对于我们的任务来说太耗时了，因此我们采用了从ImageNet [6]分类任务中搜索到的最终策略有希望的是，我们的AutoAugment框架将通过政策微调得到进一步改进。5.5. 跨数据集综合虽然深度光流方法在光流基准上远远领先于最流行的经典变分方法TV-L1 [43一个可能的原因是监督学习方法容易过拟合，这导致在转移到高级视频任务时泛化能力差。我们的（ARFlow）Sintel3.50（2.79）（3.73）3.06九点零四分城市景观5.10 5.22 6.012.11 5.33表7.交叉数据集评估的泛化性能。数字表示每个数据集上的AEPE。对于KITTI和Sintel，在训练集上评估结果。（）表示该方法已经训练的数据集的结果。因此，我们在表7中报告了交叉数据集的准确性，其中将我们的无监督方法与完全监督方法PWC-Net [38]进行了比较有监督的PWC-Net始终优于模型训练的数据集，而我们的无监督方法在转移到其他数据集时效果更好此外，我们在名为CityScapes的城市街道数据集上训练了一个模型[4]，其中使用了50，625个图像对进行训练，而没有地面真实。该模型在KITTI 2012和KITTI 2015上的性能优于在合成数据集上训练的任何其他模型。我们的方法可以通过在来自该域的未标记视频上训练模型来适应高级视频任务值得注意的是，尽管缺乏来自其他无监督方法的交叉数据集结果，但我们在CityScapes上训练的模型的准确性甚至比以前在KITTI上训练的大多数作品都要好。表2），这表明了我们的方法的优越性。结果表明，我们的方法对非监督光流任务有显著的改进，具有良好的推广性。6. 结论我们提出了一个新的框架，学习光流从未标记的图像序列与自我监督的增强。为了避免视图合成的目标对变换后的数据不可靠，我们通过为变换后的图像添加另一个前向传递来扭曲基本的学习框架，其中监督来自原始图像的变换后的预测。此外，还提出了一种轻量级网络及其多帧扩展。大量的实验表明，我们的方法显着提高精度，具有较高的兼容性和推广能力。我们相信，我们的学习框架可以进一步与其他几何约束相结合，或转移到其他视觉几何任务，如深度或场景流估计。致谢我们感谢匿名评论者的建设性意见，LL感谢刘鹏鹏的有益建议。本工作得到了国家自然科学基金项目的部分资助 61836015 和浙江省重点研发计划项目（2019C01004）。6498引用[1] Daniel J Butler 、 Jonas Wulff 、 Garrett B Stanley 和Michael J Black。一个用于光流评估的自然开源电影。2012年欧洲计算机视觉会议（ECCV）。6[2] 陈东东，廖静，卢远，余能海，华刚。连贯的在线视频风格转移。在IEEE国际计算机视觉会议（ICCV），2017年。1[3] 程景春，蔡义轩，王胜金，杨明轩。Segflow：视频对象分割和光流的联合学习。在IEEE国际计算机视觉会议（ICCV），2017年。1[4] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在IEEE计算机视觉和模式识别会议（CVPR），2016年。六、八[5] Ekin D Cubuk， Barret Zoph ，Dandelion Mane ，VijayVasude-van，and Quoc V Le.自动扩增：从数据中学习增强策略。在 IEEE 计算机视觉和模式识别会议（CVPR），2019。二、八[6] J. 邓，W。东河，巴西-地索赫尔湖J. Li，K.Li和L.飞飞ImageNet：一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别会议中，2009年。8[7] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet：使用卷积网络学习光流。IEEEInternational Conferenceon Computer Vision（ICCV），2015年。一、二、六[8] Oren Freifeld，Søren Hauberg，Kayhan Batmanghelich，and Jonn W Fisher.基于连续分段仿射速度场的变换。IEEE Transactions on Pattern Analysis and MachineIntelligence（TPAMI），2017年。四、八[9] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun.视觉与机器人技术的结合：Kitti数据集。 InternationalJournalofRoboticsResearch（IJRR），2013。6[10] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。在IEEE计算机视觉和模式识别会议（CVPR），2012年。6[11] Shuosen Guan，Haoxin Li，and Wei-Shi Zheng.基于金字塔卷积lstm的光流估计无监督学习IEEEInternationalConference on Multi- Medi

下载后可阅读完整内容，剩余1页未读，立即下载