无监督多帧光流和遮挡处理方法

200 浏览量更新于2023-10-13 收藏 1.45MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

无监督学习有遮挡的Joel Janai1，3F atma Guüne y4AnuragRanjan2Michael Black2Andreas Geiger1，31自主视觉组，2感知系统部，MPI智能系统图宾根3图宾根大学4牛津大学视觉几何组joel. tue.mpg.de抽象。用神经网络学习光流受到需要获得具有相关基础事实的训练数据的阻碍。无监督学习是一个很有前途的方向，但目前的无监督方法的性能仍然有限。特别地，在常用的数据项中缺乏适当的遮挡处理构成了误差的主要来源。虽然大多数光流方法处理成对的连续帧，但是当考虑多个帧时可以实现在本文中，我们提出了一个框架，在多帧的光流和遮挡的无监督学习更具体地说，我们利用三帧的最小配置，以加强光度损失和明确的原因闭塞。我们证明了我们的多帧，遮挡敏感的配方优于现有的无监督的两帧方法，甚至产生的结果与一些完全监督的方法。1介绍光流的准确估计是计算机视觉中的长期目标，然而该问题的某些方面至今仍在很大程度上未解决。这可以归因于该不适定问题固有的大程度的模糊性，其只能使用关于图像序列的外观和运动的先验知识解决光流问题的早期方法[1，2]使用变分优化集成了关于光流场的简单局部平滑性假设为了克服局部先验的限制，已经利用了基于块的MRF公式[3-最近，深度神经网络[8从示例中学习以端到端的方式解决光流是有吸引力的，因为深度神经网络允许直接从注释数据中学习更复杂的分层流表示。然而，训练这样的模型需要大量的数据集，并且获得真实图像的地面实况是具有挑战性的，因为手工标记密集的对应关系是棘手的。与可以使用结构光或激光扫描仪等有源传感器的立体声不同，没有其他技术能够直接提供光流地面实况[12]。因此，现有方法主要在合成数据上训练[8，13，14]。然而，从类似于自然场景的分布中创建数据本身就是一个难题。2J. Janai，F.Guéney，A.Ranjan，M.Black和A.盖革(a) 过去（b）参考（c）未来（d）被（e）扭曲（c(e)Ground Truth（f）2F PWC-Net（g）3F PWC-Net（h）我们的结果图1：动机。无监督光流估计是具有挑战性的，因为在遮挡区域中违反了常用的光度术语。来自我们的RoamingImages数据集的这个示例说明了当根据真实流（e）扭曲目标帧（c）时重影效果（d）的问题经典的两帧方法在遮挡边界（f）附近产生模糊的结果。在没有遮挡推理的情况下使用多个帧也不能缓解问题（g）。相比之下，我们的具有显式遮挡推理的多帧模型导致具有尖锐边界（h）的准确流量估计或者，光流可以被视为一个无监督的学习问题。在无监督的情况下，光度损失被最小化[15在该设置中特别有问题的是遮挡区域[19，20]，其向光度损失函数提供误导信息。这个问题在图中示出。1与一个例子，从合成的“漫游图像”数据集，我们已经创建了基于随机移动图像补丁从Flickr。光度损失与参考图像（图1）进行比较。1（b））到根据光流估计（图1（b））扭曲的目标图像1（d））。请注意，即使使用地面真实光流场，目标图像中的遮挡区域也无法正确恢复（图1）。第1段（e）分段）。相反，发生所谓的重影效应，即，遮挡器的部分在遮挡区域中保持可见最近的工作[19，20]提出通过使用反向流来推断遮挡区域来排除光度损失中的这些区域，即，从目标帧到参考帧的流。然而，这些方法在很大程度上依赖于准确的流量预测并且使用预测（例如，阈值化）以推断遮挡。我们建议在多个帧的时间关系模型，以学习光流和遮挡联合。为此，我们将[11]中提出的两帧架构扩展到多帧。我们估计光流在过去和未来的方向与闭塞图在一个时间窗口内的三帧。我们的无监督损失评估的扭曲图像从过去和未来的基础上估计的流场和遮挡图。除了典型的空间平滑性约束，我们引入了恒定的速度约束内的时间窗口。这允许以原则性的方式推理遮挡，同时利用时间信息以用于遮挡区域中的更准确的光流预测我们在我们的RoamingImages数据集上进行消融研究，考虑两帧和多帧配方，而没有遮挡建模作为我们的基线。此外，本发明还提供了一种方法，具有遮挡的3我们在KITTI 2015 [21，22]和MPI Sintel [14]上评估了我们的方法。令人惊讶的是，我们的模型仅在简单的RoamingImages数据集上训练，优于在FlyingChairs上训练的所有现有无监督光流方法[15，18，19]。通过对各自的训练集进行无监督微调，我们进一步改进了我们的结果，减少了与几种监督方法的差距我们将在发布时提供代码和我们总结本文的贡献如下：• 我们提出了一种新的无监督，多帧光流公式估计过去和未来的流量在一个三帧的时间窗口。• 通过明确地推理遮挡，我们增加了照片度量损失的保真度，从而导致更清晰的边界（图1B）。1（h））相比，两帧（图。1（f））以及没有闭塞的三帧制剂（图1（f））。1（g））。• 我们证明，时间约束，使更准确的光流预测闭塞地区相比，只是空间传播，在所有现有的无监督的两帧光流配方。2相关工作经典多帧光流：虽然大多数的光流方法使用两个输入帧，很少的作品已经利用了视频序列中的时间相干性的属性。多帧光流的早期方法使用基于相位的表示来对局部图像结构进行编码[23，24]。后来，变分光流方法[1，2]已经通过使用恒定速度先验[ 12，30 - 33 ]或假设恒定加速度[ 34，35 ]的时空正则化器[12，25- 29 ]扩展到多个帧除了时间约束之外，多帧公式还允许推理像素的可见性。由于用于训练的弱光度项，在光流的无监督学习中被遮挡的区域是特别有问题的。然而，据我们所知，在无监督学习的背景下，既没有时间约束也没有多帧遮挡推理。本文提出了第一种方法来利用多帧制定学习光流和闭塞在一个无监督的方式。更具体地说，我们专注于最小的情况下，三帧，这使我们能够推理的像素的可见性，同时预期只有很少的外观变化，主要坚持亮度恒定性假设。深度神经网络：近年来，用于学习光流问题的端到端方法已经显示出很大的前景[8- 11 ]。通常，由编码器和解码器模块组成的模型将两个堆叠的连续帧作为输入。这种用于光流的架构首先在FlowNet [8]中提出，并在FlowNet 2 [10]中通过一个接一个地堆叠多个编码器-解码器网络进行扩展。在传统的光流估计中，Ranjan等人遵循由粗到细的思想[9]（SPyNet）使用多个尺度上的扭曲图像来处理大位移。Sun等人[11]（PWC-Net）通过训练浅连体网络并在不同尺度上构建成本体积，结合了光流和立体匹配的不同思想4J. Janai，F.Guéney，A.Ranjan，M.Black和A.盖革在本文中，我们建立在PWC-Net上，因为他们的框架是轻量级的，产生最先进的结果，并允许我们的多帧公式的优雅集成。除了光流，我们的模型还考虑了遮挡。与完全监督设置[8- 11 ]相比，我们在没有地面实况流的情况下训练我们的无监督学习：深度神经网络对大型注释数据集的依赖性最近推动了无监督学习技术的发展。已经针对单个图像深度预测[16，36-39]、在典型的无监督光流框架中，光度损失与无纹理区域的平滑度损失结合使用[15更具体地，目标图像根据预测的流量被扭曲，并且使用光度损失与参考图像进行比较。通常，使用编码器-解码器网络[15，17-20]。 Patr auceanetal. [17]将简单的编码器-解码器网络与卷积LSTM相结合，以合并来自先前帧的信息。我们还在多个帧上使用光度损失，但不是使用LSTM，我们修改了[11]中提出的网络架构，以在三个帧上使用恒定速度假设直接编码时间关系最近，[19，20]提出从光度损失中排除遮挡区域，以避免误导信息。虽然他们两人共同学习的向前和向后流动，梅斯特等人。[20]使用前向-后向一致性检查和Wang et al. [19]用反向流创建范围图，对参考帧中每个像素的对应性进行然而，这两种方法都使用启发式算法来获得最终的遮挡图。而不是使用一个启发式，我们估计的遮挡图联合光流。我们将流量和遮挡估计与我们的光度损失相关，通过根据遮挡估计对来自未来和过去的信息进行加权。这种联合公式使我们能够从头开始训练我们的遮挡感知模型，而[20]则需要在没有遮挡推理的情况下进行预训练。另一项关于深度和自我运动的无监督学习的最新工作[39]使用光度损失函数预测可解释性掩模以排除动态对象和遮挡。虽然[39]仅解决静态场景，但我们针对一般的无约束光流问题，并学习在此设置中联合预测流动和遮挡区域3方法在本文中，我们提出了一种利用多帧进行光流和遮挡的无监督学习的方法在光流的无监督学习中，只有光度损失提供指导。光度损失根据流量估计扭曲目标帧，并将扭曲的目标帧与参考帧进行比较。由无纹理区域引起的局部模糊性用在相邻像素之间传播信息的附加空间平滑度约束来处理。然而，由于由非朗伯反射、遮挡、大运动和照明变化引起的模糊，以无监督方式学习光流是复杂的考虑多个帧可以帮助解决一些模糊性，特别是由遮挡引起的模糊性因此，我们提出了一种多帧公式来训练卷积神经网络，以联合预测流场和遮挡具有遮挡的53.1符号我们首先介绍我们的符号。设I ={IP，IR，IF}表示三个连续的RGB帧It∈RW×H×3。我们的目标是预测从参考帧IR到未来帧IF的光流UF∈ RW×H×2，同时利用过去帧IP。在这个短时间窗口中，我们假设运动近似为线性。最简单的方法强制线性运动的方法是通过仅预测一个流场并根据该流场将两个图像IP、IF扭曲到参考图像IR来使用硬约束，以计算光度损失。然而，现实场景通常包含违反该硬约束的更复杂的运动（例如，KITTI的路面因此，我们通过预测两个光流场并鼓励恒定速度来制定软约束：我们将从参考帧IR到未来帧的流场表示为UFUP∈RW×H×2是从参考坐标系IR到过去坐标系IP的流场。无论运动模型如何，在遮挡区域中违反了照片一致性考虑三个帧允许通过以数据驱动的方式推理遮挡来解决这个问题。让我们考虑参考帧IR中的像素P。注意，根据定义，像素在参考帧中可见。因此，只有三种可能的情况：它在所有帧中都是可见的，或者它在过去被遮挡，或者它在将来变得被遮挡。虽然存在可能的第四状态，即，当像素仅在参考帧中可见时，这是非常不寻常的情况，在实践中很少发生，因此可以被丢弃。因此，每个像素的遮挡可以用三种状态来表示，并且我们总是可以通过考虑未来还是过去更正式地说，我们通过在每个像素处引入连续遮挡变量O∈[0，1]W×H×2来建模遮挡，这允许通过降低被遮挡像素的重要性来正确地评估光度损失令O（p）∈[0，1]2表示像素p处的遮挡，其中O（p）1=1。如果O（p）=（1，0），则我们认为p是向后遮挡的（即，在前一帧中被遮挡），如果O（p）=（0，1），则像素p被前向遮挡，并且如果O（p）=（0，1），则像素p被前向遮挡。5，0。5），像素p在所有帧中可见我们建议使用神经网络和执行来联合估计UF、UP和O。O（p）3.2网络架构最近提出的PWC-Net架构[11]从立体文学中借鉴了思想，并从参考帧的特征和未来帧的扭曲特征中构建了成本量。最后，全卷积解码器返回用于将特征扭曲到下一级的每个级别的光流这导致产生最先进性能的紧凑且有区别的表示受有监督的两帧PWC-Net模型的启发，我们开发了我们的无监督的多帧和遮挡感知公式，如图2所示。二、与PWC-Net类似，我们以由粗到细的方式估计流场和遮挡图。我们所做的第一个修改是将过去的帧添加到图像和特征金字塔中。在原始PWC-Net中，基于参考帧的特征和根据流量估计扭曲的目标帧的特征相反，我们构建两个成本量：一个用于过去帧，一个用于未来帧。这两个独立的成本卷允许我们的网络检测遮挡6J. Janai，F.Guéney，A.Ranjan，M.Black和A.盖革图2：网络架构。给定输入序列I，我们构造图像和特征金字塔。以从粗到细的方式估计光流：在级别l，从过去帧和未来帧的特征F1分别根据当前光流估计U1和U2进行扭曲。的P F两个成本卷被解码，从而产生过去流U1、未来流U2和未来流U3。和P F级别1处的遮挡图01。估计被传递到上采样块以产生用于金字塔的下一级l+1的输入。详情见正文并选择用于精确光流估计的相关信息。最后，我们使用三个独立的解码器，未来的流，过去的流和遮挡图，分别。成本卷堆叠在一起并形成解码器的输入我们从先前的级别上采样过去的流、未来的流和遮挡图预测，并且相应地将它们与成本体积和参考帧的特征一起提供作为解码器的输入。对于所有三个解码器，我们使用[11]中提出的解码器架构，仅对于遮挡解码器，我们在末尾添加softmax。我们的架构与两个流解码器的目的是鼓励恒定的速度作为一个软约束。我们还实验了一个架构，使用一个流解码器的两个方向。在这种情况下，逆未来流被视为对过去流的估计这对应于在线性假设始终成立的情况下有用的硬约束，例如我们的RoamingImages数据集。3.3损失函数我们的目标是以无监督的方式在时间窗口内学习准确的光流和遮挡。设θ表示预测的神经网络的参数Uf（θ）、Up（θ）和O（θ）。我们的损失L（θ）是光度损失LP（θ）、平滑度约束LSP（θ）、LSF（θ）、LSO（θ）、恒定速度约束LCV（θ）和遮挡先验LO（θ）的线性组合：L=LP+LSF+LSP+LSO+LCV+LO（1）为了清楚起见，我们放弃了对参数θ和损失函数的相对权重的依赖性虽然前两个术语经常被使用，但它们都是由具有遮挡的7我在[15-20，41，42 ]之前，我们使用简单但有效的线性运动模型和适当的在下文中，我们详细描述每个单独的术语。光度测量：在无监督光流估计中，通过根据预测的光流扭曲图像并比较强度来实现监督或颜色残差。与现有方法[15与[19，20]类似，我们的模型考虑了遮挡虽然这些方法使用简单的启发式阈值的基础上获得遮挡图掩蔽，我们直接在我们的配方模型遮挡我们的方法是能够学习更复杂的模型，允许更准确的遮挡原因。此外，我们的方法允许网络避免遮挡区域中的错误，因为像素在至少两帧中总是可见的。更正式地，我们将光度损失公式化为LP=Σp∈ΩO（2）（p）·δ.ΣP（p+uP（p）），IR（p）（二）Σ+p∈Ω O（1）（p）·δ.ΣIF（p+uF（p）），IR（p）其中Ω表示参考图像IR的域，uP和uF表示像素p处的过去和未来流，并且O（i）（p）表示遮挡变量O（p）的第i个分量。我们没有处理扭曲函数中的遮挡，而是使用双线性插值进行扭曲[4 3]和鲁棒函数δ（·，·），详细信息如下，以测量包装图像之间的光度误差P/F 以及参考图像IR。然后，我们使用我们的遮挡估计来加权光度误差，根据-ingly。如果像素p更可能被向前遮挡，O（1）（p） O（2）（p），则未来帧的权重更高。在像素p在整个窗口内可见的情况下，O（1）（p）≈ O（2）（p），未来帧和过去帧的贡献相等。数据项的这种软加权确保了我们的光度损失是完全可微的。在经典光流文献中已经提出了几种光度误差函数最流行的是亮度恒定性假设[1]，其测量像素强度或颜色之间的差异（等式1）。（三））。代替原始的二次罚函数，我们使用广义Charbonnier罚函数ρ[44]来抵抗离群值的鲁棒性。（五）、在具有照明变化的现实场景中，亮度恒定性假设经常被违反，并且替代地，通过比较像素强度的梯度来考虑梯度恒定性假设（等式2）。（四））。在这项工作中，我们在训练合成数据时使用亮度恒定假设，在训练KITTI时使用梯度恒定假设。δBC（I1，I2）=ρ（I1−I2）（3）δ（I，I）=ρ.ΣI1−.Σ+ρI1−ρ I2（四）GC1 2x∂y ∂yρ（x）= Σ。x2+ 0。0012（5）我8J. Janai，F.Guéney，A.Ranjan，M.Black和A.盖革平滑度：众所周知，由于孔径问题和局部外观的模糊性，单独的光度损失不足以约束问题。因此，我们增加了一个额外的正则化，鼓励平滑流场。特别地，我们使用以下针对UP的边缘感知平滑度损失：LSP= Σp∈Ωξ（xIR（p））ρ（xUP（p））+Σp∈Ωξ（yIR（p））ρ（yUP（p））（6）其中ξ（x）=exp（-x2）是对比度敏感权重，以减少图像边界处的平滑先验的影响，xI（x，y）=I（x，y）-I（x-1，y）和xU相应地是图像和流场在空间方向上的后向差X.在[19，20]之后，我们可以用二阶平滑度代替一阶平滑度（6），当在KITTI[45]上训练时，二阶平滑度允许分段仿射流场ΣLSP=+p∈ΩΣp∈Ωξ（xIR（p））ξ（∆xIR（p））ρ（xUP（p）−∆xUP（p））（7）（在这里，∆xI（x，y）=I（x+1，y）−I（x，y）和∆xU相应地表示方向x上的前向差。相应地定义未来流LSF的平滑度此外，我们引入了一个正则化，鼓励类似的遮挡状态在相邻像素处：LSOΣ=p∈Ωξ（xIR（p））xO（p）2+Σp∈Ωξ（yIR（p））yO（p）2 （8）而不是一个强大的功能，我们使用的平方差的遮挡状态之间的变化更强的惩罚。恒速：光度项和平滑项分别处理未来流和过去流。在多帧设置中，我们可以更进一步并且假设线性运动模型，其对应于在短时间窗口内以恒定速度移动的像素尽管其简单性，恒定速度提供了一个可靠的信息源，在闭塞的情况下，除了空间平滑度的约束。在这种假设下，未来和过去的流动应该是长度相等，但方向不同。因此，我们将恒定速度损失公式化如下：ΣLCV=p∈Ωρ（UP（p）+UF（p））（9）既往闭塞：大多数像素通常在所有帧中可见，而遮挡仅发生在运动边界处。我们将此先验编码如下：LO=−ΣO（1）（p）·O（2）（p）（10）p∈Ω请注意，方程式当所有像素都可见时（即，O（p）=（0. 5，0。5））。具有遮挡的94实验结果在本节中，我们分析了我们在消融研究中的方法，显示了多帧制定，遮挡推理和恒定速度假设的优势。此外，我们比较我们的方法与其他无监督和监督的方法建立光流数据集。遵循原始PWC-Net模型[11]，我们根据像素的数量[0. 005，0。010 02，0。08，0。32]，并按0缩放流量值。05如在[8，11]中。有关数据集特定的超参数和设置，请参阅补充资料。我们使用Adam [ 46 ]训练我们的网络端到端，其中β1=0。9和β2= 0。999 我们使用的批量大小为8，开始时的学习率为1e−4用于预训练，1e−5用于微调。我们为700K预训练模型通过在每200K次迭代之后将学习率减半来迭代为了训练，我们有不使用数据扩充，因为RoamingImages的大小很大对于评估，我们考虑三个标准度量：• 端点误差（EPE）被定义为估计流和真实流之间的平均欧几里得距离。我们分别报告在闭塞和可见区域的EPE，以更好地分析所提出的模型组件的影响• 基于阈值的坏像素的平均百分比，即离群值比率用于KITTI 2015测试集的评估。• 最大F度量定义为用于评估遮挡估计的精确度和召回率的加权调和平均值。4.1数据集我们在实验中使用了三个不同的数据集。我们创建了一个名为“RoamingImages”的简单数据集为了与其他方法进行比较，我们在无监督设置中使用两个已建立的光流数据集，即KITTI 2015数据集[21，22]和MPI Sintel [14]。漫游图像：课程学习（即，在对更复杂的数据集进行微调之前对简单数据集进行预训练）已经证明在训练用于光流估计的深度模型时是重要的[9，10，15，47]。虽然光流的深度学习方法通常使用FlyingChairs数据集[8]，但我们的多帧公式不能在此数据集上训练，因为它每个场景只提供两帧。因此，我们已经通过根据如图1所示的随机线性运动在随机背景图像前面移动随机前景图像来创建了我们自己的1.一、目标是通过在开始时保持几何关系简单来逐渐学习时间和遮挡关系我们创建了80，000个分辨率为640x320的示例，我们将其分为90%的训练集和10%的测试集。MPI Sintel：MPI Sintel数据集[14]是根据Blender中的短片MPI Sintel创建的，并为训练集中的1000个图像对提供了地面实况流和遮挡掩模有两种不同复杂度的渲染通道可用（此外，MPI Sintel提供逐像素遮挡遮罩。10J. Janai，F.Guéney，A.Ranjan，M.Black和A.盖革表1：消融研究：我们将我们的结果（我们的）与PWC-Net（经典）和无遮挡的多帧扩展（Multi）进行比较。此外，我们通过关闭（Ours-None），使用软约束（Ours-Soft）或硬约束（Ours-Hard）来分析恒定速度假设的效果我们使用EPE报告所有（所有），非遮挡（NOC），和遮挡（OCC）像素的流量结果。方法帧遮挡恒定速度所有 NOC OCC F-测量经典2✗✗14.14 9.07 32.03-多3✗硬10.11 八点二四十八点二二-我们的-无3✓✗8.37 六点四七十六点二十六0.76Ours-Soft3✓软8.17 6.3215.870.76我们的硬3✓硬6.93 6.898.550.83KITTI 2015：与MPI Sintel相比，KITTI 2015数据集[21，22]提供了从移动平台捕获的真实场景。虽然光流训练集仅包含200个注释图像，但多视图扩展由大约4000个图像组成我们使用训练集中除注释帧及其相邻帧（帧9-12）之外的所有帧在本文的其余部分，我们将把这套称为4.2消融研究在本节中，我们将分析我们在RoamingImages数据集上的方法的不同方面。更具体地说，我们的目标是研究我们的多帧公式与两帧情况以及没有遮挡推理的多帧情况此外，我们比较了硬约束的软约束，以及没有任何时间约束的情况下。我们在表1中列出了我们的结果，并在下一段中讨论我们的发现。多帧和遮挡推理：我们首先分析了多帧假设的重要性，通过在RoamingImages（经典）上以无监督的方式训练原始的两帧PWC-Net。然后，我们将PWC-Net扩展到三帧，但仅使用一个成本体积，而不使用遮挡推理（Multi）。多帧公式导致性能的显著改善，从而将总体EPE从14.14至10.11（见表1）。利用多帧公式，即使没有遮挡推理，遮挡区域中的误差也几乎减少了一半。遮挡推理（Ours-Hard）与没有遮挡推理的多帧公式化（Multi）相比再次将遮挡区域中的误差减少一半，达到6.93的总体EPE。这清楚地示出了根据遮挡估计忽略误导性信息的益处。恒速：如第3节所述，恒定速度假设可以以不同的自由度以不同的方式强制执行在表1中，我们将具有用于未来和过去光流的单独流场的软约束情况（Ours-Soft）此外，我们显示了没有时间约束的结果（Ours-None），即，关闭具有遮挡的11表2：定量结果：我们将我们的方法与MPI Sintel和KITTI 2015的训练集和测试集上的最先进的监督和无监督方法进行了比较。除了KITTI测试集之外，我们报告了EPE，其中我们报告了离群值的比率。括号表示在相同数据集上执行训练的情况，标记仅从训练中排除注释样本的情况失踪条目（-）没有针对相应的方法进行报告，并且粗体突出显示了监督和非监督方法中的方法MPI Sintel Clean MPI Sint埃尔费拉尔KITTI 2015火车测试火车测试火车测试所有 NOCOCC所有所有 NOCOCC所有所有NOC OCC所有监督FlowNetS [8]四块五7.425.458.43----[8]第八话（3.66）--6.69 （4.44）--7.46----SpyNet [9]4.126.695.578.43----SpyNet-ft [9]（3.17）--6.64 （4.32）--8.36---[10]第10话2.02--3.963.14--6.0210.06---[10]第10话（1.45）- -4.16 （2.01）- -5.74 （2.3）--11.48%PWC-Net [11]两块五毛五-三点九三-10.35---PWC-Net-ft [11]（1.70）--3.86 （2.21）--5.17 （2.16）--9.60%无监督DSTFlow [18]6.935.05-10.40 7.825.97-11.11 24.30 14.23--DSTFlow-ft [18]（6.16）（4.17）─ 10.41 （6.81）（4.91）─ 11.27 16.79* 6.96*-百分之三十九UnFlow-CSS [20]- --七点九一10.22 8.10*--23.30%OccAwareFlow [19]5.23--8.026.349.0821.30---OccAwareFlow-ft [19] （4.03）--7.95 （5.95）--9.158.88*--31.2%*UnFlow-CSS（R）[20]8.91-十点零一分-19.26 11.44--我们的硬5.384.32 十一点五十八分8.356.014.92 十二点四十二9.3815.638.8041.6548.93%我们的硬英尺（12.10）-（7.09）（5.97）-11.58* 7.45* 27.29*-我们的无英尺（4.74）（3.60）（11.42）-（5.84）（4.72）-6.65* 3.24* 19.33*-Ours-Soft-ft（3.89）（2.64）（11.21）7.23 （5.52）（4.32）8.816.59* 3.22* 19.11* 22.94%恒定速度项的损失，同时仍然估计两个流场。正如我们的结果所证明的那样，硬约束在我们的RoamingImages数据集上没有时间约束的情况下实现了显着的改进。特别是，在被遮挡的区域中，误差从16.26减少到8.55 EPE，证明了所提出的时间平滑度约束在纯粹的空间正则化模型上的优点。软约束的情况下，没有时间约束，证明了直接编码到模型中的时间关系，在我们的限制的情况下，只有轻微的改善4.3定量和定性结果在表2中，我们将我们的方法与最先进的无监督方法DSTFlow [18]，UnFlow [20]和OccAwareFlow [19]以及MPI Sintel和KITTI 2015上的领先监督方法FlowNet[8]，SPyNet [9]，FlowNet 2 [10]和PWC-Net [11]进行此外，我们在图1中显示了KITTI 2015和MPI Sintel的定性结果3 .第三章。我们在补充资料中提供了表2的扩展版本虽然恒定速度硬约束在简单化的RoamingImages数据集上工作良好，但是更现实的数据集如MPI Sintel和KITTI通常表现出违反恒定速度假设的非线性运动。因此，我们利用软12J. Janai，F.Guéney，A.Ranjan，M.Black和A.盖革参考GT 2F PWC我们的GT Occ我们的图3：定性结果：我们将我们的最终结果（第四列）与KITTI 2015（上三行）和MPI Sintel Clean（中间三行）以及MPI Sintel Final（下三行）的两帧PWC-Net（第三列）进行比较。我们的模型产生更好的流量估计，具有更清晰的边界以及准确的遮挡估计（最后一列）。基于在RoamingImages上预训练的硬约束网络初始化这些数据集上的硬约束网络。更具体地说，我们将预训练网络中的流解码器的参数复制到未来和过去的流解码器，同时反转过去的流解码器的输出的符号我们根据经验发现，这为进一步微调提供了良好的初始化。之后，我们在目标数据集上微调我们的模型，即KITTI 2015 MV和MPI Sintel。请注意，在微调期间，模型仍然以无监督的方式进行训练。在下文中，我们将我们的结果与几种最先进的方法进行比较。预培训：由于对特定数据集进行微调会产生很大的差异，因此我们首先考虑不进行微调的无监督方法来评估RoamingImages上的预训练模型。我们的预训练模型（Ours-Hard）在MPI Sintel Clean上取得了相当的结果虽然通过预训练的无监督模型获得的最佳EPE在MPI Sintel Final上为6.34，在KITTI 2015上为21.30，但我们的模型分别实现了6.01和15.63的EPE。在MPI Sintel Final上，我们甚至与MPI Sintel上微调的OccAwareFlow模型不相上下。考虑到用于训练我们模型的简单数据集，这一点尤其令人印象深刻。硬约束与软约束：我们将硬约束网络与软约束变体进行比较，以证明放松恒定速度假设的必要性具有遮挡的13表3：遮挡估计：我们使用最大F-Measure在MPI Sintel和KITTI 2015上比较了我们的遮挡估计与其他方法的性能括号表示在同一数据集上进行训练的情况，而*标记仅将注释样本从训练中排除的情况注意S2D [48]是一种监督方法。方法MPI Sintel清洁 MPI Sintel最终 KITTI 2015S2D [48]-0.57-MODOF [49]OccAwareFlow-ft [19]-（0.54）0.48（0.48）-0.88*Ours-Soft-ft（0.49）（0.44）0.91*更复杂的数据集。虽然我们的硬约束模型（Ours-Hard-ft）在KITTI 2015上进行微调后有所改善，但其性能仍落后于其他无监督的微调方法。在MPI Sintel上，微调后性能下降，因为在该数据集中经常发生切换到软约束版本（Ours-Soft-ft）允许偏离恒定速度假设，并导致两个数据集的显著为了完整性，我们在比较中包括了我们的没有时间约束的微调模型（Ours-None-ft）。与表1类似，在MPI Sintel Final上，除遮挡区域（OCC）外，在所有情况下，无时间约束（Ours-None-ft）的模型的性能均劣于具有软约束（Ours-Soft-ft）的在KITTI2015上，由于主要的复杂运动，改进是微不足道的。我们的结论是，微调与软约束一般是有益的，即使复杂的运动违反了恒定速度的假设。微调结果：我们在MPI Sintel上微调的软约束模型（我们的- Soft-ft）在Clean和Final上实现了3.89和5.52的EPE，因此优于所有其他无监督方法，同时甚至实现了与在MPI Sintel Clean上微调的FlowNet相当的结果。类似地，在测试集1上，我们在Clean和Final上的EPE为7.23和8.81，优于所有其他无监督方法，与没有微调的监督方法表现相当，例如。FlowNet和SPyNet。KITTI 2015 MV的微调将性能提高到6.59，而8.10是迄今为止通过无监督方法实现的最佳EPE在测试集1上，我们甚至比在大型合成数据集（Synthia [10]）和KITTI Raw数据集上训练的UnFlow实现了图3显示了我们在每个数据集上微调模型的定性结果。与两帧配方相比，我们的多帧配方与遮挡的结果在更准确的光流场与尖锐的运动不连续性以及遮挡估计。闭塞估计：我们在MPI Sintel和KITTI 2015数据集上评估了我们的遮挡掩模。我们使用F-Measure（表3）将我们的结果与OccAwareFlow [19]，S2 D [48]和MODOF [49]进行虽然OccAwareFlow [19]获得考虑反向流的遮挡估计，但是S2D[48]使用二进制1我们将结果提交给MPI Sintel和KITTI 2015，名称为14J. Janai，F.Guéney，A.Ranjan，M.Black和A.盖革分类，并且MODOF [49]使用能量函数的离散-连续优化。通过对 MPI Sintel （ Ours-Soft-ft ）进行无监督微调，我们获得了与OccAwareFlow [19]相当的结果。以无监督的方式在MPI Sintel上学习遮挡是非常困难的，因为遮挡通常发生在无纹理区域中，并且由光度损失进行有限的指导。即使是有监督的方法S2 D也在MPI Sintel数据集上挣扎，仅达到0.57的F-Measure此外，与原始PWC-Net [11]类似，我们在四分之一分辨率上估计光流和遮挡掩模。虽然大部分较大的遮挡被正确地估计，但由于下采样，精细细节通常会丢失，如在定性结果中可以观察到的（图2）。（3）第三章。在KITTI2015上，遮挡蒙版仅包含从图像中移出的像素。考虑到这些掩模，我们使用无监督微调模型（Outs-Soft-Kitti-ft）达到最佳性能。注意，我们的方法正确地估计了地面真实掩模中缺失的几个遮挡，例如。离开图中图像的车辆。3 .第三章。RoamingImages的贡献：与其他无监督方法相比，我们在RoamingImages数据集上预训练模型，因为没有简单的多帧数据集可用。这就提出了一个问题，我们的模型成功的原因是否是我们的数据集由于其大小，简单性或其他一些因素。为了消除这种疑虑，我们在我们的数据集上预训练UnFlow CSS [20]，并将其性能与我们的预训练模型进行比较。我们只通过更改学习率为1e-5。如表2所示，我们的预训练模型（Ours-Hard）的性能明显优于在相同数据上训练的UnFlow CSS（UnFlow-CSS(R))所有数据集。这表明，我们的方法的成功不仅仅是基于我们的新数据集，而是关键取决于所提出的多帧公式。5结论我们提出了一种用于从多帧中进行光流和遮挡的无监督学习的方法。我们提出了一个国家的最先进的两帧架构处理多个帧的修改，以预测过去和未来的光流以及时间窗口内的遮挡图我们制定了无监督损失函数，以排除在闭塞区域的误导性信息，并纳入一个简单的时间模型。在实验结果中，我们展示了多帧配方与经典的两帧配方和直接建模的时间关系的重要性闭塞的好处我们通过在简单数据集上进行适当的建模和无监督训练，取得了令人印象深刻的结果，在复杂数据集上优于所有其他无监督经过无监督的微调，我们的方法甚至可以与一些完全监督的方法相提并论。具有遮挡的15引用1. Horn，B.K.P.，Schunck，B.G.：确定光流。人工智能（AI）17（1-3）（1981）1852. 布莱克，MJAnandan，P.：光流鲁棒估计的框架In：Proc. IEEE International Conf.计算机视觉（ICCV）（1993年）1、33. Yamaguchi，K.McAllester，D.乌尔塔松河：高效的联合分割、遮挡标记、立体和流估计。《欧洲会议规程》。计算机视觉（ECCV）（2014年）14. 杨杰，Li，H.：采用分段参数模型的密集、精确光流估计。In：Proc. IEEE Conf.计算机视觉和模式识别（CVPR）。（2015年）15. 孙，D.，Sudderth，E.B.，布莱克，M.J.：随时间的分层分割和光流估计In：Proc.IEEE Conf.计算机视觉和模式识别（CVPR）。（2012年）16. 塞维利亚-拉腊湖孙，D.，Jampani，V.，布莱克，M.J.：具有语义分割和局部化层的光流In：Proc. IEEE Conf.计算机视觉和模式识别（CVPR）。（2016年）7. 白，M.，罗，W.，Kundu，K.，乌尔塔松河：光流的语义信息挖掘与深度《欧洲会议规程》。计算机视觉（ECCV）（2016年）8. Dosovitskiy，A.，Fischer，P.，Ilg，E.，Haeusser，P.，Hazirbas角戈尔科夫v.d.Smagt，P.，Cremers，D. Brox，T. ：Flownet：使用卷积网络学习光流。IEEEInternational Conf.计算机视觉（ICCV）（2015）1，3，4，9，119. Ranjan，A.，布莱克先生：使用空间金字塔网络的光流估计。IEEE计算机视觉与模式识别会议（Proc. IEEE Conf. on Computer Vision and Pattern Recognition，CVPR）（2017）1，3，4，9，1110. Ilg，E.，Mayer，N.Saikia，T.，Keuper，M.，Dosovitskiy，A.，Brox，T.：Flownet2.0：深度网络光流估计的演变。Proc. I

下载后可阅读完整内容，剩余1页未读，立即下载