多帧光流估计方法MFCFlow及其在Sintel测试集上的性能优势

30 浏览量更新于2023-10-16 收藏 1.33MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

5068MFCFlow：一种用于光流估计的Yonghu Chen1，2，Dongchen Zhu1，2，Wenjun Shi1，Guanghui Zhang1，Tanyu Zhang1，2，XiaolinZhang1，2，3，4，5 and Jiamao Li1，2，3，*1中国科学院上海微系统与信息技术研究所传感器技术国家重点实验室仿生视觉系统实验室，上海200050 2中国科学院大学，北京1000493雄安创新研究院，中国，4中国科学技术大学安徽合肥230027 5上海科技大学上海201210wwwjmli@mail.sim.ac.cn摘要由于相邻图像之间的模糊像素匹配，遮挡一直是光流估计中的难题。现有的方法仅以两幅连续的图像作为输入，这对捕获时间相干性和推理遮挡区域具有挑战性。在本文中，我们提出了一种新的光流估计框架，即MFCFlow，它试图通过挖掘和传输多帧之间的运动特征来补偿遮挡信息。具体地说，我们构造了一个运动引导的特征补偿单元（MFC单元），以增强模糊的运动特征，根据先前的特征的相关性得到的基于注意力的结构。此外，开发了TopK atten- tion策略并将其嵌入MFC单元帧1[35]第三十五话我们帧2制造商[16]GT以提高后续的匹配质量。大量的实验表明，我们的MFCFlow实现了显着的改善，在闭塞地区，并达到最先进的性能在其他多帧光流方法之间的Sintel和KITTI1. 介绍光流估计是一项基本的低层视觉任务，它描述了从帧It到下一帧It+1的二维位移场。OF稳定地作为一个有益的线索，为与视频中的运动相关的预测任务提供密集的对应关系，*通讯作者图1：在Sintel测试集上通过RAFT、MFR和我们的MFCFlow估计的光流场。我们的方法可以通过运动特征补偿生成更好的结果，特别是对于被遮挡的区域，如“碗”的边缘高级实际应用的动态线索，如自动驾驶[23]，动作识别[34，26]，视频超分辨率[3，29，37]和视频插值[39、20、14]。FlowNet（S，C）[4]是将卷积神经网络（CNN）用于光流的开创性工作在那之后，OF估计方法取得了巨大的进步[27，32，24，28，35，15]。正如Ranjan[27]首先提出了一个名为SPyNet的由粗到细的空间金字塔网络，5069引入了多分辨率下的OF估计和代价体积来区分性地评估PWC-Net[32]中扭曲特征的匹配相似性，这些OF估计方法的性能得到了很大的提高。然而，这些方法仍然难以处理遮挡区域，这促使我们更深入地处理遮挡。如GMA[15]中所强调的，在光流估计中，被遮挡点被定义为在时域中在可见和不可见状态之间切换的点在此，图1示出了一种一般的闭塞情况，其中碗的一部分从手指后面移出。这种现象是由于镜头中对象之间的运动而发生的相互遮挡。此外，图2显示了另一种闭塞情况，其中部分刀片移出了框架视图。这两种现象表明，OF估计是病态的闭塞区域，因为没有真正的对应点的目标图像。也就是说，对于这些被遮挡的点，不存在正确的匹配关系因此，在遮挡区域的运动特征不能是内部一致的，导致歧义在后续的特征级匹配，特别是对于两帧的方法。由于遮挡引起的成本量的模糊性将导致对遮挡区域的推理失败。针对上述遮挡问题，在经典的变分方法中，研究人员通常引入额外的目标函数来约束遮挡[40，1]。在深度学习时代，他们寄希望于CNN来学习遮挡图[12，9，22，13，41]，但没有取得太大成功。然而，给定运动的连续性，当前被遮挡区域可以在较早帧中找到对应点。此外，关于MFF中的时间信息的鉴于此，我们提出了一种新的多帧框架，利用与时间有关的运动特征来重新覆盖光流估计的模糊特征。考虑到这一点，对于一个多框架，如何有效地融合多个框架之间的特征是一个至关重要的挑战。因此，我们设计了一种基于注意力的特征补偿策略，融合运动特征对，从模糊中恢复运动为了保证子特征匹配更加准确合理，在特征融合中进一步引入TopK算子作为对注意力矩阵的附加特征过滤。总之，我们工作的主要贡献如下。• 为了处理在光流估计中由遮挡引起的模糊性，我们提出了一种新的多帧递归框架，即MFCFlow，该框架沿着图像序列聚集先前的特征以恢复当前模糊的运动。• 我们提出了一种新的基于注意力的特征补偿策略，以利用所提出的MFC单元中运动特征之间的时间相干性。此外，我们部署TopK注意力过滤最相关和有效的像素，显着减少冗余信息和噪声相关性的特征匹配。• 我们的 MFCFlow 优于性能最佳的多帧方法MFR[16]，并在Sintel[2]和KITTI[23]上实现了最先进的性能，特别是在遮挡区域中取得了显着的改进2. 相关工作自Horn和Schunck的工作以来，通过深度学习进行的OF估计变分方法主导光流估计[6]。伴随着计算机视觉应用的普及，CNN发挥着越来越重要的作用，通过深度学习进行光流场估计已成为必然趋势。FlowNet（S，C）[4]是第一个用于OF估计的深度学习方法，以及合成训练数据集FlyingChairs。然而，其精度不如经典算法。 IIg等。[11]结合了多个流网络，并提出了一个用于流细化的小型融合网络，流网络2.0，其准确性与经典方法相当，但效率低下。一些后续工作试图利用经典的做法，如翘曲为基础的估计。 PWC-Net [32]随后成为轻量级网络和几种性能最佳方法的基线[7，28，19]。近日，RAFT[35]通过具有循环单元的4D全对成本量实现新的基准结果。我们提出的框架中的一些模块也受到了成功的RAFT的启发虽然这些方法在大多数情况下获得了良好的结果，但它们不允许在遮挡中进行实际推理。遮挡处理由于违反亮度恒定性约束，在遮挡区域中OF是不明确的，因此遮挡处理在精确估计中起着至关重要的作用经典方法将遮挡视为离群值，并在变分方法中优化鲁棒目标函数[40，1]。其他方法联合估计具有显著改进的OF和结论[12，9]。遮挡图在无监督方法中很重要，因为它们需要忽略光度损失中的遮挡区域[22，13]。在自监督方法中，遮挡图也必须用于过滤特征，以避免由于遮挡而导致的模糊性[41]。与以往的工作不同，我们将不估计的闭塞地图。我们的目标是通过运动特征补偿来提高遮挡区域的性能，而不需要估计遮挡图作为优化5070图2：由闭塞引起的歧义的图示。样本帧选自Sintel（最终）训练数据。t时刻的低黄点A“变为t+1时刻的紫点A”“，目标点A”“的不可见性会导致网格采样提取的运动特征模糊。如运动特征（MF）可视化所示，刀头与人体无法区分然而，在时间t − 1，黄点A是可见的，并且MFt−1→t是明显可见的。 MFt−1→t与我们的目标MFt→t+1高度相干。我们可以利用MFt-1→t来补偿MFt→t+1，这又改善了最终的光流估计。前科类似于插值方法，我们的方法models时间相干性，以实现更好的插值结果闭塞。利用时间相干性的多帧OF估计已经被证明可以提高OF估计质量， OFt-1→t 可以被用来恢复不明确的OFt→t+1[28，24，5，22，19，16]。Ren等人[28]提出了一种多帧融合过程，以融合OFt−1→t和OFt→t+1。ContinualFlow [24]引入了一个时间连接，将OFt−1→t传递给估计过程，以获得目标 OFt→t+1 。受ContinualFlow 的启发， ST aRFlow[5] 提出了一种STaRFlow单元，用于传递多个尺度的特征，以及遮挡图。我们的工作接近上述方法，但我们通过运动特征不OF后续估计。此外，我们惊讶地发现，使用多帧的无监督学习方法也具有改进的性能[22，19]。最近，Jiaoet al. [16]结合多个帧来利用运动一致性，以获得一种名为MFR的性能更好的方法，这是我们最相关的工作。然而，MFR将运动特征馈送到由ReLU激活连接的双层CNN，这很难处理分散注意力的信息，而我们开发了一种基于注意力的特征融合策略，以在更有效的多帧设置中利用运动特征。3. 方法我们提出了一种多帧光流估计算法来解决遮挡问题。融合运动特征针对图像序列中的不同时刻，我们设计了一个简单而有效的模块--运动引导特征补偿单元（MFC单元），它是针对时间尺度循环应用的我们首先在第3.1节中描述了由遮挡引起的歧义现象，并在第3.2节中进一步提出了我们的多帧框架并展示了我们模型的展开表示。最后，我们详细介绍了建议的MFC单元，它用于补偿第3.3节中的模糊运动特征。3.1. 问题陈述如MFR[16]中所述，给定连续图像特征gθ（It），gθ（It+1），其中gθ是特征提取r，H和W是特征映射的高度和宽度，D是特征映射的通道维度。相关体积层可以对gθ（It）和gθ（It+1）之间的运动特征相似性进行编码，以生成4D成本体积C。对于图2中的示例，来自C1的采样网格的中心由t→t+1的光流确定。运动特征MF将能够存储帧It中每个像素的最相关匹配点，并且最终光流可以经由CNN块从MF迭代更新[35]。该工作流程似乎对大多数视频场景都很完美。然而，当考虑遮挡和大位移时，我们可以观察到所生成的运动特征MF可以从延伸超出成本体积边界的区域采样，从而导致匹配点的模糊性。换句话说，我们无法在上午确定网格采样中最相关的点5071→图3：所提出的用于光流估计的多帧递归网络（MFCFlow）的展开视图。MFCF1 o将N+1个帧（Ik，k∈t−2，t−1，t，t+1）作为输入并输出N个OF。对输入帧进行编码的特征提取块成本体积（C）从特征对Fk和Fk+1生成运动特征（MF k）。运动引导特征补偿单元（MFC单元）利用连续MF之间的时间相干性来细化当前MF，其将被传递到用于后续OF估计的更新块生物多样性区域具体而言，如图2所示，从时间t开始的黄色像素A'将移动到紫色点，紫色点在时间t+ 1时不可见，位移很大。目标点的不可见性导致在运动特征生成过程中网格采样不明确，使得难以将合理的运动特征转发到更新块。多帧图像携带了物体运动的附加信息，有利于运动特征的恢复和时间相干性约束。3.2. 框架示意图为了解决由遮挡引起的模糊性，我们提出了一种名为MFCFLow的多帧架构来聚合历史运动并恢复模糊特征。如图3所示，为了清晰起见，我们专注于四帧光流估计。给定四个输入帧It-2、It-1、It和It+1，我们的目标是估计从帧It到帧It+1的光流，以提供非局部信息用于在被遮挡区域中更好地内插。我们将在3.3节中详细描述MFC单元。MFC单元最终输出一个运动增强特征MFk。原始MFk和M Fk的级联是期望的聚合特征AFk。更新块将迭代地解码聚集的特征以生成最终的光流。3.3. 运动导引特征补偿单元由于被遮挡区域中的局部信息不足，由遮挡引起的歧义可能难以然而，通过帧序列的时间相干性可以提供运动的非局部信息，这可以被视为用于不明确定义的光流的非局部插值。虽然从时间t到时间t+ 1推断的运动特征（MFt）是模糊的，但是我们可以沿着连续帧的序列对时间相干性进行建模以补偿记为OFIt+1t→t+1.上标I表示，适用于MF测试。在短时间内，MFt−1 和与OF t → t + 1相反，融合来自所有先前帧的信息。在模型训练阶段，我们的多帧估计方法将取N+ 1帧（It-N+1，...，It，It+1）作为输入和输出N个光流MFt应该是高度内部一致的。基于相似性，我们用历史MFi（

下载后可阅读完整内容，剩余1页未读，立即下载