深度流引导的视频修复

31 浏览量更新于2023-10-19 收藏 3.13MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3723深度流引导的视频修复徐锐1李晓晓1周波磊1陈昌来21香港中文大学-商汤科技联合实验室2南洋理工大学{xr018，bzhou@ie.cuhk.edu.hklxx1991@gmail.comccloy@ntu.edu.sg}摘要视频修复的目的是填补视频的缺失区域，由于难以保持视频内容的精确空间和时间相干性，因此在这项工作中，我们提出了一种新的流引导的视频修复方法。而不是直接填充在每个帧的RGB像素，我们认为视频inpainting作为一个像素传播问题。首先，我们使用新设计的深流复杂网络合成一个空间和时间相干的光流场跨视频帧。然后利用合成的流场引导像素点的传播来填充视频中的缺失区域具体而言，深流完成网络遵循由粗到细的细化来完成流场，而其质量通过硬流示例挖掘进一步提高。按照完整的流程指导，可以精确地填充缺失的视频区域我们的方法在DAVIS和YouTube-VOS数据集上进行了定性和定量评估，在修复质量和速度方面达到了最先进的水平代码和模型可在https://github.com/nbei/Deep-Flow-Guided-Video-Inpainting上获得1. 介绍视频修复的目标是用空间和时间上相干的内容填充给定视频序列的缺失区域[4，12，22，24]。视频补绘，也被称为视频补全，有许多现实世界的应用，如不需要的对象删除[9]和视频恢复[32]。由于摄像机运动和物体运动的复杂性，对真实世界的高清视频序列进行修复仍然是一个挑战大多数现有的视频修复算法[12，21，22，27，30]遵循传统的图像修复流水线，通过将问题公式化为基于块的优化任务，其通过对已知区域的空间或时空块进行采样来填充缺失区域，然后解决最小化问题。尽管有一些好的结果，这些方法遭受两个平局-背后首先，这些方法通常假设丢失区域中的运动场是平滑和均匀的，因此它们不能处理具有复杂运动的视频。故障案例如图所示。第1段（b）分段。其次，基于优化的方法的计算复杂度高，因此这些方法对于现实世界的应用是不可行的。为例如，Huanget al. [12]修复一个854×480大小的视频需要大约3个小时，其中90帧包含18%的缺失区域。虽然通过使用卷积神经网络（CNN）[18]在图像修复方面取得了重大进展[15，17，23，26，35]，但使用深度学习的视频修复仍然很少探索。将基于深度学习的图像修复方法扩展到视频领域存在一些挑战如图如图1（c）所示，单独地在每个帧上直接应用图像修补算法将导致时间伪像和抖动。另一方面，由于大量的RGB帧，一次将整个视频序列馈送到3D CNN也难以确保时间相干性。同时，需要非常大的模型容量来直接对整个视频序列进行修补，考虑到其大的存储器消耗，这在计算上是不而不是填充RGB像素，我们提出了一个替代原生的流引导的方法进行视频修复。我们的方法背后的动机是，完成缺失流比直接填充缺失区域的像素要容易得多，同时使用流来传播像素，自然地如图如图1（d）所示，与RGB像素相比，光流远没有那么复杂并且更容易完成，因为背景和场景中的大多数对象通常具有可跟踪的运动。这一观察启发我们设计我们的方法，以减轻视频修复的困难，首先合成跨帧的相干流场。然后，丢失区域中的大多数像素可以从可见区域传播和扭曲。最后，我们可以使用像素幻觉填充整个视频中看不到的少量区域[35]。为了填充视频中的光流，我们设计了一种新的深度流完成网络（DFC-Net），3724(a) 缺失区域（b）基于块的方法（c）图像修复（d）流引导视频修复图1：在这个例子中，我们展示了两个常见的修复设置，前景对象删除和固定区域修复。(a)缺失的区域以橙色显示（b）基于块的优化方法的结果受到复杂运动的影响(c)传统的图像修复方法不能很好地保持图像的时间一致性。（d）我们的方法将视频修复视为像素传播问题，其中光流场完成（如左图所示），然后使用合成的流场来引导像素的传播以填充缺失区域（如右图所我们的修复保留了细节和视频连贯性。以下技术创新：(1) 从粗到细的细化：所提出的DFC网络旨在从缺失区域恢复准确的流场。这是通过堆叠三个类似的子网络（DFC-S）来实现的，以执行从粗到细的流完成。具体地，第一子网络接受一批连续帧作为输入，并在相对粗略的尺度上估计中间帧的丢失流。该批粗略估计的流场随后被馈送到第二子网络，然后是第三子网络，以进一步提高空间分辨率和精度。(2) 时间一致性维护：我们的DFC-Net被设计为自然地鼓励全局时间一致性，即使它的子网络每次只预测一帧。这是通过馈送一批作为输入的连续帧来实现的，这提供了更丰富的时间信息。此外，相邻帧之间的高度相似的输入往往会产生连续的结果。(3) 硬流实例挖掘：引入硬流实例挖掘策略，提高流边界和动态区域的修复质量。总之，这项工作的主要贡献是一种新的流引导视频修复方法。我们证明，引人注目的视频完成在复杂的场景中，可以通过高质量的流完成和像素 prop-agation。设计了一个深度流补全网络，以处理任意形状的缺失区域、复杂运动，并保持时间一致性。相比与以前的方法相比，我们的方法在运行速度上明显更快，同时它不需要对视频内容的丢失区域和运动进行我们在DAVIS [25]和YouTube-VOS [34]数据集上展示了我们的方法的有效性，具有最先进的性能。2. 相关工作基于非学习的修复。在深度学习流行之前，大多数图像修复方法分为两类，即，基于扩散或基于块的方法，这两种方法都旨在通过从已知区域借用外观信息来填充目标孔。基于扩散的方法[1，5，19]在目标孔周围传播外观信息以完成图像。这种方法不能处理外观变化和填充大孔。基于补丁的方法[6，8，10，29]通过从已知区域或其他源图像中采样和粘贴补丁来完成缺失区域这种的方法已扩展到时间域视频修复[21，22，27]。Strobel等人[30]和Huanget al. [12]进一步估计缺失区域中的运动场以解决时间一致性问题。与基于扩散的方法相比，基于块的方法可以更好地处理非平稳视觉数据。然而，密集计算的补丁相似性是一个非常耗时的操作。即使使用补丁-固定区域修复前景物体去除3725i→（i+1）∗i→（i+1）Match [2，3]为了加速补丁匹配过程，[12]的速度仍然比我们的方法慢大约20倍。重要的是，与我们基于深度学习的方法不同，所有上述方法都无法捕获高级语义信息。因此，它们在重新覆盖包含来自多个对象的复杂和动态运动的区域中的内容方面存在不足。基于学习的修复深度学习的出现激发了最近的研究工作，研究图像修复的各种深层架构。早期的作品[17，26]试图直接训练一个深度神经网络进行修补-ing.随着生成对抗网络（GAN）的出现，一些研究[15，23，35]将修复制定为条件图像生成问题。通过使用GAN，网络DFC-S。叠流完井网络（DFC-网络）的规定见第2.2节。3.2.最后，RGB像素传播过程将在第2节中阐明。三点三3.1. 深流完井子网（DFC S）在我们的网络中，向第一个DFC-S提供了两种类型的输入：（i）来自连续帧的流图的级联该DFC-S的输出是中间帧的完整流场。与使用单个流图输入相比，使用流图序列和相应的掩码显著提高了流完成的准确性。Pathak等人[23]训练一个修复网络，它可以包含：更具体地说，假设f代表了in-DLE大型孔。Iizuka等人[15]第23话引入全局和局部鉴别器以导出对抗损失。最近，Yuetal.[35]在生成信息中提出了一种语境注意机制，第i帧和第（i+1）帧之间的流，并且Mi→（i+1）表示相应的指示掩码。我们首先使用FlowNet 2.0 [ 16 ]提取流场，并通过平滑插值已知值来初始化f 0中的所有孔。绘画框架，它进一步提高了修复在边界向内。完成f，在-质量. 这些方法在图像处理修复将它们直接扩展到视频领域0（i−k）→（i−k+1）0i→（i+1）0（i+k）→（i+k+1）}和然而，由于缺乏时间约束建模，这是具有挑战性的。在本文中，我们制定了一个有效的框架，是专门设计来利用冗余信息的视频帧。通过深度估计流场的像素传播的概念在文献中是新的所提出的技术，例如，在实验中显示了从粗到细的流完成、保持时间一致性和硬流示例挖掘的有效性，优于现有的基于优化和基于深度学习的方法。3. 方法图2描述了我们的流引导视频修复方法的管道。该方法分为两步，第一步是完成缺失流场，第二步是在已完成流场的引导下进行像素点的在第一步中，提出了用于粗到细流动完井的深流动完井网络（DFC-Net）。DFC-Net由三个相似的子网组成，称为DFC-S。第一子网络以相对粗略的尺度估计流量，并将其馈送到第二和第三子网络中以进一步细化。在第二步中，在获得流之后，可以通过来自不同帧的流引导传播由已知区域中的像素来填充大部分缺失区域。最后采用传统的图像修复网络[35]来完成整个视频中看不到的剩余区域。由于第一步中的高质量估计流，我们可以轻松地传播这些图像修复结果整个视频序列。第3.1节将介绍我们的基本流程完成子{M（i-k），.，我... M（i+k）}是级联沿着信道维度然后被馈送到第一子网络，其中k表示连续帧的长度。一般来说，k=5足以使模型获得相关信息，并且馈送更多帧不会产生明显的改善。利用该设置，对于第一DFC-S，输入通道的数量为33（11个流图，每个流图用于x和y方向流，以及11个二进制掩码）。对于第二和第三DFC-S，输入和输出是不同的。它们的设置将在第二节中讨论。3.2.如图2（a），考虑到模型容量和速度之间的权衡，DFC-S使用ResNet-50 [11]作为骨干。ResNet-50由五个块组成，分别命名为'conv 1'，'conv 2 x'到'conv 5 x'。我们修改'conv1'中第一个卷积的输入通道33在第一个DFC-S）。为了提高特征的分辨率，我们减少了卷积步长，并将卷积替换为从“conv4 x”到“conv5 x”的扩张卷积，然后增加一个由卷积层、回归层和上采样层交替组成的上采样模块来扩大预测。为了将预测投影到流场，我们重新移动了上采样模块中的最后一个激活函数3.2. 通过堆叠图2（a）描述了DFC-Net的架构，它是通过堆叠三个DFC-S构建的。通常情况下，洞越然后在第二和第三子网中逐渐放大帧以捕获更多细节，然后进行由粗到细的细化把{f、...、F、...、F3726i→（i+1）2{f3}子网1子网2(a) 深流完井网络（DFC-Net）子网3前向传播反向传播(1)流引导像素传播双向归并图像修复(2)在视频中修补未显示的区域已知像素未连接到已知像素(b) 流引导帧修复导流整经图2：我们的深度流引导视频修复方法的管道。最佳观看放大。范例与原规模相比，三个子网络的输入分别调整为1/2，2/3和1在从第一子网络获得粗略流之后，第二子网络集中于进一步的流细化。为了更好地对齐流场，在第二子网中联合细化前向流和后向流。设f1是第一个子网络产生的粗流场。对于每一对连续的第一子网络取第i帧、第i+1帧和第i +1帧的估计双向流的序列，缺失区域地面实况初始流第一阶段第二阶段第三阶段图3：不同子网络输出的可视化。的1（i−k）→（i−k+1）1（i−k）←（i−k+1）1i→（i+1）i←（i+1）1（i+k）→（i+k+1）1（i+k）←（i+k+1）}和如─完成的流的质量相对于从粗到细的细化得到提高最佳观看放大。放置并生成细化流{f2i←（i+1）}。与第一个子网类似，二进制M掩码{M（i−k）、...、我...M （i+k）}和Li=1，（1）M101{M（i-k+1），.， M（i+1），. M（i+k+1）}也被馈送到第二子网络，用于指示所述流领域第二子网络共享与第一子网络相同的架构，但是，输入和输出通道的数量不同。最后，来自第二个子网的预测被放大并进一步馈送到第三个子网，第三个子网严格遵循与第二个子网相同的过程来获得最终结果。一步一步的可视化提供图。3、通过由粗到细的细化，流场质量训练在训练过程中，对于每个视频序列，我们随机生成缺失区域。优化目标是最小化预测和地面实况流之间的l1三个子网络首先分别进行预训练，然后以端到端的方式进行联合微调具体地，第i个子网的损耗被定义为：其中，f是地面实况流，f是逐元素乘法。对于联合微调，总损耗是子网络损耗的线性组合。Hard Flow Example Mining（HFEM）. 由于视频序列中的流动区域大部分是平滑的，因此在平滑区域和边界区域之间训练样本的数目存在很大的偏差。在我们的实验中，我们观察到直接使用l1损失通常会导致不平衡问题，其中训练过程由光滑区域主导，而预测中的边界更糟糕的是，不正确的流动边缘可能会导致在随后的传播步骤中出现严重的伪影。为了克服这个问题，受[28]的启发，我们利用硬流示例挖掘机制来自动更多地关注困难区域，从而鼓励模型{f2，M}{f2}DFC-SDFC-S{f1，M}{f0，M}{f1}DFC-S向前落后向前落后上采样ResNet-50{f、...、F{f、...、F、...、F、...、F，f3727i→（i+1）i←（i+1）i→（i+1）i→（i+1）硬质区不含HFEM带HFEM通过光流（例如，图中的白色区域2（b）（2）），这意味着该模型不能将某些掩蔽区域连接到其他帧中的任何像素。图像修补技术[35]被用来完成这些不可见的区域。图2（b）（2）说明了填充不可见区域的过程。在实践中，我们在视频序列中选择具有未填充区域的帧，并应用[35]来完成它。然后基于估计的光流将修补结果传播到整个视频序列。罪恶-图4：硬流示例挖掘。以产生清晰的边界。具体来说，我们按照损失的降序对所有像素进行排序。顶部p百分比像素被标记为硬样本。然后，它们的损失通过权重λ来增强，以强制模型更多地关注这些区域。硬流示例挖掘的l1损失定义为：角传播可能不会填充所有缺失区域，因此图像修补和传播步骤被迭代地应用，直到不能找到更多的未填充区域为止。平均而言，对于一个有12%缺失区域的视频，通常有1%的不可见像素，它们可以在1.1次迭代后被填充。4. 实验MMh<$（fi−f<$）<$修复设置。两种常见的修复设置是Li=1+λM101Mh第一条、第二条在本文中考虑第一个设置旨在删除其中Mh是指示硬区域的二进制掩码。如图4、硬样本主要分布在边界等高频区域。由于硬流示例挖掘，模型学会了专注于产生更清晰的边界。3.3. 流引导帧修复DFC-Net产生的光流建立了跨帧像素之间的连接，这可以用作通过传播来修复丢失区域的指导。图2（b）示出了流引导帧修复的详细过程。流引导像素传播。由于估计流量在某些地方可能不准确，我们首先需要检查不希望的前景对象，这已经在探索以前的工作[12，22]。在该设置中，给出遮罩以勾勒前景对象的区域。在第二个设置中，我们希望填充视频中的任意区域，该区域可能包含前景或背景。此设置对应于一些实际应用，如水印删除和视频恢复。为了模拟这种情况，在[15，35]之后，视频帧中心的正方形区域被标记为要填充的缺失区域Un-除非另有说明，否则对于大小为H×W的视频帧，我们将方形缺失区域的大小固定为H/4×W/4。非前景遮罩通常会导致不准确的流场估计，这使得该设置更具挑战性。数据集。为了证明流引导视频修复方法的有效性和泛化能力流量的有效性。对于前向流f3和我们在DAVIS [25]和YouTube上评估我们的方法a location位置xi，we verify验证a simple简单condition条件based基础on pho pho-VOS [34]数据集。DAVIS数据集包含150个高-测量一致性：Δ（xi+1+f3（xi+1））−xi<2高质量的视频序列。90个视频的子集包含所有其中xi+1=xi+f3（xi）且x是相对用逐像素前景对象较小阈值（即，（五）。这意味着，在前向和后向传播，像素应该回到原始位置。如果不满意，我们将面具，这是保留用于测试。对其余60个未标记的视频，我们采用它们进行训练。虽然DAVIS最初不是为视频评估而提出的，相信F1（xi）是不可靠的，忽略它在修复算法，它是通过这里，因为预-传播反向流动可以用同样的方法。一致性检查后，如图所示在图2（b）（1）中，基于有效的估计流，双向传播所有已知像素以填充特别地，如果未知像素与前向和后向已知像素都连接，则将通过它们的像素值的线性组合来填充，所述像素值的权重与未知像素和已知像素之间的距离在视频中修补不可见的区域。在某些情况下，缺失区域不能由跟踪的已知像素填充cise对象遮罩注释。 [34]第三十四话4，453个视频，分为3，471个用于培训，474个用于验证，508个用于测试。由于YouTube-VOS不提供密集的对象遮罩注释，我们只使用它来评估模型在第二次修复设置中的性能。数据准备和评估指标。 FlowNet2.0 [16]用于流量提取。数据准备对于两个修复设置，如下所示是不同的。(1) 设置1：前景对象移除。为了准备训练集，我们合成并将随机形状的掩模覆盖到视频的每一帧上随机运动是在-13728表1：固定区域修复的定量结果前景物体去除百分百百分之八十百分之六十百分之四十百分之二十0%的百分比排名1排名2排名3百分百百分之八十百分之六十百分之四十百分之二十0%的百分比固定区域修复排名1排名2排名3模拟真实的物体遮罩。掩蔽和OursHuang et al.深层填充图5：用户研究。“Rank x” means the percentage of inpaint-ing results from each approach being chosen as the x-th未掩蔽的帧形成训练对。为了测试，由于移除区域的地面实况不可用，因此通过用户研究进行评估。(2) 设置2：固定区域修复。每个训练帧由帧中心的固定正方形区域覆盖。再次，掩蔽和未掩蔽的帧形成训练对。为了测试，除了用户研究之外，我们还报告了该设置中的PSNR和SSIM [20，33]PSNR度量图像4.1. 主要结果在DAVIS和YouTube-VOS数据集上，我们将我们的方法与其他现有方法进行了定量和定性比较。对于YouTube-VOS，我们的模型在其训练集上进行训练。DAVIS数据集中的数据不足以从头开始训练模型因此，我们使用来自YouTube-VOS的预训练模型，并使用DAVIS训练集对其进行微调在其各自的测试集上报告性能。定量结果。我们首先在第二个修复任务上定量地与实验方法进行比较，第二个修复任务的目的是填充固定的缺失区域。结果总结于表1中。我们的方法在两个数据集上都取得了最佳性能。如表1所示，直接对每帧应用图像修复算法[35]会导致较差的结果。与传统的视频修复方法[12，22]相比，我们的方法可以更好地处理具有复杂运动的视频。同时，我们的方法在运行时速度上明显更快，因此它更适合于现实世界的应用。用户研究。重建误差方面的评估度量并不完美，因为对于原始视频帧有许多合理的解决方案。因此，我们进行了一项用户研究，以量化我们的方法和现有作品[12，35]的修复质量。我们使用在DAVIS数据集上训练的模型进行本实验。具体来说，我们从DAVIS测试集中为每个参与者随机选择15个视频。这些视频是1继[12]之后，我们报告了“CAMEL”视频的运行时间然后通过三种方法（我们的，Deepfill [35]和Huang等人）进行修复。[12]在两种不同的设置下。为了更好地显示细节，视频以低帧速率（5FPS）播放。对于每个视频样本，要求参与者在播放视频后对三个修复结果进行排名我们邀请了30名参与者进行用户研究。结果总结于图1B中。5，与定量结果一致。我们的方法显着优于其他两个基线，而图像修复方法表现最差，因为它不是为了保持其输出的时间一致性图6显示了我们的修复结果2的一些示例。定性比较。在图7中，我们将我们的方法与Huang等人的方法进行了比较。的方法在两个不同的设置。从第一种情况来看，很明显我们的DFC-Net可以打赌-完成流程。由于完成了流程，模型可以轻松地用正确的像素值填充区域。在第二个例子中所示的更具挑战性的情况下，与Huang等人的显着伪影相比，我们的方法在修复复杂的掩蔽区域（例如女性的部分）时更加鲁棒。的结果。4.2. 消融研究在本节中，我们进行了一系列消融研究，以分析我们的流引导视频修复方法中每个组件的有效性除非另有说明，否则我们使用YouTube-VOS的训练集进行训练。为了更好的定量比较，在第二修复设置下的YouTube-VOS的验证集上报告所有性能，因为我们在该设置下具有被移除区域的地面实况。与图像修复方法的比较。我们的流引导的视频修复方法显着简化了修复任务，通过使用合成的流场作为指导，其将视频完成问题转换为了证明这种模式的有效性，我们将其与每个单独帧的直接图像修复网络进行比较。为了进行公平的比较，我们采用了Deepfill架构，但使用多个颜色帧作为输入，称为“Deepfill+ Multi-Frame”。然后是DAVIS数据集。Newsonet al. [22]没有报告处决时间，我们使用与[12]类似的环境来测试它们的执行时间。2我们强烈建议在youtu.be/zqZjhFxxxus观看视频演示YouTube视频戴维斯时间1（分钟）PSNR SSIM PSNR SSIM深填充[35]16.680.1516.470.140.3Newson等[22日]23.920.3724.720.43∼270Huang等人. [12个]26.480.3927.390.44∼1803729图6：我们的流引导视频修复方法的结果。对于每个输入序列（奇数行），我们显示了具有缺失区域覆盖掩模的代表性帧。我们在偶数行中显示修复结果。最佳观看放大。Huang et al.我们图7：与Huang等人的比较。DFC-Net的三层表2显示了DAVIS和YouTube-VOS上的修复结果。尽管与Deepfill相比，多帧输入和堆叠架构可以带来边际改进。“深度填充+多帧”和我们的方法之间的显着差距硬流实例挖掘的有效性。正如在SEC中介绍的那样。3.2，光流场的大部分区域是平滑的，这可能导致退化模型。因此，提出了一种硬流实例挖掘机制，以减轻标签偏差对流修复问题的影响同样，在本实验中，我们采用第一个DFC-S来检验硬流示例挖掘表3列出了不同挖掘设置下的流完成精度，以及相应的修复性能。参数p表示被标记为硬样本的样本的百分比。我们使用标准端点误差（EPE）度量来评估我们的修复流。为了清楚地演示，所有流样本根据其变化被分为光滑和非光滑集合。总体而言，硬流示例挖掘机制在所有设置下都提高了性能。当p较小时，这意味着样本较硬，它将增加表 2 ：固定区域修补的定量结果。 “Deepfill+Multi-Frame” uses Deepfill architecture but withYouTube视频戴维斯PSNR SSIM PSNR SSIM深层填充16.680.1516.470.14深层填土+多框架16.710.1516.550.15深层填充+多道次17.020.1616.940.17我们27.490.4128.260.48表3：硬流开采实例的消融研究p（%）流动完井（EPE）视频修复平滑区域硬质区整体PSNRSSIM不含HFEM0.131.171.0324.430.36700.131.131.0124.630.36500.131.040.9926.150.37300.131.040.9926.150.37100.131.081.0025.920.37训练中的困难。然而，如果p较大，则模型与基线相比不会得到太大的改进p的最佳选择范围为30%~50%。在我们的实验中，我们将p固定为50%。堆叠架构的有效性表4描述了3730表4：堆叠结构的消融研究。流水完井（EPE）视频修复PSNRSSIM区域填充1.0723.850.35阶段-10.9926.150.37阶段-20.9427.100.38DFC-单0.9726.580.37DFC-Net（不含MS）0.9527.020.40DFC-Net（Stage-3）0.9327.500.41表5：流动引导像素传播的消融研究PSNRSSIM无像素传播19.430.24w/像素传播27.500.41表6：DAVIS上初始血流质量的消融研究。EPEPSNRSSIMHuang等人.不带Flownet2–27.390.44Huang等人.使用FlowNet21.0227.730.45我们0.9328.260.48DFC-Net的逐步细化结果，包括流和相应的修复帧。为了进一步证明堆叠DFC网络的有效性，表4还包括两个其他基线，其构造如下：• DFC-Single：DFC-Single是一种单级流动完井网络，类似于DFC-S。为确保公平比较，缺失区域Huanget al +FlowNet2 Ours图8：Huang等人完成的流程比较。也是我们的图9：一个失败案例。第一行显示输入，第二行显示输出。初始流量的消融研究。流量估计算法是重要的，但不是至关重要的，因为它只影响缺失区域之外的流量质量。相比之下，缺失区域内的完整流的质量更为关键。我们用FlowNet2估计的流量代替[12]的初始流量，以确保公平比较。表6和图8证明了我们方法的有效性。失败案例。故障案例如图所示。9.第九条。我们的方法在这种情况下失败了，主要是因为完成的流程在-子，DFC-Single采用更深的主干，即。ResNet-101。• DFC-Net（不含MS）：DFC-Net（w/o MS）的架构与DFC-Net相同。然而，在该基线模型的每个阶段从开始到结束的完整分辨率。通过仔细检查表4，我们可以发现，通过由粗到细的细化，终点误差逐渐减小DFC-Single的结果略低于第二阶段，这表明在此任务中使用堆栈架构的有效性。为了进一步表明在每个阶段使用多尺度输入的有效性，我们将我们的DFC-Net与DFC-Net（w/o MS）进行了比较。性能差距验证了在每个阶段使用多尺度输入的策略改善了我们的模型的结果，因为在早期使用大尺度的输入通常会有效性导流像素传播。在获得完整的流之后，首先双向传播所有已知像素以基于有效的估计流填充缺失区域。此步骤产生高质量的结果，并减少了必须在后续步骤中处理的缺失区域的大小如表5所示，与直接使用图像修补和流扭曲来修补未看到的区域的基线方法相比，该中间步骤大大简化了任务并提高了整体性能。准确地在车的边缘。传播过程无法改变这一点。在未来，我们将使用基于学习的传播方法来减轻估计流量的不准确性的影响。其他更现代的流量估计方法[13，14，31]也将进行研究。5. 结论我们提出了一种新的深度流引导视频修复方法，表明高质量的流完成可以在很大程度上促进复杂场景中的视频修复深度流补全网络旨在处理任意缺失区域、复杂运动，同时保持时间一致性。与以前的方法相比，我们的方法在运行时速度上明显更快，同时它不需要对丢失的区域和视频内容的移动进行任何假设我们展示了我们的方法在DAVIS [25]和YouTube-VOS[34]数据集上的有效性，具有最先进的性能。鸣谢。本研究获香港特别行政区研究资助局一般研究基金 14209217 ）和新加坡 MoE AcRF Tier 1（M4012082.020）。3731引用[1] C. Ballester，M. 贝尔塔米奥河谷卡塞勒湾 Sapiro，以及J. Verdera. 矢量场和灰度级联合插值填充。 IEEETransactions on Image Processing ， 10 （ 8 ）： 1200-1211，2001. 2[2] C. Barnes，E. Shechtman ，A. Finkelstein 和D. B.黄金人。补丁匹配：一种用于结构化图像编辑的随机对应算法。 ACM Transactions on Graphics （ ToG ）， 28（3）：24，2009。3[3] C. Barnes，E. Shechtman，D. B. Goldman和A.芬克尔-斯坦。广义补丁匹配对应算法。欧洲计算机视觉会议，第29-43页。施普林格，2010年。3[4] M. Bertalmio、A. L. Bertozzi和G.萨皮罗纳维尔斯托克斯，流体动力学，图像和视频修复。在IEEE计算机视觉和模式识别会议上，第1卷，第I-I页。IEEE，2001年。1[5] M. Bertalmio，G.萨皮罗河谷Caselles和C.巴列斯特图像修复。在第27届计算机图形和交互技术中，第417- 419页424. ACM出版社/Addison-Wesley出版公司2000. 2[6] M.贝尔塔米奥湖Vese，G. Sapiro和S.奥舍同时进行结构和纹理图像修复。 IEEE Transactions on ImageProcessing，12（8）：882-889，2003. 2[7] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。基于深度卷积网和全连接crf的语义图像分割。2014. 3[8] S. Darabi、E.谢赫特曼角巴恩斯D. B.高盛，以及P. Sen.图像融合：结合不一致的图像使用基于补丁的合成。 ACM Transactions on Graphics （ ToG ）， 31（4）：82-1，2012. 2[9] M. Ebdelli，O. Le Meur和C.海鸠使用短期窗口的视频修复：应用于对象去除和错误隐藏。IEEE Transactions onImage Processing，24（10）：3034-3047，2015。1[10] A. A. Efros和W. T.弗里曼。用于纹理合成和转移的图像绗缝。在第28届计算机图形和交互技术年会中，第341-346页。ACM，2001年。2[11] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议上，第770-778页，2016年。3[12] J. - B. Huang，S.B. Kang，N.Ahuja和J.科普夫动态视频的时间相干完成。 ACM Transactions on Graphics（TOG），35（6）：196，2016。一二三五六八[13] T.- W. Hui，X. Tang和C. C.洛伊LiteFlowNet：一种用于光流估计的轻量级卷积神经网络。在IEEE计算机视觉和模式识别会议上，2018年。8[14] T.- W. Hui，X. Tang和C. C.洛伊一个轻量级的光流CNN重访数据保真度和正则化。 arXiv 预印本 arXiv ：1903.07414，2019。8[15] S. Iizuka、E. Simo-Serra和H.石川全局和局部一致的图像完成。ACM Transactions on Graphics（TOG），36（4）：107，2017。一、三、五[16]E. Ilg，N. Mayer，T. Saikia、M. Keuper，A. dosovitskiy和T.布洛克斯流动网络2.0：光流估计的发展3732深度网络。在IEEE计算机视觉和模式识别会议上，第2卷，第6页，2017年。3、5[17] R. 科勒河，C. Schule r，B. Schoül k opf和S. 伤害。使用深度神经网络进行面具特定修复在German模式识别会议上，第523Springer，2014. 第1、3条[18] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在神经信息处理系统的进展，第1097-1105页，2012年。1[19] A. Levin，A. Zomet和Y.韦斯学习如何从全局图像统计中进行图像修补。在IEEE国际计算机视觉会议上，第305页。IEEE，2003年。2[20] G. Liu，F. A. Reda，K. J. Shih，T.- C. Wang，中国山核桃A. 涛和B. 卡坦扎罗基于部分卷积的不规则孔洞图像修复2018.6[21] A. Newson，A. Almansa，M. Fradet，Y. Gousseau和P. 佩雷斯。最后，通用视频修复。在第10届欧洲视觉媒体制作会议上，第7页。ACM，2013年。一、二[22] A. Newson，A. Almansa，M. Fradet，Y. Gousseau和P. 佩雷斯。复杂场景的视频修复。SIAMJournalonImaging Sciences，7（4）：1993一、二、五、六[23] D.作者：P. Krahenbuhl，J.多纳休，T. Darrell和A. A.埃夫罗斯上下文编码器：通过图像修复进行特征学习。在IEEE计算机视觉和模式识别会议上，第2536-2544页，2016年。第1、3条[24] K. A. Patwardhan，G. Sapiro和M. Bertalm 'ıo。在限制的摄像机运动下的视频内画. IEEE Transactions onImage Processing，16（2）：545-553，2007。1[25] F. Perazzi，J.蓬蒂塞湾麦克威廉斯湖范古尔M.恶心，A。索金-霍恩视频对象分割的基准数据集和评估方法。在IEEE计算机视觉和模式识别会议上，2016年。二、五、八[26] J. S.伦湖，澳-地徐，智-地Yan和W.太阳Shepard卷积神经网络。神经信息处理系统的进展，第901-909页，2015年。第1、3条[27] T. K. Shih，N. C. Tang和J. - N.黄基于示例的视频修复，通过保持时间连续性而没有鬼影伪影IEEE视频技术电路和系统学报，19（3）：347-360，2009年。一、二[28] A.什里瓦斯塔瓦A. Gupta和R.娘娘腔。利用在线硬示例挖掘训练基于区域的对象检测器。在IEEE计算机视觉和模式识别会议上，第761-769页，2016年。4[29] D. Simakov，Y. Caspi，E. Shechtman和M.伊拉尼利用双向相似性对视觉数据进行求和. IEEE计算机视觉与模式识别会议。IEEE，2008年。2[30] M. Strobel，J. Diebold，and D.克莱姆斯流和颜色在绘画的视频完成. 德国模式识别会议，第293-304页。Springer，2014. 一、二[31] D. 太阳，X.杨，M.Y. Liu和J.考茨PWC-Net：使用金字塔，扭曲和成本体积的光流IEEE计算机视觉和模式识别会议，2018年。83733[32] N. C. 唐角，澳-地T. 徐角W. Su，T.K. 施，H.-Y. M. Liao等人通过保持时空连续性对数字化老式电影进行视频修复。IEEE Transactions on Multimedia，13（4）：602-614，2011. 1[33] Z. Wang，中国山核桃A. C. Bovik，H. R. Sheikh和E.西蒙切利图像质量评估：从错误可见性到结构相似性。IEEE Transactions on Image Processing，13（4）：600-612，2004. 6[34] N.许湖，加-地Yang，Y.范，D. Yue，Y.叶，中国植物研究所所长。Liang，J. Yang，和T.煌Youtube-vos：大规模视频对象分割基准。arXiv预印本arXiv：1809.03327，2018。二、五、八[35] J. Yu，Z. Lin，J. Yang，X. Shen，X. Lu和T. S.煌具有上下文注意的生成式图像修复。IEEE计算机视觉和模式识别会议，2018年。一二三五六

下载后可阅读完整内容，剩余1页未读，立即下载