视频修复方法优化空间错位问题与深度学习性能提升

106 浏览量更新于2024-01-22 收藏 1.67MB PDF 举报

视频修复

深度学习方法

身份认证购VIP最低享 7 折!

30元优惠券

16448用于视频修复的邹雪艳2* 杨林杰1刘丁1李永载2{zxyzou，yongjaelee}@ ucdavis.edu，{linjie.yang，liuding}@ bytedance.com1字节跳动2加州大学戴维斯分校摘要视频修复旨在用合理的内容填充时空“损坏”区域。为了实现这一目标，有必要从相邻帧中找到对应关系，以忠实地产生未知内容的幻觉。目前的方法通过注意力、基于流的扭曲或3D时间卷积来实现这一目标。然而，当光流不准确时，基于流的扭曲可能产生伪影，而时间卷积可能遭受空间未对准。我们提出我们的方法纠正了时间特征传播阶段的空间错位与现有的深度学习方法相比，使用所提出的架构，我们在DAVIS和FVI数据集上实现了最先进的性能。代码可在https://github.com/MaureenZOU/TSAM 上获得。1. 介绍视频修复是一项旨在用合理内容填充视频帧中缺失区域的任务[3]。它具有广泛的应用，包括损坏的视频消除，水印/徽标去除，对象去除等。为了填充对于由于例如以下原因而缺乏良好对应性的任何缺失像素遮挡，视频修复方法必须使合理的内容产生幻觉。现有的最先进的视频修复方法依赖于从相邻帧中提取有用的信息，并且基于三个主要方向：3D时间卷积[6，7，14]，光流[8，37]和注意力[39，26]。用于视频修复的现有3D卷积模型的一般结构由完全卷积的*工作主要在字节跳动公司生成器来整体地预测修复的结果，一个时间补丁GAN增强时间平滑度和帧现实主义[7，6]。然而，这些方法只是简单地堆叠来自相邻帧的特征图将3D时间信息编码为附加轴，而不考虑对象在这些帧上的移动。这导致特征中的空间未对准，这可能导致视频修补的问题。例如，如图1第二行的粉红色圆圈所示，使用3D卷积时，熊猫腿没有成功修复[6]。为了准确地预测结构（即，边缘/形状）细节，视频修补模型需要针对每个时间戳的空间对准的特征图。这促使我们提出一个功能对齐框架来克服这些挑战，并从基于流的方法中获得灵感。最近的基于流的方法[8，37]首先从损坏的视频帧中计算光流，然后使用基于流的修复技术完成未知区域使用计算的流，在损坏的区域中的像素从相邻帧传播。此外，图像修复技术（如[38]）被应用于完成剩余内容。虽然光流方法在空间内容对齐方面很好，并且与注意力或3D卷积模型相比能够以更高的分辨率对视频帧进行修补，但是光流中的任何错误例如，如图1所示，与3D卷积方法（FFVI [6]和我们的方法）相比，使用FGVC [8此外，图像修复技术可能会生成与地面实况内容不匹配的不需要的内容。如图1第一行所示。1时，紫色圆圈表示传播像素无法处理的区域FGVC在草地上生成了一辆原始视频中不存在的汽车因此，我们提出了一种新的框架，称为渐进时间特征对齐网络，以结合时间卷积框架和基于光流的翘曲算法的优点并弥补其缺点。16449(a) FGVC（b）FFVI（c）Ours（d）GT图1.该图显示了我们的方法与基于流的方法FGVC [8]和基于3D卷积的方法FFVI [6]的定性比较我们尝试对（d）中所示的灰色区域进行修补。结果表明，我们的方法生成的内容既更能保持结构，又具有视觉吸引力。接近我们的方法是一个端到端的深度网络，具有一个新的时间移位和对齐模块（TSAM），其中相邻帧之间的特征使用光流对齐。为了在不同尺度上提取对齐的特征表示，我们以从粗到细的方式逐步将TSAM应用于不同网络深度的不同尺度的特征图。图1表明，我们的方法在空间对齐，分辨率和粗到细粒度结构方面具有挑战性的情况下产生了令人满意的结果通过大量的实验，我们证明了我们的方法在两个视频修复基准FVI（YoutubeVOS的子集）[6]和DAVIS [4]上达到了最先进的性能。2. 相关工作2.1. 图像修复图像修复的目的是用检索或合成的内容修复丢失的区域传统的方法要么从图像本身[1，22，2]或相关图像的数据库[12]中检索或插入缺失的内容最近的深度学习方法取得了更好的结果[19，29]，特别是生成对抗网络（GAN）[10]的出现，它可以使修复的图像更加真实[27，16]。然而，GAN可以合成与原始图像无关的内容图像修复算法[38]已应用于视频修复方法[37，8]。所有上述方法共享相同的限制：缺失区域是从周围区域或从外部图像数据库中产生的，这对于可以利用来自相邻帧的时间冗余的视频来说可能是次优的。2.2. 视频修复在视频修复中，损坏区域的信息可以从附近恢复这要归功于视频的时间一致性传统的方法通常是基于块的[11，15，25]，它可以在某些条件下（例如重复的图案，相似的纹理）生成合理的结果，但通常具有较高的计算成本。最近基于深度学习的视频修复方法提出了更高效和有效的解决方案，并且包括三个主要方向：基于注意力的机制[26，39，23]，流引导方法[37，8]，和3D卷积网络[6，7，14]。这些方法使用不同的技术从相邻帧借用信息。基于注意力的方法使用可能导致模糊结果的加权和从相邻帧检索信息。流引导方法能够生成更高分辨率的结果，但对光流中的误差敏感。3D卷积网络具有端到端结构，但可能会受到空间未对齐和修复区域分辨率较低的影响。结合3D卷积网络和流引导方法的思想，我们的方法是一个端到端的3D卷积框架，具有嵌入式时间移位和对齐模块，可以实现准确的时间特征对齐和传播。2.3. 时间建模为了处理时间信息，C3D [32]提出了3D时空CNN。后来，I3D [5]提出将所有2D卷积滤波器膨胀为3D卷积。为了提高3D卷积的时间效率，[33，35]建议将2D和3D卷积结合起来。Tempo- ral移位模块（TSM）[24]结合了2D卷积和跨时间特征的通道移位来模拟3D卷积，并显示了动作识别和视频对象检测的性能增益以及视频修复的时间效率提高[7]。本文将TSM网络看作是一种三维卷积，因为它使用16450−−TSAM残差块反卷积TSAM卷积上采样流……(a) ResNet编码器（b）跳过连接的解码器(1) TSAM瓶颈(2) TSAM转换图2.时间特征对齐网络的生成器。它包括（a）一个ResNet编码器，所有第一个Conv层在用我们的TSAM Conv替换的瓶颈块中（参考（1））;以及（b）具有3个门控DeConv层和5个TSAM Conv层（仅示出三个）的跳过连接解码器。如（2）所示，TSAM Conv层由三个部分组成，包括时间移位和对准模块和2个conv层。首先使用光流对准时间特征X。在通过conv层之后，时间特征通过门控信号（通过点积），该门控信号也是通过conv和sigmoid层使用x计算的在其基本块中跨帧的时间信息（例如ResNet [13]中的每个瓶颈块）。[7]在端到端框架中应用TSM进行视频修复。然而，从相邻帧直接移位特征会在特征图上引入语义不对准。我们的方法引入了一个空间对齐版本的TSM来修复视频修复的错误对齐。3. 方法在本节中，我们首先概述了我们的视频修复模型设计。然后，我们介绍我们的时间移位和对齐模块，它建立在时间移位模块[24]的基础上。最后，我们介绍了用于训练模型的损失函数。3.1. 概述问题定义视频修复可以被公式化为条件像素预测任务：给定有序输入视频帧XT= [f1，f2，.，fT]，其中损坏区域M =[m1，m2，.， mT]，目标是预测原始视频YT= [F1，F2，...，FT]。每个mi是具有与视频帧相同的分辨率的二进制掩码，其中0表示像素丢失或损坏，1表示像素有效。模型设计如图2所示，我们的模型由三部分组成：（1）ResNet [13]编码器骨干，每个瓶颈块的第一个卷积层都被TSAM卷积取代。TSAM卷积将特征图和光流作为输入。它首先移位相邻帧的特征，然后使用光流将移位的特征弯曲到当前移位时间戳处的正确空间位置。我们使用门控卷积来减轻缺失区域带来的任何副作用。通过卷积层和S形层使用原始特征图计算门控信号TSAM Conv的最终输出是计算出的特征与门控信号之间的点积(2)一种跳跃连接的译码器，它包括3个门控反卷积层和5个带门控信号的TSAM卷积层.有两个卷积层用于信道减少，图2中未示出。ResNet编码器和跳过连接的解码器一起构成生成器，其通过经由3D卷积[6，7]从相邻帧借用信息来修复损坏的像素，并在对抗性损失[10]、感知损失等的帮助下对任何剩余的缺失内容进行幻觉处理。(3)一个时间补丁GAN增强时空特征以遵循地面真实目标分布。3.2. 时间移位模块（TSM）TSM [24]是一种时间特征移位方法，用于在信道维度上的相邻帧之间交换信息。它通常与2D卷积相结合，以模仿3D卷积的效果，减少内存和延迟。如图3（b）所示，具有索引[0：f]的通道向下移位，并且具有索引[f：2f]的通道向上移位，使得t=i处的特征图将被来自t=i+1和t=i1的特征丰富。每个移位操作引入一个时间窗口大小为3。随着网络的深入和采用更多的TSM模块，时间感受野线性增加，早为2n-1相对于插入的TSM模块的数量n。虽然TSM模块有效地聚合时间信息，但是聚合的时间特征不是空间对齐的。如图3（b）所示，由于对象运动，人的位置在不同帧中处于不同位置。因此，聚合的TSM特征将在图像内容方面未对齐，这可能导致修复的帧模糊（图1（b），青色流TSAMXConvConv⊗X'XConvConvConv16451信道[0：00][00： 00][00：00][0：00][00： 00][00：00][0：00][0：00]【2】：===(a) 原始特征(b) 时间移位模块(c) 时间移位和对齐模块图3.该图显示了时间移位模块[24]和我们的时间移位和对齐模块之间的比较。(a)原始特征，包含三个不同时间戳的三个特征图，分为三个通道组。(b)时间移位模块将第一[0：f]个声道向下移位并且将第一[f：2f]个声道向上移位。在这种情况下，在时间st_ mp_t=i的特征也包含来自t=i−1和t=i+ 1的信息。（c）我们的时间移位和对齐模块将来自相邻帧的移位特征扭曲为与当前时间戳中的特征在空间上对齐正方形）或空间错位（图1（b）粉红色圆圈）。为了解决这个问题，我们提出了时间移位和对齐模块如下。3.3. 时间移位和对齐模块（TSAM）我们的时间平移和对齐模块包括三个步骤：（1）移动相邻帧的特征。(2)使用光流将移动的特征扭曲到当前时间戳的正确空间位置。(3)使用有效性掩模将空间对准的相邻特征与当前帧特征聚合。我们将在以下各节中详细描述每个步骤。光流光流被定义为在小的时间间隔Δt内一对图像（It，It+ Δt）中的对应像素之间的偏移。偏移量（x，y）一般如下：It（x，y）= It+t（x + x，y + y）。（一）图像上的偏移的集合被定义为流图F。虽然当前的光流方法[17，30，31]可以在真实世界的视频上生成准确的结果，但它们仍然难以在诸如遮挡和快速运动的困难情况下生成准确的光流。图图4（a）示出了一对图像，图4（b）示出了一对图像。图4（b）示出了它们的前向和后向光流。作为一个例子，图1中的第一扭曲图像4(d)将像素从第二图像扭曲回第一图像。然而，由于第一图像中的一些像素在第二图像中不具有对应性，因此使用光流直接扭曲图像会由于遮挡而产生因此，如果我们简单地使用变形特征进行特征聚合，则会存在未对齐的像素。敬过度-针对这个问题，我们计算有效掩码来标记流中的可靠像素。在两种情况下，我们认为位置（x，y）处的流是无效的：（1）我们不能从参考图像中找到映射;或者（2）由于遮挡、快速运动等，计算的流是不准确的我们利用光流的周期一致性（例如，[20]）来检测这两种情况下的无效像素如图4（a），在位置A处计算的流量有效，当且仅当：||δ（2）||<δ(2)其中，Ff和Fb是前向和后向流图，req。由于两幅图像之间光流的循环结构，可以计算正向和反向流的我们在图4（c）中示出了光流的有效性掩模，其中灰色区域表示在情况（1）和（2）下计算的无效像素。为了更好地理解有效性掩模，图4（d）显示了使用flownet2计算的光流变形的图像[17]。通过将有效性掩码与扭曲图像相乘，我们得到图4（e）中的掩蔽扭曲图像，其中不准确的扭曲像素已经被掩蔽掉。用于特征聚合的平移并对齐在计算光流图和相应的有效掩模之后，我们将它们用于我们的TSAM模块中。如图3（c）所示，TSAM模块由三个操作组成：(1) 移位相邻帧的特征通道（如在TSM中所做的）;（2）使用光流来扭曲移位的特征以与当前帧的特征对准;以及（3）将移位的特征图与原始（未移位的）特征图组合。扭曲的）特征图。具体地，给定相邻时间的特征图Xt、Xt-1和Xt+1，流动扭曲流动扭曲流动扭曲流动扭曲……………………………………………………16452不∗不pp不′′F↓B↑(a) 输入（b）流（c）有效性掩模（d）扭曲图像（e）掩蔽扭曲图像图4。该图示出了在一对图像上计算的光流。(a)输入图像对。(b)计算光流。第一行是正向流，第二行是反向流。（c）前向流和后向流的计算有效性掩码（d）没有有效性掩模的扭曲图像（e）具有有效性掩模的扭曲图像我们可以看到，如果我们简单地使用反向正向流将第一个图像扭曲到第二个图像，则在扭曲的图像（d）中会出现额外的人。这是因为人类左侧的背景区域在第二图像中不具有对应的像素，因为它被人类遮挡。stamps，我们使用预测流将前f个通道从Xt−1扭曲到Xt，并将下f个通道从Xt+1扭曲到XtX′[0：f]=F（t−1）→t（X（t−1）[0：f]），其中Y′和Y分别是预测视频和地面实况视频。C是损坏区域中的像素集合，λa和λc是系数。不X′[f：2f] =F（t+1）→t（X（t+1）[f：2f]）（三）感知损失。[2018 - 10- 18 ]第18话被广泛使用其中F′ → F ′表示预测的光流，X′表示对准的特征图。在获得移位和对齐的特征图之后，我们图像或视频修复任务，以提高视觉质量，生成的图像的性质：′卢恩 Σ||φYt−φYt||将移动的和原始（未扭曲）的特征组合在使用有效性掩码v修改信道：Xt[0：2f] =v X′[0：2f] +（1−v）Xt[0：2f]（4）Lp=′ppNt=1p∈P（七）直觉是只要光流有效，就从相邻帧借用尽可能多的信息。在组合来自通道0到2f的特征图之后，我们沿着通道维度连接所有特征图，并将其作为输入传递到随后的层。我们在网络的编码阶段将TSAM模块插入到每个瓶颈块中，并在解码阶段将其插入到卷积层中，如图所示二、3.4. 损失函数我们模型的损失函数包括反射损失Lr、感知损失Lp、风格损失Ls和时间补丁GAN [6]损失LG：Ltotal=Lr+λpLp+λsLs+λGLG（5）其中λp，λs，λG是损失项的系数。重建损失。在大多数视频修复工作[6，7，39]之后，我们的重建损失有两个部分。一个L1损失用于约束整个图像的整体重建，另一个L1损失用于集中受损区域的像素重建精度：其中，φYt和φYt分别表示在时间t处来自预训练网络的第p个选定层的针对预测（Y'）和地面实况（YtNp是第p层中元素的个数，P是集合用于计算感知损失的层 ; 具体来说，我们使用在ImageNet上预训练的VGG网络的四个卷积阶段结束时的特征图。在生成的视频中的所有帧上累积损失。风格损失我们还应用了风格损失[9]，它也广泛应用于图像/视频修复任务。它强制预测图像和地面实况图像具有相似的纹理信息（如通过特征相关性测量的风格损失也在生成的视频和地面实况视频之间的所有帧上累积。4. 实验在本节中，我们首先提供模型的实现细节然后，我们介绍用于评估模型的数据集，并为每个数据集提供训练细节，以重现我们的结果。为了证明我们的方法的有效性，我们将我们的方法与最近的视频进行比较-Lr=λa Σt，i，j|Yt,i,j -Yt，i，j |+λcΣ（t，i，j）∈C|Yt,i,j -Yt，i，j|（六）p16453定量和定性的绘画方法。最后，我们用不同的基线组件消融我们的模型。16454- -表1.该表显示了FVI和DAVIS数据集的定量结果。我们比较了我们的方法与6个不同的基线在三个不同的指标，使用对象掩模，曲线掩模和静止掩模。我们的模型实现了最先进的结果。FVI戴维斯对象掩模曲线遮罩固定面罩对象掩模曲线遮罩固定面罩PSNRSSIMVFIDPSNRSSIMVFIDPSNRSSIMVFIDPSNRSSIMVFIDPSNRSSIMVFIDPSNRSSIMVFIDOPN [26]33.53 0.8844 0.761834.16 0.9125 0.660236.15 0.9540 0.4004 32.91 0.8635 0.366433.78 0.9105 0.270136.330.9596 0.1281尼泊尔共产党[21]33.18 0.8764 0.825732.88 0.8676 0.884135.86 0.9485 0.4606 32.60 0.8452 0.433132.47 0.8496 0.480236.550.9547 0.1637FFVI [6]34.74 0.8899 0.694636.84 0.9470 0.409935.23 0.9375 0.4543 33.45 0.8469 0.380935.76 0.9374 0.184341.180.9679 0.1313DFGVI [37] 33.33 0.8519 0.912232.22 0.8007 1.202037.46 0.9508 0.4838 32.78 0.8171 0.516932.02 0.7688 0.733738.200.9470 0.1894FGVC [8]33.13 0.8832 0.764034.14 0.92120.64035.09 0.9422 0.4017 31.95 0.8323 0.401032.84 0.8841 0.343233.920.9212 0.1734STTN [39]34.86 0.9047 0.727636.07 0.9411 0.613639.60 0.9716 0.3132 33.60 0.8708 0.383134.83 0.9251 0.288238.780.9690 0.1197我们35.480.9160 0.612937.430.9566 0.366141.410.9738 0.289334.230.8798 0.352636.540.9508 0.193342.050.9737 0.1303(a) 对象(b) 曲线(c) 固定任务类对象/曲线掩模包含移动掩模，其占据整个帧区域的0 - 10%至60 - 70%请注意，对象遮罩和曲线遮罩在评估和训练阶段都在移动。静止掩模在评估中是静止的，但是以0.5的概率移动图5.三种类型的腐败面具的例子，我们用于培训和评估。4.1. 实现细节我们的网络结构如图2所示，并在第3节中讨论。我们将图3中的f设置为总特征通道的1/8。在训练过程中，我们使用[17]在地面真实图像对上计算的光流。在评估过程中，如果损坏区域上的地面实况流不可用，我们使用FGVC [8]来完成缺失区域内的所有流图在馈送到TSAM卷积之前被下采样到对应特征图的相同分辨率4.2. 数据集FVI [6]从Youtube-VOS [36]视频对象分割数据集中采样数据。它包含1940个培训视频和100个测试视频。我们使用100个未包含在这些视频中的额外视频进行验证。原始FVI数据集还包含来自YTBB [28]数据集的12600个视频。然而，我们没有将它们包括在训练中，因为[6]表明它们不会导致任何性能改善。DAVIS [4]总共由150个视频组成，其中90个视频被密集注释用于训练，60个用于验证的视频仅用第一帧注释我们遵循[39]使用60个原始验证视频进行训练，使用90个原始训练视频进行验证。视频修复的实际应用包括损坏的视频恢复、对象去除、水印去除等。为了模拟这些应用，我们在三种掩模上训练和评估我们的模型，包括移动对象掩模、移动曲线掩模和站元掩模，如图5所示。掩模内的图像区域（黑色区域）在我们的算法中用作损坏区域。在培训期间进行数据扩充。这些掩码的生成过程遵循先前的工作[39，6]。在FVI和DAVIS数据集上，我们使用略有不同的训练策略。在大规模的FVI数据集上，我们分两个阶段训练我们的模型。在第一阶段，我们只训练编码器和解码器网络，分别具有图像重建损失，感知损失和风格损失，权重为1，1，2。我们训练网络200个epoch。在第二阶段，我们将受损区域的图像重建损失和时间补丁GAN损失添加到权重为6和0.1重建的损失函数中。该模型被进一步微调为200个epoch。由于DAVIS只包含60个用于训练的视频，这不足以从头开始训练网络，因此我们使用在FVI数据集上训练的模型作为预训练模型，并在DAVIS上对其进行微调。我们使用重建损失、风格损失、感知损失和时间补丁GAN损失进行训练，这些损失使用与FVI相同的权重。我们在DAVIS上对模型进行了200次微调。4.3. 基线和评价基线我们将我们的方法与最近的视频内画算法进行比较，包括两种基于注意力的方法OPN [26]和STTN[39]，两种基于流的方法DFGVI [37]和FGVC [8]，一种 3D 卷积方法 FFVI [6] 和一种仿射对齐方法 CPN[21]。评估方法我们使用PSNR、SSIM和VFID来评估视频修复质量。峰值信噪比（PSNR）是一种度量，用于测量预测帧和地面实况帧之间的像素相似性：PSNR= 20log10max（I）−10log10（MSE）（8）其中max（I）是图像的最大可能像素值，MSE是结果之间的均方差16455表2.该表显示了我们的时间特征对齐网络的消融研究结果。我们首先将我们的完整方法（第三行）与不使用光流的消融基线（第一行）进行比较。我们还与使用地面真实光流的基线（第二行）进行比较。结果表明，与使用[8]计算的流量相比，使用光流通常会这里，Flow* 表示预测流，Mask* 表示有效性掩码。对象掩模曲线遮罩固定面罩TSM流量GT流量 *面具 *PSNRSSIMVFIDPSNRSSIMVFIDPSNRSSIMVFIDC35.060.90470.629437.120.95100.382741.110.96940.2961CCC35.760.92690.540437.820.96480.366041.610.97650.2549CCC35.480.91600.612937.430.95660.366141.410.97380.2893和地面实况图像。结构相似性（SSIM）测量两个图像之间的块相似性：不同特征尺度的特征编码。这使能网络借用低和高层次的信息从相邻帧。（2µpµq+ε1）（2σpq+ε2）SSIM（p，q）=（µ2+µ2+ε）（σ2+σ2+ε）12（九）DAVIS表1（右）显示了DAVIS数据集的定量结果。总体而言，我们的模型实现了最佳性能-p q p q其中，µp、µq是斑块p和q的平均值，σp、σq是斑块p和q的方差，σpq是斑块p和q的协方差。ε1，ε2是两个小常数，以防止被0除。视频Frechet Inception Distance（VFID）[34]计算由动作识别任务预训练的I3D [5FID=||µ−µ′||+Tr（+ ′− 2′）（10）其中µ和是地面实况特征图的均值和协方差，µ'和'是预测特征图的均值和方差。4.4. 定量结果我们报告了两个数据集（DAVIS，FVI）和三个不同的掩模（类对象，曲线和静止）的定量结果。FVI表1（左）显示了FVI数据集的定量结果。我们的模型优于所有现有的方法在三个不同的掩码设置。特别是，我们的方法优于FFVI，它使用3D卷积来跨帧聚集时间特征，但不执行对齐。这表明所提出的时间特征对齐对于提高修复视频的视觉质量至关重要。我们的方法也优于FGVC与所有三个评估指标的大利润率，特别是曲线掩模与42%的改善。虽然我们使用与FGVC相同的光流完成方法STTN实现了第二个最好的perfor-曼斯整体。STTN是一种基于注意力的方法，也可以通过transformers迭代填充内容然而，它的注意力模块是在特征编码之后应用的，而我们在编码过程中逐步对齐特征图。完成三项任务。与之前的最佳方法STTN相比，我们的方法在对象掩模和曲线掩模上都产生了更好的结果。在静态掩模上，我们的方法在PSNR和SSIM上明显更好，而在VFID分数上稍差。我们可以看到，基于流的方法在曲线掩模上的FID分数低于基于3D卷积的方法（[6]和我们的方法）。这是因为曲线掩模通常是薄的并且是移动的，因此对于3D卷积方法有足够的周围（空间和时间）信息来有效地消除缺失内容，而当预测的流不准确时，FGVC [8]会受到影响4.5. 消融研究在表2中，我们首先比较使用时间移位模块（第一行）的视频修复结果和使用地面真实光流的时间移位和对准模块这两种方法共享例如图中所示的相同架构二、我们看到，使用我们的时间移位和对齐模块与地面实况流提高性能约5%的PSRN，4.6%的SSIM和3.2%的VFID。这证明了从相邻帧对齐特征的重要性。在表2的第二行和第三行中，我们比较了我们的时间移位和对齐模块，该模块使用地面实况流与由[8]针对损坏区域完成的光流。尽管与使用地面实况流相比，使用完成流降低了性能，但其仍然导致与使用时间移位模块而没有任何光流对准的基线方法（表2中的第一行）一致的性能增益。4.6. 定性结果图6示出了针对对象移除、曲线掩模和静止掩模校正的三个样本视频修补结果。我们将我们的方法与FGVC [8]，STTN16456(a) 输入帧（b）FGVC（c）STTN（d）FFVI（e）我们的图6.我们的方法与FGVC [8]，STTN [39]和FFVI [6]的定性比较。拳击视频表明，我们的方法具有更高的分辨率上的修补区域相比，STTN，并有更好的拳击栅栏相比，FGVC的结构。第二个视频显示，我们的方法准确地inpaints丢失的曲线区域。对于第三个具有固定掩码的示例，我们的方法用合理的内容填充缺失的婴儿车区域。总的来说，我们的方法用更准确的内容和更高的分辨率来填充缺失的区域。[39]和FFVI [6]。通常，FGVC在所有三种情况下都遭受结构错位（例如，拳击围栏错位，人虽然STTN可以修补看似合理的内容，但在大多数情况下，它往往会生成模糊的结果最后，FFVI在某些情况下会产生伪影（例如：拳击围栏周围的黄色与这些方法相比，我们的方法在所有三种情况下都能生成更准确的内容和最后，我们还对不同方法的视觉质量进行了用户研究。结果请参见补充材料。5. 结论本文提出了一种用于视频修复的渐进式时间特征对齐网络，通过利用时间卷积和光流两者来丢失区域。我们采用时间移位模块作为我们的视频骨干，并使用光流来对齐来自移位通道上的相邻帧的特征这种技术导致修复结果具有更好的图像结构和更高的分辨率，这是现有方法的局限性。我们在FVI和DAVIS基准数据集上展示了最先进的结果，并通过消融研究展示了我们的新型模型组件的优势。致谢。这项工作得到了NSF IIS-1812850，AWS ML研究奖，Adobe数据科学研究奖的部分支持。引用[1] Coloma Ballester、Marcelo Bertalmio、Vicent Caselles、Guillermo Sapiro和Joan Verdera。联合填交16457矢量场和灰度级的极化。在IEEE TIP，2001年。2[2] Connelly Barnes ， Eli Shechtman ， Adam Finkelstein ，andDanBGoldman.Patchmatch ： Arandomizedcorrespondence algorithm for structural image editing. 在ACM Trans.Graph. ，2009年。2[3] Marcelo Bertalmio ，Andrea L Bertozzi ，and GuillermoSapiro.纳维尔斯托克斯，流体动力学，图像和视频修复。在CVPR，2001年。1[4] Sergi Caelles，Alberto Montes，Kevis-Kokitsi Maninis，Yuhua Chen ， Luc Van Gool ， Federico Perazzi ， andJordi Pont-Tuset. 2018年戴维斯挑战视频对象分割。在arXiv：1803.00557，2018。第二、六条[5] Joao Carreira和Andrew Zisserman你说的是行动识别吗新模型和动力学数据集。在CVPR，2017年。二、七[6] 张亚良，刘哲宇，李冠英，徐文松。使用3d门控卷积和时间patchgan的自由形式视频修复。在ICCV，2019年。一、二、三、五、六、七、八[7] 张亚良，刘哲宇，李冠英，徐文松。用于深度视频修复的可学习门控时间移位模块。在BMVC，2019年。一二三五[8] Chen Gao，Ayush Saraf，Jia-Bin Huang，and JohannesKopf.流边缘引导视频完成。在ECCV，2020年。一、二、六、七、八[9] Leon A Gatys，Alexander S Ecker，and Matthias Bethge.艺术风格的神经算法在arXiv：1508.06576，2015。5[10] Ian Goodfellow ， Jean Pouget-Abadie ， Mehdi Mirza ，Bing Xu ， David Warde-Farley ， Sherjil Ozair ， AaronCourville ， and Yoonne Bengio. 生成性对抗网。InNeurIPS，2014. 二、三[11] Miguel Granados ， James Tompkin ， K Kim ， OliverGrau，Jan Kautz，and Christian Theobalt.如何不被看到-从拥挤的场景视频对象删除。计算机图形学论坛，2012年。2[12] James Hays和Alexei A Efros。使用数百万张照片完成场景。ACM ToG，2007年。2[13] 何开明，张翔宇，任少卿，孙健。用于图像识别的深度残差学习。在CVPR，2016年。3[14] 胡元婷，王恒，尼古拉斯·巴拉斯，克里斯汀·格劳曼和亚历山大·G·施温。基于建议的视频完成。一、二[15] 黄家斌，康星兵，纳伦德拉·阿胡贾，和乔-汉内斯·科普夫。动态视频的时间相干完成。在ACM ToG，2016年。2[16] Satoshi Iizuka，Edgar Simo-Serra，and Hiroshi Ishikawa.全局和局部一致的映像完成。在ACM ToG，2017年。2[17] Eddy Ilg ， Nikolaus Mayer ， Tonmoy Saikia ， MargretKeuper，Alexey Dosovitskiy，and Thomas Brox.Flownet2.0：深度网络光流估计的发展在CVPR，2017年。四、六[18] 贾斯汀·约翰逊亚历山大·阿拉希和李飞飞。实时风格转换和超分辨率的感知损失。在ECCV，2016年。5[19] RolfK？ hler，ChristianSchuler，BernhardSch？ lk opf，andStefan Harmeling.使用深层神经网络进行特定于掩码的修复。在2014年德国模式识别会议上2[20] 赖梓航和谢伟迪视频通信流的自监督学习2019. 4[21] Sungho Lee，Seean-Wug Oh，DaeYeun Won，and SeonJoo Kim.用于深度视频修复的复制和粘贴网络在ICCV，2019年。6[22] Anat Levin，Assaf Zomet，and Yair Weiss.学习如何从全局图像统计中进行修补。载于ICCV，2003年。2[23] 李昂，赵珊珊，马兴军，龚明明，齐建中，张瑞，陶大成，和Ramamoha- narao Kotagiri。用于视频修复的短期和长期上下文聚合网络。在ECCV，2020年。2[24] 纪林、闯乾、宋涵。Tsm：用于高效视频理解的时间偏移模块。在ICCV，2019年。二、三、四[25] Alasd a irN e wson，And re'sAlmansa，MatthieuFrad e t，YannGousseau，andPatrickPe'rez. 复杂场景的视频修复在Siam Journal on Imaging Sciences，2014年。2[26] 吴先生，李成浩，李俊英，金善珠。洋葱皮网络用于深度视频完成。在CVPR，2019年。一、二、六[27] Deepak Pathak ， Philipp Krahenbuhl ， Jeff Donahue ，Trevor Darrell，and Alexei A Efros.上下文编码器：通过图像修复进行特征学习。在CVPR，2016年。2[28] Esteban Real，Jonathe Shlens，Stefano Mazzocchi，XinPan， and Vincent Vanhoucke.Youtube-boundingboxes ：用于视频中对象检测的大型高精度人工注释数据集在CVPR，2017年。6[29] Jimmy SJ Ren ， Li Xu ， Qiong Yan ， and WenxiuSun.Shepard卷积神经网络InNeurIPS，2015. 2[30] 孙德清，杨晓东，刘明宇，扬·考茨。Pwc-net：使用金字塔，扭曲和成本体积的光流的Cnns。在CVPR，2018年。4[31] 扎卡里·提德和贾登。Raft：光流的递归全对场变换。2020. 4[32] 杜特兰，卢博米尔D布尔德夫，罗布费格斯，洛伦佐托雷萨尼和马诺哈尔帕卢里。视频分析的通用功能。参见CoRR，abs/1412.0767，2014。2[33] Du Tran，Heng Wang，Lorenzo Torresani，Jamie Ray，Yann LeCun，and Manohar Paluri.动作识别的时空卷积的进一步研究在CVPR，2018年。2[34] Ting-Chun Wang，Ming-Yu Liu，Jun-Yan Zhu，GuilinLiu，Andrew Tao，Jan Kautz，and Bryan Catanzaro.视频到视频合成。在NeurIPS，2018年。7[35] Saining Xie ， Chen Sun ， Jonathan Huang ， ZhuowenTu，and Kevin Murphy.重新思考时空特征学习：视频分类中的速度-准确性权衡。在ECCV，2018年。2[36] Ning Xu，Linjie Yang，Yuchen Fan，Jianchao Yang，Dingcheng Yue ， Yuchen Liang ， Brian Price ， ScottCohen，and Thomas Huang. Youtube-vos：序列到序列视频对象分割。在ECCV，2018年。6[37] 徐锐，李晓晓，周博磊，陈昌来。深度流引导视频修复。在CVPR，2019年。一、二、六16458[38] Jiahui Yu，Zhe Lin，Jimei Yang，Xiaohui Shen，XinLu，and Thomas S Huang.具有上下文注意的生成式图像修复。在CVPR，2018年。一、二[39] Yanhong Zeng，Jianlong Fu，and Hongyang Chao.学习联合时空变换的视频修复。在ECCV，2020年。一、二、五、六、八

下载后可阅读完整内容，剩余1页未读，立即下载