基于3D门卷积和TemporalPatchGAN的自由形式视频修复模型的研究

78 浏览量更新于2023-10-13 收藏 1.46MB PDF 举报

视频修复

深度学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9066基于3D Gated Convolution和Temporal PatchGAN的Ya-Liang Chang*Zhe Yu Liu*Kuan-Ying Lee Winston Hsu国立台湾大学，台北，台湾{yaliangchang，zhe2325138}@ cmlab.csie.ntu.edu.tw，{r03922165，whsu}@ntu.edu.tw输入视频我们的结果地面实况输入视频我们的结果地面实况图1.我们的模型采用不完整的视频与自由形式的面具（例如。左侧为随机文本，右侧为曲线）作为输入，并生成完整的视频作为输出。我们建议使用3D门卷积来处理自由形式的掩模的不确定性，并结合设计的损失函数来增强时间一致性。最好看视频。摘要自由形式的视频修复是一项非常具有挑战性的任务，可以广泛用于视频编辑，如文本删除（见图11）。①的人。现有的基于补丁的方法无法处理非重复结构，如人脸，而直接将基于图像的修复模型应用于视频将导致时间不一致（见视频）。在本文中，我们介绍了一种基于深度学习的自由形式视频修复模型，提出了3D门控卷积来解决自由形式掩模的不确定性，并提出了一种新的Tem- poral PatchGAN损失来增强时间一致性。此外，我们收集视频，并设计了一个自由形式的面具生成算法，以建立自由形式的视频修补（FVI）数据集的训练和评估的视频修补模型。我们展示了这些组件和实验的好处FaceForensics和我们的这两位作者对这篇论文的贡献相等FVI数据集表明，我们的方法是优于现有的。相关的源代码，全分辨率结果视频和FVI数据集可以在Github上找到。1. 介绍视频修复，恢复视频中丢失的部分，是一个非常具有挑战性的任务，仍然没有解决。这是一个非常实际和关键的问题，解决这个问题可能有利于电影后期制作和一般的视频编辑。其中，免费视频修复是最困难和无约束的问题，因为丢失的区域可以是任意形状的（见图11）。①的人。在本文中，我们提出了一种新的模型来解决自由形式的视频修复任务，定量和定性评估表明，我们的模型可以产生最先进的结果与高视频质量。存在针对视频修补问题提出的许多方法，诸如基于补丁的算法[12，14，23，24]。906731] 其目的是从视频的未掩蔽部分中找到最相似的补丁以填充掩蔽区域。然而，基于补丁的模型往往无法恢复复杂的对象，不能看到或找到容易在未掩蔽的部分的视频。当由自由形式掩模覆盖的区域与未覆盖区域的比率高时，基于块的方法中的最近邻搜索算法也可能不起作用（参见表2）。除了基于补丁的方法之外，许多基于深度学习的模型在自由形式图像修复方面取得了巨大进展然而，简单地将图像绘画模型应用于视频往往会导致扭曲或闪烁的结果，这些结果在时间上不一致（参见边缘连接）。我们通过开发一种新的架构，提高了时间的一致性，扩展了工作的自由形式的图像修复视频。这个模型是基于学习的，所以它可以基于训练视频对数据分布进行建模，并恢复被掩蔽的区域。它甚至可以重新覆盖在视频中大部分被遮挡的对象，诸如图1中的面部。1，这对于基于补丁的方法是不可能的。此外，该方法充分利用了视频中的时间信息，修复被减轻。具体来说，我们观察到输入视频包含许多掩蔽的体素，这些体素可能对vanilla卷积有害，我们设计了一个具有3D门控卷积层的生成器，该生成器可以通过学习未掩蔽区域之间的差异来正确处理掩蔽的视频，填充区域和每个层中的掩蔽区域并相应地关注适当的特征。此外，与图像修复不同，视频修复必须是时间上相干的，因此我们提出了一种新的Temporal PatchGAN鉴别器，该鉴别器通过不同损失的组合来惩罚高频时空特征并增强时间一致性我们还设计了一种新的算法来生成各种自由形式的视频蒙版，并基于现有的视频收集一个新的视频数据集，可用于训练和评估基于学习的视频修复模型。我们的贡献可归纳如下：• 我们扩展了图像修复的工作，并提出了第一个基于学习的自由形式视频图像修复模型，并在FaceForensics和我们的数据集上定性和定量地实现了最先进的结果。• 我们引入了一种新的时间 PatchGAN （ T-PatchGAN）鉴别器，以提高时间一致性和视频质量。它也可以扩展到其他视频生成任务，如视频对象删除或视频超分辨率。• 我们设计了一个新的算法来生成自由形式的面具。我们设计和评估几种类型的面具与不同的掩模-框架比。• 我们收集了自由形式视频修复（FVI）数据集，这是我们所知的第一个用于训练和评估自由形式视频修复方法的数据集，包括来自YouTube-VOS的1940个视频[33]数据集和来自YouTube- BoundingBoxes [25]数据集的12600个视频。2. 相关工作图像修复。文献[4]首次提出了图像修复技术，即恢复图像中的受损或缺失区域。已经提出了许多方法来解决图像修复任务，包括基于扩散的[3，4]和基于块的[2，5，9]。一般来说，这些方法在简单的结构上表现良好，但往往无法生成复杂的对象或恢复大的丢失区域。在过去的几年里，基于深度学习的方法在图像修复方面取得了巨大的进展。Xie等人。 [32]是第一个引入卷积神经网络（CNN）用于小区域图像修复和去噪的人随后，Pathak等人。 [24]将图像修复扩展到具有编码器-解码器结构的更大区域，并使用生成对抗网络（GAN）[11]，其中努力创建真实图像的生成器和学习识别假图像的生成器联合训练以改善由l2损失引起的模糊问题。Yu等人。 [36]进一步提出了一个具有本地和全局WGAN的上下文注意力层，以实现更好的结果。自由形式图像修复。近年来，不规则孔洞（自由形状掩模）图像修补因其更接近实际情况而受到关注。Yan等人。[34]在U-Net架构中设计了一个特殊的移位连接层; Lui等人。 [20]提出了部分卷积; Yu等人。[35]开发了具有光谱归一化卷积的门控卷积，以改善自由形式的图像绘画。除了这些工作之外，Nazeri等人。[22]提出了一种两阶段对抗模型EdgeConnect，其中边缘生成器首先对缺失区域的边缘进行超分辨率处理，图像完成网络使用超分辨率边缘作为先验生成最终输出图像。Naz-eri等人提供了一个达到最先进水平的预训练模型，我们将其作为我们工作的基线。虽然最先进的图像修复模型可以以合理的方式恢复图片中丢失的区域，但将这些模型扩展到视频将导致严重的节奏不一致，因为每个修复的帧都不同（见视频）。视频修补。传统上，基于补丁的方法[12，14，23，31]用于视频修复。Wexler等人[31]认为视频修复是一个全局优化问题，其中所有丢失的区域都可以用9068输入视频掩码(a)视频修复生成器输出视频(b)时间片鉴别器(4D特征图）地面实况Conv1每个特征点的真或假对抗性损失三维空间步进卷积3D门控扩张3D门控级联卷积卷积特征图信道级联Conv11损失扩张3D门控卷积Conv4DiConv1Conv1Conv7Conv11Conv4 ConV7DIConv1（c）学习门控值图2.模型架构和学习的门控值可视化。我们的模型是由（a）一个视频修复生成器与3D门控卷积层，其充分利用相邻帧的信息来处理不规则视频掩模，以及（b）时间PatchGAN（T-PatchGAN）鉴别器，其专注于不同的空间-时间特征以增强输出质量。（c）学习的门控值σ（门控t，x，y）的可视化。 3D门控卷积将出现在掩蔽区域上，并逐渐填充缺失的特征点。请注意，所有门控值都是从每个层的第一个通道中提取的，无需手动拾取。来自未掩蔽部分的类似贴片之后，New-son等人 [23]进一步改进了搜索算法，整合了纹理特征和初始化方案。最后，Huang等人。 [14]通过联合估计缺失区域中的光流和颜色来解决移动相机问题，我们也将其作为基线。现有技术的基于补丁的方法可以在某些条件下生成合理的视频，但是这些方法的计算时间对于实时应用来说太高此外，基于块的模型限于重复图案或出现的对象，并且对于复杂结构和大/长期遮挡不可行该模型是基于学习的，可以通过对真实视频的分布进行建模来解决这两个问题，并且只通过前向推理来生成真实的结果，而不需要搜索。为了解决基于补丁的方法中的问题，Wang et al. [29]提出了第一个基于深度学习的视频修复方法CombCN，我们也将其设置为基线。它是一个两阶段模型，具有用于时间一致性的3D卷积网络，随后是用于提高视频质量的2D完成网络虽然他们的模型可以在验证/测试阶段应用于一些随机的洞，它是相当有限的，所以我们不认为它是一个自由形式的视频修复方法。此外，他们的模型只使用传统的卷积，并使用l1损失进行训练，因此在复杂场景中结果往往是模糊的[7]。我们的模型是单阶段的，使用门控卷积来参加有效的特征，并集成感知和时间生成对抗性损失，以生成清晰和合理的视频，用于不规则的移动掩模。3. 该方法提出的模型（图。2）由具有3D门控卷积以修补视频的生成器网络G和具有若干损失的时间PatchGANGND组成。3.1. 视频修复生成器我们将用于图像修复的单级UNet类网络[20]扩展到视频修复，并集成了[35]中的门控卷积层（见图2（a））。在训练期间，我们将地面实况视频帧{Vt|t=1. . . n}和掩码{M t|t=1. . . n}转换为掩码输入视频{I t|t=1. . . n}。该模型将修补被掩蔽的区域并生成输出视频帧{0} t|t = 1. . . n}。3.2. 时空感知3D门控转换在普通卷积层中，所有像素都被处理这对于以真实图像/视频作为输入的任务（诸如对象检测或动作识别）是有意义的。然而，对于修复问题，被掩蔽的区域填充有黑色像素，因此卷积层的输入特征包括无效像素（浅层）9069或合成像素（深层），其不应被完全视为正常像素。为了解决这个问题，我们提出了从[35]扩展的3D门控卷积来取代我们生成器中的香草3D卷积利用来自相邻帧的信息，而在-3D处的门控卷积利用来自相邻帧的信息。风格缺失。我们还包括风格损失，这是在[10]中引入的，以保持图像风格用于风格转移，并且也用于图像修复[20，22]。风格损失类似于感知损失，除了首先将自相关（Gram矩阵）应用于特征：倾向于不规则的掩蔽区域;一起，3D门控浓缩，ΣnP−11|（ΨOtp）T（ΨOtp）−（ΨVt）T（ΨVt））|卷积可以适当地处理自由形式视频掩模的不确定性具体地，对于每个卷积层，Lstyle=t=1p=0CPCPpCp Hp Wpp（八）附加的选通卷积滤波器Wg被应用于输入特征F t，x，y，以获得门控门控t，x，y，其根据有效性被用作来自原始卷积滤波器W f的输出特征特征t，x，y上的注意力图（参见图1）。第2段（c）分段）。t、x、y是视频的空间-时间坐标。它可以被表达为其中Ψ〇tp和ΨVtp都是与感知损失7中的VGG特征相同的（Hp，Wp，Cp）形状的VGG特征。时间PatchGAN丢失。对于自由形式的视频内绘画问题，遮罩可以在视频中的任何地方，因此我们应该考虑每个帧中的全局和局部特征，如：ΣΣ选通t，x，y=Wg·Ft，x，y（1）以及这些特征的时间一致性天真的想法我将对这三个方面分别应用损失函数Σ Σ特征t，x，y=Wf·Ft，x，y（2）其中σ是将门控变换为0（无效）和1（有效）之间的值的S形函数，并且Φ是原始激活函数（例如，S形函数）。LeakyReLU）。3.3. 损失函数训练模型的总损失函数定义为：分别然而，根据经验，我们发现很难平衡这些损失函数的权重，特别是当其中一些损失是GAN损失时（添加GAN损失是一种非常常见的策略，可以使图像修复结果更逼真[22，36，35]）。Yu等人提出了一种高效的SN-PatchGAN [35]，该方法将GAN损失应用于区分器的特征图，以取代全局和局部GAN的使用，并解决了掩码可以在任何地方和任何形式的问题尽管他们的工作解决了L总=λ11L11+λ11掩模L11掩模+λperc+λstyleLstyle+λGLG（四）GAN丢失和解决了自由形式图像修复问题，它不考虑时间一致性，是一个关键的其中λl1，λl1掩模，λperc，λstyle和λG是权重高质量视频修复的因素有了这一分别针对l1损失、掩蔽l1损失、感知损失、风格损失和时间PatchGAN损失被掩盖的l1损失。l1损失集中在像素级特征上。由于未掩蔽的区域将粘贴到最终输出视频上，因此我们将所有视频的l1Ll1=Et ， x ， y[|Ot ， x ， y− Vt ， x ， y|]（5）和掩蔽区域的l1损失：工作，我们进一步整合时间维度和去-提出了一种新的时空路径GAN（T-PatchGAN）判别器，该判别器关注不同的时空特征，充分利用图像的全局和局部特征以及时间信息。我们的T-PatchGAN模型由6个3D卷积层组成，内核大小为3×5×5，步幅为1×2×2。最近提出的频谱归一化[21]适用于发生器和鉴别器，类似于Ll1掩模 =Et，x，y [Mt，x，y |Ot，x，y − Vt，x，y|]（六）[22]提高训练稳定性。此外，我们使用铰链损失作为目标函数，以判别感知损失。感知损失首先在[10]输入视频是真实的还是伪造的：以保持图像内容用于样式转移，并且现在广泛地用于图像修补[20，22]和超分辨率[16，LD=ExP数据（x）[ReLU（1 +D（x））]（九）18]以减轻由L1引起的模糊损失的+Ez<$Pz（z）[ReLU（1−D（G（z）]感知损失计算特征级的L1ΣnP−1|ΨOt−ΨVt|LG=−Ez<$Pz（z）[D（G（z））]9070ΨpΨ（10）Lperc=t=1p=0ppNVtp（七）其中G是获取输入视频z的视频修复网络，D是T-PatchGAN网络。其中ΨVt表示来自第p个选定层的激活给定输入Vt和NVt，p是第p层中元素的数量我们使用图层来自VGG [28]网络的relu22，relu33和relu4 3在ImageNet[27]上预训练。请注意，我们为每个层使用3×5×5的内核大小，因此每个输出特征的感受野覆盖整个视频，并且全局类似于[36]不需要。T-PatchGAN学习将每个9071时空补丁作为真实或假的，这限制了它专注于高频功能，因为它只惩罚补丁的规模。由于l1损失已经集中在低频特征上，因此使用T-PatchGAN可以以有效的方式提高输出视频质量。3.4. 自由形式视频掩码生成图三.曲线状遮罩被认为更容易，因为大多数遮罩区域接近有效像素（未遮罩区域），而对象状和边界框遮罩具有挑战性，因为难以对大的无效体素进行补绘。总共生成28，000个具有从0 - 10%到60 - 70%的掩模与帧比率的自由形式视频用于训练。对于每种面具类型，生成100个视频进行测试。4. 实验结果4.1. 数据集面部鉴证科我曾在《易经》中，以《易经》为例。(a) 类对象（31%）（b）边界框(15%）（c）曲线状（32%）（d）曲线状，边界限制（30%）sics数据集[26]，其中包含来自YouTube的1004个人脸视频和带有人脸、新闻主播或新闻节目标签的YouTube-8 m数据集[1]按照[29]中的设置，在数据准备阶段，视频被裁剪为128× 128，面部位于中间其中，150名(e)掩模变形和移动图3.由我们的算法生成的具有不同掩模类型和掩模与图像比率的掩模。掩模视频中的组件可以独立地移动和变形，如（e）中所示。训练数据对于基于学习的方法是极其重要的，并且我们的输入掩码视频的生成是不平凡的，因为它应该考虑不同的场景是“自由形式”的。没有现有的数据库或算法为了生成这种自由形式的视频蒙版，我们开发了一种基于图像的视频蒙版生成算法[35]（见补充资料中的算法1）。[35]中的图像掩码生成使用在空白图像上绘制的几个笔划来表示掩码。每个笔划由一组有序的控制点组成，该控制点由在随机位置初始化并重复移动到附近位置的头部点的轨迹确定此外，对于自由形式的视频蒙版，我们引入运动的概念：笔画可能会随着时间的推移而移动和变形（见图2）。3（e））。笔划变形通过以一定概率随机移动笔划的每个控制点来实现对于运动，速度和加速度的概念笔划的初始速度从以0为中心的正态分布采样，因为视频中的大多数对象不具有大的速度。如[20]中所述，当掩码覆盖边界时，许多方法[15，20]的性能会降低因此，除了运动模拟之外，我们还考虑了这样的边界约束。也就是说，我们生成覆盖或不覆盖帧的边缘的两个掩模（参见图3）。没有边界约束的掩码更困难，因为卷积滤波器将没有有效像素作为输入在被掩盖的边境地区。此外，我们考虑三种不同类型的面具：在我们的掩模生成算法中使用不同的超参数生成的长细曲线状掩模和圆厚物体状掩模以及边界框掩模，如图所示视频用于评估，其余的用于训练。FaceForensics数据集对于基于学习的方法来说相当容易，因为数据的多样性较小。自由形式视频修复（FVI）数据集为了在更实际的情况下进行测试，我们从 YouTube- VOS [33] 数据集和YouTube-BoundingBoxes数据集[25]收集视频。前者有大约 2000 个视频，其中 94 类对象分割在 6 帧每秒（FPS），后者有大约380，000个视频，其中23种对象边界框在30帧每秒。我们选择分辨率高于640× 480的视频，并手动过滤掉具有镜头过渡的视频。我们从Youtube- VOS中选取了100个视频作为测试集，而训练集包括大约15，000个连同28，000个自由形式的蒙版视频，我们构建了FVI数据集，这是第一个用于自由形式视频修复的数据集。我们的FVI数据集是非常具有挑战性的视频修补任务，由于高度的多样性，包括不同种类的对象，动物和人类活动。所有视频均来自YouTube，更接近真实场景。此外，所提供的对象分割和边界框可以用于测试视频对象去除。在实验中，我们只使用了训练集中的1940个视频，因为我们没有看到使用完整训练集的模型有显著在数据预处理阶段，我们将视频调整为384× 216，并随机裁剪为320× 180，并随机水平翻转。4.2. 评估指标我们使用均方误差（MSE）和学习感知图像块相似性（LPIPS）[37]来评估图像质量。此外，为了评估视频质量和时间一致性，我们还使用I3D [6]预训练的视频识别 CNN 作为 Vid2vid [30] 计算 Frchet 感知距离（FID）[13]。详见补充资料。90724.3. 定量结果我们在FaceForensics和FVI测试集上评估我们的模型，使用自由形式的面具，面具与帧比率从0 - 10%到60 - 70%的7个范围（更高的面具与帧比率使任务更加困难，见图1）。4）. Huang等人[ 14 ]的最先进的基于块的视频修复方法TC-CDS、Nazeri等人[15]的图像修复方法Edge-Connect（EC）。 [22]和Wang等人的基于学习的视频修复方法CombCN [29]被设置用于比较。我们在我们的数据集上训练Nazeri等人请注意，Wang等人从表1中我们可以看到，FaceForensics数据集对于基于学习的模型很容易，但对于基于块的方法TCCDS[14]却不容易，因为面部特征是非重复的，因此无法用附近的块来恢复。然而，面部的整体结构是可学习的，因此基于学习的方法是有利的。与两种基于深度学习的方法相比，我们的模型在曲线状和物体状掩模上具有优异的性能，因为它充分利用了相邻帧的信息，通过3D卷积和提出的T-PatchGAN损失来恢复丢失的区域。对于边界框掩码，我们的模型优于CombCN，而与EC相当。注意，我们的模型只在FVI上训练。因此，为了公平比较，我们在FVI上从头开始训练EC，而不是如原始论文中所述在Celeb-A上预先训练EC。另一方面，表2表明，我们的FVI数据集对于基于学习的方法来说更具挑战性，因为它具有高度的多样性。基于学习的模型很难捕捉高度多样化的掩模的分布，而基于块的方法（如TCCDS）可以很容易地找到足够真实的块来填充掩模，因为掩模并不大。然而，我们可以注意到，对于某些掩码，当大多数补丁被掩码覆盖时，TCCDS中的最近邻搜索无法找到候选日期。请注意，CombCN仅在l1损失的情况下进行训练，因此虽然它报告了较低的MSE，但其结果实际上是模糊的，具有与地面事实的高感知距离（高LPIPS）。我们的方法产生清晰的结果（低LPIPS和FID），并表现出高的时间一致性（低FID），这是至关重要的视频修复任务。4.4. 定性结果我们还展示了图中的视觉比较。5与相应的视频链接。如4.3所述，由于l 1丢失，CombCN我们的模型可以产生合理的帧与高节奏的一致性。此外，我们的训练模型可以很容易地应用于物体去除，如图所示。7.第一次会议。更多的视觉对比可参见补充材料。掩模类型TCCDSECCombCN3D门控（我们的）MSE↓曲线0.0031*0.00220.00120.0008对象0.0096*0.00740.00470.0048BBox0.00550.00190.00160.0018LPIPS↓曲线0.0566*0.05620.04830.0276对象0.13400.07610.13530.0743BBox0.12600.03350.07080.0395FID↓曲线1.281*0.8480.7040.472对象1.107*0.9460.9130.766BBox1.0130.6630.7420.663表1. FaceForensics测试集上的定量结果，面具没有边界。我们的模型具有优越的性能曲线和对象一样的面具。*TCCDS在某些口罩上失效;结果是成功案例的平均值。掩模类型TCCDSEC编号CombCN3D门控（我们的）MSE曲线对象0.0219*0.0110*0.00470.00790.00210.00490.00240.0056LPI。曲线对象0.2838*0.2001年*0.12040.14200.07940.20540.05210.1078FID曲线对象2.105*1.287*1.0331.0830.7661.0910.6090.905表2.无边界FVI测试集的定量比较。结果是不同的掩模-框架比的平均值（原始数据见补充材料）。我们的模型优于感知距离（LPIPS）和时间一致性（FID）的基线。CombCN有更好的MSE，但他们的结果是模糊的（见图。（五）。[38]第三十八话图4.掩模尺寸对具有曲线状掩模的FVI测试集上的LPIPS和FID的影响较大的掩码对于所有方法都比较困难。4.5. 用户研究除了定性比较，我们还进行了人类主观研究，以评估我们的方法。在研究过程中，我们展示了一对结果视频（我们对基线或地面实况的随机序列），并要求子用户选择更真实和一致的一个。同时播放面具视频以供参考。为每个9073图6.用户对FVI测试集的偏好（我们的与基线和地面实况）。50%意味着这两种方法同样好。我们的模型优于基线的对象一样，曲线一样的面具，所有的面具帧比。当与地面实况（GT）相比，我们的方法仍然可以有大约23%的偏好曲线状的面具。3D卷积和T-PatchGAN都是至关重要的，因为这两个组件通过3D卷积提供了大量的相应的视频比较可以在YouTube上找到。3Dconv.门控conv.T形补片GANLPIPS↓FID↓CC0.17691.243CC0.13211.121CC0.17161.201CCC0.12091.034表3.使用类对象掩模对FVI数据集进行消融研究我们可以看到，所有组件都很重要。我们用大约相同数量的参数设置所有增加2D卷积和普通卷积的通道数）以排除来自附加参数的增益。图5.与基线进行目视比较。TCCDS：通过错误的补丁;边缘连接：帧之间不一致;CombCN：模糊。查看视频掩模类型（物体状和曲线状）和掩模孔比（0-10%至60-70%），我们随机选择20个视频对进行比较，每个视频对呈现给5个受试者。来自150名参与者的结果显示在图中。六、我们的模型优于基线的对象/曲线一样的面具，所有的面具帧比。此外，当与地面实况相比较时，我们的方法平均仍有23%的偏好，这表明受试者在23%的情况下无法区分4.6. 消融研究我们进行了消融研究，以评估每个拟议的组件的贡献。从表3中我们可以看到，4.7. 视频超分辨率我们的模型可以扩展到视频超分辨率，插值或预测，通过使用适当的掩模。对于视频超分辨率，给定具有宽度W、高度H、长度L和上采样因子K的低分辨率视频，我们构造形状为（W×K，H×K，L）的输入掩码视频，其中如果x或y不是K的倍数，则每个像素（x，y，t）被掩码对于帧插值，可以在帧之间添加掩码。在图8和表4中，我们将我们的方法与[18]中众所周知的超分辨率方法我们的模型可以生成具有低感知距离的高分辨率视频。查看结果视频。双三SRResNetSRGAN我们MSE↓0.00890.00440.00740.0076LPIPS↓0.51410.35820.17850.1631FID↓1.5021.0831.0351.096表4. VOR测试集上空间超分辨率的定量比较，4x上采样。我们可以看到，我们的模型可以达到较低的感知质量。9074图7.我们的模型可以很容易地扩展到视频对象的去除。看视频。5. 讨论和未来工作当测试视频与训练数据非常不同时，我们的模型会失败，因为大多数基于学习的方法都是如此。此外，当遮蔽区域太厚时，我们的模型无法生成自然的结果。尽管如此，与基线相比，我们的模型在这两种情况下表现得更好（见视频）。此外，与2D卷积相比，3D卷积需要更多的参数，这可能导致更高的冗余度。尽管如此，我们的模型是单级，前馈，不依赖于光流，所以推理速度快，性能增益是显着的。减少参数数量的潜在解决方案是集成时间移位模块[19]，使得2D卷积可以处理时间信息[8]。此外，我们发现，我们可以通过简单地增加消融研究中的通道数量来达到与门控卷积相似的性能。这可能会-图8.具有4x上采样的空间超分辨率的两个示例。与两个基线相比，我们的模型可以重新覆盖变色龙的眼睛。查看相应视频。我们的模型仍然不适合FVI数据集，或者与图像修复相比，门控卷积对视频修复的影响较小。未来可能的工作是比较和改进卷积层，以实现自由形式的视频修复或与光流相结合[17]。另一个未来的工作是通过用视频帧的边缘图像作为附加输入来训练模型，来集成用户引导的输入[35，22该模型可以生成更合理的结果，给定的对象形状信息，从边缘。此外，在推理过程中，用户可以画线来改变边缘图像，以操纵输出的视频，这是有用的视频编辑。6. 结论在本文中，我们提出了第一个基于学习的自由形式的视频修复网络，我们的知识，使用3D门控卷积和一个新的GAN损失。我们展示了3D门控卷积和时间PatchGAN在视频修复任务中增强视频质量和时间一致性的能力我们的系统还可以扩展到视频对象去除，视频超分辨率或视频插值。定量和定性的结果都表明，我们的模型达到了最先进的结果。7. 确认这项工作得到了台湾科技部的部分支持，资助号为MOST 108- 2634-F-002-004。我们还受益于NVIDIA赠款和DGX-1 AI超级计算机。我们感谢国家高性能计算中心。9075引用[1] Sami Abu-El-Haija，Nisarg Kothari，Joonseok Lee，PaulNatsev ， George Toderici ， Balakrishnan Varadarajan ，and Sudheendra Vijayanarasimhan. Youtube-8 m：一个大规模视频分类基准。arXiv预印本arXiv：1609.08675，2016。[2] Connelly Barnes ， Eli Shechtman ， Adam Finkelstein ，andDanBGoldman.Patchmatch ： Arandomizedcorrespondence algorithm for structural image editing. 在ACM Transactions on Graphics（ToG），第28卷，第24页中。ACM，2009年。[3] Marcelo Bertalmio ，Andrea L Bertozzi ，and GuillermoSapiro.纳维尔斯托克斯，流体动力学，图像和视频修复。计算机视觉和模式识别，2001年。CVPR 2001年。2001年IEEE计算机协会会议论文集，第1卷，第I-I页。IEEE，2001年。[4] Marcelo Bertalmio、Guillermo Sapiro、Vincent Caselles和Coloma Ballester。图像修复。第27届计算机图形和交互技术年会论文集，第 417-424 页。 ACMPress/Addison- Wesley Publishing Co.，两千[5] Rapha eülBornard，EmmanuelleLecan，LouisLaborelli和Jean-Hugues Chenot。静态图像和图像序列中的缺失数据校正。第十届ACM国际多媒体会议论文集，第355-361页。ACM，2002年。[6] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议的论文集，第6299-6308页[7] 张亚良，刘哲宇，徐云松。Vornet：用于对象移除的时空一致视频修复。arXiv预印本arXiv：1904.06726，2019。[8] 张亚良，刘哲宇，李冠英，徐文松。用于深度视频修复的可学习门控时间移位模块。arXiv预印本arXiv：1907.01131，2019。[9] Iddo Drori，Daniel Cohen-Or，和Hezy Yeshurun.基于片段的图像完成。在 ACM Transactions on graphics（TOG），第22卷，第303-312页中ACM，2003年。[10] Leon A Gatys，Alexander S Ecker，and Matthias Bethge.艺术风格的神经算法。 arXiv 预印本 arXiv ：1508.06576，2015。[11] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第2672[12] Miguel Granados ， James Tompkin ， K Kim ， OliverGrau，Jan Kautz，and Christian Theobalt.如何从拥挤场景的视频中删除不被看到的对象。计算机图形学论坛，第31卷，第219Wiley Online Library，2012.[13] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统进展，第6626-6637页，2017年[14] Jia-Bin Huang，Sing Bing Kang，Narendra Ahuja，andJo- hannes Kopf. 动态视频的时间相干完成。 ACMTransactions on Graphics（TOG），35（6）：196，2016。[15] Satoshi Iizuka，Edgar Simo-Serra，and Hiroshi Ishikawa.全局和局部一致的图像完成。ACM Transactions onGraphics（ToG），36（4）：107，2017。[16] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议，第694-711页。施普林格，2016年。[17] Dahun Kim，Sanghyun Woo，Joon-Young Lee，and InSo Kweon.深度视频修复。在IEEE计算机视觉和模式识别会议论文集，第5792-5801页[18] Chri s tianLedig ， LucasTheis ， FerencHus za'r ， Jo seCaballero ， Andrew Cunningham ， Alejandro Acosta ，Andrew Aitken，Alykhan Tejani，Johannes Totz，ZehanWang，et al.使用生成式对抗网络的照片级真实感单幅图像超分辨率。在IEEE计算机视觉和模式识别会议论文集，第4681-4690页[19] 纪林、闯乾、宋涵。用于高效视频理解的时间移位模块。arXiv预印本arXiv：1811.08383，2018。[20] Guilin Liu，Fitsum A Reda，Kevin J Shih，Ting-ChunWang，Andrew Tao，and Bryan Catanzaro.使用部分卷积的不规则孔图像修复。 arXiv 预印本 arXiv ：1804.07723，2018。[21] Takeru Miyato，Toshiki Kataoka，Masanori Koyama，and Yuichi Yoshida.生成式对抗网络的谱归一化。arXiv预印本arXiv：1802.05957，2018。[22] Kamyar Nazeri ， Eric Ng ， Tony Joseph ， FaisalQureshi，and Mehran Ebrahimi.边缘连接：具有对抗性边缘学习的生成式图像修补。2019年。[23] Ala s dairN e wson，And re'sAlmansa，MatthieuFr a det，YannGousseau ， andPatrickPe'rez. 复杂场景的视频修复SIAM Journal on Imaging Sciences，7（4）：1993[24] Deepak Pathak 、 Philipp Krahenbuhl 、 Jeff Donahue 、Trevor Darrell和Alexei A Efros。上下文编码器：通过图像修复进行特征学习。在 Proceedings of the IEEEConference on Computer Vision and Pattern Recognition，第2536-2544页[25] Esteban Real，Jonathon Shlens，Stefano Mazzocchi，XinPan，and Vincent Vanhoucke.YouTube绑定框：用于视频中对象检测的大型高精度人类注释数据集。在IEEE计算机视觉和模式识别会议论文集，第5296-5305页，2017年。[26] AndreasR¨ ssler， Da videCozzolino ， LuisaVerdoliv a ，Chris-tianRiess ， JustusThies ， andMatthiasNießner.Faceforen- sics：大规模视频数据集用于人脸伪造检测。arXiv预印本arXiv：1803.09179，2018。[27] OlgaRussakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein，et al. Imagenet大9076规模视觉识别的挑战。International Journal of ComputerVision，115（3）：211[2

下载后可阅读完整内容，剩余1页未读，立即下载