DLFormer：离散潜在转换器用于视频修复

29 浏览量更新于2023-10-25 收藏 3.59MB PDF 举报

视频修复

数据驱动

身份认证购VIP最低享 7 折!

30元优惠券

3511DLFormer：用于视频修复的任晶晶1，2*，郑青青3<$，赵元元2，徐学苗1<$，陈丽21华南理工大学计算机科学与工程学院2微信、腾讯公司3中国科学院深圳先进技术研究院摘要尽管数据驱动的方法很流行，但视频修复仍然是一个具有挑战性的问题，即在视频帧中的未知区域填充合理且连贯的内容。虽然各种基于transformer的架构在这方面取得了很好的效果，但它们仍然存在幻觉模糊内容和长期时空不一致的问题。在注意到离散表示的复杂推理和预测学习的能力的同时，我们提出了一种新的离散潜在转换器（DLFormer）重新制定视频修复任务到离散潜在空间，而不是以前的连续特征空间。具体来说，我们首先学习一个独特的紧凑离散码本和相应的自动编码器来表示目标视频。基于从整个目标视频中获得的这些代表性离散代码，后续的离散潜在Transformer能够在自注意机制下推断未知区域的正确代码，从而产生具有长期时空一致性的细粒度内容。此外，我们还通过相邻帧之间的时间聚集块来明确地强制短期一致性以减轻时间视觉抖动我们进行了全面的定量和定性评估，以证明我们的方法在重建具有细粒度细节的视觉上可信和时空连贯的内容方面明显优于其他最先进的方法。代码可在https://github.com/JingjingRenabc/dlformer上获得。1. 介绍视频修复的目的是用有意义的细节填充损坏的区域，使得完成的视频在空间和时间上都是一致的。它可以应用各种工业应用，包括视频消除[15，34]，不需要的对象去除[18，19]和视频重定向[32]。1这项工作是在任晶晶在腾讯实习时完成的2郑青青、徐学苗为联合通讯作者。(a) 投入（b）VINet(c)STTN（d）Ours图1.先前的方法，如（b）VINet [9]和（c）STTN [34]在连续特征空间中制定，并且通常在被遮挡的条和背景周围产生伪像和模糊结果。相比之下，我们的方法（d）通过在全局离散潜在空间中公式化该问题，即使在快速移动的情况下也用合理的内容填充未知区域（请放大以获得更好的可视化）。最近，由于强大的基于CNN的深度特征提取器，方法[2，9，37]在这项任务中取得了很大进展这些方法仍然受到沿时域的有限接收场的影响，并且在完成的视频中产生模糊和错位伪影，如图1（b）所示。最先进的方法[12，16，34]倾向于捕获与注意力机制的长期对应关系，因此远处帧处的可用内容可以全局传播到未知区域。虽然这些基于注意力的方法产生有希望的结果，但在连续特征空间中使用成对相似性是很平常的，例如，STTN [34]仍然遭受模糊内容（参见图1（c）），降低了高频区域的视觉质量生成具有细粒度细节的合理和一致的内容仍然具有挑战性，特别是在复杂和动态的场景下。为了解决上述挑战，我们提出了一种新的离散潜在Transformer（DLFormer），将视频修复任务建模为离散潜在空间而不是连续特征中3512空间受益于矢量量化变分自动编码器（VQ-VAE）[20]，由自动编码器生成的一个图像的连续表示这样的离散代码，表示为相应的码本中的索引，可以被传递回自动编码器，以充分重建原始图像。受这项工作的启发，为了捕捉细粒度的细节，我们学习了一个视频特定的和有区别的码本以及相应的自动编码器来表示离散潜在空间中的目标视频，该离散潜在空间由上下文丰富的高效码本跨越。以这种方式，所获得的码本自然地捕获整个视频序列中的全局判别特征，即使对于未知区域。基于这种离散的潜在表示，可以将具有合理内容的未知区域修复视为利用特定码本推断适当的离散代码索引。通过采用自监督训练策略，有效区域中的潜在代码分布可以通过所提出的离散潜在Transformer自然地传播到未知区域此外，为了避免由这种离散预测引起的时空视觉抖动，我们进一步明确地强制执行与残差聚合块的短期一致性，然后将代码推理结果传递回自动编码器以生成最终的修复结果。我们在Youtube-VOS [31]和DAVIS [24]数据集上的视频恢复和对象移除任务中广泛评估了我们的方法，实验结果表明所提出的方法显着优于最先进的方法。由于强大的离散表示，建议DLFormer是能够填补视觉上合理的和时空相干的内容与细粒度的细节在未知区域。我们总结我们的贡献，这项工作如下：• 据我们所知，我们是第一个公式化的视频修复任务作为一个离散的代码推理问题的离散潜在空间。受益于这种离散表示，我们的方法是能够合成更合理和细粒度的细节比以前的方法制定的连续特征空间。• 在此基础上，提出了一种离散的潜在Transformer模型，并利用自注意机制对整个视频序列的全局编码分布进行了显式建议的Transformer被允许从有效区域向损坏区域传播这种分布，而不管有限的时间感受野。• 我们进一步开发了一个残差时间聚合块，以减轻相邻帧之间的离散预测引起的时间视觉抖动。2. 相关工作2.1. 视频修复传统的方法通常从基于块的图像修复方法[1]扩展到视频修复。例如，Patwardhanet al.[22，23]在静态摄像机或约束摄像机运动的假设下，使用贪婪完成方案对最近的为了解决动态相机运动的挑战，Wexler等人。[30]制定了一个全局优化框架，其中时空补丁基于局部结构交替匹配和重建。[6，27]进一步扩展[1，30]，通过引入流信息来增强时间一致性。这些传统的方法只利用了局部的纹理和结构信息，无法表示真实世界中复杂的运动和动态内容。最近，基于深度学习的作品[9，10，35]提出了更有效的解决方案，并在视频修复方面取得了巨大成功这些深度视频修复方法通常分为三个主流：基于卷积的3D卷积网络以及基于注意力的方法。基于对齐的方法[4，12，32]首先将参考帧与光流和仿射变换中的一个或两个对齐，然后从对齐的参考帧中的已知区域借用信息然而，上述对准方法对运动预测误差敏感。3D卷积网络[2，29]采用3D卷积来杠杆化来自附近帧的时间特征受[13]启发，Zouet al.[37]进一步开发了具有嵌入式时间移位模块的3D门控卷积，以节省计算成本。3D卷积网络可以有效地学习时间特征，但由于有限的接收场，仍然无法从远距离帧捕获长距离信息。为了更好地对长距离对应进行建模，基于注意力的方法[5，19]研究了注意力机制，其中计算损坏区域和已知区域之间的相似性作为权重以融合有效信息。STTN [34]直接采用了多头变换器架构[28]，并提出了一种用于视频修复的多尺度生成模型。基于[34]，[15]沿着空间和时间维度解耦注意力模块以缩小搜索空间，从而降低计算复杂度。与[15，34]相比，FuseFormer [16]进一步以更细粒度的方式所有上述方法往往遭受模糊的结果，尤其是在高频区域，因为它们在连续空间中对外观特征执行相似性评估和内容生成。2.2. 离散表示学习矢量量化变分自动编码器（VQ-VAE）[20，26]是生成模型，其编码高分辨率的图像。3513FFR∈ ZF联系我们R联系我们EZGEZFE{∈|{···}FF图2.视频修复网络的概述。它由两个部分组成：代码学习和代码推理。代码学习模块基于用于视频表示的丰富码本来学习紧凑离散潜在代码。在学习了离散代码的情况下，代码推断模块随后在离散潜在空间中利用Transformer对视频修补进行建模。将多维输入转换到低维离散潜在空间中，并将生成的潜在表示解码回尽可能接近的输入通过离散潜在表示，它们已证明具有令人满意的再现和生成质量[33，36]。例如，Kaiseret al.[8]采用离散变量来加速神经机器翻译的解码过程。Esser等人[3]通过为解码器配备区分器来适应VQ-VAE，Rakhimov等人[25]提出了一种自回归模型来预测潜在空间中的新帧以生成视频然而，据我们所知，离散表示尚未被探索用于视频修复。3. 方法视频修复的目的是用时空一致的视觉内容填充时空空洞。给定损坏的视频序列X=x1，x2，..，xT，具有相同分辨率的对应注释掩码M=m1，m2，.，mT，我们定义将RGB空间中的帧x编码到离散潜在空间z的映射与（x）=z，−1（z）=x（一）S.T. x，x∈R，z∈Z，其中−1将z映射回x，从而重建x。我们使用包含K个d维原型向量的码本=ekRdk1，2，K来描述。z表示每个空间-时间位置的对应原型向量in的索引。为此，我们的目标是学习G，将z和掩码m作为输入，输出索引pre-dictionmapz，使得F−1（z）生成完整的帧y∈ R，它是时空一致的，y= F−1（G（z，m））.（二）如图2所示，我们的方法的管道由两个组件组成：代码学习和代码推断。在代码学习阶段，我们通过学习上下文丰富和视频特定的码本来学习映射及其逆-1，以构建离散潜在空间并将帧表示为潜在离散空间中的z，如第3.1节所述。然后，在代码推理阶段，我们通过公式化Transformer来获得映射，以将代码构成从可见区域传播到未知区域，如第3.2节所述。此外，我们进一步提出了一个时间聚合块（TAB），以利用时间信息，并明确增强短期时间consideration，如第3.3节所阐述的。3.1. 视频专用离散码学习为了利用高效的Transformer架构进行代码索引预测，我们训练了一个变分自动引擎，3514E∈e ∈BB E∈{···×}QEQQF∈ELeeQ16vqn1k编码器模块，用于学习用于视频表示的离散代码，其可以显著地压缩特征描述长度以及减轻在未知区域中的内容生成的困难。类似于VQ-VAE [20]，变分自动编码器模块包括编码器E，其将视频帧编码为连续表示fe，用于将连续表示转换为离散空间的码本，以及将所得离散表示解码回RGB空间的解码器。然而，我们不能直接利用VQ-VAE，因为缺失区域没有基础事实。因此，我们扩展了VQ-VAE来学习受损视频序列的离散潜在表示每个损坏的RGB输入帧x tR3×H×W 发送以学习更紧凑的表示E（xt）=ftRd×h×w，其中h和w分别表示高度和宽度，t表示第t帧，d表示特征图中每个像素的尺寸。代替在连续的特征空间中工作，我们使用码本E将每个时空位置上的特征映射到离散的潜在空间中。具体来说，我们将ft转化为离散特征ft∈Rd×h×w，不权重由于量化操作是非差分的，所以解码器的梯度直接向后到编码器，如[3]中所示。学习视频帧的有效离散编码需要一个丰富的码书来表示潜在的嵌入空间。一种启发式方法是通过在大数据集上离线训练来获得固定的码本。然而，这样的码本可能不代表即将到来的视频，并且因此导致差的感知质量的重构。因此，我们提出了一个动态的码本细化方案，对于每个视频，我们保持一个码本丰富的上下文和视频特定的信息。为了加速和简化码本的学习，我们采用了一个更通用的代码库，其中包含从大规模数据集预训练的8192个原型向量，并通过等式（5）将其定制为特定的视频序列具体来说，我们采用在COCO数据集上预训练的模型[14]，并获得了一个丰富的代码库，由8192个256维的原型向量组成，足以描述复杂场景的潜在空间。我们选择那些原型在fq中发生，以构造我们的视频特定码本E（约1的B），并进一步完善我们的码本E，编码器将fe映射到代码中最接近的原型向量ek书与（f）t=argmin（f）t-e，（3）和解码器。相比之下，付出更多的关注-对视频序列中的细粒度细节进行处理，并从根本上降低了代码索引的难度QIek∈Eeik在随后的代码推断阶段中的预测。在那里我一二、（hw）表示空间索引。我们通过将每个位置上的特征替换为E中的相应索引号来获得等式（1）中定义的离散表示z，其中z t=k，s. t。（f q）t= ek.（四）3.2. 基于离散潜变换的代码推理通过代码学习模块，我们能够根据码本索引映射z来表示视频帧。以这种方式，视频修复可以被公式化为预处理的索引。我我dictiontask给定所见区域中的代码索引。随后，解码器D将通过根据zt检索原型向量而产生的量化特征ft作为输入，并且将ft解码回输入RGB空间，其中xt=D（ft）作为映射-1在等式（1）中。通过这种方式，我们可以将帧表示为离散索引映射zt，其中每个元素对应于原型的索引向量输入视频帧的离散潜在码可以通过以下损失函数用整个视频序列来训练：首先将相邻τ帧上的索引映射zRτ×h×w展平，然后用一个特定的可学习索引嵌入代替每个索引，形成嵌入索引特征.为了区分已知区域和未知区域，我们创造性地用一个可学习的完成嵌入填充看不见的区域，表明内容丢失，网络需要在这里生成内容。虽然Transformer在利用长距离依赖信息方面很强大，但从时空位置推断的重要先验或多或少被忽略。到L=1（x−x）（1−m）2+γe+γ2<$E（x）−sg[ek]<$，-sg[E（x）]（五）为了解决这个问题，我们通过将位置嵌入标记到索引嵌入上来编码位置信息。由于在现实世界的场景中通常没有为训练提供基础事实，因此我们提出了一种自监督的其中N表示有效区域中的像素数，SG表示停止梯度操作。这里，vq中的第一项是有效区域中的重构损失。第二项使ek更能代表当前视频帧，第三项是防止ft波动的正则化项，其中γ1和γ2表示惩罚Transformer框架来学习有效区域中的代码成分分布。具体来说，我们随机生成掩码mr来破坏有效区域，从而形成伪不可见区域。在训练之前，mr中的相应索引也被替换为完成标志，并随后提供基础事实以指导Transformer学习3515K我我Ik·∈IkGIkIj我们的潜在Transformer是在整个视频序列上训练的，以捕获空间上的全局代码分布。有效区域之间的代码分布。假设zemb表示插入到未看见区域中的具有完成标志的索引嵌入， p 表示位置嵌入， Transformer 将emb=zemb+p作为输入，并且从伪未知区域和有效区域学习代码索引之间的全局相关性。存在多个自注意层的堆叠，其中第l层将其输入嵌入式处理为：emb′=MSA（LN1（embl））+embl，Lembl+1=MLP（LN2（emb′））+emb′（六）L l其中，MSA表示多头自注意操作，LN1、LN2表示层归一化，MLP表示多层感知器。请注意，我们采用傅立叶位置嵌入[7]来保留空间-时间位置结构。由一个线性层实现的预测头P用于为每个空间-时间位置产生K路分类分数s，随后是softmax函数层。图3.我们的时间聚合块（TAB）的示意图。相邻帧的时间信息被聚集以学习用于特征细化的残差。（ct） =e（st）/e（st）j=1（七）3.3. 剩余时间聚合最后，我们在已知区域上施加索引分类得分c和z之间的交叉熵损失，hwτ K时间维度因此，长期依赖性是隐式地编码在稀疏码本中并且网络本身。然而，短期的时间一致性仍然没有解决。由于预测的离散代码索引Lce= -1个月I nmt=0 Ik=ztln（ct）（八）可能在相邻帧之间抖动，重构结果可能缺乏短期时间连续性。解决itk其中I（·）是指示函数，当满足条件（）时输出1，否则输出0通过学习代码在有效区域内的分布情况，我们的潜在 Transformer 很好地捕捉了代码的因此，Transformer可以在视频序列中以不可见区域编码的假设在这个问题上，我们设计了一个时间聚集块（TAB）结构来弥补离散潜在空间的不连续性。如图2和图3所示，TAB将量化特征fq作为输入，并输出残差细化特征，其中量化特征fq是根据来自Transformer的等式（3）中的预测码索引从码本查询的。具体地，量化特征ft−1，ft，ft+1q q q区域遵循与有效区域中的分布类似的分布在推理阶段，Transformer预测索引在看不见的区域中，根据以下规则：Rd×h×w首先被级联并发送到信道atten中。用于时间特征重新加权的量化层，并且产生对量化特征的残差细化以产生重新加权。zt=argmax（ct）（九）精细特征剩余部分是聚集时间信息-i ikK现在我们已经在等式2中学习到，产生代码推理结果z。在这种方法中，视频中的洞被填充有从具有Transformer的有效区域传播的离散索引最后给出了相应的原型vec-E中由预测的索引z_t查询的tors被发送到de-i。跨相邻帧的信息，用于特征细化以更好地增强短期时间一致性。沿着时间维度设置τ为3的总变化损失用于训练我们的TAB以增强视觉效果并缓解时间颜色差异，如下所示，Ltv=λ1（ft−ft−1+ft+1−ft）译码器来重建RGB帧。与强大的显示-c c c c c c c（十）D具体的潜在嵌入，我们的方法是能够产生细粒度的细节和现实的结果。注意，预测有限离散码中的索引比预测用于Transformer的连续向量容易得多。+λ2<$fc−fq<$，其中第一项用于增强短期时间平滑度，而第二项用于避免平凡解。3516(a) 投入（b）CPNet（c）FGVC（d）STTN（e）FuseFormer（f）Ours图4.不同视频恢复方法的定性比较。(a)输入掩码帧;（b）CPNet [32];（c）FGVC [4];（d）STTN [34];（e）FuseFormer [16]。请放大以获得更好的可视化效果。4. 实验在本节中，我们首先对4.1节中的实现细节进行必要的描述。然后，我们进行了全面的定量和定性评估，以证明有效性和优越性，比其他国家的最先进的方法，视频恢复和目标removal在第4.2节。我们在第4.3节中进一步进行了消融研究，以证明我们框架中设计组件的有效性。4.1. 实现细节训练细节我们使用两阶段学习策略训练所提出的DLFormer，即代码学习阶段和代码推理阶段。在代码学习阶段，我们使用目标视频中的有效区域利用等式（5）微调预训练的码本和自动编码器，以获得视频特定的码本和对应的自动编码器。为了限制子变换器Transformer的搜索空间和减少冗余的先验知识，我们进一步去除了视频特定码书中未使用的原型向量码本中的每个原型向量的维度被实验性地设置为256。在随后的代码推断阶段，我们固定在代码学习阶段中获得的自动编码器和码本，并且仅训练离散潜在Transformer用于推断未知区域中的正确代码索引通过在可见区域中随机生成伪掩模并给出完成信号，我们通过具有自注意机制的等式（8具体地，堆叠12个自我关注层，每个自我关注层具有16个头。我们使用亚当[11]方法PSNRYoutube-VOS↑SSIM ↑VFID↓PSNR ↑戴维斯SSIM↑VFID↓VINet [9]29.720.9530.11132.380.9670.105FFVI [2]33.390.9680.11931.130.9720.087CPNet [12]30.210.9570.11729.570.9550.147STTN [34]33.670.9650.08733.070.9760.071保险丝成型器[16]33.260.9680.08933.450.9790.074DLFomer（我们的）33.950.9700.08234.220.9770.062表1.在Youtube-VOS和DAVIS数据集上与最先进的视频恢复方法进行定量比较数据集和评估指标[16，34]之后，我们在两个最流行的数据集上公平地评估了我们的方法，即Youtube-VOS [31]和DAVIS [24]。Youtube-VOS包含541个视频序列，用于测试各种动态场景。我们在Youtube VOS和DAVIS上执行视频恢复任务，并生成各种类型的未知掩码，包括移动掩码，随机损坏的掩码和对象删除掩码。我们在DAVIS数据集上执行对象删除任务，该数据集由150个高质量视频组成，我们选择了90个视频进行测试[16，34]。在定量比较方面，我们不仅采用结构相似性测度（SSIM）和峰值信噪比（PSNR）这两个常用的度量指标来评价整体重建效果，而且采用基于视频的Frechet感知距离（VFID）来衡量时空一致性和感知质量。4.2. 与现有方法的视频恢复中的比较我们在视频恢复任务中定量比较了我们的方法与现有的竞争方法VINet [9]，FFVI [2]，CPNet [12]，优化器用于第一阶段，AdamW [17]用于第二阶段，学习率为1。8 ×10- 5。[34]《易经》云：“君子之道，焉可诬也？有始有卒者，其惟圣人乎！”如表1所示，我们的方法gener-3517(a) 投入（b）VINet（c）STTN（d）熔断器（e）ILVI（f）我们的图5.物体去除的不同方法的定性比较。(a)输入对象掩码帧;（b）VINet [9];（c）STTN [34](d) [16]（e）ILVL [21].请放大以获得更好的可视化效果。(a) 输入（b）重建（c）DLFormer w/o TAB（d）DLFormer图6. 我们的方法和基本网络的完成结果的视觉比较（a）输入屏蔽帧;（b）重建结果;(c)没有时间聚合块的完整结果;（d）我们的完整管道的结果请放大以获得更好的可视化效果。在所有三个指标方面，几乎都取得了最佳业绩。考虑到我们对STTN [34]和FuseFormer [16]的改进，特别是在具有高频纹理的区域周围，很难用这些指标进行测量，我们在图4中进一步展示了更多的定性结果。列（b）和（c）中的结果由基于投影的方法产生，并且导致错位和模糊伪影。基于变压器的冰毒ods，STTN [34]和FuseFormer [16]，在（d）和（e）中给出了更好的结果，但仍然不能产生视觉上合理的内容，特别是对于前两种情况下的运动员。如（f）中所示，我们的方法恢复了运动员身体和鸟羽毛中的细粒度细节和一致结构，这令人信服地证明了通过所提出的离散潜在Transformer完全学习并正确传播离散代码分布。3518PSNR↑SSIM↑VFID↓重建33.070.9590.124DL成形器，不带TAB33.820.9680.086DLFomer（我们的）33.950.9700.082表2.Youtube-VOS数据集上的消融实验结果4.3. 消融分析对于对象移除任务，我们在图5中展示了定性结果。从（b）到（d）列的结果给出了在高频区域（诸如草地、沙滩和树叶）周围的模糊纹理和明显的空间尽管ILVI [21]输出了更清晰的结果，但栏杆和树叶区域周围仍然存在时空失真相比之下，我们的方法生成更一致的结果在空间和时间上，由于我们的新框架，以及专门设计的残留时间聚合块，以减轻视觉抖动。用户研究我们进行了一项用户研究，将我们在视频恢复和对象移除任务上的结果与最先进的方法FuseFormer [16]，STTN [34]和VINet [9]进行了比较。邀请32名志愿者对从Youtube-VOS和DAVIS随机采样的图像帧和视频的视觉质量进行评级（从1到10，越高越好），以分别评估修复的细节和用户研究的结果如图6所示。我们的方法在帧和视频质量上都获得了最高的分数，这表明我们的方法在未知区域中生成了更多的时空一致离散视频表示的有效性我们工作的基础是所获得的离散码书和相应的自编码器能够充分地表示目标视频。为了衡量这种表示的有效性，我们直接将量化特征从编码器传递到解码器，而无需代码推理阶段，以重建目标视频。如图6（b）所示，已知区域被生动地重建，这表明我们的码本捕获了目标视频的区分部分，并且离散潜在空间足以表示它。在未知区域，由于缺乏关键代码推理，结果中充满了可见的伪影，这并不奇怪。不带TAB的离散潜在Transformer DLFormer的有效性是指在代码推理阶段之后使用完整的代码映射生成的结果，但没有临时聚合块。如图6（c）所示，未知区域被正确地恢复，具有整体合理的内容，例如蒙面骆驼后面的木板和大熊猫的一部分，这表明离散潜在变换器有效地从已知区域学习代码分布Al-图7. 用户研究结果。邀请32名志愿者在修复细节方面对完成的视频帧进行评级，并在时空一致性方面对整个视频序列进行评级。与现有方法相比，我们的方法产生高图像质量以及令人愉快的时空一致性的结果尽管表2中的定量结果表明，DL-成形器w/oTAB实现了与前述重建结果一致的更好的性能，但是就短期时间一致性而言，在相邻帧上仍然存在闪烁伪像。TAB的有效性在代码推断阶段之后，所得到的索引映射可以用码本映射回离散代码。这样的离散代码被进一步发送到后续TAB块以细化短期时间信息。此外，总的变化损失施加在细化特征上。如图6（d）所示，TAB块的结果在视觉上更令人愉悦，并且在相邻帧之间更一致，表2中的定量结果证明了相同的结果。5. 结论我们新颖地将视频修复任务表示为潜在离散空间中的离散代码推理问题，该潜在离散空间由上下文丰富且有效的码本跨越。我们学习一个紧凑的视频特定的码本，并通过一个离散的潜在的Transformer推断丢失的代码索引。当以自我监督的方式训练该Transformer时，已知区域中的代码分布可以传播到未知区域。进一步提出了一种跨相邻帧的时间聚合块，以减轻由离散预测引起的时间视觉抖动。我们的方法生成视觉上合理的和时空相干的内容与细粒度的细节在未知区域，并优于国家的最先进的方法显着。鸣谢：本课题得到了广东省重点领域研究发展计划（2020 B 010165004，2020 B 010166003）的资助;国家自然科学基金（61772206，U1611461，61472145）;董氏基础与应用基础研究基金（编号：2021A1515110598）。3519引用[1] Connelly Barnes ， Eli Shechtman ， Adam Finkelstein ，andDanBGoldman.Patchmatch ： Arandomizedcorrespondence algorithm for structural image editing.ACM Trans.Graph. ，28（3）：24，2009. 2[2] 张亚良，刘哲宇，李冠英，徐文松。使用3d门控卷积和时间patchgan的自由形式视频修复。在IEEE/CVF计算机视觉国际会议论文集，第9066- 9075页，2019年。二、六[3] Patrick Esser Robin Rombach和Bjorn Ommer。用于高分辨率图像合成的驯服变压器。在IEEE/CVF计算机视觉和模式识别会议上，第12873-12883页，2021年。三、四[4] Chen Gao，Ayush Saraf，Jia-Bin Huang，and JohannesKopf.流边缘引导视频完成。欧洲计算机视觉会议，第713Springer，2020年。二、六[5] 胡元婷，王恒，尼古拉斯·巴拉斯，克里斯汀·格劳曼和亚历山大·G·施温。基于建议的视频完成。在计算机视觉-ECCV 2020中：第16届欧洲会议，格拉斯哥，英国，2020年8月23日至28日，会议记录，第XXVII部分，第38-54页。Springer，2020年。2[6] Jia-Bin Huang，Sing Bing Kang，Narendra Ahuja，andJo- hannes Kopf. 动态视频的时间相干完成。 ACMTransactions on Graphics（TOG），35（6）：1-11，2016。2[7] Andrew Jaegle、Felix Gimeno、Andrew Brock、AndrewZisserman、Oriol Vinyals和Joao Carreira。感知者：具有反复注意力的一般感知。 arXiv 预印本 arXiv ：2103.03206，2021。5[8] Lukasz Kaiser 、 Samy Bengio 、 Aurko Roy 、 AshishVaswani 、 Niki Parmar 、 Jakob Uszkoreit 和 NoamShazeer。使用离散潜变量的序列模型中的快速解码。国际机器学习会议，第2390-2399页。PMLR，2018。3[9] Dahun Kim，Sanghyun Woo，Joon-Young Lee，and InSo Kweon.深度视频修复。在IEEE/CVF计算机视觉和模式识别会议论文集，第5792-5801页，2019年。一二六七八[10] Dahun Kim，Sanghyun Woo，Joon-Young Lee，and InSo Kweon. 用于深度视频修复的递归时间聚合框架IEEEtransactionsonpatternanalysisandmachineintelligence，42（5）：1038-1052，2019。2[11] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[12] Sungho Lee，Seean-Wug Oh，DaeYeun Won，and SeonJoo Kim. 用于深度视频修复的复制和粘贴网络在IEEE/CVF计算机视觉国际会议论文集，第4413-4421页，2019年。一、二、六[13] 纪林、闯乾、宋涵。Tsm：用于高效视频理解的时间移位模块。在IEEE/CVF计算机视觉国际会议论文集，第7083-7093页，2019年。2[14] Tsung-Yi Lin，Michael Maire，Serge Belongie，JamesHays ， PietroPerona ， DevaRamanan ， PiotrDolla'r ，andCLa wrence齐特尼克微软coco：上下文中的公用对象。在欧洲计算机视觉会议，第740Springer，2014. 4[15] 刘瑞，邓汉明，黄扬义，施晓宇，卢乐伟，孙文秀，王晓刚，戴继峰，李洪生.用于视频修复的解耦时空Transformer。2021年12月21日，香港中文大学出版社。一、二[16] 刘瑞，邓汉明，黄扬义，施晓宇，卢乐伟，孙文秀，王晓刚，戴继峰，李洪生.Fuseformer：在transformer中融合细粒度信息以进行视频修复。IEEE/CVF计算机视觉国际会议论文集，第14040-14049页，2021年。一二六七八[17] 伊利亚·罗希洛夫和弗兰克·哈特。解耦权重衰减正则化。arXiv预印本arXiv：1711.05101，2017。6[18] Yasuyuki Matsushita ， Eyal Ofek ， Weina Ge ， XiaoouTang，and Heung-Yeung Shum.全帧视频稳定与运动修复。IEEE Transactions on Pattern Analysis and MachineIntelligence，28（7）：1150-1163，2006。1[19] 吴先生，李成浩，李俊英，金善珠。洋葱皮网络用于深度视频完成。在IEEE/CVF计算机视觉国际会议论文集，第4403-4412页一、二[20] AaronvandenOord 、 OriolVinyals 和 KorayKavukcuoglu。神经离散表示学习。arXiv预印本arXiv：1711.00937，2017。二、四[21] 欧阳昊，王腾飞，陈奇峰。通过隐式长距离传播的内部视频修复。在IEEE/CVF计算机视觉国际会议论文集，第14579-14588页，2021年。七、八[22] Kedar A Patwardhan ， Guillermo Sapiro ， and MarceloBertalmio.视频修复的闭塞和闭塞的对象。在IEEE图像处理国际会议2005，第2卷，第II-69页中。IEEE，2005年。2[23] Kedar A Patwardhan ， Guillermo Sapiro ， and MarceloBertalm 'ıo. 约束摄像机运动下的视频修复。 IEEETransactions on Image Processing，16（2）：545- 553，2007。2[24] Federico Perazzi、Jordi Pont-Tuset、Brian McWilliams、Luc Van Gool 、 Markus Gross 和 Alexander Sorkine-Hornung。视频对象分割的基准数据集和评估方法。在IEEE计算机视觉和模式识别会议论文集，第724二、六[25] RuslanRakhimov ， DenisRakhonskiy ， AlexeyArtemov，De- nis Zorin，and Evgeny Burnaev.潜伏视频Transformer。arXiv预印本arXiv：2006.10704，2020。3[26] Ali Razavi，Aaron van den Oord和Oriol Vinyals。用vq-fm-2生成多种高保真图像。神经信息处理系统的进展，第14866- 14876页，2019年。2[27] 迈克尔·斯特罗贝尔，朱莉娅·迪博尔德，丹尼尔·克雷默斯.用于视频完成的流和颜色修复。在德国模式识别会议上，第293-304页。Springer，2014. 2[28] Ashish Vaswani、 Noam Shazeer 、 Niki Parmar 、 JakobUszko- reit、Llion Jones、Aidan N Gomez、ukasz Kaiser和Illia3520波洛苏欣注意力是你所需要的。神经信息处理系统的进展，第5998-6008页，2017年。2[29] Chuan Wang，Haibin Huang，Xiaoguang Han，and JueWang.联合学习时间结构和空间细节的视频修复。在AAAI人工智能会议论文集，第33卷，第5232-5239页，2019年。2[30] Yonatan Wexler，Eli Shechtman和Michal Irani。视频的时空完成。IEEE Transactions on Pattern Analysis andMachine Intelligence，29（3）：463-476，2007。2[31] Ning Xu，Linjie Yang，Yuchen Fan，Dingcheng Yue，Yuchen Liang ， Jianchao Yang ， and Thomas Huang.Youtube-vos：大规模视频对象分割基准测试。arXiv预印本arXiv：1809.03327，2018。二、六[32] Rui Xu ， Xiaoxiao Li ， Bolei Zhou ，and Chen ChangeLoy.深度流引导视频修复。在IEEE/CVF计算机视觉和模式识别会议论文集，第3723-3732页，2019年。一、二、六[33] Wilson Yan，Yunzhi Zhang，Pieter Abbeel，and AravindSrinivas. Videogpt：使用vq和transformer生成视频arXiv预印本arXiv：2104.10157，2021。3[34] 曾艳红，傅建龙，和洪阳超。学习用于视频修补的联合时空变换。欧洲计算机视觉会议，第528- 543页。Springer，2020年。一二六七八[35] Haotian Zhang，Long Mai，Ning Xu，Zhaowen Wang，John Collomosse，and Hailin Jin.视频修复的内部学习方法。在IEEE/CVF国际计算机视觉会议集，第27202[36] Yang Zhao，Chunyuan Li，Ping Yu，Jianfeng Gao，andChangyou Chen.特征量化改进了gan训练。arXiv预印本arXiv：2004.02088，2020。3[37] Xueyan Zou，Linjie Yang，Ding Liu，and Yong Jae Lee.用于视频图像嵌入的渐进式时间特征对齐网络.在IEEE/CVF计算机视觉和模式识别会

下载后可阅读完整内容，剩余1页未读，立即下载