端到端的流引导视频修复框架

24 浏览量更新于2023-10-25 收藏 14.97MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Zhen Li1∗Cheng-Ze Lu1∗ Jianhua Qin2Chun-Le Guo1†Ming-Ming Cheng11TMCC, CS, Nankai University2Hisilicon Technologies Co. Ltd.zhenli1031@gmail.com, czlu919@outlook.com, qinjianhua@hisilicon.com{guochunle, cmm}@nankai.edu.cn(a)175620走向端到端的流引导视频修复框架0摘要0光流通过沿其轨迹传播像素，在最近的视频修复方法中被用于捕捉帧间的运动信息。然而，这些方法中的手工流程是分别应用的，以形成整个修复流程。因此，这些方法效率较低，并且严重依赖于早期阶段的中间结果。在本文中，我们提出了一种端到端的流引导视频修复框架（E2FGVI），通过精心设计的三个可训练模块，即流补全、特征传播和内容幻觉模块。这三个模块对应于以前的流基方法的三个阶段，但可以进行联合优化，从而实现更高效和有效的修复过程。实验结果表明，所提出的方法在定性和定量上都优于最先进的方法，并显示出良好的效率。代码可在https://github.com/MCG-NKU/E2FGVI获得。01. 引言0视频修复旨在通过合理和连贯的内容填充来填补视频剪辑中的“损坏”区域。它广泛应用于现实世界的应用，如物体去除[16]，视频恢复[28]和视频补全[7,39]。尽管在图像修复方面取得了显著进展[42, 59,60]，但由于复杂的视频场景和恶化的视频帧，视频修复仍然充满挑战。直接在每个帧上独立进行图像修复往往会生成时间不一致的视频并导致严重的伪影。高质量的视频修复需要考虑空间结构和时间连贯性。深度学习的最新进展激发了研究人员开发更有效的解决方案[7, 8, 17, 23, 28, 33, 38,49, 56, 62]。其中，典型的流基方法[17,56]将视频修复视为像素传播问题，以自然地保持时间连贯性。如图所示0� 相等贡献 † C.L. Guo是通讯作者。0流基方法0我们的0输入输出0输入输出0遮挡帧 FGVC 我们0(b) 图1. (a) 流基方法[17,56]和我们的通用流程。以往的流基方法将三个阶段分别进行，而我们的相应模块以端到端的方式工作。(b)我们的方法与最先进的流基方法FGVC[17]进行定性比较。由于内容幻觉期间的错误累积和忽略时间信息，FGVC无法生成与我们的方法相比忠实且时间一致的结果。0图1(a)，这些方法可以分解为三个相互关联的阶段。(1)流补全：首先需要完成估计的光流，因为损坏区域中缺少光流场会影响后续处理。(2)像素传播：它们通过在可见区域中沿着完成的光流的引导双向传播像素来填补损坏视频中的空洞。(3)内容幻觉：传播后，可以通过预训练的图像修复网络[59,60]来幻觉剩余的缺失区域。不幸的是，尽管可以获得令人印象深刻的结果，但整个基于流的修复过程必须分别进行，因为在前两个阶段中涉及到许多手工操作（例如泊松融合、求解稀疏线性方程和索引每个像素的流轨迹）。这些孤立的过程引发了两个主要问题。一个问题是在早期阶段发生的错误会导致175630在后续阶段累积和放大，这进一步显著影响最终的性能。具体而言，不准确的光流估计会误导像素的传播，并进一步混淆内容幻觉阶段，产生不真实的修复结果。其次，这些复杂的手工设计操作只能在没有GPU加速的情况下进行处理。因此，推断视频序列的整个过程非常耗时。以DFVI[56]为例，完成一个包含约70帧的DAVIS[44]中大小为432×240的视频需要约4分钟1，这在大多数实际应用中是不可接受的。此外，除了上述缺点之外，仅在内容幻觉阶段使用预训练的图像修复网络忽略了时间邻居之间的内容关系，导致生成的内容在视频中不一致（见图1（b））。为了解决这些缺陷，在本文中，我们精心设计了三个可训练模块，包括（1）光流补全模块，（2）特征传播模块和（3）内容幻觉模块，这些模块模拟了基于光流的方法中的相应阶段，并进一步构成了用于流引导视频修复的端到端框架（E2FGVI）。这三个模块之间的紧密协作减轻了先前独立开发系统[17, 23, 26, 56,66]中中间结果的过度依赖，并以更高效的方式工作。具体而言，对于光流补全模块，我们直接在掩膜视频上进行一步补全，而不是多个复杂的步骤。对于特征传播模块，与像素级传播相比，我们的基于光流的传播过程在特征空间中进行，借助可变形卷积的帮助。通过更多可学习的采样偏移和特征级操作，传播模块释放了不准确光流估计的压力。对于内容幻觉模块，我们提出了一个时空焦点变换器，以有效地建模空间和时间维度上的长程依赖关系。这个模块考虑了局部和非局部的时间邻居，从而产生更具时间连贯性的修复结果。实验结果表明，我们的框架具有以下两个优点：0•最先进的准确性：与先前的最先进（SOTA）方法进行比较，提出的E2FGVI在两个常见的失真导向度量（即PSNR和SSIM [52]），一种流行的感知导向指标（即VFID[50]）和一种时间一致性测量（即Ewarp[25]）上取得了显著的改进。0• 高效性：我们的方法可以处理432×240的视频。01我们在Intel(R) Core(TM) i7-6700K CPU上使用单个NVIDIA Titan XpGPU进行测试。0在Titan XpGPU上以每帧0.12秒的速度处理视频，比以前的基于光流的方法快近15倍。与其他可以端到端部署的方法相比，我们的方法显示出相当的推理时间。此外，我们的方法在所有比较的SOTA方法中具有最低的计算复杂度（FLOPs）。我们希望所提出的具有上述优势的端到端框架能够成为视频修复社区的强大基准。02. 相关工作0视频修复。在深度学习的基础上，视频修复取得了很大的进展。这些方法可以大致分为三类：基于3D卷积的方法[8, 21,49]，基于光流的方法[17, 56]和基于注意力的方法[28, 29,33, 62]。一些采用3D卷积和注意力的方法[7, 23, 28,49]通常由于有限的时间感受野而产生时间上不一致的结果。为了生成更具时间连贯性的结果，许多工作[23,66]将光流视为视频修复的强先验，并将其纳入网络中。然而，直接计算无效区域内图像之间的光流非常困难，因为这些区域本身成为遮挡因素，限制了性能。最近的基于光流的方法[17,56]首先进行光流补全，然后使用补全的光流沿着其轨迹传播索引像素。我们设计了一个端到端可训练的框架，可以在特征空间中执行传播过程，而不是进行手工设计的像素级传播。此外，我们的方法还受益于使用transformer来改善修复结果的最新进展[32, 33,62]。基于光流的视频处理。跨帧的运动信息有助于许多与视频相关的任务，如视频理解[3, 31]，视频分割[11,47]，视频目标检测[65]，深度估计[18,36]，视频超分辨率[4, 57]，帧插值[22,27]等。具体而言，许多视频恢复和增强算法[4, 24, 40, 45,57]依赖于光流来进行对齐以补偿帧间的信息。最近的工作[4, 27, 51, 53,54]利用可变形卷积[63]模拟光流的行为，但具有更多可学习的偏移量以实现更有效的对齐。我们的工作也具有与这些工作相同的优点。视觉transformer。最近，Transformer[48]在视觉社区引起了很大的关注。视觉Transformer[15]及其后续工作[19, 34, 46, 58, 61]在图像和视频表示学习[9, 13,35, 43]、图像生成[41]、目标检测[2,64]和许多其他应用[10, 12, 20,30]方面取得了令人印象深刻的性能。由于自注意力的二次复杂度，许多工作采用了有效的基于窗口的注意力机制。related operations are given at lower-resolution space forcomputational efﬁciency.End-to-end ﬂow completion. Before ﬂow prediction, weﬁrst downsample the original corrupted frames Xt at 1/4resolution, which matches the spatial resolution of encodedlow-resolution features. The downsampled frames are de-175640特征传播0模块0编码器0局部相邻帧0非局部参考帧0流完成0模块0内容幻觉模块0解码器0局部相邻特征0非局部参考特征0N0修复帧0变换块0变换块0变换块0图2.提出的流导向视频修复（E2FGVI）的整体框架概述。它包括：1）帧级内容编码器，2）流完成模块，3）特征传播模块，4）由多个时间焦点变换块组成的内容幻觉模块，以及5）帧级解码器。0通过使用注意力机制[14, 34,58]来减少计算复杂度，同时改进模型在有限感受野下的能力。Swin Transformer[34]通过计算局部窗口的自注意力来增强局部连接。FocalTransformer[58]引入了焦点自注意力，增强了全局-局部的交互作用。03. 方法0给定一个损坏的视频序列{X_t∈RH×W×3 |t=1...T}，其中T是序列长度，以及相应的逐帧二进制掩码{M_t∈RH×W×1 |t=1...T}，我们的目标是在损坏（遮挡）区域内合成一致的内容，该内容在空间和时间维度上都是一致的。接下来，我们讨论我们方法的主要组成部分。首先，我们使用上下文编码器，将所有损坏的帧编码为低分辨率特征，以提高后续处理的计算效率。其次，我们通过流完成模块提取和完成局部邻居之间的光流（第3.1节）。第三，完成的光流帮助从局部邻居中提取的特征完成特征对齐和双向传播（第3.1节）。第四，多层时间焦点变换器通过将传播的局部邻居特征与非局部参考特征相结合来进行内容幻觉（第3.2节）。最后，解码器将填充的特征上采样并重构为最终的视频序列{ˆY_t∈RH×W×3 |t=1...T}。图2显示了提出的E2FGVI的整个流程。值得注意的是，所有模块都是可微分的，并构成了一个端到端可训练的架构。03.1. 流完成和特征传播0在本节中，我们将详细介绍提出的与流相关的操作。请注意，我们仅将基于流的模块应用于从局部相邻帧中提取的特征，因为由于存在大运动，流估计明显降低甚至失败，这在非局部帧中经常发生。此外，流-04 × 3. 相邻帧之间的流预测通过流估计网络F计算：ˆF_i→j =F(X_i↓, X_j↓)。(1)0我们使用轻量级流估计网络的预训练权重来初始化网络，以利用其关于光流的丰富知识。与大多数基于流的视频修复方法[17,56]一样，我们通过公式（1）估计前向流ˆF_t→t+1和后向流ˆF_t→t-1，用于流导向的双向传播。由于损坏视频中的缺失区域成为光流估计的遮挡因素，严重影响了估计光流的质量，因此我们需要在使用它们进行特征传播之前恢复前向和后向光流。为简单起见，我们使用L1损失来恢复双向光流：0Lflow =0t = 10t = 20（2）其中Ft→t+1和Ft→t-1分别是正向和反向的真实光流，它们是从原始未损坏的视频中计算得到的。我们的光流补全模块与DFVI [56]和FGVC[17]有两个主要区别。（1）DFVI和FGVC分别部署光流补全网络和传播算法。相反，我们的光流补全模块可以与其他网络组件一起进行端到端训练，这有助于模块生成面向任务的流[57]。（2）DFVI和FGVC中的光流补全效率较低（>0.4s/流），因为它们需要先初始化光流，然后再对初始化的光流进行优化。0公式（2）中也可以使用其他损失函数，但我们没有观察到对最终修复性能的显著改进。Offsets & Weight maskswith multiple stages, while we estimate and complete theﬂow in only one feed-forward pass with much faster speed(< 0.01s/ﬂow).SupposeEt175650c0Conv0LReLU0Conv0c0Conv0Db0ˆEt+1b ˆEt b0Et ˆFt→t+10W0图3.使用完成的前向流ˆFt→t+1引导特征向后传播的示例，其中⊕和c�分别表示加法操作和连接操作。请注意，反向流将以相反的方向起作用。04×C | t = 1...Tl}是从上下文编码器中提取的局部时间邻域特征，其中Tl表示局部邻近帧的长度。以前向流ˆFt→t+1为例，它帮助我们捕捉从第t帧到第（t+1）帧的损坏区域的运动。一旦在第t个内容特征中损坏区域的像素在第（t+1）个特征的有效区域中已知，我们可以通过使用前向流ˆFt→t+1将第（t+1）个向后传播特征ˆEt+1b在当前时间步骤中进行特征扭曲。扭曲特征可以通过与当前内容特征Et合并并通过反向传播函数Pb（∙）进行更新：0ˆEt b = Pb(Et, W(ˆEt+1b, ˆFt→t+1)), (3)0其中W（∙）表示基于光流的空间扭曲操作，ˆEtb是第t个时间步骤的向后传播特征，传播函数Pb（∙）表示两个具有LeakyReLU[37]激活的卷积层。公式（3）中的扭曲和合并操作近似于DFVI和FGVC中的整个传播过程，但我们在特征空间而不是图像空间中进行。传播特征ˆEtb逐步更新，随着每个内容特征逐渐涉及到损坏区域，也有利于通过流引导连接所有局部邻近特征。与基于像素级传播的手工制作方法不同，该方法非常耗时，并且严重依赖于估计流的质量。0特征级传播通过卷积层自适应地将流追踪信息与更大的感受野合并，可以通过GPU加速。虽然特征级传播比FGVC和DFVI更快更有效，但仍然需要面对由于不准确的流估计结果在公式（1）中引起的问题，这将在传播过程中带来无关的信息并进一步阻碍最终性能。为了缓解这个问题，受到[4-6,51]的启发，我们使用调制可变形卷积[63]进一步索引和加权候选特征点。如图3所示，我们首先计算权重掩码Wt→t+1和相对于估计光流的偏移量∆Ft→t+1：0[Wt→t+1, ∆Ft→t+1] = Cb(Et, W(ˆEtb, ˆFt→t+1),ˆFt→t+1)，（4）其中Cb(∙)表示多级级联卷积层。计算得到的权重掩码Mt→t+1和偏移量∆Ft→t+1的大小都是H04×K2×G，其中K和G分别是可变形卷积的核大小和组数。我们可以通过将偏移量∆Ft→t+1添加到完成的光流ˆFt→t+1中为每个空间位置生成K2×G个候选特征点。偏移量∆Ft→t+1与完成的光流ˆFt→t+1之间的关系是相互有益的。一方面，更灵活的采样位置可以很好地补偿不准确的流完成。另一方面，完成的流提供了有希望的初始采样位置，使其更容易在周围找到更有意义的内容。然后，我们使用可变形卷积层来对后向特征ˆEtb进行变形卷积，而不是使用方程（3）中基于光流的变形卷积，并通过以下方式获得后向传播特征ˆEtb：0ˆEtb = Pb(Et, Db(ˆEtb+1, Wt→t+1, ˆFt→t+1 + ∆Ft→t+1))，（5）0其中Db表示可变形卷积层的操作。通过sigmoid函数对值进行归一化的权重掩码Wt→t+1可以应用于每个采样像素，以衡量其有效性。上述操作双向地使用，遵循[17,56]，而正向传播特征ˆEtf可以以相同的方式但在相反的方向上获得。最后，我们使用一个可学习的1×1大小的卷积层来自适应地融合正向和反向传播特征，而不是使用预定义的规则来组合[56]中的双向流跟踪像素。0ˆEt = I(ˆEtf, ˆEtb)，（6）0其中I表示一个1×1大小的卷积层。03.2. 时间焦点transformer0仅仅使用本地时间邻居提供的信息对视频修复是不够的。如前所述in [17], the corrupted content at local neighbors may appearin the non-local ones. Thus, the information in the non-local temporal neighbors can be regarded as a promisingreference for these missing regions in local neighbors. Herewe stack multiple temporal focal transformer blocks to ef-fectively combine the information from local and non-localtemporal neighbors for performing content hallucination.Suppose Tnl is the number of selected non-local frames.TnlHWCthfor computing ﬁne-grained local attentions.To performglobal attention at the coarse granularity, a linear embed-ding layer fp is used to pool the sub-windows spatially viaˆZn−1g= fp( ˆZn−1) ∈ R((Tl+Tnl)st× Msh × Nsw ×Ce)×st. We thencalculate the query, key, and value through two linear pro-jection layers fq, fkv:Multi-head Self-AttentionTfqfkvˆZn−1ˆZn−1gQn{Kn, V n}�V n. (9)Z′n = MFSA(LN1(Zn−1)) + Zn−1,(10)Zn = F3N(LN2(Z′n)) + Z′n,(11)Lrec = ∥ ˆY − Y∥1.(12)LD = Ex∼PY(x)[ReLU(1 − D(x))]+Ez∼P ˆY(z)[ReLU(1 + D(z))],(13)1756604×C是通过在时间维度上连接方程（6）的结果得到的本地时间特征。我们使用软分割操作[33]对连接的本地和非本地时间特征执行重叠的补丁嵌入：0Z0 = SS([ˆEl, Enl]) ∈ R(Tl + Tnl) × M × N ×0其中SS表示软分割操作。Z0是嵌入式令牌，包含本地和非本地的时间信息。M×N是嵌入式空间维度，Ce是特征维度。与最近的工作中经常使用的普通视觉transformer不同[15]，我们使用焦点transformer[58]从本地和非本地邻居中搜索以填充缺失内容。原因如下：（1）通过基于窗口的注意力[34,58]，可以有效降低计算和内存成本，而不是执行细粒度的全局注意力。（2）对于缺失区域中的每个令牌，由于图像的局部自相似性，合理的做法是在局部区域内执行细粒度的自注意力，而在全局范围内执行粗粒度的注意力。由于原始的焦点transformer无法处理序列数据，我们提出了一个时间焦点transformer，将焦点窗口的大小从2D扩展到3D。具体而言，我们首先将输入令牌Zn-1（其中n∈[1,N]，N是焦点transformer块的堆叠数量）分割成一个大小为st×sh×sw的子窗格。分割令牌ˆZn-1∈0Q n = f q ( ˆ Z n − 1 ) , { K n l , K n g , V n l , V n g } =f kv ( { ˆ Z n − 1 , ˆ Z n − 1 g } ) . (8)为了计算具有局部-全局交互的注意力，对于第i个子窗口内的查询 Q n i ∈ R s t × s h × s w × C e，我们不仅从第i个局部窗口 K n l,i ∈ R s t × s h × s w × Ce 中收集键，还从第i个展开的粗粒度窗口 K n g,i ∈ R s t ×s h × s w × C e 中收集键。0子窗口池化0展平0展平0局部窗口0粗粒度窗口0输入令牌0图4.时间焦点自注意力的示意图。这里以2×2×2的窗口大小为例。我们可以看到，键和值{ K n , V n}包含了细粒度的局部信息和粗粒度的全局信息。0这个操作可以并行处理。我们通过 K n = { K n l , K n g } 和 V n = { V n l , V n g }分别连接相应的键和值，然后计算 Q l i 的焦点自注意力：0注意力 ( Q n , K n , V n ) = Softmax � Q n ( K n ) T0注意，注意力函数也可以以多头方式工作。示例如图4所示。最后，第n个焦点变换器块中的整个过程可以表示为：0其中MFSA和LN分别表示多头焦点自注意力和层归一化[ 1]。我们使用F3N [ 33 ]来连接嵌入式补丁之间的连接。03.3. 训练目标0我们使用三个损失函数来优化我们的模型。第一个是重建损失，通过L1距离度量合成视频ˆ Y 和原始视频 Y之间的像素级差异：0第二个是对抗损失，已被证明对生成高质量和逼真的内容很有用。我们使用基于T-PatchGAN [ 7]的鉴别器使模型关注所有时间邻居的全局和局部特征。该鉴别器的训练目标是：0对于视频修复生成器，对抗损失的公式为：L adv = − E z � P ˆ Y (z ) [ D ( z )] , (14)DFVI [56]29.160.94290.0660.150928.810.94040.1870.1608-2.56LGTSM [8]29.740.95040.0700.185928.570.94090.1700.16401008G0.23CAP [28]31.580.96070.0710.147030.280.95210.1820.1533861G0.40FGVC [17]29.670.94030.0640.102230.800.94970.1650.1586-2.4440%50%60%70%80%90%100%175670Table 1. 在YouTube-VOS [ 55 ]和DAVIS [ 44 ]数据集上与SOTA视频修复模型的定量比较。↑表示越高越好。↓表示越低越好。E warp �表示E warp × 10 − 2 。每种方法都是根据FuseFormer [ 33]中的流程进行评估的。VINet、DFVI和FGVC不是端到端的训练方法。因此，它们的FLOPs无法预测。0准确性效率0模型 PSNR ↑ SSIM ↑ VFID ↓ E warp � ↓ PSNR ↑ SSIM ↑ VFID ↓ E warp � ↓ (s/帧)0STTN [62] 32.34 0.9655 0.053 0.0907 30.67 0.9560 0.149 0.1449 1032G 0.120FuseFormer [33] 33.29 0.9681 0.053 0.0900 32.54 0.9700 0.138 0.1362 752G 0.200E2 FGVI（我们的方法）33.71 0.9700 0.046 0.0864 33.01 0.9721 0.116 0.1315 682G 0.160CAP DFVI STTN FGVC FuseFormer0百分比0去除静止的0图5.用户研究结果。垂直轴表示对我们的方法相对于其他方法的偏好百分比。0第三个损失是流一致性损失，如公式（2）所示。训练细节可以在补充材料中找到。04. 实验04.1. 设置0数据集。为了展示所提出方法的有效性，我们在两个流行的视频对象分割数据集YouTube-VOS [55]和DAVIS[44]上进行评估。YouTube-VOS是一个具有多样场景的数据集，包括3471个训练视频剪辑、474个验证视频剪辑和508个测试视频剪辑。我们遵循原始的分割模式，并在YouTube-VOS的测试集上报告实验指标。DAVIS由60个训练视频剪辑和90个测试视频剪辑组成。根据FuseFormer[33]的做法，我们使用测试集中的50个视频剪辑来计算指标。我们在YouTube-VOS数据集上训练模型，并在YouTube-VOS和DAVIS数据集上进行评估。对于遮罩，训练过程中我们生成静止和类似物体的遮罩，以模拟视频修复和物体去除应用[8，23，28，33，62]。在评估中，使用静止遮罩计算客观指标，使用类似物体的遮罩进行定性比较，因为缺乏参考。指标。我们选择PSNR、SSIM [52]、VFID[50]和流场稳定性误差Ewarp [25]来评估性能。0最近视频修复方法的评估。具体来说，PSNR和SSIM是常用的用于评估图像和视频失真的指标。VFID用于衡量两个输入视频之间的感知相似性，并已在最近的视频修复工作中采用[33，62]。流场稳定性误差Ewarp用于衡量时间稳定性。04.2. 比较0定量结果。我们在YouTube-VOS [55]和DAVIS[44]上报告了定量结果，比较了我们的方法与之前的视频修复方法，包括VINet [23]，DFVI [56]，LGTSM [8]，CAP[28]，STTN [62]，FGVC [17]和Fuseformer[33]。如表1所示，我们的方法在所有四个定量指标上都显著超过了所有先前的SOTA算法。优越的结果表明我们的方法可以生成更少失真（PSNR和SSIM），更具视觉合理性的内容（VFID），以及更好的空间和时间一致性（Ewarp），这验证了所提出方法的优越性。定性结果。我们选择了CAP[28]，FGVC [17]和Fuseformer[33]这三种代表性方法进行视觉比较。图6展示了视频修复和物体去除的结果。与比较方法相比，我们的方法可以生成更加真实的纹理和结构信息。这证明了所提出方法的有效性。为了进一步进行综合比较，我们在物体去除和视频修复应用上进行了用户研究。我们选择了包括两种基于流的方法（即DFVI [56]和FGVC[17]）和三种基于注意力的方法（即CAP [28]，STTN[62]和Fuseformer[33]）的五种方法。我们邀请了20名参与者进行用户研究。每个志愿者随机观看40个视频三元组，并被要求选择一个视觉上更好的修复视频。每个三元组由一个原始视频、一个来自我们的方法和一个随机选择的方法组成。175680遮挡帧 CAP [28] FGVC [17] FuseFormer [33] E 2 FGVI（我们的方法）0图6. 与CAP [28]，FGVC [17]，FuseFormer [33]的定性结果比较。0流GT 不带运动信息不带完成的流带完成的流0图7.流完成模块的剔除实验。第一行显示了在不同情况下由流完成模块生成的结果。第二行可视化了相应的修复帧。0用户研究结果如图5所示。可以看出，志愿者明显更喜欢我们的结果而不是其他几乎所有方法的结果。尽管与FGVC的比较中不存在如此明显的偏好，但是我们的方法仍然获得了大多数的投票。这证明了与其他方法相比，我们的方法能够生成更加视觉上令人愉悦的结果。效率比较。我们使用FLOPs和推理时间来衡量每种方法的效率。FLOPs是使用时间尺寸为8计算的，运行时间是在单个Titan XpGPU上使用DAVIS数据集进行测量的。比较结果如表1所示。与基于Transformer的方法相比，我们的方法显示出相当的运行时间，并且比基于流的方法快近15倍。此外，与所有其他方法相比，它具有最低的FLOPs。这表明我们的方法在视频修复方面非常高效。0表2. 流完成模块的剔除实验。0情况 PSNR SSIM0不带运动信息 32.08 0.96730不带完成的流 32.23 0.96820带完成的流 32.35 0.96880流GT 32.54 0.969804.3. 剔除实验0我们对流完成、特征传播和注意机制进行了三项剔除实验，以验证我们框架中所提出模块的有效性。所有剔除实验都在DAVIS数据集上进行。流完成模块的研究。首先，我们研究了运动信息对视频修复的重要性。通过仅移除流一致性损失L_flow，我们的流完成模块不再提供有关物体运动的信息（见图7），导致性能大幅下降，如表2所示。其次，我们研究了通过修复预训练权重中的光流来完成光流的必要性。具有关于光流的初步知识，流完成模块将遮挡区域视为遮挡因素，并为可见区域提供初始光流估计（见图7）。与没有运动信息的模型相比，性能有明显改善。然而，这种模型忽略了遮挡区域中的运动信息。在我们通过训练来完成光流之后，通过修复遮挡区域的光流，模型可以更好地利用光流信息（见图7）。FuseFormer31.740.9662752G175690表3.特征传播模块的研究。'Flow'表示公式（4）中的基于流的扭曲函数W。'DCN'表示调制可变形卷积[63]。0（a）（b）（c）（d）0流�� DCN��0PSNR 31.73/0.9653 32.15/0.9677 32.17/0.9676 32.35/0.96880遮挡帧（a）（b）（c）（d）0图8.特征传播模块的剔除实验的定性结果。最后四列对应于表3中的四种情况。0通过最小化流一致性损失的流完成模块，我们获得了比以前更大的PSNR和SSIM值。如图7所示，具有完成的流的模型恢复了更准确的人体手臂内容。此外，在表2和图7中，我们还展示了我们方法的潜在上限，该方法估计了未损坏帧之间的光流。特征传播模块的研究。在我们从模型中移除特征传播模块之后（表3中的情况（a）），定量指标的值显著下降。从图8（a）可以看出，此模型生成的结果存在严重的伪影和不连续内容。将基于流的扭曲和传播（参见公式（3））添加到此模型中（表3中的情况（b）），由于我们可以借助光流将有效像素从相邻帧带到看不见的区域，生成的内容变得更准确，如图8（b）所示，PSNR值增加了很大的幅度（0.42dB）。然而，基于流的扭曲和传播很难恢复无法通过光流追踪的内容（图8（b）中的白线）。此外，对于仅涉及可变形卷积扭曲的特征传播模块（表3中的情况（c）），由于缺乏从相邻帧中扭曲的准确信息，结构细节可以更清晰地恢复，但会涉及更多伪影。通过将可变形卷积与流引导相结合（表3中的情况（d）），PSNR和SSIM值可以进一步提高。在图8（d）中，该模型在保留有希望的结构细节的同时实现了最佳的视觉效果。这证明了特征传播模块的有效性。注意机制的研究。我们移除了流完成和特征传播模块，纯粹比较不同的注意机制，包括基本的全局注意力（FuseFormer[33]），局部窗口注意力和流注意力。0表4. 对各种注意机制进行消融研究. Fuse- Former [ 33 ]是目前使用传统全局注意力的最佳方法.0案例 PSNR SSIM FLOPs0局部注意力 31.57 0.9648 497G0焦点注意力 31.73 0.9653 560G0遮挡帧 FGVC 我们的0图9.两个失败案例（汽车漂移）。当前的视频修复方法无法处理大运动或大量缺失的物体细节，并可能产生严重的伪影.0局部注意力.如表4所示，传统全局注意力在定量性能上表现最佳，但计算量较大. 局部注意力引入了局部窗口，就像Video SwinTransformer [ 35 ]一样.尽管FLOPs减少了34%，但注意力计算仅限于局部窗口，导致性能较差.焦点注意力在性能和计算方面取得了良好的平衡.其PSNR和SSIM值与FuseFormer相当，而计算成本仅增加了12%，相对于局部注意力而言.04.4. 限制0图9显示了两个失败案例.当遇到大运动或跨帧存在大量缺失的物体细节时，我们的方法在遮挡区域以及FGVC [ 17 ]和Fuse- Former [ 33]中产生了不合理的内容和许多伪影.这表明这些情况对于视频修复仍然具有挑战性.05. 结论0我们提出了一种名为E2FGVI的端到端可训练的基于流的视频修复模型.精心设计的三个模块（即流完成、特征传播和内容幻象模块）共同协作，解决了以前方法的许多瓶颈.实验结果表明，我们的方法在两个基准数据集上实现了最先进的定量和定性性能，并且在推理时间和计算复杂性方面非常高效. 我们希望它能成为未来工作的强大基准.致谢：本工作由中国国家重点研发计划（NO.2018AAA0100400），国家自然科学基金委员会（NO.61922046），中国教育部科技创新项目和中国博士后科学基金会（NO.2021M701780）资助.我们还衷心感谢MindSpore、CANN和AscendAI处理器对本研究的支持.175700参考文献0[1] Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E Hin- ton.层归一化. arXiv预印本arXiv:1607.06450 , 2016. 50[2] Nicolas Carion, Francisco Massa, Gabriel Synnaeve,Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko.基于Transformer的端到端目标检测. 在 ECCV , 2020. 20[3] Joao Carreira and Andrew Zisserman. Quo vadis,动作识别？一种新模型和动力学数据集. 在 CVPR , 2017. 20[4] Kelvin CK Chan, Xintao Wang, Ke Yu, Chao Dong, andChen Change Loy. Basicvsr:在视频超分辨率和其他领域中寻找基本组件. 在 CVPR , 2021. 2 ,40[5] Kelvin CK Chan, Xintao Wang, Ke Yu, Chao Dong, andChen Change Loy. 理解视频超分辨率中的可变形对齐. AAAI ,2021. 40[6] Kelvin C.K. Chan, Shangchen Zhou, Xiangyu Xu, and ChenChange Loy. Basicvsr++:使用增强的传播和对齐改进视频超分辨率. CVPR , 2022. 40[7] Ya-Liang Chang, Zhe Yu Liu, Kuan-Ying Lee, and WinstonHsu. 具有3D门控卷积和时间PatchGAN的自由形式视频修复.ICCV , 2019. 1 , 2 , 50[8] Ya-Liang Chang, Zhe Yu Liu, Kuan-Ying Lee, and WinstonHsu. 学习可学习的门控时间偏移模块用于深度视频修复. BMVC ,2019. 1 , 2 , 60[9] Mark Chen，Alec Radford，Rewon Child，JeffreyWu，Hee- woo Jun，David Luan和IlyaSutskever。从像素开始的生成预训练。在ICML，2020年。20[10] Bowen Cheng，Alexander G. Schwing和Alexander Kir-illov。像素级分类对于语义分割并不是唯一需要的。NeurIPS，2021年。20[11] Jingchun Cheng，Yi-Hsuan Tsai，Shengjin Wang和Ming- HsuanYang。Seg�ow：视频对象分割和光流的联合学习。在ICCV，2017年。20[12] Krzysztof Choromanski，Valerii Likhosherstov，DavidDo- han，Xingyou Song，Andreea Gane，TamasSarlos，Peter Hawkins，Jared Davis，AfrozMohiuddin，LukaszKaiser等。重新思考performers的注意力。ICLR，2021年。20[13] Karan Desai和Ju

下载后可阅读完整内容，剩余1页未读，立即下载