基于惯性引导的视频修复与风格融合

96 浏览量更新于2023-10-25 收藏 2.28MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5982基于惯性引导的视频修复流程完成与风格融合张凯东1付晶晶2刘东11中国科学技术大学2微软亚洲研究院网址：richu@mail.ustc.edu.cn，jifu@microsoft.com，网址：www.example.com，dongeliu@ustc.edu.cn(a)投入（b）DFGVI [48]（c）FGVC [8]（d）我们的（e）地面实况图1.我们的结果和以前的流引导视频修复结果之间的比较。我们的方法相对于完成的流（底部行）和修复的视频帧（顶部行）具有视觉上更令人愉悦的结果。摘要物理对象具有惯性，它抵抗速度和运动方向的变化。受此启发，我们引入惯性先验，即反映物体在局部时间窗口内运动的光流在相邻的前一帧或后一帧中保持不变。我们提出了一个流完备网络，用于基于惯性先验对连续流序列中的流特征进行在重构、流平滑和一致性三元普查变换的自定义损失监督下，完成被破坏的流。完成的流程具有很高的保真度，对视频修复质量产生了显着的改善。然而，现有的流引导跨帧变形方法没有考虑跨视频帧的亮度和锐度变化，这导致变形后与其他帧的空间不相干为了解决这个问题，我们提出了自适应风格融合网络（ASFN），它利用从有效区域中提取的风格信息此外，我们设计了一个数据模拟流水线，以降低ASFN的训练难度。大量的实验表明，我们的方法对国家的最先进的方法定量和定性的优越性项目本工作得到国家自然科学基金项目62036005和62022075，中央高校基础研究基金项目WK3490000006的资助。K. Zhang在微软亚洲研究院完成了这项工作。页面位于https://github.com/hitachinsk/ISVI。1. 介绍视频修复旨在填充视频帧中的损坏区域，以保持恢复视频的视觉连贯性[2]。它具有广泛的应用场景，如对象去除，水印去除，视频重定向等。与图像修复不同[15，31，32，49]，视频修复高度依赖于利用视频帧中的完整内容来合成具有高视觉质量的视频帧。在过去的二十年里，研究人员已经投入了大量的努力来修复视频[10，27，36，42，45]。近年来，提出了许多基于深度学习的视频嵌入方法，它们可以分为两类。第一类[5，6，12，18，20，21，29，42，54，57]直接合成视频帧中的像素，而第二类[8，48]完成光学流程，以引导从有效区域到填充损坏区域的扭曲过程。我们将这两类方法分别称为基于像素的方法和基于流的与基于像素的方法相比，基于流的方法能够保持修补的视频帧中的高频细节，因为它们主要依赖于扭曲视频帧而不是合成像素。因此，基于流的方法可以实现比基于像素的竞争对手更令人愉悦的视觉效果[38]。5983与帧类似，连续光流也是相关的。充分利用附近的流提供的上下文对于准确的流完成至关重要。DFGVI[48]直接连接连续流以完成目标流，并且缺乏对流之间的运动相关性的有见地的建模。现有的基于流的方法遭受不准确的流完成，这导致错误的扭曲和绘画中的性能下降，如图lb和lc中所示的接缝和重影可观察到。此外，跨不同视频帧的风格（包括变亮和清晰度）不完全相同，这导致有效区域与变形区域（填充有变形内容的损坏区域尽管FGVC[8]引入了梯度扭曲和泊松混合[33]来获得无缝融合，但这种策略不足以处理每个帧之间的风格差异。为了更有效地利用流上下文，我们引入了惯性先验，以在局部时间序列中精确地完成惯性是任何物理物体对其运动速度或方向的任何变化所产生的阻力。在局部时间窗口中，惯性保证了光流的强因此，我们在惯性先验下对齐来自连续光流的特征，并生成更丰富的时间上下文表示，这使得能够实现准确的流完成。我们把这种流体完井网络称为惯性制导流体完井（IGFC）网络.我们还引入了光滑损失和三进制集中变换（TCT）损失来监督光流的完成，相对于它们的内在属性。为了改善流引导变形后不同视频帧间风格变化引起的空间不一致性，设计了自适应 S 型 FNN 网络（ASFN），在有效区域梯度的指导下，对变形区域的变形梯度进行优化.ASFN是一个轻量级网络，具有多个自适应风格融合（ASF）模块。在每个ASF模块中，提取有效区域和变形区域的均值和标准差，并进行融合，以校正变形区域中的风格。实验结果表明，ASFN的有效性，在风格校正更好的空间一致性。对于ASFN的训练，我们设计了一个数据模拟管道，以减轻数据准备的成本，并实现分离的训练方案。此外，我们的方法实现了内存有效的推理，并能够处理高达4K的视频。这项工作的贡献可以概括为：• 我们在光流序列内在相关性建模之前引入惯性，并提出了基于惯性引导的流特征对齐和聚合的高质量流补全网络（IGFC）。• 我们提出了自适应风格融合网络（ASFN），以改善翘曲区域中的翘曲梯度，以减轻不同视频帧之间的风格变化所造成的空间不一致性。• 我们为ASFN训练建立了一个数据模拟管道，这大大降低了数据准备成本，从而提高了训练效率。2. 相关工作图像修复。在深度学习流行之前，基于扩散的方法[3]和基于块的方法[1]是图像修复的两种主要解决方案。此后，出现了基于深度学习的图像修复方法，它们利用CNN和GAN [9]强大的语义分析能力来修复受损图像[15，31，32，51]。提出了部分卷积[24]和门控卷积[52]来修复自由形式的孔。最近，研究人员引入了结构指导[28，49]和语义指导[22]，以进一步提高图像修复的性能。视频修补。传统的方法[7，10]在单应性或光流变形的指导下，用来自对齐的参考帧的有效区域来完成目标帧的损坏区域。Huang等人. [13]提出了同时优化光流重建和帧修复以保持时空一致性，从而实现优异的性能。近年来，越来越多的方法将细胞神经网络应用于视频修补中. 许多方法[5，6，42，57]采用3D CNN [40]或通道移位[23]进行时空联合优化。一些研究[18，21]引入了递归网络[46]来明确地利用时间关系。一些作品[30，55]采用内部学习来利用视频中的时空冗余，而一些作品采用注意力机制[12，17，20，25，26，29，54]来获取特征域中的相似内容以进行视频修复。Xu等[48]和Gaoet al.[8]利用光流实现视频修复的内容由于视频是在完整光流的指导下用有效像素填充的，因此基于光流的然而，上述两种方法未能明确地考虑在光流完成期间连续流之间的运动相关性，这导致次优的流完成质量。此外，不同视频帧之间的风格变化我们的方法近似的惯性之间的运动相关性连续流融合前更准确，我们还设计了ASFN，以改善在翘曲区域的风格。样式转移。 AdaIN [14]提取并映射从一个图像到另一个图像的平均值和标准差，5984--−i t−1i −1x∈S--联系我们×1- -2不(a)惯性导向流动完井平滑损失拉普拉斯填充惯性流翘曲特征融合L1 TCT丢失(c)自适应风格融合细化(b)流动导向梯度完井…泊松共混梯度传播提取物梯度ASFN扩张转换ASF模块下采样Conv图2.我们的方法包括三个步骤。我们用不同的背景颜色标记这些步骤。在第一步中，光流特征在惯性先验下对齐，然后融合以完成流动。接下来，我们利用具有原始分辨率的完整流来引导整个视频的梯度传播。在第三步中，我们采用ASFN的填充梯度的风格的基础上，在有效的区域。最后，我们使用泊松混合渲染的结果。深特征空间StyleGAN [16]控制不同级别的功能来合成高质量的图像。这两种方法都没有在视频修复中用于减少帧间风格差异。我们的ASFN提取有效区域的特征分布，以指导梯度域中翘曲区域的风格细化。3. 方法3.1. 问题公式化给定视频序列X：={X，X，...，X}，我们的目标时间尺度运动场描述。惯性先验假设局部时间风的运动趋势是恒定的。 Giv ent o光流Ft−1和Ft。F或坐标系It-1中的点xi-1，惯性先验表明，F<$t（xi−1+F<$t−1（xi−1））<$F<$t−1（xi−1）（1）由于流是浮点数，我们基于双线性核将传播的流值量化为四个最近的给定扭曲的像素位置p（xi）=xi−1+F<$t−1（xi−1），这个过程可以写为，是合成由相应的掩码序列M：=M1，M2，...，其中“1”表示损坏的区域，并且“0”表示损坏的区域。Ft（xi）=k（x p（x））F（x）<$x∈Sk（x−p（xi））（二）有效区域。3.2. 惯性导向流动完井网络我们的惯性引导流完成网络（IGFC）如图2（a）所示，这是一个具有跳过连接的编码器-解码器网络[35]。本文以前向流补全为例，详细介绍流补全.在本小节中，我们表示前向光学为了简单起见，第t帧和第（t+ 1）帧之间的流被表示为Ft我们破坏流序列F t−i，.，Ft，...， F t+i与它们对应的掩码，并且用拉普拉斯填充初始化这些流，其中初始化的第t个流表示为如F。IGFC的输入是连续的初始化流F_i，.，去你的，Ft+i并且输出是完成的tagetflow_w_F_t 。我们采用惯性之前，对准编码参考流动特征到目标流动特征，然后如[43]所示，利用匹配网络将来自对准的参考特征的特征融合到目标特征我们采用膨胀卷积[50]来扩大融合目标流的接收场。所提出的网络生成光流在一个粗略的方式与多个精细的。其中k（a）=（1ax）（1ay）是双线性核，ax和ay是点a的坐标。S表示xi的4-近邻。惯性先验不仅可以调整附近的流动，在一定的时间间隔内调整流量如果我们将光学流Ft−j弯曲为流Ft，则从xt−j得到的相应的弯曲pixel x el为p（xt）=xt−j+jFt−j（xt−j）. 对于从未来时间戳扭曲的光流，响应j是负的。对于后向流的惯性流弯曲，我们颠倒后向流的顺序，上述公式仍然成立。我们在图中说明惯性先验在图3（a）中提供了像素域惯性扭曲的示例，并且在图3（b）中提供了像素域惯性扭曲的示例。参考流的有效区域通过惯性扭曲进行变换，并与目标流的损坏区域对齐。在相同位置处的这种互补特征为目标流的完成提供了良好的参考。因此，我们用匹配网络来计算流的相似性，以聚合这些对齐的流。一般来说，掩模区域不会在垂直方向上偏移太多。局部时间窗口，因此应用惯性先验5985实例规范ASF块是说ASF模块STD取代是说STD转换ASF块有效区域处理区域¨⊙孔∇△不不不 1不¨¨流量值(a) 惯性假设说明（b）流动扭曲示例图3.惯性先验图解。（b）中的红色区域表示从参考流传播的新填充区域直接对准光流不能在目标流的内部损坏区域中提供足够令人信服的参考。因此，考虑到编码过程也可以被视为预填充过程，我们在特征域中在特征空间中的惯性变形可以从有效区域得到监督，即使在内部损坏的区域。此外，特征空间中的惯性翘曲可以与网络联合优化，从而提高流完成性能。损失函数。 IGFC以粗略到精细的方式输出光流。我们惩罚预测流在每个分辨率与重建损失的孔和有效的区域。图4. ASF模块（左）和ASF块（右）的结构，其中为简单起见省略了通道维度。3.3. 自适应风格融合网络在我们完成光流之后，我们可以沿着由完成的光流形成的轨迹跨不同的帧传播内容由于完成的光流并不完美，不正确的扭曲将错误地放置参考像素并导致低频分量中的显著因此，我们选择传播梯度，以避免低频传播错误，并保持局部内容的一致性。缺失的低频分量将在有效区域的帮助下通过泊松混合[33与FGVC[8]不同，我们基于损坏区域及其2像素边界构建泊松方程，这保持了原始性能，L=M（F-F）/M由于减少了维度，（三）泊松方程在之前的流量引导视频Lvalid=（1−Mt）<$（Ft−F<$t） /<$（1−Mt）<$1哪里表示Hadamard乘积。翘曲精度可以从流动质量的角度监督流动的完成利用完成的流程，我们在三元普查变换[37，53]之后扭曲地面实况帧我们用三元普查变换损失（TCT损失）（表示为Lter ）对不准确的翘曲区域进行了归一化。TCT损失被施加到完成流的所有分辨率上，以引导多尺度运动场。补充材料中提供了TCT损失的详细信息。为了保持光流的分段光滑性，我们对原分辨率下的完备光流分别施加一阶和二阶光滑损失。修复方法，我们用[51]第五十一话.我们的整经程序是从FGVC [8]中借来的，更多的细节可以在柔软的材料中看到。由于视频帧之间的亮度和锐度变化，即使轨迹由完美的光流形成，也不能保证沿着理想轨迹传播的内容与目标帧中的地面真实梯度例如，帧Ij 可以写为Ij=aCj+b，其中Cj是要传播的内容A和B分别表示乘法和加法类型如果我们将梯度从Ij（xj）传播到Ii（xi），梯度将是，Ii（xi）=Ij（xj+ 1）−Ij（xj）=aCj（xj+ 1）+b−（aCj（xj）+b）（6）L光滑=F+F（四）=aCj（xj）公式6中样式参数a的存在其中表示梯度运算符，表示发散运算符。因此，训练IGFC的损失函数是上述四个损失项的组合。影响传播的梯度的分布，这导致变形区域中梯度的风格偏差。例如，如果C j（x j）服从高斯分布，三分之一N（μ，σ2），一个Cj（xj）的分布将是L=λ1L 孔+λ2L 有效 +λ3L 光滑+λ4L 之三（五）N（aµ，a2σ2）。样式参数a影响变形通过梯度传播的其他帧的梯度特征，我们设λ1= 1，λ2= 1，λ3= 0。λ4= 0。01.这导致了空间的不一致性。FCFC11115986∇¨¨∇.Σ- 你好∇不Ωt→（t+1）∇区域，并且这样的操作可以被公式化为，p=（1−M）p+M（γpm−µMt（m）+β）（8）m+1t mtσMt（m）最后，利用解码器生成细化的梯度Iflt损失函数。我们采用重构损失和对抗损失来训练ASFN，重构损失为，图5.用于ASFN训练的数据模拟管道。我们在时间窗口[t−1，t+ 1]内完成流，并生成Lsholee=/Mt1基于前向-后向流的融合权重¨ˆ¨向后一致性检查我们使用从使用完成的流的附近帧变形的梯度来填充I t的损坏的梯度，以获得训练数据It。将打包的梯度与生成的融合权重ωt→t−1和ωt→t+1融合。因此，我们设计ASFN来校正翘曲区域的分布如图2（c）所示，ASFN包括几个ASF模块，并且ASF模块由两个ASF块和两个具有残差连接的卷积块组成[11]。更多ASF细节如图所示。4.第一章我们绘制了一个弧形的渐变图利用编码器对特征空间进行编码，并利用四个ASF模块对编码后的特征进行处理对于第m个ASF块，我们将其输入表示为pm，将输出表示为pm+1。给定相应的掩模Mt，我们分别提取扭曲区域和有效区域中的pm的均值和标准差µ（m）=1µpLsvalid=（1−Mt）<$（It−It）1/<$（1−Mt）<$1Lsrec=Ls hole+Ls valid（九）其中，It表示地面真值梯度。我们采用SN-PatchGAN[52]使细化梯度的分布和地面实况尽可能接近，并使用铰链损失进行计算。我们将对抗性损失表示为Ladv，损失Ls是以下两个损失项的加权组合我们将重建损失的权重设置为1，将对抗损失的权重设置为0.01。3.4. 数据模拟流水线用于ASFN训练的数据准备成本是昂贵的。为了获得训练数据，我们需要使用IGFC完成视频中的每个光流，并使用已完成的流在整个视频中扭曲梯度，直到没有未填充的区域，这在训练期间是不可接受的。∥Ω∥1（m）=∥Ω∥Ω（pmΩ-µ第二条第（7）款为了降低数据准备成本，我们提出了数据模拟流水线如图5所示。我们采用预-训练IGFC在短时间窗口内产生完整的光流。为了保证尽可能多地填充损坏的区域，我们只损坏梯度其中，µ和σ表示平均值和标准差。在相应的区域中的特征图。对于有效区域，= 1Mt，否则= M t。表示由于有效区域中的样式是已知的，我们可以采用这种样式来优化变形区域中的对应物。有效区域中的样式不对关于变形区域的任何内容进行编码。如果我们直接将样式从有效区域映射到翘曲区域，则可以丢弃在翘曲区域中编码的时间样式先验因此，我们通过分别连接扭曲区域和有效区域中的均值和标准差向量来优化扭曲区域中的风格，并使用两个FC层来融合这两个区域中的风格信息，以获得乘法和加法风格参数γ和β。我们采用实例规范化[41]来消除扭曲区域中的原始样式信息。最后，将生成的样式信息映射到变形的I t与相应的掩码M t。腐败的重新-通过使用完成的流从地面真实梯度I t-1和I t+1的传播来填充gion。融合权重ω t→（t-1）和ω t→（t+1）通过流前向-后向一致性来计算，连接到流动一致的区域。我们扭曲梯度It−1和F，尊重我。为了模拟帧中的风格变化最后，采用融合权值对变形梯度进行融合，并对变形区域进行替换在梯度中得到训练数据。4. 实验4.1. 设置我们采用两个常见的数据集进行评估：Youtube-VOS [47]和DAVIS [4]。Youtube-VOS包含4，453个1M5987××−16×VOSDAVIS方法方形物体960×600PSNR↑SSIM↑LPIPS↓PSNR↑SSIM↑LPIPS↓PSNR↑SSIM↑LPIPS↓PSNR↑SSIM↑LPIPS↓VINet [18]29.830.95480.047028.320.94250.049428.470.92220.0831---DFGVI [48]32.050.96460.038029.750.95890.037130.280.92540.052229.100.92490.0564尼泊尔共产党[20]32.170.96300.039630.200.95280.048931.590.93320.0578---OPN [29]32.660.96470.038631.150.95780.044332.400.94430.0413---3DGC [5]30.220.96070.041028.190.94390.048531.690.93960.0535---STTN [54]32.490.96420.040030.540.95400.046832.830.94260.0524---TSAM [57]31.620.96150.031429.730.95050.036431.500.93440.0478---实况调查团[25]33.730.97040.029731.870.96520.034034.190.95100.0449---FGVC [8]33.940.97190.025932.140.96670.029833.910.95540.036034.230.96070.0345我们34.790.97430.022533.230.97290.024735.160.96480.030435.400.96590.0303表1. Youtube-VOS和DAVIS数据集上的定量结果。我们用红色和蓝色字体标出最好的和第二好的。↓表示越低越好，而↑表示越高越好。缺少的数字表示由于内存限制，相应的方法在该分辨率下失败。在960×600分辨率下，我们采用调整大小的对象掩模集进行视频修复。自然场景的视频。我们用它的训练集训练我们的网络，用它的测试集测试。DAVIS包含150个视频，其训练集具有密集注释的掩码。我们采用它的训练集作为我们的测试集来评估视频修补性能。在之前的工作[8]之后，我们采用PSNR，SSIM [44]和LPIPS [56]来衡量视频修复质量，并使用端点误差（EPE）来评估光流完成质量。我们将我们的方法与最先进的基线进行比较，包括VINet [18]，DFGVI[48]，CPN [20]，OPN [29]，3DGC [5]，STTN [54]，FGVC [8]，TSAM [57]和实况调查团（又名Fuseformer）[25]。在我们的实验中，RAFT [39]被用来提取光流。我们还采用RAFT作为其他流引导视频修复方法的流提取器[8，48]进行公平比较。我们利用三个连续的流作为IGFC的输入初始学习率为1e4，经过120k次迭代后除以 10 。IGFC 和 ASFN 都是使用 Adam 优化器训练的[19]，整个训练过程大约需要3.5天。4.2. 定量评价我们在Youtube-VOS和DAVIS数据集上报告了我们方法的定量结果和基线在推理过程中，所有视频帧的大小被调整为432 256，而没有指定。对于Youtube-VOS，我们应用方形掩码进行推理。对于DAVIS，我们采用了正方形掩码和对象掩码进行推理。正方形掩模的平均尺寸约占整个帧区域的1对象掩码从DAVIS中的注释中随机混洗。我们还报告了960600分辨率下的视频修复性能，以验证视频修复在更高分辨率下的性能。定量结果见表。 1. 一、对于 Youtube-VOS 和DAVIS，我们的方法优于最先进的基线。我们的方法不仅在恢复度量（PSNR，SSIM）方面，而且在感知度量（LPIPS）方面都具有优异的性能流量结果见表1。3 .第三章。我们的流完成的方法也显着先进的其他工作。我们的方法的运行速度也与其他基于流的视频修复方法[8，48]具有竞争力。4.3. 定性比较我们对我们的方法与六个竞争性基线进行了定性比较[8，20，25，29，54，57]。结果示于图6中。与基于像素的视频修复方法相比，流引导方法通常通过避免CNN中的频谱偏差来生成更清晰的结果[34]。图8比较了我们的方法和以前的流程引导方法的流程完成质量[8，48]。我们的方法享有更准确的流动完井质量。IGFC中精确的光流合成和ASFN中的风格校正都带来了更好的视频修复性能和更好的视觉体验。4.4. 用户研究我们做了一个用户研究，以验证优越的主观视觉质量，我们的方法对其他下的对象删除设置。招募30名志愿者。我们随机抽取了20个DAVIS视频进行用户研究。所有的视频都可以重播多次，以帮助解说员做出更准确的决定。图7显示了我们的方法和其他方法之间的结果，这说明了我们的方法的优越性能。4.5. 消融研究我们的消融研究是在DAVIS上进行的，并报告了方形掩模和物体掩模的结果，以进行更全面的评估。惯性优先的有效性。我们将IGFC与两个基线进行比较。第一个是我们的流程完成模型5988(a) （b）CPN [20]（c）OPN [29]（d）STTN [54]（e）TSAM [57]（f）FFM [25]（g）FGVC [8]（h）Ours图6.我们的方法和SOTA之间的定性比较与其他结果相比，我们合成的视频在细节保留方面更优越，这导致了更令人愉悦的视觉体验。更多的定性结果可参见补充材料。百分之一百百分之八十60.00%40.00%(a) w/o。惯性翘曲(b) 特征域惯性扭曲百分之二十0.00%的百分比rank1等级2rank3 rank4图9.完成的流的比较w/o.惯性变形和特征域惯性变形。特征域的惯性先验能更好地预测运动结构和我们FGVCTSAM实况调查团图7.用户研究结果表明，我们的方法和竞争基线之间。“Rank-x” means the percentage of the corre- sponding method ischosen as “x-th”（a）输入（b）GT（c）w/o。L之三(d) 与L之三(a) 投入（b）DFGVI [48]（c）FGVC [8]（d）我们的图8. IGFC和基线之间完成的光流的比较IGFC具有更精确的流补偿性能（如清晰的运动边界和细节的保留）。第二个是我们的模型与流域惯性翘曲（流），以验证IGFC的有效性定量结果见表1。二、IGFC采用的特征域惯性变形技术提高了流的完整性和视频的输入质量。图10.合成的光流场的可视化使用或w/o训练的模型。TCT丢失。与无TCT损失监控的流相比，有TCT损失监控的流能够保持边缘的清晰度。绘画质量。特征域惯性扭曲的性能增益主要来自于运动边界的保留，如图9所示。与无惯性变形基线相比，特征域惯性变形为填充相应区域的目标流特征提供了更准确的参考，从而有利于流的补全。结果，运动边界周围的重影和变形得到抑制。TCT损失的有效性。TCT损失通过三元统计变换后的帧变形来监督流的完成质量。图10示出了TCT损失有利于运动边界的清晰度。ASFN的有效性图第11话我的内心EPE=3.59EPE=2.685989(a) 输入（b）w/o。ASFN（c）加ASFN（d）GT图11.使用或w/o处理的帧的比较。ASFN。ASFN可以纠正玩家周围和徒步旅行者背部的不合理光照，还可以增强山区区域的细节，从而实现扭曲区域和有效区域之间的空间一致性。(a) GT梯度(b) 没有ASFN(c) 关于ASFN山中纹理），这主要是由于不同帧间的风格变化和不准确的流动变形造成的。图12显示了DAVIS中“hike”序列的梯度结果。我们可以观察到，ASFN不是简单地模糊梯度，而是使用有效区域提供的全局对应物来校正翘曲区域中的样式。此外，ASFN也有利于其他导流图12.对比有或无ASFN的梯度图。在红色框中，ASFN基于有效区域中的锐度来锐化山的纹理;在蓝色框中，ASFN消除过锐利的图案以获得空间连贯的风格。方法方形对象EPE↓ PSNR↑ SSIM↑ LPIPS↓ EPE↓ PSNR↑ SSIM↑ LPIPS↓无翘曲0.5832.94 0.9716 0.02670.3934.90 0.9634 0.0320流量0.5832.91 0.9715 0.02690.3834.96 0.9637 0.0316IGFC 0.5633.23 0.9729 0.02470.3535.16 0.9648 0.0304表 2. 流动翘曲方法的比较。 “No warp” indicates the flowcompletion network without flow alignment, “Flow”“IGFC”indicates our proposed方法ASFN方形物体EPE↓ PSNR↑ SSIM↑ LPIPS↓ EPE↓ PSNR↑ SSIM↑LPIPS ↓DFGVI [48]✓1.1631.24 0.9637 0.029531.22 0.9634 0.02991.0533.12 0.9480 0.039233.23 0.9487 0.0386FGVC [8]✓0.6332.14 0.9667 0.029832.37 0.9677 0.02710.4933.91 0.9554 0.036034.17 0.9560 0.0351我们✓0.5632.91 0.9711 0.026133.23 0.9729 0.02470.3534.88 0.9632 0.032235.16 0.9648 0.0304表3.比较了流完成质量和视频修复性能与或w/o。ASFN跨不同的流引导视频修复方法.使用或不使用ASFN的绘画效果使用ASFN，我们的结果在空间上更加一致，这要归功于对异常光照变化（例如，玩家的腿和徒步旅行者的背部）和锐度不一致（视频修复框架[8，48]。我们用前面框架中的流完成组件替换IGFC定量结果见表。3 .第三章。我们观察到ASFN提高了所有流引导视频修复方法的性能，并且更好的流完成质量导致更高的性能增益。我们认为，较高的流完成质量会导致更准确的变形，从而更准确地反映变形区域与有效区域这两种改进都有助于有效的推理。5. 结论在这项工作中，我们提出了一个流引导的视频修补方法。根据物体运动的物理特性，在利用连续光流之间的相关性之前引入惯性，以实现更精确的我们设计了自适应风格融合网络，在有效区域的指导下对变形区域的风格进行大量的实验表明，我们的方法进行高质量的视频修复。一般来说，我们的方法可以处理结构化内容的流完成，但它仍然需要改进细粒度流完成和快速运动情况下的性能我们提高了视频修复的能力，并产生更合理的结果。这可能会产生潜在的负面影响，即修复的视频可能会用虚假消息欺骗人们。5990引用[1] Connelly Barnes ， Eli Shechtman ， Adam Finkelstein ，and Dan B.戈德曼PatchMatch：一种用于结构图像编辑的随机对应算法。TOG，28（3），2009年8月。2[2] Marcelo Bertalmio，Andrea L.贝尔托齐和吉列尔莫·萨皮罗。纳维尔斯托克斯，流体动力学，图像和视频修复。在CVPR，第1卷，第355-362页，2001中。1[3] Marcelo Bertalmio、Guillermo Sapiro、Vincent Caselles和Coloma Ballester。图像修复。在第27届计算机图形学和交互技术年会的会议录中，SIGGRAPH'00，第417-424页，美国，2000年。出版社：ACM Press/Addison-Wesley Publishing Co. 2[4] Sergi Caelles，Alberto Montes，Kevis-Kokitsi Maninis，Yuhua Chen ， Luc Van Gool ， Federico Perazzi ， andJordi Pont-Tuset. 2018年DAVIS视频对象分割挑战赛arXiv预印本arXiv：1803.00557，2018。5[5] 张亚良，刘哲宇，李冠英，徐文松。使用3D门控卷积和时间PatchGAN的自由形式视频修复。在ICCV，第9066-9075页，2019年。一、二、六[6] 张亚良，刘哲宇，李冠英，徐文松。用于深度视频修复的可学习门控时间移位模块。在BMVC，2019。一、二[7] M. Ebdelli，O. Le Meur和C.海鸠短期窗口的视频修复：应用于对象去除和错误隐藏。TIP，24（10）：3034-3047，2015年。2[8] Chen Gao，Ayush Saraf，Jia-Bin Huang，and JohannesKopf.流边缘引导视频完成。在ECCV，第713- 729页，2020年。一、二、四、六、七、八[9] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NIPS，2014年第27卷中。2[10] Miguel Granados，Kwang In Kim，James Tompkin，JanKautz，and Christian Theobalt.具有动态对象和自由移动摄像机的视频的背景修复。ECCV，第682-695页，2012年。一、二[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。5[12] 胡元婷、王恒、尼古拉斯·巴拉斯、克里斯汀·格劳曼和亚历山大·G。施温基于建议的视频完成。在ECCV中，第38-54页。Springer，2020年。一、二[13] Jia-Bin Huang，Sing Bing Kang，Narendra Ahuja，andJo- hannes Kopf.动态视频的时间相干完成。TOG，35（6）：196：1-11，2016. 2[14] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。InICCV，2017. 2[15] Satoshi Iizuka，Edgar Simo-Serra，and Hiroshi Ishikawa.全局和局部一致的图像完成。TOG，36（4）：107：1-14，2017. 一、二[16] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在CVPR中，第4401-4410页，2019年。35991[17] Lei Ke，Yu-Wing Tai和Chi-Keung Tang。遮挡感知视频对象修复。ICCV，2021。2[18] Dahun Kim，Sanghyun Woo，Joon-Young Lee，and InSo Kweon.深度视频修复。在CVPR中，第5792一、二、六[19] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。见ICLR，2014年。6[20] Sungho Lee，Seean-Wug Oh，DaeYeun Won，and SeonJoo Kim. 用于深度视频修复的复制和粘贴网络在ICCV，第4413-4421页，2019年。一、二、六、七[21] Ang Li ， Shanshan Zhao ， Xingjun Ma ， MingmingGong，Jianzhong Qi，Rui Zhang，Dacheng Tao，andRamamoha-narao Kotagiri.用于视频修复的短期和长期上下文聚合网络。在ECCV中，第728-743页，2020年。一、二[22] Liang Liao，Jing Xiao，Zheng Wang，Chia-Wen Lin，and Shin'ichi Satoh.语义和纹理一致性原则指导的图像修复。在CVPR，第6539二零二一年六月。2[23] 纪林、闯乾、宋涵。TSM：用于高效视频理解的时间移位模块。在ICCV，2019年。2[24] Liu Guilin ， Fitsum A. 凯文 · 瑞达 Shih ， Ting-ChunWang，Andrew Tao，and Bryan Catanzaro.基于部分卷积的不规则孔洞图像修复。参见ECCV，第85-100页，2018年。2[25] 刘瑞，邓汉明，黄扬义，施晓宇，卢乐伟，孙文秀，王晓刚，戴继峰，李洪生.Fuseformer：在transformer中融合细粒度信息以进行视频修复。ICCV，2021。二六七[26] Ruixin Liu ， Zhenyu Weng ， Yuesheng Zhu ， andBairong Li.用于深度视频内绘的时间自适应对齐网络。在IJCAI，第927-933页，2020年。2[27] Y. Matsushita、E.葛伟娜邓晓鸥沈向阳。全帧视频稳定与运动在绘画。PAMI，28（7）：1150-1163，2006. 1[28] Kamyar Nazeri ， Eric Ng ， Tony Joseph ， FaisalQureshi，and Mehran Ebrahimi. EdgeConnect：使用边缘预测的结构引导图像修复。在ICCVW，2019年10月。2[29] 吴先生，李成浩，李俊英，金善珠。洋葱皮网络用于深度视频完成。在ICCV，第4403-4412页，2019年。一、二、六、七[30] 欧阳昊，王腾飞，陈奇峰。通过隐式长距离传播的内部视频修复。ICCV，2021。2[31] 迪帕克·帕塔克，P·希利普·克拉亨布尔，杰·弗·多纳休，特雷·弗·达雷尔和阿列克谢·埃夫罗斯。上下文编码器：通过修复进行特征学习。在CVPR，第2536-2544页，2016年。一、二[32] 彭佳伦，刘东，徐松岑，李厚强用层次化VQ-VAE生成多种图像修复结构在CVPR中，第10775-10784页，2021年。一、二[33] 帕特里克·佩雷斯、米歇尔·冈内特和安德烈·布拉克。泊松图像编辑。TOG，22（3）：313-318，2003年7月。二、四[34] Nasim Rahaman、Aristide Baratin、Devansh Arpit、FelixDraxler、Min Lin、Fred Hamprecht、Yoshua Bengio和Aaron Courville。关于神经网络的谱偏差。 ICML，第5301-5310页。PMLR，2019年。65992[35] Olaf Ronneberger，Philipp Fischer，and Thomas Brox.U-网：用于生物医学图像分割的卷积网络在MICCAI，第234-241页中。施普林格，2015年。3[36] T. Shiratori，Y.松下、唐晓鸥、康星兵。通过运动场传输完成视频。在CVPR，第1卷，第411-418页，2006中。1[37] 弗里德约夫·斯泰因使用普查变换的光流的高效计算在联合模式识

下载后可阅读完整内容，剩余1页未读，立即下载