细粒度信息融合的视频修复技术FuseFormer

78 浏览量更新于2023-10-13 收藏 3.22MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14040FuseFormer：融合Transformers中的细粒度信息进行视频修复Rui Liu† † Hamming Deng‡ † Yangyi Huang‡ †Xiaoyu Shi†LeweiLu‡ Wenxiu Sun‡ Xiaogang Wang† Jifeng Dai‡Hongsheng Li†#†香港中文大学-商汤科技联合实验室‡商汤科技研究©2019浙江大学浙ICP备05000000号-1{ruiliu@link，xiaoyushi@link，xgwang@ee，hsli@ee}. cuhk.edu.hk{邓汉明，黄仰义，罗托，戴继峰}@ sensetime.com摘要Transformer作为一种强大而灵活的远程关系建模架构，在视觉任务中得到了广泛的研究。然而，当用于需要细粒度表示的视频修复时，现有方法仍然遭受由于硬块分裂而产生细节上模糊的边缘。在这里，我们的目标是通过提出 FuseFormer 来解决这个问题，FuseFormer是一种Transformer模型，旨在通过基于新的软分割和软组合操作的细粒度特征融合来进行视频修复。软分割将特征图分割成具有给定重叠间隔的多个块。相反，软合成通过将不同的块拼接成整个特征图来操作这两个模块首先用于Transformer层之前的标记化和Transformer层之后的去标记化，用于标记和特征之间的有效映射。因此，子块级信息交互被启用以用于相邻块之间的更有效的特征传播，从而导致合成视频中的孔洞区域的生动内容。此外，在FuseFormer中，我们精心将软合成和软分割插入到前馈网络中，使1D线性层具有建模2D结构的能力。并且，进一步增强了子块级特征融合能力。在定量和定性评估中，我们提出的FuseFormer超越了最先进的方法。我们还进行了详细的分析，以检查其优越性-泰代码和预训练模型可在https：//github.com/ruiliu-ai/FuseFormer网站。*前三位作者对这项工作的贡献相当。图1.Transformer模型的不同补丁分割/组合策略的图示顶行示出了硬分割/合成，基于该硬分割/合成，经训练的模型生成粗略的修复结果。底行示出了软分割/合成，基于该软分割/合成，训练的模型由于相邻块之间的特征的双箭头指示相邻贴片之间的对应重叠区域。1. 介绍Transformer最近在各种视觉任务中获得了越来越多的关注，例如分类[8，42]，对象检测[28，47]和图像生成[18，16]。有趣的是，Transformer适合于视频修复，这是一种视觉任务，它依赖于跨帧的流动像素之间的信息传播，以在视频剪辑中用合理和连贯的内容填充时空漏洞时空Transformer网络（STTN）[43]是研究在视频修复中使用变换器的先驱工作然而，其多尺度的自注意力变体与完全卷积网络交织在一起，由于结构上的巨大差异，很另一方面，再-14041cent Vision Transformer （ ViT ） [8] 展示了 vanillaTransformer [34]在视觉识别任务中的强大能力。基于此，我们提出了一种基于vanilla Transformer的视频修复基线（ViB-T），它与ViT有两个不同之处：（1）从多个帧的补丁中嵌入令牌，而不是从单个帧中嵌入令牌; b）在Trans-former块之前和之后使用轻型卷积编码器和解码器，以减轻由高分辨率帧引起的计算负担。实验证明，这种简单的基线可以在类似的计算成本下达到与STTN [43]竞争的然而，类似于所有现有的基于分块的变换器模型[8，42]，ViB-T中使用的硬分割操作由于注意力分数是在不同的令牌之间计算的，因此不存在直接的子令牌级特征交互。对于我们人类来说，将图像分割成许多不重叠的块提出了一项具有挑战性的任务，即将它们合成回具有填充的掩蔽区域的原始图像。这对于深度学习系统来说也是一样的：缺少精确的子令牌级特征交互会导致相邻块之间的内容不一致。如图1所示，为了在画布上准确地重建黑色圆圈，与图像块相对应的每个令牌因此，为了在视频修复任务中充分释放变形金刚的力量，需要改进的补丁分裂方式和更好的子令牌级特征融合机制以保持像素级特征精度。为了实现这一目标，我们提出了一个软分割（SS）模块，以及其相应的软组合（SC）模块。建立在简单和直接的ViB-T基线模型，我们建议轻轻地分割成补丁与重叠区域的图像，并相应地，轻轻地compose- ite这些重叠的补丁回图像。具体来说，在软分割模块中，我们利用内核大小大于步幅的展开操作将输入图像软分割成重叠的2D补丁，并将其展平为1D令牌。S. 相反，在软合成模块中，令牌被整形为保持其原始大小的2D块，然后根据软分割模块中使用的内核大小和步幅将在此过程中，位于重叠区域中的像素的特征从多个重叠的相邻区块的对应区域融合，从而提供子令牌级特征融合。我们设计了一个基准ViB-T模型，配备了软分割和软合成模块作为ViB-S，其中S代表软操作。我们发现ViB-S模型很容易超越最先进的视频修复模型STTN [43]，具有最小的额外计算成本。最后，我们提出了一种融合前馈网络（F3 N）来替换标准Trans-former模型中的两层MLP，其被称为FuseFormer，以进一步提高其用于学习细粒度特征的子令牌融合能力，而无需额外的在F3N中，在两个完全连接的层之间，我们将每个1D令牌重塑为具有原始空间形状的2D重叠区域的像素的重叠特征将来自所有相邻块的对应值然后，片被柔和地分裂并展平成1D向量，其被馈送到第二MLP。以这种方式，对应于相同像素位置的子令牌段被匹配和注册，而无需额外的可学习参数，并且来自不同块的相同像素位置的信息被聚集。随后，我们由F3 N组成的FuseFormer模型甚至在定性和定量方面都超过了我们的强基线ViB-S。基于这些新颖的设计，我们提出的FuseFormer网络在视频恢复和对象去除方面实现了有效和高效的性能。我们证明了supere- riority的建议模型，以其他国家的最先进的视频修复方法，通过彻底的定性和定量比较。我们进一步进行烧蚀研究，以显示我们的模型中的每个组件如何有利于在绘画性能。总之，我们的贡献有三方面：1. 我们首先提出了一个简单而强大的视频修复Transformer基线，并提出了一个软分裂和组合方法，以提高其性能。2. 基于所提出的强基线和新颖的软操作，我们提出了 FuseFormer ，一个子令牌融合启用的Transformer模型，没有额外的参数。3. 大量的实验证明了FuseFormer在视频修复方面的优越性，无论是定性还是定量。2. 相关工作图像修复。在传统的图像修复中，通常通过采样和粘贴已知纹理来填充目标孔，并且在这种类型的图像修复方法上已经取得了重大进展[2，3，6，9，10]。PatchMatch [1]提出了基于近似最近邻算法通过搜索洞外的补丁来填充缺失区域，并最终作为商业产品。随着深度神经网络[21，13]和生成对抗网络[12]的兴起，一些工作研究了构建用于图像的端到端深度神经网络14042×∈修复任务与辅助鉴别器和对抗性损失[30，17]。在此之后，DeepFill提出通过将特征传播到区域之外来使用上下文注意力来填充目标孔[41]。然后，Liu等人和Yu等人分别应用部分卷积[25]和门控卷积[40]来使vanilla卷积核知道给定的掩码指导，以便完成自由形式的图像修复。视频修补。建立在基于补丁的图像在绘画，纽森等人。将PatchMatch算法[1]扩展到视频，以进一步建模时间依赖性并加速补丁匹配的过程[27]。Strobel等人[33]介绍了一种用于捕获对象运动的精确运动场估计。Huang等人对3个步骤（包括补丁搜索、颜色完成和运动场估计）进行交替优化，并获得成功的视频完成性能[15]。深度学习还提升了视频内嵌绘画的性能。Wang等人提出了一种突破性的深度神经网络，它无缝地结合了2D和3D卷积，以完成视频中缺失的内容[35]。Kim等人提出了一种递归神经网络，通过遍历所有视频序列来累积聚合时间特征[19]。Xu等人使用现有的流提取工具来获得鲁棒的光流，然后从参考帧扭曲区域以填充目标帧中的孔[39]。Lee等人提出了一种复制和粘贴网络，该网络学习复制参考帧中的相应内容并粘贴它们以填充目标帧中的漏洞[23]。 Chang等人开发了一个可学习的门控时间偏移模块，并将门控卷积[40]调整为3D版本，用于执行自由形式的视频修复[5，4]。Zhang等人采用内部学习来为不同的给定视频训练通用模型[44]。Hu等人提出了一种基于区域建议的策略，用于从许多参与者中挑选最佳修复结果[14]。最近，注意力机制被采用以通过捕获视频序列中的长程对应来进一步促进真实性和时间一致性。时间一致的外观被隐式地学习并传播到具有帧级注意力[29]和动态长期上下文聚合模块[24]的目标帧。变形金刚在视觉上 Transformer 于 2017 年首次提出[34]，并逐渐主导了自然语言处理模型[7，32，26]。Transformer块基本上由用于对输入向量的远程对应进行建模的多头注意模块和用于融合和细化特征表示的多层感知器组成。在计算机视觉中，它已经适应了各种任务，如图像分类[8，42]，对象检测和分割[28，47，45，11]，图像生成[18，16]，视频分割[37]，视频字幕[46]等。就我们所知，STTN [43]是唯一一项研究Transformer在视频修复中的使用的工作，并提出沿着时空维度学习深度生成的Transformer模型。该算法将帧粗略地分割成具有一定大小的非重叠块，然后将得到的时空块送入一个Transformer编码器块栈中进行充分的时空传播。然而，它遭受捕获局部纹理，如边缘和线条和建模的任意像素流动。在这项工作中，我们提出了一种新的基于变换器的视频修复框架，由2个精心设计的软操作支持，提高了视频恢复和对象去除的性能，并使推理速度更快。3. 方法在本节中，我们将介绍用于视频修复的FuseFormer模型。我们首先提出了一个简单的Trans-former基线，名为ViB-T（视频修复基线与香草Transformer），然后我们介绍了我们的新的设计一步一步首先介绍我们的软分割（SS）和软合成（SC）技术，这提高了性能的ViB-T。我们将具有SS和SC的ViB-T称为ViB-T。S.最后，在ViB-S的基础上，我们引入了FuseFormer，这是一个细粒度的视觉Transformer模块，它的常规前馈网络被融合前馈网络所取代，并将最终模型称为ViF（Video inpainting with FuseFormer）。3.1. 使用Transformer修复视频基线我们首先提出了一个简单的基线模型- EL ViB-T直接部署基于补丁的Transformer在视频修复，而无需复杂的修改。它由三部分组成：a）卷积编码器和相应的译码器; b）编码器和解码器之间的Transformer块的堆栈;以及c）一对补丁到令牌和令牌到补丁模块。补丁到令牌模块位于卷积编码器和第一Transformer块之间，并且令牌到补丁位于最后一个变换器块和卷积解码器之间。与STTN [43]不同图像块从特征图中被硬分割并线性嵌入到具有低得多的通道维数的特征向量中，这对于后续处理来说在计算上更加友好。如图2，给定损坏的视频帧fiRh×w×3，i[0，t），则其将如下工作：首先，它使用CNN编码器对视频帧进行编码，获得帧的c信道卷积特征图Xi∈Rh/4×w/4×c，i∈[0，t），且每个X被分裂为k×k∈14043∈× ×··∈ ∈·∈∈×S⌋图2.我们提出的保险丝成形器的插图左边是我们提出的使用Transformers的视频修复管道右边是我们提出的FuseFormer块和融合前馈网络（F3N）。元组指示沿着空间维度的补丁的计数步长为s的较小补丁。然后将所有块线性嵌入到令牌ZR（t·n）×d中，其中n是一个图像中的令牌的数量，d是令牌通道。其次，Z被馈送到标准Transformer块中用于空间-时间信息传播，导致被细化为k ensZ〜 ∈R（ t·n）Xd。第三，每个细化到kenz~iRd，i[0，nt）从Z~被线性变换为kkc通道向量，并被重新整形为贴片形状k k c。所有得到的块被配准回其原始帧pi x el，获得特征图X~ iRh/4×w/4×c，i[0，t）。此重新合成的要素地图与特征图输入到第一Transformer块。最后，解码重新合成的特征图X~利用一对去卷积层输出具有原始大小的修补的视频帧f~i∈Rh×w×3，i∈[0，t）对于基线模型ViB-T，我们将内核大小设置为等于补丁分割中的步幅。作为起点，这款简单的型号已经具有与STTN竞争的性能[43]但是具有更快的推理速度和更少的参数（参考附录C）。该方法的关键是子令牌级的细粒度特征融合，通过新提出的软分割（SS）和软合成（SC）过程实现。图3.软分割（SS）和软合成（SC）模块的说明。通过使用面片尺寸k大于面片步幅展开和折叠算子，将它们柔和地S.当将面片合成回其原始空间形状时，我们将相邻面片的每个重叠空间位置处的特征值相加。软分割（SS）。如图3中，它将每个特征图以步幅s k柔和地分割成大小为k k<的重叠块，并展平为一维令牌，这类似于T2 T-ViT [42]中的图像分割策略。令牌的数量则为因此，它使得能够在相邻的块之间进行精确的子令牌级融合在接下来的部分中，我们将首先介绍SS和SC模块，在此基础上介绍n=1 h+2·p−k+1 ×w+2·p−k+1，（1）S我们在第3.3节中提出的保险丝成形器。3.2. 软分裂（SS）和软复合（SC）不同于STTN [43]粗略地将帧分割成没有重叠区域的块，这里我们提出将每个帧轻轻地分割成重叠的块，然后将每个帧分割成重叠的块。其中p是填充大小。软复合材料（SC）。SC算子通过它们的原始空间位置将软分裂的η个块复合，并形成具有与原始特征图大小相同的h和w但由于存在重叠--14044∈···⌊··⌋··∈∈LL∈∈·−ping区域中，SC运算符对重叠在相同空间位置上的像素值进行求和，如图2所示。3.第三章。这种软分割和合成的设计为我们最终的FuseFormer奠定了基础，因为当在Transformer处理后将补丁软合成回其原始位置时，重叠位置聚合了来自不同令牌的一段信息，有助于平滑补丁边界并通过融合来自相邻补丁的信息来扩大其感受野。正如我们的实验所示，配备有这两个操作符的基线模型（称为ViB-S）已经超过了STTN [43]所达到的最先进的视频修复性能。3.3. 保险丝成形器MLP2分别为（4d，d）和（d，4d）相反，在F3 N中，我们将两个MLP的输入和输出通道分别改为（d，k2c′）和（k2c′，d），其中c′=104d/（10k2），目的是保证中间特征向量能够被整形为特征二维图.对于F3N中的每个软合成模块，不同的像素位置可以对应于各种数量的重叠块，这导致像素值的大变化同时，整形后的面片在通过MLP1后，其空间位置实际上是混淆的.所以我们引入了方程归一化。5.设1Rn×（k2·c′）为其中所有元素的值为1的向量FuseFormer模块与标准Transformer模块相同，只是前馈网络被我们的阿吉=SC（p，j，0，… pj，n−1），j[0，t）（8）SC（1）融合前馈网络（F3N）。给定在第l个堆栈处的输入补丁令牌Zl ，其中l[0，L]，L是FuseFormer块的堆栈数量，FuseFormer块可以被公式化为：Z′l=MSA（ LN1（Zl−1））+Zl，（2）Z1+ 1=F3N（LN2（Z’1））+Z’1，（3）其中MSA和LN分别表示Transformer- s [34]中的标准多头自关注和层归一化，我们与其他Transformer的关键区别在于3.4. 培养目标我们通过最小化以下损失来训练我们的网络L=λR·LR+λadv·Ladv，（9）其中R是所有像素的重建损失，adv是来自GAN [12]的对抗性损失，λR和λadv权衡不同损失函数的重要性。对于重建损失，L1损失用于测量合成视频Y~和原始视频Y之间的距离。其可被配制新提出的融合前馈网络（F3N）。作为LR=（Y~−Y）1（十）融合前馈网络（F3N）。F3N没有给标准前馈网络引入额外的参数，不同之处在于F3N在两层MLP之间插入了SC和SS操作。为使公式清晰，设F′=F3N（F）=F3N（LN2（Z′l）），其中F，F′Rtn×d和映射函数与方程（1）相同. 3.令fi，f’i是来自F，F’的令牌向量，其中i [0，t，n），因此F3N可以被公式化为pi=MLP1（fi），i∈[0，t·n）（4）Aj= SC（pj，0，… pj，n−1）， j∈ [0，t）（5）p′j，0，...，p′j，n−1= SS（Aj），j∈[0，t）（6）f′i=MLP2（p′i），i∈[0，t·n）（7）此外，在[43]之后，我们还采用判别器D来辅助训练FuseFormer生成器，以获得更好的合成真实性和时间一致性。该鉴别器将真实视频和合成视频两者作为输入，并且输出范围在[0，1]中的标量，其中0指示假，并且1指示真。它朝着所有合成视频都能与真实视频区分开的方向进行训练。FuseFormer生成器被训练到相反的方向，在那里它生成D再也不能告诉的D的损失函数被公式化为LD=EY[logD（Y）+EY~[log（1-D（Y~））]（11）FuseFormer发生器的损失函数为其中MLP1和MLP2表示每层的普通多层L=E[logD（Y~）]（12）ceptron。 SC表示用于组成那些1-D向量pj，0，...，pj，n1到2-D特征图Aj，并且SS表示用于将Aj分裂成1-D向量的软分裂advY~4. 实验14045p′j，0，...，p′j，n−1。注意，在映射p′i=SS（ SC（pi））期间存在特征融合处理。除了介绍软合成和软合成外，F3N和FFN之间还有另一个区别。在FFN中，MLP1和MLP 2的输入和输出信道是相同的。4.1. 实现细节数据集。根据以前的工作[43，23]，我们选择2个视频对象分割数据集进行训练和评估。YouTube-VOS[38]包含3，471，474和50814046模型斑块大小重叠PSNR↑SSIM↑STTN [43]（5，9）*没有30.670.9560ViB-T（三，三）没有30.680.9569ViB-T（5，5）没有30.560.9563ViB-T（7，7）没有30.500.9559ViB-S（7，7）是的30.740.9577ViB-S（7，7）是的30.990.9597图4.我们提出的ViB-S和ViF的定性结果。参考表示在同一视频中找到的掩蔽对象与STTN相比，通过软补丁分割/合成，我们的ViB-S可以更好地处理细节信息。当用FuseFormer替换ViB-S中的Transformer块时，ViF在恢复细节和严重遮挡的对象方面表现出色。分别在训练、验证和测试集中的视频剪辑。DAVIS[31]是Densely Annotated Video Segmentation的缩写，包含各种场景中的150个视频序列。在STTN [43]之后，包括60个视频剪辑的测试集从整个数据集中分离出来，以便与其他方法进行公平比较。我们不使用此数据集进行训练。网络和培训。我们在ViB-T、ViB-S和ViF模型中使用了8层Transformer（FuseFormer）层，其令牌维度为512。对于ViF，令牌扩展到1960而不是2048，以实现补丁整形兼容性。其他网络结构，包括CNN编码器，去编码器和鉴别器与STTN [43]相同，除了我们在编码器和第一个Transformer块之间插入几个卷积层注意，与STTN [43]不同，我们没有在DAVIS训练集上微调我们的模型，并且相同的检查点用于YouTube-VOS测试集和DAVIS测试集的评估。在我们所有的消融中，我们使用Adam optimizer [20]训练我们的模型进行25万次迭代。在每次迭代中，在每个GPU上采样来自一个视频的5个随机帧，并且利用8个GPU 初始学习率为0。01，并且在200k次迭代时减少10倍为了与最先进的模型进行公平的比较，我们为500k迭代训练了我们的最佳模型，并且学习率分别在400k和450k迭代评估指标。首先，我们将基于视频的Fre' chet感知距离（VFID）作为我们通过与自然视频序列进行比较来对感知视觉质量进行较低的值表示更好的真实感，并且在视觉上更接近自然视频。我们还使用基于光流的扭曲误差Ewarp来测量时间一致性[22]。较低的值指示较好的时间一致性。最后，我们使用两个流行的度量标准来测量ViB-S（5，5）是30.910.9588表1.评估我们提出的SS、SC模块和引信成型器。除STTN外的所有模型都使用3的修补程序步长。ViB-S和ViB-S分别表示仅使用SC或SS。ViF表示在等式8中使用F3N而不进行归一化，并且ViF表示使用F3N而进行归一化。*：STTN使用多尺度补丁大小，更多细节请参见[43]。与原始图像相比，重建图像的质量：结构相似度（SSIM）和峰值信噪比（PSNR）。逐帧计算分数并报告其平均值这两个度量的值越高表示重建质量越好。4.2. 消融软分裂和软合成的效果。在选项卡中。4.1我们在我们的基准模型ViB-T和ViB-S上显示了在软分割和软合成操作中使用的对于ViB-T，我们保持步幅与贴片大小相同。对于ViB-S和TiF，它们共享相同的步幅3，以确保每个帧的令牌数量相同首先，通过改变ViB-T的补丁大小，我们发现补丁大小为3的ViB-T（Trans-former的直接变体）已经实现了与最先进的STTN [43]相比具有竞争力的性能对于ViB-S和ViF，当补丁大小大于3时，合并SS和SC操作以处理补丁之间的重叠区域。所有-1个较大的补丁提高了性能的显着余量，显示重叠补丁的有效性。在这里，我们进一步改变SS和SC之间的补丁大小，限制重叠区域出现在SS或SC操作。除了SS之外，SC中的重叠组合物即使在没有SS的情况下也可以改善性能。F3N在FuseFormer中的有效性。如表4.1所示，通过在ViB-S 中用我们提出的 FuseFormer 块替换标准Transformer块，性能显著提升，显示了子令牌级特征融合的有效性。此外，利用等式8中提出的归一化技术，性能已经进一步改善。（7，7）是的31.020.9598ViF†（7，7）是的31.720.9654VIF（7，7）是的31.870.966214047图5.与其他方法的定性比较。精度YouTube视频戴维斯模型PSNR↑SSIM↑VFID↓E翘曲（×10−2）↓PSNR↑SSIM↑VFID↓E翘曲（×10−2）↓VINet [19]29.200.94340.0720.1490 /-28.960.94110.1990.1785 /-DFVI [39]29.160.94290.0660.1509 /-28.810.94040.1870.1880 /0.1608*LGTSM [5]29.740.95040.0700.1859 /-28.570.94090.1700.2566 /0.1640*[23]31.580.96070.0710.1470 /-30.280.95210.1820.1824 /0.1533STTN [43]32.340.96550.0530.1451 /0.0884*30.670.95600.1490.1779 /0.1449*ViB-S32.470.96350.056- /0.0889*31.500.96360.144- /0.1346*VIF33.160.96730.051- /0.0875*32.540.97000.138- /0.1336*表2.YouTube-VOS和DAVIS数据集上视频完成的定量结果注：我们的评估结果遵循STTN [43]中的描述，数值差异可能是由于评估过程中的不同光流模型造成的。改善了。与视频修复中的标准 Transformer 相比，FuseFormer具有略少的参数和可忽略的时间成本，但启用了子令牌级细粒度特征融合。图4进一步示出了VIB-S和ViF的定性结果，证明它们更好的性能来自于更详细的修复结果，示出了VIB-S和ViF的效果。子令牌级特征融合的有效性。4.3. 与其他方法定性比较。在图5中，我们显示了我们的模型与最先进的方法（包括CAP [23]，LGTSM [5]和STTN [43]）相比的定性结果，并且我们提出的FuseFormer合成了最真实和最有效的融合。14048图6.从我们训练的ViF的不同层解码的图像。它表明，图像被细化，在一个粗略的精细的方式。图7.在对象去除中跨多个帧的补丁之间的注意的可视化时间相干视频。定量比较。在表2中，我们显示了与最先进的模型在视频完成方面的性能比较，在两个YouTubeVOS上进行了评估我们的ViF模型- EL优于所有国家的最先进的视频修复方法在视频恢复提高PSNR和S- SIM的3。3%和0。7%，并且它通过将VFID和扭曲误差减少7而产生具有最佳真实感和时间相干性的视频。4%和7. 百分之八用户研究。我们选择CAP [23]和STTN [43]，这两个最先进的视频修复模型作为我们的用户研究基线。从DAVIS [31]中随机抽取30个视频，用于对象移除和视频完成评估。图8.用户研究结果。30个视频的38个观看者在视频完成和物体移除任务中排名第一的百分比状态。38名志愿者参与了这项用户研究。在每个时间点呈现由3个模型处理的视频，以供vol-unteers对修复质量进行排名。在我们的专用软件上，志愿者可以停止/重放任何视频，直到他们做出最终判断。来自每个视频上的每个用户的第一排名模型的百分比如图8所示，其中对于对象移除和视频完成，我们具有最佳性能。可视化修复过程。图6展示了在ViF的不同层解码的图像，示出了我们的模型如何对视频帧进行图像修复的过程。我们可以看到它从粗糙的上下文信息开始，并逐渐在更深的层中细化特征。在图7中，我们进一步示出了对象移除任务中不同多帧补丁之间的详细注意过程我们可以看到我们提出的模型如何准确地找到参考补丁，并探索时空信息，以修补背景以及支柱。5. 结论在这项工作中，我们提出了 FuseFormer ，一个Transformer模型设计的视频修复通过细粒度的特征融合。它旨在解决基于补丁的Transformer模型缺乏细粒度信息的缺点。软分割将特征图分割成具有给定重叠间隔的多个块，而软合成将它们缝合回一个完整的特征图，其中重叠区域中的像素被求和。FuseFormer实验室将软合成和软分割构建到其前馈网络中，以进一步增强子补丁级特征融合。加上我们强大的Transformer基线，我们的FuseFormer模型在视频恢复和对象去除方面实现了最先进的谢谢。这项工作部分由香港研究资助局的“香港研究资助计划”拨款（第14204021，14208417，14207319，14202217，14203118，14208619），部分由Re-搜寻影响基金拨款编号R5001-18，部分由中大策略基金提供。14049引用[1] Connelly Barnes ， Eli Shechtman ， Adam Finkelstein ，and Dan B Goldman. PatchMatch：一种用于结构图像编辑的随机对应算法。 ACMTransactions on Graphics（Proc. SIGGRAPH），2009年。[2] Marcelo Bertalmio、Guillermo Sapiro、Vincent Caselles和Coloma Ballester。图像修复。 InProceedings of第27届计算机图形和交互技术年会，第417424页，2000年。[3] M.贝尔塔米奥湖Vese，G. Sapiro和S.奥舍同时进行结构和纹理图像修复。IEEE图像处理学报，第882889页，2003年。[4] 张亚良，刘哲宇，李冠英，徐文松。使用3d门控卷积和时间patchgan的自由形式视频修复。在2019年国际计算机视觉会议（ICCV）[5] 张亚良，刘哲宇，李冠英，徐文松。用于深度视频修复的可学习门控时间移位模块。在BMVC，2019。[6] Soheil Darabi，Eli Shechtman，Connelly Barnes，Dan BGoldman，and Pradeep Sen.图像融合：使用基于块的合成来组合不一致的图像。ACM Transactions on Graphics（ TOG ）（ Proceedings ofSIGGRAPH 2012 ）， 2012年。[7] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：深度双向转换器的语言理解预培训，2018年。[8] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片值16x16个单词：用于大规模图像识别的变压器。2021年，在国际学术会议上发表[9] Alexei Efros和Thomas Leung。非参数采样纹理合成。InInternational Conference onComputer Vision，第1033-1038页[10] Alexei A. Efros和William T.弗里曼。形象被子-用于纹理合成和转移。在SIGGRAPH的Proceedings中，第341346页。[11] Peng Gao ，Minghang Zheng，Xiaogang Wang，JifengDai，and Hongsheng Li.具有空间调制共同注意的DETR的快速收敛CoRR，abs/2101.07448，2021。[12] Ian J. Goodfellow、Jean Pouget-Abadie、Mehdi Mirza、Bing Xu 、 David Warde-Farley 、 Sherjil Ozair 、 AaronCourville和Yoshua Bengio。2014年[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习arXiv预印本arXiv：1512.03385，2015。[14] 胡元婷、王恒、尼古拉斯·巴拉斯、克里斯汀·格劳曼和亚历山大·G。施温基于建议的视频完成。在欧洲计算机视觉会议（ECCV）的会议记录中，2020年。[15] Jia-Bin Huang，Sing Bing Kang，Narendra Ahuja，andJo- hannes Kopf.动态视频的时间相干完成。ACM事务处理图表，2016年。[16] Drew A Hudson和C.劳伦斯·齐尼克。生成式对抗转换器。arXiv预印本：2103.01209，2021。[17] Satoshi Iizuka，Edgar Simo-Serra，and Hiroshi Ishikawa.全局和局部一致的图像完成。 ACMTransactions onGraphics（Proc. SIGGRAPH），36，2017。[18] Yifan Jiang ， Shiyu Chang ， and Zhangyang Wang.Transgan：两个变压器可以使一个强大的根。arXiv预印本arXiv：2102.07074，2021。[19] Dahun Kim，Sanghyun Woo，Joon-Young Lee，and InSo K-weon.深度视频修复。在IEEE计算机视觉和模式识别会议论文集，2019年。[20] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。第三届国际学习表征会议，ICLR，2015年。[21] Alex Krizhevsky、Ilya Sutskever和Geoffrey E.辛顿使用深度卷积神经网络的图像网分类。在神经信息处理系统的进展25。2012年。[22] Wei-Sheng Lai ， Jia-Bin Huang ， Oliver Wang ， EliShechtman，Ersin Yumer，and Ming-Hsuan Yang.学习盲视频时间一致性。2018年欧洲计算机视觉[23] Sungho Lee，Seean-Wug Oh，DaeYeun Won，and SeonJoo Kim.用于深度视频修复的复制和粘贴网络。在IEEE国际计算机视觉会议论文集，2019。[24] Ang Li ， Shanshan Zhao ， Xingjun Ma ， MingmingGong，Jianzhong Qi，Rui Zhang，Dacheng Tao，andRamamoha-narao Kotagiri.用于视频修复的短期和长期上下文聚合网络。在ECCV，2020年。[25] Liu Guilin ， Fitsum A. 凯文 · 瑞达 Shih ， Ting-ChunWang，Andrew Tao，and Bryan Catanzaro.基于部分卷积的不规则孔洞图像修复。在欧洲计算机视觉会议（ECCV），2018。[26] Yinhan Liu ， Myle Ott ， Naman Goyal ， Jingfei Du ，Mandar Joshi，Danqi Chen，Omer Levy，Mike Lewis，Luke Zettle-moyer，and Veselin Stoyanov.Roberta：一种稳健优化的bert预训练方法，2019年。[27] AlasdairN e wson ，Andr e'sAlmansa ，MatthieuFradet ，Yann Gousseau和PatrickP e'rez。复杂场景的视频修复。SIAM Journal on Imaging Sciences，第1993- 2019页[28] Gabriel Synnaeve Nicolas Usunier Alexander KirillovSergey Zagoruyko Nicolas Carion，Francisco Massa.使用变压器的端到端对象检测。2020年欧洲计算机视觉会议[29] 吴先生，李成浩，李俊英，金善珠。洋葱皮网络用于深度视频完成。在IEEE国际计算机视觉会议论文集，2019。[30] DeepakPathak、 PhilippKr aühenbuühl 、 Jef fDonahue 、TrevorDarrell和Alexei Efros。上下文编码器：通过图像修复进行特征学习。在计算机视觉和模式识别（CVPR），2016年。[31] F.作者：J. Pont-Tuset，B.麦克威廉斯湖Van Gool，M.恶心，A。索金-霍恩基准数据集和14050视频对象分割的评价方法。在计算机视觉和模式识别，2016年。[32] 亚历克·雷德福和伊利亚·苏茨科弗通过生成性预训练提高语言理解能力。2018年。[33] M. Strobel，Julia Diebold，and D.克莱姆斯用于视频完成的流和颜色修复。载于2014年全球政策审查[34] Ashish Vaswani， Noam Shazeer

下载后可阅读完整内容，剩余1页未读，立即下载