基于transformer的视频插值框架及其应用

39 浏览量更新于2023-10-25 收藏 1.13MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

17482×37VFIT-BVFIT-SFlavr36SoftSplatAdaCoFQVI35BMBC该隐34SepConvDain33Super SloMo视频帧插值Transformer施志豪1徐翔宇2刘晓红3陈军1杨铭轩4，5，61麦克马斯特大学2南洋理工大学3上海交通大学4加州大学默塞德分校5延世大学6谷歌研究摘要现有的视频插值方法严重依赖于深度卷积神经网络，因此受到其固有局限性的影响，例如内容不可知的内核权重和受限的感受野。为了解决这些问题，我们提出了一个基于transformer的视频插值框架，该框架允许内容感知聚合权重，并考虑了自注意操作的长程依赖关系。为了避免全局自注意的高计算成本，我们将局部注意的概念引入到视频插值中，并将其扩展到时空域。此外，我们建议一个空间-时间分离策略，以节省内存使用，这也提高了性能。此外，我们开发了一种多尺度的帧合成方案，以充分发挥变压器的潜力大量的实验表明，所提出的模型表现出良好的国家的最先进的方法在定量和定性的各种基准数据集。代码和模型在https://github.com/zhshi0816/Video-Frame-Interpolation-Transformer上发布。1. 介绍视频帧内插旨在通过在现有帧之间合成新帧来对输入视频进行它是计算机视觉中的一个基本问题，涉及对运动、结构和自然图像分布的理解，这促进了许多下游应用，例如图像恢复[5，52]、虚拟现实[1]和医学成像[22]。大多数最先进的视频帧插值方法都是基于深度卷积神经网络（CNN）[3，20，25，29，30，32，37，53]。在实现最先进性能的同时，这些基于CNN的架构通常存在两个主要缺点。第一、*这些作者的贡献相等。†通讯作者。10 15 20 25 30 35 40参数数量（M）图1.使用Vimeo-90 K数据集比较性能和模型大小[54]。VFIT比最先进的方法具有更少的参数。VFIT-S和VFIT-B表示建议的小型和基础模型。卷积层是内容不可知的，其中使用相同的内核与不同输入的不同位置进行卷积。虽然这种设计可以用作图像识别模型获取平移等效性的期望的感应偏置[24]，但它并不总是适合于视频插值，视频插值涉及空间变化和内容相关的复杂运动补偿过程。因此，采用CNN主干可能限制自适应运动建模的能力，并且潜在地限制视频内插模型的进一步发展。第二，捕获长程相关性是视频插值的核心重要性，其中大的运动场构成最突出的挑战。然而，大多数CNN [25，53]通常采用小卷积核（通常为VGG [39]建议的3 3），这在利用长距离信息方面效率低下，因此在合成高质量视频帧方面效率较低。虽然在卷积层中使用更大的内核似乎是一个简单的解决方案，但它会显着增加模型参数的数量和计算成本，从而导致在没有适当正则化的情况下训练中的局部最小值很差。峰值信噪比（dB）17483此外，简单地堆叠多个小内核层以获得更大的感受野也不能完全解决这个问题，因为远距离依赖性不能以多跳方式有效地学习[45]。另一方面，Transformers [43]最初设计用于自然语言处理（NLP），以有效地对输入和输出之间的长程依赖关系进行建模，自然克服了基于CNN的算法的上述缺点，并且特别适合于视频插值任务。受NLP成功的启发，最近有几种方法使Transformers适应计算机视觉，并在各种任务上展示了有希望的结果，例如图像分类[13，41]，语义分割[44]，对象检测[8]和3D重建[51]。然而，如何有效地将变换器应用于涉及额外时间维的视频插值仍然是一个开放且具有挑战性的问题。在这项工作中，我们提出了视频帧插值Transformer（VFIT）有效的视频插值。与典型的Transformer [8，9，13]（其中基本模块主要借用原始NLP模型[43]）相同，在所提出的VFIT中有三种独特的设计，以生成照片般逼真和时间上连贯的帧。首先，原始的Transformer [43]基于与输入元素交互的自我注意层（例如，像素）。由于这种全局操作具有关于元素数量的二次复杂度，因此直接将其应用于我们的任务会导致极高的存储器和计算成本，这是由于视频的高维性质。几种方法[7，9]通过将特征图划分为补丁并将每个补丁视为自注意力中的新元素来然而，这种策略不能对每个补丁内的像素之间的细粒度依赖关系进行建模，这对于合成逼真的细节很重要此外，它可能会在补丁边界周围引入边缘伪影。相比之下，我们将Swin [27]的局部注意力机制引入到VFIT中，以解决复杂性问题，同时保留使用其移位窗口方案建模长期依赖性的能力。我们证明，通过适当的开发和调整，最初用于图像识别的局部注意力机制可以有效地提高视频插值性能，参数数量较少，如图1所示。其次，原始的局部注意力机制[27]仅适用于图像输入，并且不能容易地用于涉及额外时间维度的视频插值任务为了解决这个问题，我们将局部注意力的概念推广到时空域，这导致了与视频兼容但是，这种简单的扩展在使用大窗口时可能会导致内存问题为了使我们的模型更有效地利用内存，我们-通过对时空自注意的分解，提出了一种时空可分离的STS模型Sep-STS。有趣的是，Sep-STS不仅有效地减少了存储器的使用，而且大大提高了视频插值性能。为了充分利用Sep-STS的潜力，我们提出了一个新的多尺度内核预测框架，可以更好地处理不同视频中的多尺度运动和结构，并以粗到细的方式生成高质量的视频插值结果。所提出的VFIT是简洁，灵活，重量轻，高性能，快速，和内存效率。如图1所示，一个小模型（VFIT-S）已经优于最先进的FLAVR方法[21]0.18 dB ，其参数仅为 17.7% ，而我们的基础模型（VFIT-B）实现了0.66 dB的改善，其参数为68.4%。2. 相关工作视频帧插值。现有的视频帧内插方法可以大致分为三类：基于流的[3，20，32，38，53]，基于核的[25，29- 29]，基于核的31]和基于直接回归的方法[22]。基于流的方法[3，20，32，53]通过根据预测的光流扭曲源图像中的像素来生成虽然这些方法表现良好，但它们通常基于简化的运动假设，如线性[20]和二次[53]，限制了它们在许多违反假设的现实世界场景中的性能。与基于流的方法不同，基于内核的方法[25，29-例如，SepConv [30]预测自适应可分离内核以聚合输入的源像素，AdaCoF [25]学习用于与输入帧卷积以产生目标帧的可变形空间变化内核。然而，这些方法通常在一个尺度上应用内核预测模块，从而不能有效地此外，这些基于CNN的方法不考虑像素之间的长程依赖性相比之下，我们提出了一个基于多尺度变换器的内核预测模块，它实现了更高质量的视频插值结果，如第4节所示。最近，Kemiet al. [21]提出了一种CNN模型来直接回归目标帧，实现了最先进的结果。如图1所示，所提出的VFIT优于此方法，具有更少的参数，清晰的边缘，这清楚地表明了变换器在视频插值中的优势视觉Transformer。变形金刚最近被应用于各种视觉任务，例如视觉分类[4，17484↓↑--22SynBlockSynBlockSynBlock输入帧特征流掩码预测嵌入卷积卷积Sep-STS反卷积逐元素逐元素层步长=1步长=2块步长=2相加相乘图2.拟议自愿信托基金概览我们首先使用嵌入层将输入帧转换为浅层特征，然后使用基于Transformer的编码器-解码器网络来提取深层特征。这些特征与输入帧一起被馈送到由三个SynBlocks组成的多尺度帧合成网络，以获得最终输出。注意，SynBlock可以被视为源自STPAN [50]的AdaCoF [25]的多帧扩展请在第3节中找到更详细的解释。13，27，42，48]，对象检测[8]，语义段，[44]，3D重建[51]和图像恢复[9]。然而，它还没有被用于视频帧内插。在这项工作中，我们提出了VFIT，实现了最先进的性能与重量轻的模型。为了克服全局自注意引起的高计算成本，我们引入了Swin [27]的局部注意机制，以避免复杂性问题，同时保留长距离依赖建模的能力。我们注意到，一个并发工作[26]也使用了低级别视觉任务的局部然而，它只考虑图像输入，不能处理视频，这是更具挑战性的处理，由于额外的时间维。相反，我们将局部注意力的概念扩展到时空域，以实现基于变换器的视频插值，并提出了一种时空分离策略，该策略不仅节省了内存使用，而且还作为一种有效的正则化，以提高性能。3. 该方法图2显示了所提出模型的概述类似于现有方法[21，29，30，53]，以合成中间帧10。5，我们使用其T个相邻帧I{−（[T <$−1），···，0，1，···，）T<$}作为输入。具体来说，当T为4时，输入帧为I-1、I0、I1、I2。拟议的自愿信托基金由三个模块组成：浅特征嵌入、深特征学习和最终帧合成。首先，嵌入层获取输入帧并为深度特征学习模块生成浅层特征与[27]类似，浅嵌入是用卷积层实现的，其中我们采用3D卷积而不是[27]中的2D对应物，以更好地编码输入序列的时空特征。接下来，我们将浅层特征馈送到深层模块进行提取分层特征表示F1，1 = 0，1，2，以捕获多尺度运动信息（第3.1节）。最后，中间帧I=0。5可以由帧合成块（图2中的SynBlocks）使用深特征F1（第3.2节）。3.1. 学习深度特征如图2所示，我们使用基于Transformer的编码器-解码器架构来学习特征。编码器由四个阶段组成，其中每个阶段以3D卷积层开始，使用步长2对输入特征进行下采样，并且下采样层之后是几个Sep-STS块，它们是我们框架的主要组件。对于解码器，我们使用仅具有步长为2的三个3D反卷积层的轻量结构来对低分辨率特征图进行上采样请注意，我们只调整了整个网络中特征的空间尺寸，而时间尺寸保持不变。接下来，我们提供关于所提出的Sep-STS块的更多解释。地方注意。现有的Transformer [8，13，43]主要采用全局注意力机制来聚合来自输入的信息，这可能导致视频帧插值的内存和计算成本非常高。这个问题的一个简单的解决方案是直接将特征图划分为补丁，并将每个补丁视为全局注意力中的一个新元素[7，9]。这种策略相当于使用像素混洗[36]（下采样因子等于补丁大小）对输入进行积极下采样，并且无法很好地重建需要像素之间细粒度依赖性建模的高质量在这项工作中，我们介绍了Swin Transformer的局部注意机制 [27]，它可以有效地SynBlock17485LN空间MSA时间MSAMLPLNM2× ×××M2××XX的像素分区窗口H坐标系不W(a)（b）（c）图3.不同局部分区策略的图示（a）STS的时空立方体的规则和移位分区（b）Sep-STS的空间窗口的规则和移位分区。(c)Sep-STS的时间向量分割一个大小为C×T×H×W的映射，我们首先划分输入输出图4. Sep-STS块的图示。空间MSA和时间MSA分别表示空间和时间局部窗口中的多头自我注意（第3.1节）。解决上述问题。首先，由于Swin的自注意力是在局部窗口内计算的，因此它自然避免了全局注意力的沉重计算负担。其次，Swin采用移位窗口分区策略来连接不同的局部区域，并且交替地使用常规和移位窗口分区实现长范围依赖性建模。然而，该方法被设计用于图像应用并且不能容易地应用于视频。时空局部注意。为了使Swin Transformer与视频输入兼容，我们将局部注意机制推广到时空空间，并提出了STS注意。如图3（a）所示，STS在概念上类似于Swin，但涉及额外的时间维度。给定大小为C的输入要素不H其中C、T、H、W分别表示通道、时间、高度和宽度维度，我们首先将其划分为HW个非重叠的3D子立方体，每个立方体的形状为T M M（图3（a）-左），然后对每个子立方体执行标准的多头自注意（MSA）。请注意，这个立方体的每个元素都是一个C维特征向量，为了简单起见，我们在描述分区策略时省略了通道维。一旦处理完所有的子立方体，我们就把它们合并回来，以恢复输入的原始形状。为了桥接相邻立方体之间的连接，我们采用了移位立方体划分策略，将立方体向左上方移位（[M]，[M]）将其分割成大小为M M的T个HW非重叠2D子窗口，如图3（b）-左所示，然后对每个子窗口执行标准MSA。为了连接不同的窗口，因为我们在这里限制我们在2D中的计算，我们简单地使用Swin的移位窗口分区策略用于每个帧，如图3（b）所示-右。第二，对于时间维度中的计算，我们将输入特征图重塑为长度为T的HW时间向量，如图3（c）所示，并在每个向量内执行MSA，使得可以对跨帧的依赖性进行建模。这一步骤补充了空间域中的自我注意力，因此需要将这两个操作一起使用来处理视频。Sep-STS阻滞。基于Sep-STS注意力，我们设计了我们的主要组件Sep-STS块，它由分离的空间和时间注意力模块以及MLP组成（图4）。MLP采用两层结构，并使用GELU函数[17]进行激活。类似于[27]，我们在这个块中应用层规范化（LN）[2]和残余连接[16]来稳定训练。类似于Swin，对于连续Sep-STS块交替地采用常规和移位分区来对长范围空间-时间依赖性进行建模。内存使用。Sep-STS注意力将一个计算开销大的操作分解为两个空间和时间上较轻的操作，有效地减少了内存占用，从STS的O（（TMM）·THW）减少到我们的Sep-STS的O（（T+MM）·THW）在训练过程中，与STS基线相比，我们观察到使用我们的Sep- STS减少了26.2%的GPU内存。由于窗口尺寸MM通常比输入帧的数量T大得多，因此该缩减比本质上是像素（图3（a-右）。2 2tially依赖于T，我们默认设置为4，最先进算法的设置[11，21，53]。以来空间和时间的分离。尽管上述STS可以处理视频输入，但是当处理大的立方体尺寸时，大T或M。为了缓解这个问题，我们提出了Sep-STS通过将时空计算分离成空间和时间。首先，对于空间中的计算，给定输入特征所提出的框架是灵活的，并且可以用于任意数量的帧，Sep-STS可以潜在地对于较大的T给出更显著的存储器减少。此外，时空分离策略还可以减少计算量，这与内存使用量相当。然而，由于Sep-STS是用两个单独的17486不∈不∈K不syn--0的情况。50的情况。5最精细刻度I0是我们的最后一层0的情况。5在我们的实验中，PyTorch [33]层的运行时间实际上与STS类似。潜在地，优化其实现与定制CUDA内核可以进一步提高效率。讨论。在这项工作中，我们探讨了局部注意的概念，基于变压器的视频插值。在最近的其他方法中采用了类似的概念，例如局部关系网络[19]，独立网络[19]，其中I0等同于没有下采样的原始帧。SynBlock。给定输入特征图FlRC×T×H×W，SynBlock通过估计一组广义可变形核[50]来聚合来自源帧的信息，从而在第l尺度上生成其预测。如图2所示，我们首先在时间维度上解绑Fl，以获得所有输入的T个单独的特征图[35]和Swin [27]。然而，这些算法放置框架，表示为FlTT，对于每个是为图像而设计的，对前{−（[2 <$−1），···，）2<$}框架t，Fl∈RC×H×W。然后我们把Fl输入三个小的利用本地注意力机制的视频，由于差异-t t t由额外的时间维度造成的缺陷在ad-2D CNN获得每像素可变形内核，帧11，包括核权重W1∈RK×H×W，另外，现有的方法主要集中在图像识别上。t t通常被视为高级视觉任务的任务，水平偏移α t E ∈R和垂直偏移而在本工作中，我们更侧重于运动建模和外观重建。在这项工作中，我们专注于有效的视频帧内插的局部注意力模块的时间扩展我们探索了时空可分离的局部注意力，这在精神上类似于MobileNet [18]，它通过以下方式改进了标准卷积：βlRK×H×W，其中K是采样对数，每个内核的阳离子。利用预测的内核，我们获得帧t的位置（x，y）处的SynBlock的输出，如下：Ol（x，y）=φWl（k，x，y）Il（x+αl（k，x，y），y+βl（k，x，y）），不将其分解为dependently卷积和逐点卷积此外，我们提出了一个多尺度内核-t t t t t tk=1预测框架，以充分利用通过局部注意力学习的特征，如下所述。3.2. 帧合成其以类似于[50]的自适应权重W聚合（x，y）最后，我们通过混合Ol生成尺度l所有已学习蒙版的帧。具体地说，我们将-将特征图FIT T命名在通道di-t处与建议的编码器-解码器网络的功能，我们的VFIT合成的输出图像通过预测- ING空间变化的内核自适应融合的源帧。不同于现有的基于内核的视频插值方法[25，29，30，37]，我们提出了一种多尺度{−（[2 <$−1），···，）2<$}mension并将连接的要素发送到小型2DCNN产生T个混合掩码B ITT。注意，我们使用softmax函数作为{−（[2 <$−1），···，）2<$}CNN沿着时间维度对掩码进行归一化使用分层特征的SynBlockfl的最终输出是由以下各项产生的：F 1，l = 0，1，2，如图2所示。VFIT的帧合成网络由以下部分组成Ol= 我的天啊（三）t t三个SynBlocks在不同的尺度上进行预测，每个SynBlock是一个核预测网络。VFIT融合这些多尺度预测以通过以下方式生成最终结果：请注意，该SynBlock可以被视为[25，37]的多帧扩展，其源自STPAN的广义可变形内核[49]。布里尔0的情况。5=fup（I=1+1）+O= 1，（1）Ol=fl（Fl，IlTT），（2）4. 实验syn{−（[2<$−1），···，）2<$}4.1. 实现细节其中，l=0、1、2表示从精细到粗略的不同尺度，并且fup表示双线性上采样函数。在一个更精细的尺度上，可以通过合并来自粗尺度的上采样输出来获得（fup（I_l+1））和当前SynBlock（O_l）的预测。ˆ网络如图2所示，该VFIT编码器由四个阶段，有2，2，6，和2 Sep-STS块，重新排序。编码器和解码器之间的跳跃连接是通过级联来实现的。对于所有三个Syn块，我们将可变形内核大小设置为K=5×5。我们VFIT，即，ˆ ˆ00的情况。52003年。在这里，提出了两种变体的VFIT：基本模型VFIT-B和LsynI0. 5=10。5，初始值为I0。5=0是第l个SynBlock，它采用时空较小的一个VFIT-S，其中VFIT-S的模型大小约为VFIT-B的这两种型号使用相同的架构，特征F1和帧序列I1TT作为我F17487不唯一的区别是每一个的通道尺寸{−（ [2 <$−1），···，）2<$}I1表示由因子I t下采样的帧It，阶段，我们将VFIT-S的通道缩小一半17488×||−||方法BMBC QVI FLAVR VFIT-S VFIT-B运行时间0.57 0.08 0.15 0.08 0.14表1. Vimeo-90 K、UCF 101和DAVIS数据集的定量比较。粗体数字表示最佳性能，下划线数字表示次佳性能。方法#参数（M）Vimeo-90 K UCF 101 DAVIS训练为了训练我们的网络，我们使用一个简单的l1损失：I0. 5我是1000。5、我的0 5是真理。我们使用AdaMax优化器[23]，β1= 0。9，β2= 0。999 训练批次大小设置为4。我们训练了100个epoch的模型，其中学习率最初设置为2e−4，然后逐渐衰减到1e−6。数据集。与[21]类似，我们采用Vimeo-90 K sep-tuplet训练集[54]来学习我们的模型，该模型由64612个分辨率为448×256的七帧序列组成。每个序列的第一帧、第三帧、第五帧和第七帧对应于图2中的I-1、I0、I1、I2，并用于预测对应于I 0的第四帧。五、对于数据增强，我们随机裁剪256 256帧图像补丁，并执行水平和垂直翻转，以及时间顺序反转。我们在广泛使用的基准数据集上评估模型，包括Vimeo-90 K七联体测试集[54]，UCF 101数据集[40]和DAVIS数据集[34]。在[21，53]之后，我们报告了UCF101生成的100个五元组和DAVIS生成的2847个五元组的性能。4.2. 对照最新技术我们针对最先进的视频插值方法评估所提出的算法： SepConv [30] ， DAIN [3] ， SuperSloMo [20] ，CAIN [12]，BMBC [32]，[25 ][26][27][ 28][29]Among these methods, SuperSloMo, DAIN, CAIN, QVI,AdaCoF, and FLAVR are trained on the same training dataas our models.对于SepConv和BMBC，由于训练代码不可用，我们直接使用预训练的模型进行评估。SoftSplat [28]的结果由作者提供。我们在表1中显示了定量评估，其中PSNR和SSIM[46]用于图像质量评估，类似于以前的工作。由于Sep-STS块的学习能力，所提出的VFIT实现了表2. 计算方法的运行时间，以秒/帧为单位。这些模型在配备Intel Core i7- 8700 K CPU和NVIDIA GTX 2080 Ti GPU的台式机上进行了测试。结果在Vimeo-90 K数据集上平均。更好的性能比评估基于CNN的方法，展示了使用变压器的视频插值的优越性。具体而言，仅使用750万参数，VFIT-S就能够在所有评估数据集上超越FLAVR，这是迄今为止最好的视频插值方法此外，VFIT-B实现了比FLAVR更显著的改善（Vimeo-90 K上为0.66 dB，DAVIS上为0.65 dB）。由于UCF 101的视频质量相对较低，图像分辨率较低，动作较慢，如[53]所述，因此我们的性能增益不太显著。请注意，VFIT的大幅改进仅来自架构设计，而不依赖于任何外部信息，这与使用预先训练的光流和/或深度模型的几个现有工作[3，28，53]截然不同，因此隐含地受益于附加的运动和/或深度标签。此外，我们在图5中提供了定性比较，其中所提出的VFIT比基线方法产生了视觉上更令人愉悦的结果，具有更清晰的结构和更少的失真。此外，为了评估内插结果的准确性，我们在图6中示出了内插帧和对应的地面实况的重叠。VFIT的重叠图像比基线清晰得多，即：更接近地面实况，表明VFIT在运动建模中具有更好的能力。我们还在表2中给出了我们的方法的运行时间。VFIT的运行时性能与性能最佳的基于CNN的算法相当，这有助于其在视觉应用中的部署。峰值信噪比（↑）SSIM（↑）峰值信噪比（↑）SSIM（↑）峰值信噪比（↑）SSIM（↑）[20]第二十话39.632.900.95732.330.96025.650.857DAN [3]24.033.350.94531.640.95726.120.870SepConv [30]21.633.600.94431.970.94326.210.857BMBC [32]11.034.760.96532.610.95526.420.868凯恩[12]42.834.830.97032.520.96827.210.873AdaCoF [25]21.835.400.97132.710.96926.490.866QVI [53]29.235.150.97132.890.97027.170.874[28]第二十八话7.735.760.97232.890.97027.420.878[21]第二十一话42.436.300.97533.330.97127.440.874VFIT-S7.536.480.97633.360.97127.920.885VFIT-B29.036.960.97833.440.97128.090.88817489叠加QVI SoftSplatFLAVR VFIT-S VFIT-B GT图5.与最先进的视频插值算法进行定性比较。VFIT生成更高质量的结果，具有更清晰的结构和更少的失真。叠加QVI SoftSplatFLAVR VFIT-S VFIT-B GT图6.内插帧和相应的地面实况的重叠，其中更清晰的重叠图像指示更准确的预测。注意，对于第二个示例，由于基线方法的预测和地面实况没有很好地对齐，因此红色和白色区域的重叠呈现模糊的粉红色。4.3. 消融研究我们在Vimeo-90 K数据集上进行消融研究。由于我们注意到训练过程在早期训练阶段收敛得很快，模型之间的差异已经可以区分，因此我们在本研究中对所有模型进行了20个epoch的训练，以加速开发并专注于VFIT最重要的部分地方注意。与我们引入局部注意力机制的模型相反，最近的几种方法[7，9]遵循NLP中传统变换器的基本结构，将全局注意力用于视觉应用，其中全局注意力的高计算成本通过将输入划分为补丁并将每个补丁重新定义为自注意力中的新元素来消除。在我们的实验中，我们也尝试了这种策略，用一个基于补丁的全局注意力块（称为VFIT-Global）替换VFIT-B的每个Sep-STS块。如表3所示，VFIT-Global的结果比VFIT-B低0.84 dB，这强调了局部注意力在基于变换器的视频帧内插中的重要作用。Sep-STS。为了进一步验证Sep- STS块的有效性，我们将我们的VFIT-B与其两个变体进行比较：1) VFIT-CNN ，其中所有 Sep-STS 块都被卷积ResBlocks [16]取代，并且每个ResBlock都是由两个3D卷积层组成;以及2）VFIT-STS，其中Sep-STS块被其不可分离的对应块替换，即，STS块。如表3所示，虽然VFIT-CNN使用了VFIT-STS的两倍以上的参数，但这两个模型实现了类似的结果，证明了使用变压器进行视频插值的优势此外，我们的基础模型VFIT-B，它使用建议Sep-STS作为构建块，获得更好的性能比VFIT-STS。应该强调的是，性能增益是显著的，因为Sep-STS块最初被设计为减少内存使用，如第3.1节所讨论的。这可以归因于STS中大尺寸子立方体的自注意相对难以学习，Sep-STS中的时空分离可以作为低秩正则化[6]来解决这个问题。为了更好地分析模型的性能，我们进一步在不同的运动条件下与基线进行比较在[15，47]之后，我们将Vimeo-90 K测试集分别分为快速，中等和慢速运动。表 4 显示 VFIT-B 在快速运动上优于 VFIT-CNN 0.43dB，在中等运动上优于0.16 dB，在慢运动上优于0.10dB，突出了所提出的Sep-STS在处理具有挑战性的大运动场景方面的卓越能力。我们还提供从视频插值帧174900的情况。5表3.建议的Sep-STS块的有效性方法PSNRSSIM#参数（M）VFIT-B三十六020的情况。97529岁0VFIT-STS三十五840的情况。97429岁1VFIT-CNN三十五820的情况。973六十五4VFIT全球三十五180的情况。971四十二4M=4三十五820的情况。97429岁0M=6三十五900的情况。97429岁0M=8三十六020的情况。97529岁0M=10三十五930的情况。97429岁0表4.在不同运动条件下与基础模型的比较方法快速介质慢VFIT-B三十三岁。23/0954三十五91/0976三十八岁。36比0 987VFIT-STS三十二91/0950三十五77比0975三十八岁。27/0987VFIT-CNN三十二80/0。950三十五75/0。975三十八岁。26/0。987(a) 重叠（b）GT（c）GT-贴片(d)VFIT-CNN（e）VFIT-STS（f）VFIT-B图7.从快速运动的视频中插入帧。VFIT-CNN由于不能处理大运动而产生严重的重影伪影，而VFIT-STS的结果看起来模糊。相比之下，VFIT-B生成更接近地面实况的更高质量表5.与基于transformer的模块的比较方法PSNR SSIM运行时间32 .第三十二章15/0。94535. 十分满意97237. 62比0 985VFIT-B三十六020的情况。9750的情况。14VFIT-TD三十五920的情况。9740的情况。17与图7中的快速运动进行比较。VFIT-TU三十五970的情况。9740的情况。20为了分析Sep- STS的不同窗口大小的效果，我们分别评估M=4、6、8、10的VFIT-B。表3显示，当窗口大小增加到M >8时，我们的模型表现得更好.因此，我们选择M=8作为本工作中的默认设置。多尺度帧合成。在第3.2节中，我们提出了一个用于最终帧合成的多尺度内核预测网络为了验证该设计的有效性，我们通过移除图 2 中的第二个和第三个SynBlocks ，对 VFIT 的单尺度变体（称为 VFIT-Single）进行了实验。这种单尺度策略基本上类似于[25，29，30]中的普通内核预测网络VFIT-Single实现的PSNR为35.54 dB，比我们的基础模型VFIT-B低0.48dB。巨大的性能差距显示了多尺度框架对于充分实现变压器潜力的重要性。注意，我们只将损失函数应用于最终输出-双线性插值我们分别用这些基于变换器的下采样和上采样模块替换VFIT-B的卷积和去卷积层，并将两个变体称为VFIT-TD和VFIT-TU。如表5所示，VFIT-TD和VFIT-TU的性能都略差于我们的基础模型，运行时性能下降，这表明计算机视觉中基于transformer的并行计算操作的当前设计这是我们目前工作的局限性，这将是未来研究的一个有趣问题。5. 结论在本文中，我们提出了一个参数，内存和运行时间有效的视频帧内插与国家的最先进的性能的VFIT框架。很大一部分普特岛例如，最佳电平输出I=0在多尺度框架中-我们的工作重点是扩大当地的注意力机制-如第4.1节所述。或者，可以考虑对网络的所有规模输出增加监督。然而，我们的经验发现，该方案并没有表现良好。调整模块大小。如图2所示，我们使用3D卷积和反卷积层对特征图进行下采样和上采样。受Sep-STS相对于基于CNN的模型的平均增益的激励，探索使用Transformer层作为用于17491×视频帧内插的嵌入式模块是非常有趣的。为了回答这个问题，我们采用了[14]中的方法，该方法通过对自我关注层的查询进行下采样来引入用于视频分类的基于变换器的查询模块。为了启用基于transformer的上采样，我们扩展了[14]中的思想，通过使用该模块可以集成到其他视频处理任务中。此外，我们证明了一种新的时空分离方案的有效性，这意味着视频变换器中结构良好的正则化的必要性。VFIT的结构简单紧凑，可以有效地应用于众多的下游视觉任务。与大多数现有的基于内核的方法类似[25，29，30，37]，我们只使用VFIT执行2插值。然而，它可以很容易地扩展到多帧插值，通过预测与不同时间步长相关的内核，甚至通过将时间作为类似于[10]的额外输入来进行任意时间插值这将是我们未来工作的一部分。谢谢。M.- H. 杨的部分支持来自NSF CAREER Grant#1149783。17492引用[1] 罗伯特·安德森、大卫·盖洛普、乔纳森·T·巴伦、珍妮·康特卡宁、诺亚·S·N·V·Y、卡洛斯·赫尔·N·南德斯、萨米尔·A·G·R·瓦尔和史蒂文·M·塞茨。Jump：虚拟现实视频。ACM Transactions on Graphics，35（6 ）：1-13，2016。1[2] 吉米·雷·巴，杰米·瑞安·基罗斯，杰弗里·E·辛顿.层归一化。arXiv预印本arXiv：1607.06450，2016。4[3] Wenbo Bao ， Wei-Sheng Lai ， Chao Ma ， XiaoyunZhang，Zhiyong Gao，and Ming-Hsuan Yang.深度感知视频帧插值。在IEEE计算机视觉和模式识别会议集，2019。一、二、六[4] Gedas Bertasius，Heng Wang，and Lorenzo Torresani.时空注意力是你理解视频所需要的全部吗？2021年国际机器学习会议论文集。2[5] 蒂姆·布鲁克斯和乔纳森·T·巴伦。学习合成大尺寸的动态模糊。在IEEE计算机视觉和模式识别集，2019。1[6] EmmanuelJCan d`s，XiaodongLi，YiMa，andJohnWright.稳健主成分分析Journal of the ACM，58（3）：1-37，2011. 7[7] Jiezhang Cao，Yawei Li，Kai Zhang，and Luc Van Gool.视频超分辨率 Transformer 。 arXiv 预印本 arXiv ：2106.06847，2021。二、三、七[8] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在欧洲计算机视觉会议论文集，2020年。二、三[9] Hanting Chen，Yunhe Wang，Tanyu Guo，Chang Xu，Yiping Deng，Zhenhua Liu，Siwei Ma，Chunjing Xu，Chao Xu ， and Wen Gao. 预训练的图像处理Transformer。在IEEE计算机视觉和模式识别会议上，2021年。二、三、七[10] 程先航和陈振中。基于增强型可变形可分离卷积的多视频帧内插。IEEE Transactions on Pattern Analysis andMachine Intelligence，2021。8[11] Zhixiang Chi，Rasoul Mohammadi Nasiri，Zheng Liu，Juwei Lu，Jin Tang，and Konstantinos N Plataniotis. 一次全部：具有高级运动建模的时间自适应多帧插值。在欧洲计算机视觉会议论文集，2020年。4[12] Myungsub Choi ， Heewon Kim ， Bohyung Han ， NingXu，and Kyoung Mu Lee.通道注意力是视频帧插值所需的全部在AAAI人工智能会议集，2020。6[13] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器.在2020年学习代表国际会议的论文集。二、三[14] Haoqi Fan，Bo Xiong，Karttikeya Mangalam，YanghaoLi ， Zhicheng Yan ， Jitendra Malik ， and ChristophFeichtenhofer.多尺度视觉变换器。在IEEE计算机视觉国际会议论文集，2021年。8[15] Muhammad Haris Gregory Shakhnarovich 和 NorimichiUkita。用于视频超分辨率的递归反投影网络。在IEEE计算机视觉和模式识别集，2019年。7[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议上，2016年。四、七[17] 丹·亨德里克斯和凯文·金佩尔。高斯误差线性单位（gelus）。arXiv预印本arXiv：1606.08415，2016。4[18] Andrew G Howard，Menglong Zhu，Bo Chen，Dmit

下载后可阅读完整内容，剩余1页未读，立即下载