基于Softmax的视频帧插值算法

47 浏览量更新于2023-10-23 收藏 1.18MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5437基于Softmax的视频帧插值算法波特兰州立大学sniklaus@pdx.edu波特兰州立大学fliu@cs.pdx.edu[39]第一届中国国际汽车工业展览会[31]第二届中国国际汽车工业展览会[37]第三届中国国际汽车工业展览会[38]图1：视频帧插值的一个困难示例。我们的方法产生了高质量的结果，尽管微妙的火烈鸟腿是受大运动。请参阅arXiv版本，以便能够将此图作为视频查看。摘要向后扭曲形式的可微分图像采样在深度估计和光流预测等任务中得到了广泛采用。相比之下，如何执行前向扭曲已经看到较少的关注，部分是由于额外的挑战，例如解决以不同的方式将多个像素映射到同一目标位置的冲突我们提出了softmax splatting来解决这种范式转变，并展示了其在帧插值应用中的有效性。具体而言，给定两个输入帧，我们基于使用softmaxsplatting的光流估计对帧及其特征金字塔表示进行前向扭曲在这样做时，softmax splatting无缝处理多个源像素映射到同一目标位置的情况。然后，我们使用一个合成网络来预测的插值结果，从扭曲的表示。我们的softmax splatting不仅允许我们在任意时间内插帧，还可以微调特征金字塔和光流。我们表明，我们的合成论文的方法，授权softmax飞溅，实现了新的国家的最先进的视频帧内插的结果。1. 介绍视频帧内插是计算机视觉中的一个经典问题，有着广泛的实际应用. 可以，因为例如，用于将视频的帧速率转换为用于回放的监视器的刷新率，这有利于人类感知[24，25]。帧内插还可以帮助视频编辑任务，例如通过将在几个关键帧中所做的更改传播到剩余帧来进行时间一致的颜色修改[33]。帧内插还可以支持视频的帧间压缩[49]，用作光流估计的辅助任务[30，50]，或生成训练数据以学习如何合成运动模糊[6]。虽然这些应用程序在时域中采用帧内插，但它也可以用于通过在给定视点之间进行内插来合成空间中的新视图[23]。视频帧内插的方法可以分为基于流的、基于核的和基于相位的。我们采用基于流的范式，因为它已被证明在定量基准中工作良好[2]。这些方法的一种常见方法是从应当被合成的帧I t的角度估计两个输入帧I 0和I 1之间的光流Ft0和Ft1。然后，可以通过根据Ft0向后翘曲I0和根据Ft1向后翘曲I 1来获得插值结果[20]。虽然这是直观的，但这种方法使得难以使用现成的光流估计器，并且阻止以自然的方式在任意t处合成大小帧。为了解决这些问题，Jianget al.[22]Baoet al. [3]由F01和F10近似Ft0和Ft1。5438与后向翘曲不同，Niklauset al.[37]根据t·F01直接向前扭曲I0，根据（1-t）·F10直接向前扭曲I1，这避免了必须近似Ft0和Ft1。他们方法的另一个方面是不仅是图像，而且是相应的上下文信息，合成网络可以使用该上下文信息来进行更好的预测。然而，它们的前向扭曲使用z缓冲的等价物，以便处理多个源像素映射到相同目标位置的情况因此，由于z缓冲，如何完全区分此操作尚不清楚[36]。我们提出softmax splatting来解决这个限制，它允许我们联合监督向前扭曲的所有输入。因此，我们能够将扭曲通用上下文映射的想法扩展到学习和扭曲特定于任务的特征金字塔。此外，我们不仅能够监督光流估计器，而且还能够监督当不同像素被扭曲到相同位置时对不同像素的重要性进行加权的度量。这种方法，这是由我们提出的softmax splat- ting，实现了新的国家的最先进的结果，并在米德尔伯里基准帧插值排名第一。简而言之，我们提出了softmax splatting来执行不同的前向扭曲，并在帧内插应用中显示了其有效性。softmax splatting解决的一个有趣的研究问题是如何以可区分的方式处理映射到同一目标位置的不同源像素。Softmax splatting使我们能够训练和使用特定于任务的特征金字塔进行图像合成。此外， softmaxsplatting不仅允许我们微调用于视频帧内插的现成光流估计器，还使我们能够监督用于消除多个源像素映射到相同的前向扭曲目标位置的情况的歧义的度量。2. 相关工作随着空间 Transformer 网络的引入， Jaderberg等.[20]提出了可微图像采样。从那时起，该技术已经以向后扭曲的形式被广泛采用，以从图像IB合成图像IA，给定IA中的每个像素与其在IB中的位置的对应关系FAB。使用这种方法的突出示例包括无监督深度估计[13，31，54]，无监督光流预测[32，47，52]，光流预测[18，42，45]，新颖的视图合成[8，27，55]，视频帧插值，[3，22，28，29]和视频增强[7，46，51]。相比之下，执行前向扭曲以基于FAB从IA合成IB已经较少采用深度学习，部分原因是额外的挑战，例如IA中的多个源像素可能被映射到IB中的相同目标位置。对于光流估计，Wanget al.[47]向前扭曲填充有1的图像以获得遮挡掩模。但是，他们总结出的缺点是--前向扭曲/飞溅后向扭曲/采样图2：飞溅与采样，蓝色像素保持静止，而红色像素以剪切方式向下移动。使用溅射，输出会出现孔洞，并且多个源像素可以映射到同一个目标像素。从好的方面来说，溅射使得缩放变换成为可能.映射到相同输出像素的所有像素的分布，而没有去除可能的离群值的机制，这限制了该技术用于图像合成的适用性。对于帧插值，Niklauset al. [37]使用z缓冲的等效物，其动机良好但不可微分[36]。Bao等人[3]根据深度估计对光流进行线性加权，作为用于处理映射到相同目标位置的多个然而，向深度估计添加偏差会影响该线性加权扭曲的结果，并导致负面影响。相比之下，我们提出的softmax splatting不受任何这些问题的影响。我们证明了我们提出的软最大飞溅帧插值的例子的有效性。帧插值的研究最近又重新兴起，多篇论文提出了基于内核的[3，4，38，39]，基于流的方法[3，4，22，28，29，37，41，43，51]和基于相的方法[34，35我们的方法基于Niklaus等人的方法。[37]他们在两个方向上估计两个输入图像之间的光流，使用预先训练的滤波器从输入图像中提取一般的上下文信息，根据光流将图像与它们的上下文映射一起向前弯曲，并且最后使用合成网络来获得插值结果。启用softmax飞溅，我们扩展了他们的框架，以扭曲特定于任务的特征金字塔，以端到端的方式进行图像合成。这包括微调用于视频帧内插的现成光流估计器，并监督用于消除多个像素映射到相同位置的情况的歧义的对于图像合成，Niklauset al.[37]扭曲来自预先训练的特征提取器的上下文信息，合成网络可以使用该上下文信息来进行更好的预测。Bao等人[3]随后通过特征提取器的端到端监督来改进该方法。相比之下，我们提取和扭曲特征金字塔，这允许合成网络利用多尺度表示以获得更好的插值结果。我们使用的图像合成的特征金字塔的灵感来自最近的工作视频分析。对于视频语义分割，Gaddeet al. [12]在处理前5439−→−→不不−→−→总和飞溅平均飞溅Φ线性飞溅软最大飞溅σ图3：给定两个图像I0和I1以及光流估计F01，该图显示了将I0扭曲为→−根据F0t=t·F01，采用四种不同的前向翘曲方法，得到了It求和翘曲法处理案例其中I0中的多个像素通过取它们的和而映射到It中的相同目标位置，这导致亮度不一致。→−平均翘曲Φ取其平均值，并且能够保持I 0的整体外观，但混合重叠区域。线性splatting→−splatter在绘制像素之前对像素进行加权，但仍然无法将汽车的前部与背景中的草地清晰地分开。相比之下，我们提出的softmaxsplatting→−σ显示了汽车正确地遮挡背景。请参阅arXiv版本，以便能够将此图作为视频查看。帧，以便支持当前帧的分段。对于光流估计，Huietal.[18]孙文，[45]扩展这种扭曲特征的思想，它以特征金字塔的形式跨越多个尺度。然而，这些方法并不针对图像合成时间一致性是在时间上合成图像时常见的问题[1，16，17，26]。对于帧插值，Jianget al.[22]收集具有帧九元组的专门训练同样，Liuet al. [28]和Redaet al.[43]利用循环一致性来更好地监督他们的模型。相比之下，我们提出的softmax splat- ting导致了时间上一致的结果，而不需要专门的训练数据集或周期一致的训练。3. 用于帧内插的Softmax Splatting给定两个帧I0和I1，帧插值旨在合成中间帧It，其中t∈（0，1）定义期望的时间位置。为了解决这个问题，我们首先使用现成的光流方法来估计两个方向上输入帧之间的光流F01和F10然后，我们使用前向翘曲的形式，softmax splatting→−σ到warpI0，根据F0t=t·F01I1根据F1t=（1-t）·F10如下。随后，我们首先通过softmax splatting介绍了前向扭曲，然后展示了它如何使我们能够为帧插值建立新的最先进的结果。3.1. 通过Softmax Splatting向前翘曲向后弯曲是一种常见的技术，在无监督深度估计或光流预测等任务中得到广泛采用[20]。它得到了许多深度学习框架的支持相反，这些框架不支持根据F0t将图像I0向前扭曲到It我们将这种缺乏支持归因于这样一个事实，即没有执行向前翘曲的确定方法前向扭曲受到I0中的多个像素能够可能映射到It中的相同目标像素的影响，并且存在解决这种模糊性的各种可能性因此，我们随后介绍了常见的方法来处理这种映射模糊性，并讨论其局限性。然后，我们提出了softmax splatting，它解决了这些固有的局限性。请注意，我们使用的术语总结飞溅。处理上述映射模糊性的直接方法是将所有→−捐款. 我们定义这个总和splatting函数如下：lows，其中It是从I0到It的所有贡献的总和根据F0t服从双线性核b。It→−σ（I0，F0t）=→−σ（I0，t·F01）（1）It→−σ（I1，F1t）=→−σ（I1，（1−t）·F10）（2）.设u=p−q+F0tΣ[q]（3）b（u）= max（0，1 − |ux|）·max（0，1-|乌伊|）（4）这与后墙<$ω−形成对比，后墙<$ω−将需要Ft0和Ft1，但是从F01和F10计算这个以t为中心的光流是复杂的，并且受到ap-t的影响。I[p]=Σq∈I0b（u）·I0[q]（5）proximations [3]. 然后，我们将这些中间体重新组合，→−Σ（六）结果使用合成网络获得It更具体地说，我们不仅在颜色上扭曲输入帧，而且在多个分辨率上扭曲特征空5440间，这使得合成网络能够做出更好的预测。I0，F0t）=It如图3所示，这种总和飞溅导致重叠区域（如汽车前部）的亮度不一致。此外，双线性核b导致5441→−不F0吨→−0吨0吨tΣIt中的像素仅接收来自I0中的像素的部分贡献，这再次导致街道上的亮度不一致然而，我们使用这个总和飞溅作为所有后续向前翘曲ap的基础Softmax飞溅。为了根据具有平移输入的重要性掩模Z变量，我们建议softmax splatting→−σ如下。→−接近相关衍生工具如下。→−σ（I0，F0t）=<$（exp（Z）·I0，F0t）（十三）设u=p−Σ.Σq+F0t[q]（七）n（exp（Z），F0t）其中，Z可以例如与每个的深度相关，t[p]=b（u）（8）I0[q]像素[3]。如图3所示，这种方法能够将汽车的前部与背景清晰地∂IΣ[p]= b（u）·I0[q]（9）没有任何残留的草的痕迹。而且x[q]x.（1）= max（0，1 - 1）|u|）·0，如果|ux|≥ 1（十）与softmax函数相似。因此，在-相对于Z的平移β的变体，这在映射多个像素xy−sgn（u），否则到同一地点如果Z表示深度，则图3中的汽车和背景被同等对待，与F0t的y分量类似。并不容易以通过自动微分来获得这些，因为很少有框架支持实现该运算符所必需的底层分散ND函数因此，我们支持-参见本总结的PyTorch参考实现1→−为了提高效率，在CUDA中编写了splatting函数平均飞溅。为了解决求和飞溅中出现的亮度不一致问题，我们需要调整-马里泽岛为了做到这一点，我们可以重复使用→−的定义→−按如下方式确定平均飞溅Φ→−汽车在Z=1，背景在Z=10，或者汽车在Z=101，背景在Z=110。但是，它并不是尺度不变的，并且将Z乘以α将影响重叠区域的分离程度。小α产生平均，而大的α产生z缓冲。这个参数可以通过端到端训练来学习。重要性度量。我们使用Z来加权I0中的像素，以便解决来自I0的多个像素映射到It中的同一目标像素的情况。例如，这个Z可以表示深度[3]。然而，获得这样的深度估计在计算上是昂贵的并且固有地具有挑战性，这使得其易于不准确。因此，我们使用→−0 0吨（I0，F0t）（十一）亮度恒定性作为遮挡的量度[2]，Φ（I，F→−t（1，F0t）可以通过后向保护<$ω−获得，如下所示。如图3所示，这种方法处理亮度不一致并保持I0的外观。然而，这项技术平均重叠的地区，如在前面的汽车与草的背景。直线飞溅。为了更好地分离重叠Z=α·<$I0−<$ω−（I1，F01）<$1（14）由于我们提出的softmax splatting是完全可微的，我们不仅可以学习α（初始设置为-1），还可以使用一个小的神经网络来进一步完善这个度量。.←−Σ区域，可以尝试通过重要掩码Z线性加权I 0，并如下定义线性溅射→−π。Z=<$I0，− <$I0−ω（I1，F01）<$1（十五）→−→−ε（I0，F0t）=ε（Z·I0，F0t）（Z，F0t）（十二）我们也可以直接从π（I0）得到Z，但我们无法让这股力量汇聚最后，当应用软-最大溅射到不同于帧内插的任务，可以相应地调整重要性度量。其中Z可以例如与每个像素的深度相关[3]。如图3所示，这种方法可以更好地将汽车的前部与后方地面的草地分开。它不是关于翻译不变的，Z虽然。如果Z表示深度的倒数，那么如果汽车在Z=1/1处，背景在Z=1/10处，则将存在明显的分离。但是，如果汽车在Z=1/101处，背景在Z=1/110处，则它们将再次被平均，尽管在深度方面相距同样远。1http://sniklaus.com/softsplatFFX）=的5442效率PyTorch的向后翘曲需要1。1ms来扭曲Titan X上的全高清图像，其中合成流从N（0，102）绘制。相比之下，我们的softmax splatting实现需要3。7ms，因为我们需要计算Z并在扭曲期间处理竞争条件。3.2. 基于特征金字塔的图像合成我们采用了Niklaus等人的视频帧插值流水线。[37]在给定两个输入帧I0和I 0的情况下，首先，使用现成的光流方法估计帧间运动F01和F10然后他们提取5443ω图4：我们的帧插值框架概述。给定两个输入帧I0和I1，我们首先估计它们之间的双向光流。然后，我们提取它们的特征金字塔，并根据光流将它们与输入帧一起向前弯曲到目标时间位置t∈（0，1）使用softmax splatting可以实现端到端训练，从而允许特征金字塔提取器学习收集对图像合成重要的特征。然后将变形的输入帧和特征金字塔馈送到合成网络以生成插值结果It。使用预定义的滤波器从输入图像中提取通用上下文信息，并且对于ward-warp→−ω，将图像根据t·F01=F0t，和（1−t）·F10=F1t在使用合成网络φ以获得插值结果It。It=φ.→−。 {I0，（I0）}，F0t，→−ω。ΣΣ{I1，F（I1）}，F1t这种方法在概念上很简单，并且已被证明效果良好。然而，Niklauset al.无法监督上下文提取器，而是使用ResNet-18的conv 1[15]，因为它们的前向扭曲的限制ing→−ω方法。这种限制使它成为理想的候选者来展示我们提出的softmax splatting的好处我们提出的softmax splatting允许我们监督图像处理器，使其能够学习提取对图像合成很重要的特征。此外，我们通过以特征金字塔的形式在多个尺度上提取和扭曲特征来扩展这一思想。这允许合成网络φ进一步改进其预测。请参见图4，了解我们的视频帧插值框架的概述。我们随后将讨论其各个组成部分。光流估计器我们使用现成的光流方法，利用正在进行的研究成果，对应性估计。具体来说，我们使用PWC-Net [45]并表明FlowNet 2 [19]和Lite- FlowNet [18]在我们的评估中表现同样出色。根据Xueet al.[51]，我们还对PWC-Net进行了微调，以进行帧内插。特征金字塔提取器。我们的特征金字塔提取器的架构如图5所示。我们提出的softmax splatting使我们能够以端到端的方式监督此特征金字塔提取器，使其能够学习提取对后续图像图5：我们的特征金字塔提取器的架构特征可视化是使用PCA获得的，并且仅用于美学目的。请参阅我们的评估，以分析图像合成的特征金字塔空间。合成.如我们的评估所示，这种方法导致插值结果的质量显著改善。我们还表明，插值质量下降，如果我们使用更少的功能级别。图像合成网络。合成网络生成由变形输入图像及其对应的特征金字塔引导的插值结果。我们采用了一个具有三行六列的GridNet [11]架构来完成这项任务。为了避免棋盘式伪影[40]，我们采用了Niklaus等人提出的修改。[37 ]第37段。网格网架构是U网的推广，因此非常适合图像合成的任务。重要性度量。我们提出的softmax splatting使用重要性度量Z，该重要性度量Z用于解决多个像素向前扭曲到同一目标的情况。I0I1了解到It微调光流估计器光流估计器特征金字塔提取器softmax飞溅（以Z为准）图像合成网络softmax飞溅（以Z为准）特征金字塔提取器类型特征内核步幅填充输入−−−−Conv2d3 →32 3× 3 1× 11× 1PReLU−−−−Conv2d32 →32 3× 3 1× 11× 1PReLU−−−−Conv2d32 →64 3× 3 2× 21× 1PReLU−−−−Conv2d64 →64 3× 3 1× 11× 1PReLU−−−−Conv2d64 →96 3× 3 2× 21× 1PReLU−−−−Conv2d96 →96 3× 3 1× 11× 1PReLU−−−−5444阳离子。我们使用亮度恒定性来计算这个metric，如第3.1节所述。此外，我们使用一个由三个级别组成的小型U型网络来改进此遮挡估计，该U型网络使用特征金字塔提取器和图像合成网络进行端到端训练训练我们采用Niklauset al的训练。[37 ]第37段。因此，我们训练了两个版本的模型来考虑感知失真权衡[5]，一个是在标准基准测试中表现良好的颜色损失LLap上训练的，另一个是在标准基准测试中表现良好的颜色损失LLap上训练的。在感知损失LF上训练，其保留更多细节在困难的情况下。然而，与其使用专有的训练数据集，我们使用来自公开可用的Vimeo-90 k数据集的训练部分的帧三元组[51]。效率使用Nvidia Titan X，我们能够在0. 357秒，以及1080p帧在0。807秒我们整个管道的参数在存储时总计314. 实验我们评估我们的方法，它利用softmax splat- ting来改进现有的帧插值方法，并将其与公开数据集上的最先进的方法进行定量和定性比较。为了支持检查帧插值结果的视觉质量，我们还提供了一个补充视频。方法. 我们比较我们的方法，几个国家的最先进的帧插值方法，从各自的作者开源实现是公开的。这包括SepConv [39]、ToFlow [51]、CyclicGen [28]和DAIN[3]。我们还尽可能包括闭源CtxSyn [37]方法。数据集。我们对常见的帧内插数据集进行了定量评价。这包括 Vimeo-90 k [51] 测试数据集以及来自Middlebury基准测试的样本，其中包含公开的地面实况插值结果[2]。当将我们的方法与其他最先进的方法进行比较时，我们还纳入了来自UCF 101 [29，44]和Xiph2的公司样品。指标. 我们遵循最近的帧内插工作，并使用PSNR和SSIM [48]进行所有定量比较。我们还结合了LPIPS [53]指标，该指标致力于测量感知相似性。虽然较高的值表示在PSNR和SSIM方面的更好的结果，但较低的值表示使用LPIPS度量的更好的结果。4.1. 消融实验我们通过改进Niklaus等人的上下文感知帧内插来证明我们提出的softmax溅射的有效性。[37 ]第37段。因此，我们不仅需要2https://media.xiph.org/video/derf[51]第二届中国国际纺织品展览会SSIM LPIPSPSNR SSIM LPIPS表1：消融实验，以定量分析我们的方法的不同组件的效果。将softmax splatting与执行可微前向变形的替代方法进行比较，我们还需要分析softmax splatting所实现的改进。上下文感知合成。由于我们采用了Niklaus等人的框架。[37]，我们首先需要验证我们可以匹配它们的性能。因此，我们用ResNet-18 [15]的conv 1层替换了我们的特征金字塔提取器，并且我们没有微调所使用的PWC-Net用于帧插值。这使得训练数据集和softmaxsplatting成为唯一的显着差异。如表1（第一部分）所示，我们的实现在Middlebury示例的PSNR方面表现虽然Vimeo-90 k测试数据的PSNR明显更好，但这是可以预期的，因为我们监督Vimeo-90 k训练数据。因此，我们可以确认我们的方法的基础真实地复制了CtxSyn。Softmax splatting用于帧插值。我们在3.1节讨论了执行可微向前翘曲的各种方法，并概述了它们的局限性。然后，我们提出了softmax splatting来解决这些限制。为了分析softmax splatting的有效性，我们训练了我们方法的四个版本，每个版本使用不同的前向扭曲技术。如表1（第二部分）所示，就PSNR而言，求和溅射表现最差，而softmax溅射表现最好。请注意，平均飞溅的PSNR优于中位上的线性飞溅。↑↑↓↑↑↓CtxSyn三十四390的情况。9610的情况。024三十六930的情况。9640的情况。016我们的-CtxSyn-like三十四850的情况。9630的情况。025三十七020的情况。9660的情况。018我们的-总结飞溅三十五090的情况。9650的情况。024三十七470的情况。9680的情况。018我们的-平均飞溅三十五290的情况。9660的情况。023三十七530的情况。9690的情况。017我们的-线性飞溅三十五260的情况。9660的情况。024三十七730的情况。9680的情况。017我们的- softmax飞溅三十五540的情况。9670的情况。024三十七810的情况。9690的情况。017我们的-预定义Z三十五540的情况。9670的情况。024三十七810的情况。9690的情况。017我们的-微调Z三十五590的情况。0的情况。三十七970的情况。0的情况。544538363432304 8 121620帧索引24 28图7：我们的方法在高帧率Sintel数据集上的时间一致性评估[21]。PWC-Net LiteFlowNet我们的图6：使用Erhan等人的可视化技术，在图3的图像上显示不同任务特定特征金字塔的特征响应可视化。[10 ]第10段。dlebury示例，但在Vimeo-90 k测试数据上更差我们把这种线性溅射的不稳定行为归因于它缺乏平移不变性。这些发现支持了我们提出的softmax溅射背后的重要性度量。我们提出的softmax splatting使用重要性度量Z来解决多个像素向前扭曲到同一目标位置的情况我们使用亮度恒定性[2]来获得该度量。由于softmaxsplatting是完全可区分的，因此我们可以使用一个小的U-Net来微调这个度量，如表1（第三部分）所示，这会导致PSNR方面的轻微改善。这表明softmax splatting可以有效地监控Z，并且亮度恒定性作为视频帧插值的重要性度量也很好。用于图像合成的特征金字塔。 Softmax splat- ting使我们能够从扭曲的特征金字塔合成图像，有效地扩展了Niklaus等人的插值框架。[37 ]第37段。在这样做时，softmax splatting可以实现特征金字塔提取器的端到端训练，使其能够学习收集对图像合成重要的特征。如表1（第四部分）所示，当使用更多的特征级别时，插值结果的质量提高。请注意，当使用更多的特征级别时，返回值会逐渐减少，Vimeo-90 k数据集上的四个特征级别会过拟合。因此，我们使用三个层次的功能，我们的方法。我们通过可视化它们的特征响应来检查帧内插的特征金字塔和运动估计的特征金字塔之间的差异[10]。具体来说，我们通过改变输入图像来最大化特征金字塔提取器的最后一层以及PWC-Net [45]和LiteFlowNet [18]的等效层的激活。图6显示了代表性的特征激活，表明我们的特征金字塔关注的是对合成高分辨率图像非常重要的精细细节质量结果，而光流的特征金字塔显示出大的图案以解决大的位移。光流估计为了分析我们的方法在不同的对应性估计下的表现，我们考虑了三种不同的最先进的光流方法[18，19，45]，每种方法都在FlyingChairs [9]上训练。如表1（第五部分）所示，它们的表现都类似。由于softmax splatting是完全可微的，我们可以进一步微调帧内插任务的光流估计[51]。具体来说，我们微调了PWC-Net，并看到了针对帧插值任务进行了优化的PWC-Net-ft的其他改进。因此，我们使用PWC-Net-ft作为我们的方法。感知失真权衡。我们训练了两个版本的模型，一个是在颜色损失上训练的，另一个是在感知损失上训练的，以考虑感知失真的权衡[5]。如表1（第六部分）所示，使用颜色损失LLap训练的模型在PSNR和SSIM方面表现最好，而使用感知损失LF训练的模型在LPIPS方面表现最好我们进一步请注意，LF训练的模型更好地恢复了细节，具有挑战性的案件，使其在实践中更可取。时间一致性。由于我们使用前向扭曲来补偿运动，因此我们可以在任意时间位置插入帧，尽管只在t = 0时监督我们的模型。五、为了分析这种方法的时间一致性，我们对Sintel数据集的高帧速率版本进行了基准测试[21]。具体来说，我们内插帧1至31从帧0和帧32上的所有13个场景。我们包括DAIN以供参考，因为它也能够在任意t处内插帧。如图7所示，DAIN在第8帧和第24帧左右降级，而我们通过softmax splatting的方法则不会。4.2. 定量评价我们将我们的方法与常见数据集上最先进的帧插值方法进行由于这些数据集都是低分辨率的，我们还结合了Xiph的4K视频剪辑，这些视频剪辑通常用于评估视频压缩。具体来说，我们选择了八个4K剪辑，DAIN Ours -LLapPSNR5446[29]第二届中国国际纺织品服装展览会[2016 - 12 - 15训练数据集PSNR↑SSIM↑LPIPS↓PSNR↑SSIM↑LPIPS↓PSNR↑SSIM↑LPIPS↓PSNR↑SSIM↑LPIPS↓PSNR↑SSIM↑LPIPS↓SepConv -L1专有三十三岁。800的情况。9560的情况。027三十五730的情况。9590的情况。017三十四790的情况。9470的情况。029三十四770的情况。9290的情况。067三十二060的情况。8800的情况。169SepConv-LF专有三十三岁。450的情况。9510的情况。019三十五030的情况。9540的情况。013三十四690的情况。9450的情况。024三十四470的情况。9210的情况。04131岁680的情况。8630的情况。097ToFlowVimeo-90K三十三岁。730的情况。9520的情况。027三十五290的情况。9560的情况。024三十四580的情况。9470的情况。027三十三岁。930的情况。9220的情况。061三十740的情况。8560的情况。132CyclicGenUCF101三十二100的情况。9230的情况。058三十三岁。460的情况。9310的情况。046三十五110的情况。9500的情况。030三十三岁。000的情况。9010的情况。083三十260的情况。8360的情况。142CtxSyn -左膝关节专有三十四390的情况。9610的情况。024三十六930的情况。9640的情况。016三十四620的情况。9490的情况。031三十五710的情况。9360的情况。073三十二980的情况。8900的情况。175CtxSyn-LF专有三十三岁。760的情况。9550的情况。017三十五950的情况。9590的情况。013三十四010的情况。9410的情况。024三十五160的情况。9210的情况。035三十二360的情况。8570的情况。081DainVimeo-90K三十四700的情况。9640的情况。022三十六700的情况。9650的情况。017三十五000的情况。9500的情况。028三十五950的情况。9400的情况。084三十三岁。490的情况。8950的情况。170我们的-L圈Vimeo-90K三十六100的情况。9700的情况。021三十八岁。420的情况。9710的情况。016三十五390的情况。9520的情况。033三十六620的情况。9440的情况。107三十三岁。600的情况。9010的情况。234我们的-LFVimeo-90K三十五480的情况。9640的情况。013三十七550的情况。9650的情况。008三十五100的情况。9480的情况。022三十五740的情况。9210的情况。029三十二500的情况。8560的情况。071表2：各种最先进的视频帧插值方法的定量比较帧间运动的最大量，并从每个剪辑中提取前100帧。然后，我们将4K帧的大小调整为2K，或者在从奇数帧中插入偶数帧由于裁剪保留了帧间每像素的运动，因此这种直接处理4K帧是不合理的，因为DAIN已经需要16帧。7千兆字节的内存处理2K帧。相比之下，我们的方法只需要5。9千兆字节处理2K帧，可以通过使用半精度浮点运算减半。如表2所示，我们的LLap训练模型在PSNR和SSIM方面优于所有其他方法，而我们的LF训练模型在LPIPS方面表现最好。请注意，在Xiph数据集上，所有方法当内插“4K”帧而不是被调整大小为2K的帧时，这表明高分辨率的帧内插仍然是一个具有挑战性的问题。为了完整性，我们还在补充材料中显示了来自Xiph的样本的每个剪辑指标我们还提出-将我们的LLap训练模型的结果与Middlebury基准测试[2]进行比较。我们的方法目前在这方面排名第一我们的补充材料中所示的基准。4.3. 定性评价由于视频是这项工作的核心，我们在补充视频中提供了定性比较。这些支持我们的定量评估，并显示困难的例子，我们的方法产生高质量的结果，而竞争技术受到文物。4.4. 讨论我们提出的softmax splatting使我们能够扩展并显着改进Niklaus等人的方法。[37 ]第37段。具体来说，softmax splatting支持端到端训练，这不仅允许我们使用和优化功能，5447金字塔用于图像合成，也用于微调光流估计器[51]。我们的评估表明，这些变化显着提高插值质量。另一种相关的方法来自Baoet al. [3]的文件。该算法先对光流进行前向变形，然后根据变形后的光流将输入图像后向变形到目标位置。但是，它们使用线性溅射和最近邻插值。相比之下，我们的方法employssoftmax飞溅这是平移不变的，并产生更好的结果比线性飞溅。我们的方法在概念上也更简单，因为没有扭曲流，也没有包含深度或内核估计。尽管它的简单性，我们的方法相比有利的基准，不像DAIN，是时间上一致的。对抗训练以及图像生成中的周期一致性的成功表明，更先进的监督方案可以改善合成结果[14，28，43，56]。这种正交的发展可以用来进一步改善我们的方法在未来。5. 结论本文提出了一种基于softmax splatting的差分前向变形算法，并证明了其在帧插值应用中的有效性。softmax splatting解决的关键研究问题是如何处理不同源像素以可区分的方式向前扭曲到同一目标位置的情况。此外，我们表明，特征金字塔可以成功地用于高质量的图像合成，这是一个方面的特征金字塔，尚未探索。我们提出的帧内插流水线，这是启用softmax飞溅和概念上简单，比较有利的基准，并取得了新的国家的最先进的结果。致谢。我们感谢Long Mai和Jon Barron的反馈，没有他们的支持，这篇论文就不会存在。本文所展示的所有源图像片段都来自戴维斯挑战赛。5448引用[1] 放大图片作者： Ozan Aydin ， Nikolce Stefanoski ，Simone Croci，Markus H.格罗斯和阿尔乔夏·斯莫利奇HDR视频的时间相干局部色调映射。ACM Transactionson Graphics，33（6）：196：1-196：13，2014. 3[2] 放大图片作者：Simon Baker，Daniel Scharstein，J.放大图片作者：Michael J.布莱克和理查德·塞利斯基光流场数据库及评价方法。International Journal of ComputerVision，92（1）：1-31，2011。一、四、六、七、八[3] Wenbo Bao ， Wei-Sheng Lai ， Chao Ma ， XiaoyunZhang，Zhiyong Gao，and Ming-Hsuan Yang.深度感知视频帧插值。在IEEE计算机视觉和模式识别会议上，2019年。一二三四六八[4] Wenbo Bao，Wei-Sheng Lai，Xiaoyun Zhang，ZhiyongGao，Ming-Hsuan Yang.MEMC-Net：用于视频插值和增强的运动估计和运动补偿驱动神经网络arXiv/1810.08768，2018年。2[5] 约柴·布劳和托莫·麦克利。感知失真的权衡。在IEEE计算机视觉和模式识别上，2018年。六、七[6] Tim Brooks和Jonathan T.巴伦学习合成运动模糊。在IEEE计算机视觉和模式识别会议，2019。1[7] 放大图片创作者：Andrew P.作者简介：王泽涵，施文哲，陈文斌，陈文斌.基于时空网络和运动补偿的实时视频超分辨率。2017年在IEEE计算机视觉和模式识别会议上发表。2[8] Xiaodong Cun，Feng Xu，Chi-Man Pun，Hao Gao.深度辅助全分辨率网络用于基于单幅图像的视图合成。在IEEE计算机图形学和应用，2019。2[9] Alexey Dosovitskiy，Philipp Fischer，Eddy Ilg，PhilipH¨usser ， CanerHazirbas ， VladimirGolkov ， PatrickvanderSmagt，Daniel Cremers，and Thomas Brox.FlowNet：用卷积网络学习光流。 IEEE国际计算机视觉会议，2015。7[10] 杜米特鲁·埃尔汉，尤伊·本吉奥，亚伦·库维尔，帕斯卡尔·文森特.可视化深度网络的高层特征。技术报告，2009年。7[11] Dam i enFourure，Re'miEmonet，E'lisaFromon t，DamienMuselet，AlainTre'meau和ChristianWolf。用于语义分割的剩余2017年英国机器视觉会议。

下载后可阅读完整内容，剩余1页未读，立即下载