极限视频帧插值：XVFI-Net：4K分辨率1000fps的极限运动视频处理模型的研究

184 浏览量更新于2023-10-13 收藏 1.05MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

14489×XVFI：极限视频帧插值Hyeonjun Sim*Jihyong Oh*MunchurlKim†韩国科学技术{flhy5836，jhoh94，mkimee} @ kaist.ac.kr(a)（d）40.6（e）196.5（f）152.2图1.我们的X4K1000FPS数据集的一些示例，其中包含4K分辨率为1000 fps的各种运动。示例下面的数字是30 fps中两个输入帧之间的光学光流的幅度平均值。请参考arXiv版本，以视频剪辑的形式观看此图。摘要在本文中，我们首先向研究社区展示了一个具有极端运动的1000 fps 4K视频数据集XVFI-Net基于递归多尺度共享结构，该结构由两个级联模块组成，用于两个输入帧之间的双向光流学习（BiOF-I）和从目标到输入帧的双向光流学习（BiOF-T）。光流通过BiOF-T模块中提出的互补流反转（CFR）稳定地近似。在推断期间，BiOF-I模块可以以任何输入比例开始，而BiOF-I模块可以以任何输入比例开始。T模块仅在原始输入规模下运行，因此可以在保持高精度VFI性能的同时加速推理。大量的实验结果表明，我们的XVFI-Net可以成功地捕捉的基本信息的对象具有极大的运动和复杂的纹理，而国家的最先进的方法表现出较差的性能。此外，我们的XVFI-Net框架还对以前的较低分辨率基准数据集进行了测试所有源代码、预训练模型和拟议的X4K1000FPS数据集都可在https://github.com/JihyongOh/XVFI 上公开获取。*两位作者对这项工作的贡献相等。†通讯作者。1. 介绍视频帧内插（VFI）通过在给定的两个连续帧之间合成一个或多个中间帧来将低帧速率（LFR）内容转换为高帧速率（HFR）视频，然后可以以增加的帧速率平滑地渲染快速运动的视频，从而产生减少的运动抖动[28，24，23，10]。因此，它被广泛用于各种实际应用，例如自适应流式传输[45]，新颖的视图插值合成[11]，帧速率上转换[29，5，49]，慢速移动[20，5，49][18，4，30，32，27，34]和视频恢复[21，42，14，41]。然而，VFI是一个重大挑战，这归因于各种因素，如遮挡、大运动和光线变化。最近基于深度学习的VFI已被积极研究，显示出显著的性能[47，4，7，37，25，13，31，50，6，33]。然而，它们通常针对低分辨率（LR）的现有LFR基准数据集进行优化，这可能导致VFI性能较差，特别是对于具有非常大运动的4K分辨率（4096 2160）或更高分辨率的视频[1，21]。这样的4K视频通常包含具有极大像素位移的快速运动帧，传统的卷积神经网络（CNN）无法有效地处理有限大小的接收场。为了解决基于深度学习的VFI方法的上述问题，我们直接拍摄4K视频来构建高分辨率的高质量HFR数据集，称为 X4K1000FPS 。图 1 显示了我们的X4K1000FPS数据集的一些示例。如图所示，我们的4K分辨率视频具有非常大的运动和遮挡。14490179像素288像素重叠4K输入（裁剪）XVFI-Net（我们的）大的运动、缩放和遮挡。• 我们提出了CFR，它可以从时间t到输入帧生成稳定的光流估计，从而提高定性和定量性能。• 我们提出的XVFI-Net可以从任何向下缩放的输入向上开始，这在根据输入分辨率或运动幅度进行推断的尺度数量方面是可调节的。FeFlow DAIN图2.极端运动的VFI结果我们的XVFI-Net可以生成一个比两个最近的SOTA方法FeFlow [13]和DAIN [4]更稳定的中间帧，它们是在我们的数据集上新训练的，以进行公平的比较。我们还首先提出了一个极端的VFI模型，称为XVFI-Net，它被有效地设计用于处理这样一个具有挑战性的4K@1000fps数据集。而不是直接通过连续特征空间捕获极端运动与变形卷积作为视频恢复的最新趋势[13，46，42，41，20]，或者使用具有额外信息（如上下文，深度，流量和边缘）的非常大规模的预训练网络[4，50，30，13]，我们的XVFI- Net简单但有效，它是基于递归的。多尺度共享结构。XVFI-Net有两个级联模块：一个用于两个输入帧之间的双向光流学习（BiOF-I），另一个用于从目标到输入的双向光流估计（BiOF-T）。BiOF-I和BiOF-T模块结合多尺度损失进行训练。然而，一旦经过训练，BiOF-I模块可以从任何缩小比例的输入向上开始，而BiOF-T模块仅在推理时以原始输入比例操作，这在计算上是有效的，并且有助于在任何目标时间实例生成中间帧。在结构上，XVFI-网络是可调的尺度的数量，根据输入分辨率或运动幅度推断，即使训练一次。我们还提出了一种新的光流估计，从时间t到输入，称为互补流反转（CFR），通过采取互补流有效地填充孔为了公平比较，进行了大量的实验，我们的XVFI- Net具有相对较小的复杂性，在我们的X4 K1000 FPS上优于以前的VFI SOTA方法，特别是对于极端运动，如图所示二、在先前的LR-LFR基准数据集上的进一步我们的贡献总结如下：• 我们首先提出了一个高质量的4K分辨率的HFR视频数据集，称为X4K1000FPS（4K@1000fps），其中包含各种各样的纹理，非常• 我们的XVFI-Net在X4 K1000 FPS的测试集上实现了最先进的性能，与之前的VFI SOTA方法相比具有显著的差异，同时具有少量滤波器参数的计算效率。所有源代码和提出的X4K1000FPS数据集可在https://github.com/JihyongOh/XVFI上公开获得。2. 相关工作2.1. 视频帧插值大多数VFI方法可以分为基于光流或基于内核的[27，32，18，30，34，47，4，1，2，25，33，31]和基于像素超分辨率的[13，46，7，37，21]方法。基于流量的VFI。Super-SloMo [18]首先线性组合两个输入帧之间的预测光流，以近似从目标中间帧到输入帧的流。二次视频帧内插[47]利用四个输入帧来通过二次近似处理非线性运动建模，这限制了在给定两个输入帧时的VFI通用化。它还提出了流反转（投影），以实现更准确的图像扭曲。另一方面，DAIN [4]通过流投影层根据场景的对象深度给出了重叠流向量的不同权重然而， DAIN 采用并微调 PWC-Net [40] 和MegaDepth [26]，这在计算上负担了推断中间HR帧的负担。AdaCoF提出了一个广义的变形模块来处理复杂的运动[25]。然而，在一次训练之后，由于固定的膨胀程度，它不适于处理更高分辨率的帧。基于像素幻觉的VFI。FeFlow [13]通过用偏移矢量替换光流，从中心帧生成器的可变形卷积[9]中ZoomingSlow-Mo [46]还在特征域中的可变形卷积的帮助下内插中间帧然而，由于这些方法与基于流的VFI方法不同，直接使像素产生幻觉，因此当存在快速移动的对象时，预测的帧往往是模糊的。最重要的是，上述VFI方法由于其沉重的计算复杂性而难以一次对整个HR帧进行操作。另一方面，我们的XVFI-Net旨在有效地在整个14491××一次输入4K帧，参数数量较少，能够有效捕捉大动作。2.2. 用于大像素位移的PWC-Net [40]是一种最先进的光流估计器，已被用于预训练流量估计器的几种VFI方法[47，4，31]。由于PWC-Net具有6级特征金字塔结构，具有更大的接收场，因此可以有效地预测大的运动。IM-Net [34]还采用多尺度结构来覆盖相邻帧中对象的大位移，同时覆盖范围受到自适应滤波器大小的限制。尽管有多尺度金字塔结构，但上述方法缺乏自适应性，因为每个网络的最粗层在训练一次后就固定了，即。每个比例级别由其自己的（非共享的）参数组成。RRPN [50]在灵活的重复金字塔结构中共享然而，它仅推断中心帧，而不是在任意时间实例。所以它只能以2的幂递归地合成时间的中间帧。结果，随着在两个输入帧之间迭代地生成中间帧，预测误差被累积因此，RRPN在任意目标时刻t对VFI具有有限的时间灵活性。区别于上述方法，我们提出的XVFI-Net具有可扩展的结构，具有用于各种输入分辨率的共享参数。与RRPN [50] 不同， XVFI-Net 在结构上分为 BiOF-I 和BiOF-T模块，这允许在互补的反向流的帮助下以有效的方式预测任意时间t也就是说，可以在推断中的缩小级别跳过BiOF-T模块，使得我们的模型可以一次推断4K的中间帧，而不需要与所有其他先前方法不同的任何逐块迭代，这可以应用于现实世界的应用。3. 申报的X4K1000FPS数据集数据集闭塞[16]流量大小[16]月25成立50 75岁月25成立5075岁Vimeo90K [48]6.811.918.13.14.97.1[39]第三十九话0.81.73.23.88.916.3X-TEST（我们的）2.15.617.723.981.9138.5X-TRAIN（我们的）6.910.115.75.518.059.5第25、50和75代表每个数据集的百分位数表1.VFI数据集的遮挡和光学光流幅值统计：3，782个Vimeo90 K的测试三联体[48]，随机选择的200个Adobe 240 fps的剪辑[39]，15个X-TEST剪辑和4，408个X-TRAIN剪辑。在接下来的画面中。遮挡使得光学光流估计和帧插值具有挑战性[43，4，16]。因此，我们手动选择了15个场景作为我们的测试集，称为X-TEST，通过考虑遮挡程度，光流大小和场景多样性。用于X-TEST的每个场景简单地包含一个测试样本，该测试样本由32帧的时间距离中的两个输入帧组成，并且近似地对应于30fps。测试评估被设置为插入7个中间帧，这导致240fps的连续帧。对于称为X-TRAIN的训练数据集，我们通过考虑遮挡量裁剪并选择了768 768大小的4，408个剪辑和65个连续帧的长度。更多细节在补充材料中描述。表1比较了数据集的统计数据：Vimeo 90 K [48]，Adobe 240 fps [39]，我们的X-TEST和X-TRAIN。我们估计了[0，255]中的遮挡范围和输入对之间的光流幅度[16]，并计算了每个数据集的百分位数。如表1所示，与之前的VFI数据集相比，我们的数据集包含相当的遮挡，但运动明显更大。4. 拟定方法：XVFI-Net框架4.1. 设计考虑尽管已经在不同的基准数据集上对VFI的许多方法进行了训练和评估，例如Adobe 240 fps [39]，DAVIS[35]，UCF 101 [38]，Mid- dlebury [3]和Vimeo 90 K[48]，但没有一个数据集包含丰富的具有HFR的4K视频这些限制了针对非常高分辨率视频的VFI应用所需的精细VFI方法的研究。为了应对极具挑战性的极端VFI任务，我们提供了一组丰富的4K@1,000fps视频，我们使用Phantom Flex4K ™相机拍摄，4K空间分辨率为4096 2160，每秒1,000帧，拍摄175个视频场景，每个场景5,000帧，拍摄时间为5秒。为了为VFI选择有价值的数据样本，我们使用IRR-PWC [16]估计了场景的每32帧的双向遮挡图和光流。遮挡图指示要被遮挡的部分对象我们的XVFI-Net的目的是在两个连续的输入帧，I0和I1，具有极端运动的HR之间的任意时间t插入中间帧It规模适应性。像PWC-Net [40]这样具有固定数量的尺度级别的架构很难适应输入视频的各种空间分辨率，因为每个尺度级别中的结构在不同的尺度级别之间不共享，因此需要重新训练具有增加的尺度深度的新架构为了对输入帧的各种空间分辨率具有尺度自适应性，我们的XVFI-Net被设计为在任何所需的粗尺度级别开始进行光流估计，以适应输入帧中的运动幅度。为此，我们的XVFI-Net在不同的尺度级别上共享其参数。捕捉大运动。为了有效地捕获两个输入帧之间的大运动，特征提取器200可以被配置为：144920级I0不C00了c01（1/M放大流量复发性比例尺1Conv.（步幅BiOF-I第一不C10C11⁝循环量表S⁝BiOF-I⁝Conv.（步幅C0SCS1放大流量：可能的测试路径：培训途径：共享参数（图四、特征提取块BiOF-TBiOF-TBiOF-I01×--tatb0110y↑−y−y的t0t1n0的00tN111·（1-t）估算的流量Fs+1，Fs+1来自上一个比例N12双线性放大设置为初始值n0的00·（1-t）N111吨010N110101110100我我它0110010110它我0，我0XVFI-Net的tion块首先降低空间分辨率01通过步幅卷积由模块比例因子M对两个输入帧进行缩放，从而产生空间缩减的特征，然后将其转换为两个上下文特征图C0和C0。图1中的特征提取块3由步幅卷积和两个残差块组成[15]。然后，每个尺度级别的XVFI-Net估计光流目标帧It到两个输入帧尺寸M预测的流被放大（M）以将每个尺度级别的输入帧扭曲到时间t。4.2. XVFI网络架构BiOF-I模块。图 4显示了我们的XVFI-Net架构其中Is表示双三次缩小1/2s。首先，上下文金字塔C=Cs经由步幅2卷积从C0和C0被递归地提取，并且0 1然后在每个尺度级别s（s=0，1，2，…其中s=0表示原始输入帧的比例。令Fs表示来自图3.XVFI-Net的可调节和高效可扩展性框架.即使在该示例中训练期间的最低尺度深度Strn被设置为1，推断也可以从任何尺度级别开始。时间ta到tb，标度为s。F和F是双向的在比例为s的输入帧之间切换。F和F是双向流动Ss至s和（1−t）Σ~xw·（−Fy）+tΣ0w·F（一）1ItI0S+ 11，分别。Ft0=（1−t）Σw+tΣw（）×s+101 10（1 −t）Σ w·F+tw·（−F）01当前规模s的总流量，即，F~s=Fs+1↑2Ft1=（1−t）Σw+tΣw，F10 = F102.要更新当前的初始流程，请执行以下操作：第一次，C和C都被初始流扭曲了也就是C~s =W（F~s， C~ s）和C~s =W（F~s，Cs），re-其中x表示在时间t处的像素位置，并且y表示在时间t处的像素位置。0或1。01- 02 - 2008刘晓波（|x −（y + F y）|）是高斯权重其中，W是反向扭曲操作[17]。然后，C~s、C~s、 C~s、 C ~s与F~s、F~s一起被馈送到取决于时间t处的x与时间t处的y+Fy之间的距离。次我基于自动编码器的BiFlownet，如图2所示。4输出残油，[31]每一个人都有自己的一份工作。-Fy（或-Fy）初始流程之上的实际流程和可训练的重要性我和y y0t1t掩码z[31]。然后得到Fs，Fs。然后喂它们F1·（1-t）（或F0·（1-t）） 1（或Eq. 2）定义为01 10作为BiOF-T模块的输入，也用作下一个尺度s-1的初始流。BiOF-T模块。在下文中，我们省略了每个尺度下的特征张量的概念的上标s，除非另有说明。虽然光流F01、F10[18]或F0t、F1t[47]的流动反转的线性近似允许估计任意时间t的流动Ft0、Ft1，但几乎没有缺点。由于F01和F10的锚点严重错位，因此线性近似不准确，无法预测快速移动物体的Ft0和Ft1另一方面，流动反转可以对齐锚点，但在估计的Ft0和Ft1中可能出现孔。为了稳定流动反转的性能，我们采用线性近似和负锚流和互补流。此外，锚流是归一化流，可以计算为F0t=tF01和F1t=（1 t）F10到中间时间t。应该注意到在Eq。1和等式 2的互补流也被归一化为F1·（1-t）=tF10和F0·（1-t）=（1t）F01，这完全填充了反向流中出现的空穴。通过这样做，我们可以充分利用时间密集捕获的X4 K1000 FPS数据集来训练我们的XVFI-Net在任意时间t的VFI。x的邻域定义为：N0={y |round（y + F0t）= x}（3）N1={y |round（y + F1t）= x}。（四）为了细化双向流，近似F~t0，F~t1，流动逆转因此，从时间t我们重新扭曲特征图（C0，C1），C~t0和C~t1yyn0的~x（二）s01n0的（= 0或1），同时考虑可学习的重要性-14493可以通过负锚流和互补流的归一化线性组合我们称之为互补流反转（CFR）。给出从时间t到0和1的所得互补反转光流图F〜t0和F〜t1，由Ft0和Ft1，分别表示。我们将C0 、C1、C~t0、C~t1和F~t0、F~t1级联并馈送到自动编码的基于r的TF 1 〇 wnet，如图1B所示。 4（类似于细化F~0 1，F~1 0）。TFlownet的输出用于组成细化流Ft0、Ft1然后将其双线性放大（×M）到14494zs01zs10FTS 0FTS 1I到0，~sIt1，~sMs不0110t1不的t0×F−.不Is=t0t1+Is被传送到下一个刻度xItc）· F-Ti合金t1Fs，Fstoscale（s1）规模s0110S sCs1，Cs 1我-我0 1BiOF-I模块规模M翘曲翘曲BiOF-T01聚合特征循环转化率（步幅2）S ~s~s，Fs，st~s~ss，C0，C01，F01BiFlownet01Ft0，Ct0，C0TFlownet细化~sS ~s~ss~ s~ssBlockIrC1 C10F10F10Ft1 Ct1 C1放大Fs 1，Fs 1（从比例（s1））CFR当量⑴-⑷双线性放大（M）翘曲混合Eq. (5)01 10图4.我们提出的XVFI-Net的架构规模s。我s。在空间上减小尺寸的情况下，M有三个优点：（i）扩大的感受野，（ii）无论BiOF-I从哪个尺度水平开始，在推断期间的原始尺度（s=0），其被表示为降低计算成本和（iii）平滑光流。浅橙色的箭头。由于Fs和Fs是该策略最大限度地提高了基于流的VFI的优势，与基于幻觉的方法相比，基于流的VFI可以充分利用原始输入帧的纹理信息，通过估计流对其进行扭曲，而基于幻觉的方法在从缩小的特征通过BiOF-I模块（从上一个标度到下一个标度级别）跨越不同标度级别的唯一信息，如图所示。3，我们只递归地传递两个光流，直到达到原始尺度水平。然后，BiOF-T模块处理Fs=0和Fs=010 01地图上述按比例放大的流程用于扭曲输入，以仅在原始比例级别估计Fs=0和Fs=0t1t 0把我和我的框架变成我和我，尊重我。的这在建筑上是非常有益的，因为（i）BiOF-0 1t 0t 1Cs， Cs，C~s，C~s， F s， F s， Is，I~s，I~s和I~s都是一群--I模块负责通过以下方式稳定地捕获极端运动0 1t 0t 1t 0t 10 1t 0t 1门控以馈送到基于U-Net [36]的精炼块。然后，最终使用所生成的遮挡掩模m~ s和残差图像I~s两者来混合被包裹的帧I~s递归地学习跨多个尺度级别的输入时间实例0和1之间的双向流，以及（ii）BiOF-T模块精确预测双向流动R而我，也就是我，也就是我，的t0仅从任何目标时间t到时间0和1基于稳定估计的流量Fs=0和Fs=0，（1−t）·ms·I~s+t·（1−ms）·I~s不像RRPN[50]。10 01（1−t）·ms+t·（1−ms）其中，I=s是每个标度级别s的最终结果。损失函数。我们采用多尺度重建损失来训练我们的XVFI-Net的共享参数。为了进一步促进所获得的光流的平滑度，一阶边缘感知平滑损失用于F0和4.3. 可调节且高效的可扩展性可调整的可扩展性。图3示出了我们的XVFI-Net的VFI框架，其可以通过1/2s循环缩小上下文特征图C0和C 2 ，从任何尺度级别开始。0在原来的规模[19]。总损失函数是两个损失函数的加权和，如下所示：Ltotal=Lr+λs·Ls（6）00LΣStrns−s0110C（七）（八）C1，并预测最粗糙的光流来捕获前有效地运动。那么估计的流量Fs，Fsr=s=0ItΣIt12Σ。0的情况。0的情况。s1，流量是向上的逐渐追溯到原始的尺度s=0。我们的目标是可以决定用于推断的尺度的数量，适应于输入帧的空间分辨率和运动幅度的程度，即使在一次训练之后。为了将XVFI-Net学习推广到任何尺度水平的输入，等式中的多尺度重建损失在训练期间，对于所选择的尺度深度S trn，对每个输出I？s应用7。有效的可扩展性。如图3中，通过BiOF-T模块的计算总是发生在我（五）Ls=i=0，1exp（−e不R14495×其中c、e2和x表示颜色通道索引，边缘加权因子和空间坐标。5. 实验结果建议的 X-TRAIN 数据集包含 4 ， 408 个片段768768的大小和65个连续帧的长度。每个训练样本都是从每个片段中随机提取的。训练样本被定义为14496×××××××××具有两个输入帧（I0，I1）和一个目标帧（It，0

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

极限视频帧插值：XVFI-Net：4K分辨率1000 fps的极限运动视频处理模型的研究

最新资源

极限视频帧插值：XVFI-Net：4K分辨率1000 fps的极限运动视频处理模型的研究

帧率转换中的运动补偿插值算法研究.pdf

优化 LengthText.text = "长：---- 米"; WidthText.text = "宽：---- 米"; DeadWeightTonnageText.text = "载货量：---- T"; ArriveDataText.text = "--h--m"; AnchorageArriveDateText.text = "--:--:--"; AnticipatedArrivalTimeText.text = "--h--m"; CompleteDateText.text = "--:--:--";

1.练习双向绑定和单向绑定 界面如下所示： ------------------ 货物数量：[文本框--双向绑定货物数量] 货物数量：[文本框--单向绑定货物数量] 货物数量：{{ 插值显示货物数量 }}

matlab插值例题

Lagrange插值、Newton插值或B-spline插值的对比

自适应样条插值增强(s-s pline_ xl)

paddleGAN中 补帧模型DAIN 上色模型DeepRemasterPredictor 图像超分辨率模型RealSRPredictor 视频超分辨率模型PPMSVSR 视频超分辨率模型BasicVSR系列 用了什么算法

各个插值法的长处与短处

MATLAB所有的差值，三维差值

使用Focal Loss时报错RuntimeError: CUDA error: device-side assert triggered

correlation score interpolation strategy: 0 - off, 1 - feature grid, 2 - pixel grid, 4 - Newton's method解释

三次样条插值代码matlab

scipy.interpolate内有什么插值函数？

为了提高模型求解效率，运用分段线性插值与Big-M方法将原模型转化为混合整数线性规划问题。

matlab设置四个控制点绘制包含100个插值点的B样条准均匀曲线的代码

这个newton插值法的matlab实现，输出为一个newton插值函数

3d-lmnet模型组成

cv::INTER_NEAREST：最近邻插值 cv::INTER_LINEAR：双线性插值（默认） cv::INTER_CUBIC：双三次插值 cv::INTER_AREA：区域插值 cv::INTER_LANCZOS4：Lanczos插值原理

拉格朗日插值与hermite插值的优缺点

最新资源

1.练习双向绑定和单向绑定界面如下所示： ------------------ 货物数量：[文本框--双向绑定货物数量] 货物数量：[文本框--单向绑定货物数量] 货物数量：{{ 插值显示货物数量 }}

paddleGAN中补帧模型DAIN 上色模型DeepRemasterPredictor 图像超分辨率模型RealSRPredictor 视频超分辨率模型PPMSVSR 视频超分辨率模型BasicVSR系列用了什么算法