自适应动态框架：高效视频帧插值的局部自适应推理

71 浏览量更新于2023-10-15 收藏 24.8MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13839138400所有输入的分辨率都可能丢失详细的纹理信息，并且会显著降低插值性能，而使用更浅的模型同样会降低平均质量。为了解决这个问题，我们提出了一种新颖的动态框架，可以自适应地决定哪些特定的局部区域适合执行此类操作。图1展示了我们模型的输出，其中“安全”区域要么缩小，要么通过较少的层数传递，或者两者都可以以减少计算复杂性并最小化性能降低。为了使所提出的框架能够动态地为每个局部区域分配适当的计算量，我们使用两个小型元网络来估计是否缩小输入或在不经过完整模型的情况下提前退出插值模型。SD（Scale andDepth）-finder的输入是两个输入帧之间的近似运动，通过简单的差异图像或光流估计模型计算得出。然后，我们将输入帧分成多个局部区域，以便可以为每个区域分配不同数量的计算量，与SD-finder预测的相应比例和深度相关。最终的插值是通过聚合所有区域的输出获得的。总之，所提出的新颖动态模型实现了针对高效帧插值的局部自适应推理，通过使用运动量作为复杂性标准，有效地分配适当的计算量来预测输入比例和模型深度。与基线帧插值模型相比，实验结果表明，当插值2K分辨率帧时，我们的框架可以节省近50%的计算量，而几乎不会损失性能。此外，我们分析了准确性和资源之间的权衡，以研究使视频帧插值模型更加实用的缺失部分。02.相关工作02.1.视频帧插值0基于深度学习的视频帧插值研究可以分为三个方向：基于流的方法，基于核的方法和其他方法。视频帧插值的标准技术旨在显式估计以光流形式表示的运动，将两个输入帧变形到中间时间步长，并合成遮挡区域[12,47]。这些方法在如何更好地补偿运动边界处的遮挡区域方面引入了许多新颖的思想，包括在体素空间中估计流[26]，学习适用于帧插值的无监督或微调的光流[17,53]，使用额外的上下文进行更好的合成[2,3,35,40]，递归地改进估计的流和变形输出[22]，以及用于softmax平铺的0有效的前向变形[36]。虽然能够生成锐利和清晰的插值，但显式运动估计和帧合成的顺序过程可能会增加模型的计算复杂性。基于核的方法，也称为自适应卷积，是由Niklaus等人首次在帧插值中提出的[37]，他们将运动估计和补偿统一为具有空间变化的核预测的单个卷积步骤。从那时起，通过使用可分离卷积[38,39]，将自适应核预测扩展为可变形[7,21]，与光流估计相结合[2,3,44]，或将其制定为损失函数[43]等新颖思想取得了很大进展。不使用自适应核或光流的帧插值方法包括基于相位的方法[32,33]，或使用深度网络进行直接像素级合成[10,27]。还有一些有趣的研究方向，利用循环一致性[25,45]，研究非线性运动模型[24,41,52]，或将帧插值与其他视频处理任务（如去模糊[18,46]，超分辨率[20,57]或稳定[8]）联合考虑。虽然这些方法在性能方面表现出色，但如何使模型在计算上更加高效的研究较少。最近，提出了一种压缩驱动的插值网络[11]，并展示了令人印象深刻的性能和效率。我们采用一种替代方法，并提出了一种新颖的动态框架来减少现有模型的计算量，使它们在实际应用中更加实用。注意，[11]和我们的方法是正交的，可以共同应用。2.2.自适应推理0现有的使模型适应其当前输入的方法通常旨在提高网络推断的计算效率。值得注意的研究方向包括通过早期退出动态更改推断路径[4,15]，将自适应计算时间分配给不同的空间区域[13,48]，自适应跳过某些层或残差块[49,51]，或自适应地改变输入图像的空间分辨率[30,54]。这些努力中的许多都专注于在保持整体准确性的同时战略性地节省计算资源，然而，它们的有效性仅在标准图像/视频分类或检测任务中得到证明。最近，一些技术被应用于低级计算机视觉应用，包括用于图像去噪的动态推断路径选择[55,56]或用于图像超分辨率的空间稀疏卷积[23]。然而，许多在分类问题中取得的进展并不直接适用于低级任务。例如，尽管改变输入分辨率[30,54]被证明对于考虑视觉数据的高级语义的问题是有用的，但由于缩小会显著降低低级问题的性能，因此对于低级任务来说，这种方法可能会导致性能下降。13841ˆIpt = H (Ip0, Ip1 | sp, dp)(4)= fsp�h�(Ip0)↓sp, (Ip1)↓sp�dp��,(5)msp = one hot�arg maxk[gk + logπk]�,(6)τ].(7)ˆIpt = fsp (h (·, · | dp)) = fspˆIpt =msp,i · fsp138420d p。同时，将 ( I p 0 ) ↓ s p 和 ( I p 1 ) ↓ s p分别表示为通过缩放因子 s p 缩小的 I p 0 和 I p 1。将 f sp 作为超分辨率模型，h 作为插值模型，H作为完整的组合模型，计算插值的子区域ˆ I p t 如下：0其中 H 和 h 允许根据 d p进行早期退出。我们的最终输出是通过合并所有插值的子区域生成的。在接下来的章节中，我们将描述详细的训练过程以及如何使每个组件可微分，从而实现端到端的可训练性。03.2. 规模和深度查找器（SD-查找器）0我们提出的SD-查找器的作用是决定我们动态框架中的推断路径，从而为每个局部区域分配适当的计算量。SD-查找器的两个组成部分，ScaleNet和DepthNet，接收不同的输入并且不共享任何参数。具体来说，流场的大小（Fmag）通过ScaleNet传递以生成尺度图 s，而图像 I ↓ 0 − I↓ 1 的差异用作输入到DepthNet以生成深度图 d。s 和 d的大小分别为 R n s × n h × n w 和 R n d × n h × nw，其中 n s 是缩放因子的数量，n d是我们插值模型的完整深度。在实践中，我们使用 n s = 3表示缩放因子为1、2和4的三个因子，n d = 5表示CAIN中残差组的数量。首先考虑 p-th局部区域的尺度变量 s p。在设置缩放因子 s i（i = 1, 2, ...,n s）之后，我们将 π i 定义为选择缩放因子 s i的概率。根据 π 1，π 2，...，π n s的分类分布，我们可以使用 Gumbel-Max技巧[29]抽取离散样本 m s p，0其中 g j � Gumbel(0, 1)是独立同分布的噪声样本。然而，从分类分布中进行采样使得我们的框架不可微分。因此，我们使用Gumbel-Softmax技巧[16, 28]将 m s p 松弛为连续值，用 softmax函数替换公式（6）中的 argmax 操作。m s p 的第 i个元素计算如下：0m s p，i = exp [( log ( π i ) +g i ) /τ ] �0我们在实验中使用固定的温度τ =1。尽管连续的松弛使得我们的模型在反向传播中可微分，但是在正向传播中选择规模路径仍然需要是离散的。因此，我们0使用Straight-Through（ST）Gumbel-Softmax技巧[16]，使得msp可以像公式（6）中那样在前向传递中是离散的，在反向传递中是连续的，如公式（7）所示。在测试时，会对离散掩码进行采样，但在应用argmax操作时不会添加gumbel噪声gj以消除随机性。深度变量dp的处理与sp类似。可以通过采样离散深度mdp，即dj的one-hot表示，来执行公式（6）中的操作，并通过公式（7）获得其连续松弛。使用离散深度进行训练也使用STGumbel-Softmax技巧。请注意，运动幅度的计算（公式（1）-（2））和通过SD-�nder的传递（公式（3））是原始CAIN模型中不存在的额外组件。因此，为了使这种额外计算最小化，我们将架构简化为极其简单的3层CNN作为我们的尺度/深度网络的架构。由于在计算运动幅度之前我们还会对输入帧进行降采样，所以通过计算公式（1）-（3）引起的额外计算量仅为原始完整模型的1-5％，对于更高的输入分辨率则可以忽略不计。03.3. 动态插值模型0在本节中，我们将描述如何修改基线插值模型（CAIN，表示为h）以实现动态多尺度路径和允许早期退出。如图2所示，输入帧的每个局部区域都会根据尺度si进行降采样。尺度样本的one-hot表示msp（参见公式（6））在{0,1}中具有二进制值，可以用作掩码变量。然后，使用公式（4）计算的输出插值可以表示为0ˆ I p t 0i m s p,i ∙ H ( I p 0 , I p 1 ; s i , d p ) .(8)0使用第3.2节中描述的STGumbel-Softmax技巧，我们可以通过每个尺度的推理路径的离散切换进行微分。为了合并深度变量dp，我们将nd设置为插值模型h（图2中的A�-E�）的出口数量。将h（CAIN的残差组）的每个计算块的输出表示为Bpj，（j = 1,2，...，nd），我们可以将公式（5）中的表达式改为0�0j m d p,j ∙ B p j0� . (9)0类似于切换尺度，我们也可以使用STGumbel-Softmax技巧来通过深度切换进行微分。如果我们考虑尺度和深度的所有掩码变量，那么当前局部区域p的最终插值可以计算为0n s0j =1 m d p,j ∙ B p j0� . (10)1https://media.xiph.org/video/derf/138430我们可以通过合并所有无重叠的子区域来获得完整的帧预测ˆIt。03.4. 训练0目标我们使用两种类型的目标函数：重构损失Lr用于衡量插值准确性，资源感知正则化项R用于减少计算复杂性。我们使用标准的像素级ℓ1损失作为Lr。对于R，我们遵循神经架构搜索的研究领域中使用的方法[6，19，50]，计算动态模型的每个组件的浮点操作（FLOPs）数量，并直接将其用作正则化项。具体来说，由于总操作数与输入大小成比例，我们将其分为空间维度并计算每像素的FLOPs。假设我们将计算模型FLOPs的函数表示为C。给定具有尺度si和深度dj以及相应的one-hot掩码向量msp，mdp的固定推理路径，可以计算局部区域p的计算资源为0Rp =0ns 0i = 10j = 1 m sp,i ∙ md p,j ∙ C (H (∙, ∙ ; si, dj))。0将所有区域组合起来，最终的每像素FLOPs变为0R = 10H×W0np �0p = 1 |p| ∙ Rp，0其中H和W是原始输入分辨率的高度和宽度，|p|是p的面积，np（=nh×nw）是局部区域的数量。请注意，在实践中，如果我们使p与其相邻区域重叠以减轻边界效应，�np p =1|p|可以大于H×W。最终的目标函数将这两个项结合起来，使用超参数λ来控制准确性和效率之间的权衡：0Ltotal = Lr + λR。0使用较小的λ将推动模型使用原始分辨率和完整的深度以实现更高的准确性，但计算量更大。较大的λ将通过适当降低空间分辨率以及尽早退出插值模型来使模型更加高效，但性能可能相应下降。0课程训练虽然我们的框架是可微分的，但一次性端到端学习所有组件会导致不稳定的训练，这归因于每个推理路径的高度离散化的FLOPS。因此，我们将训练分为几个步骤，并设计训练课程如下：01.预训练帧插值模型的基线多出口版本（CAIN，h），使得任何出口的输出Bj，j = 1，...，nd都显示出良好的插值效果。02.使用不同的出口，联合训练SD-�nder的DepthNet、插值网络（h）和超分辨率网络（f）。对于这一步，我们将尺度固定为原始输入分辨率。03. 固定DepthNet的参数，并与h和f一起训练ScaleNet，直到收敛。0在步骤1中，计算复杂度是固定的，因此我们只使用Lr来训练模型。另一方面，步骤2和步骤3包含了包括资源感知正则化的完整目标。然而，由于我们将深度估计（步骤2）和尺度估计（步骤3）的训练分解，可以将公式（11）中的每像素资源消耗的计算减少为（见补充材料）0R p = λ s0i = 1 m s p,i ∙ C � H i, ˆ d � + λ d0j = 1 m d p,j ∙ C (Hˆ s,j)，0（14）其中我们滥用符号Hi,j来表示通过H(∙, ∙, ; si,dj)的推理路径，ˆs和ˆd分别表示固定的尺度和深度。04. 实验04.1. 数据集0在这项工作中，我们使用了3个数据集进行训练和评估。Vimeo-90K[53]是一个广泛使用的数据集，因为它具有干净、高质量的帧，噪声很少。然而，它的空间分辨率较小（448×256），不适合训练旨在处理具有极大运动的高分辨率帧的模型。因此，我们只使用Vimeo-90K进行我们的训练课程的第一步。REDS-120fps[34]是一个具有挑战性的高帧率视频数据集，最近公开发布，所有帧都是高清分辨率（1280×720）。我们使用REDS-120fps训练剩余的步骤（2和3），通过随机采样三个连续帧，其中一个帧间隔为1（60→120fps）或两个帧间隔为2（30→60fps）。对于验证，我们在30→60fps设置中对验证集中每个序列的前50帧进行评估，因为30fps在许多真实世界的视频中很常见。Xiph1视频用于[36]中的评估，并且我们遵循类似的设置。虽然原始帧接近4K分辨率（4096×2160），但我们使用降采样版本作为Xiph-2K（2048×1080），使用中心裁剪版本作为Xiph-“4K”，分辨率为2K，但运动幅度级别为4K。Xiph-2KXiph-“4K”SepConv [38]2.07811.070.21834.850.93082.07811.100.21932.100.8861SuperSloMo [17]2.95717.860.33733.880.92472.95718.120.35231.990.8800AdaCoF + [21]5.43326.700.51835.090.93095.43326.720.52232.190.8818DAIN [2]13.2266.434.61935.970.940013.2266.454.62033.510.8983CAIN [10]3.13310.640.22535.210.93663.13310.350.23932.560.9005CAIN [10]1.3054.150.10328.620.8303CAIN-S1.5074.760.12728.580.8281CAIN-D1.0083.670.10128.290.8214CAIN-SD0.8823.820.12228.320.8212138440表1. 在Xiph视频上提出的框架的定量结果。计算复杂度以Tera-FLOPs（TFLOPs）和CPU/GPU时间（秒）进行测量，性能以PSNR（dB）和SSIM进行测量。0TFLOPs ↓ CPU时间 ↓ GPU时间 ↓ PSNR ↑ SSIM ↑ TFLOPs ↓ CPU时间 ↓ GPU时间 ↓ PSNR ↑ SSIM ↑0CAIN-SD（我们的方法）1.598 8.83 0.237 34.68 0.9235 1.983 9.25 0.242 32.92 0.89340表2. REDS-120fps上的验证集性能。0TFLOPs ↓ CPU时间 ↓ GPU时间 ↓ PSNR ↑ SSIM ↑04.2. 实现细节0总体上，我们遵循原始CAIN [ 10]的细节。我们使用PWC-Net [ 47]进行光流估计，并使用CARN的迷你版本CARN-M [ 1]进行图像超分辨率（SR）模型。我们使用256×256的补丁大小来训练插值模型。然而，为了计算SD-�nder的输入，我们将输入帧缩小到最小边长为192，以保持额外计算的最小化。我们使用PyTorch [ 42]框架进行所有实现。我们使用一块NVIDIA QuadroRTX6000进行训练，也用于测量测试时间。代码和预训练模型将公开以便复现和进一步研究。有关额外的训练细节，请参阅补充材料。04.3. 定量比较0度量标准。对于计算复杂度，我们计算浮点运算次数（FLOPs）和CPU和GPU的实际运行时间（延迟）。对于性能指标，我们使用标准的峰值信噪比（PSNR）和结构相似性指数（SSIM）。0比较的模型。我们报告了三个使用CAIN作为基线的提出方法的变体。仅考虑SD-�nder的ScaleNet的版本只跳过我们训练课程的第2步，我们将其称为CAIN-S。对于这种设置，我们不使用多个退出并将插值模型的深度固定为最大（原始）。仅考虑SD-�nder的DepthNet的版本跳过第三个训练步骤，我们将其称为CAIN-D。最后，对于CAIN-SD，比例和深度都被自适应地减小，这是我们的最终版本。我们还报告了性能和计算复杂度0现有的帧插值模型：SepConv [ 38 ]，Su- perSloMo [ 17]，AdaCoF + [ 21 ]，DAIN [ 2 ]和CAIN [ 10 ]。0结果。Xiph-2K和Xiph-“4K”视频的定量结果如表1所示。对于Xiph-2K，我们的最终CAIN-SD模型可以将原始CAIN的FLOP减少49％，性能指标略有损失。然而，对于实际的CPU/GPU延迟，包括所有部分（光流估计，SD-�nder，插值和超分辨率），改进并不大；虽然CPU运行时间提高了17％，但CAIN-SD在GPU上运行的速度略慢于原始CAIN。这主要是由于SR模型的慢延迟；在236.7毫秒的平均GPU延迟中，SR模型单独消耗了71.3毫秒。其余部分确实通过在165.4毫秒内运行而变得高效。我们相信，通过与我们的框架一起学习更高效的SR模型，可以进一步减少CPU/GPU延迟，这将成为我们未来的工作。对于Xiph-“4K”，与基线相比，CAIN-SD可以节省36.7％的FLOP，并且PSNR更高。我们认为更高的性能是由于CAIN-SD的缩放能力。由于4K视频通常包含极大的运动（有时超过100个像素），使用现有模型进行插值或补偿是困难的。然而，通过缩小输入，有效的运动量通过缩放因子减少，我们的模型可以更好地找到正确的中间位置，如可视化结果所示（第4.4节）。我们相信进一步利用尺度空间对于处理高分辨率帧至关重要，这是未来研究的重点。请注意，尽管Xiph-2K和“4K”具有相同的空间分辨率，并且现有模型的FLOP保持不变，但所提出的方法自动保存计算以提高效率。与基线CAIN以外的现有帧插值模型相比，我们的CAIN-SD始终需要最小的FLOP和CPU运行时间。SepConv显示出最快的GPU延迟，但FLOP更多；此外，CAIN-SD对于Xiph-“4K”的性能明显优于SepConv，PSNR增益超过0.8dB。DAIN显示出最佳性能，但计算量非常大。与SuperSloMo和AdaCoF+相比，CAIN-SD在所有指标上的计算效率更高13845with a large margin. We attribute this phenomenon to themismatch between the ratio between λs and λd. Though weﬁx each hyperparameter to examine its effects separately138460表3.资源感知正则化超参数的影响。我们报告Xiph-2K视频的定量结果。0λs λd TFLOPs ↓ PSNR ↑ SSIM ↑05×10−9 5×10−10 2.154 33.94 0.9178 5×10−11 1.59834.68 0.9235 5×10−12 3.804 35.33 0.933405×10−11 1.827 31.10 0.8599 5×10−9 1.598 34.680.9235 5×10−10 1.699 34.71 0.92440具有大运动的视频。有关不同场景的其他定性比较，请参阅我们的项目页面：https://myungsub.github.io/adaptive-int。04.5.消融研究0我们分析了我们提出的框架的每个方面如何影响性能和效率之间的权衡。0准确性和资源权衡。在表3中，我们改变λs和λd来研究性能和FLOPs的变化。首先，我们将λs固定为我们最终CAIN-SD模型的值5×10−9，并修改λd。我们推测随着λd变小，资源感知正则化项减少，损失更多地由像素级重建误差主导，从而导致更高的性能。然而，λd= 5×10−10的FLOPs高于λd = 5×10−90λs =0.01被认为是实践中控制准确性和资源权衡的良好比例。固定λd并变化λs也显示出类似的现象，其中性能随着λs的减小而增加。然而，当λs =5×10−8时，我们观察到SD-�nder预测的尺度极化为缩小4倍或保持原始分辨率。我们认为使用如此大的缩放因子进行缩小会过度丢失图像细节，使得区域无法恢复性能。由于其他区域必须弥补低性能，它们保持在原始尺度并导致FLOPs变大。0补丁大小的影响。虽然我们方法的训练补丁大小固定为256，但我们可以在推理阶段改变补丁大小，因此我们在表4中研究了其影响。对于'fullframe'，我们将整个输入帧视为一个单独的大补丁。然而，在全帧测试设置中，性能显著下降，因为整体上进行了输入的降采样或模型的提前退出，并且具有详细纹理的区域过度平滑。512的大补丁大小由于相邻补丁的更大重叠大小而显示出更高的性能。当我们使用小的补丁大小128时，0表4. Xiph-2K推理阶段补丁大小的影响。0测试TFLOPs ↓ GPU时间 ↓ PSNR ↑ SSIM ↑0全帧 1.530 222.2 33.24 0.8972 512 2.190 304.0 34.880.9248 256 1.598 236.7 34.68 0.9243 128 1.712 266.633.89 0.91840准确性远低于256，即使有更多的FLOPs。我们认为这是由于输入帧的高分辨率，SD-�nder可能无法决定适当的比例和深度，因为空间上下文有限。256的补丁大小的结果最接近准确性和资源权衡的最佳值，这解释了为什么我们选择256进行所有其他实验。0改变SD-�nder的输入和权重。对于我们的SD-�nder，ScaleNet接收光流估计的幅度作为输入，DepthNet接收差异图像。使用其他输入模态的组合并没有显示出任何改进；例如，1）使用两种模态的结果与稍微更多的FLOPs相同，2）没有光流幅度输入的ScaleNet或没有差异图像输入的DepthNet结果明显更差，3）使用RGB图像作为额外输入也会降低准确性和计算复杂性。有关更详细的结果和分析，请参阅我们的项目页面。05. 结论0在这项工作中，我们利用现有视频帧插值模型的准确性和资源的权衡，并提出了一个动态框架来提高其计算效率。所提出的SD-�nder通过决定两个输入帧之间的运动水平，自适应地估计输入分辨率（尺度）和模型深度，通过分配适当的计算量为每个局部区域决定推理路径。这是通过允许我们的插值模型具有多个出口并结合超分辨率模型来恢复下采样输入的纹理细节来实现的。因此，实验结果表明，与基线相比，所提出的框架平均可以节省近50％的FLOP，同时保持插值质量。我们的框架在高分辨率场景中特别有效，在这些场景中，许多现有方法即使在高计算成本下也无法生成准确的插值。0致谢本工作得到了韩国政府IITP资助的IITP资助[编号2021-0-01343，人工智能研究生院项目（首尔国立大学）]的支持，以及通过HMC/KIA-SNUAI联合基金在现代起亚汽车公司的AIRS公司的支持。138470参考文献0[1] Namhyuk Ahn，Byungkon Kang和Kyung-AhSohn。快速，准确和轻量级的级联残差网络超分辨率。在ECCV，2018年。60[2] 鲍文博，韦伟胜，马超，张晓云，高志勇和Ming-HsuanYang。深度感知视频帧插值。在CVPR，2019年。1，2，60[3] 鲍文博，韦伟胜，张晓云，高志勇和Ming-HsuanYang。Memc-net：运动估计和运动补偿驱动的视频插值和增强神经网络。arXiv预印本arXiv:1810.08768，2018年。20[4] Tolga Bolukbasi，Joseph Wang，Ofer Dekel和VenkateshSaligrama。用于高效推理的自适应神经网络。在ICML，2017年。20[5] Tim Brooks和Jonathan TBarron。学习合成运动模糊。在CVPR，2019年。10[6] Han Cai，Ligeng Zhu和SongHan。ProxylessNAS：在目标任务和硬件上进行直接神经架构搜索。在ICLR，2019年。50[7]程贤航和陈振中。通过可变形可分离卷积进行视频帧插值。在AAAI，2020年。20[8] Jinsoo Choi和In SoKweon。用于全帧视频稳定的深度迭代帧插值。ACM Transactionson Graphics（TOG），39（1）：1-9，2020年。1，20[9] Myungsub Choi，Janghoon Choi，Sungyong Baik，Tae HyunKim和Kyoung MuLee。通过元学习实现场景自适应视频帧插值。在CVPR，2020年。30[10] Myungsub Choi，Heewon Kim，Bohyung Han，Ning Xu和KyoungMuLee。通道注意力是视频帧插值所需的全部。在AAAI，2020年。1，2，3，60[11] 丁天宇1，梁路明，朱志辉和IlyaZharkov。Cd�：用于帧插值的压缩驱动网络设计。在CVPR，2021年。20[12] Alexey Dosovitskiy，Philipp Fischer，Eddy Ilg，PhilipHausser，Caner Hazirbas，Vladimir Golkov，Patrick Van DerSmagt，Daniel Cremers和ThomasBrox。Flownet：使用卷积网络学习光流。在ICCV，2015年。20[13] Michael Figurnov，Maxwell D Collins，Yukun Zhu，LiZhang，Jonathan Huang，Dmitry Vetrov和RuslanSalakhutdinov。用于残差网络的空间自适应计算时间。在CVPR，2017年。20[14] Yuan Gao，Reinhard Koch，Robert Bregovic和AtanasGotchev。快速：用于密集采样光场重建的流辅助剪切变换。在ICIP，2019年。10[15] 高煌，陈丹璐，李天宏，Felix Wu，Laurens van derMaaten和Kilian QWeinberger。多尺度密集网络用于资源高效的图像分类。在ICLR，2017年。20[16] Eric Jang，Shixiang Gu和BenPoole。具有Gumbel-Softmax的分类重参数化。在ICLR中，2017年。40[17] Huaizu Jiang，Deqing Sun，Varun Jampani，Ming-HsuanYang，Erik Learned-Miller和Jan Kautz。Superslomo：用于视频插值的多个中间帧的高质量估计。在CVPR中，2018年。2，60[18] Meiguang Jin，Zhe Hu和PaoloFavaro。学习从模糊视频中提取完美的慢动作。在CVPR中，2019年。20[19] Heewon Kim，Seokil Hong，Bohyung Han，HeesooMyeong和Kyoung MuLee。细粒度神经架构搜索。arXiv预印本arXiv:1911.07478，2019年。50[20] Soo Ye Kim，Jihyong Oh和MunchurlKim。Fisr：具有多尺度时间损失的深度联合帧插值和超分辨率。在AAAI中，2020年。20[21] Hyeongmin Lee，Taeoh Kim，Tae youngChung，Daehyun Pak，Yuseok Ban和SangyounLee。Adacof：自适应流的视频帧插值。在CVPR中，2020年。2，60[22] Haopeng Li，Yuan Yuan和QiWang。通过残差细化进行视频帧插值。在ICASSP中，2020年。20[23] Ming Liu，Zhilu Zhang，Liya Hou，Wangmeng Zuo和LeiZhang。用于单幅图像超分辨率的深度自适应推理网络。在ECCVWorkshops中，2020年。20[24] Yihao Liu，Liangbin Xie，Li Siyao，Wenxiu Sun，Yu Qiao和ChaoDong。增强二次视频插值。arXiv预印本arXiv:2009.04642，2020年。20[25] Yu-Lun Liu，Yi-Tung Liao，Yen-Yu Lin和Yung-YuChuang。使用循环帧生成的深度视频帧插值。在AAAI中，2019年。20[26] Ziwei Liu，Raymond A Yeh，Xiaoou Tang，YimingLiu和AseemAgarwala。使用深度体素流进行视频帧合成。在ICCV中，2017年。20[27] Gucan Long，Laurent Kneip，Jose MAlvarez，Hongdong Li，Xiaohu Zhang和QifengYu。通过观看视频学习图像匹配。在ECCV中，2016年。20[28] Chris J Maddison，Andriy Mnih和Yee WhyeTeh。具体分布：离散随机变量的连续松弛。ICLR，2017年。40[29] Chris J Maddison，Daniel Tarlow和TomMinka。A*采样。在NIPS中，2014年。40[30] Yue Meng，Chung-Ching Lin，Rameswar Panda，PrasannaSattigeri，Leonid Karlinsky，Aude Oliva，Kate Saenko和RogerioFeris。Ar-net：自适应帧分辨率用于高效动作识别。在ECCV中，2020年。20[31] Simone Meyer，Victor Cornill`ere，AbdelazizDjelouah，Christopher Schroers和MarkusGross。深度视频颜色传播。在BMVC中，2018年。10[32] Simone Meyer，Abdelaziz Djelouah，BrianMcWilliams，Alexander Sorkine-Hornung，MarkusGross和ChristopherSchroers。Phasenet用于视频帧插值。在CVPR中，2018年。20[33] Simone Meyer，Oliver Wang，Henning Zimmer，MaxGrosse和AlexanderSorkine-Hornung。基于相位的视频帧插值。在CVPR中，2015年。20[34] Seungjun Nah，Sanghyun Son，Radu Timofte和KyoungMu Lee。Aim 2019视频时域超分辨率挑战：方法和结果。在ICCVWorkshops中，2019年10月。50[35] Simon Niklaus和FengLiu。上下文感知合成用于视频帧插值。在CVPR中，2018年。20[36] Simon Niklaus和FengLiu。用于视频帧插值的Softmax喷洒。在CVPR中，2020年。1，2，5138480[37] Simon Niklaus, Long Mai和FengLiu。通过自适应卷积进行视频帧插值。在CVPR中，2017年。20[38] Simon Niklaus，Long Mai和FengLiu。通过自适应可分离卷积进行视频帧插值。在ICCV中，2017年。2，60[39] Simon Niklaus, Long Mai, and Oliver Wang.重新审视适应性卷积用于视频帧插值。arXiv预印本arXiv:2011.01280，2020年。20[40] Junheum Park, Keunsoo Ko, Chul Lee, and Chang-Su Kim.Bmbc：双边运动估计与双边代价体积用于视频插值。在ECCV，2020年。 20[41] Sunghyun Park, Kangyeol Kim, Junsoo Lee, Jaegul Choo,Joonseok Lee, Sookyung Kim, and Edward Choi.Vid-ode：使用神经常微分方程进行连续时间视频生成。arXiv预印本arXiv:2010.08188，2020年。 20[42] Adam Paszke, Sam Gross, Soumith Chintala, GregoryChanan, Edward Yang, Zachary DeVito, Zeming Lin, Al- banDesmaison, Luca Antiga, and Adam Lerer.PyTorch中的自动微分。2017年。 60[43] Tomer Peleg, Pablo Szekely, Doron Sabo, and OmrySendik. Im-net用于高分辨率视频帧插值。在CVPR，2019年。 20[44] Fitsum A Reda, Guilin Liu, Kevin J Shih, Robert Kirby, JonBarker, David Tarjan, Andrew Tao, and Bryan Catanzaro.Sdc-net：使用空间位移卷积进行视频预测。在ECCV，2018年。 20[45] Fitsum A Reda, Deqing Sun, Aysegul Dundar,Mohammad Shoeybi, Guilin Liu, Kevin J Shih, Andrew Tao, JanKautz, and Bryan Catanzaro.无监督视频插值使用循环一致性。在ICCV，2019年。 2，30[46] Wang Shen, Wenbo Bao, Guangtao Zhai, Li Chen,Xiongkuo Min, and Zhiyong Gao.模糊视频帧插值。在CVPR，2020年。 20[47] Deqing Sun, Xiaodong Yang, Ming-Yu Liu, and Jan Kautz.PWC-Net：使用金字塔、扭曲和代价体积的CNNs进行光流。在CVPR，2018年。 2，60[48] Thomas Verelst and Tinne Tuytelaars.动态卷积：利用空间稀疏性进行更快的推理。在CVPR，2020年。20[49] Xin Wang, Fisher Yu, Zi-Yi Dou, Trevor Darrell, andJoseph E Gonzalez.Skipnet：学习卷积网络中的动态路由。在ECCV，2018年。 20[50] Bichen Wu, Xiaoliang Dai, Peizhao Zhang, YanghanWang, Fei Sun, Yiming Wu, Yuandong Tian, Peter Vajda,Yangqing Jia, and Kurt Keutzer.Fbnet：通过可微分的神经架构搜索进行硬件感知的高效卷积网络设计。在CVPR，2019年。 50[51] Zuxuan Wu, Tushar Nagarajan, Abhishek Kumar, StevenRennie, Larry S Davis, Kristen Grauman, and Rogerio Feris.Blockdrop：残差网络中的动态推理路径。在CVPR，2018年。 20[52]

下载后可阅读完整内容，剩余1页未读，立即下载