基于元学习的视频帧内插方法的性能提升及其适用性分析

14 浏览量更新于2023-10-25 收藏 2.17MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于元学习的Myungsub Choi1 Janghoon Choi1 Sungyong Baik1 Tae Hyun Kim2 Kyoung Mu Lee11首尔国立大学欧洲经济学系ASRI 2汉阳大学计算机科学1{cms6539，ultio791，dsybaik，kirmmu}@ snu.ac.kr2taehyunkim@hanyang.ac.kr摘要视频帧内插是一个具有挑战性的问题，因为每个视频都有不同的场景，这取决于前景和背景运动、帧速率和遮挡的变化。因此，具有固定参数的单个网络难以在不同的视频中推广。理想情况下，每个场景都可以有不同的网络，但这对于实际应用来说在计算上是不可行的。在这项工作中，我们建议通过使用在测试时随时可用但在以前的作品中尚未利用的额外信息来使模型适应每个视频。我们首先通过对网络进行简单的微调来展示“测试时间适应”的好处我们获得显着的性能增益，只有一个单一的梯度更新，没有任何额外的参数。最后，我们证明了我们的元学习框架可以很容易地应用于任何视频帧插值网络，并且可以在多个基准数据集上持续提高其性能。1. 介绍视频帧内插的目的是通过在原始输入的相邻帧之间合成中间帧来提高视频的时间分辨率。由于其广泛的应用，包括慢动作生成和帧速率上转换，其提供具有更多细节和更少运动模糊的更好的视觉体验，视频帧内插在计算机视觉界获得了实质性的兴趣。用于视频帧插值的深度卷积神经网络（CNN）的最新进展[16，20，29，30，31，48]导致性能的显著提升。然而，生成高质量的帧仍然是一个具有挑战性的问题，由于大的运动和遮挡在一组不同的场景。以前的视频帧插值方法[16，20，29，30，31，48]，以及其他基于学习的视频处理模型[6，7，40，49，50]通常需要大量数据进行训练。然而，图1. 提出了视频帧内插方法的动机。我们的视频帧插值框架采用了测试时间适应过程，然后是场景适应推理。自适应过程利用来自输入帧的附加信息，并且仅通过对网络的单个梯度更新来快速执行。野生包括具有许多不同类型的低级图案的各种不同的场景。这使得单个模型很难在所有可能的测试用例上表现良好，即使是用大型数据集训练的。这个问题可以通过使模型适应特定的输入数据来缓解。利用仅在测试时可用的附加信息并针对每个测试数据样本定制模型已在许多领域显示出有效性。示例包括利用目标图像中固有的自相似性的单图像超分辨率方法[12，14，15，24，39]，或许多视觉跟踪方法，其中对输入视频序列的在线适应在性能上至关重要[8，10，27]。然而，大多数作品要么增加参数9444帧插值网络测试时间自适应帧插值网络帧插值网络情景适应推理9445或者需要相当多的推理时间来进行网络参数的测试时间适配。元学习，也被称为学习学习，可以向前迈出一步，以弥补目前在测试时间适应方面的局限性。元学习的目标是从测试阶段给出的少量训练样本中设计出能够快速适应新任务的算法或模型。它在解决少镜头分类/回归问题以及一些再学习应用方面已经获得了巨大的兴趣[11]，但是将Meta学习技术应用于低级计算机视觉问题还有待探索。为此，我们提出了一种场景自适应视频帧插值算法，可以在测试时快速适应新的，未看到的视频（或任务，在元学习的观点），并实现显着的性能增益。我们的方法的主要思想的简要概述说明如图1所示。该算法利用现有的视频帧内插框架，利用测试时的帧更新模型参数，并采用与传统方法相同的方法对中间帧进行内插。虽然该方法不适用于总长度小于3帧的视频，但大多数真实场景都有多个连续的帧，我们可以充分利用基于元学习的测试时间自适应方案。总体而言，我们的贡献总结如下：• 我们提出了一种新的自适应框架，可以进一步改善传统的帧内插模型，而不改变其架构。• 据我们所知，所提出的方法是第一次整合元学习技术的测试时间适应视频帧内插。• 我们确认，我们的框架不断改进，即使是最新的国家的最先进的方法。2. 相关作品在本节中，我们回顾了视频帧插值的大量文献。现有的测试时间适应计划，其他低层次的视觉应用和历史的元学习算法也进行了描述。视频帧插值：虽然视频帧插值有着悠久的历史，但我们专注于最近的基于学习的算法，特别是基于CNN的插值方法。Long等人首次尝试将CNN并入视频帧插值。[21]，其中内插作为光流估计的自监督学习的副产品获得从那时起，许多方法都集中在有效地建模运动和处理闭塞。Meyer等人[22，23]将运动表示为每像素相移，而Niklaus等人。[30，31]将运动估计和帧合成的顺序过程建模为单个空间自适应卷积步骤。Choi等人[9]使用具有通道注意力的简单前馈网络处理运动。另一条研究路线使用光流估计作为中间步骤（作为代理），并利用估计的运动图扭曲原始帧以进行对齐，然后进一步细化和遮挡处理以获得最终插值[3，4，16，19，20，29，47，48]。这些基于流的方法通常能够合成清晰和自然的帧，但是一些严重依赖于预先训练的光流估计网络，并且在流估计失败时具有大运动的情况下显示加倍最近，Baoet al. [3]另外使用深度图估计模型来补偿流量估计中的缺失信息，并有效地处理遮挡区域。测试时间自适应：与以前的工作相反，我们探索了一个正交的研究领域，适应在测试时的输入，以进一步提高给定的视频帧插值模型的准确性。我们的工作受到基于自相似性的方法在图像超分辨率中的成功的启发[12，14，15，24，39]。值得注意的是，最近的零炮超分辨率（ZSSR）的方法提出了由Shocher等人。[39]已经通过整合深度学习展示了令人印象深刻的结果。具体来说，ZSSR在测试时仅从输入图像中提取补丁，并训练一个小的特定于图像的CNN，从而自然地利用只有在观察测试输入后才可用的信息然而，ZSSR由于其自训练步骤而遭受缓慢的推理时间，并且它容易过拟合，因为使用使用大型外部数据集训练的预训练网络对于内部训练是不可行的。对于视频帧内插，Reda等人。[35]最近提出了第一种方法，通过使用循环一致性约束，以无监督的方式适应测试数据然而，他们的方法适用于测试数据的一般域，而不能适应每个测试样本。另一方面，该算法能够更新模型参数w.r.t. 测试序列的每个局部部分，从而更好地适应局部运动和场景纹理。元学习：为了实现测试时自适应，而不容易过度拟合，也不会大大增加计算成本，我们将注意力转向Meta学习。近年来，元学习以其在小样本分类中的优异性能受到了广泛关注，它可以评估系统在小样本情况下适应新分类任务的能力。元学习旨在通过跨任务学习先验知识来实现对新任务（在我们的案例中是视频）的适应。[5、13、37、38、45]。从广义上讲，人们可以将Meta-9446学习系统分为三类：基于度量、基于网络和基于优化。基于度量的Meta学习通过学习特征嵌入空间来体现先验知识，在特征嵌入空间中，不同的类被放置得很远，相似的类被放置得彼此靠近[18，41，44，46]。学习的嵌入空间，然后用于学习查询和支持样本之间的关系，在少数镜头分类。基于网络的Meta学习通过生成输入条件权重[25，32]或采用外部存储器[26，36]将输入相关动态编码到架构本身中来实现快速自适应。另一方面，基于优化的系统旨在将先验知识编码到优化过程中以实现快速自适应[11，28，34]。在基于优化的系统中，MAML [11]因其简单性和通用性而备受关注，而基于度量或网络的系统则受到应用或可扩展性的限制。其模型无关算法的通用性促使我们使用MAML来集成测试时自适应到视频帧内插。3. 该方法在本节中，我们首先描述视频帧插值的一般问题然后，我们经验性地展示了测试时间适应的优势，并进行了可行性测试，证明了在这种情况下需要元学习。3.1. 视频帧插值问题设置视频帧内插算法的目标是通过合成两个相邻帧之间的中间帧，在给定低帧率输入视频的情况下生成高质量、高帧率的视频。大多数帧插值模型的标准设置接收两个输入帧并输出单个中间帧。具体来说，如果我们让I1和I3是两个连续的输入帧，我们的目标是合成中间帧I2。虽然目前的帧内插模型也考虑了更多的comm，复杂的多帧内插问题，其中两帧之间的任意时间步长的帧可以被合成，本文将我们的讨论限制在单帧内插模型。然而，请注意，我们提出的元学习框架在第二节中描述。3.4是模型不可知的，并且只要模型是可区分的，就可以容易地推广到不同的3.2. 在测试时利用额外信息我们证明了测试时间适应的有效性与可行性测试，并描述了我们的设计选择的细节。从基线预训练的帧内插模型开始，我们的目标是在测试时微调模型参数，以提高其性能（针对每个测试视频序列）。为了微调模型，可以使用一个帧三元组，图2. 测试时间适应的可行性测试。上图显示，使用测试输入数据进行微调通常可以提高性能，但每个序列所需的步骤数量差异很大。下图显示了上图的20倍放大版本，另外还表示使用我们的元学习SepConv通过单次梯度更新获得的巨大性能增益。需要3个连续帧，其中第一个和最后一个帧成为输入，中间帧成为目标输出。虽然由于较宽的时间间隔，使用低帧速率视频的三元组进行训练（微调）似乎没有好处，但已经观察到整体插值性能这意味着给定视频的上下文和属性的重要性，例如独特的运动和遮挡，并表示测试时自适应的好处。为了对测试时间自适应的有效性进行可行性测试，我们对来自Middlebury [2]数据集的每个序列进行了预训练SepConv [31]模型的微调。具体来说，我们从其他集合中选择7个序列，并使用Adamax [17]优化器（用于训练原始SepConv模型）以10 −5的固定学习率微调基线模型。梯度更新的批处理构造类似于图1。1，但是我们将用于测试时间自适应的帧的数量从3（t=1，3，5）增加到4（t=1，3，5，7）。在某种意义上，它可以被看作是2次更新，因为我们可以从4个输入帧构建2个三元组（t=（1，3，5），（3，5，7））。用这2个三元组多次迭代更新模型参数可以判断这种测试时间自适应方案是否有利。我们用峰值信噪比（PSNR）来衡量性能，9447我不是我不是我我我我不是t=（1，3，5）（3，5，7）（3，4，5）图3. 概述了所提出的视频帧插值网络的训练过程。左：每个任务Ti由从视频序列中选择的三个帧三元组组成，其中两个用于任务式自适应（即，，内部循环更新），一个用于元更新（即，外循环更新）。右：网络参数θ通过损失L的梯度下降进行调整，在DTi中使用三元组和为每个任务存储，并且通过使用D′T中的三元组最小化每个损失L的总和来执行元更新对于所有任务。梯度更新步骤的数量如图所示。二、性能改进的特征，如图1的上图所示。2、序列间差异很大。虽然Minicooper和Walking的PSNR分数在200次梯度更新中稳步提高，并且即使在超过1dB的增益之后也不会过拟合，但使用Dog-Dance序列的更新值得注意的是，RubberWhale的图表显示了一个奇怪的特征，在第一次梯度更新后性能严重下降，但在后续步骤后突然回到从这些结果中，我们可以得出结论，测试时自适应对于视频帧插值是有益的，但是对于每个测试时自适应（或根本不自适应以避免过拟合）不同的顺序很难决定。通过结合元学习技术，我们的方法可以增强原始SepConv模型，以快速适应测试序列，而无需改变任何架构选择或引入额外的参数。在测试时只需进行一次梯度更新，我们的元学习Sep- Conv就可以实现大的性能增益，如图2的下图所示。二、与微调基线模型所需的数百次迭代相比，我们的Meta学习SepConv极大地减少了获得相同性能提升所需的计算时间。3.3. 关于MAML元学习的目标是快速适应新的任务，只有几个例子，即几次学习。再-中心模型不可知元学习（MAML）[11]方法通过准备模型以容易地适应传入的测试数据来实现这一目标，只需几次梯度更新迭代。换句话说，MAML找到了对任务变化敏感的参数的良好初始化，使得小的更新可以在减少误差测量和提高每个新任务的性能在深入研究主要算法之前，我们首先想从一般元学习和MAML的公式化开始。在假设存在任务分布p（T）的情况下，MAML的目标是学习初始化参数，这些参数表示存在于整个任务分布中的先验知识。在k-shot学习设置中，DTi是从每个任务Tip（T）中采样的k个示例的集合。采样的示例及其相应的损失LTi大致表示任务本身，并用于模型以适应任务。在MAML中，是通过微调来实现的：θ′=θ− α <$θLT（f θ）。（1）一旦模型适应于每个任务Ti，新的示例，’，从同一任务中取样，以评估基因。在看不见的例子上的适应模型的eralization。该评估充当MAML的反馈，以调整其初始化参数，以实现更好的泛化：Σθ←θ−β <$θLTi（fθ′）.（二）...D我9448我不是9449我不是我不是我不是我D我不是我我我不是我不是我不是我不是Tii3.4. 用于帧内插的对于视频帧内插，我们定义了一个任务，即在一个帧序列（视频）上执行帧内插。通过MAML快速适应新的视频场景介绍了我们的场景自适应帧插值算法，这将在本节后面详细描述。我们考虑一个由θ参数化的帧插值模型f θ，它接收两个输入帧（It，It+2T），算法一：场景自适应帧内插要求：p（T）：序列上的均匀分布要求：α，β：步长超参数1 初始化参数θ2 而不收敛3序列的样本批次Tip（T）4foreachido5生成三元组输出用于ny时间步长的估计的中间帧Δt+TDTi ={（I1，I3，I5），（I3，I5，I7）}从Tit和间隔T。因此，训练样本需要更新6模型参数可以形式化为帧三元组（It，It+T，It+2T）。我们定义一个任务T，计算公式中的ΔI3、ΔI5 （三）使用等式中的L T i计算（f θ）中的θ L （四）损失之和L：{（It，It+T ，It+2T）}→Rfor all time8用梯度下降：θ′=θ−α<$θLin（fθ）在低帧速率输入视频中步进t。在我们的场景中-自适应帧插值设置，每个新任务Ti从9p（T）由单个序列中的帧组成，并且模型iTi生成并保存三元组′ ={（I3，I4，I5）}从Ti，使用逐任务训练集DTi来适应任务，其中，训练三元组仅用帧Ex构造，10端部元更新Σ11更新θ←θ−β<$θLout（fθ′），在低帧速率输入中保持不变。在元训练阶段更新参数由任务的损失L_outTip（T）Tii每个D′ LT 由方程式（五）智能测试集D′，其中测试三元组由两个输入组成12端部帧和目标地面实况中间帧，在低帧速率输入中不存在在实践中，我们使用4个输入帧{I1，I3，I5，I7}，如在第12节中所描述的。3.2和1个目标中间帧I4。任务智能训练和测试集则变为DTi ={（I1，I3，I5），（I3，I5，I7）}，并且′={（I3，I4，I5）}.这些配置在图1的左侧部分3 .第三章。给出上述符号，我们现在更详细地描述我们的场景自适应帧内插算法的流程。由于我们的方法是模型不可知的，由于与MAML的集成，我们可以使用任何现有的视频帧插值模型作为基线。然而，与MAML不同的是，模型参数从随机初始化开始，我们从已经能够生成合理插值的预训练模型初始化模型参数。因此，我们的算法也可以被看作是一个后处理步骤，其中基线模型被更新以容易地适应每个测试视频，以进一步提高性能。接下来，我们计算Lin（fθ）的梯度，并使用梯度下降更新θ，以获得每个任务Ti的自定义参数θ′。注意，我们可以使用任何基于梯度的优化器（例如，亚当[17]）的更新步骤，我们在实践中选择用于训练基线预训练模型的相同优化算法。还要注意，内部循环更新可以可选地由多个迭代组成，使得θ'是从θ开始的k个梯度更新的结果，其中k是迭代次数。本文分析了超参数k在Sec. 4.3，并在整个实验中选择k=1，以获得性能和简单性（见表2）。为了进一步减少计算，我们采用了[11]中建议的一阶近似，并避免计算元训练中嵌套循环更新所需的二阶导数。当训练外环时，更新参数以使fθ′相对于θ的损失最小化，算法的详细流程在图的右边部分。3.第三章。让我们将每个任务的更新迭代表示为内部循环，将元更新迭代表示为任务式测试三元组{（I3，I4，I5）}∈D′对于外循环，元更新被定义为出来.损失函数LTi（fθ′）=LTi（fθ′（I3，I5），I4），（5）外循环对于内循环训练，给定两个帧三元组i i从每个任务Ti的任务训练集DTi，我们首先计算模型预测为I3=fθ（I1，I5），I5=fθ（I3，I7），（3）其中隐藏上标i以减少符号混乱。然后，这些输出用于计算内环更新Lin（fθ）的损失，计算为两个损失之和，如Lin（fθ）=LT（λI3，I3）+LT（λI5，I5）.（四）D79450我以及用于序列（任务）的采样批次的所有损失的总和Tip（T）被用于计算梯度并更新模型参数。算法1中总结了整个训练过程。在测试时，外部循环的基本参数θ是固定的，并且仅执行内部循环更新以将每个测试序列Ti的参数值修改为θ′。最后的插值可以作为输出的适应模型fθ′。Ti ii ii9451我不是我不是我表1. 最近帧插值算法的元训练的定量结果。我们在3个数据集上评估我们的场景自适应算法的好处：[48][49]性能以PSNR（dB）衡量。请注意，我们的元培训表现如何在基线或重新培训的通信员上不断提高。[4]第二届中国国际纺织品展览会[2]方法基线再培训荟萃培训基线再培训荟萃培训基线再培训荟萃培训DVF [20]26.6032.2132.2726.7029.5129.70---[16]第十六话30.8532.7633.1230.2833.5433.7026.0529.6629.81SepConv [31]33.7033.7234.1735.1434.9035.8130.0430.0130.19DAN [3]34.7334.8634.9436.5736.5036.5030.3530.4530.51请注意，我们的算法与原始MAML的最大区别在于任务的分布智能训练集和测试集DT和D是不一样的。也就是说，DTi具有更宽的运动谱，并且包括D′，因为帧三元组之间的时间间隙是DTi的两倍大。虽然这种分配差距的情况是元学习文献中尚未探索的领域，它在视频帧内插任务中表现出令人鼓舞的效果;用我们的算法训练的模型学习在具有较大运动的相当困难的场景中更新自身，从而学习视频中存在的整体上下文和运动。原始输入帧的插值则成为我们适应良好的模型的一项简单任务，从而提高了性能。实验中的定量和定性结果都表明，我们的算法实际上改进了原始模型，以更好地处理更大的运动。4. 实验4.1. 设置现有的视频帧内插算法大多使用的是预处理成帧三元组的视频数据虽然我们的基线模型是用传统的三元组数据集进行预训练的为此，我们使用Vimeo 90 K-Septuplet（VimeoSeptuplet）数据集[48]，它由91，701个7帧序列分辨率为448×256。虽然这个数据集最初是为视频超分辨率或降噪而设计的，ing / deblocking，它也非常适合训练在测试时需要多帧的视频帧插值模型，我们使用VimeoSeptuplet数据集的训练分割来训练我们所有的模型。为了进行评估，我们使用VimeoSeptuplet数据集的测试分割，以及来自Middlebury-OTHERS [2]和HD [4]数据集的序列。来自米德尔伯里的OTHERS集合总共包含12个样本，最大分辨率为640×480。我们使用10个序列与多个输入帧，并删除其他两个仅具有两个输入帧，因此不适合于测试时间自适应。Baoet al提出的HD数据集。[4]由相对高分辨率的帧组成，从1280×544到1920 ×1080此外，HD数据集中的序列长度为70或100，可以在测试时更新我们的模型。在我们的实验中，我们使用4种传统的视频帧插值模型作为基线：DVF [20]，SuperSloMo [16]，SepConv [31]和DAIN [3]。我们首先使用预先训练的参数初始化每个模型，如果可能的话，这些参数由作者提供。1我们将这些模型表示为基线。然后，由于我们使用来自VimeoSeptuplet的额外训练集进行元训练，因此我们还使用VimeoSeptuplet训练集微调每个Baseline模型，称为重新训练的模型。对于我们最终的元训练模型，我们从基线模型参数开始，并遵循算法1中的内外循环训练的迭代步骤。Meta训练模型的报告性能在测试时使用单个内部循环更新迭代，我们检查了消融研究中增加梯度更新数量的影响（第124.3）。我们将梯度更新的损失函数和优化方案的类型与用于训练基线模型的原始方法相匹配，每种方法都不同。然而，由于我们是从预训练的网络进行微调，我们将内/外循环学习率修改为较小，并设置α=β=10−5。在整个训练时，α保持不变，而β则衰减一个因子当验证损失在超过10，000次外循环迭代中没有减少时，为5。我们不裁剪补丁，而是使用小批量大小为4的VimeoSeptuplet序列的完整图像进行训练虽然每个插值模型的训练迭代次数不同，但由于我们从基线预训练网络开始，因此使用单个 NVIDIA GTX 1080TiGPU，任何模型的完整元训练步骤都需要不到一天的时间我们框架的源代码与预训练的模型一起公开，以便于复制。4.2. 视频帧插值结果表1总结了所有评价数据集的所有考虑基线帧插值模型的定量结果。对于本节中的所有实验，我们仅将评估度量标准化为PSNR。检查1对于SuperSloMo [16]，我们使用[33]中的实现和预训练模型。2https://github.com/myungsub/meta-interpolation9452输入叠加叠加放大基线重新训练的元训练GT图4.最近帧插值算法的VimeoSeptuplet [48]数据集的定性结果请注意，我们的元训练输出如何比Baseline或Re-trained模型更好地推断运动，以及生成类似于地面实况的逼真纹理其他指标的结果，如插值误差（IE）或结构相似性指数（SSIM），我们建议读者参考补充材料。在表1中，请注意与Baseline和Re-trained模型相比，Meta训练模型实现的一致性能提升，无论用于视频帧插值的方法如何。此外，尽管我们的场景自适应帧插值算法的Meta训练仅在VimeoSeptuplet数据集中进行，但它可以很好地推广到具有不同特征的其他数据集，从而呈现出我们的方法的测试时间自适应性的好处。在两个基线之间，重新训练的模型通常比基线模型表现得更好。我们认为这是由于质量（iidoEe.程度的噪音，文物，模糊等）因为VimeoSeptuplet中的帧序列相对干净。由于DVF是使用来自UCF-101 [42]数据集的视频进行训练的，该数据集具有严重的伪影，因此微调VimeoSeptuplet的性能提升最大。用于SuperSloMo[16]实现的原始训练集Adobe-240 fps [43]也包含一定程度的噪声，因此重新训练有助于建立更强的基线。一个例外是Sep- Conv [31]，其中重新训练会损害模型尽管如此，我们的元训练模型大大优于两个基础-即使是DAIN [3]，最新的最先进的框架。VimeoSeptuplet数据集的定性结果如图所示。4，其中我们将元训练模型与每个视频帧插值算法的基线和重新训练模型进行比较。请注意，我们的重点是分析元训练模型及其相应基线的好处，而不是比较不同的帧插值算法。对于基线模型由于大运动而失败的许多情况，我们的元训练模型非常好地适应输入序列，以合成更好的纹理和更精确的移动区域位置。特别是，最显着的改进是针对SepConv，这是唯一一个不利用光流和基于预测流的扭曲操作的模型。基于这一证据，我们假设，显式形式的光流估计约束可能的使用Sep- Conv获得的HD数据集的其他定性结果如图所示。五、可以观察到类似的特征，如图。4，我们的元训练模型产生更清晰的插值，伪影更少。有关更多的质量比较和完整的视频演示，请参阅补充材料。DainSuperSloMoSepConvDVF9453我不是我不是基线重新训练的Meta训练的GT表3.改变内循环更新的学习率的影响。我们使用SepConv [31]框架在VimeoSeptuplet [48]数据集上进行性能计算。学习率α010−610 −510 −4峰值信噪比（dB）33.72 34.1034.1734.15图5. SepConv [31]的 HD [4]数据集的定性结果。我们显示了Shields、Alley2、Temple2和Temple1序列的裁剪区域。表2.改变内部循环更新数量的效果。零更新对应于重新训练设置。显示了Middlebury-OTHERS[2]数据集的SepConv[31]的PSNR（dB）视频帧内插，常见有用信息的示例可以是现有运动的方向或背景纹理的如果发生过拟合，则内循环可能过于集中于处理现有的大运动，而忘记了由基线预训练模型及其重新训练版本学习的通用先验知识第二个原因是由于训练的复杂性随着梯度更新次数的增加而增加，这使得模型容易陷入局部最小值[11，28]。据推测，结合最新的自适应学习率技术[1]可以帮助缓解这个问题，这仍然是我们未来的工作。由于我们的算法从预训练的视频帧插值模型开始元训练，因此我们认为，4.3. 消融研究对内部循环更新次数的影响我们改变了测试时自适应的迭代次数，并分析了影响。表2演示了当内部循环更新的数量从1、2、3和5变化时，最终的per-cycle如何变化。我们还显示了朴素测试时间微调的结果（来自重新训练的模型）以及我们的元训练结果，类似于第二节中的可行性测试。3.2.总之，在我们的大多数实验设置中使用的仅用于单个内环更新的元训练显示出最大的PSNR增益，而增加更新的数量对性能没有任何好处。更多的更新甚至显示出递减的结果，这与MAML [11]中报告的趋势相比有些违反直觉。我们认为，造成这种现象的可能原因有两个。首先是过度拟合用于内部循环更新（DTi）。在第3.2节中，我们已经证明，无论分布间隙如何，使用DTi作为实现D′良好性能的替代是有益的，但当前消融研究表明，过度拟合DTi可能对最终性能产生负面影响这指出，需要在从DTi中提取有助于改善的有用信息之间的权衡中找到最佳点最终性能在学习率为10−5时最大化，与10−4或10−6相比，PSNR差距很小。然而，无论α的值如何，最终的性能总是比α = 0时更好，这证明了我们通过元学习的场景自适应帧内插算法的有效性。5. 结论本文介绍了一种新的视频帧内插方法，该方法旨在充分利用测试时可用的附加信息我们采用Meta学习算法来训练网络，使其能够根据输入帧快速调整其参数，以进行中间帧的场景自适应推理。该框架被应用于几个现有的帧插值网络，并在多个基准数据集上显示出持续改进的性能，无论是定量还是定性。我们的场景自适应帧内插算法可以很容易地采用任何视频帧内插网络，而无需改变其结构或引入任何额外的参数。鸣谢本研究得到了韩国科学与信息通信技术部（Ministry of Science and ICT of Korea）资助的IITP基金的支持（No. 2017-0-01780），以及现代汽车集团通过D′中的插值和过拟合到DTi. 为HMG-SNU AI Consortium fund（No. 5264-20190101）。#梯度更新01235内循环更新（算法1中的α）可以打破模型朴素微调34.9034.9034.9534.9935.03在训练的早期阶段，元训练34.9035.8135.6335.5835.45小的学习率限制了PSNR增益-+0.91+0.68+0.59+0.42模型为了支持这一主张，我们报告了在表3中使用SepConv设置不同的α值9454引用[1] Antreas Antoniou，Harrison Edwards，Amos Storkey.如何训练你的MAML 2019年，在ICLR。8[2] 放大图片作者：Simon Baker，Daniel Scharstein，J.放大图片作者：Michael J.布莱克和理查德·塞利斯基光流数据库和评价方法。IJCV，92（1）：1-31，2010. 三六八[3] Wenbo Bao ， Wei-Sheng Lai ， Chao Ma ， XiaoyunZhang，Zhiyong Gao，and Ming-Hsuan Yang.深度感知视频帧插值。在CVPR，2019年。二六七[4] Wenbo Bao，Wei-Sheng Lai，Xiaoyun Zhang，ZhiyongGao，Ming-Hsuan Yang. MEMC-NET：运动估计和运动补偿驱动的神经网络，用于视频插值和增强。arXiv预印本arXiv：1810.08768，2018。二、六、八[5] Samy Bengio ， Yoshua Bengio ， Jocelyn Cloutier， andJan Gecsei.关于突触学习规则的优化。在预印本会议中人工和生物神经网络中的最优性，第6-8页。德克萨斯大学，1992年。2[6] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在CVPR，2017年。1[7] 程景春，蔡义轩，王胜金，杨明轩。Segflow：视频对象分割和光流的联合学习。InICCV，2017. 1[8] Janghoon Choi、Junseok Kwon和Kyoung Mu Lee。基于目标特定特征空间的实时视觉跟踪的深度Meta学习。arXiv预印本arXiv：1712.09153，2017。1[9] Myungsub Choi ， Heewon Kim ， Bohyung Han ， NingXu，and Kyoung Mu Lee.通道注意力是视频帧插值所需的全部在AAAI，2020年。2[10] Martin Danelljan，Goutam Bhat，Fahad Shahbaz Khan，and Michael Felsberg. Eco：用于跟踪的高效卷积算子。在CVPR，2017年。1[11] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。ICML，2017。二三四五八[12] Daniel Glasner、Shai Bagon和Michal Irani。从一个单一的图像超分辨率。ICCV，2009年。一、二[13] Sepp Hochreiter，A Younger，and Peter Conwell.学习使用梯度下降。人工神经网络，ICANN 2001，第87-94页，2001年。2[14] Jia-Bin Huang，Abhishek Singh，and Narendra Ahuja.从变换的自我样本的单个图像超分辨率。CVPR，2015。一、二[15] Jun-Jie Huang ， Tianrui Liu ， Pier Luigi Dragotti ， andTania Stathaki. SRHRF+：使用分层随机森林的自我示例增强单个图像超分辨率在CVPR工作-商店，2017。一、二[16] Huaiizu Jiang ， Deqing Sun ， Varun Jampani ， Ming-Hsuan Yang，Erik Learned-Miller，and Jan Kautz.超级斯洛莫：用于视频内插的多个中间帧的高质量估计。在CVPR，2018年。一、二、六、七[17] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。CoRR，abs/1412.6980，2014。三、五[18] Gregory Koch Richard Zemel和Ruslan Salakhutdinov用于一次性图像识别的连体神经网络。ICML深度学习研讨会，2015年。3[19] 刘玉伦，廖一栋，林燕玉，庄永玉。使用循环帧生成的深度视频帧内插。在AAAI，2019年。2[20] Ziwei Liu ， Raymond A Yeh ， Xiaoou Tang ， YimingLiu，and Aseem Agarwala.使用深体素流的视频帧合成。InICCV，2017. 一、二、六[21] Gucan Long ， Laurent Kneip ， Jose M Alvarez ，Hongdong Li，Xiaohu Zhang，and Qifeng Yu.通过简单地观看视频来学习图像匹配在ECCV，2016年。2[22] SimoneMeyer、AbdelazizDjelouah、BrianMcWilliams、Alexander Sorkine-Hornung、Markus Gross和Christo-pher Schroers。用于视频帧插值的相位网。在CVPR，2018年。2[23] Simone Meyer、Oliver Wang、Henning Zimmer、MaxGrosse和Alexander Sorkine-Hornung。基于相位的视频帧内插。CVPR，2015。2[24] Tomer Michaeli 和 Michal Irani 非参数盲超分辨率。InICCV，2013. 一、二[25] Tsendsuren Munkhdalai和Hong Yu。Meta网络。在ICML，2017. 3[26] Tsendsuren Munkhdalai，Xingdi Yuan，Soroush Mehri，and Adam Trischler.有条件移位神经元的快速适应。在ICML，2018。3[27] Hyeonseob Nam和Bohyung Han。视觉跟踪的多域卷积神经网络学习。在CVPR，2016年。1[28] Alex Nichol，Joshua Achiam，and John Schulman.一阶元学习算法。CoRR，abs/1803.02999，2018。三、八[29] 西蒙·尼克劳斯和凤琉。用于视频帧内插的上下文感知合成。在CVPR，2018年。一、二[30] 西蒙·尼克劳斯、龙迈、风流。基于自适应卷积的视频帧在CVPR，2017年。一、二[31] 西蒙·尼克劳斯、龙迈、风流。基于自适应可分离卷积的视频帧InICCV，2017.一二三六七八[32] 鲍里斯 ·N. Oreshkin ， Pau Rodriguez ， and AlexandreLacoste. Tadam：用于改进少镜头学习的任务相关自适应度量。在NIPS，2018年。3[33] 阿维纳什 · 帕利瓦尔超级 slomo 的 Pytorch 实现。https://github.com/avinashpaliwal/Super-SloMo，2018. 6[34] 萨钦·拉维和雨果·拉罗谢尔。优化作为一个模型的少镜头学习。在ICLR，2017。3[35] Fitsum A Reda ， Deqing Sun ， Aysegul Dundar ，Mohammad Shoeybi，Guilin Liu，Kevin J Shih，AndrewTao，Jan Kautz，and Bryan Catanzaro.无监督视频插值使用- ing周期一致性。在ICCV，2019年。2[36] Adam Santoro，Sergey Bartunov，Matthew Botvinick，Daan Wierstra，and Timothy Lillicrap.使用记忆增强神经网络的元学习。ICLR，2016年。3[37] 尤尔根·施密德胡贝尔自我参照学习中的进化原则。学习如何学习：Meta... hook.）毕业论文，f研究所信息技术慕尼黑大学，1987年。29455[38] JürgenSchmidhube r. 学习控制快速权重记忆：动态递归网络的替代方案。Neural Computation，4（1）：131-139，1992. 2[39] Assaf Shocher、Nadav Cohen和Michal Irani。在CVPR，2018年

下载后可阅读完整内容，剩余1页未读，立即下载