深度卷积网络在视频帧内插中的应用

48 浏览量更新于2023-10-17 收藏 1.85MB PDF 举报

插值方法

运动估计

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

670基于自适应卷积的波特兰州立大学sniklaus@pdx.edu波特兰州立大学mtlong@cs.pdx.edu波特兰州立大学fliu@cs.pdx.edu摘要视频帧插值通常涉及两个步骤：运动估计和像素合成。这种两步方法在很大程度上取决于运动估计的质量。本文提出了一种鲁棒的视频帧内插方法，它将这两个步骤结合成一个单一的过程。具体来说，我们的方法认为像素synth- sis的插值帧作为两个输入帧的局部卷积卷积核捕获输入帧之间的局部运动和用于像素合成的系数我们的方法采用深度全卷积神经网络来估计每个像素的空间自适应卷积核。这种深度神经网络可以使用广泛可用的视频数据直接进行端到端训练，而无需任何难以获得的地面实况数据，如光流。我们的实验表明，视频插值的公式作为一个单一的卷积过程，使我们的方法优雅地处理像闭塞，模糊和突然的亮度变化的挑战，并实现高质量的视频帧插值。1. 介绍帧内插是一个经典的计算机视觉问题，对于新视图内插和帧速率转换等应用非常重要[36]。传统的帧插值方法有两个步骤：运动估计，通常是光流和像素合成[1]。光流往往是难以估计的区域遭受闭塞，模糊，和突然的亮度变化。基于流的像素合成不能可靠地处理遮挡问题。这两个步骤中的任何一个失败都会导致插值视频帧中出现明显的伪影。本文提出了一种鲁棒的视频帧内插方法，该方法使用深度卷积神经网络来实现帧内插，而不显式地将其划分为单独的步骤。我们的方法将像素插值视为两个输入视频帧中相应图像块的卷积，并使用深度全卷积神经网络来估计空间自适应卷积核。*前两位作者对本文的贡献相等图1：卷积像素插值对于每个输出像素（x，y），我们的方法估计一个卷积核K，并使用它来卷积补丁P1和P2为中心at（x，y），以产生其颜色I（x，y）。网络具体而言，对于内插帧中的像素（x，y），该深度神经网络将以该像素为中心的两个感受野补丁R1和R2作为输入，并估计卷积核K。该卷积核用于与输入补丁P1和P2进行卷积，以合成输出像素，如图1所示。我们的方法的一个重要方面是制定的像素插值卷积像素补丁，而不是依赖于光流。该卷积公式将运动估计和像素合成统一到单个过程中。它使我们能够设计一个深度全卷积神经网络的视频帧插值，而不分割成单独的步骤插值。该公式也比基于光流的公式更灵活，并且可以更好地处理帧内插的挑战性场景。此外，我们的神经网络能够估计边缘感知卷积核，从而获得清晰的结果。本文的主要贡献是一个强大的视频帧插值方法，采用了完全深度卷积神经网络产生高质量的视频插值结果。这种方法有几个优点。首先，由于它将视频内插建模为单个过程，因此能够在竞争约束之间进行适当的权衡秒-http://graphics.cs.pdx.edu/project/adaconv671第二，该帧内插深度卷积神经网络可以使用广泛可用的视频数据直接端到端地训练，而没有任何难以获得的地面实况数据，如光流。第三，如我们的实验所示，我们的方法可以为具有挑战性的视频生成高质量的帧插值结果，例如具有遮挡、模糊伪影和亮度突变的视频。2. 相关工作视频帧内插是计算机视觉和视频处理的基本技术之一。这是基于图像的渲染的特殊情况，其中中间帧从时间相邻帧内插关于基于图像的渲染的良好调查是可用的[25，44，62]。本节重点介绍视频帧插值的研究和我们的工作。大多数现有的帧内插方法使用立体匹配或光流算法来估计两个连续输入帧之间的密集运动，然后根据估计的密集对应关系对一个或多个中间帧进行内插[1，53，61]。与这些方法不同，Mahajanet al.开发了一种移动梯度方法，该方法估计输入图像中的路径，将适当的梯度复制到要插值的帧中的每个像素，然后通过泊松重构合成插值帧[33]。所有上述方法的性能取决于密集对应估计的质量，并且需要特别注意处理后期图像合成步骤期间的遮挡等问题。作为一种替代显式运动估计为基础的方法，基于相位的方法最近已被证明是有前途的视频处理。这些方法在输入帧之间的相位差中对运动进行编码，并为运动放大[51]和视图扩展[6]等应用程序操纵相位信息。Meyer等人进一步扩展了这些方法，以通过使用有界移位校正策略跨定向多尺度金字塔层级传播相位信息来适应大运动[36]。这种基于相位的插值方法可以产生令人印象深刻的视频插值结果，并优雅地处理具有挑战性的场景;然而，仍需要进一步改进，以更好地保留具有大帧间变化的视频中的高频细节。我们的工作受到深度学习成功的启发不仅解决了视觉理解困难的问题[16，20，26，28，39，40，42，45，54，60，64]，而且其他计算机视觉问题，如光流估计[9，14，19，48，49，52]，风格转换[11，15，23，30，50]，和图像增强[3，7，8，41，43，55，57，63，66]。我们的方法与最近用于视图合成的深度学习算法特别相关[10，13，24，29，47，59，65]。Dosovitiskiy等人[10] ， Kulkarniet al.[29] ， Yanget al. [59] 和Tatarchenkoet al.[47]深度学习可以从输入图像中呈现不可见视图的算法这些算法适用于物体，如椅子和脸，并且不是为一般场景的视频的帧插值而设计的。最近，Flynnet al.开发了一种深度卷积神经网络方法，用于从构成的真实世界输入图像合成新颖的自然图像。他们的方法将输入图像投影到多个深度平面上，并在这些深度平面上组合颜色以创建新颖的视图[13]。Kalantari等人提出了一种基于深度学习的光场成像视图扩展视图合成算法。他们将新的合成分为两个部分：视差和颜色估计，并相应地使用两个顺序卷积神经网络来对这两个分量进行建模。这两个神经网络是同时训练的[24]。Long等人内插帧作为图像匹配中间步骤[31]。然而，它们的插值框架往往是模糊的。Zhou等观察到同一实例的不同视图的视觉外观高度相关，并设计了一种深度学习算法来预测用于在输入视图中选择适当像素的外观流，以合成新视图[65]。给定多个输入视图，他们的方法可以通过使用相应的外观流扭曲各个输入视图，然后将它们适当地与这些方法一样，我们的深度学习算法也可以直接使用视频进行端到端训练。与这些方法相比，我们的方法是专门用于视频帧内插。更重要的是，我们的方法估计捕获运动和插值系数的卷积核，并使用这些核直接与输入图像卷积以合成中间视频帧。我们的方法不需要将输入图像投影到多个深度平面上，也不需要显式地估计视差或外观流来扭曲输入图像，然后将它们组合在一起。我们的实验表明，我们的公式的帧插值作为一个单一的卷积步骤，使我们的方法，以鲁棒地处理具有挑战性的情况。最后，在最近的帧外显工作中也探索了使用卷积进行图像合成的想法[12，22，58]。3. 视频帧插值给定两个视频帧I1和I2，我们的方法旨在在两个输入帧的中间时间上插入帧I传统的插值方法估计中的内插帧中的像素I*（x，y）的颜色两个步骤：密集运动估计，通常通过OP，纹理流和像素插值。例如，我们可以找到像素（x，y）在I1中的对应像素（x1，y1）和在I2中的对应像素（x2，y2），然后从这些对应像素插值颜色。通常，该步骤还涉及对图像I1和I2进行重新采样以获得对应的672(a) 通过运动估计和颜色插值的插值(b) 卷积插值图2：卷积插值。(a)两步方法首先估计两个帧之间的运动，然后基于运动内插像素颜色。(b)我们的方法直接估计卷积核，并使用它来卷积两个帧以插值像素颜色。值I1（x1，y1）和I2（x2，y2）以产生高质量的插值结果，特别是当（x1，y1）和（x2，y2）不是整数位置时，如图2（a）所示。当光流由于遮挡、运动模糊和缺乏纹理而不可靠时，这种两步方法可能会受到影响。此外，舍入坐标以找到I1（x1，y1）和I2（x2，y2）的颜色容易产生混叠，而使用固定内核进行重新采样有时不能很好地保留锐利边缘。存在先进的重采样方法，并且可以用于边缘保持重采样，然而，这需要高质量的光流估计。我们的解决方案是将运动估计和像素合成结合到一个步骤中，并将像素插值公式化为输入图像I1和I2中的补丁上的局部卷积。如图2（b）所示，要插值的目标图像中的像素（x，y）的颜色可以通过在各个输入图像中也以（x，y）为中心的输入块P1（x，y）和P2（x，y）上卷积适当的核K来获得卷积核K捕获用于像素合成的运动和重采样系数这种将像素插值公式化为卷积的方法有一些优点。首先，将运动估计和像素合成结合到单个步骤中提供了比两步过程更鲁棒的解决方案。其次，卷积内核提供了灵活性，可以解释和解决像遮挡这样的困难情况。例如，遮挡区域中的光流估计是一个根本困难的问题，这使得典型的两步方法难以进行。必须采取基于几何学的额外步骤，例如流插值本文提供了一种数据驱动的方法来直接估计表1：卷积神经网络架构。它使用批量归一化（BN）[21]以及校正线性单元（ReLU）。请注意，输出只会改变结果的形状，而不会改变其值。卷积核可以为遮挡区域产生视觉上合理的插值结果。第三，如果正确估计，这种卷积公式可以无缝集成先进的重采样技术，如边缘感知滤波，以提供锐利的插值结果。估计适当的卷积核对我们的方法至关重要受使用深度学习算法进行光流估计[9，14，19，48，49，52]和图像合成[13，24，65]的成功鼓舞，我们开发了一种深度卷积神经网络方法来估计适当的卷积核以合成插值图像中的每个输出像素。各个像素的卷积核根据局部运动和图像结构而变化，以提供高质量的插值结果。下面我们将描述用于内核估计的深度神经网络，然后讨论实现细节。3.1. 卷积核估计我们设计了一个全卷积神经网络来估计单个输出像素的卷积核。我们的神经网络的架构在表1中详细描述。具体来说，为了估计输出像素（x，y）的卷积核K，我们的神经网络将接收场补丁R1（x，y）和R2（x，y）作为输入。R1（x，y）和R2（x，y）在各个输入图像中均以（x，y）为输出核将卷积以产生输出像素（x，y）的颜色的补丁P1和P2在与这些感受野相同的位置处共同居中，但是具有较小的尺寸，如图1所示。我们使用比贴片更大的感受野，处理运动估计中的孔径问题。在我们的实现中，默认的感受野大小为79×79像素。卷积块大小为41×41，核大小为41×82，因为它用于与两个块卷积。我们的方法将相同的卷积核应用于每个P1P2类型BN ReLU 大小步幅输出输入转换器下变频器下变频器下变频器conv-------7 ×72 ×25 ×52 ×25 ×52 ×23 ×34 ×4-6×79×791 ×1 32×73×732 ×2 32×36×361 ×1 64×32×322 ×2 64×16×161 ×1 128×12×122 ×2 128× 6 ×61 ×1 256× 4 ×41 ×1 2048× 1 ×1conv--1 ×1 1 ×1 3362× 1 ×1空间softmax----3362×1 ×1输出----41×82×1 ×1673我i，1我2我颜色损失颜色损失+梯度损失图3：使用附加梯度损失的影响。三个彩色通道。如表1所示，我们的卷积神经网络由几个卷积层和下卷积组成，作为最大池化层的替代方案。我们使用校正线性单位作为激活函数，像素插值方法，因为图像梯度不能直接从单个像素计算。由于差分也是卷积，假设内核是局部等价的，我们通过使用卷积的关联属性来解决这个问题：我们首先计算输入补丁的梯度，然后与估计的内核进行卷积，这将导致插值图像在感兴趣像素处的梯度由于一个像素（x，y）有八个直接相邻的像素，我们使用有限差分计算八个版本的梯度，并将它们全部纳入我们的梯度损失函数。ΣΣ8[21]第21章：我的世界由于我们的神经网络，Eg=i k=1Ki，1K我2]Ki−Gk1（2）可以使用广泛可用的视频数据进行端到端训练我们还能够通过水平和垂直翻转训练样本以及颠倒它们的顺序来广泛使用数据增强。我们的神经网络是完全卷积的。因此，它不限于固定大小的输入，并且我们能够使用移位缝合技术[17，32，39]同时为多个像素生成内核以加速我们的方法，如第3.3一个关键的约束是输出卷积核的系数应该是非负的，并且总和为1。因此，我们将最终卷积层连接到空间softmax层以输出卷积核，这隐含地满足了这一重要约束。3.1.1损失函数为了清楚起见，我们首先定义符号。第i个训练示例由两个中心位于（xi，yi）的输入感受野块Ri，1和Ri，2、小于感受野块并且也中心位于相同位置的相应输入块Pi，1和Pi，2、地面真实坐标C_i和插值帧中的地面真实坐标G_iat（xi，yi）组成为了简单起见，我们在损失函数的定义中省略了（xi，yi）我们的深度卷积神经网络的一个可能的损失函数可以是插值像素颜色和地面实况颜色之间的差异，如下所示。其中k表示我们计算梯度的八种方式之一。Gk和Gk是输入片Pi，1和Pi，2的梯度，并且Gk是环绕的真实梯度。我们将上面的颜色和梯度损失结合起来作为我们的最终损失Ec+ λ·Eg。我们发现λ = 1效果很好，并使用了它。如图3所示，这种颜色加上梯度损失使我们的方法能够产生更清晰的插值结果。3.2. 培训我们从在线视频收集中获得了我们的训练数据集，如本节稍后所述为了训练我们的神经网络，我们使用Xavier初始化方法 [ 18 ]初始化其参数，然后使用AdaMax [27]，β1=0。9，β2=0。999，学习率为0.001，每个小批量128个样本，以最小化损失函数。3.2.1训练数据集我们的损失函数纯粹基于地面实况视频帧，不需要任何其他地面实况信息，如光流。因此，我们可以利用在线广泛提供的视频来训练我们的神经网络。为了便于复制我们的结果，我们使用来自Flickr的公开视频，并具有知识共享权限。我们用关键词下载了3000个视频，比如“开车”、“跳舞”、“冲浪”、“骑马”和“滑雪”，这些关键词我们将下载的ΣEc=π [Pi，1我[P1，2]N，N-二甲基甲酰胺i−Ci1（一）视频到1280×720像素的固定大小。我们删除了交错的视频，有时质量低于逐行扫描格式的视频其中下标i表示第i个训练示例，Ki是我们的神经网络输出的卷积核。我们的实验表明，这种颜色损失，即使使用1001范数，也会导致模糊的结果，如图3所示。在最近的一些工作中也报告了这种模糊问题[31，34，38]。Mathieu等人表明这种模糊问题可以通过在损失函数中引入图像灰度来缓解[34]。这在我们内部是困难的为了生成训练样本，我们将每个剩余视频中的所有帧分组为三帧组，每个组然后，我们在每个三帧组中随机选取一个像素，并从视频帧中提取以该像素为中心的三块组。为了便于数据增强，选择的补丁比神经网络所需的接收场补丁更大。我们训练中的补丁大小[GG674数据集为150×150像素。为了避免包括大量没有运动或运动很少的样本，我们估计了三帧组[46]并计算平均流量。然后，我们采样500000三重补丁组没有根据流量大小替换：补丁组与较大的运动是更有可能被选择比一个较小的运动。通过这种方式，我们的训练集包括具有广泛运动范围的样本，同时避免被运动很少的补丁所由于一些视频由许多镜头组成，我们计算颜色直方图between补丁检测镜头边界和删除跨镜头边界的组。此外，几乎没有纹理的样本对于训练我们的神经网络也不是很有用。因此，我们计算每个样本中斑块的熵，并最终选择具有最大熵的250，000个三斑块组来形成训练数据集。在这个训练数据集中，大约10%的像素具有至少20个像素的估计流量大小最大百分之五的平均幅度约为25像素，最大幅度为38像素。我们在训练过程中进行数据扩充。神经网络所需的接收场尺寸为79×79，小于训练样本中的斑块尺寸因此，在培训期间，我们随机从每个训练样本中裁剪感受野补丁此外，我们还随机水平和垂直翻转样本，并随机交换它们的时间顺序。这迫使样本内的光流对称分布，使得神经网络不会偏向某个方向。3.3. 实现细节我们使用Torch [5]来实现我们的神经网络。下面我们来介绍一些重要的细节。3.3.1移位缝合实现将我们的神经网络应用于帧内插的一种直接方法当通过神经网络传递两个相邻的补丁对以估计两个相应像素的卷积核时，我们的神经网络的这种逐像素应用将不必要地执行冗余计算。我们的实现采用移位缝合方法来解决这个问题，以加速我们的系统[17，32，39]。具体来说，由于我们的神经网络是完全卷积的，并且不需要固定大小的输入，因此它可以通过提供比产生一个内核所需的输入更大的输入来同时计算多个输出像素的内核。这可以减轻冗余计算的问题。然而，以这种方式获得的输出像素是不相邻的，而是稀疏分布的。我们采用移位和缝合[17，32，39]方法，其中使用相同输入的略微移位版本该方法返回稀疏结果，可以将其组合以形成插值帧的密集表示。考虑一个大小为1280×720的帧，我们的神经网络的像素级实现需要921,600次转发通过我们的神经网络。我们的神经网络的移位和缝合实现仅需要64个前向通道，用于输入的64个不同移位版本，以应对三个下卷积的降尺度与Nvidia Titan X上每帧需要104秒的像素方式实现相比，移位和缝合实现仅需要9秒。3.3.2边界处理由于网络的感受野以及卷积核的大小，我们需要填充输入帧以合成插值帧的边界像素。在我们的实现中，我们采用零填充。我们的实验表明，这种方法通常工作良好，不会引入明显的文物。3.3.3超参数选择卷积核大小和感受野大小是我们深度神经网络的两个重要超参数。理论上，如图2所示，卷积核必须大于两帧之间的像素运动，以便捕获运动（隐式）以产生良好的插值结果。为了使我们的神经网络对大的运动鲁棒，我们倾向于选择一个大的内核。另一方面，一个大的内核涉及大量的值被估计，这增加了我们的神经网络的复杂性。我们选择一个足够大的卷积核，以捕获训练数据集中最大的运动，即38像素。特别是我们系统中的卷积核大小为41×82，将应用于两个41×41补丁，如图1所示。我们让这个内核比38像素大几个像素，以支持vide像素支持重新采样，我们的方法没有显式执行，但在内核中捕获。如前所述，为了很好地处理孔径问题，感受野大于卷积核然而，较大的感受野需要更多的计算，并且对运动不太敏感我们选择接受者字段使用验证数据集，发现79×79达到了良好的平衡。4. 实验我们将我们的方法与最先进的视频帧插值方法进行比较，包括最近的基于相位的插值方法[36]和一些基于光流的方法。实验中的光流算法包括675输入帧1 Ours Meyeret al.DeepFlow 2 FlowNetS MDP-Flow 2 Brox等.图4：模糊视频的定性评估MDP-Flow 2 [56]，目前根据Middlebury基准产生最低插值误差，Brox等人的方法。[2]，以及最近的两种基于深度学习的方法，即 DeepFlow2 [52] 和 FlowNetS[9]。在最近的帧内插工作[36]之后，我们使用来自Mid-dlebury基准[1]的内插方法来使用光流结果合成内插帧或者，也可以使用其他先进的基于图像的渲染算法[67对于两种基于深度学习的光流方法，我们直接使用作者网站上的训练模型。4.1. 比较我们在Middle-bury光流基准[1]上定量地评估了我们的方法。如表2所示，我们的方法在现实世界场景的四个示例上表现得非常好。在Middlebury基准测试中报告的 100 多种方法中，我们的方法在 Evergreen 和Basketball上表现最好，在Dumptruck上表现第二，在Backyard上表现第三。我们的方法在其他四个合成或实验室场景的例子上效果不佳，部分原因是我们在真实场景的视频上训练了我们的网络。定性地，我们发现我们的方法通常可以在具有挑战性的区域中创建结果，这些区域在视觉上比最先进的方法更具吸引力。模糊。图4示出了输入视频遭受失焦模糊（顶部）和运动模糊（底部）的两个示例。对于光流场来说，因此，插值结果中的这些区域遭受明显的伪影。我们的方法和基于相位的方法从迈耶等人。[36]可以更好地处理模糊区域，而我们的方法产生更清晰的图像，特别是在具有大运动的区域中，例如底部示例中帽子的右侧。亮度突然变化如图5所示，突然的亮度变化违反亮度一致性，Mequ. 谢夫城市泰迪Backy。巴斯克甩了Everg.我们3 .第三章。574.第一章34五、00六、9110个。2五、337 .第一次会议。30六、94DeepFlow2二、993 .第三章。883 .第三章。62五、3811个国家。0五、837 .第一次会议。607 .第一次会议。82FlowNetS3 .第三章。074.第一章574.第一章01五、5511个国家。3五、998. 637 .第一次会议。70MDP-Flow2二、893 .第三章。473 .第三章。66五、2010个。2六、137 .第一次会议。367 .第一次会议。75Brox等人3 .第三章。083 .第三章。833 .第三章。93五、3210个。6六、608. 617 .第一次会议。43表2：对Middlebury测试集的评价（平均插值误差）。消耗和损害光流估计，导致帧内插中的伪像。对于这个例子，我们的方法和基于相位的方法比基于流的方法生成更具闭塞。光流估计的最大挑战之一是遮挡。当光流在遮挡区域中不可靠或不可用时，帧内插方法需要填补漏洞，例如通过从相邻像素内插流[1]。我们的方法采用学习方法来获得适当的卷积核，从而为遮挡区域带来视觉上吸引人的像素合成结果，如图6所示。为了更好地理解我们的方法如何处理遮挡，我们检查了遮挡区域中像素的卷积核。如图1所示，卷积核可以分为两个子核，每个子核用于与两个输入补丁之一进行卷积。为了便于说明，我们计算每个子内核的质心，并在相应的输入补丁中使用x标记它，以指示输出像素在哪里获得其颜色。图7显示了一个例子，其中白色叶子从第1帧向上移动到第2帧。在覆盖两个输入帧的左侧图像中可以看到遮挡。对于这个例子，绿色x表示的像素在两个帧中都是可见的，我们的内核显示这个像素的颜色是从两个帧中插值的相比之下，由红色x指示的像素仅在帧2中可见我们发现，帧1的子内核中的所有系数之和几乎为零，这表明帧1对该像素没有贡676献，并且这677Ours Meyeret al.DeepFlow 2 FlowNetS MDP-Flow 2 Brox等.图5：亮度突变视频的定性评价输入帧1 Ours Meyeret al.DeepFlow 2 FlowNetS MDP-Flow 2 Brox等.图6：关于闭塞的定性评价覆盖第一帧我们的第二图7：闭塞处理。像素仅从第2帧获取颜色。类似地，由青色x指示的像素仅在帧1中可见。我们的内核正确地解释了这种遮挡，并仅从第1帧获取其颜色。4.2. 边缘感知像素插值在上文中，我们讨论了我们估计的卷积核如何适当地处理帧插值的遮挡现在我们来看看这些内核是如何适应图像特征的。在图8中，我们在内插图像中采样三个像素。我们在底部展示它们的内核像素与其卷积核之间的对应关系由颜色建立。首先，对于所有这些内核，只有极少数内核元素具有非零值。(The在我们的神经网络中使用空间softmax层已经保证了核元素值是非负的并且总和为1）。此外，所有这些非零元素在空间上被分组在一起。这与典型的基于流的插值方法非常一致图8：卷积核。第三行提供了第二行中的内核中的非零区域的放大视图。虽然我们的神经网络没有明确地对帧插值过程进行建模，但它能够估计卷积核，这些卷积核能够实现与基于流的插值方法类似的像素插值。更重要的是，我们的内核是空间自适应和边缘感知的，例如由红色和青色x表示的像素。其在两个帧中找到相应的像素或其邻域其次，对于平坦区域中的像素，例如由绿色X指示的像素，其内核仅具有两个具有有效值的元素。这两个核元素中的每一个对应于对应输入帧中的相关像素。这也与基于流的插值方法一致，尽管我们的神经网络没有明确地对帧进行建模，6781 .一、00的情况。50的情况。005 10 1520 2530 35 40Longet al.直接联系我们图9：与直接合成的比较。插值程序第三，更有趣的是，对于沿着图像边缘的像素，例如由红色和青色x指示的像素，内核是各向异性的，并且它们的取向与边缘方向很好地对准。这表明，我们的神经网络学会了估计卷积核，从而实现边缘感知像素插值，这对于产生清晰的插值结果至关重要。4.3. 讨论我们的方法是可扩展的大图像，由于其逐像素的性质。此外，我们的神经网络的移位和缝合实现允许我们并行处理多个像素，并减少在计算这些像素的卷积核的冗余。在单个NvidiaTitan X上，此实现大约需要2.8秒-3. 5GB的内存，用于640×480的图像，和9. 1秒4 1280×720为7千兆字节，21. 6秒数6 1920 ×1080为8GB。我们用基线神经网络进行了实验，修改我们的网络直接合成像素。我们发现，对于Sintel基准测试[4]的示例，此基线会产生模糊的结果，如图9所示。在同一图中，我们还显示了与Long等人的方法的比较。[31]其执行视频帧内插作为光流估计的中间步骤。虽然他们的结果比我们的基线好，但仍然不如我们的尖锐。我们的方法可以处理的运动量必然受到我们神经网络中卷积核大小的限制，目前为41×82。如图10所示，我们的方法可以很好地处理41像素内的运动。怎么-然而，任何超过41像素的大运动目前都不能由我们的系统处理。图11显示了来自KITTI基准测试[35]的一对立体图像。当使用我们的方法在左视图和右视图之间插入中间帧时，由于大的视差（超过41个像素），汽车变得模糊，如（c）所示在将输入图像缩小在未来，我们计划通过探索多尺度策略来解决这个问题，例如用于光流估计的策略[37]。图10：我们的方法相对于流量大小（像素）的插值质量。(a) 左视图（b）右视图(c)我们的-全分辨率（d）我们的-半分辨率图11：立体图像的插值。与基于光流或相位的方法不同，我们的方法目前只能在两个给定帧之间插入一个帧，因为我们的神经网络被训练来插入中间帧。同时我们可以递归地继续合成，以在t = 0处也内插帧。25，t=0。例如，我们的方法不能在任意时间内插帧有趣的是，从最近的视图合成工作[10，24，29，47，65]中挖掘并扩展我们的神经网络，使其可以将变量作为输入来控制插值的时间步长，以便像基于流或相位的方法那样插值任意数量的帧。5. 结论本文提出了一种视频帧内插方法，它将帧内插算法的运动估计和像素内插两个步骤合并为一个步骤，即对两个输入帧进行局部卷积。卷积核捕获运动信息和重采样系数以进行适当的像素插值。我们开发了一个深度全卷积神经网络，它能够估计空间自适应卷积核，允许边缘感知像素合成，以产生清晰的插值结果。该神经网络可以直接从广泛可用的视频数据中训练我们的实验表明，我们的方法可以实现高质量的帧插值和处理具有挑战性的情况下，如遮挡，模糊，亮度突变。致谢。图4中的顶部图像是在Rafael McStan的许可下使用的，而图 4 ， 5 ， 6 中的其他图像是在 BlenderFoundation和纽伦堡市的Creative Commons许可下使用的。我们感谢Nvidia捐赠GPU。这项工作得到了NSFIIS-1321119的支持。SSIM679引用[1] S. Baker、D.Scharstein，J.P. 刘易斯，S。罗斯，M。J.黑色和R. 塞利斯基光流数据库和评价方法International Journalof Computer Vision，92（1）：1一、二、六[2] T. Brox，A. Bruhn，N. Papenberg和J. Weickert基于变形理论的高精度光流估计在欧洲计算机视觉会议上，第3024卷，第25-36页6[3] H. C.伯格角J. Schleman和S.伤害。图像去噪：普通神经网络能与BM3D竞争在IEEE计算机视觉和模式识别会议上，第2392-2399页，2012年。2[4] D. J. Butler，J. Wulff，G. B. Stanley和M. J.布莱克。一个用于光流评估的自然主义开源电影。欧洲计算机视觉会议，第7577卷，第611-625页8[5] R. Collobert，K. Kavukcuoglu和C.法拉比特Torch7：类似matlab的机器学习环境。在BigLearn中，NIPS研讨会，2011年。5[6] P. Didyk，P. Sitthi-amorn，W. T. Freeman，F. Durand和W. 马图西克自动多视角3D显示的联合视图扩展和过滤ACM Trans. Graph. ，32（6）：221：12[7] C. 董，Y.登角，澳-地C. Loy和X.唐通过深度卷积网络减少压缩伪影。在ICCV，第576-584页，2015年。2[8] C.东角，澳-地C. Loy，K.他，还有X。唐使用深度卷积网络实现图像超分辨率。IEEE Transactions on PatternAnalysis and Machine Intelligence，38（2）：295-307，2016。2[9] A. 做得好，P。Fischer，E.Ilg，P.Hau？sser，C.危险，Golkov，P. van der Smagt，D. Cremers和T.布洛克斯FlowNet：使用卷积网络学习光流.在ICCV，第2758-2766页，2015中。二、三、六[10] A.多索维茨基T. Springenberg和T.布洛克斯学习用卷积神经网络生成椅子。在IEEE计算机视觉和模式识别会议上，第1538-1546页，2015年。二、八[11] 诉杜穆林 Shlens 和 M. 库德鲁艺术风格的学术代表arXiv/1610.07629，2016年。2[12] C. 芬恩岛J. Goodfellow和S.莱文通过视频预测进行物理交互的无监督在NIPS，第64-72页，2016年。2[13] J. Flynn ， I. Neulander ， J. Philbin 和 N. 很聪明 Deep-Stereo：学习从世界的图像中预测新的观点。在IEEE计算机视觉和模式识别会议上，第5515-5524页二、三[14] D. Gadot和L.狼PatchBatch：光流的批量增强损失。在IEEE计算机视觉和模式识别会议上，第4236-4245页，2016年。二、三[15] L. A. Gatys，A.S. Ecker和M.贝丝使用卷积神经网络的图像风格在IEEE计算机视觉和模式识别会议上，第2414- 2423页2[16] R. B.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，可实现准确的对象检测和语义分析细分在IEEE计算机视觉和模式识别会议上，第580-587页，2014年。2[17] A. Giusti，D.C. Ciresan，J.马西湖M. 甘巴德拉，还有J. 施密特胡博使用深度最大池卷积神经网络进行快速图像扫描在ICIP，第4034-4038页四、五[18] X. Glorot和Y.本吉奥。了解训练深度前馈神经网络的困难。在International Conference on Artificial Intelligenceand Statistics，第9卷，第249-256页，2010年。4[19] F. 你和A。盖伊盖河迪普德是一个很好的流动。在AsianConComputer Vision，第10114卷，第207二、三[20] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议上，第770-778页，2016年。2[21] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。在ICML，第37卷，第448-456页，2015中。三、四[22] X. 贾湾，加-地D. Brabandere，T.Tuytelaars和L.诉好极了动态滤波网络。在NIPS，第667-675页，2016中。2[23] J. Johnson，A. Alahi和L.飞飞实时风格转换和超分辨率的感知损失。在ECCV，第9906卷，第694-711页，2016年。2[24] N. K. Kalantari，T. Wang和R. Ramamoorthi基于学习的光场相机视图合成 ACM Trans.Graph. ，35（6）：193：1-193：10，2016. 二、三、八[25] S. B.康，Y。Li，X. Tong和H.沈基于图像的渲染。计算机图形与视觉的基础与趋势，2（3），2006。2[26] S. Karayev，M.特伦塔科斯特湾Han，A.Agarwala，T.达雷尔A. Hertzmann和H.温尼莫勒识别图像样式。在2014年英国机器视觉会议上。2[27] D. P. Kingma 和J. BA. Adam ：随机最佳化的方法。arXiv：1412.6980，2014。4[28] A.克里热夫斯基岛Sutskever和G. E.辛顿基于深度卷积神经网络的ImageNet分类。在NIPS中，第1106-1114页，2012年。2[29] T. D. Kulkarni、W. F. Whitney，P. Kohli，and J. B.特伦鲍姆。深度卷积逆图形网络。在NIPS，第2539-2547页，2015中。二、八[30] C. Li和M.魔杖结合马尔可夫随机场和卷积神经网络进行图像合成。在IEEE计算机视觉和模式识别会议上，第2479-2486页，2016年。2[31] G.朗湖，澳-地Kneip，J. M. Alvarez，H. Li，X. zhang和Q. Yu.通过简单地观看视频来学习图像匹配。在欧洲计算机视觉会议上，第9910卷，第434-450页二四八[32] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议上，第3431-3440页四、五[33] D. Mahajan，F.黄，W.马图西克河Ramamoorthi，以及P. N.贝尔胡默尔移动渐变：一种基于路径的似然图像插值方法。ACM事务处理图表，28（3）：42：1-42：11，2009. 2680[34] M.马蒂厄角Couprie和Y.乐存。超越均方误差的深度多尺度视频预测。在2016年国际学习代表会议上4[35] M. Menze和A.盖革自动驾驶车辆的对象场景流在IEEE计算机视觉和模式识别会议上，第3061-3070页，2015年。8[36] S. Meyer，O.Wang，H.Zimmer，M.Grosse和A.Sorkine-Hornung基于相位的视频帧内插。在IEEE计算机视觉和模式识别会议上，第1410-1418页，2015年。一、二、五、六[37] A. Ranjan和M. J.布莱克。使用空间金字塔网络的光流估计。arXiv/1611.00850，2016年。8[38] M. Ranzato、A. Szlam，J. Bruna，M.马蒂厄河Collobert和S.乔普拉视频（语言）建模：自然视频的生成模型的基线。arXiv/1412.6604，2014年。4[39] P.Sermanet，D. Eigen，X. Zhang，M.马蒂厄河Fergus和Y.乐存。OverFeat：使用卷积网络集成识别，定位和检测在2013年国际学习代表会议上二、四、五[40] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv/1409.1556，2014年。2[41] J.孙，W.曹，Z. Xu和J. Ponce.学习卷积神经网络以去除非均匀运动模糊。在IEEE计算机视觉和模式识别会议上，第769-777页2[42] Y. 太阳，X.Wang和X.唐深度学习的人脸表示是稀疏的、有选择性的和鲁棒的。在IEEE计算机视觉和模式识别会议上，第2892- 2900页2[43] P. 斯沃博达M.Hradis，D.Barina和P.Zemc 'ek。使用卷积神经网络去除压缩伪影。arXiv/1605.00366，2016年。2[4

下载后可阅读完整内容，剩余1页未读，立即下载