高分辨率视频帧内插的IM-Net

66 浏览量更新于2023-10-19 收藏 2.76MB PDF 举报

研发中心

深度学习方法

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2398高分辨率视频帧内插的IM-NetTomer Peleg Pablo Szekely Doron Sabo Omry Sendik三星以色列研发中心{tomer.peleg，pablo.sz，doron.sabo，omry.sendik}@ samsung.com摘要视频帧内插是视频处理领域中一个研究已久的问题。最近，深度学习方法已被应用于这个问题，在低分辨率基准测试中显示出令人印象深刻的结果。然而，这些方法不能有利地放大到高分辨率。具体地，当运动超过典型的像素数量时，它们的插值质量降低。此外，它们的运行时间使得它们对于实时应用不切实际在本文中，我们提出了IM-Net：内插运动神经网络我们使用经济的结构化架构和端到端培训，并提供多规模定制损失。特别是，我们制定内插运动估计分类，而不是回归。IM-Net在最近推出的Vimeo三元组数据集的高分辨率版本上比以前的方法性能高出1.3dB（PSNR）。此外，网络在单个GPU上运行不到33毫秒，以获得HD分辨率。1. 介绍在视频帧内插（VFI）中，人们从原始输入帧合成中间不存在的帧这是视频处理领域中众所周知的问题。需要VFI的经典应用是帧速率上转换[3，4，12，14，16]，用于处理LED/LCD显示器中的显示运动模糊和抖动等问题其他应用包括视频编码和流式传输中的帧恢复[10，11]、慢动作效果[13]和新颖视图合成[7，26]。VFI的传统方法通常包括以下步骤：双向运动估计（ME）、运动插值（MI）和遮挡推理、以及运动补偿帧插值（MC-FI）。由于上述任何组件的质量不足，此类方法易于产生各种伪影，例如光晕、重影和破裂。在过去的几年里，深度学习，特别是卷积神经网络（CNN）已经成为众多图像处理和计算的主要方法图1.我们的高分辨率内部剪辑的示例结果（最佳彩色视图），从上到下：前一输入帧、当前输入帧、由TOFlow[31]、Sep- Conv [24]和IM-Net生成的中间帧。计算机视觉任务。许多计算机视觉任务，如图像分类，目标检测和语义分割，需要准确和详尽的标记。VFI如何-以往任何时候都可以很容易地通过简单地观看视频学习[18]。视频的直接子采样可以提供帧三元组，其中每个中间帧都可以用作给定其他两个输入帧的插值的基础事实。VFI的自我监督性质使其对深度学习方法具有吸引力事实上，一系列的工作[13，172399尽管最近的基于CNN的VFI方法取得了重大进展，现有的方法仍然是有限的，在他们的性能。它们不能很好地处理强运动和宽遮挡，并且远远不能满足标准高分辨率（例如HD和FHD）的实时处理要求图1我们展示了两个例子，失败的情况下，最近的两个基于CNN的方法在高分辨率帧与强运动。这些方法遭受严重的分裂，幽灵和光环文物周围的移动球和人。本文提出的IM-Net旨在缩小这一差距。它可以处理强烈的运动和广泛的occlu- sions在高分辨率和运行在不到33毫秒的一个单一的GPU高清分辨率。图1展示了我们在这种类型的场景中优于以前基于CNN的方法。我们可以看到，在先前的方法中观察到的伪影在IM-Net中大大减少：球的形状清晰，腿没有断，脸也没有鬼。2. 贡献本文提出了一种视频帧内插的解决方案--IM-Net。它侧重于一个重要的和具有挑战性的设置仍然没有解决的日期：包括强烈运动的高分辨率视频的实时时间内插。IM-Net的贡献有三个方面：1. 它是一个深CNN，具有大的感受野，可以覆盖强烈的运动，非常适合高分辨率。2. 这是VFI的有效解决方案-3. IM-Net使用多尺度损失进行训练，该损失结合了可分离自适应卷积和三线性插值项。3. 相关工作CNN已成功应用于许多图像处理任务，例如图像去卷积[30]和单个图像超分辨率（SR）[5，6，29]。在这些工作中，最后一个卷积层直接产生输出图像的像素。受到这些CNN成功的启发，基于CNN的VFI [18]和视频帧预测[19]的早期工作试图采用类似的方法。然而，这通常会导致模糊的输出和不满意的图像质量.为了克服这些最初尝试的弱点，后来的方法提出了更结构化的神经网络。在AdaConv [23]和SepConv [24]方法中，它们的CNN不是直接产生输出像素，而是为连续输入帧中的每对相应补丁估计自适应滤波器。然后，这些输出滤波器为应用于两个帧中的成对补片以产生内插中间帧。SepConv在发布时优于所有先前的基于CNN的方法然而，重要的是要注意，该方法限于连续输入帧之间高达51个像素的运动，因此不能处理强运动和遮挡。此外，它需要高计算成本，例如当应用于FHD分辨率时，SepConv将估计0。4G滤波器权重（每个输出像素204个权重）。另一个方向重新审视了经典的VFI算法流程，并专注于用一个或多个CNN替换其中的一些步骤。DeepVoxel Flow [17] and van Amersfoort et al.[27]专注于用单个CNN替换除FI之外的所有经典步骤。这里，网络接收一对连续帧作为输入，并输出内插运动矢量场（IMVF）和遮挡图的估计。TOFlow方法[31]使用三个子网络：一个用于估计每个输入帧相对于中间帧的运动，第二个用于阻塞推理，第三个用于给定扭曲帧和阻塞掩模的帧合成。这项工作的主要贡献是证明了每个视频处理任务都需要不同的光流。在Super Slomo [13]中，CNN用于双向ME，然后应用简化的MI方法，最后第二个CNN执行ME细化和遮挡重新分配。这项工作取得了压倒性的质量时，适用于在高帧率拍摄的视频。然而，它们似乎并不旨在涵盖广泛的运动。上下文感知合成（CtxSyn）[22]还利用CNN进行双向ME，然后是经典的MI和遮挡推理。他们的主要重点是用于帧合成的第二CNN，其基于GridNet架构[8]。这使他们能够用一种学习和局部自适应的合成方法取代标准的加权混合方案。他们的算法在复杂场景中优于Sep- Conv。Super Slomo和CtxSyn的另一个优点是它们能够根据需要产生尽可能多的中间帧。最后，两个最近的作品建议利用每像素的基于相位的运动表示的VFI。Phasenet [20]在基于CNN的方法中引入了这种表示与经典的基于相位的方法相比，这使得它们能够处理更大范围的运动[21]。它们的主要优点是能够更好地应对包含照明变化和运动模糊的具有挑战性的场景中的固有匹配模糊性然而，Phasenet在细节级别方面不如SepConv。4. 方法在我们的工作中，我们提出了一个完全卷积的神经网络，估计IMVF和遮挡图。不像2400图2. IM-Net概述（最佳彩色视图）。左-将三种分辨率的输入帧对插入网络。中间-CNN架构。正确-推理和训练路径。ReLU激活在每个Conv层之后应用，而不是SoftMax。由网络估计的IMVF被覆盖在内插帧上。以前的作品[17，27]获得像素级估计，我们的目标是块级版本。由于运动的分段平滑性质，这对于高分辨率是合理的。然后，将估计的IMVF和遮挡图与输入帧一起传递给经典的FI方法，该方法合成插值的中间帧。在VFI域中广泛使用的架构选择是编码器-解码器模块[13，17，20，24]。IM-Net也使用这样的模块，但仅作为基本的处理构建块。在本节中，我们将详细描述我们的手工定制的架构，其中包括非传统的层。我们进一步解释了训练损失是如何建立在这种架构选择的基础上的，以及这些贡献是如何表现出来的。4.1. 网络架构网络架构（见图）2）由特征提取、编解码和估计三大模块组成。编码器-解码器子网络接收从连续输入帧对提取的特征它们的输出被合并成一个高维表示，传递到估计子网络。为了受益于对先前和当前输入帧的多尺度处理，我们构建了输入帧的三级金字塔表示。这意味着每个帧以三种不同的尺度传递到CNN。六个输入帧（每个金字塔级别一对）中的每一个都由特征提取模块处理，每个输入产生25个特征通道。由于所有输入都经过相同的层，并且这些层共享其参数，因此我们将其称为Siamese。从每个金字塔级别提取的特征作为输入传递到其编码器-解码器模块。我们设计的每个编码器-解码器模块具有略微不同的架构1，因此所有解码器输出的大小宽/8×高/8×50。接下来，使用局部（每像素）自适应（学习）权重合并三个解码器输出为了产生这些权重，解码器输出被传递到Conv层的级联然后，合并的输出被计算为三个解码器输出的逐通道加权平均。最后，合并后的输出被发送到三个并行的估计路径，每个Conv层组成，并结束与SoftMax层ING。前两条路径分别生成25个归一化权重（W/8×H/8分辨率）。这些权重对与对权重的估计相关联IMVF的水平和垂直分量。第三条路径生成两个归一化权重（W/8×H/8分辨率），它们与遮挡图的估计相关联。这种架构导致了具有大感受野的计算轻量CNN这是由于1三个编码器中相应Conv层的参数是共享的，而每个解码器都有自己的参数集。2401p→mp→mpc→mCˆ=符号定义解决方案（培训）宽×高全图像分辨率512 ×512Ip，Ic，Im前一帧/当前帧/中间帧（全分辨率）512× 512× 3我，我，我p c m前一帧/当前帧/中间帧缩小8倍64× 64× 3不估计的遮挡图64 ×64WX，WY水平/垂直运动估计路径64× 64× 25SX，SYIMVF的估计水平/垂直分量64 ×64F水平0K从Ik256× 256× 25FleviK从Ik的图像金字塔的第i层提取的特征，其中i= 1，264× 64× 25必琳给定空间位置周围2×2支撑上的双线性插值Φ（I1，I2）两个图像之间的平均平滑的RMB1T V（·）非各向同性全变差表1.符号列表在每一层的信道数量的成本感知选择，从一个小的数量开始，并且在空间分辨率的每一次降低之后将其增加一个小的因子（小于2）。这与以前的工作[17，23，24]中的共同趋势相反关于每个子网络的计算成本的更多细节可以在补充材料中找到。从这一点上，我们广泛使用符号。完整列表请参见表14.2. 非常规估计层估计路径的输出被进一步处理用于中间帧合成，这需要两个分量-运动，我们使用全分辨率3中的范围[-96，96]像素内的均匀分布的值集合，即Wj（x，y，k）= Pr{Sj（x，y）=8k}，（ 3）对于j ∈ {X，Y}和k ∈ {−12，. . . ，12}。通过质心（期望值）计算将类别概率转换为IMVF中的值Σ12Sj（x，y）=8u·Wj（x，y，u）.（四）u=−12IMVF可以用于通过以下方式获得扭曲的全分辨率帧：IWarp=Warp（Ip，−，8）IWarp=Warp（I，+，8）（5）水平和垂直估计路径WX和WY产生MCW的两个选项(i) 可分离自适应滤波- 每组25个输出可以用作归一化的一维滤波器OP，哪里经纱我c→mc（x，y）= Warp（I，±，L）。（六）在每个输入帧上进行迭代，按因子8进行缩减。这两个过滤器以可分离的方式应用，其中，.I比邻x±L.，x，，y，xSX，L，y± SY.，x，，y，x，y，的。在前一帧中我们翻转滤波器系数的顺序8L L8L L产生两个版本的缩小的中间帧：IDS，SepC= SepConv. IDS，−由方程式（5），我们将每个估计的运动矢量分配给8×8块全分辨率。一般来说，使用Eq. （6）它可以分配给分辨率为W·L/8×H ·L/8的L × L块。哪里公司简介IDS，SepC=SepConv.. IDS，+（一）遮挡贴图用作混合的局部权重对变形的输入帧进行处理并获得最终输出帧。从遮挡估计路径的输出中提取该映射作为第一通道。我Σ12（x，y）=SepConv（I，±）=（2）Σ120到1之间的任何值，其中1被解释为遮挡，0被解释为打开，0.5被解释为未遮挡（相等混合）。v=−12WY（x，y，v）u=−12WX（x，y，u）I（x ±u，y ± v）.插值的低分辨率和全分辨率版本帧通过以下方式获得：2402p→m我M(ii) 分类概率IDS，SepC=T·IDS，SepC+（1−T）IDS，SepC（七）类与运动分量直接从interpo，M特里林p→m.c→mΣ当前帧2.为了覆盖大范围的TUS↑8·IWarp+1 −TUS↑8翘曲c→m（八）2我们假设输入帧之间的线性运动，即从中间到前一帧的运动等于减去从中间到当前帧的运动。[3]这种设计对于网络在训练过程中花费注意力的运动范围是灵活的。我2403.1、T.=κF、F+MmM哪里TUS↑L（x，y）=T（x/L，y/L）。（九）每个扭曲损失项被计算为扭曲输入特征对之间的绝对差的条件平均值。条件是这两个特征都不是当量（8）基本上是[17]建议的三线性FI在我们将每个遮挡权重分配给8×8块在完整的分辨率。可分离自适应滤波和三线性FI操作仅在训练期间应用。在推理时，我们用一个更精细的FI模块代替它们（见图1）。2）的情况。该模块利用从运动边界重新移动块伪影的去块机制。首先，它产生的每个输出像素的几个版本，通过应用- ING方程。（8）使用来自相邻块的逐块估计然后，它根据块内的像素位置对这些版本进行插值。4.3. 训练损失可以忽略不计，并且空间位置不属于所包含的区域。让我们将满足该条件的特征索引的集合表示为：.n（F，G，T）={（x，y，c）|F（x，y，c）>x，（12）..Σ..1G（x，y，c）> x，. T（x，y）−。2 4每个条件平均值计算如下：κ（F1，F2，T）. Φ（F1，F2|（F1，F2，T））。（十三）使用等式（9）、（11）和（13）我们可以将翘曲项公式化为：我们以端到端的方式训练全卷积网络，只使用成对的输入帧，以及它们的中间帧作为基础事实。网络Σ2翘曲条件=i=1. 级别0，扭曲.levi，SepC levi，SepCp→m c→m水平0，翘曲US↑ 4厘米损失由五项组成：α4κ Fp→m，Fc→m，T（十四）损耗=α1Φ. DS，SepCIDS+α2Φ.特里林I，Im+接下来，我们添加了正则化器，以鼓励在估计的运动场中进行分段平滑。具体地说，我们在一阶矩α3·Warp Terms+λ· Regs+γ·对称项（10）在所有这些术语中，当在一对图像像素或特征之间进行比较时，我们将利用平滑的矩阵（Φ）。前两项是保真度项：一个与按因子8缩小的帧相关联，水平和垂直运动分布- S X，S Y及其二阶Regs=TV（SX）+TV（RX）+TV（SY）+TV（RY），（十五）其中二阶矩由下式给出：‚耕地过滤，和其他与全分辨率帧和三线性插值。这些术语惩罚了合成帧中的人工产物但..Rj（x，y）=，Σ12u=−122[8u−Sj（x，y）]·Wj（x，y，u）。（十六）这种伪像的根本原因通常是输入特征的配准。为了明确地鼓励更好的对齐输入特征对之间，我们添加了扭曲项。这些项测量来自先前帧和当前帧的扭曲特征之间的距离。这与利用扭曲输入帧之间的损失的[13]和包含内插帧和真实中间帧的特征之间的损失的[23，24更具体地说，对于每个金字塔级别，我们使用来自暹罗子网络中特定层的特征对（见图2）。2）的情况。我们将这些特征根据估计进行变形-匹配的IMVF，如下所示：最后，在最后一项中，我们鼓励CNN当应用这些项时，我们在每个训练批次中包括原始输入以及这些输入的水平和/或时间翻转版本的三个组合。4.4. 训练数据集为了创建一个大型的训练数据集，我们从HD或FHD分辨率的大量视频剪辑开始所选视频剪辑包括体育赛事（例如：马拉松，篮球和足球比赛），场景Flevi，SepC.列弗河强烈的手部动作（如采访和讲座），≤2404c→mCC4c→m=翘曲p→m= SepConv Fp，−，i=1，2.Σ和镜头与强大的相机运动（采取的行动，F水平i，SepC=SepConvFlevi，+，i=1，2摄像机或移动车辆）。这些剪辑涵盖了F水平0，翘曲.杠杆0广泛的照明条件和环境（即，p→m=WarpFp，−，4F水平0，翘曲. Flev0，+，（十一）室内/室外场景），最重要的是，运动和咬合的类型。24053028262422200 20000400006000080000 100000120000140000步骤图3.对数尺度下的全分辨率保真度损失项（在应用-20·log10（·）之后）与两种类型的运动估计的迭代次数的关系-格雷辛每个剪辑被分解成帧三元组，包括前一帧、当前帧和用作地面实况的目标这组三胞胎被过滤，所以我们只保留了具有挑战性和有趣的场景。我们测试了几种过滤方法。一种被证明是有益的直接方法是检查输入帧对的纯混合与目标帧基本上不同。从每个高分辨率帧中，我们裁剪了一些512×512像素的帧间区域，这与缩小输入帧的常见趋势不同。这个过程产生了大约40，000个帧三联体。为了丰富这个数据集，我们应用了以下数据增强：平移和时间翻转，以及向输入帧添加随机全局移位。4.5. 训练协议因为我们的架构是为这项任务定制的，所以我们选择从头开始训练CNN的参数，也就是说，我们没有使用任何预先训练的模型。我们发现应用一系列单独的训练阶段很有用，每个阶段都有不同的损失项或数据集。我们从现实生活开始帧全局地和合成地移位。位移均匀分布在范围[-192，192]（前一帧和当前帧之间）。这确保了估计路径将从其训练的早期阶段适应后来，我们换到了真正的-在前一小节中描述的寿命数据集上，逐渐添加更多的损失项，并通过改变相关的超参数来修改它们的贡献例如，我们从α1= 0开始。α2= 0。1，并将α2增加到1.5，从而鼓励从粗到精的运动估计。对于所有训练阶段，我们使用16的批量大小和Adam优化器[15]。我们从10 − 4的学习率开始，随着训练的进行，将其降低到5·10−5。我们没有应用批处理规范化或dropout。5. 结果5.1. 与回归比较我们首先证明了我们在运动估计路径中选择的分类（见第4.2节）比传统的回归更有效。在这个实验中，我们从头开始训练网络两次：一次是我们的设计，一次是修改后的架构。在后者中，我们避免在运动估计路径和质心计算中使用SoftMax层。相反，每个这样的路径中的最后一个卷积层直接产生IMVF的值。为了隔离运动估计路径的影响，我们使用了简化的训练过程，这允许更好地控制其他损失项。首先，我们选择使用具有全局偏移的输入来训练网络，如4.5节所述。其次，我们只保留了保真度项，没有其他正则化项，扭曲项和对称项。最后，我们禁用了遮挡估计路径，并将遮挡图中的所有值设置为0。五、我们对这两个网络进行了150，000次迭代训练。图3表明，在这些条件下，分类设计优于回归。5.2. 测试数据集如前所述，我们的方法侧重于现实生活中的场景，其中VFI需要在高分辨率下存在强运动。因此，我们寻找符合这些要求的数据集。在检查几个流行的基准测试时，我们发现其中许多都不适合我们的目的。KITTI [9]和Sintel [2]都由我们所希望的高分辨率帧组成。然而，第一种图像质量低，仅限于城市交通场景，第二种是纯合成的。此外，这些基准通常用于评估连续输入帧之间的估计光流的质量，由于此度量与我们的端到端培训场景没有直接关联，因此我们没有对其进行测试UFC- 101 [25]最初是为动作识别而创建的，由低分辨率帧组成，图像质量低，主要是弱运动和遮挡（像素数最后，虽然Middlebury挑战[1]非常受欢迎，但它是一个小的（8张图像）和有限的基准，具有低分辨率帧，不能满足我们的需求。最近由TOFlow [31]的作者引入的Vimeo数据集它由3，782帧三元组组成，这些三元组从Vimeo网站上的真实视频剪辑中提取[28]。该数据集具有足够的图像质量，同时涵盖了各种各样的光线条件、环境和运动。然而，其帧的低分辨率相比之下，IM-Net是用分类回归-20 log（损失）2406IM-NetPSNRSSIMW.O.翘曲与对称项三十二070的情况。9319W.O.对称项三十二940的情况。9416里面的所有条款33.110.9436表2.消融研究从HD或FHD帧中裁剪的大小为512×512的补丁为了从这个数据集的优点中受益，我们通过使用一个离线的shelf基于CNN的单图像SR方法[32]。在我们的实验中，我们使用原始数据集及其SR版本进行消融研究，并将IM-Net与现有技术进行比较。5.3. 消融研究正如4.5节所讨论的，随着训练的进行，我们逐渐添加了更多类型的损失项。对称项旨在将网络限制在物理世界中并减少偏差。在来自输入帧对的内插特征不匹配的情况下，添加扭曲项以惩罚遮挡区域之外的网络发生这种情况时，合成帧中可能会出现重影和光晕。为了进行消融研究，我们在Vimeo数据集的SR版本上评估了我们的方法，其中我们报告了通过添加几组损失项获得的增益。表2总结了这些贡献。我们可以看到翘曲项的贡献为0。87dB和强加的对称性产生额外的增益0。17分贝。5.4. 与最新技术最近的方法在低分辨率VFI基准测试上取得了令人印象深刻的结果。例如， SepConv [24] ， TOFlow[31]，Super Slomo [13]和CtxSyn [22]都在Middlebury基准中排名前十。前三种方法在UCF-101数据集上也显示出最先进的性能。通过测试两种主要方法：SepConv和TOFlow，无论是在同一基准的低分辨率和高分辨率版本，我们将研究如何以及这些算法的规模与分辨率和运动强度。如第5.2节所述，我们使用Vimeo数据集进行了比较。首先，我们尝试直接在原始Vimeo帧上应用IM-Net，尽管我们的训练集和这个测试集之间没有很好的匹配。我们获得了32的平均PSNR。35dB，即1。比TOFlow实现的最佳性能低4dB。为了提高我们训练的网络与此数据集的适用性，我们重新运行了我们的方法，其中包含简单的预处理和后处理步骤（更多细节请参见补充材料）。接下来，我们重复了实验-使用Vimeo的SR版本（参见第5.2节）。表3总结了这些实验的PSNR和SSIM 在低分辨率下，三个网络显示出相当的质量，但在提高分辨率后，SepConv和TOFlow减少了1。6dB和3. 2dB，而IM-Net仅降低0. 3dB，与低分辨率插值质量相比。我们还在几个测试视频上测试了IM-Net，这些视频具有各种高分辨率，从HD到4K。在这些片段中，我们观察到与Vimeo数据集类似的性能差距。其中两个片段的结果可在补充材料中找到。图4显示了来自原始Vimeo及其SR版本的五对帧的结果。我们可以看到，对于原始的低分辨率帧，IM-Net与其他两种方法相当（所有三种方法都非常接近地面实况）。一旦帧的分辨率增加，SepConv和TOFlow中会出现严重的分裂、重影和光晕伪影，而对于IM-Net，结果几乎没有受到影响。更多的视觉演示可以在补充材料中找到。最后，我们比较了IM-Net与SepConv和TOFlow的运行时间。对于我们的方法，我们报告仅运行CNN所需的时间。其他操作，例如以三种分辨率准备输入帧和运行FI模块，与CNN相比，所需的计算成本可以忽略不计。SepConv和TOFlow在其神经网络中包括帧合成步骤，因此报告的时间包括它。表4总结了在单个Nvidia Titan X GPU上测量的HD和FHD分辨率下的运行时间。我们可以看到IM-Net的速度快了16倍这是由于其轻量级架构以及对IMVF和遮挡图使用逐块（而不是逐像素）估计。6. 结论在本文中，我们提出了IM网，一种方法VFI。我们的方法由CNN组成，CNN输出IMVF和遮挡图的逐块估计，然后是FI模块，该模块去除运动边缘上的块伪影。通过仔细选择网络我们的方法的帧内插质量可以通过在现有的CNN之上添加更多的CNN来进一步提高致谢。我们感谢Michael Dinerstein对这个项目的辛勤工作和奉献。我们也很感激罗伊·耶夫尼塞克、阿维塔尔·斯坦尼茨和大卫·特鲁基耶的深刻评论。2407方法[24]第二十四话TOFlow [31]IM-Net客观品质因数PSNRSSIMPSNRSSIMPSNRSSIM448×256分辨率三十三岁。450的情况。950933.730.9515三十三岁。500的情况。94731344×768分辨率31岁810的情况。9309三十540的情况。919033.110.9436表3.与Vimeo数据集上的最新技术进行比较方法[24]第二十四话TOFlow [31]IM-Net平台火炬火炬CaffeHD运行时间（msec）50046030FHD的运行时间（msec）90088055表4.IM-Net的运行时间（毫秒）以及HD和FHD分辨率的最新方法图4. 来自Vimeo数据集的示例结果（最佳彩色显示），从左到右：448 x256地面实况帧，TOFlow [31]在448 x256输入上合成的2408插值帧，SepConv [24]在448 x256输入上合成，IM-Net在448 x256输入上合成，TOFlow在1344 x768输入上合成，SepConv在1344 x768输入上合成，IM-Net在1344 x768输入上合成输入。在每一对行中，我们在顶部显示完整的帧，并在底部放大裁剪的有趣区域（在红色框中突出显示）。2409引用[1] S. Baker、D.Scharstein，J.P. 刘易斯，S。罗斯，M。J.黑色和R. 塞利斯基光流数据库和评价方法。 InternationalJournal of Computer Vision，第1-31页，2011年。6[2] D. J. Butler，J. Wulff，G. B. Stanley和M. J.布莱克。一个用于光流评估的自然主义开源电影。欧洲计算机视觉会议，第6116[3] R.卡斯塔尼奥山口Haavisto和G.兰波尼一种用于运动自适应帧速率上转换的方法。电子电气工程师学会视频技术电路与系统学报，6（5）：436-446，1996. 1[4] B. D.崔世文<英>来华传教士。汉角，澳-地S. Kim和S.高杰采用双向运动估计和自适应重叠块运动补偿的运动补偿帧内插IEEE Transactions on Circuits and Systems forVideo Technology，17（4）：407-416，2007. 1[5] C.东角，澳-地C. Loy，K.他，还有X。唐学习用于图像超分辨率的深度卷积网络。在2014年欧洲计算机视觉会议上，第184-199页。2[6] C.东角，澳-地C. Loy，K.他，还有X。唐使用深度卷积网络实现图像超分辨率。IEEE Transactions on PatternAnalysis and Machine Intelligence，38（2）：295-307，2016。2[7] J. Flynn，I. Neulander，J. Philbin和N.很聪明深立体声：学习从世界的图像中预测新的观点。2016年在IEEE计算机视觉和模式识别。1[8] D.富尔雷河埃莫内，E'。Fromont， D. Muselet，A.Tre'meau和C. 沃尔夫。用于语义分割的剩余卷积-deconv网格网络在英国机器视觉会议上，2017年。2[9] A. Geiger，P. Lenz，和R.盖革，等.乌塔松我们准备好了吗？KITTI视觉基准测试套件。在IEEE计算机视觉和模式识别会议上，2012年。6[10] X. Huang和S. Forchhammer用于变换域Wyner-Ziv视频编码的跨带噪声模型细化信号处理： ImageCommunication，27（1）：16-30，2012. 1[11] X.黄湖，澳-地L.Rak ebought，H.V. Luong ，M.Nielsen，F. Lauze和S. Forchhammer多假设变换域包括光流的Wyner-Ziv视频编码。IEEE第13届多媒体信号处理国际研讨会，2011年。1[12] B. W.全湾，澳-地I.李，S。H. Lee和R. H.公园使用金字塔结构的用于帧率上转换的由粗到细帧内插。IEEE消费电子学报，49（3）：499-508，2003。1[13] H. Jiang，中国粘蝇D.Sun，V.Jampani，M.H. Yang，E.Learned-Miller和J.考茨超级斯洛莫：高质量的多个中间帧的视频插值。在IEEE计算机视觉和模式识别会议上，2018。一二三五七[14] S. J. Kang，K. R. Cho和Y. H. Kim.使用扩展的双边运动估计的运动补偿帧速率上转换。IEEE Transactions onConsumer Electronics，53（4）：1759-1767，2007. 1[15] D. P. Kingma和J. BA. Adam：随机最佳化的方法。2015年，在学习代表上。6[16] S. H.李湾，澳-地Kwon和R. H.公园加权自适应运动补偿帧速率上转换。IEEE消费电子学报，49（3）：485-492，2003. 1[17] Z.柳河，巴西-地A.是的X唐，Y。Liu和A. 阿加瓦拉使用深体素流的视频帧合成在2017年的计算机视觉国际一、二、三、四、五[18] G.朗湖，澳-地Kneip，J. M. Alvarez，H. Li，X. Zhang和Q. Yu.通过简单地观看视频来学习图像匹配。欧洲计算机视觉会议，第434-450页，2016年。一、二[19] M.马蒂厄角Couprie和Y.乐存。超越均方误差的深度多尺度视频预测。在2016年国际学习代表会议上一、二[20] S.迈耶，A.杰卢阿湾McWilliams，A. Sorkine-Hornung，M. Gross和C.施罗德用于视频帧插值的PhaseNet。在IEEE计算机视觉和模式识别会议上，2018年。一、二、三[21] S. Meyer，O.Wang，H.Zimmer，M.Grosse和A.Sorkine-Hornung基于相位的视频帧内插。在IEEE计算机视觉和模式识别会议上，第1410-1418页，2015年。2[22] S. Niklaus和F.刘某用于视频帧内插的上下文感知合成。在IEEE计算机视觉和模式识别会议上，2018。一、二、七[23] S.尼克劳斯湖Mai和F.刘某基于自适应卷积的视频帧内插。2017年在IEEE计算机视觉和模式识别会议上发表。一、二、四、五[24] S. 尼克劳斯湖Mai和F.刘某基于自适应可分离卷积的视频帧内插2017年计算机视觉国际。一二三四五七八[25] K. Soomro、A. Roshan Zamir和M. Shah. UCF101：来自野外视频的101个人类动作类的载于CRVC，2012年。6[26] T. 施蒂希角林茨湾Albuquerque和M.玛格诺图像空间中的视图在Computer Graphics Forum 27，第 1781-1787页，2008中。1[27] J. van Amersfoort，W. Shi，中国山核桃A. Acosta，F.Massa，J. Totz，Z. Wang和J.卡巴列罗帧插值与多2410规模深度损失函数和生成对抗网络，2017年。arXiv预印本arXiv：1711.06045。一、二、三[28] Vimeo. https://vimeo.com网站。6[29] Z. Wang，中国山杨D. Liu，J. Yang，W. Han和T.煌基于稀疏先验的图像超分辨率深度网络国际计算机视觉会议，第370-378页，2015年2[30] L. 徐，J.SJ 伦角，澳-地Liu和J.贾用于图像去卷积的深度卷积神经信息处理系统进展27，第1790-1798页，2014年2[31] T.薛湾，澳-地Chen，J. Wu，D. Wei和W. T.弗里曼。2017 年，以任务为导向的视频增强。 arXiv 预印本arXiv：1711.09078。一二六七八[32] J. Yamanaka，S. Kuwashima和T.栗田通过带跳跃连接的深度CNN和网络中的网络实现快速准确的图像超分辨率。在神经信息处理国际会议上，第217-225页，2017年。7

下载后可阅读完整内容，剩余1页未读，立即下载