深度感知视频帧插值方法的研究及其在高质量视频合成中的应用

159 浏览量更新于2023-10-19 收藏 2.07MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3703深度感知视频帧插值包文波1赖伟胜3马超2张晓云1高志勇1杨铭轩3，4 1上海交通大学图像通信与网络工程研究所2上海交通大学人工智能研究所MoE人工智能重点实验室3加州大学默塞德分校4谷歌叠加输入估计的光流估计的深度图内插帧地面实况帧图1. 视频帧插值示例。我们提出了一种深度感知的视频帧插值方法，利用深度线索检测遮挡。我们的方法估计具有清晰运动边界的光流，从而生成高质量的帧。摘要视频帧内插的目的是在原始帧之间合成不存在的帧。虽然最近的深度卷积神经网络已经取得了重大进展，但由于大的对象运动或遮挡，插值的质量通常会降低。在这项工作中，我们提出了一个视频帧插值方法，明确检测的闭塞，通过探索的深度信息。具体来说，我们开发了一个深度感知流投影层来合成中间流，该中间流优选地对比远距离对象更近的对象进行采样。此外，我们学习分层功能，以收集来自相邻像素的上下文信息然后，所提出的模型基于光流和局部插值核来扭曲输入帧、深度图和上下文特征，以合成输出帧。我们的模型是紧凑的，有效的，完全可微的。定量和定性的结果表明，该模型表现良好，对国家的最先进的帧插值方法在各种各样的数据集。源代码和预训练模型可在https://github.com/baowenbo/DAIN获得。1. 介绍视频帧内插技术在计算机视觉领域有着广泛的应用前景，如慢动作生成，*通讯作者操作[14]、新颖视图合成[10]、帧速率上转换[3，4]和视频流中的帧恢复[38]。具有高帧速率的视频可以避免常见的伪像，诸如时间抖动和运动模糊，并且因此在视觉上更吸引观看者。然而，随着最近深度卷积神经网络（CNN）在视频帧插值方面的进步[14，21，23，25，39]，由于大的运动和遮挡，生成高质量帧仍然具有挑战性。为了处理大运动，几种方法使用粗到细策略[21]或采用高级流估计架构[23]，例如，PWC-Net [34]，以估计更准确的光流。另一方面，处理遮挡的直接方法是估计用于自适应混合像素的遮挡掩模[2，14，39]。最近的一些方法[24，25]学习空间变化的插值核，以自适应地合成来自大邻域的像素。最近，来自预训练的分类网络的上下文特征已经被证明对于帧合成是有效的[23]，因为上下文特征是从大的感受野提取的。然而，所有现有的方法都依赖于大量的训练数据和模型能力来隐式地推断遮挡，这可能无法有效地处理野外各种各样的场景。在这项工作中，我们提出了明确地检测遮挡，通过利用视频帧内插的深度信息。所提出的算法是基于一个简单的观察，即更接近的对象应该优选地在中间帧中进行合成。具体地，我们首先估计来自两个输入帧的双向光流和深度图。为了扭曲输入帧，我们采用3704流投影层[2]以产生中间流。由于多个流矢量可能在同一位置遇到，我们基于用于聚合的深度值来计算每个流矢量的贡献。与流的简单平均相比，所提出的深度感知流投影层由于深度的影响而生成具有更清晰的运动边界的流基于我们的深度感知流投影层，我们提出了一个深度感知视频帧插值（DAIN）模型，有效地利用光流，局部插值内核，深度图和上下文特征来合成高质量的视频帧。代替依赖于预先训练的识别网络，ResNet[13]，我们学习分层特征，从一个大的邻域中提取有效的上下文信息。我们使用自适应扭曲层[2]根据估计的流量和局部插值内核来扭曲输入帧、上下文特征和深度图。最后，我们用残差学习生成输出帧。如图-结果1，我们的模型能够生成具有清晰的物体形状和尖锐边缘的帧。此外，所提出的方法可以生成任意的中间帧，用于创建慢动作视频。在多个基准测试（包括Middlebury [1]，UCF101 [33]，Vimeo90K [39]和HD [2]数据集）上进行的广泛实验表明，所提出的DAIN与现有的视频帧插值方法相比表现良好。我们在这项工作中做出了以下贡献我们显式地检测深度感知流投影层内的遮挡，以优选地合成较近的对象而不是较远的对象。我们提出了一种深度感知的视频帧插值方法，该方法紧密集成了光流，局部插值内核，深度图和可学习的分层特征，以实现高质量的帧合成。我们证明，该模型是更有效的，高效的，和紧凑的比国家的最先进的方法。2. 相关工作视频帧内插是一个长期存在的主题，并且在文献[3，7，16，26，36]中已经被广泛研究。在本节中，我们将重点讨论最近的基于学习的算法。此外，还讨论了与深度估计有关的问题.视频帧插值。作为基于CNN的方法的先驱，Long etal.[22]训练通用CNN以直接合成中间帧。然而，他们的结果存在严重的模糊性，因为通用CNN无法捕获自然图像和视频的多模态分布。然后，Liu et al.[21]提出了深度体素流，一种跨越空间和时间的3D光流，以基于三线性采样来扭曲输入帧。当帧合成时由于流遭受较少的模糊，所以对于具有大运动的场景，流估计仍然是具有挑战性的。不准确的流量可能导致严重的失真和视觉伪影。AdaConv [24]和SepConv [25]方法不依赖于光流，而是估计空间自然而，这些基于内核的方法通常需要高内存占用量，并带来沉重的计算负载。最近，Bao etal.[2]将基于流和基于内核的方法集成到端到端网络中，以继承双方的优势输入帧首先通过光流进行扭曲，然后经由自适应扭曲层内的学习的插值内核进行采样现有方法通过估计遮挡掩模[2，14，39]、提取上下文特征[2，23]或学习大的局部插值核[24，25]来隐式地相比之下，我们显式地检测遮挡，通过利用流投影层中的深度信息。此外，我们将深度图与学习的层次特征作为上下文信息来合成输出帧。深度估计。深度是理解场景的3D几何形状的关键视觉信息之一，并且已经在若干识别任务中被利用，例如，图像分割[41]和目标检测[35]。传统方法[12，15，27]需要立体图像作为输入来估计视差。最近，几种基于学习的方法[8，9，11，18，20，31，32，37]旨在从单个图像估计深度。在这项工作中，我们使用的模型陈等人。[6]，这是在MegaDepth数据集上训练的沙漏网络[19]，用于从输入帧预测深度图。我们表明，深度网络的初始化是至关重要的推断遮挡。然后，我们与其他子模块联合微调深度网络以进行帧内插。因此，我们的模型学习了一个相对深度，用于变形和插值。我们注意到，几种方法通过利用跨任务约束和一致性来联合估计光流和深度[40，42，43]。虽然所提出的模型还联合估计光流和深度，但我们的流和深度针对帧内插进行了优化，这可能无法恢复像素运动和场景深度的真实值。3. 深度感知视频帧插值在本节中，我们首先概述我们的帧插值算法。然后，我们介绍了建议的深度感知流投影层，这是处理流聚集的遮挡的关键组件。最后，我们描述了所有的子模块的设计，并提供了所提出的模型的实现细节。···3705×∈t→0t→0- −N{|S|}∀ ∈×3.1. 算法概述给定两个输入帧I0（x）和I1（x），其中x∈=01时间100→1（102）��[1，H][1，W]指示所述空间的2D空间坐标。图像平面，并且H和W是图像的高度和宽度，我们的目标是在时间t[0，1]处合成中间帧t。所提出的方法需要光流来扭曲输入帧，以合成帧间图像中间帧我们首先估计双向光流，分别表示为F0→1和F1→0。对，中间帧的大小不同，有两种常见的战略布局首先，可以应用前向扭曲[23]深度（x）平均值（x）2空间��0→1（1）��基于F0→1扭曲I0，基于F1→0扭曲I1。然而，前向扭曲可能导致扭曲图像上的孔洞。第二种策略是近似中间流，即，Ft→0和Ft→1，然后应用反向扭曲对输入帧进行采样为了近似计算中间流，可以从F0→1 和F1→0[14]中的相同网格坐标借用流矢量，或者聚合通过相同位置的流矢量[2]。在这项工作中，我们采用了流投影层鲍等。[2]在考虑深度顺序的同时聚集流矢量以检测遮挡。在获得中间流之后，我们基于光流和插值内核在自适应扭曲层[2]内扭曲输入帧、上下文特征和深度图。最后，我们采用一个帧合成网络来生成插值帧。3.2. 深度感知流量投影流动投影层通过“反转”流动矢量来近似给定位置x处的中间流图2. 建议的深度感知流投影。现有流投影方法[2]获得可能不指向正确对象或像素的平均流向量。相比之下，我们根据深度值重写流，并生成指向较近像素的类似地，可以从流F1→0和深度图D1获得投影流F1→1。通过这种方式，投影流倾向于对较近的对象进行采样，并减少具有较大深度值的被遮挡像素的贡献如图2所示，[2]中使用的流量投影生成平均流量矢量（绿色箭头），其可能不指向用于采样的正确像素。相反，来自深度感知流投影层的投影流（红色箭头）指向具有较小深度值的像素另一方面，可能存在没有流矢量通过的位置，导致中间流中的孔为了填充空洞，我们使用由外而内的策略[1]：空洞位置的流量是通过对其相邻位置的可用流量进行平均来计算的：在时间t通过x的向量。如果流量F0→1（y）在时间t通过x，我们可以近似Ft→0（x）Ft→0（x）=1|N(x)|ΣFt→0（x′），（3）-tF0→1（y）。类似地，我们近似Ft→1（x）由x′∈N（x）（1 t）F1→0（y）. 然而，如在1D空间中所示在图2的时间示例中，可以在时间t投射到相同的位置。而不是通过一个简单的平均值[2]来增加流量，我们建议将考虑聚合的深度排序。具体点，我们假设D0是I 0的深度图，S（x）=1：y：round（y+tF0→1 （y））=x，y[1，H][1，W]in-指示在时间t通过位置x的像素集合。投影流量Ft→0定义为：Σw0（y）·F0→1（y）其中（x）=x′：（x′）>0是x的4-邻居。从（1）和（3）中，我们得到了用于扭曲输入帧的稠密中间流场Ft→0和Ft→1。所提出的深度感知流投影层完全可微分，使得流量和深度估计网络两者可以在训练期间联合优化。我们在补充材料中提供了深度感知流投影中反向传播的细节3.3. 视频帧插值建议的模型包括以下子-Ft→0（x）=−t·y∈S（x）<$y∈S（x）w0（y）、（1）模块：流估计、深度估计、上下文提取、核估计和帧合成网络。我们使用所提出的深度感知流投影层来其中权重w0是深度的倒数：w（y）= 1。（二）0D0（y）获得中间流，然后在自适应扭曲层内扭曲输入帧、深度图和上下文特征。最后，帧合成网络通过残差学习生成输出帧我们展示了3706×××核估计插值核图3. 提出的深度感知视频帧插值模型的架构。给定两个输入帧，我们首先估计光流和深度图，并使用建议的深度感知流投影层来生成中间流。然后，我们采用自适应扭曲层扭曲输入帧，深度图，和上下文特征的流量和空间变化的插值内核。最后，我们应用帧合成网络来生成输出帧。输入图像上下文特征输入要素输出要素任务，这对于视频帧内插可能不是有效。因此，我们建议学习上下文特征。具体来说，我们构建了一个上下文提取网络，其中有一个7 × 7卷积层和两个残差块，如图4（a）所示剩余块由两个3 3卷积层和两个ReLU激活层组成（图4（b））。我们不使用任何归一化层，例如，批量归一化然后，我们将来自第一卷积层和两个残差块的特征连接起来，从而产生分层特征。我们的上下文提取网络是从头开始训练的，因此，学习有效(a) 上下文提取网络（b）残差块图4. 上下文提取网络的结构。我们没有使用预先训练的分类网络的权重[23]，而是从头开始训练我们的上下文提取网络，并学习视频帧插值的历史特征。图3中的整体网络架构。下面我们描述每个子网的细节。流量估算我们采用最先进的流量模型PWC-Net [34]作为我们的流量估计网络。由于学习光流没有地面实况监督是非常困难的，我们初始化我们的流量估计网络从预先训练的PWC-Net。深度估计。我们使用沙漏架构[6] 作为我们的深度估算网络。为了获得流投影的有意义的深度信息，我们从Li等人的预训练模型初始化深度估计网络。[19 ]第10段。上下文提取。在[2]和[23]中，上下文信息是由预先训练的ResNet [13]提取的，即，第一卷积层的特征图。然而，来自ResNet的特征用于图像分类用于视频帧插值的上下文特征。核估计与自适应翘曲层. 局部插值核已被证明是有效的合成一个像素从一个大的局部邻居-胡德[24，25]。Bao等人。[2]进一步将插值内核和光流集成在自适应扭曲层中。自适应扭曲层通过在局部窗口内对输入图像进行采样来合成新像素，其中窗口的中心由光流指定。在这里，我们使用U-Net架构[30]来估计每个像素的4个局部核利用深度感知流投影层生成的插值内核和中间流，我们采用自适应扭曲层[2]来扭曲输入帧、深度图和上下文特征。自适应扭曲层和内核估计网络的配置的更多细节在补充材料中提供帧合成。为了生成最终的输出帧，我们构建了一个帧合成网络，它由3个残差块组成。我们将扭曲的输入帧、扭曲的深度图、扭曲的上下文特征、投影流和插值内核连接起来作为帧合成网络的输入。此外，我们线性混合了两者深度感知流量投影流量估测光流预计流量翘曲框架t − 1和帧t +1扭曲深度贴图帧t − 1深度估计深度图自适应扭曲层+帧t变形框架帧合成帧t + 1上下文提取上下文特征翘曲纹理特征Conv1，7×7，64 ReLU残余块剩余块连接Conv1，7×7，64 ReLUConv1，7× 7，64+ReLUconcatenate3707不×∈−- -×××扭曲帧并强制网络预测地面实况帧和混合帧之间的残差我们注意到，扭曲的帧已经被光流对齐。因此，帧合成网络专注于增强细节，使输出帧看起来更清晰。我们提供的详细配置表1. 深度感知（DA）流投影的分析。 M.B.是Middlebury数据集的O THER集的缩写。提出的模型（DA-Opti）显示出对其他变化的实质性改进。UCF 101 [33][39]第三十九章：你是我的女人[2]第二届全国政协副主席方法PSNRSSIM峰值信噪比 SSIM IE PSNR SSIM辅助材料中的框架合成网络。3.4. 实现细节损失函数。 We用IGT表示合成帧，用IGT表示地面实况帧。我们训练被提议的模型通过优化以下损失函数：Σ。GT系列米德尔伯里Middlebury基准[1]被广泛用于评估视频帧插值方法。那里L=ρXIt（x）−It（x）、（四）是两个子集。OTHER集合提供了真实的中间框架，而EVALUATION集合隐藏了其中ρ（x）=x2+2是Charbonnier罚函数[5]。我们将常数ε设为1e−6。训练数据集。我们使用Vimeo90K数据集[39]来训练模型。Vimeo 90 K数据集有51,312个三元组用于训练，其中每个三元组包含3个连续的视频帧，分辨率为256448 像素。我们训练我们的网络来预测中间帧（即，t=0。（5）每一个三角形。在测试时，我们的模型能够为任何t[0，1]生成任意中间帧。我们通过水平和垂直翻转以及反转三元组的时间顺序来增加训练数据。培训战略。我们使用AdaMax [17]来优化所提出的网络。我们将β1和β2设置为0.9和0.999，并使用批量大小2。核估计、上下文提取和帧合成网络的初始学习速率设置为1e4。由于流量估计和深度估计网络都是从预先训练的模型初始化的，因此我们分别使用较小的学习率1e6和1e7。我们联合训练整个模型30个epoch，然后将每个网络的学习率降低0.2倍，并对整个模型进行另外 10 个 epoch 的微调。我们在 NVIDIA Titan X（Pascal）GPU卡上训练我们的模型，这需要大约5天的时间来收敛。4. 实验结果在本节中，我们首先介绍用于评估的数据集。然后，我们进行消融研究，以分析所提出的深度感知流投影和分层上下文特征的一致性。然后，我们比较了所提出的模型与国家的最先进的帧内插算法。最后，我们讨论了我们的方法的局限性和未来的工作。4.1. 评估数据集和指标我们评估所提出的算法在多个视频数据集具有不同的图像分辨率。可以通过将结果上传到基准网站进行评估。该数据集中的图像分辨率约为640×480像素。Vimeo90K。在Vimeo90K数据集的测试集中有3，782个三联体[39]。该数据集中的图像分辨率为448×256像素。UCF101 UCF101数据集[33]包含具有各种人类动作的视频。有379个三元组，分辨率为256×256像素。HD. Bao等人[2]收集11个高分辨率视频进行评估。HD数据集由四个1920 1080p、三个1280 720p和四个1280544 p视频。该数据集中的运动通常大于其他数据集。指标. 在Middle-bury数据集上计算平均插值误差（IE）和归一化插值误差（NIE）.较低的IE或NIE表示较好的性能。我们在UCF101、Vimeo90K和HD数据集上评估了PSNR和SSIM以进行比较。4.2. 模型分析我们分析了所提出的模型中两个关键组成部分的贡献：深度感知流投影层和学习的分层上下文特征。深度感知流投影。为了分析我们的深度感知流投影层的有效性，我们训练了以下变体（DA是Depth-Aware的缩写）：DA-无：我们移除深度估计网络，并使用简单的平均值[2]来聚合流投影层中的流。DA-Scra：我们从头开始初始化深度估计网络，并使用整个模型对其进行优化。DA-Pret：我们从[19]的预训练模型初始化深度估计网络，但冻结参数。DA-Opti：我们从[19]的预训练模型初始化深度估计网络，并与整个模型联合····DA-无34.910.967934.470.97462.1031.460.9174DA-Scra34.850.967734.300.97352.1331.420.9164DA-Pret34.910.968034.520.97472.0731.520.9178DA-优化 34.990.968334.710.97562.0431.700.91933708深度图光流插值帧图5. 深度感知流投影的效果。 DA-Scra模型不能学习任何有意义的深度信息。DA-Pret模型从预先训练的模型中提取深度估计网络，并为帧插值生成清晰的运动边界DA-Opti模型进一步优化了深度图，并生成更清晰的边缘和形状。我们在表1中显示了上述模型的定量结果，并在图5中提供了深度、流量和插值帧的可视化。首先，DA-Scra模型的性能比DA-None模型差如图5的第二行所示，DA-Scra模型不能从随机初始化中学习任何有意义的深度信息。当从预训练的深度模型初始化时，DA-Pret模型显示出实质性的性能改进，并生成具有清晰运动边界的流。在联合优化整个网络之后，DA-Opti模型进一步改进深度图，例如，该人分析表明，该模型有效地利用了深度信息，以产生高质量的结果。学习层次上下文。在所提出的模型中，我们使用上下文特征作为框架合成网络的输入之一我们分析了不同上下文特征的贡献，包括预训练的 conv1 特征（PCF），学习的conv1特征（LCF）和学习的历史特征（LHF）。此外，我们还考虑深度图（D）作为附加的上下文特征。我们在表2中显示了定量结果，并在图6中比较了插值图像。在不使用任何上下文信息的情况下，模型不能很好地执行，并且生成模糊的结果。通过引入上下文特征，例如，预训练的conv1特征或深度图，性能大大提高。我们进一步证明，学习的上下文特征，特别是学习的层次特征，导致在表2. 语境特征分析。我们比较了不同来源的上下文特征：预训练的卷积特征（PCF）、学习的卷积特征（LCF）、学习的分层特征（LHF）和深度图（D）。上下文峰值信噪比（PSNR）29.28 30.70 30.67 31.22 31.49 31.55PSNR30.8631.0131.1131.2831.31三十一点六六图6. 上下文特征的影响。所提出的模型使用学习的分层特征（LHF）和深度图（D）进行帧合成，从而生成更清晰、更锐利的内容。Vimeo90K和Middlebury数据集。使用深度图和学习到的分层特征的模型还生成更清晰和更清晰的内容。4.3. 与最新技术我们针对以下基于CNN的帧插值算法评估所提出的DAIN：MIND [22]、DVF [21]、SepConv [25]、CtxSyn[23] 、 ToFlow [39] 、 Super SloMo [14] 和 MEMC-Net[2]。此外，我们还利用Baker et al.[1]生成两种光流估计算法EpicFlow [29]和SPyNet [28]的插值结果，用于比较。在表3中，我们显示了Middlebury基准[1]的EVALUA-TION集的比较，这些比较也可以在Middlebury网站上获得。所提出的模型对所有比较的方法都表现得很好。在提交时，我们的方法在以下方面排名第一在所有已发表的算法中，在Middlebury网站上。我们展示了一个视觉对比-在图7中，EpicFlow [29]、ToFlow [39]、SepConv [25]和MEMC-Net [2]方法在球或脚上产生重影伪影。相比之下，所提出的方法重建了一个清晰的形状的球。与CtxSyn [23]和Super SloMo [14]方法相比，我们的方法在拖鞋和脚上生成更多细节。在表4中，我们提供了UCF 101 [33]，Vimeo 90 K[39]，HD [2]和Middle-DA-优化DA-PretDA-ScraDA-无UCF 101 [33]Vimeo [39]M.B. [1]第一章HD [2]PSNRSSIMPSNRSSIMIEPSNRSSIM没有一34.840.967934.380.97382.2131.350.9178PCF34.900.968134.410.97402.1631.430.9160D34.900.968234.440.97402.1431.620.9183PCF + D34.970.968234.490.97462.1331.730.9194LCF + D34.870.968034.540.97492.0831.560.9185LHF + D34.990.968334.710.97562.0431.700.9193GT没有一PCFDPCF + DLCF + DLHF + D3709表3. Middlebury E VALUATION集的定量比较。红色和蓝色的数字代表最佳和第二佳性能。所提出的DAIN方法在IE和NIE方面优于其他方法鹅掌柴属城市泰迪后院篮球自卸车常青平均方法不，不EpicFlow [29] 3.170.623.790.704.28一点零六六点三七一点零九十一点二一点一八6.23一点十分八点一一一元8.761.046.490.97[25]第二十五话 2.52零点五四3.56零点六七4.17一点零七5.41一点零三10.20.995.47零点九十六六点八八0.686.630.705.610.83[39]第三十九话 2.54零点五五三块七0.72三点四三零点九二五点零五分零点九十六九点八十四分0.97五点三四分0.98六点八八0.72七点一四0.905.490.84[14]第十四话二点五一0.593.660.722.910.74五点零五分0.98九点五六零点九四五点三七零点九十六六点六九0.606.730.695.310.78[23]第二十三话2.240.502.960.554.321.424.210.879.590.955.220.947.020.68 6.660.675.280.82MEMC-Net [2]2.470.603.490.654.631.424.940.888.910.934.700.866.460.666.350.645.240.83DAIN（我们的）2.380.583.280.603.320.694.650.867.880.874.730.856.360.59 六点二五0.664.860.71输入ToFlow EpicFlow SepConv-L1SuperSloMo CtxSyn MEMC-Net DAIN（Ours）图7. 对Middlebury E VALUATION套件进行目视比较。该方法重建了球的清晰形状，并恢复了拖鞋和脚的更多细节。表4. UCF101、Vimeo90K、HD和Middlebury O THER数据集的定量比较。红色和蓝色的数字表示最佳和第二佳性能。我们还比较了每种方法的模型参数和运行时间方法#参数运行时[39]第二届中国国际纺织品博览会[1]输入SPyNet EpicFlow MIND DVF ToFlow SepConv-L1MEMC-NetDAIN（Ours）Ground-truth图8. UCF101数据集上的视觉比较[33]。所提出的方法对齐内容（例如，杆）以及恢复更多的细节，该名男子埋葬[1] OTHER SET。我们的方法对所有数据集的现有方法都表现良好，特别是在Vimeo 90 K [39]数据集上，在PSNR方面，MEMC-Net [2（百万）（秒）PSNRSSIMPSNR SSIMIEPSNRSSIM[第28话]1.200.1133.670.963331.95 0.96012.49--EpicFlow [29]-8.8033.710.963532.02 0.96222.47--[22]第二十二话7.600.0133.930.96610.94293.35--DVF [21]1.600.4734.120.963131.54 0.94627.75--[39]第三十九话1.070.4334.580.966733.73 0.96822.5129.370.8772[25]第二十五话21.60.2034.690.965533.45 0.96742.4430.610.8978[25]第二十五话21.60.2034.780.966933.79 0.97022.2730.870.9077MEMC-Net [2]70.30.1234.960.96820.97392.1231.390.9163DAIN（我们的）24.00.1334.990.96830.97562.0431.640.92053710×××表5. 与MEMC-Net [2]在参数和运行时间方面的比较。我们列出了MEMC-Net和建议模型中每个子模块的参数（百万）和运行时间（秒）[2]第二届中国国际汽车工业展览会子模块#参数运行时#参数运行时深度--5.350.043流38.60.0249.370.074上下文0.010.0020.160.002内核14.20.0085.510.004掩模14.20.008--合成3.300.0803.630.002总70.30.12224.00.125叠加输入SepConv-LfSepConv-L1MEMC-Net DAIN（Ours）地面实况图9. HD数据集上的视觉比较[2]。Sep- Conv [25]方法无法对齐内容，因为运动大于插值内核的大小，例如，51×51。拟议的DAIN揭示了头发和眼睛的更多细节，而不是国家的-最新的MEMC-Net [2].在图8中，SPyNet [28]、EpicFlow [29]和Sep- Conv[25]方法无法很好地对齐极点，从而产生重影或破碎的结果。 MIND [22] 、 DVF [21] 、 ToFlow [39] 和MEMC-Net [2]方法在男子腿上生成模糊结果相比之下，所提出的方法很好地对齐极点，并生成更清晰的结果。在图9中，我们展示了HD数据集的一个示例。Sep- Conv [25]方法根本无法对齐内容，因为运动大于插值核的大小（例如，51 51）。与MEMC-Net [2]相比，我们的方法恢复了头发和面部的更清晰的细节（例如，眼睛和嘴）。总的来说，拟议的DAIN生成的结果比现有的框架更美观，伪影更少插值方法在我们的补充材料中，我们证明了我们的方法可以生成任意中间帧来创建10个慢动作视频。更多的图片和视频结果可以在我们的项目网站上找到我们还列出了模型参数的数量和执行时间（在640上测试480图像）的每种方法表4.所提出的模型使用与SepConv [25]相似的参数数量，但运行速度更快。与MEMC-Net [2]相比，我们使用的参数减少了69%（参见深度图ToFlowDAIN（Ours）Ground-truth图10. 提出的方法的局限性。当深度图估计得不好时，我们的方法往往会产生模糊的结果和不太清晰的边界。表5中的子模块的详细比较），并实现更好的性能。4.4. 讨论和限制所提出的方法依赖于深度图来检测流聚集的遮挡然而，在某些情况下，深度图没有被很好地估计，并且导致模糊的对象边界，如图10的高光区域所示。我们的方法生成边界不清晰的模糊结果（例如，在鞋和滑板之间）。然而，与ToFlow [39]相比，我们的方法仍然很好地重建了滑板。虽然我们目前的模型从单个图像中估计深度，但通过联合估计两个输入帧的深度或对光流和深度之间的一致性进行建模来获得更准确的深度图将是有益的[43]。5. 结论在这项工作中，我们提出了一种新的深度感知的视频帧插值算法，它明确地检测使用的深度信息的遮挡。我们提出了一个深度感知的流投影层，鼓励采样更接近的对象比更远的。此外，我们利用学习的层次特征和深度图作为上下文信息来合成中间帧。所提出的模型是紧凑和有效的。大量的定量和定性评估表明，该方法优于现有的框架内插算法在不同的数据集。最先进的成就，从所提出的方法揭示了未来的研究，利用深度线索的视频帧内插。谢谢。本课题得到国家重点研究发展计划（2016YFB1001003）、国家自然科学基金（61771306）、自然科学基金（2016YFB1001003）、国家自然科学基金（61771306）、国家自然科学基金（2016YFB1001003）国家重点科技计划（2013 ZX 01033001 -002-002），上海市数字媒体处理与传输重点实验室（STCSM 18 DZ 2270700和18 DZ 1112300）。它也得到了NSF职业资助（1149783）和Adobe、Verisk和NEC的部分支持。3711引用[1] S. Baker、D. Scharstein，J.刘易斯，S。罗斯，M。J.Black和R.塞利斯基光流数据库和评价方法。IJCV，2011年。二三五六七[2] W.包，W.- S.莱，X。Zhang，Z. Gao和M.- H.杨MEMC-Net：用于视频插值和增强的运动估计和运动补偿驱动神经网络arXiv，2018年。一二三四五六七八[3] W.鲍，X.张丽陈湖，澳-地Ding和Z.高.帧速率提升的高阶模型与动态滤波转换. TIP，2018年。一、二[4] R.卡斯塔尼奥山口Haavisto和G.兰波尼一种用于运动自适应帧速率上转换的方法。TCSVT，1996年。1[5] P. 沙邦尼河 Blanc-F e'raud，G. Aubert和M. Bar-laud。计算成像的两个确定性半二次正则化算法。载于ICIP，1994年。5[6] W. Chen，Z. Fu，D. Yang和J.邓小平更在野外的单一图像深度感知。在NIPS，2016年。二、四[7] D.崔，W。宋，H. Choi和T. Kim.基于块运动补偿帧内插的基于地图的运动细化算法。TCSVT，2016年。2[8] D. Eigen和R.费格斯。预测深度，表面法线和语义标签与一个共同的多尺度卷积架构。CVPR，2015。2[9] D.艾根角Puhrsch和R.费格斯。使用多尺度深度网络从单个图像进行深度图预测。在NIPS，2014。2[10] J. Flynn，I. Neulander，J. Philbin和N.很聪明深立体声：学习从世界的图像中预测新的观点。在CVPR，2016年。1[11] H.傅，M。贡角，澳-地Wang，K. Batmanghelich和D.涛.用于单目深度估计的深度有序回归网络。在CVPR，2018年。2[12] H.哈，S。Im，J. Park，H.- G.全和我。所以奎恩。高品质的深度从未校准的小动作剪辑。在CVPR，2016年。2[13] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。二、四[14] H. Jiang，中国粘蝇D. Sun，V. Jampani，M.- H. Yang，E. Learned- Miller，and J.考茨超级慢动作：用于视频插值的多中间帧高质量估计。在CVPR，2018年。一二三六七[15] K. 卡尔施角Liu和S.B. 康深度转换：使用非参数采样从视频中提取深度。TPAMI，2014年。2[16] 联合 S. Kim 和 M.H. 善宇低计算复杂度的新帧率TCSVT，2014年。2[17] D. P. Kingma和J. BA.亚当：随机优化的一种方法。2015年，国际会议。5[18] Y. Kuznietsov，J. Stückle r和B. Leibe 用于单目深度图预测的半监督深度学习在CVPR，2017年。2[19] Z. Li和N.很聪明Megadepth：从互联网照片中学习单视图深度预测。在CVPR，2018年。二、四、五[20] F. Liu，C. Shen，G.林和我D.里德使用深度卷积神经场从单目图像学习深度TPAMI，2016. 2[21] Z.柳河，巴西-地是的X唐，Y。Liu和A.阿加瓦拉使用深体素流的视频帧合成。InICCV，2017. 一二六七八[22] G. 朗湖，澳-地Kneip，J.M. Alvarez，H.Li，X.zhang和Q. Yu.通过简单地观看视频来学习图像匹配。在ECCV，2016年。二、六、七、八[23] S. Niklaus和F.刘某用于视频帧内插的上下文感知合成。在CVPR，2018年。一二三四六七[24] S. 尼克劳斯湖Mai和F.刘某基于自适应卷积的视频帧内插在CVPR，2017年。一、二、四[25] S. 尼克劳斯湖Mai和F.刘某基于自适应可分离卷积的视频帧内插InICCV，2017. 一、二、四、六、七、八[26] M. T. Orchard和G. J·沙利文重叠块运动补偿：一种估计理论方法。TIP，1994年。2[27] A. Rajagopalan，S. Chaudhuri和U.穆德纳古迪利用离焦立体像对进行深度估计与图像复原。TPAMI，2004年。2[28] A. Ranjan和M. J.布莱克。使用空间金字塔网络的光流估计。在CVPR，2017年。六七八[29] J. Revaud ，P. Weinzaepfel ，Z. Harchaoui和C.施密特Epicflow：光流对应的边缘保持插值。CVPR，2015。六七八[30] O.龙内贝格山口Fischer和T.布洛克斯U-Net：用于生物医学图像分割的卷积网络在MIC-CAI，2015. 4[31] A. Roy和S.托多洛维奇使用神经回归森林的单目深度估计在CVPR，2016年。2[32] A. Saxena，S. H. Chung和A. Y. Ng.从单个单目图像学习深度在NIPS，2006年。2[33] K. Soomro、A. R. Zamir和M. Shah. UCF101：来自野外视频的101个人类动作类的数据集。见CRCV-TR-12-01，2012。二五六七[34] D.太阳，X.杨，M. Y. Liu和J. Kautz. Pwc-net：使用金字塔、扭曲和成本体积的光流在CVPR，2018年。1、4[35] M.孙，G. Bradski，B.- X. Xu和S. Savarese深度编码霍夫投票联合目标检测和形状恢复. ECCV，2010年。2[36] C.王湖，加-地 Zhang， Y.他和Y.- P. Tan。使用三边滤波的帧速率上转换。TCSVT，2010年。2[37] P. Wang，X.沈，Z. Lin，S.科恩湾Price和A. L.尤尔。从单个图像实现统一的深度和语义预测CVPR，2015。2[38] J.Wu，C. Yuen，N.- M. Cheung，J. Chen，and C. W.尘无线网络中高帧率视频传输

下载后可阅读完整内容，剩余1页未读，立即下载