实例级视频插值增强算法

67 浏览量更新于2023-10-17 收藏 1.68MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1放大检查：基于实例级判别的视频插值增强算法袁良哲1陈一波1刘汉田1孔涛1、2石建波11宾夕法尼亚大学2清华大学{lzyuan，yibochen，lhantian，jshi}@seas.upenn.edutaokongcn@gmail.com，www.example.com摘要我们提出了一种轻量级的视频帧插值算法。我们的关键创新是实例级监督，允许从类似对象的高分辨率版本我们的实验表明，所提出的方法可以生成最先进的结果，在不同的数据集，与竞争方法的计算资源（时间和内存）的分数。给定两个图像帧，级联网络创建中间帧，其中1）流扭曲模块，其计算粗略的双向光流并通过基于流的扭曲创建内插图像，随后是2）图像合成模块，其进行精细尺度校正。在学习阶段，对象检测建议生成的插值图像。较低分辨率的对象被放大，并且学习算法使用在高分辨率对象上训练的对抗性损失来引导系统朝向实例级细化校正对象形状和边界的细节。1. 介绍高保真视频帧内插在新视图渲染、视频压缩和帧速率转换中有着广泛的应用。现有的方法集中于实现在图像的所有区域上平均的整体高质量插值。缺乏显式的对象实例建模成为算法改进的瓶颈基于流的图像合成算法[1，10，19，22]通过从给定帧中显式复制像素来生成逼真的颜色和图案。对于具有遮挡、复杂变形或快速运动的复杂场景，基于流的插值由于光流估计算法的不准确性而受到影响。为了补偿光流误差，[19，22]增加了一个额外的网络来细化插值结果，代价是更高的计算成本。*表示等额缴款补充视频：https://youtu.be/q-_wIRq26DY。图1：目标检测建议允许感兴趣区域（RoI）放大检查。对抗性判别器使用跨整个视频的高分辨率对象针对当前内插图像区域进行训练。从上到下：合成图像由图像合成- sis损失只;采用全图像对抗算法;通过建议的实例级实例化;以及地面实况。基于核的插值方法实现了相同的每像素映射目标，而不需要精确的每像素流估计。在这样的混合内核的大小1218312184方法直接限制网络能够捕获的运动为了捕获更大的运动，[20]中使用了大内核（51×51），这导致了大量的内存和计算资源使用。为了使未被遮挡的对象[15]上的像素产生幻觉或锐化运动模糊的对象 [13]，通常使用生成广告网络（GAN）。然而，这样的生成模型容易受到模式崩溃的影响，从而导致过拟合问题：当对象模糊时，它倾向于完全移除对象。我们提出了一个轻量级的视频合成框架，它利用了新提出的实例级广告对抗训练。我们的系统包括一个两阶段的插值网络：级联设计与基于流的模块，然后是基于内核的模块。该设计实质上减少了推理阶段的计算资源，因为它既不需要估计准确光流所需的大规模网络，也不需要保持干净边界和捕获大运动所需的大尺寸内核从我们的实验中，我们发现图像级监督有一种倾向，以消除对象的细节，特别是当光流是模糊的。为了缓解这个问题，我们提出了一个实例级的分析，我们的系统集中在个别对象的细节。然而，如果“地面实况”参考图像由于较低的分辨率或运动模糊也缺乏细节，则没有足够的反馈给网络来纠正其错误。我们的关键观察是，在视频中，我们经常有类似的物体以更高的分辨率显示。这使得算法不仅可以从当前参考帧中学习，还可以从语义相似的对象中学习更高分辨率的对象。这种设计允许我们的网络在学习中利用实例级注意力，从而在chal-challening场景中表现得更好。据我们所知，我们是第一个提出实例级对抗学习框架的人，该框架有效地利用了网络的容量，并实现了视频插值任务的准确性使用78%的计算时间和21%的模型参数-[21]我们的目标是实现最先进的互联网，极化质量2. 相关工作光流估计是视频帧插值的基本构建块[10，19，29，31]。事实上，图像插值质量已经被用来评估光流估计的准确性[1]。随着光流估计质量的快速提高，最先进的光流方法[3，8，26]可以作为视频插值的强基线。基于流的视频内插的缺点包括：1）由于缺乏遮挡推理而在对象边界周围产生伪影，2）训练光流估计器需要特定于任务的数据集，以及3）总体算法不是端到端可训练的。其中一项研究重点是将光流集成到端到端可训练的视频插值框架中。Liu等人[31]开发了一种网络来提取输入视频中跨空间和时间的每像素3D光流矢量中间图像是通过三线性插值，跨输入视频量的灰。该方法在帧内插中获得了高质量的结果，并且它们的非监督流估计结果与最新技术水平相当。然而，[31]在场景包含重复模式时往往会失败。Jiang等人的工作。[10]通过估计双向流与可见性掩模以及随后的流细化网络来解决遮挡问题。 Niklaus等人 [19]通过保留从ResNet18[ 7 ]提取的逐像素上下文信息解决了光流不准确的问题，并采用具有GridNet [ 4 ]架构的合成网络来生成插值帧。远离基于光流的方法，[17，21，20]消除了对每像素显式运动估计的需要Meyer等人 [17]在定向多尺度金字塔层级上传播预测相位信息，以应对大运动。Niklaus等人。 [20]估计用于像素合成的空间自适应卷积核，用于两个输入帧的互操作。虽然这种方法能够实现高质量的视频帧插值，但是很难一次估计所有的内核，并且插值过程非常占用内存。在[21]中，作者通过用一对1D内核近似2D内核来提高效率。这项工作减轻了密集的内存需求，但基本的限制仍然存在，其中捕捉大运动的能力和帧分辨率的灵活性仍然受到内核大小的限制，这是非常昂贵的增加。一个相关但更难的任务是视频帧外推。这个任务包含了一个类似的挑战，运动估计和对象完成的非遮挡区域。早期的方法使用变分模型来表示预测中固有的不确定性。Mathieu等人 [16]设计了一种多尺度条件GAN架构，以改进预测。这些方法遭受模糊并且包含用于大运动的伪影。Vondrick等人 [27]训练了一个双流对抗网络，将背景中的前景解开，以预测未来。Lee等人[14]提出了一种基于VAE-GAN的随机视频预测模型，用于对象合成和完成。最近的几个作品试图直接学习从过去的像素到未来的转换[28]通过学习预测采样内核，将过去的记忆与未来的预测分开[22]结合了基于流和基于核的方法来学习模型，以同时为每个像素预测运动矢量和核。12185图2：我们的模型概述流量估计模块（左）采用两个帧：I1和I2作为输入。它预测双向光流f1→t和f2→t用于粗运动估计，并预测混合掩模b用于遮挡推理。图像合成模块（右）获取图像I1、I2、对应的特征F1、F2、估计的光流f1→t、f2→t和混合掩模b以合成目标帧f1→t。实例-l ev eladversarialdiscrimination被进一步添加到图像上，以保持更清晰的图像细节。3. 方法3.1. 粗略光流估计为了补偿大位移运动，我们首先估计粗略的光流以生成初始内插帧，该初始内插帧与连续的视频帧I1和I2相邻。我们使用一个类似于U-Net的网络来估计双向光流f1→t和f2→t，它可以用来将I1和I2相对于指定的时间间隔t进行弯曲。与此同时，我们的网络还预测每像素加权掩码b，以将两个合成图像混合成一个。这里的混合遮罩b可以被看作是一个置信度遮罩，它受[19]的启发，我们采用预训练的特征提取器从I 1和I 2中提取高级特征，分别表示为F 1和F 2。请注意，基于流的方法在大多数区域上都表现出令人满意的性能，但通常无法处理细粒度细节和复杂运动。因此，我们的流量估计模块只是作为一个初始步骤的视频插值任务。3.2. 图像合成模块我们执行像素级和语义特征级扭曲，如图所示。二、详细地，我们将图像I1、I2、对应的深度特征图F1、F2、流f2→t、f1→t和掩码b馈送到稍后的模块中以用于进一步细化。在图像合成模块中，我们使用估计的双向流f2→t，f1→t和混合掩码b通过双线性插值将图像和特征都扭曲到时间t [9]。<$It=b<$g（I1，f1→t）+（1−b）<$g（I2，f2→t）（一）图3：图像级对抗学习与提出了实例级对抗学习。我们从高分辨率图像中裁剪ROI并将其调整为恒定大小的补丁，这些补丁用于训练我们的低分辨率图像。这迫使系统专注于细化实例的细节和边界。其中，g（I，f）是双线性扭曲函数，其采用扭曲映射f将张量I扭曲为f，并且f是逐元素乘法算子。然后，我们将扭曲的特征F_ t和图像_t连接起来，并将其馈送到图像合成器中姐妹层。与[19]不同的是，作者使用了一个巨大的GridNet [4]来细化图像，我们简单地使用三个内核大小为9的卷积层来近似一个大的感受野。我们将证明，这种近似足以使我们提出的实例级对抗性损失获得良好的性能。3.3. 实例级鉴别器从两个先前阶段生成的F10引导的经填充的图像处理器具有两个问题：（a）由于光流是在整个图像上训练的，它经常导致扭曲和模糊的边界，如图所示。b）光流估计不能消除图像中的对象的遮挡，这是插值算法需要处理的常见情况为了解决这些问题，我们使用对抗学习[5]赋予模型合成实例和重新覆盖结构模式的能力。在实验中，我们探索了两种不同的视频插值算法：（a）直接对整个图像进行区分，（b）放大对象实例区域，如图所示。3 .第三章。对整个图像的直接对抗学习使得生成的图像It与真实图像It相比看起来更真实。然而，由于大多数图像通常是-与背景一起，图像级监督在整个图像上提供了均匀的梯度，从而忽略了细节，并且减少了对前景的优化。以实例为中心的学习迫使模型更多地关注实例，特别是在小规模对象上。给定图像It，我们使用区域建议方法[6]Ft =bg（F1，f1→t）+（1−b）g（F2，f2→t）（2）以生成多个感兴趣区域（RoI）。如果我们有-在训练过程中，我们使用高分辨率图像，12186命令插值图像和地面实况之间的梯度差保持一致，这进一步提高了重建质量[16]。上述光度损失计算如下：Lph=ρ（I−Igt）+p（∂˜I−xIgtx）+ρ（∂˜I伊Igt− 伊）（4）ρ（x）=（x2+x2）α（5）图4：与其他方法相比，使用所提出的实例级对抗性损失进行训练，我们的模型在插值FHD分辨率图像时使用最少的参数和最少的运行时间生成最佳结果。从高分辨率图像中提取相应的ROI，并使用它们来指导低分辨率结果的合成。我们如 [6] 中所述执行RoIAlign以汇集ROI从It和It到固定大小为h×w的斑块。的RoIAlign可以实现两种效果：a）通过双线性输入，插值，梯度可以反向传播到精确的像素位置和以前的模块，因此整个网络可以端到端更新;b）整形操作自然实现放大效果，平衡网络不同对象的重塑ROI如图所示。3 .第三章。有两种方法可以选择每个图像用于训练的ROI数量：我们可以从区域建议网络中选择固定数量的具有最高响应的ROI，或者在区域建议过程中使用得分超过一定非最大抑制阈值的ROI。在我们的实验中，我们发现最终的插值质量对用于训练的每个图像的ROI数量ing. 在训练过程中，每个图像使用10-30个区域建议导致±0。002标准SSIM和±0. 08测试中IE/PSNR的STD。在训练阶段，我们根据经验选择每张图像16个ROI。采用具有光谱归一化[18]的光谱分析仪仅检查特定ROI，而不是整个图像。对抗性损失Ladv的细节将在下一节中描述。其中ρ（·）是鲁棒范数，也称为Charbonnier范数。内插损失的第二项是感知损失[11]。它量化了网络更高层次的特征重构质量，从而使图像插值结果在视觉上更我们的实验表明，感知损失使网络能够学习重建脆图像边界。感知损失被定义为Lpe=|Φ（I）−Φ（Igt）|1（6）其中Φ（·）是特征提取函数，并且在我们的工作中，我们使用来自VGG-16的潜在特征[23]。我们将光度损失和感知损失应用于两个ini-初始插值图像IUI和合成图像IUI。我们还约束了双向光流f1→t，f2 →t的一阶梯度和相应的混合掩模b局部平滑，导致平滑度损失Ls。上述损失函数主要引导我们的网络进行粗略的插值，我们将它们分组为插值损失，Lsynth=λ0Lph+λ1Lpe+λ2Ls（7）对抗性损失。为了处理复杂场景，扩大模型容量，我们利用另一个网络D（·）对合成图像进行判别。电力系统的无电损失由发电机损失和无电损失两部分组成。设（Pi，Pi）指一对合成的和真实的ROI，其中i = 1，···，N. 每一个人，都有自己的故事，都有自己的故事。100.将收入损失公式化为：1ΣN3.4. 培养目标Ld=Ni=1E[min（0，−1−D（Pi））]我们使用两个损失来训练网络：一个全局interpo-lation lossLint和instance adversarial lossLadv。+E[min（0，−1+D（Pi））]1<$NL= Lint+ Ladv（3）Lg=−Ni=1E[D（Pi）];Ladv=λ3Ld+λ4Lg（8）12187插值损失。对于全局插值损失，我们首先最小化每像素色差上的鲁棒性范数[25]，其用于最近的自监督光流估计工作[30]。我们进一步限制了第一个-3.5. 培训详细信息该网络在UCF 101 [24]和CityScapes [2]数据集的混合器上进行训练。我们随机挑选了四个三胞胎，12188图5：使用groundtruth分割（白色）和12（a）/24（b）像素膨胀（灰色）的三重图掩码示例对灰色和白色区域进行评价。图6：CityScapes数据集上具有不同宽度的trimap的评估指标DVF [31]被排除在图中以更好地可视化。图 7 ：来自 Oursroigan 的较高 SSIM 分数表明我们比SepConv保留了更多的感知结构[21]。UCF 101的每个视频剪辑和CityScapes训练集的每个序列中的一个三元组，总共给我们大约26k个三元组。在实践中，由于我们提出的训练管道是独立的，不需要标签，任何视频剪辑的集合都足以训练我们的网络。我们保持UCF 101原始图像大小和向下-CityScapes的图像样本为256×512。请注意，我们在CityScapes中使用高分辨率版本的图像数据集来监督对抗学习。形成高分辨率和低分辨率的训练对是我们学习算法的关键。在训练过程中，我们随机裁剪一个256×256的三元组区域作为输入。我们还随机翻转图像以进行数据增强。输出的大小，RoIAlign设置为64×64。亚当优化器[12]，β1=0。9和2=0。999的初始学习速率为1 e-4，以指数方式衰减每10个时期0.1，并在训练期间在1 e-8处剪切此外，我们在“真实”图像中添加了衰减的随机噪声表1：CityScapes1和UCF 1012上不同方法的定量评估，包括插值误差（IE）[1]、峰值信噪比（PSNR）和结构相似性图像度量（SSIM）。较低的IE和较高的SSIM和PSNR指示较好的质量。计划训练器以平滑对抗学习。不同损失的权重设置为（λ0，λ1，λ2，λ3，λ4）=（1，1，0. 010 1，0。01）。4. 实验为了评估我们的方法，我们定量和定性地比较它与几个国家的最先进的视频帧插值方法。即，深度体素流（DVF）[31]是用于视频插值的流扭曲方法;可分离自适应卷积（SepConv）[21]是一种具有自适应可分离卷积的基于核的方法; Super-SloMo [10]使用级联光流估计器来内插视频帧。我们将我们的roigan称为使用建议的实例级对抗性损失训练的网络，我们的gan称为使用整体图像上的对抗性损失训练的模型，我们的基线称为没有任何对抗性损失训练的模型。我们比较了两个不同数据集CityScapes [2]和UCF101[24]上的算法结果。 CityScapes包含不同的对象，例如：汽车、人、交通灯等，不同的尺寸和距离，这有利于区分算法对小目标和部分遮挡的插值能力。UCF101包含人员活动，例如划船、化妆、拳击等等，这有利于显示快速运动和复杂变形的结果。1SuperSloMo [10]不是开源的，所以我们2我们对[10]提供的合成图像重新运行评估UCF 101 [24]IESSIMPSNRDVF [31]11.540.86929.70[21]第二十一话11.280.87530.29超级斯洛莫[10]10.870.88530.48我们的基线11.230.87630.08我们的根11.660.87029.85我们的罗伊干10.920.88230.23城市景观[2]IESSIMPSNRDVF [31]17.490.72223.88[21]第二十一话7.850.92330.92超级斯洛莫[10]−−−我们的基线9.380.89029.31我们的根9.040.90229.93我们的罗伊干8.030.92530.7712189Ground Truth OursroiganDVF [31] SepConv [21]图8：CityScapes数据集上不同方法的定性结果。最好用彩色观看。4.1. 消融研究基线。考虑到我们的基线在方法上与[19，31]相似，比较我们方法中的指标（我们的基线，我们的roigan）将作为消融研究，以显示所提出的实例级区分的有效性。两个选项卡中的结果1和图6显示我们的roigan在数据集上始终优于或与我们的基线持平这从一个侧面说明了所提出的实例级判别可以提高算法的性能。对抗训练。我们验证了使用对抗学习来提高视频插值性能的优势。从两个数据集的实验来看，对抗性损失的训练给了我们更清晰的图像边界。图1，我们展示了对抗损失的有效性的例子。从放大的图中，我们可以看到adversarial损失有助于保持边缘和形状。这可以归因于对抗性损失，更好地促进图像合成模块有趣的是，我们发现具有图像级对抗损失的训练模型有时会导致局部最小解。在CityScapes数据集上进行测试时，这种现象尤其明显。由于图像级对抗训练没有明确约束实例，因此网络倾向于删除场景中的不确定对象并恢复背景。这是因为数据分布-场景由刚性物体和背景主导，使用图像级对抗性损失的训练导致有偏差的学习结果。在下一部分中，我们将讨论拟议的实例级区分，这可能会解决这个问题。实例级鉴别器。我们进一步验证了在对抗训练中引入注意力机制的优势，从而大大提高了视频插值性能。从实验中，它表明，训练与实例级歧视给我们更清晰的小，薄的对象和图像细节的边界。由于对抗性损失，刚性移动对象和非刚性人体形状都比基线方法更好地保留，如图所示。1.一、在表1中，我们展示了我们的roigan方法在CityScapes数据集中的所有三个标准上都优于我们的基线和我们的gan在UCF 101数据集中，由于图像中的RoI大小非常接近整个图像大小，因此实例级别的识别器模型和全图像级别的识别器模型表现得相当相似。定性，结果在图。由于实例级对抗训练，9仍然显示出我们的方法在实例上的更好插值结果。值得注意的是，我们还使用CityScapes数据集中具有各种膨胀宽度的“人类”，“车辆 ” 组的三图来测量所有三个度量， Trimap 使用groundtruth分割掩码生成，如12190Ground Truth GT Enlarged OursroiganDVF [31] SepConv [21] SuperSloMo [10]图9：UCF 101数据集上不同方法的定性结果。最好用彩色观看。图五、图6，我们表明我们的方法实现了最好的每-在对象实例上执行。当膨胀宽度小于12像素时，我们的roigan表现最好。随着trimap宽度增长到超过12个像素，更多的背景像素被包括在内，使得我们的roigan在IE和PSNR上的表现略差于SepConv [21]引入区域属性并将其放大会迫使网络关注细节，并利用细粒度信息来学习过滤器。通过将视频插值问题表示为图像空间中的语义对象扰动，可以更好地对像素级运动估计进行分组和更新。使用高分辨率补丁进行训练。我们还研究了不同图像分辨率的训练效果。由于数据扩充和对训练速度的考虑，研究者通常对高分辨率图像进行下采样或裁剪部分图像进行训练。然而，高分辨率图像通常保留细粒度的信息，它可以潜在地提高算法的性能。在我们的模型中，我们用实例级判别器对来自高分辨率图像的真实图像块训练我们提出的模型。更具体地说，基于区域建议，我们从合成图像中裁剪出“假”ROI，‘real’ patches from its high-resolution counterpart,低分辨率高分辨率对。高分辨率补丁最终迫使生成器在低分辨率图像上进行超分辨率和合成细节从表1中，我们发现使用高分辨率补丁来训练网络，并进行基于区域的对抗训练，可以提高基线模型和使用全图像对抗训练的模型的性能。图图6还显示了使用高分辨率图像块进行训练一致地提高了实例上的插值质量。4.2. 定量评价我们在前景和完整图像上都实现了跨数据集的最高SSIM。我们将我们的方法与最先进的视频插值方法进行了比较，包括UCF101和CityScapes数据集上的可分离自适应卷积（SepConv）[21]和深度体素流（DVF）[31]。如表1所示，我们的方法在CityScapes数据集上获得了最佳SSIM分数。表1还展示了UCF 101数据集的定量结果，我们还将其与SuperSloMo [10]进行了比较。我们对[31]提供的图像重新运行评估。12191[10]和[21]生成的图像。所有度量都是在[31]提供的运动掩模下计算的，这突出了处理运动和遮挡区域的能力。我们的方法在轻量级模型中获得了最高的SSIM分数，并对重型模型SuperSloMo进行了验证[10]。我们还表明，所提出的模型实现了最高的SSIM图中的实例。六、由于SSIM度量测量感知和结构相似性，因此它作为所提出的方法可以渲染最真实的场景和结构细节的强有力线索，如图所示。7 .第一次会议。4.3. 定性结果我们还提出了与其他方法的定性比较。图8、对不同照明条件下的街景进行了对比。很明显，DVF[31]产生了最多的伪影，如整个场景的失真，汽车和建筑物的不切实际的变形，白线的错位等。SepConv[21]能够处理其内核大小内的运动我们提出的方法特别擅长于重新覆盖细粒度的细节，例如，第一个例子中的交通标志此外，它以自然和逼真的方式填充遮挡区域，例如第四个示例中道路上的白线图图9显示了UCF 101的定性DVF[31]很难处理第二个例子中所示的遮挡，尽管它是在UCF 101上训练的观察到SepConv[21]具有频繁的重复伪影，例如马腿和跳马杆的分裂。SuperSloMo[10]在大多数场景中表现良好，但有时在小尺度的细节细化方面失败，如拳击运动员的下巴和奔跑的马匹的腿我们提出的方法能够重建细粒度的细节，从而能够插值的chal-chilling场景。4.4. 讨论我们的网络实现了最先进的视频插值结果，使用最小的模型参数和运行最快的推理时间，如图所示。4.第一章在训练过程中，我们放大实例并通过区分重新缩放的ROI来训练我们的模型由于物理距离和放大而对实例的缩放帮助网络学习更多的结构和一般过滤器，其不仅恢复对象上的脆边界，而且还恢复背景中的结构特征，例如。电线杆、交通标志等即使他们没有被训练过。此外，受超分辨率文献的启发，我们希望我们的模型通过使用高分辨率补丁进行训练来学习超分辨率和渲染语义细节。在推理时，只有流量估计模块和图像合成图10：CityScapes数据集上的失败案例。左栏- umn：该网络倾向于删除对象并恢复背景以过拟合训练目标。右栏：我们的模型可能会在杂乱的场景中失败。模块，导致快速推理时间。因此，我们的网络在1024×2048图像上运行的时间为0.36秒。我们的网络仍然有一些限制。对于较大的非刚体运动，插值对象会略微扭曲。如图中右栏所示。10显示，杂乱的场景会导致失败的情况。相互遮挡的大重叠实例使得系统难以解除对单个对象的遮挡。对抗性学习也可能过度拟合训练数据中的某些数据点。例如，当运动估计模糊时，合成模块倾向于去除不确定性并选择安全地重建背景，如图1所示。10左栏。最后，在干净且纹理丰富的区域（地面）上，具有更好光流估计的较大模型将产生比我们更好的结果。5. 结论我们展示了一个轻量级的视频插值框架，可以保留实例级对象的细节。我们使用一个流量估计模块来合成中间帧，然后使用一个轻量级图像合成模块来纠正详细的形状错误。该网络是由一个基于区域的训练，它利用高分辨率的图像补丁，以监督低分辨率的ROI，约束图像中的实例看起来逼真。由于模型的灵活性，我们提出的对抗训练策略可以普遍用作训练块来提高算法性能。在未来，我们希望改进模型的设计，以弥补我们的模型中的一些缺陷，例如。采用可变形卷积来处理大的运动和复杂的变形。我们还希望将我们的工作进一步扩展到视频预测任务。6. 确认我们衷心感谢通过本田研究所好奇心机器计划的支持。12192引用[1] S. Baker、D.Scharstein，J.P. 刘易斯，S。罗斯，M。J.黑色和R. 塞利斯基光流数据库和评价方法International Journalof Computer Vision，92（1）：1 - 31，Mar 2011.一、二、五[2] M.科德茨，M。奥姆兰，S。拉莫斯，T.雷费尔德，M。恩茨韦勒R.贝南森，美国弗兰克，S。罗斯和B。席勒用于语义城市场景理解的cityscapes数据集。IEEE计算机视觉与模式识别会议（CVPR），2016年。四、五[3] A. 多索维茨基山口Fischer、E.Ilg，P.豪塞尔角哈齐尔巴斯Golkov，P. Van Der Smagt，D. Cremers和T.布洛克斯Flownet：使用卷积网络学习光流在IEEE计算机视觉国际会议论文集，第2758-2766页，2015年。2[4] D.富鲁尔，R.埃莫内，E.弗罗蒙特，D. 穆瑟莱，A. Tre'meau和C. 沃尔夫。用于语义分割的剩余卷积-解码网格在英国机器视觉会议论文集，2017，2017。二、三[5] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在Z. Ghahramani，M.威林C. Cortes，N. D. Lawrence和K. Q. Weinberger，editors，Advances in Neural Information Processing Systems 27，pages 2672Curran Associates，Inc. 2014. 3[6] K. 他，G. Gkioxari，P. Doll a'r 和R. 娘娘腔。面具r-cnn。在计算机视觉（ICCV），2017年IEEE国际会议上，第2980-2988页。IEEE，2017年。三、四[7] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习arXiv预印本arXiv：1512.03385，2015。2[8] E. Ilg，N. Mayer，T. Saikia、M. Keuper，A. dosovitskiy和T.布洛克斯流动网络2.0：利用深度网络的光流估计的演进。在IEEE计算机视觉和模式识别会议（CVPR），第2卷，第6页，2017年。2[9] M. Jaderberg ， K. Simonyan 、 A. Zisserman 等人空间Transformer网络。神经信息处理系统的进展，2017-2025页，2015年。3[10] H. Jiang，中国粘蝇D.Sun，V.Jampani，M.Yang，E.G.Learned-Miller和J.考茨超级斯洛莫：用于视频内插的多个中间帧的高质量估计。CoRR，abs/1712.00080，2017年。一、二、五、七、八[11] J. Johnson，A. Alahi和L.飞飞实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议，第694-711页。施普林格，2016年。4[12] D. P. Kingma和J. BA. Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。5[13] A. B. L. 拉森 S. K. 桑德比 H. Larochelle，以及O.温瑟使用学习的相似性度量对像素之外的像素进行自动编码。arXiv预印本arXiv：1512.09300，2015。2[14]A. X. 利河，巴西-地Zhang，F.Ebert，P.阿比尔角芬恩，S. 莱文随机对抗视频预测。 arXiv 预印本 arXiv ：1804.01523，2018。2[15] X.梁湖，加-地李，W。Dai和E. P. Xing。用于未来流嵌入式视频预测的双运动GAN。CoRR，abs/1708.00284，2017年。212193[16] M.马蒂厄角Couprie和Y. 乐存。超越均方误差的深度多尺度视频预测。CoRR，abs/1511.05440，2015年。二、四[17] S. 迈耶， A. 杰卢阿湾 McWilliams ， A. Sorkine-Hornung，M. H. Gross和C.施罗德用于视频帧插值的相位网。CoRR，abs/1804.00884，2018。2[18] T. 宫城，T.卡塔奥卡，M。Koyama和Y.吉田生成对抗网络的谱归一化。在2018年国际学习代表会议上。4[19] S. Niklaus和F.刘某用于视频帧内插的上下文感知合成。在IEEE计算机视觉和模式识别会议上，2018。一、二、三、六[20] S.尼克劳斯湖Mai和F.刘某基于自适应卷积的视频帧内插。2017年在IEEE计算机视觉和模式识别会议上发表。2[21] S.尼克劳斯湖Mai和F.刘某基于自适应可分离卷积的视频帧内插。IEEEInternational Conference on ComputerVision，2017。二五六七八[22] F. A. Reda，G.Liu，K.J. 施河Kirby，J.巴克，D。塔扬A. Tao和B.卡坦扎罗SDC-net：使用空间位移卷积的视频预测。在欧洲计算机视觉会议（ECCV）上，2018年9月。一、二[23] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv预印本arXiv：1409.1556，2014。4[24] K. Soomro、A. R. Zamir和M. Shah. UCF101：来自野外视频的101个人类动作类的CoRR，abs/1212.0402，2012。四、五[25] D.孙习Roth和M. J.布莱克。光流估计的当前实践及其背后的原理的定量分析。 International Journal ofComputer Vision，106（2）：115-137，2014. 4[26] D.太阳，X.杨，M. Y. Liu和J. Kautz. Pwc-net：使用金字塔、扭曲和成本体积的光流的Cnns。在IEEE计算机视觉和模式识别会议论文集，第8934-8943页2[27] C. Vondrick，H. Pirsiavash和A.托拉尔巴生成具有场景动态的视频。CoRR，abs/1609.02612，2016。2[28] C. Vondrick和A.托拉尔巴用对抗性的变形金刚创造未来。 2017 年 IEEE 计算机视觉和模式识别会议（CVPR），第2992- 3000页，2017年7月。2[29] T.- C.王建- Y. Zhu，N. K. Kalantari，A. A.埃夫罗斯，还有R. Ramamoorthi使用基于学习的混合成像系统的光场视频捕获。 ACMTransactionsonGraph-ics（ Proceedings of SIGGRAPH 2017 ）， 36 （ 4 ），2017。2[30] A. Z.朱湖，加-地Yuan，K. Chaney和K.丹尼尔迪斯Ev-flownet：基于事件的摄像机的自监督光流估计。arXiv预印本arXiv：1802.06898，2018。4[31] X. T. Y. L. Ziwei Liu，Raymond Yeh和A.阿加瓦拉使用深体素流的视频帧合成在国际计算机视觉会议（ICCV）上，2017年10月。二五六七八

下载后可阅读完整内容，剩余1页未读，立即下载