盲视频时间一致性学习

161 浏览量更新于2023-10-13 收藏 2.35MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

盲视频时间一致性学习赖伟生黄家斌OliverWang3伊莱·谢赫特曼3ErsinYumer4Ming-Hsuan Yang杨明轩1， 51UC Merced2弗吉尼亚理工大学3Adobe研究4Argo AI5谷歌云着色增强风格转移内在分解图1：所提出的方法的应用。我们的算法将具有严重时间闪烁的每帧处理的视频作为输入（左下），并生成时间稳定的视频（右上），同时保持与处理的帧的感知相似性我们的方法是盲目的特定图像处理算法应用于输入视频和运行在一个高的帧速率。此图包含动画视频，最好使用Adobe Acrobat查看抽象。将图像处理算法独立地应用于视频的每个帧通常导致不期望的随时间不一致的结果。然而，开发时间上一致的基于视频的扩展需要针对各个任务的领域知识，并且不能推广到其他应用。在本文中，我们提出了一种有效的方法，基于深度递归网络，在视频中执行时间一致性我们的方法将原始和每帧处理的视频作为2W.- S. 赖，J. -B. Huang、O.Wang，中国山核桃E.Shechtman，E.Yumer和MH. 杨输入以产生时间上一致的视频。因此，我们的方法是不可知的具体图像处理算法应用于原始视频。我们通过最小化短期和长期时间损失以及感知损失来训练所提出的网络，以在与处理的帧的时间相干性和感知相似性之间取得平衡在测试时，我们的模型不需要计算光流，从而实现实时速度，即使是高分辨率的视频。我们表明，我们的单一模型可以处理多个和看不见的任务，包括但不限于艺术风格转移，增强，着色，图像到图像的翻译和内在的图像分解。广泛的客观评价和主题研究表明，所提出的方法表现良好，对国家的最先进的方法对各种类型的视频。1介绍深度卷积神经网络（CNN）的最新进展已经导致许多强大的图像处理技术的发展，包括图像过滤[30，37]、增强[10，24，38]、风格转移[17，23，29]、着色[19，41]和一般的图像到图像转换任务[21，27，43]。然而，由于存储器和计算限制以及训练数据集的可用性，将这些基于CNN的方法扩展到视频是不平凡的。由于全局优化算法或高度非线性深度网络的不稳定性，将基于图像的算法独立地应用于每个视频帧通常导致时间闪烁。用于实现时间上一致的结果的一种方法是在网络的设计和训练中显式地嵌入基于流的时间一致性损失然而，这种方法存在两个缺点。首先，它需要领域知识来重新设计算法[1，16]，重新训练深度模型[12，15]以及用于训练的视频数据集第二，由于在测试时间的流计算的依赖性，这些方法往往是缓慢的。Bonneel等人[6]提出了一种通用方法，以实现对特定图像处理算法是盲目的时间相干结果。该方法以原始视频和每帧处理的视频作为输入，并解决梯度域优化问题，以最小化连续帧之间的时间扭曲误差。虽然Bonneel等人的结果。[6]在时间上是稳定的，但是它们的算法高度依赖于密集对应的质量（例如，光流或PatchMatch [2]），并且当发生严重阻塞时可能失败。Yao等人[39]进一步扩展了Bonneel等人的方法。[6]通过选择一组关键帧来考虑遮挡。然而，计算成本随着关键帧的数量而线性增加，因此它们的方法不能有效地应用于长视频序列。此外，这两种方法都假设原始视频的梯度类似于经处理的视频的梯度，这限制了它们处理可能产生干扰的任务新内容（例如，风格化）。在这项工作中，我们制定的视频时间一致性的问题作为一个学习任务。我们建议学习一个深度递归网络，它接受输入盲视频时间一致性学习3并生成时间稳定的输出视频。我们最小化输出帧之间的短期和长期时间损失，并从预训练的VGG网络[34]中施加感知损失，以保持输出和处理帧之间的感知相似性。此外，我们嵌入了卷积 LSTM（ConvLSTM）[36]层来捕获自然视频的时空相关性。我们的网络顺序处理视频帧，可以应用于任意长度的视频。此外，我们的模型不需要在测试时计算光流，因此可以以实时速率处理视频（1280× 720视频上的400+ FPS）。由于现有的视频数据集通常包含低质量的帧，我们收集了一个高质量的视频数据集，其中包含80个用于训练的视频和20个用于评估的视频我们在广泛的应用中训练我们的模型，包括着色，图像增强和艺术风格转移，并证明单个训练模型可以很好地推广到看不见的应用（例如，固有图像分解、图像到图像转换）。我们使用时间扭曲误差和学习的感知度量来评估输出视频的质量[42]。我们表明，该方法取得了良好的平衡，保持时间稳定性和感知相似性。此外，我们进行了用户研究，以评估所提出的方法和国家的最先进的方法之间的主观偏好我们在这项工作中做出了以下贡献1. 我们提出了一种有效的解决方案，通过使用ConvLSTM模块学习深度网络来消除视频中的时间闪烁。我们的方法不需要预先计算的光流或帧对应在测试时，因此可以实时处理视频。2. 我们建议尽量减少短期和长期的时间损失，以提高时间的稳定性，并采用感知损失，以保持感知相似性。3. 我们提供了一个单一的模型来处理多个应用程序，包括但不限于彩色化，增强，艺术风格转移，图像到图像的翻译和内在的图像分解。广泛的主题和客观的评价表明，该算法执行faforably对现有的方法对各种类型的视频。2相关工作我们在广泛的应用中解决了时间一致性问题，包括自动白平衡[14]，协调[4]，去雾[13]，图像增强[10]，风格转换[17，23，29]，着色[19，41]，图像到图像转换[21，43]和内在图像分解[3]。这些应用程序的完整审查超出了本文的范围。在下文中，我们讨论了在视频上实施时间一致性的任务特定和任务无关的方法。针对具体任务的方法。嵌入时间一致性约束的常见解决方案是使用光流在帧之间传播信息4W.- S. 赖，J. -B. Huang、O.Wang，中国山核桃E.Shechtman，E.Yumer和MH. 杨表1：盲时间一致性方法的比较。Bonneel et al.[6] Yao et al.[39]需要来自光流或PatchMatch [2]的密集对应，而所提出的方法在测试时不Yaoet al.[39]涉及从整个视频中选择关键帧，因此不能以在线方式生成输出。内容约束短期时间约束长期时间约束需要密集的对应关系（在测试时）网上办理Bonneel等人[6] Yao et al.[39]我们的梯度局部仿射感知损失J-J-J.J.J.J.J-J例如，在一个实施例中，[28]和内在分解[40]。然而，估计光流在计算上是昂贵的，并且因此在高分辨率和长序列上应用是不切实际的时间滤波是将基于图像的算法扩展到视频的有效方法，例如色调映射[1]、颜色转移[5]和视觉显著性[25]以生成时间上一致的结果。然而，这些方法假设特定的滤波器公式，并且不能推广到其他应用。最近，已经提出了几种方法来提高基于CNN的图像风格转移的时间稳定性Huang等人[15] Gupta et al.[12]通过联合最小化内容、风格和时间扭曲损失来训练前馈网络。然而，这些方法仅限于训练期间使用的特定风格。Chen等人[7]学习流和掩码网络，以自适应地混合预训练风格网络的中间特征虽然架构设计独立于样式网络，但它需要访问中间功能，并且不能应用于不可区分的任务。相比之下，所提出的模型对应用于输入帧的特定算法是完全盲目的，因此适用于基于优化的技术、基于CNN的算法和Photoshop过滤器的组合。任务独立的方法。已经提出了几种方法，以提高-证明多个任务的时间一致性。Lang等人[25]近似一类能量公式的全局优化（例如彩色化、光流估计）。在[9]中，Dong et al.提出一种基于分割的算法，并假设图像变换在空间和时间上是一致的。更一般的方法假设输入和处理帧之间的梯度相似性[6]或局部仿射变换[39]。然而，这些方法不能处理更复杂的任务（例如，艺术风格转移）。相比之下，我们使用VGG感知损失[23]来在输出和处理帧之间施加高水平的感知相似性。我们列出了Bonneel等人之间的功能比较。[6]，Yao et al.[39]和表1中的建议方法。盲视频时间一致性学习5t⇒tt不t⇒t咬合估计FlowNet复发性翘曲层时间损失^t图像变换网络+感知损失ConvLSTM不tVGG图2：所提出的方法的概述。我们训练一个图像变换网络，该网络将It−1，It，Ot−1和处理后的帧Pt作为输入，并生成输出帧Ot，该输出帧O t在时间上与前一个时间步长Ot−1的输出帧一致。然后，当前时间步的输出Ot变成下一时间步的输入我们用VGG感知损失以及短期和长期时间损失来训练图像变换网络3学习时间一致性在本节中，我们将描述所提出的递归网络和用于在视频上执行时间一致性的损失函数的设计。3.1循环网络图2示出了所提出的递归网络的概述。我们的模型将原始（未执行）video{It} 作为输入 |t=1···T}和per-framepro-cepedvideos{Pt|t=1···T}，并且由于系统或所有控制器未输出，{0}t|t= 1···T}。如果要高效地使用更复杂的语言来提供视频，我们将图像变换网络开发为递归卷积网络以在线方式生成输出帧（即，从t= l到T顺序地）。具体地，我们设置第一输出帧O1=P1。在每个时间步中，网络学习生成相对于Ot−1在时间上一致的输出帧Ot。然后，当前输出帧被馈送为下一个时间步长处的输入。为了捕获视频的时空相关性，我们将ConvLSTM层[36]集成到我们的图像变换网络中。我们将在3.3节中讨论图像转换网络的详细设计。6W.- S. 赖，J. -B. Huang、O.Wang，中国山核桃E.Shechtman，E.Yumer和MH. 杨不长期暂时性损失1短期2暂时损失短期3暂时损失短期4暂时损失ConvLSTMConvLSTMConvLSTM1 2 32 3 41 2 32 3 4图3：时间损失。我们采用了短期的时间损失的邻居帧和长期的时间损失之间的第一和所有的输出帧。3.2损失函数我们的目标是减少输出视频中的时间不一致性，同时保持与处理帧的感知相似性。因此，我们建议用（1）输出帧和处理帧之间的感知内容损失和（2）输出帧之间的短期和长期时间损失来训练我们的模型内容感知损失。我们使用来自预训练的VGG分类网络的感知损失来计算Ot和Pt之间的相似性[34]，这通常在几个应用中采用（例如，风格转移[23]、超分辨率[26]和图像修复[31]），并且已经被示出很好地对应于人类感知[42]。感知损失定义为：ΣT ΣN Σ¨¨L=φ（O（i））−φ（P（i））、（1）pültt=2i=1llt¨1其中0（i）表示具有在时间t处的输出0的RGB像素值的向量eR3，N是在框架中的像素的总数，并且dΦ1（·）d表示在VGG-19网络Φ的第1层处的激活处的像素。我们选择第4层（即，Relu 4 -3）以计算感知损失。短期暂时性丧失。我们将时间损失公式化为输出帧之间的扭曲误差：ΣT ΣN¨L=M（i） ¨O（i）−O¨（i）¨、（二）Stt=2i =1t⇒t−1¨tt−1¨1图像变换网络盲视频时间一致性学习72其中Ot− 1是由可选流Ft⇒t− 1生成的矩阵O t −1，并且Mt⇒t−1=exp（−αIt−It−12）是由输入矩阵I t和输入矩阵It−1生成的向量。最优流Ft⇒t−1是It−1和It之间的反向流。我们使用FlowNet2 [20]在训练期间有效地计算流量我们使用双线性采样层[22]来扭曲帧，并根据经验设置α= 50（像素范围在[0， 1]之间）。长期暂时性丧失。虽然短期时间损失（2）强制连续帧之间的时间一致性，但是不保证长期（例如，多于5帧）相干性。实施长期时间一致性的直接方法是对所有输出帧对应用时间损失然而，这样的策略需要显著的计算成本（例如，光流估计）。此外，在网络收敛之前，计算两个中间输出之间的时间损失是没有意义的相反，我们建议在第一次和第二次之间施加长期的时间损失。输出帧和所有输出帧：ΣT ΣN¨L=M（i） ¨O（i）−O¨（i）¨.（三）Ltt=2i =1t⇒1¨t1¨1我们在图中展示了我们的经常性网络的展开版本以及短期和长期损失。3 .第三章。在训练期间，我们在最多10帧（T= 10）上实施整体损失。用于训练我们的图像变换网络的总体损失函数被定义为：L=λpLp+λstLst+λltLlt，（4）其中λp、λst和λlt分别是内容感知损失、短期损失和长期损失的权重3.3图像变换网络我们的图像变换网络的输入是当前处理的帧Pt、先前输出帧Ot−1以及当前和先前未处理的帧It、It−1的级联。由于输出帧通常看起来类似于当前处理的帧，所以我们训练网络以预测残差而不是实际像素值，即，Ot=Pt+F（Pt），其中F表示图像变换网络。我们的图像变换网络由两个跨步卷积层、B残差块、一个ConvLSTM层和两个转置卷积层组成我们增加了从编码器到解码器的跳过连接，以提高重建质量。然而，对于一些应用，经处理帧可具有与输入帧显著不同的外观（例如，风格8W.- S. 赖，J. -B. Huang、O.Wang，中国山核桃E.Shechtman，E.Yumer和MH. 杨Concatenate+…卷积级联ResBlocksLSTMOtConcatenateIt图4：我们的图像转换网络的架构。我们将输入分成两个流，以避免将低级信息从输入帧传输到输出。转移或固有图像分解）。我们观察到跳过连接可以传送低级信息（例如，颜色）到输出帧并产生视觉伪像。因此，我们将输入分为两个流：一个流用于经处理的帧Pt和Ot-1，另一个流用于输入帧It和It-1。如示于图4，跳过连接仅添加来自处理帧的跳过连接，以避免从输入帧传输低级信息。我们在补充材料中提供了所有实施细节4实验结果在本节中，我们首先描述用于训练和测试的所采用的数据集，然后是所提出的方法的应用以及用于评估时间稳定性和感知相似性的度量然后，我们分析了每个损失项在平衡时间一致性和感知相似性方面的效果，与现有方法进行定量和主观比较，最后讨论了我们方法的局限性源代码和数据集可在http://vllab.ucmerced.edu/wlai24/video_consistency上公开获取。4.1数据集我们使用DAVIS-2017数据集[32]，该数据集专为视频分割而设计，包含各种移动对象和运动类型。DAVIS数据集有60个视频用于训练，30个视频用于验证。然而，DAVIS 数据集中的视频因此，我们从Videvo.net [35]收集了另外100个高质量的视频，其中80个视频用于训练，20个视频用于测试。我们将视频帧的高度缩放到480并保持纵横比。我们使用DAVIS和VIDEVO训练集来训练我们的网络，这些训练集总共包含25，735帧。盲视频时间一致性学习94.2应用由于我们不对底层基于图像的算法进行任何假设，因此我们的方法适用于处理各种各样的应用程序。艺术风格转移。由于Gram矩阵匹配目标的非凸性，图像风格转移的任务已被证明对内容图像中的微小变化敏感[12]。我们将我们的方法应用于最先进的风格转移方法的结果[23，29]。着色。单幅图像彩色化的目的是从给定的灰度输入图像中产生逼真的颜色。最近的算法[19，41]从数百万自然图像中学习深度CNN。当逐帧地将着色方法应用于视频时，那些方法通常产生低频闪烁。图像增强。Gharbi等人[10]训练深度网络来学习Adobe Photoshop的用户创建的用于增强图像的动作脚本。他们的模型在大多数视频中产生高频闪烁。内在图像分解。本征图像分解旨在将图像分解为反射层和阴影层。该问题是高度不适定的，由于规模的模糊性。我们采用贝尔等人的方法[3]我们的测试视频。如所预期的，基于图像的算法在独立地应用于视频中的每个帧时产生严重的时间闪烁伪影图像到图像转换。近年来，由于生成对抗网络（GAN）的成功，图像到图像翻译任务引起了相当大的关注[11]。CycleGAN模型[43]旨在学习从一个图像域到另一个域的映射，而不使用配对的训练数据。当变换在图像上生成新纹理时（例如，照片→绘画，马→斑马）或者映射包含多个合理的解（例如，灰度→RGB），所得到的视频不可避免地遭受时间闪烁伪影。上述算法是通用的，可以应用于任何类型的视频。当应用时，它们在我们的测试集中的大多数视频上产生时间闪烁伪影。我们使用WCT [29]风格转移算法与三个风格的图像，Gharbi等人的增强模型之[10]，Zhang et al.[41]和Bell等人的阴影层。[3]作为我们的训练任务，其余的任务用于测试目的。我们证明，该方法学习一个单一的模型，多个应用程序，也推广到看不见的任务。4.3评估指标我们的目标是生成时间平滑的视频，同时保持与每帧处理的视频的感知相似性我们使用以下度量来测量输出视频上的时间稳定性和感知相似性10W.- S. 赖，J. -B. Huang、O.Wang，中国山核桃E.Shechtman，E.Yumer和MH. 杨时间稳定性。我们基于两帧之间的流扭曲误差来测量视频的时间稳定性：1Ewarp（Vt，Vt +1）=ΣΣN M（i）V（i）−V（i）2，（5）Ni=1（一）不tti=1t+1 2其中V（t+1）是一个无遮挡区域，M（ t）∈{0，1}是一个无遮挡区域。我们使用[33]中的遮挡检测方法来估计掩模Mt。视频的扭曲误差被计算为：1Ewarp（V）=T−1TΣ−1t=1Ewarp（Vt，Vt+1），（6）其是整个序列上的平均扭曲误差感知相似性。最近，预训练的VGG网络[34]的特征已被证明是有效的训练损失，可以在几个视觉任务中生成逼真的图像[8，26，31]。Zhang等人[42]通过校准ImageNet分类网络的深度特征进一步提出了感知度量我们采用SqueezeNet [18]的校准模型（表示为G）来测量处理后的视频P和输出视频O的感知距离：1Dperceptual（P，O）=T−1ΣTt=2G（Ot，Pt）.（七）我们注意到，在Bonneel [6]和我们的算法中，第一帧被固定为参考。因此，我们从（7）中计算感知距离中排除第一帧。4.4分析和讨论极度模糊的视频可以具有高的时间稳定性，但是具有低的感知相似性;相反，经处理的视频本身具有完美的感知相似性，但在时间上不稳定。由于时间稳定性和感知相似性之间的权衡，重要的是平衡这两个属性并产生视觉上令人愉悦的结果。为了理解时间损失和内容损失之间的关系，我们使用λp和 λt（=λst=λlt）的几种组合来训练模型。我们使用其中一种样式（即，udnie）从快速神经风格转移方法[23]中进行评估。我们在图中显示了对DAVIS测试集的定量评估五、我们观察到比率r=λt/λp在平衡时间稳定性和感知相似性方面起着重要作用。当比率r10时，感知损失主导网络的优化，并且时间闪烁保留在输出视频中。当比率r >10时，输出视频变得过度模糊，并且因此与经处理的视频具有大的感知距离。当λt足够大时（即，λt≥100），设置r= 10达到良好的平衡以减少时间闪烁，同时保持小的感知距离。我们的研究结果发现类似的观察，以及其他应用程序。M盲视频时间一致性学习110.20.150.10.0500.02 0.03 0.04 0.05时间扭曲错误图5、参数分析。（左）当λt足够大时，选择r = 10（以红色显示）可以在减少时间扭曲误差和感知距离之间实现良好的平衡。（右）与Bonneel等人相比，具有不同比率r的感知相似性和时间扭曲之间的权衡。[6]，以及原始处理的视频Vp。(a) 原始帧（b）处理帧（c）Bonneel等人[6]（d）我国图6：风格转移的视觉比较。我们比较所提出的方法与Bonneel等人。[6]关于平滑WCT的结果[29]。我们的方法保持了处理后的视频的风格化效果，并减少了时间闪烁。4.5与最新方法的我们在两个视频测试集上评估时间扭曲误差（6）和感知距离（7）我们比较所提出的方法与Bonneel等人。[6]在16个应用中：Johnson等人的2种风格[23]，6种WCT [29]，Gharbi等人的2种增强模型[10]，Bell等人的反射和遮蔽层[3]，CycleGAN的2个照片到绘画模型[43]和2个着色算法[19，41]。我们分别在表2和表3中提供平均时间扭曲误差和感知距离。在一般情况下，我们的结果实现了较低的感知距离，同时保持可比的时间扭曲误差与Bonneel等人的结果。[6]的文件。我们显示与Bonneel等人的视觉比较。[6]在图6和图7中。虽然Bonneelet al.[6]产生时间上稳定的结果，但在处理后的视频和原始视频中相同梯度的叠加导致过度r= 1000R= 100Bonneel等人R= 10r= 1VP感知距离λtλpr=λtλpE型经线三维知觉100.0110000.02790.1744100.11000.02650.1354101100.06150.0071101010.06210.007210011000.02770.132410010100.04420.017010010010.06210.00721000110000.02620.18481000101000.02750.13411000100100.04530.01581000100010.06210.007212W.- S. 赖，J. -B. Huang、O.Wang，中国山核桃E.Shechtman，E.Yumer和MH. 杨表2：时间扭曲误差的定量评估。“训练”列指明了用于训练我们的模型的应用。我们的方法实现了类似减少的时间扭曲误差Bonneel等人。[6]，其显著小于原始处理视频（Vp）。任务训练VP达维斯[6]美国我们VP维代沃[6]美国我们WCT[29]/antimonoJ0.0540.0310.0350.0250.0140.013WCT[29]/asheville0.0880.0470.0550.0450.0250.023WCT[29]/c和yJ0.0690.0370.0450.0340.0180.018WCT[29]/feathers0.0520.0290.0290.0270.0160.012WCT[29]/sketchJ0.0460.0280.0230.0220.0150.009WCT[29]/wave0.0490.0300.0270.0260.0150.011Fast-neur al-style[23]/princess0.0730.0480.0470.0390.0230.021Fast-neur al-style[23]/udnie0.0650.0390.0420.0280.0170.015DBL[10]/expertAJ0.0390.0350.0280.0180.0160.010DBL[10]/expert B0.0340.0310.0250.0150.0140.008Intrinsic[3]/reflecttance0.0240.0200.0150.0120.0080.005Intrinsic[3]/shadingJ0.0160.0120.0090.0080.0060.003Cycle GAN[43]/英国石油公司0.0370.0300.0260.0190.0160.010CycleGAN[43]/photo2vanngogh0.0400.0320.0290.0210.0170.013彩色化[41]J0.0300.0280.0240.0120.0110.008彩色化[19]0.0300.0280.0230.0120.0110.008平均0.0470.0320.0300.0230.0150.012平滑的内容，例如来自风格化效果。此外，当遮挡发生在大区域中时，他们的方法由于缺乏长期时间约束而失败。相比之下，所提出的方法大大减少了时间闪烁，同时保持与处理的视频的感知相似性我们注意到，我们的方法不限于上述应用，还可以应用于自动白平衡[14]，图像协调[4]和图像去雾[13]等任务。由于空间限制，我们在项目网站上提供更多结果和视频。4.6主观评价我们进行用户研究，以衡量用户对视频质量的偏好。我们采用成对比较，即，我们要求参与者从一对视频中进行选择。在每个测试中，我们提供原始和处理的视频作为参考，并显示两个结果（Bonneel et al.[6]我们的比较。我们在每个测试中随机化结果视频的呈现顺序此外，我们要求参与者提供他们更喜欢从以下选项中选择的视频的原因：（1）视频闪烁较少（2）视频很好地保留了处理后视频的效果我们评估了所有50个测试视频和培训期间举行的10个测试应用程序我们要求每个用户比较20个视频对，并从总共60个主题中获得结果。图8（a）示出了获得的投票的百分比，其中我们的方法在所有5个应用上都是优选的。在图8（b）中，我们显示了选择方法的原因Bonneel et al.[6]是由于时间稳定性而选择的，而用户更喜欢我们的结果，因为我们保留了效果盲视频时间一致性学习13表3：感知距离的定量评估。我们的方法具有较低的感知距离比Bonneel等人。[6]的文件。任务训练达维斯[6]我们的维代沃[6]我们的WCT[29]/antimonoJ0.0980.0190.1060.016WCT[29]/asheville0.0900.0190.0980.015WCT[29]/c和yJ0.1330.0230.1390.018WCT[29]/feathers0.0930.0160.1000.011WCT[29]/sketchJ0.0420.0210.0460.014WCT[29]/wave0.0650.0150.0720.013Fast-neur al-style[23]/princess0.1430.0290.1650.018Fast-neur al-style[23]/udnie0.0700.0170.0760.014DBL[10]/expertAJ0.0260.0110.0330.007DBL[10]/expert B0.0230.0110.0300.007Intrinsic[3]/reflecttance0.0440.0130.0560.008Intrinsic[3]/shadingJ0.0290.0170.0320.009Cycle GAN[43]/英国石油公司0.0420.0120.0540.007CycleGAN[43]/photo2vanngogh0.0670.0160.0790.011彩色化[41]J0.0620.0130.0550.009彩色化[19]0.0330.0110.0340.008平均0.0880.0170.0730.012处理好的视频。用户研究中的观察结果基本遵循第4.5节中的定量评价。4.7执行时间我们评估所提出的方法和Bonneel等人的执行时间。[6]在配备3.4 GHzIntel i7 CPU（64G RAM）和Nvidia Titan X GPU的机器上。由于该方法不需要在测试时计算光流，对于分辨率为1280× 720的视频，在GPU上的执行速度达到418 FPS相比之下，Bonneel et al.[6]在CPU上为0.25FPS4.8局限性和讨论我们的方法不能够处理在每个帧上生成完全不同的图像内容的应用，例如，图像完成[31]或合成[8]。将这些方法扩展到视频将需要将强视频先验或时间约束最有可能并入到特定算法本身的设计中。此外，在任务被制定的方式中，总是存在时间上相干或感知上类似于经处理的视频之间的权衡。取决于应用的具体效果，将存在闪烁（时间不稳定性）优于模糊的情况在我们当前的方法中，用户可以根据他们对闪烁或模糊的偏好来选择模型，但是未来工作的一个有趣的领域将是调查被认为是可接受的闪烁和可接受的模糊的感知模型。尽管如此，我们对所有结果使用相同的训练模型（相同的参数），并且对于盲时间稳定性，显示出比现有方法更明显的观看者偏好。14W.- S. 赖，J. -B. Huang、O.Wang，中国山核桃E.Shechtman，E.Yumer和MH. 杨(a) 原始帧（b）处理帧（c）Bonneel等人[6]（d）我国图7：关于着色的视觉比较。我们比较所提出的方法与Bonneel等人。[6]关于平滑图像彩色化的结果[19]。Bonneel等人的方法。[6]在发生遮挡时不能保持彩色效果。80%Bonneel等人我们的90%少闪烁保存效果百分之七十百分之六十百分之五十百分之四十百分之三十百分之二十百分之十0%的百分比风格迁移增强内在着色CycleGAN全部百分之八十百分之七十百分之六十百分之五十百分之四十百分之三十百分之二十百分之十0%的百分比Bonneel等人我们(a) （b）部分理由图8：主观评价。平均而言，62%的用户更喜欢我们的方法。误差条显示95%置信区间。5结论在这项工作中，我们提出了一个深度递归神经网络来减少每帧处理视频中的我们优化了短期和长期的时间损失以及感知损失，以减少时间不稳定性，同时保留处理后的视频的感知相似性。我们的方法是不可知的底层图像为基础的算法应用于视频和推广到广泛的看不见的应用程序。我们表明，该算法对现有的盲时间一致性方法在不同的应用程序和各种类型的视频表现良好。确认这项工作得到了 NSF CAREER Grant #1149783 ， NSF GrantNo.#1755785，以及来自Adobe和Nvidia的礼物。盲视频时间一致性学习15引用1. 艾登教官Stefanoski，N.，Croci，S.，真恶心M Smolic，A.：HDR视频的时间相干局部色调映射。03 The Dog（2014）2. 巴恩斯角Shechtman，E.，Finkelstein，A.，Goldman，D.B.：PatchMatch：一种用于结构图像编辑的随机对应算法02 The Dog（2009）3. Bell，S.，Bala，K.，Snavely，N.：在野外的内在图像03 The Dog（2014）4. Bonne el，N.， Rabin，J.，小G Pfistterr，H. ：Slicedandradonwasersteinbrycen-ters of measures.Journal of Mathematical Imaging and Vision（2015）5. Bonneel，N.，Sunkavalli，K.，巴黎，S.，Pfister，H.：基于示例的视频颜色分级。03 The Dog（2013）6. Bonneel，N.，Tompkin，J.，Sunkavalli，K.，孙，D.，巴黎，S.，Pfister，H.：盲视频时间一致性。02 The Dog（2015）7. Chen，D.，中国农业科学院，Liao，J.，Yuan，L.Yu，N.，Hua，G.：连贯的在线视频风格转移。In：ICCV（2017）8. 陈昆，Koltun，V.：使用级联细化网络的摄影图像合成。In：ICCV（2017）9. 董X Bonev，B.，Zhu，Y.，Yuille，A.L.：基于区域的时间一致性视频后处理。参见：CVPR（2015）10. Gharbi，M.，陈杰，巴伦J.T. Hasinoff，S.W.，Durand，F.：用于实时图像增强的深度双边学习。ACM TOG（2017）11. 古德费洛岛Pouget-Abadie，J.Mirza，M.，徐，B.，沃德-法利，D.，Ozair，S.，Courville，A. Bengio，Y.：生成性对抗网。在：NIPS（2014）12. Gupta，A.，Johnson，J.，Alahi，A.，李菲菲：表征和提高神经风格迁移的稳定性。In：ICCV（2017）13. 他，K.，孙，J.，唐X：使用暗通道前去除单个图像雾度。TPAMI（2011）14. 许英，Mertens，T.，巴黎，S.，Avidan，S.，Durand，F.：用于空间变化白平衡的光混合估计。02 The Dog（2008）15. 黄，H.，王，H.，罗，W.，马，L.，姜维，Zhu，X.，Li，Z.，刘伟：为视频提供实时神经风格转换。在：CVPR（2017）16. Huang，J.B.，Kang，S.B.，Ahuja，N.，Kopf，J.：动态视频的时间相干完成。电影ACM TOG（2016）17. 黄，X.，Belongie，S.：实时任意样式传输，具有自适应实例规范化。In：ICCV（2017）18. Iandola，F.N.，汉，S.，Moskewicz，M.W.，Ashraf，K.，戴利，W.J.，Keutzer，K.：Squeezenet：Alexnet级精度，参数减少50倍，模型大小为0.5mb<2016年《ArXiv19. Iizuka，S.，Simo-Serra，E.，Ishikawa，H.：要有颜色！：联合端到端学习的全球和局部图像先验的自动图像着色与同步分类。电影ACM TOG（2016）20. Ilg，E.，Mayer，N. Saikia，T.，Keuper，M.，Dosovitskiy，A.，Brox，T.：流动网络2.0：利用深度网络的光流估计的演进。在：CVPR（2017）21. Isola，P.，Zhu，J.Y.，周，T.，Efros，A.A.：使用条件对抗网络的图像到图像翻译。在：CVPR（2017）22. Jaderberg，M.，西蒙尼扬，K.，Zisserman，A.，Kavukcuoglu，K.：空间Transformer网络。In：NIPS（2015）23. Johnson，J.，Alahi，A.，李菲菲：实时风格转换和超分辨率的感知损失。In：ECCV（2016）16W.- S. 赖，J. -B. Huang、O.Wang，中国山核桃E.Shechtman，E.Yumer和MH. 杨24. Lai W.S.Huang，J.B.，Ahuja，N.，Yang，M.H.：深拉普拉斯金字塔网络实现快速和精确的超分辨率。在：CVPR（2017）25. Lang，M.，Wang，O.，艾登教官Smolic，A.，格罗斯，M.H.：基于图像的图形应用程序的实用时间一致性。02 The Dog（2012）26. L edig ， C. ，这是 LHusza'r ， F. ， Caballero ， J. ， Cunningham ， A.Acosta，A. Aitken，A. Tejani，A.，托茨，J.，王志，Shi，W.：使用生成对抗网络的照片级真实感单幅图像超分辨率。在：CVPR（2017）27. Lee，H.Y.，曾惠英，Huang，J.B.，辛格M.K.S.Yang，M.H.：通过解纠缠表示实现多样化的In：ECCV（2018）28. Levin，A.，Lischinski，D.，Weiss，Y.：使用最佳化着色02 The Dog（2004）29. 李，Y.，方角杨杰，王志，卢，X.，Yang，M.H.：通过特征变换进行通用样式In：NIPS（2017）30. 李，Y.，Huang，J.B.，Narendra，A.，Yang，M.H.：深度联合图像滤波。In：ECCV（2016）31. Pathak，D.，Krahenbuhl，P. Donahue，J.，Darrell，T.，Efros，A.A.：上下文编码器：通过图像修复进行特征学习。见：CVPR（2016）32. Perazzi ， F. ， Pont-Tuset ， J. ， McWilliams ， B. ，凡古尔湖真恶心 MSorkine-Hornung，A.：视频对象分割的基准数据集和评估方法。见：CVPR（2016）33. Ruder，M.，Dosovitskiy，A.，Brox，T.：视频的艺术风格转移。在：德国模式识别会议（2016）34. 西蒙尼扬，K.，齐瑟曼，A.：用于大规模图像识别的深度卷积网络。载于：ICLR（2015）35. 视频：https://www.videvo.net/36. S.，S.，陈志，王，H.，杨D.Y.W.K. 吴伟文：卷积LSTM网络：降水临近预报的机器学习方法。

下载后可阅读完整内容，剩余1页未读，立即下载