延时视频中的时间变化和参考视频一致的静态图像动画制作

190 浏览量更新于2023-10-23 收藏 2.55MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1时间飞逝：以延时视频为参考的静态图像动画制作Chia-Chi Cheng Hong-Yu Chen Wei-Chen Chiu国立交通大学，台湾nctu.edu.twchen3381@purdue.eduwalon@cs.nctu.edu.tw摘要延时视频通常表现出引人注目的外观，但通常很难创建。在本文中，我们提出了一个自我监督的端到端模型来生成延时视频从一个单一的图像和参考视频。我们的核心思想是从参考视频中提取风格和时间变化的特征，并将它们转移到输入图像上。为了确保我们得到的视频的时间consipity和真实性，我们在我们的架构中引入了几个新颖的设计，包括类明智的NoiseAdaIN，流损失，和视频的隐藏。与现有的风格转换方法相比，本文提出的方法不仅计算效率高，而且能够生成更加真实、时间平滑的静止图像延时视频，其时间变化与参考一致。1. 介绍延时视频提供了一个很好的方式来捕捉动态世界，让我们可视化场景的时间变化随着延时视频被加速以显示更长的镜头（例如，季节或日常变化），在较短的时间内，它们往往呈现出巨大的颜色变化和快速运动，这使它们成为独特的和流行的今天。然而，拍摄延时视频是耗时且昂贵的，因为它通常需要稳定的硬件设备或用于相机的安装设备来防止不希望的相机运动。为了减轻拍摄延时视频的困难，我们提出了一种延时合成算法，通过动画的静止图像，其时间变化采用从现有的延时视频，已经在互联网上。如图1所示的示例，给定最左列中的图像作为我们的目标，我们尝试将参考视频中出现的连续和照片级逼真的变化（如最顶行所示）转移到目标图像中，并创建相应的延时视频。由于延时视频在时间和空间域中具有复杂和非线性变化的性质，我们通常可以观察到，所得到的时间-图1.给定静止图像（最左列），我们的目标是生成其对应的延时动画，其具有与参考延时视频一致的时间变化（如最顶行所示）。基于我们的合成的延时视频应该同时保持时间一致性和真实性已经有几个作品的延时视频生成- eration提出，但与我们不同的问题设置。例如，Shih等人提出的数据驱动算法。[24]依赖于各种场景的延时视频的数据库来从输入图像中幻觉出一天中不同时间的似真图像来自[19]的另一个基于深度学习的模型学习了一天中不同时间与户外场景相应照明变化之间的相关性。当给定室外图像和各种时间戳作为输入时，该方法可以合成具有照明连续变化的延时视频。与这些工作不同的是，我们提出的方案不需要任何数据库，并且能够将任意的延时视频作为参考，因此更实用，并且不限于仅具有每日或任何特定的时间变化。不失一般性，我们的工作也可以被看作是风格转移的延伸由于如今深度学习技术的普及，我们最近目睹了相当多的研究工作，不仅致力于转移艺术风格[6，11，16]，而且还致力于真实感5641参考视频输入图像5642one [15，17，32]到目标图像中，后者与我们的设置更相关，以执行跨真实世界图像的传输。虽然这些照片级真实感风格的转换算法可以产生逼真的结果，但它们通常计算量很大[17，32]，并且依赖于后处理步骤来减少伪影并保持所生成输出的真实性[15，17]。此外，直接应用逐图像样式转移将导致时间不一致（例如，边界上的闪烁或伪像）。尽管存在几种视频风格转移方法[1，10，21]来提高时间一致性，但它们的目标是将艺术风格转移到视频上，其中它们的目标再次明显不同于我们的制作逼真的延时视频。给定延时视频作为参考并且静止图像作为我们的动画目标，我们提出的延时生成框架通过利用三个主要设计解决了上述问题，以在输出视频中具有真实性和时间一致性：（1）类式AdaIN和NoiseAdaIN，用于执行从参考视频到输入图像的快速风格转移并保持不同的模式不同对象类别的时间变化;（2）新的目标函数，即流损失，以鼓励参考视频中的时间变化和我们生成的视频中的时间变化之间的高级特征空间中的一致性;（3）基于对抗性学习的视频编码方法，同时保持视频帧的时间一致性和真实性。此外，我们提出的模型的另一个显著优点是，它的训练是基于自监督学习方案。因此，我们不需要输入图像和延时视频之间具有地面实况对的任何特定数据集。我们通过实验验证了我们提出的方法的有效性，与几个基线的风格转移相比，并证明我们的模型能够提供更好的定性结果，并在几个评估指标方面获得优异的性能我们在本文中的贡献有三个方面：• 我们设计了一个端到端的延时生成网络，它可以从一个视频文件中合成一个延时视频输入图像和参考视频，这对于实际使用更• 我们引入类NoiseAdaIn，流量损失和视频压缩，以提高时间一致性和真实性的结果时移视频.• 我们开发了一个自我监督的训练计划学习延时生成。我们的模型显示出更好的定性和定量性能，有几个基线。2. 相关作品样式转移。近年来，风格转移已成为一个热门的研究课题与深度学习的复兴[2，5，7，20，23，29，30]。Gatys等人[6]是第一个展示了令人印象深刻的风格转移的结果，通过匹配的特征Gram矩阵之间的生成的图像和风格图像的基础上迭代优化过程，但需要相当繁重的计算。一些方法[12，14，28]通过用前馈神经网络代替优化过程来克服这个问题，但只能在单个网络中传递一种固定的风格。一些研究工作[3，8，11，16，22，33]的进展，以释放这一限制，并执行通用的风格转移（即，能够将任何图像作为样式源）通过将内容图像的特征统计与来自样式图像的特征统计进行匹配。虽然这些方法在艺术风格的转换上表现良好，但由于结构的严重变形，它们为了在风格转移时产生照片真实感图像，Luan等人。[18]引入了一个额外的photorealism正则化项来保持结构，但他们的算法需要大量的计算来解决正则化优化问题。其他方法[15，17]试图通过额外的后处理来实现照片写实主义，这反而会模糊最终的输出。最近提出的端到端模型[32]通过使用小波池解决了上述问题，小波池将特征分离到不同的频率分量中，以更好地保留图像细节。然而，即使这些风格转移算法在生成延时视频的单独帧时也表现良好，即，将每个参考视频帧的风格转移到输入图像中，最终输出的视频可能存在时间不一致的问题。最近还提出了几种视频风格转换方法[1，10，21]，它们能够通过添加时间约束来保持时间一致性，但它们主要关注艺术风格转换，而不是我们在延时生成任务中希望具有的照片级风格转换。动画静态图像。从一幅图像生成动画是计算机视觉领域的一个长期研究课题。作为最相关的我们的问题sce-nario生成延时视频，Shih等人。[24]通过参考其数据库中最相似的视频使用颜色转移算法来预测单个户外图像在不同时间的出现，这在运行时基本上需要巨大的存储空间。另一种基于条件GAN的方法[19]将时间戳作为条件，预测户外场景在一天中不同时间的外观但是，这种方法只能综合日常变化。与他们的目标不同，我们的模型通过参考5643GV输入延时视频（基本上在静态相机设置下拍摄）。换句话说，我们的方法不需要时间戳条件，并且输入参考视频可以是任何时间推移视频，因此能够产生如参考文献中所示的任意时间变化。此外，在过去几年中，已经提出了许多基于生成对抗网络（GAN）的视频合成或帧预测方法[25，27，31，35]。然而，它们主要关注特定的目标行为或现象，因此与本文的任务明显不同3. 该方法如在引言中所激励的，我们所提出的方法的目的是通过将另一个延时视频（用静态相机捕获）作为时间变化的参考，从静止图像合成延时视频。我们提出的模型的架构进行了说明在图2中，由三个组件组成：生成器G、RQD和基于预训练的VGG-19网络的特征提取器Φ [26]。在下文中，我们将描述我们如何实现的时间推移产生的细节。3.1. 时间间隔生成我们的生成器G利用了一个典型的编码器-解码器架构，如图2左侧所示，它由三个子网组成：EGI，EGv和DG。让I是我们想要动画化的目标图像，生成器G顺序地每3个相邻帧取V={Ft，Ft+1，Ft+2}从参考视频传输它们的时间变化为I，以产生一个视频帧，所产生的延时。转移的过程基于源于自适应实例规范化技术的风格化思想（即，AdaIN [11]）。基本上，从V乘EGv获得的特征统计量用于调制从I提取的特征EGI（I），其中调制发生在解码器DG中，并且最后我们得到合成帧Ft作为DG的输出：映射成低频分量和高频分量，其中只有前者前进到下一层并在解码器中通过使用来自EGv（V）的统计来进行调制，而后者直接跳到解码器中的对应层。采用小波池化的动机是保留图像的大部分精细结构和细节，因为它们主要保持在高频分量中，这导致使最终输出更逼真。对于旨在提取V的风格信息和动态的编码器EGv，其架构几乎与VGG-19网络相同，直到relu 21层，仅修改其第一卷积层convl 1以支持V的输入大小（即，三个视频帧）。我们在G发生器中有一个主要的修改，即类AdaIN和NoiseAdaIN，这使它与[32]中的一个显着不同。首先，我们可以从大多数延时视频中观察到，不同类别的区域通常具有不同的时间变化模式，因此，我们明确地利用语义标签图来在训练和测试阶段执行类调制。详细地说，在对V和I两者应用语义分割之后，对于特定类别的I中的每个区域/段，其特征由从相同类别的V中的段获得的特征统计来其次，代替顺序地执行白化着色变换（即，WCT[16]），编码器-解码器网络[32]，我们选择使用AdaIN [11]作为我们的调制工具，因为它在计算方面简单高效。特别地，我们在解码器DG中在与EG1的relu21和relu1 1对称的层上应用AdaIN两次（分别表示为D relu2 1和D relu1 1）。请注意，这两次AdaIN实际上是分别针对高层和底层在D relu2 1中，将来自前一层的特征图表示为x，将来自EGV的relu2 1层的特征图表示为y（即，Erelu21（V）），类AdaIN为：Ft=G（I，V）.Σxs−µ（xs）=DG（EGI）（I），EGv（一）（V））。AdaIN（xs，ys）=σ（ys）σ（xs）+µ（ys），µs（2）EGI和DG的设计类似于最近一项端到端逼真风格转移模型，即WCT2 [32]。基本上，EGI建立在ImageNet [4]从conv 1 1层到relu 4 1层的预训练VGG-19网络[26]上，但用小波池化代替最大池化层，其中EGI在训练阶段是固定的。解码器DG具有EGI的镜像结构，使用小波解池层代替典型的上采样层。基于Haar核的小波池操作可以分解输入特征其中下标s通过引用相应的语义标签映射来帮助指示不同对象类的区域，并且μ、σ分别表示平均值和标准差该操作能够通过匹配它们的统计信息将样式从y转换为x此外，如果x中的某个类s在y中不存在对应物，我们只需使用整个特征图上的统计量，即μ（y）和σ（y），来对s进行调制。对于D释放层中的第二调制，因为现在它处理的是5644（）下一页（）下一页GV真假图2.我们提出的方法的架构概述，以及模型学习中使用的目标。我们的模型包含一个生成器G，一个CJD，和一个基于预训练VGG-19网络的特征提取器Φ [26]，其中生成器G由EGI，EGv和DG组成。我们用不同的颜色给每个子网络着色，其中灰色阴影的子网络是预先训练和固定的，而蓝色阴影的子网络在我们的模型训练过程中是可学习的。我们的模型将图像I和参考视频剪辑V作为输入，并产生帧F_t，其结果是具有I的内容和从V转移的风格。我们模型的学习基于自监督方案，其中训练阶段的输入图像I是水平翻转后整个输入参考视频的平均图像。有关更多详情，请参阅第3节的描述。CONVs̃（）下一页Adain--我是--我是NoiseAdaIN图3.解码器DG.解码器将图像特征EGI（I）、视频特征Erelu11（V）和Erelu 21（V）作为GVGV执行两次调制的输入：第一个在D relu2 1上，AdaIN，第二个在D relu11上，由我们提出的NoiseAdaIN使用噪声映射zt。在更接近最终输出的情况下，典型的AdaIN操作将对同一类的区域中的所有像素应用相同的平均值和标准偏差，从而可能导致每个区域中的不真实和单调的外观。为了解决这个问题，我们提出了NoiseAdaIN技术，该技术基本上试图在AdaIN过程中添加轻微的噪声，以丰富每个区域内的空间变化。给定在D relu1 1之前的特征图x和来自EGV的relu 1 1的特征图y（即Erelu 11（V）），我们的NoiseAdaIN通过以下实现：图4. AdaIN和NoiseAdaIN的比较第一行顺序地示出了输入图像和参考视频中的两个帧，其中参考帧中的两个区域在最右列上突出显示。输入图像和参考帧的对应语义标签图在它们的左上角示出第二行和第三行分别显示了在调制中使用典型AdaIN和我们提出的NoiseAdaIN产生的结果此外，由于我们将从参考视频中顺序地取每三个帧与I一起作为.NoiseAdaIN（x，y）=σ（y）Σx−µ（x）σ（x）+µ（y）z。（三）our input to generate time-lapse frames {F˜t}t=1···N, whereN是参考视频中的帧的总数，在每个时间步长t中使用的噪声图Z不仅应该在空间上而且应该在时间上平滑以避免DRA。其中z是噪声映射，其大小等于x∈RH×W×D。请注意，NoiseAdaIN操作也适用于一个类的方式，在这里我们跳过下标s在方程。3为了简单局部区域中的动态变化和生成的帧之间的闪烁为了实现这一点，我们首先创建一个全局噪声图Z∈RH×W×（DN），其中每个元素都被采样从N（1，σz）开始，用大小高频分量Φ类AdaIN类噪声AdaINAdainNoiseAdaIN5645不N不不SSSSs3×3×3，其中保证噪声图的时间和空间平滑性，并将平滑的Z分成N个张量{z1，z2，···，zN}，每个张量的大小为H×W×D。或生成Ft，则我们取其对应的zt，使用NoiseAdaIN。σ z在这里决定z的影响水平，其被设置为0。5、我们所有的实验在图4中，我们提供了应用AdaIN或鼓励它们在高频和低频分量上的内容相似性（请注意，我们的EGI具有小波池化操作，以将特征分解为不同的频率分量，如第3.1节所述）。此外，我们还将差异在变白的我和变白的F之间，不同颜色对外观的影响。D Relu 11层中的NoiseAdaIN我们可以看到，参考视频中的山区有亮着的灯L含量=αβEGI（I）−EGI（Ft）（五）（第一行），我们提出的NoiseAdaIN（第三行）能够模拟照明现象，而AdaIN（第二行）由于其在整个区域上应用相同的统计数据而3.2. 培养目标由于我们的问题场景是拍摄静止图像和参考视频以产生延时视频，因此没有+（1−α）<$h（I）−h（F<$t）<$2，其中h（·）表示白化函数ion，α有助于平衡L内容中的这两个项，其中α首先设置为1，并随着训练的进行呈指数衰减。风格缺失。除了内容损失之外，这里我们还采用了原始AdaIN工作中的风格损失L风格[11]，以鼓励Ft和F flip之间在特征统计方面的相似性，其被写为：这样的设置下的数据集，我们可以直接玩。1Σ Σ我翻我翻此外，几乎不可能收集数据集用适当的地面实况（例如，我们不可能找到Lstyle=SSµ（Φs（Ft））−µ（Φs（Ft））L一个真实世界的东京风景延时视频1Σ Σ+<$σ（Φl（F flip））−σ（Φl（F<$t））<$2，（六）它有季节性或日常变化，如在巴黎。为了解决没有适当数据集的问题，这里我们提出了一个自监督学习方案。基础-称为y，我们使用在所有帧上平均的平均图像Ns t ssl其中s表示场景中的不同语义类，Ns表示类的总数。在参考视频中，即，1Nt=1 Ft，作为我们流动损失。我们假设对于一个特定类的区域，在训练时间内输入图像I。此外，我们解释-它水平翻转I，如图2所示，以便防止我们的模型学习I和参考视频剪辑V之间的空间相关性，因为现在它们来自同一视频。基于此设置，是从V中翻转的Ft，在参考延时视频（用静态相机），其时间变化将可能在高级特征空间中构造路径（即，在我们的方法中预训练的VGG特征），并且我们将从两个相邻视频帧的相同区域获得的VGG特征之间的平均差表示为流，其可以写为：它们之间的差异可以作为目标来驱动我们的模型训练。我们现在详细说明所有的目标Fl（Ft，Ft+1）= μ（Φl（F t+1）− Φl（Ft））。（七）功能在下面。感知损失。如上所述，由于I在训练时间中与翻转的参考视频属于相同的场景，因此所生成的帧Fflip必须类似于翻转的Ft，其被表示为F flip。我们采用[12]中提出的感知损失L感知来惩罚欧氏距离。从F翻转提取的深度特征与由于我们的模型旨在将时间变化的模式从V转移到I以生成F_i，因此理想地，所生成的视频的流应该与参考视频的流相同，因此它们之间的流的差异是有限的。应该因为鼓励所生成的延时中的时间一致性而受到惩罚。因此，流动损失L流动被定义为：来自Ft的：1件L ˜ ˜ΣL=<$Φl（F flip）−Φl（F）<$，（4）L流量=SS|Fs(Ft,Ft+1)−Fs(Ft,Ft+1)|L知觉tt2L1Σ Σ+|.|.（八）其中Φl（·）表示从预训练的VGG网络的第l层获得的特征表示，基本上，在我们的实现中使用relu 11、relu 2 1、relu 3 1和relu 4 1层内容损失。此外，为了保护结构，在所生成的函数中，我们将内容丢失Lcontet设计为：NN5646NSSL注意，这里我们明确地包括第一帧和时间t处的帧之间的流作为L流中的第二项，以保持长期时间一致性。循环一致性损失。我们进一步设计了一个循环一致性损失L循环，它有助于EGv和DG5647精确地从V中提取时间变化并生成具有一致时间变化的帧。基本上，广告-j_n生成的帧V_n={F_nt，F_nt+1，F_nt+2}应该具有与V类似的类时间变化，而不管内容上的差异。为了在独立于内容的V和V之间进行比较，C一致性损失L循环基于由EGv提取的特征图的格拉姆矩阵，其中它被定义为：在[34]中发布的语义分割模型。我们所有的源代码、模型和数据集都将在论文验收后公开。4. 实验数据集。我们采用Webcam剪贴画数据集[13]进行模型训练，并使用[24]的数据集作为测试集。网络摄像头剪贴画数据集包含大约580，000个1L循环=SΣ（EGV）S（V））−Gs（EGV（V））第2、（9）段这些图片来自54个摄像头序列，总计约10500天。然而，用这样长的序列训练是耗时的。为了克服这个问题，在每个时代，其中，函数Gs输出由EGv针对某个类s获得的特征映射的Gram矩阵。视频对抗性损失。受对抗性学习方案[9]的启发，我们设计了一个训练器来进一步提高生成视频的时间平滑度和真实度。如图2的右侧所示，D的输入是与水平翻转的视频V翻转级联的参考视频剪辑V，或者是与水平翻转的视频V翻转级联的V。与生成的视频剪辑V。的广告对象D被公式化为：Ladv=E（V，Vflip）logD（V，Vflip）我们从每个序列中随机选择64个相邻帧作为参考视频。对于来自[24]的测试数据库，它包含450个延时视频，涵盖了广泛的景观和城市景观，包括城市天际线，湖泊和山景。我们选择了30个视频（共10，350张图像），在测试时间内，颜色出现了显着变化，作为我们的参考视频。基线。由于没有以前的工作相同的问题设置为我们，我们比较我们的结果与现有的几个WCT [16]和AdaIN[11]）和真实感（即，WCT2 [32]和Liet al.[15]）。我们利用源头+E（V，V）log（1−D（V，V）），（10）作者提供的带有默认参数的代码并且以逐帧的方式执行传输处理，其中D区分真实视频和生成的视频。由于输入是视频片段，D可以同时判断帧的真实性和视频的流畅性。3.3. 总损失和实施详情我们模型训练的总体目标是上述损失项的总和内尔。请注意，WCT2 [32]和Liet al.[15]已经证明了他们提出的算法在视频上执行风格转移的能力，因此我们认为将它们也作为真实感视频风格转移的竞争基线是合理的，而其他视频风格转移的相关工作只关注艺术风格。语义标签映射被提供给所有这些基线，以便进行公平的比较。L（θG，θD）=Ladv+λ1L感知+λ 2L内容+λ3L样式+λ 4L流量+λ 5L循环，（十一）4.1. 定性结果图5显示了来自WCT [16]、AdaIN [11]、其中θG和θD是生成器G和生成器D的网络参数。这里再次注意，在生成器G中，只有EGV和DG是可学习的，而EGI是预先训练和固定的。为了控制每个损失函数的平衡，超参数λ1至λ5分别被设置为0。1，0。05、10、100和0。05.我们基于PyTorch框架实现我们的模型。我们训练我们的模型200个epochs，batch- size设置为1。对于DG和CJD，它们是使用Adam优化器和学习率从头开始10-4。对于EGV，其从conv 1 2到relu 2 1层的参数由来自ImageNet预训练的VGG-19网络的参数初始化，这些参数在我们的训练过程中通过使用SGD优化器进行微调，学习率为10−4，动量为0。9，重量衰减10-4。训练集的语义标签图由我们自己标注，而测试时使用的语义标签图则由我们自己生成WCT2[32]，Li et al. [15]我们的WCT不仅严重扭曲了内容，而且还产生了闪烁的人工图像。AdaIN能较好地保持时态一致性，但仍不能很好地保持结构和细节。WCT2很好地保留了输入图像的细节然而，WCT2有两个显著的缺点：首先，它导致不同区域之间的明显边界，例如，第一组中树木与建筑物之间的边界以及第二组中地面与天空之间的边界;第二，它有时会像第二组显示的那样产生斑点状的工件。Liet al.学习基于协方差的转换矩阵来转换目标样式。然而，他们的结果往往保留了太多的内容图像的颜色信息。例如，在第一组中，海和它附近的建筑物的颜色外观应该更暗，就像其他风格转换方法所显示的那样。此外，Lietal.依靠后处理步骤，N5648WCT AdaIN WCT2李我们WCT AdaIN WCT2李我们图5.延时视频合成的两组示例结果。对于每个集合，输入图像、参考视频帧及其对应的分割图（在左上角）在第一列上示出。WCT [16]、AdaIN [11]、WCT2 [32]、Liet al.[15]和我们提出的模型从第二列开始依次提供。输入参考坐标系WCT AdaINWCT2Li ours图6.示例比较我们的模型相对于基线对参考框架的鲁棒性与缺陷，即。天空中的水平条纹。当基线有可见的伪影时，我们的结果受到的影响较小。产生和谐的和照片般真实的结果，但是它导致模糊的伪像，如在第二组中的天空区域上可观察到的。相比之下，我们的模型成功地从参考视频的相邻帧中学习时间变化的特征，并合成逼真的延时帧，而无需利用任何后处理操作来保留输入图像的细节此外，我们的方法是能够工作在任意的输入图像和参考视频。补充材料中将提供更多的例子。此外，由于我们的模型从参考视频的多个相邻帧中提取特征，因此它对处理有缺陷的参考帧具有鲁棒性。如图6所示，由于天空中的水平条纹，参考系Ft突然损坏（请放大以获得更好的可视化效果），这导致结果上的可见伪影，基线相反，我们的结果几乎不受影响。4.2. 定量结果真实感风格化。为了衡量照片真实感，我们采用了空间恢复和风格化效果两个指标。在空间恢复的评价中，我们计算了输入图像和生成帧之间的结构相似度（SSIM）。至于风格化，我们报告了每个模型的输出和相应的参考帧之间的VGG Gram矩阵的差异。图7示出了SSIM（X轴）与风格损失（Y轴）的关系。理想的真实感结果应同时具有与输入图像类似的结构并匹配参考视频帧的风格，其中其对应于图7的右上角正如我们所见，艺术风格的转移5649.ΣWCTAdainWCT2李我们照相写实主义CCC64 ×640.5927.660.413.8260.87128 ×1280.4326.130.403.5931.77256 ×2560.2819.800.362.7311.19512 ×5120.1111.190.331.822.231024 ×10240.034.350.260.730.58图7.更好的是，更好的是，更好的。表2.运行时性能。结果以FPS测量，一个2080 Ti GPU。在大多数情况下，我们的方法比其他光矿论方法快。表1示出了根据Etmp和σtmp（两者越低越好）的时间一致性的评估。正如我们所看到的，艺术方法更容易产生具有闪烁伪影的闪烁视频（因此Etmp更高），而所有真实感方法都可以生成时间平滑的视频。ter）。Li−表示[15]，没有后处理步骤。虚线视频.当我们进一步比较σtmp 穿越光现实，描绘了在后处理步骤之前和之后之间的间隙，Li等人的方法。我们的结果被标记为红星。WCTAdainWCT2李我们照相写实主义CCCETMP1.9990.1890.0930.1000.113σTMP1.6410.1990.2340.2350.227表1.不同方法的时间一致性评价方法（即WCT和AdaIN）在风格化方面得分较高WCT2成功地保持了输入内容，以获得更高的SSIM，但与参考帧的风格不太一致，这导致了更高的Gram损失。通过比较后处理步骤之前和之后之间的间隙，我们可以观察到Li等人的基线。主要通过后处理步骤而不是风格化网络来达到高图像质量但是，如图5所示相反，我们提出的方法优于基线，没有任何后处理步骤。时间一致性。我们通过Etmp[10]比较了不同方法的时间一致性，由视频序列上连续帧之间颜色的平均逐像素欧几里德差异引起的时间误差‚.N−11tic的方法，它表明，我们的模型具有最好的结果，由于我们的新颖的设计的时间目标，例如。我流动。运行时比较。表2显示了基线和我们的基线的运行时比较。每个模型的报告运行时间是在单个2080 Ti GPU上平均生成10个视频，总共640帧。结果以FPS测量。如表所示，我们的方法可以在低分辨率下实现实时生成，最高可达到148比其他方法快一倍。在256×256分辨率下，AdaIN能够完成实时传输。但生成的图像不够精致。在各种真实感方法中，我们的算法在FPS上达到了与AdaIN相同的量级.在高分辨率生成中，现有的方法无法达到实时效果，而我们的方法仍然可以达到与最先进的真实感算法相同的数量级5. 结论In this paper, we propose an end-to-end time-lapse syn-thesis network with taking a single image and a referencevideo as inputs. 整个模型训练由我们的自监督学习方案驱动实验结果表明，我们的模型是高效和有效的，从参考视频的各种时间变化与基地相比，Etmp=β，（N−1）×Dt=1（Ft−Ft+1）2，（12）行的国家最先进的风格转移方法，我们的模型可以同时保持输入图像的细节，其中，N表示帧的总数，D是帧中的像素的数量，并且β是常数，其在这里被设置为103。为了进一步比较所生成的视频的流和参考视频的流，我们在像素级中评估参考流和所生成的流之间的标准偏差的获得更好的时间一致性。此外，由于目前我们的模型没有考虑移动对象，我们将在未来的工作中解决这个问题。本项目得到MOST- 109-2636-E-009-018、MOST-109-2634-F-009-020和σtmp=βN−1（N−1）t=1|.|. （十三）MOST-109-2634-F-009-015。我们非常感谢国家高性能计算中心提供的计算机时间和设备。5650引用[1] 陈东东，廖静，卢远，余能海，华刚。连贯的在线视频风格转移。在IEEE国际计算机视觉会议（ICCV），2017年。[2] 陈冬冬、卢远、廖静、余能海、华刚。Stylebank：神经图像风格传递的显式表示。在IEEE计算机视觉和模式识别会议（CVPR），2017。[3] 田启晨和马克施密特。快速的基于补丁的任意风格转移。在 NIPSWorkshopinConstructiveMachineLearning，2016年。[4] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别会议（CVPR）中，2009年。[5] Oriel Frigo ， Neus Sabater ， Julie Delon ， and PierreHellier. Split and match：基于示例的自适应补丁采样，用于无监督样式传输。在IEEE计算机视觉和模式识别会议（CVPR），2016年。[6] Leon A Gatys，Alexander S Ecker，and Matthias Bethge.使用卷积神经网络的图像风格转换。在IEEE计算机视觉和模式识别会议，2016年。[7] 利昂 ·AGatys ， Alexander S.Ecker ， Matthias Bethge ，Aaron Hertzmann，and Eli Shechtman.神经风格迁移中知觉因素的控制。在IEEE计算机视觉和模式识别会议（CVPR），2017年。[8] Golnaz Ghiasi ， Honglak Lee ， Manjunath Kudlur ，Vincent Dumoulin，and Jonathon Shlens. 探索实时、任意神经艺术风格化网络的结构。ArXiv：1705.06830，2017年。[9] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统进展（NIPS），2014年。[10] Haozhi Huang ， Hao Wang ， Wenhan Luo ， Lin Ma ，Wenhao Jiang，Xiaolong Zhu，Zhifeng Li，and Wei Liu.视频的实时神经风格传输在IEEE计算机视觉和模式识别会议，2017年。[11] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。在IEEE国际计算机视觉会议（ICCV），2017年。[12] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议（ECCV），2016。[13] Jean-Fran coisLalonde，Al ex eiA. Efros和Srin iv asaG. 纳拉希姆汉网络摄像头剪贴画：从时间推移序列的外观和光源转移。ACM Transactions on Graphics（TOG），2009年。[14] Chuan Li和Michael Wand。利用马尔可夫生成对抗网络进行预计算实时纹理合成欧洲计算机视觉会议（ECCV），2016。[15] Xueting Li，Sifei Liu，Jan Kautz，and Ming-Hsuan Yang.学习线性变换快速任意风格转移。在IEEE计算机视觉和模式识别会议（CVPR），2019。5651[16] Yijun Li，Chen Fang，Jimei Yang，Zhaowen Wang，Xin Lu，and Ming-Hsuan Yang.通过特征变换进行通用样式传递。神经信息处理系统进展（NIPS），2017年。[17] Yijun Li ， Ming-Yu Liu ， Xuting Li ， Ming-HsuanYang，and Jan Kautz.一个封闭形式的解决方案的照片真实感图像风格化。在欧洲计算机视觉会议（ECCV），2018。[18] Fujun Luan ， Sylvain Paris ， Eli Shechtman ， andKavita Bala.深度照片风格转移。在IEEE计算机视觉和模式识别会议，2017。[19] Seonghyeon Nam，Chongyang Ma，Menglei Chai，William Brendel，Ning Xu，and Seon Joo Kim.端到端的时间推移视频合成从一个单一的户外图像。在IEEE计算机视觉和模式识别会议（CVPR），2019。[20] 埃里克·里瑟皮埃尔·威尔莫特和康奈利·巴恩斯使用直方图损失的稳定可控神经纹理合成和风格转移。ArXiv：1701.08893，2017年。[21] Manuel Ruder、Alexey Dosovitskiy和Thomas Brox。视频的艺术风格转移。2016年德国模式识别会议（GCPR）[22] 卢胜，林紫怡，邵静，王晓刚头像-网络：通过特征装饰的多尺度零激发样式传递。在IEEE计算机视觉和模式识别会议（CVPR），2018。[23] 作者： YiChang Shih ， Sylvain Paris ， ConnellyBarnes，William T. 弗里曼和杜兰德。头部特写的风格转移ACM Transactions on Graphics（TOG），2014年。[24] YichangShih ， SylvainParis ， Fre'doDurand ，andWilliamTFreeman.从一张户外照片中产生一天中不同时间的数据驱动幻觉 ACM Transactions onGraphics（TOG），2013年。[25] Alia ksandrSiarohin ， Ste´ phaneLathuilie` re ， Ser geyTulyakov，Elisa Ricci，and Nicu Sebe.通过深度运动转移对任意对象进行动画处理。在IEEE计算机视觉和模式识别会议（CVPR），2019年。[26] Karen Simonyan和Andrew Zisserman用于大规模图像识别的深度卷积网络。ArXiv：1409.1556，2014。[27] Sergey Tulyakov ， Ming-Yu Liu ， Xiaodong Yang ，and Jan Kautz. Mocogan：分解运动和内容以生成视频。在IEEE计算机视觉和模式识别会议（CVPR），2018。[28] Dmitry Ulyanov，Vadim Lebedev，Andrea Vedaldi，and Vic- tor S Lempitsky.纹理网络：纹理和风格化图像的前馈合成。在 2016 年的国际机器学习会议（ICML）上[29] 德米特里·乌里扬诺夫，安德烈·维达尔迪，维克多·伦皮茨基。改进的纹理网络：最大化前馈风格化和纹理合成的质量和多样性。在IEEE计算机视觉和模式识别会议（CVPR），2017。[30] Xin Wang，Geoffrey Oxholm，Da Zhang，and Yuan-Fang Wang.多式联运：用于快速艺术风格转换的分层深度卷积神经网络。在IEEE计算机视觉和模式识别会议（CVPR），2017年。5652[31] 熊伟，罗文汉，马琳，刘伟，罗杰波。学习使用多阶段动态生成对抗网络生成延时视频在IEEE计算机视觉和模式识别会议（CVPR），2018。[32] Jaejun Yoo 、 Youngjung Uh 、 Sanghyuk Chun 、Byeongkyu Kang和Jung-Woo Ha。基于小波变换的真实感风格转换。IEEEInternational Conference on ComputerVision（ICCV），2019年。[33] Hang Zhang和Kristin Dana实时传输的多风格生成网络。在2018年欧洲计算机视觉研讨会[34] Bolei Zhou，Hang Zhao，Xavier Puig，Tete Xiao，SanjaFi-dler ， A

下载后可阅读完整内容，剩余1页未读，立即下载