单幅室外图像中基于神经网络的延时视频合成

197 浏览量更新于2023-10-17 收藏 1.86MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1409基于单幅室外图像的Seonghyeon Nam1 Chongyang Ma2 Menglei Chai2 WilliamBrendel2 Ning Xu3 Seon Joo Kim11延世大学2Snap Inc.3Amazon Go摘要延时视频通常包含视觉上吸引人的内容，但创建起来往往困难且成本高昂。在本文中，我们提出了一种端到端的解决方案，使用深度神经网络从单个户外图像合成延时视频。我们的关键思想是基于现有的延时视频和图像序列数据集训练一个条件生成对抗网络我们提出了一个多帧联合条件生成框架来有效地学习室外场景的光照变化与一天中的时间之间的相关性。我们进一步提出了一个多域训练方案，用于从具有不同分布和缺失时间戳标签的两个数据集对我们的生成模型进行鲁棒训练。与其他延时视频合成算法相比，我们的方法使用时间戳作为控制变量，并且不需要参考视频来指导最终输出的合成。我们进行消融研究，以验证我们的算法，并与国家的最先进的技术定性和定量比较1. 介绍延时视频通常通过使用固定或缓慢移动的摄像机以大帧间隔捕获户外场景来创建。这种独特的视频在视觉上很吸引人，因为它经常呈现剧烈的色调变化和快速的动作，显示时间的流逝但是延时视频通常需要复杂的硬件设置，并且捕获和编辑非常耗时。因此，设计和开发一种系统来促进延时视频的创建是期望的和有帮助的。室外场景的外观取决于许多复杂的因素，包括天气、季节、时间和场景中的对象。因此，大多数延时视频在时间和空间域中都呈现高度非线性的变化，并且很难导出一个显式模型来合成真实的延时视频，同时准确地考虑所有决定因素图1：对于每个室外图像（第一列），我们可以以端到端的方式预测随着时间的推移连续的照度变化（右侧四列）。随着各种新兴的社交网络服务，在世界各地的不同位置捕获的大量延时视频数据因此，用于生成延时视频的自然想法是通过从大规模视频数据库学习来自动合成动画输出。提出了一种数据驱动的幻觉算法[27]，用于通过基于从数据库。然而，这个框架需要存储整个延时视频数据库，以便在运行时检索。此外，可能并不总是能够找到具有语义上类似于输入图像的分量的参考视频最新进展在计算机视觉和机器学习中已经表明，深度神经网络可以用于实现逼真的风格转换[22，19，18]并合成高保真视频序列[16，34，2]。然而，大多数现有的深度视频生成技术需要参考视频或标签映射序列来指导输出视频的合成。在这项工作中，我们提出了一个端到端的数据驱动的时间推移幻觉解决方案，在运行时不需要任何语义标签或参考视频的单一图像。给定室外图像作为输入，我们的方法1410可以自动预测同一场景在一天中不同时间的外观，并通过使用时间戳作为控制变量来生成具有连续和照片级真实感照明变化的延时视频。图1显示了我们的系统生成的一些示例结果。传统上，视频生成任务已经通过时空方法进行建模，例如递归神经网络和体积卷积[35，32，30，42]。然而，使用这些方法实现我们的目标是具有挑战性的，因为现有延时数据集的原始镜头[12，27]包含许多不需要的相机运动，移动对象甚至损坏的帧，这会影响输出序列的质量在这项工作中，我们使用时间戳作为控制变量，将我们的任务转换为有条件的图像到图像转换任务，这使得我们的学习能够通过结构保持属性对这些离群值具有鲁棒性[43，11]。然而，由于不同时间的独立建模，仅凭这一点无法生成合理的延时视频为了有效地训练光照随时间的连续变化，我们提出了一个多帧联合条件生成框架（第3.1节）。为了进行训练，我们利用AMOS数据集[12]并构建了一个大型户外图像集合，其中包含拍摄照片时的相应时间戳。使用AMOS数据集的一个问题是，数据集中的许多片段在视觉上是无趣的，因为数据集是从捕获诸如高速公路和风景的户外场景的数十万个监视相机收集的。为了进一步提高我们的合成输出的视觉质量，我们还利用了延时视频数据库TLVDB [27]，这是一个小的延时视频集合。TLVDB数据集中的视频呈现丰富的照明变化，但没有每个帧的地面实况时间戳。为了从TLVDB数据集和AMOS数据集联合学习，我们提出了一种基于图像域转换的多域训练方案（第3.2节）[43，11]。它使TLVDB数据集能够以半监督的方式使用我们的条件生成框架进行训练，这消除了TLVDB数据集中时间戳的必要性。我们的训练方案还有效地处理了两个数据集之间的数据分布差异，使训练过程比简单的实现更稳定。我们在不同的输入图像上展示了各种延时视频合成结果，并将我们的方法与其他方法进行了比较（第4节）。我们还通过广泛的消融研究和评估来验证我们框架的设计和实施总的来说，我们的贡献是：• 我们提出了第一个解决方案，用于合成具有连续和真实感照明的延时视频，国家从单个室外图像改变，而不需要运行时的任何参考视频。• 我们提出了一个多帧联合条件网络来学习一天中不同时间的色调分布，同时绕过运动和异常值，训练数据。• 我们提出了一种多域训练方案，用于从不同数据集进行稳定的半监督学习，以进一步提高合成输出的视觉质量。2. 相关工作图像和视频风格化。图像和视频风格化在过去几年中一直是一个活跃的研究领域，特别是随着深度神经网络在视觉特征的鲁棒和有效计算方面的最新进展[7，14，43，22，19，18]。视觉风格化算法的一个典型使用场景是将输入的风格从一个源域转移到另一个目标域，同时保留内容，例如夜间到白天，草图到照片，标签映射到图像，反之亦然[15，38，11，4，34，2，1]。与这些现有方法相比，我们的技术旨在通过使用一天中的时间作为条件生成模型的控制变量，以连续的为静止图像设置动画。从单个图像创建动画一直是计算机视觉和计算机图形学中的一个长期研究问题关于这个主题的早期工作依赖于用户交互[5]或特定领域的知识[36，13]。与我们的方法最相关的是，提出了一种数据驱动的幻觉方法[27]，用于通过基于参考视频的颜色转移算法从单个室外图像合成延时视频。相反，我们只需要存储用于合成的紧凑模型，并且在运行时不需要任何参考视频。因此，我们的方法需要更少的存储空间，并且对于与所有可用的参考视频显著不同的输入图像可以最近，生成对抗网络（GAN ）和变分自编码器（VAE）等深度神经网络已广泛用于视频合成和未来帧预测[37，33，32，31，30]。由于神经网络的能力有限，这些技术中的大多数只能生成分辨率有限的非常短或固定长度的序列，和/或一直专注于特定的目标现象，例如对象变换[42]和云运动[35]。我们的方法是对这些先前方法的补充，我们可以通过不断改变色调来动画各种高分辨率的户外图像，以生成任意长度的输出视频。从视频数据集学习。与传统的图像数据集（如ImageNet [6]和COCO [21]）相比，大规模视频数据集（或静态图像序列）1411相机）通常在每个序列内的相干帧之间包含丰富的隐藏信息另一方面，这些数据集对学习算法提出了额外的挑战，因为数据量通常非常大，结构化程度较低。许多户外场景存档（AMOS）数据集[12]包含数百万张由数百个网络摄像头拍摄的户外图像。在他们的工作中，作者展示了使用自动注释分析数据集的可能性，例如语义标签，季节变化和天气条件。也可以从延时视频中提取照明，材料和几何信息，如之前的方法[23，29，17]所示最近，Li和Snavely [20]提出在没有地面实况数据的情况下从野外的延时视频中学习我们从这一系列的研究中得到启发，并提出学习一个生成模型的延时视频合成。3. 我们的方法问题陈述。为了从单个输入图像合成延时视频，我们将我们的任务定义为基于生成对抗网络（GAN）的条件图像翻译[8，24]，使用一天中的时间作为条件变量。形式上，设I为输入图像，t∈R为目标时间戳变量在[0，1）的范围内，整个 DAY然后，我们的任务可以被描述为 ΔIt=G（I，t），其中生成器G使输入I的色调产生幻觉，以预测在时间t的输出图像ΔIt。生成图2：来自AMOS（顶部三行）和TLVDB（底部两行）数据集的样本序列。显示了来自两个数据集的几个示例帧。然而，使用这两个数据集直接训练生成模型并不容易，因为它们包含许多离群值，甚至是损坏的例如，某些序列中的图像由于相机移动而未对齐，并且包含突然的场景变化、文本覆盖、淡入/淡出效果等。我们只手动修剪一些明显损坏的帧和序列，因为删除所有噪声数据需要大量的人工操作。3.1. 多帧联合条件生成我们将AMOS数据集表示为A。中的每个数据（I，t）我我一段延时视频，我们从有限的时间戳中t∈ {t0，t1，t2，···，tn}，然后聚合生成的图像以形成视频V={tI0，tI1，tI2，···，tIn}。请注意，我们的目标是在不考虑动态运动（如移动对象）的情况下，对色调随时间的连续和非线性变化进行建模。在测试时，我们以端到端的方式合成输出视频，而不需要任何参考视频，场景分类或语义分割。此外，我们的方法通过使用实值t作为控制变量，可以在推理时生成任意数量的帧数据集。为了从单个输入图像中学习延时视频合成的端到端模型，我们利用AMOS数据集[12]和延时视频数据库（TLVDB）[27]。AMOS数据集是一个大规模的户外图像序列数据集，这些图像序列是从世界各地超过35000个网络摄像头捕捉到的AMOS数据集中的典型序列每24小时有数十帧，并带有捕获时间的时间戳标签。TLVDB数据集包含463个实时延时视频，其中大部分是关于地标场景的。TLVDB数据集中的每个视频都至少有数百帧没有时间戳标签，并且帧数不同。图2A是一对图像Ii及其对应的时间戳ti。作为一种简单的方法，可以采用使用时间戳的条件图像到图像转换框架t作为条件变量。具体地，从AMOS数据集A，我们可以训练生成器G来合成图像对于tar get乘以tampt，D被训练来区分一对图像和一个时间戳是真的还是假的。然而，我们发现，使用A中的每一帧独立地训练这样一个天真的模型往往会在输出序列中生成令人难以置信的色调。这是因为在特定时间t的照明与在同一天的不同时间的照明相关。此外，可以确定多天内的照明变化由于其他因素如位置、季节和天气而有所不同。为此，我们建议使用共享的潜在变量z从每个序列中训练多个帧。我们使用这个潜在变量z作为每个序列的时间上下文，以学习一天中不同时间的色调的联合分布生成器. 我们的生成器G利用基于我们提出的多帧联合生成方案的典型编码器-解码器架构，如图3（左）所示设SA为a1412图3：我们的多帧联合条件GAN方法的说明。对于我们的算法，编码图像在聚合以计算条件损失之前与时间戳（虚线矩形）连接，而每个图像直接用作计算无条件损失的输入（实线矩形）。从AMOS中的同一序列中取样的一组帧框架集SA。无条件的最大值u用于区分每个单独的图像是真实的还是伪造的。如果生成的帧集S_A是一个真实的时间推移序列。换句话说Dc不仅检查每个单独的帧S_i_t_i是否匹配对应的t_i，而且还检查S_i_A是否呈现随时间变化的真实色调。我们基于相同的图像编码器ED训练Du和Dc，如图3（右）所示对于有条件的CIDDc，对于每个帧和所有帧，将编码图像和对应的时间戳连接起来从相同的序列聚合，以计算100万。由于条件式的输入是一个无序的 {（Iti，ti）}集合，而不是一个有序序列，所以D得分应该是不变量[39]。因此，我们使用max-pooling以聚集多个帧的编码特征。对抗性损失。我们的多帧联合条件生成算法的对抗损失包括一个无条件损失和一个条件损失。无条件对抗损失lu可以正式描述为：数据集A：SA={（I0，t0），（I1，t1），（I2，t2），···，（In，tn）}。（一）lu=E+E我是一个[logDu （一）][1− logD（四）（G（I，t，z））]，（I，t）A，zNu输入图像Ii由编码器EG编码。共享潜在变量z从标准正态分布中采样其中N是标准正态分布。我们的有条件对抗性损失信用证定义如下：分布N（0，1）来表示从其采样SA的序列的时间上下文然后几个残留的lc=E SAA [logDc（SA）]块[9]将编码图像EG（Ii）与潜在变量z和时间戳ti一起作为输入，生成具有新色调的输出要素最后，+ES+ESA[1−logDc（SA）]<$A，z<$N[1 − log Dc（G（SA，z））].（五）G中的解码器DG将来自残差块的特征解码为图像Iiti，作为Ii的重构输出：nti=G（ Ii，ti，z）=D（E（I），t，z），（2）为了有效地训练输入图像Ii与其对应的时间戳ti之间的相关性，我们引入如等式2的第二行所示的附加项。（5）对于一组n个g-i-v-对SA，我们通过随机收集，从SA：G Gi i其中为了简单起见我们省略了残差块SA的整个重构输出由所有生成的帧组成：SA={It0，It1，It2，···，Itn}。（三）在训练过程中，我们使用来自图3所示的相同序列的不同输入图像，这使得G能够忽略移动因素。在推理时，我们多次使用相同的输入图像来获得输出序列。鉴别器。我们的设计图分为两部分，用于每个单独输出图像的无条件的最小值u和用于每个单独输出图像的有条件的最小值u对于来自输入的重建图像的集合，随机变量zt无条件损失条件损失tENC残余DecENCttENC残余DecENC...tn............tn......ENC残余块DecENC发生器鉴别器块块聚合（最大池化）一1413SA={（Ii，tj）|i=j}。（六）3.2. 多领域培训我们的多帧联合条件生成方法有效地捕捉随着时间的推移不同的光照变化然而，仅基于AMOS数据集训练的模型往往会生成令人不感兴趣的输出，例如裁剪和不太饱和的颜色，特别是在天空区域，因为AMOS数据集的大多数片段都是由监控摄像机捕获的。为了进一步提高合成输出的视觉质量，我们建议另外利用TLVDB数据集[27]并将其表示为B。大多数视频在B是关于使用专业相机拍摄的地标场景，因此呈现出更有趣的色调随着时间的推移而变化。1414¨¨一算法1我们的训练算法设置学习率η初始化网络参数θGA、θDA、θGB、θDB对于迭代次数，样品SA、SAA、SBB(1) 更新鉴别器DA和DB样本zN生成GB（SB，z），GA（GB（SB，z））θDA =θDA +ηθD（lu，A+lc）θDB=θDB+ηθD lu，B图4：我们的多领域培训计划的说明。(2) 更新发生器GA样本zN生成GB（SB，z），GA（GB（SB，z））θGA=θGA+ηθG （lu，A+lr）但是，TLVDB数据集中的素材是视频而没有用于每个帧的任何地面实况时间戳标签。因此，直接从该数据集(3) 更新生成器GB样本zN生成GB（SB，z），GA（GB（SB，z））使用我们的条件生成方法，第3.1节。此外，我们已经发现，简单地合并AMOS数据集和TVLDB数据集来训练方程中的无条件图像训练器（4）不θGB=θGB+ηθG端（lu，B+lc）改进的结果，由于域的差异，Eq中的条件损失。（5）可以改写为：两个数据集。为了解决时间戳丢失和数据分布不一致的问题，我们提出了一个多域lc=E SAA [logDA （SA）]训练方法+ES1−logDA（SA）（十）我们的主要想法是合成时间推移序列，TLVDB数据集B并学习连续照明+ESB <$B，z<$N[1−logDA（GA（GB（SB，z）]，从AMOS数据集A随时间变化。图4显示了我们的多域训练算法的概述基本上，我们训练一个生成器GB和一个基于B的鉴别器DB来合成延时序列。的其中为了简单起见，我们省略了SB的确切定义我们还基于L1范数为GA增加了一个重构损失lr，以强制网络从样本在一个域中到另一个域中的类似域：然后将合成结果翻译到A ′的结构域中通过使用另一个生成器GA作为代理来获得条件lr=<$G A（G B（I，t，z））− G B（I，t，z）<$。（十一）训练来自在A上训练过的CIDDA的信号。利用来自DA的训练信号，可以训练GB合成具有时间戳t的图像。帐户.为此，我们采用我们的多帧条件生成网络（第3.1节和图3），用于GB和1训练算法我们的网络是通过解决以下极大极小优化问题来训练的：DA，同时使用vanilla DCGAN [25]和U-Net [26]用于G，D，G，D=minMaxlu+lc+λ lr，（12）DB和GA。A A B BGA，GBDA，DB损失函数。对于我们的多域训练方案，方程中的无条件损失。（4）改为：lu=lu，A+lu，B，（7）哪里lu，A=EIA[logDA（I）]其中，λ是在等式（1）中定义的重建损失的权重。（十一）、注意，Ic仅用于更新GB，并且我们不使用来自Ic的梯度来更新GA，因为使用GA的目的是在不考虑时间戳条件的情况下平移域。此外，我们交替地更新GA和GB，因为它们彼此依赖我们的培训在算法1中逐步描述过程。和+EI<$B，t<$A，z<$N[1−logDA（GAlu，B{t，t，GBDB0 1 NGA{t，t，0 1 N无条件损失的梯度条件损失的梯度TLVDB数据集的域AMOS数据集的lclu，ADA一BB一1415lu，B=EIB[logDB（I）]（八）（GB（I，t，z））]，3.3. 引导上采样由于我们的训练数据非常有限，并且包含大量噪声，因此很难训练网络直接输出全分辨率结果，同时完全保留局部+EI <$B，t<$A，z<$N[1−logDB（九）（G B（I，t，z））]。输入图像中的结构因此，我们首先训练我们的1416图5：我们在后处理步骤中应用引导上采样从左至右：我们的网络预测的输出，原始输入和上采样结果。生成网络并以较低的分辨率预测输出。然后，我们应用自动引导上采样方法，遵循[10]中的局部颜色转移方法，作为后处理步骤以获得全分辨率结果。基本上，我们将最终结果<$I与像素位置p处的输入图像I之间的每像素线性变换建模为具有偏置b（p）的缩放因子s（p）：<$I（p）=T（p）（I（p））=s（p）×I（p）+b（p）。（十三）引导式上采样的关键思想是使用原始网络输出WDI作为指导来计算变换T =WDI。{s，b}，同时使用相邻将输入图像I中的像素作为正则化。我们特别将任务表述为以下最小二乘问题：E= Ed+µ Es，Σ¨ ¨24. 实验4.1. 实验装置数据集。我们使用AMOS [12]和TLVDB [27]数据集来训练我们的网络。对于AMOS数据集，我们只选择具有地理位置信息的序列，并相应地将所有时间戳标签调整为本地时间。此外，我们删除了一些明显损坏的数据，如零字节图像，灰度图像等。总的来说，我们收集了40537个序列，包含来自1633台相机的1310375张图像。我们将收集到的AMOS数据集分为训练集和测试集，分别包含来自1，533和100台相机的序列。对于TLVDB数据集，我们使用了463个视频，其中有1，065，427个图像没有进行预处理。我们随机选择30个视频作为测试集，并使用剩余的视频进行训练。实作详细数据。我们使用PyTorch实现我们的方法。我们使用Adam优化器，将动量设置为0，用60，000次迭代来训练我们的模型。五、批量大小设置为4，学习率为0。0002. 我们在一个批次中使用16帧用于每个示例来训练我们的多帧联合条件GAN，并将λ设置为0。五是视觉质量。对于数据增强，我们首先将图像大小调整为136×136，然后应用随机仿射变换，包括旋转，缩放和剪切通过随机水平翻转。最后，图像被随机裁剪成分辨率为128×128的补丁。对于GB的编码器，我们采用预训练的VGG-16网络[28]，而所有其他组件都是从头开始训练的。1基线。我们比较我们的方法与现有的两个颜色转移方法的李等。[19] Shihet al. [27]使用源代码和作者提供的默认参数。由于这两种方法都需要参考视频来指导输出合成，因此我们还实现了[27]中提出的参考视频检索方法，Ed=Es=<$I（p）−<$I（p）<$，pΣΣΣ¨ ¨2wI（p）， I（q）<$ T（p）− T（q）<$，pq ∈N（p）（十四）将输入图像的全局特征与参考视频帧进行比较，以找到最相似的视频。我们使用ResNet-50模型[9]中全连接层的输出作为全局特征。该模型针对场景分类任务进行了预训练[40]。我们还使用了w h. 其中N（p）是p的单环邻域，wI（p），I（q）测量颜色之间原始图像I中的两个相邻像素p和q。方程中的数据项Ed（14）根据颜色项E1和平滑度项E2来保持颜色，并且平滑度项E3强制相似像素的相邻像素之间的线性变换T颜色. 全局常数权重µ用于平衡两个我们独立地计算每个颜色通道的最小二乘优化，然后对T预训练的场景解析网络[41]，以产生Li等人'中使用的语义分割掩码。的方法[19]。4.2. 实验结果定量结果。由于两种基线方法都需要参考视频作为输入，而我们的方法不需要，因此很难进行完全公平的并排比较。为了定量评估我们的方法，我们在[27]的实验后进行了人体评估。在应用到原始文件之前，请先形象参见图5中的两个示例结果。1请参阅补充材料了解更多详细信息。1417天−−−−−−−−−−−−−−−−−−−−−−−−−→日落图7：与现有方法的比较。左侧显示了相同的输入图像。从上到下，我们分别显示了来自检索到的参考视频的帧，[19]，[27]和我们的方法的结果。晚上--图6：我们对一天中不同时间的输入图像的预测结果。显示输入图像在每一行的左边。具体来说，我们从TLVDB测试集中的30张测试图像中选择了24张图像，并使用两种基线方法[19，27]和我们的方法生成了24个然后，我们从每个输出序列中随机选择两个或三个图像。最终，我们为每种方法收集了71张图像。我们还从测试图像的原始视频中选择了相同数量的我们在Amazon Mechanical Turk上进行了一项用户研究，询问10名用户每张图片是真是假。为了控制质量，我们将用户限制在那些批准率高于98%结果，60。6%的结果被用户视为真实图像相比之下，对于真实图像的相应数字，Liet al.的方法[19]，和Shih等人。的方法[27]是67。5%，34. 1%，44。9%，分别。我们的百分比也高于[27]中报告的值，即55。百分之二。我们将两种基线方法的较低性能归因于当检索到的参考视频与输入图像不完全相比之下，我们的结果大多是用户喜欢的，而不使用任何参考视频。定性结果。图6显示了我们基于来自MIT-Adobe 5 K数据集的各种户外图像[3]。我们的方法可以鲁棒地处理具有不同语义成分的输入图像，并有效地合成随着时间的推移的光照变化。图7显示了我们的结果与两种基线方法的结果之间的定性比较[27，19]。输入图像在图7的第一列中重复显示。第一行示出了来自检索到的参考视频的帧集合。从第二行开始，我们分别显示[19]，[27]和我们的方法产生的结果在许多情况下，这两种基线方法都会产生不真实的图像，这主要是因为参考视频中的场景与输入图像不完全匹配。对于这两种基线方法，色调变化由检索到的参考视频驱动，并且如果参考视频具有与输入图像显著不同的语义组成，则相比之下，我们的方法可以有效地生成合理的色调变化随着时间的推移，没有参考视频。此外，由于使用了AMOS和TLVDB数据集，我们的结果中的色调变化在视觉上更令人愉悦计算时间。在推理时，我们只需要G B来合成延时视频 G B的推断大约需要0. 02秒的 GPU和 0. 8 秒的CPU。引导上采样步骤花费约0. 对于分辨率为512×512的原始输入图像，CPU上的时间为1秒。与此相反，Shihet al.的方法[27]在CPU上处理700像素宽度的图像需要58秒，Li等人的方法 [27 ]在CPU上处理700像素宽度的图像需要58秒。方法[19]六、在GPU上，768×384分辨率需要3秒因此，我们认为，1418图8：我们算法的消融研究左侧显示了相同的输入从上到下，我们展示了(A) 一个普通的cGAN，（B）我们的多帧联合条件GAN，（C）我们的完整算法。我们的方法比现有方法快得多，并且更适合于在移动设备上部署。4.3. 讨论消融研究。我们进行消融研究，以验证我们提出的方法的重要组成部分在图8中，我们展示了一些定性结果，以与我们自己的基线进行比较：（A）一个普通的cGAN，（B）我们的没有多域训练的多帧联合条件GAN，以及（C）我们的具有多帧联合条件GAN和多域训练的完整算法。方法（A）仅改变整体亮度而不考虑色调变化，特别是在诸如日出和日落的过渡时间。这个问题是因为，图9：使用GA的效果。输入图像显示在左侧。示出了GA之前（第2列和第4列）和GA之后（第3列和第5列）的两个图像对以验证多域训练。5. 结论在本文中，我们提出了一种新的框架，从一个单一的户外图像的延时视频合成。给定一个输入图像，我们的条件生成对抗网络可以通过使用时间戳作为控制变量来预测光照随时间的变化。与其他方法相比，我们不需要语义分割或参考视频来指导输出视频的生成。我们的方法仍然有一些局限性。如图10所示，我们的方法无法从夜间输入中产生白天图像的幻觉，在夜间输入中，输入的大部分非常暗。在某些情况下，我们的方法无法在区域由于位置、季节和天气的变化，在特定时间会发生各种照明变化，这会混淆例如建筑窗户。在另外，我们的方法只是图10：失败案例。生成器.因此，发电机很可能只是改变亮度，作为欺骗消费者的最简单方法方法(B) 通过考虑整个序列的上下文来有效地捕获照明随时间的变化。然而，在许多情况下，它会产生剪切的像素和不太饱和的色调，因为AMOS数据集由监视摄像机捕获的片段组成，这些片段在视觉上不太有趣。我们的完整算法（C）通过从AMOS数据集和TLVDB数据集联合学习来克服这一多领域培训评估。图9示出了使用GA将GB的输出转换到AMOS数据集A的域中进行条件训练之后的一些示例由于两个数据集的域差异，例如不同的色调和场景构图。如图所示，GA可以有效地改变GB的输出来欺骗DA，并从中获得条件训练信号。改变给定输入图像的色调，引入诸如移动物体的任何运动将我们的方法与帧预测或运动合成技术[35]相结合以生成具有有趣运动和照明变化的延时视频将我们还计划扩展我们的方法，以支持其他语义控制，例如预测结果中的日出和日落时间[15]。最后，我们想研究使用我们的合成框架与隐式控制变量的一般视频合成任务。鸣谢。这项工作得到了韩国政府资助的韩国国家研究基金会（NRF）资助（MSIP）（NRF-2016 R1 A2 B4014610）和韩国政府资助的信息通信技术规划评估研究所（IITP）资助（MSIT）（2014-0-00059）的支持。Seonghyeon Nam得到了全球博士的部分支持。奖学金计划通过韩国国家研究基金会（NRF）由教育部资助（NRF2015H1A2A1033924）。1419引用[1] Asha Anoosheh、Torsten Sattler、Radu Timofte、MarcPolle-feys和Luc Van Gool。用于基于检索的定位的夜间到日常图像翻译。 arXiv 预印本 arXiv ： 1809.09767 ，2018。[2] Aayush Bansal 、 Shugao Ma 、 Deva Ramanan 和 YaserSheikh。Recycle-gan：无监督视频重定向。在欧洲计算机视觉会议（ECCV），第119-135页[3] 弗拉基米尔·比奇·科对基，西尔·瓦恩·帕里斯，埃里克·陈，和杜兰德神父。使用输入/输出图像对的数据库学习摄影全局色调调整在IEEE计算机视觉和模式识别会议（CVPR）中，第97-104页[4] Qifeng Chen和Vladlen Koltun。使用级联细化网络的摄影图像合成。在IEEE国际计算机视觉会议（ICCV），第1520-1529页[5] 作者：张文辉，张文辉. Salesin和Richard Szeliski。用随机运动纹理制作图片动画 ACM Trans. Graph. ， 24（3）：853[6] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. ImageNet：一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别会议（CVPR）中，第248-255页[7] Leon A Gatys，Alexander S Ecker，and Matthias Bethge.使用卷积神经网络的图像风格转换。在IEEE计算机视觉和模式识别会议（CVPR）中，第2414-2423页[8] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统进展，第2672-2680页，2014年。[9] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR），第770-778页[10] Mingming He，Jing Liao，Lu Yuan，and Pedro V Sander.图像之间的神经颜色传递。 arXiv 预印本 arXiv ：1710.00756，2017。[11] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议中，第5967-5976页[12] 内森·雅各布斯纳撒尼尔·罗曼罗伯特·普利斯许多户外场景中的连续时间变化。在IEEE计算机视觉和模式识别会议（CVPR）中，第1-6页[13] 周伟慈郑文煌通过云运动创建动画静态风景照片。IEEE Transactions on Multimedia，18（1）：4[14] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失在欧洲计算机视觉会议（ECCV），第694-711页[15] Levent Karacan ， Zeynep Akata ， Aykut Erdem ， andErkut Erdem.学习从属性和语义布局生成户外场景的图像。arXiv预印本arXiv：1612.00215，2016。[16] Hyeongwoo Kim ， Pablo Carrido ， Ayush Tewari ，WeipengXu ， JustusThies ， MatthiasNiessner ，PatrickPe'rez ， ChristianRichardt ， MichaelZollh oüfer 和ChristianTheobalt。深度视频肖像。ACM事务处理图表，37（4）：163：1-163：14，2018.[17] 皮埃尔-伊夫·拉丰和让-查尔斯·巴赞。从局部时间变化的图像序列的本征分解。IEEEInternational Conferenceon Computer Vision（ICCV），第433-441页[18] 李欣英、曾鸿宇、黄佳斌、曼尼什·辛格和杨明轩。通过解纠缠的表示进行不同的图像到图像的翻译在欧洲计算机视觉会议（ECCV），第35[19] Yijun Li ， Ming-Yu Liu ， Xuting Li ， Ming-HsuanYang，and Jan Kautz.一个封闭形式的解决方案的照片真实感图像风格化。在欧洲计算机视觉会议，第453-468页[20] 李正奇和诺亚·斯内弗利。从观察世界中学习内在图像分解在IEEE计算机视觉和模式识别会议（CVPR）中，第9039-9048页[21] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、彼得罗·佩罗纳、德瓦·拉马南、彼得·多尔和C·L·劳伦斯·齐特尼克。Microsoft COCO：上下文中的公用对象。欧洲计算机视觉会议（ECCV），第740-755页，2014年[22] Fujun Luan，Sylvain Paris，Eli Shechtman，and KavitaBala.深度照片风格转移。在IEEE计算机视觉和模式识别会议（CVPR），第6997-7005页，2017年。[23] Wojciech Matusik，Matthew Loper，and Hanspeter Pfister.从自然照明中逐步精化的反射率函数在 RenderingTechniques，第299-308页[24] Mehdi Mirza和Simon Osindero条件生成对抗网。arXiv预印本arXiv：1411.1784，2014。[25] 亚历克·雷德福卢克·梅斯和苏米特·钦塔拉使用深度卷积生成对抗网络进行无监督表示学习arXiv预印本arXiv：1511.06434，2015。[26] Olaf Ronneberger，Philipp Fischer，and Thomas Brox.U-Net：用于生物医学图像分割的卷积网络医学图像计算和计算机辅助干预国际会议，第234-241页，2015年[27] ShiYichang，Syl vainParis，Fr e´doDur and，andWilliamT.弗里曼。从一张户外照片中产生一天中不同时间的数据驱动幻觉。ACM事务处理图表，32（6）：200：1[28] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。 arXiv 预印本 arXiv ：1409.1556，2014。[29] KalyanSunkavalli ， WojciechMatusik ， HanspeterPfister，and Szymon Rusinkiewicz.定时拍摄的视频ACMTransactions on Graphics，26（3）：101：11420[30] Sergey Tulyakov，Ming-Yu Liu，Xiaodong Yang，andJan Kautz. MoCoGAN：分解运动和内容以生成视频。在IEEE计算机视觉和模式识别会议（CVPR），第1526-1535页[31] Ruben Villegas，Jimei Yang，Seunhoon Hong，XunyuLin，and Honglak Lee.分解用于自然视频序列预测的运动和内容。国际学习表征会议（ICLR），2017年。[32] Carl Vondrick Hamed Pirsiavash和Antonio Torralba生成具有场景动态的视频。神经信息处理系统的进展，第613-621页，2016年。[33] Jacob Walker ， Carl Doersch ， Abhinav Gupta ， andMartial Hebert.不确定的未来：使用变分自动编码器从静态图像进行预测。在欧洲计算机视觉会议（ECCV），第835-851页[34] Ting-Chun Wang，Ming-Yu Liu，Jun-Yan Zhu，GuilinLiu，Andrew Tao，Jan Kautz，and Bryan Catanzaro.视频到视频合成。神经信息处理系统的进展，第1152-1164页，2018年[35] 熊伟，罗文汉，马琳，刘伟，罗杰波。学习使用多阶段动态生成对抗网络生成延时视频。在IEEE计算机视觉和模式识别会议（CVPR），第2364-2373页[36] Xuemiao Xu ， Liang Wan ， Xiaopei Liu ， Tien-TsinWong，Liansheng Wang，and Chi-Sing Leung.从静止动画动物运动。ACM事务处理图表，27（5）：117：1-117：8，2008.[37] 薛天凡，吴嘉俊，凯瑟琳·布曼，比尔·弗里曼.视觉动态：通过交叉卷积网络的概率未来帧合成。神经信息处理系统的进展，第91-99页，2016年[38] Zili Yi，Hao（Richard）Zhan

下载后可阅读完整内容，剩余1页未读，立即下载