没有合适的资源?快使用搜索试试~ 我知道了~
无监督视频重定向的数据驱动方法
Recycle-GAN:无监督视频重定向Aayush Bansal1、Shugao Ma2、Deva Ramanan1和Yaser Sheikh1、21 2卡内基梅隆大学Facebook现实实验室,匹兹堡http://www.cs.cmu.edu/~aayushb/Recycle-GAN/抽象。我们介绍了一种数据驱动的方法,用于无监督视频重定向,该方法将内容从一个域转换到另一个域,同时保留静态内容以进行动态调整,即。例如,如果约翰·奥利弗的语音内容要被传送给斯蒂芬·科尔伯特,则所生成的内容/语音将被存储在斯蒂芬·科尔伯特的结构中。Ourappro achcombines空间和时间信息以及用于内容转换和样式保留的对抗性损失。在这项工作中,我们首先研究的优势,使用时空约束的空间约束,有效的重定向。然后,我们展示了所提出的方法,在空间和时间的问题,如面对面的翻译,花到花,风和云的合成,日出和日落的信息。1介绍我们提出了一种无监督的数据驱动的方法,视频重定向,使连续的内容从一个域到另一个域的转移,同时保持目标域的风格。这样的内容翻译和风格保留任务具有许多应用,包括从一个人到另一个人的人类运动和面部翻译,从人类演示中教导机器人这项工作还应用于创建在现实世界设置中难以捕获或标记的视觉内容,例如,将两个人的人体运动和面部数据对齐用于虚拟现实,或为自动驾驶汽车标记夜间数据。最重要的是,内容翻译和风格保留的概念超越了像素到像素的操作,成为更语义和抽象的人类可理解的概念,从而为可以直接与人类合作的先进机器铺平了道路。当前用于重定向的方法可以大致分为三类。第一组工作是专门为人脸等领域设计的[5,41,42]。虽然这些方法在面部完全可见时工作良好,但当应用于遮挡面部(虚拟现实)时它们失败,并且缺乏对其他领域的推广。配对图像到图像翻译[23]的工作试图跨域进行泛化,但需要人工监督标记和对齐。这种要求使得难以使用这样的方法,因为人工比对或标记许多(野生)结构域是不可能的。第三类工作尝试无监督和不成对的图像翻译[26,53]。这些工作在未配对的2D图像上强制循环一致性[51],并学习2A. Bansal,S.Ma,D.Ramanan,Y.谢赫约翰·奥利弗致斯蒂芬·科尔伯特花间Fig. 1. 我们的视频重定向方法用于人脸和花朵。最上面一行显示了从约翰·奥利弗到斯蒂芬·科尔伯特的翻译。底行示出了合成的花如何遵循输入花的开花过程相应的视频可在项目网页上获得。从一个域到另一个域的转换然而,单独使用未配对首先,它不能对优化提出足够的约束,并且经常导致不良的局部最小值或感知模式崩溃,使得难以在目标域中生成所需的输出。其次,在2D图像中单独使用空间信息使得难以学习特定领域的风格,因为风格信息也需要时间知识。在这项工作中,我们提出了两个具体的意见:(i)时间信息的使用为将一个域变换到另一个域的优化提供了更多的约束,并且有助于学习更好的局部最小值;(ii)空间和时间约束的组合影响有助于学习给定领域中的身份的风格特征。更重要的是,我们不需要手动标签,因为时间信息可以在视频中免费获得(在网络上可以大量获得)。图1中所示的是人脸和花的翻译示例。没有任何人工监督和特定领域的知识,我们的方法学习这种重定向从一个域到另一个使用公开的视频数据在网络上从两个域。我们的贡献:我们引入了一种新方法,该方法将spatiotemporal线索与条件生成对抗网络[15]结合起来进行视频重定向。我们证明了时空约束的优势,在不同的环境设置单独的空间约束的图像到标签,然后,我们展示了所提出的方法在学习两个域之间更好的关联的重要性,以及它对视觉数据的自监督内容对齐的重要性。受时空永恒存在的本质的启发,我们定性地证明了有效性输入输出输出输入Recycle-GAN:无监督视频重定向3(a) 感知模式崩溃(b)坏的局部最小值(c)唯一输出(d)更好的局部最小值图二. 空间周期一致性是不够的:我们展示了两个例子,说明为什么空间周期的一致性是不够的优化。(a)显示了在使用Cycle-GAN [53]时唐纳德·特朗普到巴拉克·奥巴马的感知模式崩溃的示例。第一行显示了Donald Trump的输入,第二行显示了生成的输出。第三行示出了将第二行作为输入的重构的输出。尽管输入不同,第二行看起来相似;并且第三行示出了与第一行相似的输出 通过非常仔细的观察,我们发现第二行中的一些像素是不同的(但在感知上不显著),并且这足以得到不同的重建;(b)显示了image2labels和labels 2 image的另一个示例。虽然生成器在两种情况下都不能为给定输入生成所需的输出,但它仍然能够完美地这两个示例都表明,空间循环损耗不足以确保另一域中的所需输出,因为整体优化集中在重构输入上。然而,如(c)和(d)中所示,我们使用我们的方法组合空间和时间约束来获得更好的输出。 视频可于计划网页下载。我们的方法可以用于各种自然过程,例如面对面翻译,花对花,合成云和风,对齐日出和日落。2相关工作各种各样的工作处理图像到图像翻译[11,17,23,40,53]和风格翻译[4,10,19]存在。事实上,计算机视觉和计算机图形学中的大量工作都是关于图像到图像的操作。虽然主要的努力是推断语义[30],几何[1,9]或低级线索[48],但通过引入生成对抗网络[15],人们对使用数据驱动方法合成图像重新产生了兴趣。该公式已被用于从诸如低分辨率图像[8,28],类别标签[23]和各种其他输入先验[21,35,49]等线索中生成图像。然而,这些方法需要输入-输出对来训练模型。虽然为几个图像到图像操作标记数据是可行的,但是存在许多任务,提出重建输出输入4A. Bansal,S.Ma,D.Ramanan,Y.谢赫这对于生成用于训练监督的输入-输出对是重要的。最近,朱等。[53]提出在对抗学习框架中使用循环一致性约束[51]来处理这种不成对数据的问题,并证明了各种任务的有效结果。循环一致性[26,53]使许多图像到图像的翻译任务,而无需任何昂贵的手动标记。类似的想法也应用于以无监督方式学习深度线索[14],机器翻译[47],形状对应[20],逐点对应[51,52]或域自适应[18]。Cycle-GAN [53]的变体已应用于各种时域[14,18]。然而,这些工作只考虑二维图像中的空间信息,而忽略了时间信息的优化。我们观察到两个主要限制:(一).感知模式崩溃:不能保证循环一致性将产生输入的感知上唯一的数据。在图2中,我们展示了为唐纳德·特朗普和巴拉克·奥巴马训练的模型的输出,以及image2labels和labels2image的示例我们发现,对于唐纳德·特朗普的不同输入,我们得到了巴拉克·奥巴马的感知相似的输出然而,我们观察到这些输出具有一些独特的编码,使得能够重建与输入类似的图像我们在图2-(b);(2)中看到了image 2labels和labels 2 image的类似行为在空间上与输入关联:由于输入本身的重建损失,优化被迫学习与输入紧密相关的解决方案。虽然这对于只有空间变换重要的问题是合理的(例如马到斑马,苹果到橘子,或绘画等),这对于需要时间和风格信息进行综合(主要是面对面翻译)的问题是重要的在这项工作中,我们提出了一个新的配方,利用空间和时间的限制,以及对抗性的损失,以克服这两个问题。图2-(c,d)中示出了克服上述问题的所提出的方法的输出我们假设这是由于更多的约束下约束优化。GANs [15]和变分自动编码器[27]的使用也找到了一种合成视频和时间信息的方法。Walker等人[45]使用时间信息从单个图像预测未来轨迹。最近的工作[16,44,46]使用时间模型来预测来自单个2D图像的长期未来姿势。MoCoGAN [43]分解运动和内容以控制视频生成。类似地,Temporal GAN [39]采用分别生成一组潜在变量和图像序列的时间生成器和虽然相关,但先前的工作主要集中在从测试时间的单个图像预测未来意图或从随机噪声生成视频。同时,MoCoGAN [43]显示了使用其公式的图像到视频转换的示例然而,我们的重点是一般的视频到视频的翻译,其中输入视频可以控制输出的精神类似于图像到图像的翻译。为此,我们可以从我们的方法中生成任意长度的高分辨率视频,而之前的工作[39,43]仅生成16帧64 × 64。Recycle-GAN:无监督视频重定向5XYXYXYGXGYXtGXxt+1PXXtGYGYXiyiGYGYys+1PYGXysPXGXys{(xi,y i)}{xt}联系我们{x1:T}{y1:S}(一). Pix2Pix(b). Cycle-GAN(c)。GAN图三. 我们将我们的工作与图像到图像翻译中的两个突出方向进行对比。(a) Pix2Pix[23]:配对数据可用。一个简单的函数(Eq. 1)可以通过回归来学习映射X→Y。(b)Cycle-GAN [53]:在此设置中数据未配对。Zhu等人。[53] 建 议 使 用 循 环 一 致 性 损 失 ( 等 式 3 ) 处 理 不 成 对 数 据 的 问 题 。(c)Recycle-GAN:到目前为止,这些方法仅考虑了独立的2D图像。 假设我们可以访问未配对但有序的流(x1,x2,. ......、 xt,. . . )和( y1,y2…、.、 是的,. . ). 我们提出了一种方法,结合时空约束(方程。(五)。更多详情请参见第3时空&约束:空间和时间信息被认为是指导人类行为的整体感觉组件[12]。存在将这两个约束用于各种计算机视觉任务的广泛文献,例如学习更好的对象检测器[34],动作识别[13]等。在这项工作中,我们采取的第一步,利用时空约束的视频重定向和不成对的图像到图像的翻译。学习协会:计算机视觉的大部分内容都是关于学习关联的,无论是学习高级图像分类[38],对象关系[32]还是逐点对应[2,24,29,31]。然而,在学习关联以对齐不同视频的内容方面的工作相对在这项工作中,我们使用经过时空约束训练的模型,以自我监督的方式对齐两个视频的语义内容,并在没有任何额外监督的情况下自动对齐视觉数据。3方法假设我们希望学习映射GY:X→Y。经典方法调谐Gy以最小化配对数据样本{(xi,yi)}上的重建误差,其中xi∈X和yi∈Y:XminGY我||二、||2.(一)对抗性损失:最近的工作[23,15]已经表明,可以通过用相反的鉴别器D Y对其进行调谐来改进学习的映射。6A. Bansal,S.Ma,D.Ramanan,Y.谢赫被训练以区分y的真实样本与生成的样本GY(x):XXmin maxLg(GY,DY)= logDY(ys)+ log(1−DY(GY(xt),(2)GYDYS t重要的是,我们使用不需要配对数据并且仅需要访问个体样本{xt}和{ys}的公式,其中使用不同的下标来强调配对的缺乏。循环损失:Zhu等人。[53]使用循环一致性[51]来定义当对不可用时的重建损失。通常称为Cycle-GAN(图)。3-b),目标可以写为:XLc(GX,GY)=||xt− GX(GY(xt))||二、(三)不经常性损失:到目前为止,我们已经考虑了静态数据可用时的设置。相反, 假 设 我 们 可 以 访 问 未 配 对 但 有 序 的 流 ( x1 , x2 , . ...... 、xt,. . . )和(y1,y2…、.、 是的,. . ). 我们的激励应用程序正在学习来自不同领域的两个视频之间的映射。一个选项是忽略流索引,并且将数据视为来自X和Y的样本的未配对和无序的集合(例如,学习混洗视频帧之间映射)。我们证明,更好的映射可以通过利用时间排序来学习。为了描述我们的方法,我们首先引入一个递归时间预测器PX,该预测器被训练为在给定流的过去的情况下预测流中的未来样本:XLτ(PX)=||xt+1− PX(x1:t)||第二条、第四条不其中,我们写x1:t=(x1.. . xt)。再循环损失:我们使用这个时间预测模型来定义跨域和时间的新循环损失(图3-c),我们将其称为再循环损失:XLr(GX,GY,PY)=||xt+1− GX(PY(GY(x1:t)||第二条, 第(五)项不其中GY(x1:t)=(GY(x1),. ..,GY(xt))。直觉上,上述丢失需要帧序列映射回自身。我们证明,当从图4中的未配对数据流学习时,这是一个更丰富的约束。Recycle-GAN:我们现在将经常性损失,再循环损失和对抗性损失结合到我们最终的Recycle-GAN公式中:min maxLrg(G,P,D)=Lg(GX,DX)+Lg(GY,DY)+G、PDλrxLr(GX,GY,PY)+ λryLr(GY,GX,PX)+ λτxLτ(PX)+ λτyLτ(PY)。推断:在测试时,给定具有帧{xt}的输入视频,我们想要生成输出视频。最简单的策略是直接使用Recycle-GAN:无监督视频重定向7Input Cycle-GAN Recycle-GAN Ground Truth Input Cycle-GANRecycle-GAN地面实况图4.第一章我们比较了我们的image 2labels和labels 2 image方法与Cycle-GAN [53]在各种环境条件下的Viper数据集[36]的数据上的性能训练GY以生成逐帧视频yt=GY(xt)。可替代地,可以使用时间预测器Py来平滑输出:y=GY(xt)+PY(GY(x1:t−1)),t2其中线性组合可以用非线性函数代替,可能用原始目标函数学习。然而,为了简单起见,我们通过简单的单帧生成来产生输出视频。这使得我们的框架可以应用于测试时的视频和单个图像,并与空间方法进行更公平的比较。实现细节:我们采用来自Cycle-GAN [53]的许多训练细节来训练我们的空间平移模型,并且Pix 2 Pix [23]用于我们的时间预测模型。 生成网络由两个卷积(步长为2的下采样)、六个残差块和最后两个上采样卷积(每个步长为0.5)组成。我们对GX和GY使用相同的网络架构。所有实验的图像分辨率设置为256× 256。鉴别器网络是一个70× 70 PatchGAN[23,53],用于对70× 70图像块进行分类,判断它是真的还是假的。我们设置所有λs= 10。 为了实现我们的时间预测器PX和PY,我们将最后两个帧连接起来作为网络的输入,该网络的架构与U-Net架构相同[23,37]。4实验我们现在研究时空约束对空间循环约束的影响。因为我们的关键技术贡献是在学习未配对图像映射中引入时间约束,所以自然基线是Cycle-GAN [53],这是一种广泛采用的方法,用于单独利用空间循环一致性进行未配对图像平移。我们首先提出了定量的结果域之间的地面实况对应输入和输出8A. Bansal,S.Ma,D.Ramanan,Y.谢赫是已知的(例如,其中每个帧与语义标签图配对的视频)。重要的是,这种对应配对对Cycle-GAN或Recycle-GAN都不可用,而仅用于评估。然后,我们在一组不同的视频上呈现了定性结果,这些视频具有未知的对应关系,包括不同人脸的视频翻译和自然界中发现的时间复杂的事件(鲜花盛开,日出/日落,时间流逝的天气进展)。4.1定量分析我们使用公开的Viper [36]数据集image2labels和labels2image来评估我们的发现。该数据集是使用具有不同现实内容的计算机游戏收集的,并提供密集注释的像素级标签。在由不同环境条件组成的77个不同视频序列中,我们使用57个序列来训练我们的模型和基线。保留的20个序列用于评估。本评价的目标不是实现最先进的性能,而是比较和理解时空循环一致性相对于空间循环一致性的优势[53]。我们为我们的方法选择了对应于最小重建损失的虽然之前的工作[23,53]主要使用Cityscapes数据集[7],但我们无法将其用于评估。首先,Cityscapes中的标记图像不是连续的视频序列,并且连续帧中的信息与初始帧截然不同。因此,使用时间预测器并非微不足道。我们使用Viper作为Cityscapes的代理,因为任务相似,并且该数据集包含密集的视频注释。此外,关于无监督视频到视频翻译的并发工作[3]也使用Viper数据集进行评估。然而,它们仅限于来自日光和步行的序列的一小部分,而我们使用数据集中可用的所有不同的环境条件。标准方法天日落雨雪晚上所有MPCycle-GAN35.838.951.231.827.435.5Escle-GAN(我们的)48.771.060.957.145.256.0ACCycle-GAN7.86.77.47.04.77.1Escle-GAN(我们的)11.912.210.511.16.511.3IOUCycle-GAN4.93.94.94.02.24.2Escle-GAN(我们的)7.99.67.18.24.18.2表1. Image2Labels(语义分割):我们使用Viper [36]数据集来评估使用时空约束时的性能改进,而不是仅使用空间循环一致性[53]。 我们使用三个标准报告结果:(1)。平均像素精度(MP);(2).平均类别准确度(AC);以及⑶。跨节联合(IoU)。我们观察到,我们的方法实现了显着更好的性能比以前的工作在所有条件下的所有标准Recycle-GAN:无监督视频重定向9Image2Labels:在此设置中,我们使用真实世界图像作为生成器的输入,生成器输出分割标签图。 我们计算三个统计量来比较两种方法的输出:(一).平均像素精度(MP);(二)、平均类别准确度(AC);(3).联合上的交集(IoU.这些统计数据是在不同的环境条件下使用保留序列的地面实况计算的。表1对比了我们的方法(Recycle-GAN)与Cycle-GAN的性能。我们观察到,在所有标准和所有条件下,Recycle-GAN都比Cycle-GAN实现了更好的性能。标签2图像:在此设置中,我们使用分割标签图作为生成器的输入,并输出接近真实图像的图像。的目标该评估是为了比较从两种方法获得的输出图像的质量。我们遵循Pix2Pix [23]进行此评估。我们使用每个算法生成的图像与预训练的FCN风格的分割模型。然后,我们计算合成图像对真实图像的性能,以计算归一化的FCN分数。在此准则上的较高性能表明生成的图像更接近真实图像。表2比较了我们的方法与Cycle-GAN的性能。我们观察到,我们的方法实现了整体更好的性能,有时在不同的条件下与Cycle-GAN相比,这项任务的竞争力。图4定性地比较了我们的方法与Cycle-GAN。接近日日落雨夜雪都Cycle-GAN 0.330.270.390.290.37零点半Recycle-GAN(Ours)0.330.510.370.430.40 0.39表2. Labels2Image的标准化FCN评分:我们使用预训练的FCN风格模型来评估使用Viper [36]数据集的真实图像的合成图像的质量。在该标准上的更高性能表明特定方法的输出产生看起来更接近真实图像的图像在这些实验中,我们进行了两个观察:(i)Cycle-GAN在几次初始迭代(仅看到几个示例)内学习了一个我们认为,最小化重建损失单独的输入导致它的一个坏的局部最小值,并有一个组合的时空约束避免了这种行为;(ii)Cycle-GAN学习了Cityscapes的更好的翻译模型,而不是Viper。城市景观由主要来自日光和宜人天气的图像组成这是不一样的,因为它是毒蛇渲染,因此有一个大的和不同的阳光分布和天气条件,如白天,夜晚,雪,雨等。这使得学习良好的映射变得更加困难,因为对于每个标记的输入,潜在地存在许多输出图像。我们发现标准条件GAN在这种情况下会遭受模式崩溃,产生10A. Bansal,S.Ma,D.Ramanan,Y.谢赫约翰·奥利弗致斯蒂芬·科尔伯特斯蒂芬·科尔伯特致约翰·奥利弗约翰·奥利弗的卡通形象巴拉克·奥巴马致唐纳德·特朗普MLK致巴拉克奥巴马图五. 面对面:最上面一行显示了John Oliver和Stephen Colbert使用我们的方法进行面对面交流的多个示例。下面一行显示了从约翰·奥利弗到卡通人物、从巴拉克·奥巴马到唐纳德·特朗普和从马丁·路德·金到马丁·路德·金的翻译示例。(MLK)巴拉克·奥巴马。在没有任何输入对齐或人工监督的情况下,我们的方法可以捕获公共图形的风格表达。作为一个新的例子,约翰·奥利维尔在微笑时的设计,具有唐纳德·特朗普的嘴部特征,以及斯蒂芬·科尔伯特的面部嘴部线条和微笑。更多的结果和视频可以在我们的项目网页上找到。“一个版本”输出(如由pri或w或k [ 2 ]所指出的)。我们的实验表明,时空约束有助于改善这种具有挑战性的翻译问题。4.2定性分析面对面:我们使用各种公众人物的公开视频进行面对面翻译任务。使用OpenPose Library[6]生成的面部关键点提取面部,并进行少量手动操作以消除误报。图5示出了John Oliver和Stephen Colbert、Barack Obama到Donald Trump以及Martin Luther King Jr之间的面对面翻译的示例。(MLK)巴拉克·奥巴马和约翰·奥利弗的卡通人物。请注意,在没有任何额外的监督信号或手动对齐的情况下,我们的方法可以学习进行面对面的翻译并捕获这些人物的风格表达,例如John Oliver在微笑时脸上的酒窝,Donald Trump的嘴的特征形状,Bill Clinton的面部表情以及StephenColbert的嘴线。花与花:从面孔和其他传统的翻译延伸,我们展示了我们的花的方法。我们使用各种花,并从公开的视频中提取它们的延时时间流逝显示了不同花朵的盛开,但没有任何同步。我们用我们的方法来调整内容,即两花同开同谢。图6显示了我们的视频重定向输入输出输出输入Recycle-GAN:无监督视频重定向11见图6。花与花:我们展示了两个花到花翻译的例子。注意从左到右的平滑过渡。这些结果可以通过我们项目网页上的视频进行最佳可视化。方法可以被看作是一种学习不同花卉生活事件之间关联的方法。4.3通过重定向进行云&风合成:我们的方法可以用来合成一个新的视频,具有所需的环境条件,如云和风,而不需要重新捕获的物理努力。我们使用给定的视频和视频数据从所需的环境条件作为两个域在我们的实验。然后使用条件视频和训练的翻译模型来生成所需的输出。对于这个实验,我们收集了各种风和云条件下的视频数据,例如平静的日子或刮风的日子。使用我们的方法,我们可以将平静的一天转换为有风的一天,有风的一天转换为平静的一天,而不会改变这个地方的美学。图7中所示的是在一个地方的多风天合成云和风的示例,其中唯一可用的信息是在具有微风的同一地方捕获的视频。在我们的项目网页上有更多的云和风合成的视频。日出日落:我们从各种网络视频中提取了日出和日落数据,并展示了我们的方法如何用于视频操作和内容对齐。这与我们在云和风合成实验中的设置类似。图8示出了通过在日出视频上调节原始日落视频来从原始日落视频我们还展示了各种日出和日落场景的对齐示例。输出输入输出输入12A. Bansal,S.Ma,D.Ramanan,Y.谢赫拍摄于微风轻拂的一天大风天的视频数据一个刮风天的合成视频见图7。合成云和风:我们使用我们的方法来合成云和风。顶行示出了在有微风的一天捕获的视频的示例帧我们通过使用我们的方法学习两个域之间的转换,最后一行显示了输出的合成视频,其中云和树移动得更快(给出了风吹的概念)。请参考我们项目网页上的视频,以获得更好的可视化和更多示例。注:我们请读者参阅我们的项目网页,了解使用我们的方法合成的不同视频,并通过在生成对抗公式中结合循环损失和循环损失来扩展我们利用2D图像和视频的工作4.4人类研究我们根据MoCoGAN [43]的协议对合成输出进行了人体研究,特别是面部和花朵,他们也评估了视频。然而,我们的分析包括三个部分:(一).在第一项研究中,我们分别向15名被隔离的人类受试者展示了来自Cycle-GAN和我们的合成视频28.第28章. 3%的时间从我们的方法生成的视频是真实的,和7。Cycle-GAN的3%倍(二)、在第二项研究中,我们同时展示了Cycle-GAN和我们的方法合成的视频,并要求他们说出哪一个看起来更自然和逼真。人类受试者选择我们的方法合成的(三)、在最后的研究中,我们展示了视频到视频的翻译。这是(2)的扩展,除了现在我们还包括输入和询问,这看起来更真实和自然的翻译。我们将每个视频展示给15名人类受试者。人类受试者选择我们的方法74。7%乘以133%的人选择了Cycle-GAN,12%的人感到困惑。从人类研究中,我们可以清楚地看到,结合空间和时间约束会导致更好的重定向。输出条件原始Recycle-GAN:无监督视频重定向13日落的原始视频日出视频数据日出合成视频对齐内容的输入输出对见图8。日出日落:我们使用我们的方法来操纵和对齐日出和日落的视频。顶行示出了来自日落视频的示例帧。我们通过使用我们的方法学习两个域之间的变换来将其条件化在日出的视频数据上(在第二行中示出)第三行示出了日出的新合成视频的示例帧。最后,最后一行显示了来自不同日出和日落视频的输入-输出对视频和更多的例子可以在我们的项目网页。4.5失败示例:学习数据分布之外的关联我们展示了一个从真正的鸟到折纸鸟的转换的例子,以证明我们的方法未能学习的关联的情况下。真实的鸟类数据是使用网络视频提取的,我们使用了Kholgade等人合成的折纸鸟。[25 ]第20段。图9所示为以真鸟为条件的折纸鸟的合成。当真正的鸟坐着时,折纸鸟停留并试图模仿真正的鸟的动作。问题是当鸟开始飞的时候。鸟开始飞的初始帧是好的。过了一段时间,折纸鸟又出现了。从协会的角度来看,折纸鸟应该不会再次出现。回顾训练数据,我们发现原始的折纸鸟数据没有没有折纸鸟的帧的例子,因此当真正的鸟不再可见时,我们的方法无法关联例子。也许,我们的方法只能学习在给定的数据分布上进行插值,而无法捕获任何超出它的东西。解决这个问题的一种可能的方法是通过使用大量的训练数据,使得数据分布封装了所有可能的场景,并且可以导致有效的插值。条件输出输入14A. Bansal,S.Ma,D.Ramanan,Y.谢赫见图9。故障示例:我们提出了失败的协会/合成我们的方法,使用从一个真正的鸟折纸鸟的转变。而折纸鸟(输出)在它坐着时试图模仿真鸟(输入)(列1 - 4),并且当真鸟飞行时也飞走(列5 - 6)。 我们观察到,它在飞行模式中的某个时间后(列7中的红色边界框)重新出现,而真正的鸟没有在输入中出现。当真正的鸟是完全不可见的时候,我们的一个算法不可能实现一个随机的飞行折纸,所以它生成了一个随机的飞行折纸。5讨论今后的工作在这项工作中,我们探讨了时空约束在学习视频重定向和图像翻译的影响。不成对的视频/图像翻译是一项具有挑战性的任务,因为它是无监督的,缺乏来自输入和输出空间的训练样本之间的任何对应关系我们指出,许多自然的视觉信号本质上是时空的,这提供了强大的时间约束,免费帮助学习这样的映射。这导致显著更好的映射。我们还指出,未配对和无监督的视频重定向和图像翻译是一个约束不足的问题,因此使用视觉数据本身的辅助任务(如用于其他视觉任务[33,50])的更多约束可以帮助学习更好的转换模型。Recycle-GAN学习映射函数和递归时间预测器。到目前为止,我们的结果只使用映射函数,以便于公平的比较与以前的工作。但是,它是自然的合成目标视频,通过使用这两个单图像的翻译模型和时间预测。另外,可以通过使用时空生成模型来更精确地并入视频重定向中的风格的概念,因为这将允许甚至学习所生成的输出的速度。例如,两个人可能有不同的内容交付方式,并且一个人可能比其他人花费更长的时间来说同样的事情。风格的真正概念应该能够在用于交付语音/内容的时间量上产生我们相信,更好的时空神经网络架构可以尝试在不久的将来这个问题。最后,我们的工作也可以利用黄等人的并发方法。[22]学习一对多翻译模型。输出输入Recycle-GAN:无监督视频重定向15引用1. Bansal,A.,Russell,B. Gupta,A.:Marr Revisited:通过表面法线预测的2D-3D模型对齐。见:CVPR(2016)2. Bansal,A.,Sheikh,Y.,Ramanan,D.:PixelNN:基于示例的图像合成。In:ICLR(2018)3. Bashkirova,D.,Usman,B.,Saenko,K.:无监督视频到视频翻译。CoRR abs/1806.03698(2018)4. Brand,M.,Hertzmann,A.:时尚机器。ACM Trans.Graph. (2000年)5. Cao,C.,Hou,Q.,Zhou,K.:用于实时面部跟踪和动画的位移动态表情回归ACM事务处理图表(2014年)6. Cao,Z.,Simon,T.Wei,S.E.,Sheikh,Y.:利用局部仿射场进行实时多人二维姿态估计在:CVPR(2017)7. Cordts,M.,Omran,M.,Ramos,S.,Rehfeld,T.,Enzweiler,M.,Benenson河弗兰克,美国,Roth,S.,Schiele,B.:用于语义城市场景理解的cityscapes数据集见:CVPR(2016)8. Denton,E.L.,Chintala,S.,Szlam,A.,Fergus,R.:使用对抗网络的拉普拉斯金字塔的深度生成图像模型In:NIPS(2015)9. Eigen,D. Fergus,R.:预测深度、曲面法线和语义标签一种常见的多尺度卷积架构。In:ICCV(2015)10. 弗里曼,W. T.,Tenenbaum,J.B.:学习视觉中双因素问题In:CVPR(1997)11. 洛杉矶的加蒂斯Ecker,A.S. Bethge,M.:使用卷积神经网络的图像风格转换。见:CVPR(2016)12. 吉布森,J.J.:视觉感知的生态学方法(一九七九年)13. Girdhar河Ramanan,D.Gupta,A.,Sivic,J.,Russell,B.:ActionVLAD:学习动作分类的时空聚合。在:CVPR(2017)14. 戈达尔角Mac Aodha,O.,Brostow,G.J.:具有左右一致性的无监督单目深度估计。在:CVPR(2017)15. Goodfellow,I.J. Pouget-Abadie,J. Mirza,M.,徐,B.,沃德-法利,D.,Ozair,S.,南卡罗来纳州考维尔Bengio,Y.:生成对抗网络。在:NIPS(2014)16. 他,J.,Lehrmann,A.,Marino,J.,Mori,G.,Sigal,L.:使用整体属性控制的概率视频生成。In:ECCV(2018)17. Hertzmann,A.,Jacobs,C.E.Oliver,N.Curless,B.,销售部,D.H.:形象类比。ACM事务处理图表(2001年)18. Hoffman,J.,Tzeng,E.,Park,T. Zhu,J.,Isola,P.,Saenko,K.埃夫罗斯,匿名戒酒会达雷尔,T.:苏铁:周期一致的对抗域适应。在:ICML(2018)19. H SUE 普利,K., J. :为人类哺乳动物提供了一种新的生存方式。ACMTrans. Graph. (2005年)20. Huang,Q.X.,Guibas,L.:基于半定规划的一致形状映射。在:Eurographics Symposium on Geometry Processing(2013)21. 黄,X.,李,Y.,Poursaeed,O.,Hopcroft,J.E.,Belongie,S.J.:堆叠生成对抗网络。在:CVPR(2017)22. 黄,X.,Liu,M.Y. Belongie,S.,Kautz,J.:多模态无监督图像到图像翻译。In:ECCV(2018)23. Isola,P.,Zhu,J.Y.,周,T.,Efros,A.A.:使用条件对抗网络的图像到图像翻译。在:CVPR(2017)24. Kanazawa,A.,Jacobs,D.W. Chandraker,M.:Warpnet:用于单视图重建的弱监督匹配。见:CVPR(2016)16A. Bansal,S.Ma,D.Ramanan,Y.谢赫25. Kholgade,N.Simon,T.Efros,A.,Sheikh,Y.:使用库存3d模型在单个照片中的3d对象操纵ACM事务处理图表(2014年)26. 金,T.,Cha,M.,Kim,H. Lee,J.K.,Kim,J.:学习发现跨域关系与生成对抗网络。在:ICML(2017)27. 金玛,D.P.,Welling,M.:自动编码变分贝叶斯。ArXiv预印本arXiv:1312.6114(2013)28. 莱迪格角泰斯湖胡萨尔,F.卡瓦列罗,J.,Aitken,A.P.,Tejani,A.,托茨,J.,王志,Shi,W.:使用生成对抗网络的照片逼真的单图像超分辨率在:CVPR(2017)29. 刘,C.,Yuen,J.,Torralba,A.:筛流:场景间的密集对应及其应用。IEEE Trans.模式分析马赫内特尔(2011年)30. 朗J Shelhamer,E.,达雷尔,T.:用于语义分割的完全卷积模型。参见:CVPR(2015)31. 朗JZhang,N.,达雷尔,T.:Convnets学习通信吗在:NIPS(2014)32. Malisiewicz,T.,Efros,A.A.:超越类别:用于推理对象关系的可视化memex模型。03 The Dog(2009)33. Meister,S.,Hur,J.,Roth,S.:UnFlow:具有双向普查损失的光流的无监督学习。In:AAAI(2018)34. 米斯拉岛Shrivastava,A.,Hebert,M.:观看并学习:从视频中进行对象检测器的半监督学习。参见:CVPR(2015)35. Radford,A.梅斯湖Chintala,S.:使用深度卷积生成对抗网络进行无监督表示学习CoRR abs/1511.06434(2015)36. Richter,S.R.,Hayder,Z.,Koltun,V.:为基准而战。国际计算机视觉会议(ICCV)(2017)37. Ronneberger,O.,Fischer,P.,Brox,T.:U-网:用于生物医学图像分割的卷积网络电影:MICCAI(2015)38. Russakovsky,O.,Deng,J.,Su,H.,Krause,J.,Satheesh,S.,妈妈,S.,黄志,Karpathy,A.,Khosla,A. Bernstein,M. Berg,A.C.,李菲菲:ImageNet大规模视觉识别挑战。IJCV(2015)39. Saito,M.,Matsumoto,E.,Saito,S.:具有奇异值裁剪的时间生成对抗网。In:ICCV(2017)40. Shrivastava,A.,Pfister,T.,Tuzel,O.,Susskind,J.,王伟,Webb,R.:通过对抗训练从模拟和无监督图像中学习。在:CVPR(2017)41. Thies,J. Zollhofer ,M.,Niessner, M.,瓦尔加湖, Stamminger,M.,Theobalt,C.:实时表情转移,用于面部再现。ACM Trans.Graph. (2015年)42. Thies,J. Zollhofer,M.,Stamminger,M.,Theobalt,C. Niessner,M.:Face2face:实时人脸捕捉和rgb视频重现。见:CVPR(2016)43. Tulyakov,S.,Liu,M.Y.杨,X.,Kautz,J.:Mocogan:分解运动和内容以生成视频。来源:CVPR(2018)44. 维勒加斯河杨杰,Zou,Y.,中国科学院,Sohn,S.,林,X.,Lee,H.:学习通过分层预测生成长期未来。在:ICML(2017)45. Walker,J.,Doersch,C. Gupta,A.,Hebert,M.:不确定的未
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功