没有合适的资源?快使用搜索试试~ 我知道了~
3495FaceOff:一个视频到视频的人脸交换系统Aditya AgarwalHyderabadaditya.ag邮件research.iiit.ac.in比帕莎·森·阿提哈德·海得拉巴bipasha. research.iiit.ac.inRudrabhaMukhopadhyayradrabha@research.iiit.ac.in巴斯大学vpn22@bath.ac.ukC V JawaharIIIT海得拉巴jawahar@iiit.ac.in图1:我们介绍了视频到视频(V2V)人脸交换,这是一种新颖的人脸交换任务,旨在将源人脸视频中的身份和表情交换到目标人脸视频中。这与旨在交换身份的面部交换任务不同V2V换脸有许多下游应用,例如自动化演员在电影场景中更换替身的过程,这在今天是使用昂贵的CGI技术手动处理的在这个例子中,演员Nolan(源视频)在他家方便的时候录制了他的对话和表情乔伊·特里比亚尼(目标视频)在著名的情景喜剧《朋友》中扮演他的替身FaceOff将Nolan的脸交换到场景中。请注意放大的源代码(黄色框)和面部交换(红色框)输出。在该输出中,尽管源面部姿势和肤色已经改变并且与背景混合,但是身份和表情被保留。摘要替身演员在电影产业中扮演着不可或缺的角色.他们在危险的特技场面或同一个演员扮演多个角色的场景中替身的脸后来被替换成演员的脸和表情,人工使用昂贵的CGI技术,花费数百万美元,需要数月才能完成。一种自动化的、廉价的和快速的方式可以是使用面部交换技术,该面部交换技术旨在将身份从源面部视频(或图像)交换到目标面部视频。然而,这样的方法不能保留对场景的上下文重要的演员*同等贡献为了应对这一挑战,我们引入了视频到视频(V2V)面部交换,这是一种新颖的面部交换任务,可以保留(1)源(演员)面部视频的身份和表情以及(2)目标(双重)视频的背景和姿势。我们提出了FaceOff,一个V2V人脸交换系统,它通过学习一个强大的混合操作来合并两个人脸视频。它将视频压缩到一个量化的潜在空间,然后在压缩的空间中混合它们。FaceOff以自我监督的方式进行训练,并强大地应对V2V面部交换的重要挑战。如实验部分所示,FaceOff在定性和定量上显著优于349612 3451. 介绍电影演员的替身是电影制作中不可缺少的组成部分。替身演员可以代替演员在特技场面涉及困难和危险的生命危险的他们甚至可以在常规填充场景或多次重拍中代替演员。例如,《社交网络》广泛使用替身演员阿米·哈默(Armie Hammer)扮演双胞胎兄弟的多个角色。在这样的场景中,替身的脸后来被演员的脸和使用CGI技术的表情所取代,这需要数百小时的人工多媒体编辑,耗费数百万美元,耗时数月才能完成。因此,制作团队通常被迫通过改变场景的机制来避免这样的这可能会限制导演然而,这种调整并不总是可能的。另一个不同的场景是后期制作场景修改。如果在后期制作中发现对话比原始场景更适合场景,则整个场景将重置并重新拍摄。我们建议演员可以在录音室录制,并将他们的脸叠加在先前的录音上。事实上,和其他行业一样,电影业也朝着演员可以在家工作的方向发展。在今天的时代,CGI技术可以产生令人难以置信的人体结构,场景和逼真的图形。然而,众所周知,他们努力创造逼真的皮肤。如图第一,演员可以从舒适的家中或工作室中借用他们的身份和表达,而将繁重的工作留给图形或双打。这些任务所需的CGI技术是手动操作的,昂贵且耗时。为了使这些任务自动化,可以考虑快速且廉价的基于计算机视觉的面部交换[17,23,15,14,11,1]技术,其旨在在源(演员)视频和目标(双重)视频之间交换身份。但是,这些技术不能直接使用。人脸交换仅交换源身份,同时保留目标视频的其余特征。在这种情况下,演员的表达(源)不会在输出中捕获。为了解决这个问题,我们引入了(2)保持目标人脸视频的姿态和背景。目标姿态是必不可少的,因为它取决于场景例如,在一个示例中,一个特技演员在一个户外场地表演-1https://en.wikipedia.org/wiki/Double(电影制作)美国队长-史金尼·史帝夫·罗杰斯(英语:Skinny Steve RogersBehind the Scene)3CGI如何使科迪和迦勒作为保罗沃克- VFX4Armie Hammer与机器或说话的同胞双;演员在演播室的绿幕前表演。在这里,替身怎么会是视频对视频的换脸任务呢?与将固定身份组件从一个视频交换到另一个视频的面部交换任务不同,V2V面部交换将随时间变化的表情(一个视频)与具有变化的姿势和背景的另一个视频(另一个视频)交换,使我们的任务视频到视频。方法:在视频中交换面部并不简单,因为它涉及到合并两个不同的运动-演员这需要一个网络,它可以将两个不同的运动作为输入,并产生第三个相干运动。我们提出了FaceOff,视频到视频的人脸交换系统,减少了人脸视频的量化潜在空间,并将它们融合在减少的空间。 训练这样一个网络的一个根本挑战是缺乏基本事实。面部交换方法[23,15,17]使用鉴别器生成器设置来训练网络。该稳压器是负责监测交换输出所需的特性然而,使用一个镜像会导致幻觉的输出组件不同于输入-例如,修改身份或新的表达式。因此,我们设计了一个自我监督的训练策略来训练我们的网络:我们使用单个视频作为源和目标。然后,我们在源视频上引入伪运动误差。最后,我们训练一个网络来FaceOff可以在推理时直接交换看不见的交叉身份,而无需任何微调。此外,与大多数需要在高端GPU上进行5分钟到24小时推理时间优化的换脸方法不同,FaceOff只需向前传递一次就可以交换视频,耗时不到一秒。FaceOff的一个关键特性是它至少保留了一个输入表达式(在我们的例子中是源),而正如我们后面所展示的,现有的方法无法保留任何一个表达式(源或 目 标表 达 式 ) 。最 后 ,我 们 策 划 和基 准 测 试V2VFaceSwap,这是一个V2V面部交换测试数据集,由来自不受约束的YouTube视频的实例组成,这些视频涉及不可见的身份,背景和照明条件。我们在这项工作中的贡献如下:(一)我们介绍了V2V人脸交换,这是一种新颖的人脸交换任务,旨在交换源人脸身份和表情,同时保留目标背景和姿势。(2)我们建议FaceOff:一个以自我监督的方式训练的V2V人脸交换系统。FaceOff通过合并两个不同的人脸视频来生成连贯的视频。(3)我们的方法直接在推理时对不可见的身份进行处理,而不需要任何微调。(4)我们的方法不需要任何推理时间优化,需要不到一秒的时间。3497×6方法源目标身份表达构成背景换脸✓×✓✓人脸再现×✓×✓面编辑××✓✓FaceOff(我们的)✓✓✓✓表1:FaceOff与现有任务的比较。如果特征被保留和丢失,请分别说明。FaceOff解决了保存源代码的独特任务身份和表达,这是以前没有解决过的。然后推断。(5)我们发布了V2VFaceSwap测试数据集,并为V2V人脸交换任务建立了基准2. 相关工作表1提供了现有任务和FaceOff之间的比较FaceOff旨在解决V2V面对面交换的独特挑战,这是以前从未解决过的。人脸交换:多年来,在图像和视频中交换人脸已经得到了很好的研究[17,15,23,2,10,11,14,1,3]。这些工作旨在将从源视频(或图像)获得的身份与具有不同身份的目标DeepFakes,DeepFaceLabs [17]和FSGAN [15]交换源的整个身份;Motion-coseg [23]专门交换给定源图像的单个/多个片段的身份到目标视频与这些仅交换身份或图像的特定部分的方法不同,我们交换随时间变化的表达式以及源的身份。此外,FSGAN需要5分钟的推理时间优化,DeepFace-Labs和DeepFakes在高端GPU上需要长达24小时的推理时间优化。FaceOff只需要不到一秒钟的时间就可以在野外交换看不见的身份视频面部操作:面部操作根据给定的先验[30,24,22,31,17,33,25,35]动画化目标图像/视频的姿势和表情。在音频方面-驱动的说话面部生成[18,19,12,34,25,21,7],目标视频中的表情、姿势和对口型以给定的输入语音音频为条件。不像这样的作品,我们不假设我们的方法的音频先验。根据驾驶视频[26,21,27,9,22,24],不同方向的面部再现在这些作品中,身份没有交换这可以解决我们的任务的一个特殊情况-当目标和源具有相同的身份时。在此,可以根据源视频实例来再现目标图像。正如我们在第4.2节中所展示的那样,FaceOff捕捉了驾驶视频的微观表情,与现有6https://github.com/deepfakes/faceswap方法。这是因为我们依赖于一种混合机制-允许驾驶表情的完美转移处理这种特殊情况的另一个方向是面部编辑,其涉及编辑面部视频的表情使用该方法,可以根据源表达式直接编辑目标视频。基于图像的人脸编辑工作,如[8,4,5,13]已经获得了相当大的关注。然而,在不对时间动态建模的情况下在帧序列上实现这些编辑通常导致时间上不相干的视频。最近,STIT[28]被提出,可以通过在视频的潜在空间中应用仔细的编辑来连贯地编辑给定的视频到不同的表达。尽管取得了成功,但这些技术对表达类型和变异的控制有限。此外,获得与源表达式匹配的正确目标表达式是手动命中和尝试。FaceOff可以添加标签空间中未定义的微表情,只需将来自同一身份的不同视频的情感与所需表情混合即可。3. FaceOff:视频我们的目标是将源人脸视频与目标人脸视频交换,使得(1)源视频的身份和表情被保留,以及(2)目标视频的姿势和背景被保留。 为了做到这一点,我们学习将源人脸视频的前景与目标人脸视频的背景和姿势混合(如图所示)。3)使得混合输出是连贯的和有意义的。这是不平凡的,因为它涉及合并两个单独的运动。请注意,我们的目标只是混合这两种运动;因此,所需的输入特征--身份、表情、姿态和背景--自然地从输入中保留,而无需额外的监督。主要的挑战是对齐前景和背景视频,以便输出形成一致的身份,并具有单一的一致姿态。所有其他特征都是从输入中重建的。我们的核心思想是使用时间自动编码模型,该模型使用量化的潜在空间合并这些运动。总的来说,我们的方法依赖于(1)将两个输入运动编码到量化的潜在空间,并在缩减的空间中学习鲁棒的混合操作。(2)时间和空间相干解码。(3)在没有真实情况的情况下,一个自我监督的训练计划。3.1. 使用量化的潜伏期我们将视频中的人脸交换作为一个混合问题:给定两个视频作为输入,将视频混合成一个连贯且有意义的输出。我们依靠编码器将输入视频编码到有意义的潜在空间。我们的整体网络是一个特殊的自动编码器,它可以学习在潜在空间中稳健地混合减少的视频,并生成混合输出。我们仔细选择编码器模型,专注于3498×××图2:FaceOff是一个在分层量化潜在空间中运行的时间自动编码器。我们使用一个自我监督的训练方案来训练FaceOff,使用精确的输出-地面真值对的距离损失。在该方案中,我们首先从单个视频s中提取人脸f和背景b。然后,我们应用接下来,修改的f(充当源)和b(充当目标)在每个对应的帧信道上级联以形成单个视频输入。然后,该视频输入被减少和混合,生成连贯和有意义的输出。此输出应与源视频匹配。图3:推理管道:FaceOff可以直接应用于任何看不见的身份,而无需任何微调。在推断时,首先使用目标面部界标逐帧地对准源视频。FaceOff然后将(1)对齐的源视频的前景和(2)目标视频的背景和姿态作为输入并生成输出。整体数据分布。具有连续潜在空间的编码器网络减少给定输入的维度,通常减少到可以被认为是底层分布的一部分的单个向量。该潜在向量是高度随机的;对于每个新的输入,产生非常不同的潜伏,从而引入解码器需要处理的高变化。最近,在[16,6,20]中提出了“矢量量化”。量化通过固定可能的潜在代码的数量来然而,保留- ING使用一个单一的量化潜在的矢量,TOR的输入属性是不可能的。因此,输入被减少到更高维的量化空间(诸如64 × 64),使得完全重构所需的输入的属性被简化。保存。我们采用这样的编码器在我们提出的自动编码器编码我们的视频。如图2,我们的编码器是一个修改的VQVAE2 [20]编码器,它编码视频而不是图像。我们引入由非线性3D卷积运算组成的时间模块来实现这一点。我们的编码器的输入是一个单一的视频,通过连接源前 景和目 标背 景帧通 道方式 ,如 图所示 。3.像VQVAE2,我们的编码器首先编码的级联视频输入帧到32 32和64 64维的顶部和底部的层次结构,分别。在每个层次的量化步骤之前,我们的时间模块被添加,用于处理减少的视频帧。该步骤允许网络利用帧之间的时间连接进行反向传播。然后,使用标准VQVAE2解码器再次逐帧进行进一步处理。在实践中,我们观察到,这个时间模块在产生时间相干输出中起着重要的作用,正如我们通过第二节中的消融所示五、我们的特殊autoencoder不同于标准autoencoders在损失计算步骤。代替重建输入,六通道视频输入一一前三个通道属于源前景,最后三个因此,损失计算在地面实况三通道视频和三通道视频输出之间。3.2. 自我监督训练法现有的人脸交换方法使用生成器和鉴别器来训练他们的网络。这些区分符是分类器,指示底部编码(B * T)x 3 x H xW时间模块VQVAE2顶级编码时间模块编码器损失翻译|旋转|颜色变换|畸变(B * T)x 6 x H xW对峙XN解码器量化提取物背景和姿势对峙目标变换图像提取面外壳源预处理模块预测Lanmark检测通道式连续对齐地标通道式连续2D CNN编码器B x TB x TB * TB * T3D CNNReLU前3个通道3499∈∈∈∈∈∈∈N我SI我不是SKtkSΣ不图4:现有的面部交换方法[17,23,15]使用生成器-训练策略。这将导致输出具有新表达式,如第2节所述3.2. 我们在DeepFaceLabs上展示了这种现象[17]。输出(红框)中的表达式与输入、源或目标都不匹配。例如,在一个示例中,眼睛注视的方向(第二行)或整体笑表情(第一行)。FaceOff-完全保留源表达式(绿色框)。生成器的输出和底层数据分布,如标识或表达式分布。在这样的设置中,生成器被鼓励对输出的某些方面进行幻觉,以匹配CPU我们在图中显示了这种现象。4.硬距离损失(例如,可以使用指示精确的输出-地面实况关系的距离(例如,欧几里得距离)在V2V面交换中,保持精确的源表达式是必不可少的。因此,我们通过设计一个自我监督的训练方案,使用距离损失来训练我们的网络,该方案迫使网络重新构建给定输入视频的去噪版本。为了理解训练方案,我们首先看看我们在尝试天真地混合两个运动时遇到的挑战。首先,在源视频和目标视频中的面部之间存在全局和局部姿态差异我们通过使用面部标志根据目标姿势对齐(旋转,平移和缩放)源姿势来修复全局姿势差异,如图所示。3.然而,这种方式无法克服局部姿态差异,并且我们观察到跨帧的时间不相干性。接下来,我们观察前景和背景颜色的差异(照明,色调,饱和度和对比度)。因此,我们通过在训练过程中重现这些错误来训练我们的网络来解决这些已知的问题。如示于图2、我们用以下方式训练我们的模型:(1)拍摄一段视频,比如说s。(2)从s中提取面部区域,比如f;以及背景区域,比如b。(3)引入伪错误(旋转、颜色、规模等)在F。(4)通过级联构造输入v在每个对应帧处逐信道地执行f和b。(5)训练网络从v构造s。虽然我们在自监督方案中使用相同的身份来训练网络,但它可以在推理时直接交换看不见的身份,而无需任何微调。3.3. 在训练中再现推理错误给定两个说话的头部视频,分别由S和T表示的源和目标,我们的目标是生成保留(1)来自S的身份和情感以及(2)来自T的姿势和背景的输出。我们假设S和T中的帧的数量(由N表示)相等。给定两个帧,siS和tiT,使得i= 1. 我们记为fsiFS和BTIBt分别作为s i和t i的形成背景和背景。给定Fs和Bt作为输入,网络解决了以下问题:首先,网络遇到fsi和bti之间的局部姿态差异。 该姿态差异可以使 用 精 细 变 换 函 数 来 固 定 : δ ( fsi , bti ) =m(rfsi+d)+m(rbti+d),其中m、r和d表示缩放、旋转和平移。 面部为非刚体;仿射变换仅导致两个面部在姿势上完美匹配但在形状上不匹配。我们可以想象一下,试图把一个正方形放入一个圆中。 首先需要一个非线性函数将正方形转换为类似于圆形的形状,以便它们适合。 我们将这种非线性变换表示为可学习函数ω(fsi,bti)。 由于是 非线性的,只要两个面都适合,网络就可以对输入帧执行这种变换。 可以使用距离损失来约束这些变换,以鼓励生成有意义的帧的空间一致的变换。然而,这些空间上一致的变换在整个视频上可能是时间上不相干的。这将导致视频中的人脸抖动,如第二节所示。五、因此,我们将变换约束为ω (fsi, bti,fsk ,btk),其中k=1。N,则kI. 这里,当前帧上的变换受到视频中所有其他帧上的变换的约束。这是由时间模块实现的,如第2节所述第3.1条最后,网络遇到fsi和bti之间的颜色差异,其被固定为c(fsi,bti)。如图2、训练时S=T。对于每个帧siS,我们首先提取前景fsi Fs(充当源)和背景btiBt(作为目标)从si。接下来,我们对fsi应用随机旋转、平移、缩放、颜色和失真(Barrel、Mustache)误差。然后,将训练设置公式化为:Φ:δ(δ,ω,c)(1)1NJ=[s−Φ(f,b,f, b)] +P(F,B)(2)i=13500××图5:“推理成本”表示单次换脸所需的时间。FSGAN的推理成本为400FaceOffDeepFakes和DeepFaceLabs成功交换了身份,但效率比FaceOff低9000。FaceOff完美地交换了源身份和表情。其他方法都不能交换源表达式。方法定量评价人工评价SPIDis ↓LMD ↓TL-ID↑TG-ID ↑FVD↓身份↑Exps ↑仙女↑运动-coseg [23]0的情况。480的情况。590的情况。8720的情况。893293. 652六、82五、817 .第一次会议。44FSGAN [15]0的情况。490的情况。570的情况。9140的情况。923二百四十二6917 .第一次会议。84六、838. 31FaceOff(我们的)0的情况。380的情况。410的情况。9250的情况。915255 9809 .第九条。649 .第九条。868. 18表2:V2VFaceSwap数据集上的定量指标 DeepFakes和DeepFaceLabs需要长达24小时才能对单次面部交换进行最佳推断[17];所以我们不跟他们比。用于比较的指标在第二节中解释。4.为了公平比较,FSGAN分数在没有任何推理时间优化的情况下报告。虽然FSGAN有一个稍微好一点的FVD和自然度(Numbers)。分数,它无法完全交换身份,这可以从SPIDis,LMD和身份度量中清楚地看到。此外,FSGAN和FaceOff的FVD差异在感知上没有统计学意义[29]。其中k是一个可学习的函数,J是要最小化的网络的总成本,P是一个感知度量(在我们的例子中是LPIPS[32]),k= 1。. . N,使得k=i。4. 实验和结果在本节中,我们试图回答以下问题:(1)与其他方法相比,我们能在多大程度上保持源身份(2)我们在多大程度上保留了输入视频的表情?(3)与其他技术相比,FaceOff的效率如何?我们将FaceOff与不同的任务进行比较:“换脸”,“换脸”。请注意,这些方法都不能完全解决我们想要解决的V2V换脸具体而言,V2V面部交换旨在(1)交换源身份和表情,以及(2)保留目标姿势和背景。定量分析:(1)S-P预测I恒等式3501距离(SPIDis):计算人脸图像之间的身份差异。 它被计算为使用dlib的人脸检测模块生成的人脸嵌入之间 的 欧 几 里 得 距 离 。 ( 2 ) 如[29] 中 所 提 出 的 ,Fre'chetVideoDistance ( FVD ) ( 3 ) L 和 标 记 距 离(LMD):评估源和交换输出的整体面部结构和表情。为了计算LMD,将源和交换的面部标志归一化:首先将面部居中,然后围绕x轴旋转,使得眼睛坐标之间的质心和角度对准平均图像。接下来,将面部缩放到平均图像。标准化的交换视频地标和源视频地标之间的欧几里得距离给出LMD。我们计算LMD之间的源和输出的脸前,(不包括面部permiter的地标(4)临时局部(TL-ID)和临时全局(TG-ID)ID实体保存: 在[28]中提出。他们3502−∼∼图6:FaceOff的定性结果。请注意,在所有情况下,源表达式和目标表达式都存在显著差异。FaceOff交换源表情(嘴、眼睛等)和身份;并保留目标姿态和背景。在本地和全局级别上评估视频对于这两个度量,得分1将指示该方法成功地保持了原始视频的身份一致性。定性分析:对于(1)身份:交换输出身份与源身份的相似程度如何?(2)表达式(Exps.):交换输出 表 达 式 与 源 表 达 式 有 多 相 似 ? , (3 ) 自 然 性(Nuralness)。:生成的输出是否自然?实验数据集:我们对V2VFaceSwap数据集进行了基准测试,该数据集由不受约束的YouTube视频组成,具有许多不可见的身份,背景和照明条件。补充文件报告了有关数据集和评价设置的更多详细信息。4.1. 换脸结果图5和表2分别呈现了现有方法和FaceOff之间的定性和定量比较图6展示了FaceOff如图5、FaceOff成功--完全交换源人脸视频的身份和表情。现有方法不能交换源表达式,这表明FaceOff解决了V2V面部交换的独特挑战。我们的实验的一个有趣的发现是,现有的方法不保留任何输入表达式-源或目标-在输出和生成新的表达式,例如,新颖的注视方向或嘴部运动。这一现象在图中也得到了证实。4. FSGAN和Motion-Coseg无法完全交换身份。这一点通过量化得到了进一步证实-图7:面部操作的定性演示。可以看出,除了FaceOff之外,没有一种方法完美地保留源表情或姿势信息表2中的指标。FaceOff在SPIDis和LMD上比FSGAN提高了22%和28%FSGAN实现了稍微好一点的FVD,并且在人类评估中被投票为这是预期的,因为FSGAN不会改变目标身份,并保留原始目标视频,使其更自然地观察。FaceOff几乎完美地交换了身份。此外,现有的方法只有一个单一的目标运动遵循。FaceOff解决了运动到运动交换的额外挑战,该挑战需要在每帧处进行源-目标姿态对准这需要FaceOff生成新颖的运动,使得运动中的身份、表情和姿势看起来自然并且匹配输入。尽管存在这些挑战,但3503××组件SPID ↓ LMD↓对峙无时间。无旋转无颜色无翻译无失真0的情况。380.410.710.650.740.580.550.490.440.420.470.45FVD↓255 980350.60292.76303.35271.82285.54FSGAN和FaceOff的FVD之间的参考DeepFaceLabs和DeepFakes 可 以 很 好 地 交 换 身 份 , 但 计 算 成 本 比FaceOff高9000倍,这使得FaceOff在现实世界中更具可扩展性4.2. 目标面操作结果假设源和目标具有相同的身份,问题简化为以下内容-将表达式从源视频传输到目标视频。这从根本上说是“面子重演”的设定还可以通过识别和量化源表情并使用“面部编辑”网络来编辑目标表情来修改目标表情 。图 7 呈 现了 FaceOff、 “面 部重 现” (Face-Vid 2Vid)和“面部编辑”(STIT)之间的定性比较面部再现:我们与Face-Vid 2 Vid [30]进行比较,这是一个SOTA面部再现网络,使用源(驾驶)视频再现目标图像的姿势和表情如图FaceOff保留了源的微表情,例如精确的嘴巴张开和眼睛皱眉。FaceOff依赖于确定性的距离损失,因此它可以在输出中保留精确的输入表达式此外,FaceOff保留时间目标姿势和背景,而Face-Vid 2 Vid修改静态帧。面部编辑:使用强大的神经网络,可以通过执行编辑在视频中引入所需的表情我们将我们的方法与STIT进行比较[28]。STIT基于输入标签修改面部视频的表情。我们观察源表达,并手动尝试从消极到积极方向的各种强度的参见图7、虽然STIT可以改变整体表达,但它需要手动点击并尝试以精确定位表达。它也缺乏个性化的表达(开口量,微妙的眉毛变化)。此外,每一个表情都不能用一个标签来定义,而且很难在时间维度上引入情感的变化。通过我们提出的方法,可以将任何情感融入其中。视频(只要我们有访问源视频)。5. 消融研究我们调查的贡献,不同的模块和错误实现FaceOff。图8演示了没有所提出的时间模块的FaceOff的如图所示,虽然在帧级,输出是空间相干的,但是当我们跨帧查看时,我们可以注意到时间不相干。脸部似乎在画面中“摇摆”-上下挤压。事实上,如果没有时间模块,网络就无法理解整个面部结构,并生成不自然的帧(用红色标记)。 从一个红框跳到另一个,我们可以 看到脸部结构完全改变了这图8:没有时间模块的FaceOff。当我们从一帧跳到另一帧(红色方框)时,我们可以观察到一个这是因为模型在生成当前帧时不表3:我们删除了不同的组件和错误,并评估了它们对实现FaceOff的贡献。建议使用时间模块通过相邻帧约束网络,使得网络能够学习全局形状拟合问题,从而生成时间相干输出。表3给出了时间模块的定量贡献以及用于自我监督训练的每个错误这些指标表明,他们中的每一个都对实现FaceOff做出了重大贡献。6. 结论我们介绍了“视频到视频(V2V)的脸交换”,一个新的任务的脸交换。与旨在将身份从源面部视频(或图像)交换到目标面部视频的面部交换不同,V2V面部交换旨在将源表情与身份一起交换。为了解决这个问题,我们提出了FaceOff,这是一个自监督的时间自动编码网络,它将两个人脸视频作为输入,并产生一个连贯的混合输出。如实验部分所示,FaceOff交换源标识比现有方法好得多,同时计算效率也是400它还交换了所有方法都无法完成的确切源标识。V2 V换脸有很多应用;一个重要的应用可以是自动化用电影中演员的身份和表情替换替身的脸的任务。我们相信我们的工作为电影编辑增添了一个全新的维度,可以节省数月的繁琐手工工作和数百万美元。3504引用[1] Dmitri Bitouk,Neeraj Kumar,Samreen Dhillon,PeterBel- humeur,and Shree K.纳亚尔换脸:自动替换照片中的面孔。ACM事务处理图表,27(3):1[2] 陈仁旺、陈玄鸿、倪冰冰、葛炎昊。模拟交换第28届ACM国际多媒体会议论文集。ACM,oct 2020.[3] Yi-Ting Cheng , Virginia Tzeng , Yu Liang , Chuan-Chang Wang ,Bing-Yu Chen, Yung-Yu Chuang ,andMing Ouhy-Xiao.视频中基于三维模型的人脸替换。2009年1月[4] Yunjey Choi,Minje Choi,Munyoung Kim,Jung-WooHa,Sunghun Kim,and Jaegul Choo. Stargan:用于多域图像到图像翻译的统一生成对抗网络。2017年。[5] Yunjey Choi,Youngjung Uh,Jaejun Yoo,Jung-WooHa.Stargan v2 :面向多个领域的多样化图像合成,2019。[6] PatrickEsse r,RobinRombach,andB joürnOmme r. 用于高分辨率图像合成的驯服变压器,2020年。[7] P. 加里多湖,加-地瓦尔加伊特湾萨尔马迪岛Steiner,K.瓦拉纳西P. P e'rez和C. 希奥博尔特Vdub:修改演员的现场视频,以便与配音音轨进行合理的视觉对齐Comput. Graph.Forum,34(2):193 -204,may2015.[8] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei A.埃夫罗斯使用条件对抗网络的图像到图像翻译,2016年。[9] Hyeongwoo Kim 、 Pablo Garrido 、 Ayush Tewari 、Weipeng Xu、JustusThies、MatthiasNießne r、PatrickP e´rez 、 ChristianRichardt 、 MichaelZollo¨fer 和ChristianTheobalt。深度视频肖像。ACM Transactions onGraphics(TOG),37(4):163,2018。[10] Iryna Korshunova , Wenzhe Shi , Joni Dambre , andLucas Theis.使用卷积神经网络进行快速换脸,2016年。[11] Lingzhi Li,Jianmin Bao,Hao Yang,Dong Chen,andFang Wen. Faceshifter : Towards High Fidelity andOcclusion Aware Face Swapping,2019.[12] 伊恩·马格努森,阿鲁纳·桑卡拉纳拉亚南,安德鲁·李普曼。可逆皱眉:视频到视频面部表情翻译,2021年。[13] Mehdi Mirza和Simon Osindero条件生成对抗网,2014年。[14] 纳鲁涅茨湖赫尔明格角Schroers和R.M. 我们-伯。高分辨率神经人脸交换视觉效果。计算机图形论坛,39:173[15] 尤瓦尔·尼尔金,约西·凯勒,塔尔·哈斯纳。Fsgan:主题不可知的面部交换和重演,2019年。[16] AaronvandenOord 、 OriolVinyals 和 KorayKavukcuoglu。神经离散表示学习,2017。[17] Ivan Perov,Daiheng Gao,Nikolay Chervoniy,KunlinLiu , Su g asaMarangonda , ChrisUm e´ , M r. Dpfks ,CarlShiftFacenheim , Luis RP , Jian Jiang , ShengZhang , PingyuWu , BoZhou , andWeimingZhang.Deepfacelab:集成、灵活和可扩展的换脸框架,2020年。3505[18] K R Prajwal , Rudrabha Mukhopadhyay , VinayP.Nambood-iri和C.V.贾瓦哈一个唇同步专家是所有你需要的语音唇代在野外。第28届ACM国际多媒体会议论文集。ACM,oct 2020.[19] Prajwal K R,Rudrabha Mukhopadhyay,Jerin Philip,Ab-hishek Jha,Vinay Namboodiri,and CV Jawahar.走向自动面对面翻译。第27届ACM国际多媒体会议论文集。ACM,Oct2019.[20] Ali Razavi,Aaron van den Oord和Oriol Vinyals。使用vq-2019生成多样化的高保真图像。[21] 任 玉 瑞 , 李 戈 , 陈 元 奇 , 托 马 斯 H. 李 , 刘 珊 。Pirenderer : Controllable Portrait Image Generation viaSemantic Neural Rendering,2021.[22] Ali aksandrSiarohin , Ste' phaneLathuilie` re , Ser geyTulyakov,Elisa Ricci,and Nicu Sebe. 图像动画的一阶运动模型。In H. Wallach,H. Larochelle、A. B eygelzime r、 F.d'Alc he´-Buc , E.Fox 和 R. Garnett ,editors , Advances in Neural Information ProcessingSystems,第32卷。Curran Associates,Inc. 2019年。[23] Ali aksandrSiarohin,SubhankarRoy,Ste' phaneLathuilie`re,Sergey Tulyakov,Elisa Ricci和Nicu Sebe。运动监督的共同部分分割。2020年。[24] 放大图片 作者:Aliaksandr Siarohin Woodford, JianRen,Menglei Chai,and Sergey Tulyakov.运动表示为articulated动画。2021年。[25] Justus Thies , Mohamed Elgharib , Ayush Tewari ,Christian Theobalt,and Matthias Nießner.神经语音木偶:音频驱动的面部重现。2019年。[26] Jus t usThies,MichaelZollh oüfer,andMatthiasNießne r.延迟神经渲染:使用神经纹理的图像合成,2019年。[27] Just usThies , MichaelZollho¨ fer , MarcStamminger ,Chris-tian Theobalt,and Matthias Nießner.Face2face :实时人脸捕捉和rgb视频重现。2020年。[28] 放 大 图 片 作 者 : Rinon Gal , Ron Mokady , AmitH.Bermano和Daniel Cohen-Or。及时缝合:基于Gan的真实视频面部编辑,2022年。[29] Thomas Unterthiner , Sjoerd van Steenkiste , KarolKurach , Raphael Marinier , Marcin Michalski , andSylvain Gelly.为了准确的视频生成模型:2018年新的指标挑战。[30] Ting-Chun Wang,Arun Mallya,and Ming-Yu Liu.用于视频会议的一次性自由视图神经讲话头合成,2020年。[31] Wayne Wu,Yunxuan Zhang,Cheng Li,Chen Qian,and Chen Change Loy. Reenactgan:学习通过边界转移重新制定面孔,2018年。[32] 放大图片作者:Richard Zhang,Phillip Isola,Alexei A.艾弗罗斯,伊莱·谢克特曼,奥利弗·王.深度特征作为感知指标的不合理有效性,2018年。[33] Zhimeng Zhang,Lincheng Li,Yu Ding,and ChangjieFan.高分辨率视听数据集的流引导一次性说话人脸生成。2021年IEEE/CVF计算机视觉和模式识别会议(CVPR),第3660-3669页3506[34] Hang Zhou,Yasheng Sun,Wayne Wu,Chen ChangeLoy,Xiaogang Wang,and Ziwei Liu.通过隐式模块化视听表示的姿势可控的说话人脸生成,2021年。[35] Yang Zhou , Xintong Han , Eli Shechtman , JoseEchevarria , Evangelos Kalogerakis , and DingzeyuLi.MakeltTalk 。 ACM Transactions on Graphics , 39(6):1
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功