没有合适的资源?快使用搜索试试~ 我知道了~
粒度音频视觉控制下的表情说话人生成
Borong Liang1*Yan Pan2,3*Zhizhi Guo1†Hang Zhou1†Zhibin Hong1Xiaoguang Han2,3Junyu Han1Jingtuo Liu1Errui Ding1Jingdong Wang1{liangborong,zhouhang09,guozhizhi,hongzhibin,hanjunyu,liujingtuo,dingerrui,wangjingdong}@baidu.com,{yanpan@link.,hanxiaoguang@}cuhk.edu.cn.33870具有粒度音频视觉控制的表情说话人生成01 百度公司计算机视觉技术部,2 香港中文大学深圳研究院,3香港中文大学FNii0姿势源0同步视频0表情0源0身份0参考0图1.我们的粒度控制的音频视觉说话人(GC-AVT)生成的示例动画。给定一个参考身份帧,GC-AVT可以独立地生成与其他情感表达源和姿势源视频帧驱动的音频视觉说话人视频。驱动结果的嘴形与同步视频匹配(顶部行),驱动结果的表情与表情源匹配(底部行),而姿势与姿势源匹配(左列)。0摘要0生成富有表情的说话人对于创建虚拟人物至关重要。然而,现有的一次或少量次数的方法主要关注嘴唇同步和头部运动,忽视了使说话面部逼真的情感表达。在本文中,我们提出了粒度控制的音频视觉说话人(GC-AVT)方法,以粒度方式控制说话人的嘴部运动、头部姿势和面部表情。我们的观点是通过基于先验的预处理设计将音频视觉驱动源解耦。具体来说,我们将驱动图像分解为三个互补部分,包括:1)一个裁剪的嘴巴0* 同等贡献. † 通讯作者.0该方法包括三个部分:1)一个用于实现嘴唇同步的蒙版头部;2)一个隐式学习姿势的头部;3)一个与时间偏移的嘴巴协同工作,以提供表情。有趣的是,通过重建训练,这三个来源的编码特征被整体平衡。大量实验证明,我们的方法不仅能生成具有同步嘴形、可控姿势的表情丰富的面部,还能精确地生成动画表情。01. 引言0随着自动视频生成技术的快速发展,音频驱动的说话人生成任务变得越来越重要。33880由于其广泛的实际应用,如创建虚拟主播、数字化头像和动画电影,自动视频生成技术引起了广泛关注。为了实现通用模型的便捷部署,研究人员提出了仅驱动单个或少量帧与音频对话的方法。虽然准确的嘴唇同步已经基本实现,但控制面部表情(对于创建逼真的说话人非常重要)的能力尚未得到充分探索。许多先前的方法仅关注嘴唇同步的准确性。最近,研究人员提出了生成节奏感或可变头部姿势的方法,但它们无法改变眉毛等细节表情。另一方面,生成情感动态的方法基本上是针对特定个体的,即一个模型必须针对一个特定的个体进行训练。此外,它们的模型依赖于标记的情感数据,因此只能涵盖有限的表情。在现实场景中,人们可以以固定的重音和语调说相同的内容,但表情和头部动作可以灵活变化。受到这一观察的启发,我们认为情感表达的生成可以从嘴部运动和姿势中分离出来,这三者可以独立控制。这对于几乎所有现有的模型来说在技术上都是具有挑战性的。对于预测中间结构表示(如2D或3D地标)的方法,上述信息本质上是纠缠在一起的。即使是主流的3D人脸模型,如3D面部可塑模型(3DMM),也在同一参数中表示嘴部运动和面部表情。此外,在极端情况下,中间表示的准确性将受到损害。对于潜在特征学习方法,表情信息几乎无法单独提取,当前的工作也不支持分离的表情和嘴部控制。在本文中,我们提出了粒度控制的音频视觉说话人(GC-AVT)方法,从更高的粒度驱动肖像头部。我们的方法避免使用任何中间表示,是纯学习的,不需要特定的情感标签。我们模型最有趣的特性是从三个互补的角度独立控制面部:语音内容、头部姿势和情感表达,使我们的说话人更具表现力。如图1所示,虽然头部姿势和表情信息来自视觉源,但嘴部运动可以由音频或视觉信息决定。我们的观点是通过精细的预处理设计将驱动信息明确地分解为粒度部分。与以前的方法不同,以整体视图学习非身份表示的方法,我们认为0一种可以分别以互补方式提取所有信息的方法。我们分析了影响每个所需面部区域的关键因素,并采用了不同类型的遮罩和增强方案。因此,形成了三个功能输入。音频输入明确与嘴形相关联,因此利用语音和裁剪嘴部之间的时间对齐来考虑语音内容信息。然后,我们期望情感表达可以由其他视觉来源驱动。特别地,我们将整个面部的情感分解为上半部分和时间偏移的嘴部。它们两者无缝协作,提供精确的表情。最后,从整个面部设计了一个隐式的姿势编码。我们利用三个编码器来提取个别信息,并通过重建训练对它们进行处理。实验证明,我们的方法能够生成具有精确嘴形、头部姿势和情感表达控制的生动说话头。本工作的贡献总结如下:(1)我们提出了粒度控制的音频视觉说话头(GC-AVT)系统,从姿势、音频和表情视频的粒度控制生成富有表现力的肖像视频。(2)我们确定了处理三种不同控制源的三个精细预处理过程。(3)通过整合音频-视觉同步,我们的系统生成可以由音频或视频驱动的准确嘴部运动。02. 相关工作0音频驱动的说话头生成。将虚拟人物[5, 22, 23, 50,52]从任意语音序列中进行动画化的任务在计算机视觉和图形学领域引起了相当大的关注,其中说话脸生成尤为重要。早期的工作[32, 36,37]通过检索或基于图形的方法,需要大量目标人物的视频素材来对嘴部区域进行建模。随着深度学习的发展,一些工作利用基于GAN的流程中的结构信息[18, 25, 29,33]来生成个人特定的高质量结果。其他研究人员倾向于寻求可以通过一个或多个框架引用来处理所有身份的与说话者无关的设置[8, 10, 30, 48, 50,51]。Chung等人[10]首次提出了一种基于重建的端到端网络,以图像到图像的转换方式基于音频进行重建。然后[48]使用对抗训练进一步将身份与词语分离。Wav2Lip[27]特别提出了对嘴部区域进行修复的方法。这些基于重建的方法的基本思想是将视频中的嘴部运动与音频中的语音内容同步。另一方面,面部表情和头部姿势被忽略。最近,一些方法[6,18, 31, 50, 51]已经提出了33890提出了不仅解决同步问题,还添加了额外的组件来创建更生动的说话头。Zhou等人[48]和Yi等人[51]使用3D表示模型了节奏性的头部运动。PC-AVS[50]利用另一个姿势源视频来控制头部姿势,同时通过音频序列驱动说话脸部。[46]同时生成嘴部、眉毛和头部姿势的动画参数,并从密集流中合成说话脸部视频。特别地,Wang等人[35]和Ji等人[18]提出了改变情感的方法,但一个模型必须在一个人上进行训练。在一次性的方式中同时控制肖像视频的不同属性已被证明是困难的。基于视觉的面部再现。面部再现的任务旨在通过从不同演员的视频中转移面部动态来生成说话头部视频。大多数技术依赖于结构信息,如地标[16, 40, 43,44]或3D模型[4, 14, 19, 20, 34, 47]。Deep VideoPortraits[20]能够产生高质量的逼真配音结果。它保持目标演员的身份和姿势,同时捕捉源演员的面部情感,但需要针对每个目标视频进行训练。最近,FReeNet[44]利用统一的地标转换器在不同身份之间转移面部表情。此外,基于重建损失的潜在姿势描述符[3,24]被提出用于跨人再现。这些工作旨在处理多身份的面部再现,而我们的工作通过涉及粒度控制来扩展任务的复杂性。03. 我们的方法0在本节中,我们描述了我们的粒度控制的音频-视觉说话头(GC-AVT)系统,该系统将头部姿势、语音内容、情感表达以及个人身份编码为潜在空间,并生成具有音频或视频的驱动说话头。首先,我们在第3.1节中简要介绍了我们方法的流程。接下来,我们介绍了基于先验的面部预处理,这对于设计独立的粒度控制源至关重要(第3.2节)。最后,我们介绍了流程的学习过程(第3.3节)。03.1. 总体公式0我们方法的整个流程如图2所示。我们采用典型的跨帧自重建[10,50]的训练设置,并期望在推理过程中,语音内容、姿势和表情的驱动信息可以来自完全不同的视频。给定一个经过预处理的视频剪辑,其中包含N帧V = (I1, ...,IN)和相应的音频频谱图A = (a1, ...,aN),我们随机从V中抽样一组K帧{Ii1, Ii2, ...,IiK}作为身份信息的代表。这个表示是受监督的0通过简单的身份损失[3]。然后我们随机从V中抽样一个帧I k作为所有驱动条件(即表情、姿势和语音内容)的源。我们的目标是基于相应的音频频谱图a k 和I k中的所需信息来恢复I k。这本质上是困难的,原因有两个:(1)输入源I k也是目标,网络可能会在重建过程中找到捷径。(2)所需的细粒度信息被纠缠在一起,难以区分和提取。为此,我们提出每个所需的驱动部分可以从输入图像域中特别识别出来。具体而言,通过精心设计的基于先验的预处理,将I k分解为三个互补部分。由于身份信息也需要建模,因此总共有四个视觉编码器将身份、头部姿势、情感表达和语音内容(嘴部形状)信息独立地编码为名为f id 、f p 、f e 、f v c的潜在特征。具体而言,f v c 还被用于辅助学习音频特征fa c。这两个特征应该位于同一潜在空间中。最后,我们期望一个生成器G能够处理所有信息。这些特征可以组合在一起,作为整体基于音频的特征f a all = {f id , f p , f e , f a c}或基于视觉的特征f v all = {f id , f p , f e , f v c}。它们被送入G进行重建I a k ′和I v k′。详细的预处理步骤在第3.2节中描述,学习目标在第3.3节中说明。03.2. 基于先验的预处理0如上所述,基于面部不同功能区域的先验知识,设计了三种特定类型的预处理范式。每种范式对应一个驱动源,代表着解耦的信息。虽然详细的预处理步骤不同,但是所有源中的身份信息都应该被移除。具体而言,通过像素级别的增强来实现,包括颜色转换、模糊、锐化和JPEG压缩。这种增强应用于所有三个预处理步骤。另一方面,在我们的实现中广泛应用了遮罩,检测到I k的关键点和前景分割图。分割图也用于消除背景干扰。请注意,我们不将关键点作为中间表示。它们仅用于数据预处理的指导,因此我们不会因为不准确的预测而遭受错误积累问题。表情的预处理。以前很少能够单独提取表情信息而不涉及嘴部形状的语义。一种可行的方法是基于嘴部周围的关键点对嘴部进行遮罩处理。这种方法!!"!!#!$!&'!#(("!!#$%!,0)'!"#: )*+ ,-..'$: /-0123.1456 ,-..'%&$: 7)) ,-.., '8 ,-..!, #, $, %!, #, &…Except for the simple learning objective on the identityfeatures, other learning constraints are designed from twoperspectives: 1) The constraints on speech content featureswhich synchronizes audio to the visual modality; 2) theconstraints on the reconstructed frames Iak′ and Ivk′ (uni-formly denoted as Ik′) that implicitly balance the informa-tion within all embeddings.Learning Audio-Visual Synchronization.It has beenverified that learning audio-visual synchronization benefitsaudio-visual cross-generation tasks generation [27, 31, 48–50], and it would be easier to learn mouth shapes from thevisual domain [48].Thus in order to stabilize the training, we prevent thesynchronization loss from affecting the visual branch andupdate the audio branch alone. Detailedly, we adopt soft-max contrastive loss. The distances between two features33900E i0E e0E c0E a0(R, t, s)0随机0G09:像素级 *:;0同步音频0K帧0增强...0*:*:增强<:掩码*:;02:旋转0=:变形3:对齐0符号0身份参考驾驶源0驾驶源0源帧0图2.我们的颗粒控制音频-视觉说话头(GC-AVT)的提出架构。数据预处理从视频帧序列中采样K +1帧,其中选择的一帧通过不同的数据增强方法生成姿势编码器(E p)、情感表达编码器(E e)和内容编码器(Ec)的训练数据,这将在第3.2节中描述。其余的K帧作为身份编码器(E i)的输入,并被编码成潜在特征fid。姿势编码器和情感表达编码器将相应的增强图像编码成f p和f e。为了编码语音内容信息,我们设计了一个视听同步网络(E c和Ea),将视觉帧和音频频谱编码成潜在特征f v c和f a c。将这些特征组装在一起并输入生成器。管道的学习将在第3.3节中描述。0目的是保持上半脸的表情。然而,嘴巴的影响不能直接忽略。情感信息也会对嘴巴产生影响,例如,我们可以通过观察嘴巴的运动来推断一个人同时在微笑和说话。我们的方法建立在这样一个观察的基础上,即嘴巴形状中的语义变化比情感变化更快。例如,一个人在一秒钟内很少改变情感,甚至头部姿势,但可能会说几个音节。因此,我们认为一个时间上稍微偏移的帧I k +i在嘴巴形状中可能具有相同的情感但不同的语义信息。具体而言,从I k +i中裁剪出嘴巴区域。当i足够小时,时间偏移的嘴巴可以无缝地融合到Ik中。通过这种方式,嘴巴上的精确表情和情感信息得以保留。此外,还应用了额外的随机旋转来消除姿势信息。语音内容的预处理。从视觉模态中编码语音内容信息旨在作为音频信息编码的一种特殊类型的指导。具体而言,研究人员已经验证,围绕嘴巴的固有时间音频-视觉同步在嘴巴周围发生[13, 27]。因此,我们利用了Ik的裁剪出的嘴巴。语音内容处理也应用了随机旋转。姿势的预处理。遮盖出姿势信息是简单而安全的0在说话头部上表示头部姿势信息的面部器官。我们还设计了一个12维的潜在姿势空间,并完全依赖网络来学习隐式姿势信息,就像[50]中所做的那样。03.3.学习过程0|f v c|∙|f a c|,其中f v c和f ac是从连续帧中及时组装的视觉和音频特征。假设有M个负样本)LL1 = ∥Ik − I′k∥1,(2)Lvgg =Nvgg�i=1∥VGGi(Ik) − VGGi(I′k)∥1+Nvgg�i=1∥VGGF acei(Ik) − VGGF acei(I′k)∥1.(3)LGAN = minG maxDND�n=1(EIk[log Dn(Ik)]+ Efall(k)[log(1 − Dn(I′k))],(4)Lall = LGAN + λ1LL1 + λ2Lvgg + λ3Lc,(5)33910利用了对比学习,损失函数的公式为:0L c = -log[0exp(D(f v c, f a c)) + ΣM−j=1 exp(D(f v −c(j), f ac))0其中,f v −c(j)表示第j个负样本。重建目标。我们直接借用了[3]中的生成器结构,该结构依赖于AdaIN[17]。请注意,相同的损失函数应用于音频和视觉重建图像,即I a k ′和I v k′。重建训练通常通过像素级比较I ′ k和Ik之间的L1距离进行监督。我们利用了两个VGG-19模型,一个在ImageNet分类上进行了预训练,一个在人脸识别上进行了预训练,以感知损失的方式进行[26,38],其中利用了Nvgg个特征图。这三个损失函数可以写成:0为了进一步提高生成质量,我们使用具有 N D个层的多尺度鉴别器 D 进行生成对抗损失的计算:0训练过程中的总体约束可以总结如下:0其中 λ s是系数。值得注意的是,我们不仅约束音频和视觉语音内容特征的嵌入空间,还使用它们进行重构训练。因此,我们的方法支持由音频剪辑或口型序列驱动的说话面部生成。04. 实验04.1. 实验设置0数据集。我们的方法在 VoxCeleb2 [ 11 ] 上进行训练,并在Voxceleb2 和 MEAD [ 35 ] 上进行评估。0• VoxCeleb2 [ 11 ]是一个广泛用于说话头生成领域的音频-视觉数据集。0我们使用 VoxCeleb2提供的URL下载原始视频,收集大约2,000个演讲者身份进行训练,100个进行评估。0• MEAD [ 35 ]是一个高质量的情感音频-视觉数据集,拥有30多位可用的演员和演员,包含三个不同强度级别的八种情绪类别。该数据集中的正面视图视频仅用于测试。0实现细节:所有视频以每秒25帧的速度处理。对于每一帧,我们使用 S 3 FD 检测器 [ 45 ]检测人脸,然后将边界框放大80%以保持人脸在中心。最终裁剪的图像大小为256×256。我们使用 Graphonomy [ 15]模型进行背景分割,并在预处理中去除背景。我们重新训练了一个 FAN 模型 [ 2 ],为每个图像获取关键点。与 [ 50 ]类似,我们将音频处理为16kHz,然后将其转换为具有FFT窗口大小1280、跳跃长度160和80个Mel滤波器组的梅尔频谱图。对于每个视频帧,以目标帧时间步长为中心,采样0.2秒的梅尔频谱图作为条件。在我们的方法中,ID编码器是一个ResNeXt-50 [ 41 ]结构。我们将 K设置为8,用于身份编码器的输入,并将身份嵌入输出设置为512维。姿势编码器和情感表达编码器都是MobileNetV2[ 28]结构。姿势和情感表达嵌入大小分别为12和256。内容编码器和音频编码器是从 [ 9 ]借用的ResNetSE34,每个生成一个256维的嵌入。我们使用32 GB Tesla V100GPU,在16个样本的小批量上训练我们的模型80个epoch。我们使用对比损失 L c预训练视觉-音频同步,然后端到端地联合训练整个流程。比较方法:我们的方法专注于音频驱动的说话头生成,因此我们主要将 Ours (audio)的音频驱动结果与最先进的音频驱动作品 [ 3 , 27 , 50 ]进行比较。Wav2Lip [ 27 ]是一种基于重建的方法,专注于产生准确的唇部运动;MakeitTalk [ 51 ]基于3D关键点学习个性化的头部运动,在音频驱动的设置下。PC-AVS [ 50 ]也是一种基于重建的框架,可以生成唇部同步并隐式控制姿势。请注意,我们的模型也可以采用视觉驱动的设置,因此我们将 Ours (video) 的视觉驱动结果与 LPD [ 3 ]进行比较,后者是一种头部再现系统。我们直接比较非微调模型生成的所有结果,以确保公平性。04.2. 定量评估0评估指标:为了定量评估不同方法,我们在测试集上计算了四个评估指标,包括33920表1. 在Voxceleb2 [11]和MEAD [35]上的定量结果比较。对于LMD和LMDm,数值越低越好,其他指标越高越好。请注意,在此比较中,PC-AVS [50]在某些帧上失败了,因为无法检测到关键点,其结果仅供参考。0方法 MEAD VoxCeleb20SSIM ↑ LMD ↓ LMD m ↓ 同步置信度 ↑ SSIM ↑ LMD ↓ LMD m ↓ 同步置信度 ↑0真实值 1.000 0.000 0.000 4.770 1.000 0.000 0.000 5.543 Wav2Lip 0.747 3.543 4.014 4.674 0.704 4.139 3.6625.218 MakeItTalk 0.618 4.102 4.249 3.926 0.624 5.358 4.689 4.887 PC-AVS 0.605 3.963 4.334 3.248 0.6065.101 4.654 4.986 我们的(音频) 0.659 2.764 3.252 3.730 0.710 3.025 3.356 5.2500LPD 0.669 2.762 2.966 3.355 0.707 4.176 4.035 5.213 我们的(视频) 0.671 2.483 2.349 3.435 0.739 2.7572.811 5.1490在VoxCeleb2的测试集上进行自驱动设置。它们是:SSIM[39]用于生成质量的评估;LMD用于所有关键点的平均距离,LMD m用于嘴部周围的关键点。我们还借用了SyncNet[12]的置信度评分Syncconf来评估唇部同步的精度。评估结果:我们与PC-AVS[50]使用类似的实验设置。具体而言,我们将每个测试视频的第一帧作为身份参考。然后,其余帧用作姿势、情感表达和语音信息的源。音频用作驱动条件来生成音频驱动的结果。我们计算生成结果与真实值之间的数值指标。结果如表1所示。在这个比较中,我们的GC-AVT在两个数据集上都取得了综合性更好的结果。请注意,音频驱动的方法和视觉驱动的方法不能直接进行比较,因此我们将它们分开分析,并更加关注音频驱动的设置。就唇部同步准确性而言,我们的音频设置比其他方法有更好的LMDm,这证明我们可以从某个角度生成良好的唇部同步质量。虽然我们没有最高的置信度得分(Syncconf),但我们的结果接近真实值,显示出竞争性能。请注意,Wav2Lip在其损失函数中直接使用了SyncNet,因此在这个指标上自然会得到更好的结果。得益于姿势控制和表情操作能力,我们的方法在一般的LMD指标上自然更好。SSIM分数适用于Wav2Lip,因为它们只填补缺失区域。至于视觉驱动的设置,我们观察到LPD结果中存在一些失败案例,使得它们的LMD和LMD m结果低于我们的。04.3. 定性评估0与其他方法的比较。比较方法不支持细粒度控制,因此设置过于详细的源是不公平的。由于LPD[3]和PC-AVS[50]可以控制生成视频的头部姿势,在这里我们将姿势源、语音内容源和表情源都作为一个单独的视频表示为驱动源在图3中。请注意,MakeitTalk[51]既不能控制姿势,也不能生成准确的嘴部形状,因此我们在这里忽略了它的结果。我们可以看到,Wav2Lip [27]只能利用原始视频的姿势。当其输入是单个图像时,其背景将保持静止(请参见演示视频)。而PC-0身份参考0驱动源0LPD0Wav2Lip0我们的(视频)0PC-AVS0我们的0(音频)0图3. 定性评估结果。第一行列出了驱动源帧。Wav2Lip[27]无法生成与驱动源相似头部姿势的帧。PC-AVS[50]可以生成大多数与驱动源相似头部姿势的图像,但第二列的结果不太准确。LPD[3]和我们的GC-AVT都可以生成具有准确头部姿势的驱动结果。表情驱动的结果优于LPD [3]。0AVS可以控制生成视频的姿势。当驱动源是单个图像时,其背景将保持静止(请参见演示视频)。33930身份参考0表情0源0生成0结果0内容源0图4.使用不同的驱动表情源和内容源的定性结果。第一行列出了身份参考,而表情源帧和内容源帧分别列在左列和右列。我们的GC-AVT可以生成与相应的表情源和内容源相匹配的生动驱动结果。0AVS[50]可以模仿驱动源的姿势,但在某些情况下结果不太精确。它们都只能生成中性表情。LPD[3]的姿势驱动结果与我们的结果非常接近。LPD[3]和我们的结果(视频)的生成结果都具有与驱动源相匹配的精确头部姿势。从第二列可以看出,我们的预处理方案使得从源视频到我们的结果的情感表达成功转移,而LPD则忽略了这样的信息。就唇同步准确性而言,我们可以看到我们的视觉驱动和音频驱动结果都生成了与驱动源对齐的高保真度嘴形,并且优于PC-AVS的结果。情感表达控制评估。我们的GC-AVT的一个显著特点是,我们可以独立地控制情感表达,而不受语义嘴形和头部姿势的影响。我们在图4中可视化了情感表达和语音内容的独立控制。我们对所有生成的结果进行了正面化。可以看到,在独立控制的过程中,情感表达和语音内容可以很好地解耦。用户研究。为了进一步验证音频驱动结果的质量,我们组织了一个由20名参与者对50个视频进行意见调查的用户研究。具体而言,我们随机选择5个视频作为驱动源视频,并从Voxceleb2数据集中选择10个身份参考图像。然后,我们以与之前描述的相同设置生成50个视频。0在第4.1节中进行了比较方法的比较。比较方法分别是Wav2Lip [27]、MakeitTalk [51]、PC-AVS[50]和我们的GC-AVT。用户研究的评估是基于三个维度:(1)唇同步质量;(2)表情真实性和丰富性;(3)整体忠实度和质量。采用了广泛使用的平均意见分数(MOS),评分从1到5。我们的用户研究评分结果列在表2中。我们的GC-AVT在表情真实性和丰富性方面表现优于先前的方法,验证了我们的方法在处理情感表达方面的有效性。而且我们的结果明显比其他方法更生动。尽管我们在唇同步质量方面没有得分最高,但是三种方法之间的结果非常接近,可以视为可比较的。04.4.消融研究0在本节中,我们研究了损失设置和时间偏移操作的影响。请注意,实验是在VoxCeleb2数据集上进行的,采用了我们的音频驱动设置。对于损失设置,我们研究了VGG损失、VGGFace损失和对比损失的影响。结果列在表3中,其中w/oVGG表示没有VGG损失和VGGFace损失。对比损失用于音频-视觉同步。为了验证对比损失的效果,我们在Voxceleb2上测试了LMD、LMD m和Sync conf。33940表2.关于音频驱动方法的用户研究,评估是在唇同步、面部表情的自然性和视频质量上进行的。0方法Wav2Lip [27] MakeItTalk [51] PC-AVS [50] GC-AVT(我们的)0唇同步质量3.92 2.85 3.90 3.91 表情真实性和丰富性2.65 2.68 3.16 4.21 整体忠实度和质量3.33 3.06 3.693.950表3. Voxceleb2 [11]上的消融研究。0方法 SSIM LMD LMD m Sync conf0无VGG 0.662 4.753 4.212 4.586 无对比性0.692 4.890 4.311 4.066 无时间偏移 0.6844.311 3.704 4.760 真实值 1.000 0.000 0.0000我们的(音频)0.710 3.025 3.356 5.2500(a) (b) (c) (d) (e)0ID0参考0情感源0内容源0表情0输入0内容0输入0结果0训练设置 测试设置0图5. 遮罩区域的消融研究。0测试集。如表3所示,LMD、LMD m和Syncconf的性能明显变差。此外,我们在图6中可视化了消融研究的结果。没有VGG损失和VGGFace损失等感知损失,生成图像的质量明显较差,属性控制的性能也不如我们完整设置的结果。当我们去除对比损失时,语音内容驱动的结果受到影响。语音驱动的结果与驱动源不同步。没有时间偏移操作,语音驱动的结果受到影响,但生成图像的质量几乎不受影响。我们进一步展示了对口罩设计的消融研究。在图5中展示了以下设置的实验结果:(a)未应用口罩;(b)嘴巴未遮盖;(c)表情未遮盖;(d)嘴巴区域较小;(e)表情上的时间偏移嘴巴。设置(a)、(b)、(c)会混淆网络的训练过程,最终导致语音内容控制能力的丧失。下图显示了设置(a)-(f)的结果。我们的设置e)取得了最佳结果。定性和定量比较将添加到最终版本中。05. 结论和讨论0结论。在本文中,我们提出了粒度控制的音频-视觉说话头部(GC-AVT)0ID源0无VGG0无0VGGFace0无0对比性0真实值0GC-AVT0图6.损失设置的消融研究与视觉结果。如第二行和第四行所示,没有VGGFace损失或VGG损失,生成结果的质量显著降低。如第三行所示,没有对比损失会影响语音内容驱动的结果。0流程。通过精细的预处理设计将驱动信息明确地分为细粒度部分,GC-AVT支持从语音内容、姿势、表情的角度控制说话头部生成。据我们所知,这种属性以前很少实现过。此外,它支持从音频和视觉输入实现准确的嘴唇同步,扩大了我们系统的应用范围。0局限性。最重要的限制之一是我们的方法掩盖了背景,因此无法处理复杂的背景变化。此外,我们的方法无法生成高分辨率的结果。0伦理声明。尽管动画化的说话头部具有广泛的应用,但它可能被滥用用于深度伪造和媒体操纵。我们将限制我们模型的使用,并与深度伪造检测社区共享。0致谢。本工作部分得到河套深港科技合作区基础研究项目编号HZQB-KCZYZ-2021067、中国国家重点研发计划项目编号2018YFB1800800、深圳市优秀人才培养资金202002以及广东省研究项目编号2017ZT07X152和2019CX01X104的支持。33950参考文献0[1] Volker Blanz, Thomas Vetter, et al.用于合成3D面部的可塑模型. 在SIGGRAPH,1999年。 20[2] Adrian Bulat and Georgios Tzimiropoulos.我们离解决2D和3D人脸对齐问题有多远?(以及一个包含230,000个3D面部标记的数据集).在国际计算机视觉(ICCV)IEEE会议上,2017年。 50[3] Egor Burkov, Igor Pasechnik, Artur Grigorev, and VictorLempitsky. 具有潜在姿势描述符的神经头部再现.在计算机视觉和模式识别(CVPR)IEEE会议上,2020年。 2 , 3 , 5 , 6 , 70[4] Lele Chen, Chen Cao, Fernando De la Torre, JasonSaragih, Chenliang Xu, and Yaser Sheikh.高保真度的AR/VR人脸追踪通过深度光照适应,2021年。 30[5] Lele Chen, Guofeng Cui, Ziyi Kou, Haitian Zheng, andChenliang Xu.什么构成了良好的说话头视频生成?一项调查和基准.arXiv预印本arXiv:2005.03201,2020年。 20[6] Lele Chen, Guofeng Cui, Celong Liu, Zhong Li, Ziyi Kou, YiXu, and Chenliang Xu. 具有节奏头部运动的说话头生成.在欧洲计算机视觉(ECCV)会议上,2020年。 20[7] Lele Chen, Zhiheng Li, Ross K Maddox, Zhiyao Duan, andChenliang Xu. 一瞥中的唇部运动生成.在欧洲计算机视觉(ECCV)会议上,2018年。 20[8] Lele Chen, Ross K Maddox, Zhiyao Duan, and ChenliangXu. 具有动态像素级损失的分层跨模态说话人生成.在计算机视觉和模式识别(CVPR)IEEE会议上,2019年。 20[9] Joon Son Chung, Jaesung Huh, Seongkyu Mun, MinjaeLee, Hee Soo Heo, Soyeon Choe, Chiheon Ham, Sungh- wanJung, Bong-Jin Lee, and Icksang Han.为说话人识别辩护度量学习.arXiv预印本arXiv:2003.11982,2020年。 50[10] Joon Son Chung, Amir Jamaludin, and AndrewZisserman. 你说了什么?在BMVC,2017年。 2 , 30[11] J. S. Chung, A. Nagrani, and A. Zisserman. Voxceleb2:深度说话人识别. 在INTERSPEECH,2018年。 5 , 6 , 80[12] Joon Son Chung and Andrew Zisserman. 野外唇读.在ACCV,2016年。 60[13] Joon Son Chung and Andrew Zisserman.时间上的自动唇同步. 在ACCV,2016年。 40[14] Michail Christos Doukas, Stefanos Zafeiriou, and ViktoriiaSharmanska. Headgan: 一次性神经头部合成和编辑.在国际计算机视觉(ICCV)IEEE会议上,2021年。 30[15] Ke Gong, Yiming Gao, Xiaodan Liang, Xiaohui Shen,Meng Wang, and Liang Lin.图解析学:通过图传递学习进行通用人体解析.在计算机视觉和模式识别(CVPR)IEEE会议上,2019年。 50[16] Po-Hsiang Huang, Fu-En Yang, and Yu-Chiang FrankWang. 学习身份不变的运动表示以进行跨身份面部再现.在计算机视觉和模式识别(CVPR)IEEE会议上,2020年。 30[17] Xun Huang and Serge Belongie.实时任意风格转移与自适应实例归一化.在国际计算机视觉(ICCV)IEEE会议上,2017年。 50[18] Xinya Ji, Hang Zhou, Kaisiyuan Wang, Wayne Wu, ChanChange Loy, Xun Cao, and Feng Xu.基于音频驱动的情感视频肖像.在计算机视觉和模式识别(CVPR)IEEE会议上,2021年。 2 , 30[19] Hyeongwoo Kim, Mohamed Elgharib, Michael Zollh¨ofer,Hans-Peter Seidel, Thabo Beeler, Christian Richardt, andChristian Theobalt. 保持神经风格的视觉配音. ACM Transactionson Graphics (TOG),2019年。 30[20] Hyeongwoo Kim, Pablo Garrido, Ayush Tewari, WeipengXu, Justus Thies, Matthias Niessner, Patrick P´erez, Chris- tianRichardt, Michael Zollh¨ofer, and Christian Theobalt.深度视频肖像. ACM图形学交易(TOG), 2018. 30[21] Lincheng Li, Suzhen Wang, Zhimeng Zhang, Yu Ding, Yix-ing Zheng, Xin Yu, and Changjie Fan. 写作演讲者:基于文本的情感和节奏说话头生成. AAAI人工智能会议论文集,2021. 20[22]刘贤,吴谦一,周航,徐颖豪,钱睿,林新宜,周晓伟,吴韦恩,戴波,周博磊. 学习层次交叉模态关联用于共语言手势生成.2022年IEEE/CVF计算机视觉和模式识别会议. 20[23] 刘贤,徐颖豪,吴谦一,周航,吴韦恩,周博磊.语义感知的隐式神经音频驱动视频肖像生成.arXiv预印本arXiv:2201.07786, 2022. 20[24] Stephen Lombardi, Jason Saragih, Tomas Simon, andYaser S
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功