没有合适的资源?快使用搜索试试~ 我知道了~
隐性属性学习的合成动态对话人脸
Chenxu Zhang1, Yifan Zhao2, Yifei Huang3, Ming Zeng4, Saifeng Ni5Madhukar Budagavi5, Xiaohu Guo1{chenxu.zhang, xguo}@utdallas.edu, zhaoyf@buaa.edu.cn, yifeihuang17@gmail.comzengming@xmu.edu.cn, {saifeng.ni, m.budagavi}@samsung.com38670FACIAL:使用隐性属性学习合成动态对话人脸01 德克萨斯大学达拉斯分校 2 北京航空航天大学 3 华东师范大学 4 厦门大学 5 三星研究美国0图1.三种典型框架的示意图。a)显性属性生成:仅考虑说话头部的嘴部动作。b)显性生成与隐性变形:仅生成显性嘴部动作,并从参考视频中获取隐性属性。c)我们的隐性属性学习框架:在一个统一的框架中从输入音频生成显性和隐性属性。0摘要0在本文中,我们提出了一种对话人脸生成方法,该方法以音频信号作为输入,以短目标视频片段作为参考,并合成与输入音频信号同步的目标人脸的逼真视频,包括自然的嘴唇动作、头部姿势和眨眼。我们注意到,合成的人脸属性不仅包括与语音高度相关的显性属性,还包括与输入音频相关性较弱的隐性属性,如头部姿势和眨眼。为了模拟不同人脸属性与输入音频之间的复杂关系,我们提出了一种面部隐性属性学习生成对抗网络(FACIAL-GAN),该网络整合了音素感知、上下文感知和身份感知信息,以合成具有逼真的嘴唇、头部姿势和眨眼动作的3D人脸动画。然后,我们的渲染到视频网络将渲染的人脸图像和眨眼的注意力图作为输入,生成逼真的输出视频帧。0实验结果和用户研究表明,我们的方法可以生成具有同步嘴唇动作、自然头部动作和眨眼动作的逼真对话人脸视频,质量优于现有方法的结果。01. 引言0由输入音频驱动的动态对话人脸合成已成为计算机视觉、计算机图形学和虚拟现实中的重要技术。已经取得了稳定的研究进展,但是生成与真实捕捉视频难以区分的逼真对话人脸仍然具有挑战性,这些对话人脸不仅包含同步的嘴唇动作,还具有个性化和自然的头部动作和眨眼等。动态对话人脸中包含的信息可以大致分为两个不同的层次:1)显性属性和隐性属性。38680需要与输入音频同步的属性,例如与听觉音素信号强相关的嘴唇动作;与音素信号相关性较弱的属性,例如与语音上下文和个性化说话风格相关的头部动作以及主要由个人健康状况和外部刺激决定的眨眼频率。我们将第一类属性称为显性属性,将第二类属性称为隐性属性。0需要注意的是,现有研究大多数关注的是显性属性,如嘴唇动作,而对于与音频相关性较弱的隐性属性0在生成对话人脸的研究中,大多数关注的是显性属性,即通过将嘴唇动作与输入音频同步来生成对话人脸。例如,Zhou等人将音频分解为与主题相关的信息和与语音相关的信息,以生成清晰的嘴唇模式,Chen等人的音频转换和视觉生成(ATVG)网络将音频转换为面部关键点,并根据关键点生成视频帧。只有少数最近的研究尝试探索头部姿势的隐性属性与输入音频之间的相关性。例如,Chen等人采用多层感知器作为头部姿势学习器,预测每个输入帧的变换矩阵。然而,以下问题仍然不清楚:(1)显性属性和隐性属性如何可能相互影响?(2)如何对隐性属性建模,例如头部姿势和眨眼,这些属性不仅取决于语音的音素信号,还取决于语音的上下文信息和个性化的说话风格?0为了解决这些挑战,我们提出了一种用于合成动态说话人脸的FACe隐式属性学习(FACIAL)框架,如图2所示。(1)与先前的工作[7]使用单独的头部姿势学习器预测隐式属性不同,我们的FACIAL框架通过对抗学习的正则化联合学习隐式和显式属性。我们提出以协同方式嵌入所有属性,包括眨眼的动作单元(AU),头部姿势,表情,身份,纹理和照明,以便可以在同一框架下建模它们在说话人脸生成中的潜在相互作用。(2)我们在该框架中设计了一个特殊的FACIAL-GAN,以联合学习语音、上下文和个性化信息。它将一系列帧作为分组输入,并生成上下文潜在向量,然后通过单独的基于帧的生成器将每个帧的语音信息与上下文信息一起编码。FACIAL-GAN最初在我们的整个数据集上进行训练(第4节)。给定目标主体的短参考视频(2�3分钟),FACIAL-GAN将使用该短视频进行微调,以捕捉其中包含的个性化信息。因此,我们的FACIAL-GAN可以很好地捕捉隐式属性的所有语音、上下文和个性化信息。0贡献,例如头部姿势。(3)我们的FACIAL-GAN还可以预测眨眼的AU,进一步嵌入到辅助眼睛注意力图中,用于最终的Rendering-to-Video模块,以生成合成说话人脸中逼真的眨眼。通过显式和隐式属性的联合学习,我们的端到端FACIAL框架可以生成如图1所示的逼真动态说话人脸,优于现有方法产生的结果。本文的贡献有三个方面:(1)我们提出了一种联合显式和隐式属性学习框架,用于合成具有音频同步的唇部运动、个性化和自然头部运动以及逼真眨眼的说话人脸视频。(2)我们在该框架中设计了一个FACIAL-GAN模块,用于将每个单独帧的语音信息与上下文信息编码为隐式属性的模型,以用于合成自然头部运动。(3)我们将FACIAL-GAN生成的眨眼AU嵌入到渲染面部的眼睛注意力图中,从而实现了Rendering-to-Video模块生成的视频中逼真的眨眼。02. 相关工作0音频驱动的说话人脸生成大多数现有的说话人脸生成方法[4, 9, 10, 16, 26, 27, 31,32,40]侧重于生成与输入音频流同步的视频。Chung等人[10]提出了一种使用面部和音频的联合嵌入来生成合成说话人脸视频帧的编码器-解码器CNN模型。Chen等人[9]提出了一种分层结构,首先将音频转换为地标,然后根据地标生成视频帧。然而,通过这些方法生成的说话人脸视频中,头部姿势在演讲过程中几乎是固定的。为了实现具有头部动作的逼真视频,一些技术[28, 23, 29,34]首先生成与输入音频同步的唇部区域,并将其合成到原始视频中。Suwajanakorn等人[28]使用了巴拉克∙奥巴马的音频流来合成他演讲的逼真视频。然而,由于需要大量的视频素材,该方法适用于其他角色。Thies等人[29]使用潜在的3D模型空间生成可以用于不同人的说话人脸视频。然而,由于其固有限制,这些方法无法区分头部动作和面部表情,这意味着头部动作与输入音频无关。最近,Chen等人[7]和Yi等人[36]专注于直接从输入音频生成头部运动。Yi等人[36]提出了一种记忆增强的GAN模块,用于生成具有个性化头部姿势的逼真视频。然而,由于网络和3D模型的限制,它们生成的面部表情(例如,眨眼)和头部动作往往是静止的。相比之下,我们引入了FACIAL-3.2. FACIAL-GAN38690图2. 所提出的隐式属性学习框架概述。给定输入音频,所提出的 FACIAL-GAN旨在生成具有时间相关性和局部语音特征的显式属性(表情)和隐式属性(眼睛眨动AU45、头部姿势)。参考视频通过面部重建操作进行,为渲染操作提供了3D模型的指导。此外,部分敏感编码以眨眼动作单元作为输入,并作为渲染面部的眼睛注意力图。这些指导共同组合,输入到渲染到视频网络中。0GAN模块用于整合说话的语音、上下文和个性化信息,并将合成的 3D 模型与 AU注意力图相结合,生成具有同步的唇部动作、个性化和自然的头部姿势和眼睛眨动的逼真视频。基于视频的说话人脸生成方法[20, 19, 39, 37, 24, 35,30]将面部表情和轻微的头部运动从给定的源视频帧转移到目标视频帧。Zakharov等人[37]提出了一个系统,将未见过的人的神经对话头模型的少量和一次性学习作为具有高容量生成器和判别器的对抗训练问题。Kim等人[20]引入了一个生成神经网络,将头部姿势、面部表情、眼神和眨眼从源演员转移到肖像视频,基于生成的 3D模型。然而,由于头部运动和面部表情是由源视频引导的,这些方法只能生成与源视频一致的预定的说话头运动和表情。03. 方法03.1. 问题形式化0给定输入音频 A 和一个短(2�3分钟)的主题参考视频V,我们的说话头合成旨在生成与 A 同步的主题语音视频S。生成神经对话头的传统步骤可以表示为:0F l0S = R(F lip, V), (1)0其中 F lip 表示由对抗生成器 G 合成的显式特征。E表示音频特征提取网络,R表示渲染网络,将合成的特征转化为输出视频。如上所述,这种传统的合成方法通常无法捕捉到隐含属性,例如动态头部姿势 M pose 和眼睛眨动 Meye。为了实现这一目标,我们进一步利用语音音频和这些隐含属性之间的内在相互关系,即 FACIAL(FACe ImplicitAttributeLearning)。此外,我们引入了眼睛区域的辅助部分注意力图 E。我们的 FACIAL 合成过程的形式如下:0S = R (F lip, M pose, E ⊙ M eye, V). (2)0图2中的整体框架由两个关键部分组成,即 FACIAL生成对抗网络(FACIAL-GAN)用于编码联合显式和隐式属性,以及渲染到视频网络用于合成具有同步的唇部动作、自然的头部姿势和逼真的眼睛眨动的输出说话人脸视频。此外,不同的属性需要个别的编码策略,显式属性 F lip与输入音频的音节高度相关,由每个音频帧决定。然而,隐式特征 M {eye, pose}更多地依赖于长期信息,例如下一帧的头部运动由前一状态决定。因此,我们将详细介绍如何将这些属性嵌入到一个统一的框架中。0为了在一个统一的网络中共同嵌入显式和隐式属性,我们需要:1)生成显式属性(3)(6)38700图3.提出的FACIAL-GAN框架。Gtem将T帧的整个序列作为输入,生成时间向量z,而Gloc生成每帧的局部潜在向量c。0对应于每帧的语音特征的表情;2)将上下文信息,即时序相关性嵌入到网络中进行隐式属性学习。我们提出了FACIAL-GAN作为实现这些目标的解决方案。所提出的FACIAL-GAN由三个基本部分组成:时序相关生成器Gtem用于建立上下文关系和局部语音生成器Gloc0用于提取每帧的特征。此外,判别器网络Df用于判断生成属性的真实性或伪造性。如图3所示,输入音频A通过T帧的滑动窗口进行采样,并通过DeepSpeech[17]进行预处理,生成特征a∈R29×T。设f表示面部表情参数,p表示头部姿势特征,e表示眼睛眨动AU估计,并使用ft,pt和et分别表示第t帧的特征(详见补充材料)。时序相关生成器:为了提取整个输入序列的时序相关性,我们的关键思想是将T帧的音频序列A输入到上下文编码器中,生成潜在的全局特征z。将音频序列作为一个整体,每个潜在特征z的单元都能够融合其他帧的信息。因此,第t帧的相应特征zt可以通过拆分编码特征z来提取。给定输入音频A的DeepSpeech特征a[0:T−1]和其初始状态s={f0,p0,e0}∈R71,我们使用Gtem生成预测的时间属性序列zt,t∈[0,T−1]。引入初始状态s是为了确保生成序列之间的时间连续性。局部语音生成器:时序网络Gtem0侧重于整个时序域,不强调每帧的语音特征。因此,我们使用局部语音网络Gloc为第t帧生成局部特征ct。以第t帧为例,Gloc使用音频特征at = a[t−8:t+8]0作为输入,并输出局部特征ct。现在,我们已经获得了时间步t的时间特征zt和局部特征ct。一个全连接层FC用于将zt和ct映射到预测的参数ˆft,ˆpt,ˆet∈R71。FACIAL-GAN的编码过程可以表示为:0zt = S(Gtem(E(A)|s), t),0ct = Gloc(S(E(A), t)),0[ˆft, ˆpt, ˆet] = FC(zt ⊕ ct),0其中函数S(X,t)表示特征X的第t个特征块的拆分和提取,⊕是特征连接操作。E表示音频特征提取。学习目标:我们使用以下损失函数监督生成器网络Gtem和Gloc:0LReg = ω1Lexp + ω2Lpose + ω3Leye + ω4Ls, (4)0其中ω1、ω2、ω3和ω4是平衡权重,Ls是初始状态值的L1范数损失,它保证了滑动窗口生成序列之间的连续性:0Ls = ∥f0 − ˆf0∥1 + ∥p0 − ˆp0∥1 + ∥e0 − ˆe0∥1. (5)0L exp,L pose和Leye分别是面部表情、头部姿势和眼睛眨动AU的L2范数损失。我们还引入了运动损失U来保证帧间连续性:0Lexp =0t=0V(ft, ˆft) + ω50t = 1U(ft-1, ft, ˆft-1, ˆft),0Lpose =0t = 0V(pt, ˆpt) + ω50t = 1U(pt-1, pt, ˆpt-1,ˆpt),0Leye =0t = 0V(et, ˆet) + ω50t = 1U(et-1, et, ˆet-1,ˆet),0其中V(xt, ˆxt) = ||xt - ˆxt||²,U(xt-1, xt, ˆxt-1, ˆxt) = ∥xt -xt-1 - (ˆxt -ˆxt-1)∥²用于保证相邻帧之间的时间连贯性。ω5是平衡这两个项的权重。这里用x表示预测的ˆx的真实值。面部鉴别器Df的损失定义如下:0LF-GAN = arg min Gf max Df Ef, p, e[log Df(f, p,e)]+0Ea,s[log(1 - Df(Gf(a, s))], (7)0其中生成器Gf由两个子生成器Gtem和Gloc组成,最小化这个目标函数,而鉴别器Df则进行最大化优化。最终的损失函数定义如下:0Lfacial = ω6LF-GAN + LReg. (8)38710图4.部分敏感编码映射的示意图。我们最终生成的编码e由两部分组成:c)估计的眨眼AU,和d)眼睛注意力图。03.3. 隐式部分敏感编码0通过结合参考视频中的几何、纹理和光照系数以及输入音频中生成的表情和头部姿势系数,我们可以呈现具有个性化头部运动的3D人脸。3D模型通过旋转和平移头部来更好地描述头部姿势,比2D方法更好。然而,对于3D重建方法来说,捕捉上半脸区域的微小运动非常困难,尤其是眨眼动作,如图4所示。我们结合了3D模型和2D动作单元的优势,生成具有个性化头部运动和自然眨眼的说话人脸。一种直观的解决方案是直接将眨眼值连接到面部图像通道上。然而,卷积神经网络无法识别眼部的这个通道。我们提出使用眼睛注意力图,首先定位眼部区域,然后根据眨眼AU值仅改变该区域的像素值。我们首先标记3D模型中眼部区域的顶点。顶点是根据3D可塑模型(3DMM)的平均面部几何形状通过以下标准确定的:0(vx - centerx)² / 4 + (vy - centery)² < th,(9)0其中vx,vy是顶点v的x、y值,centerx,centery是每个眼睛标记的中心的x、y值。阈值th用于调整眼部区域的大小。在3D人脸渲染过程中,我们定位与标记区域相关的像素,为图4中的每个面部图像生成眼睛注意力图。最后,我们将归一化的眨眼值应用于眼睛注意力图中的像素。03.4. 渲染到视频网络0我们使用渲染到视频网络将渲染图像转换为最终的照片般逼真的图像。受到Kim等人的启发[20],我们首先将渲染图像与眼睛注意力图结合起来,生成大小为W×H×4(渲染图像有3个通道,注意力图有1个通道)的训练输入数据ˆI。为了确保0为了保持时间上的连贯性,我们使用一个大小为2Nw的窗口,当前帧位于窗口中心。根据Chan等人的方法[6],我们训练了一个由生成器Gr组成的渲染到视频的网络。0和一个多尺度鉴别器Dr=(Dr1, Dr2,Dr3),它们在对抗性方式下交替优化。生成器Gr接受大小为W×H×8Nw的堆叠张量Xt={ˆIt}t+Nwt-Nw作为输入,并输出目标人物的逼真图像Gr(Xt)。条件鉴别器Dr接受堆叠张量Xt和一个检查帧(真实图像I或生成图像Gr(Xt))作为输入,并判断检查帧是否真实。损失函数可以表示为:0L render 0D r i ∈ D r (L R − GAN (G r, D r i) + λ1L F M(G r, D r i))0+ λ2L VGG (G r (X t), I) + λ3L1 (G r (X t), I),(10)0其中L R − GAN (G r, D r)是GAN对抗损失,L F M (G r, Dr)表示[33]提出的鉴别器特征匹配损失,L V GG (G r,I)是用于语义级相似性的VGG感知损失[18],L1 (G r,I)是绝对像素误差损失。通过解决典型的最小-最大优化问题可以得到最优的网络参数:0G r � = arg min G r max D r L render (G r, D r).(11)04. 数据集收集0如上所述,以前的流行数据集大多忽视了显式和隐式属性的组合。例如,GRID[13]为说话头视频提供了一个固定的头部姿势,而其他一些数据集则不关注一个特定人的属性,例如LRW[11]包含许多不同人的短片。为了共同融合神经说话头的显式和隐式属性,我们采用了张等人的说话头数据集[38],其中包含丰富的信息,即动态头部姿势、眼部运动、嘴唇同步以及每帧的3D面部模型。音频预处理。我们使用DeepSpeech[17]提取语音特征。DeepSpeech输出每秒50帧中字符的归一化对数概率,形成每秒大小为50×D的数组。这里D =29是每帧中的语音特征数量。我们使用线性插值将输出重新采样为30FPS,以匹配我们数据集中的视频帧,这样每秒生成一个大小为30×D的数组。头部姿势和眼部运动场。为了自动收集头部姿势并检测眼部运动,我们采用OpenFace[2]对每个视频帧的面部参数进行生成。刚性头部姿势p ∈ R6由欧拉角(俯仰θ x,偏航θ y,滚转θ z)和一个38720图5. 与ATVG [9]、DAVS[40]、Zhou等人[41]和Yi等人[36]的比较。第一行是对应的视频帧与输入音频。a)和c)是生成的视频帧。b)和d)是多帧中面部标志的相应轨迹图。从轨迹图中我们可以看出我们生成的头部运动与源视频高度一致。03D翻译向量t ∈R3。为了描绘眼部运动,利用动作单元(AUs)[15]来定义眼部周围肌肉群的动作强度。3D面部重建。为了自动生成3D面部模型,我们采用Deng等人的方法[14]生成面部参数[Fid,F exp,F tex,γ],其中F id ∈ R 80,F exp ∈ R64和F tex ∈ R80分别是3D可塑模型(3DMM)[3]的几何、表情和纹理的系数。γ ∈ R27是球面谐波(SH)[25]的照明系数。3DMM的参数化面部模型由一个具有N个顶点的模板三角网格和一个定义面部几何S ∈ R 3N和纹理T ∈ R 3N的仿射模型组成:0T = T + B tex F tex, (12)0其中S和T ∈ R 3N分别表示平均面部几何和纹理。B id,Btex和B exp是从Basel Face Model [22]和FaceWareHouse[5]采用的几何、纹理和表情的PCA基础。数据集统计。该数据集包含超过450个视频剪辑的丰富样本,这些样本是从Agarwal等人[1]使用的视频中收集的。每个视频剪辑持续约1分钟。我们将所有视频重新标准化为30FPS,总共形成535,400帧。我们进一步使用5-1-4的训练-验证-测试分割划分我们的数据集。每个视频0我们的数据集中的剪辑具有稳定的固定摄像机和适当的照明,只有一个说话者用于稳定的面部生成。05. 实验05.1. 网络学习0训练。我们的训练方案包括两个步骤:(1)我们首先基于整个训练数据集优化FACIAL-GAN损失Lfacial,主要考虑音频和生成属性之间的一般映射关系。(2)给定参考视频V,我们首先提取音频特征a、3D面部模型、头部姿势p和眼睛眨动AUe。然后,我们微调FACIAL-GAN损失Lfacial,学习个性化的说话风格。同时,我们优化渲染损失Lrender,学习从渲染的面部和眼睛注意力图到最终视频帧的映射。测试。给定输入音频,我们首先使用经过微调的FACIAL-GAN将音频特征映射到表情f、头部姿势p和眼睛眨动AUe,这些特征具有参考视频的个性化说话风格。然后,我们渲染相应的面部图像和眼睛注意力图,并将它们转换为具有个性化说话风格的逼真目标视频。实现细节。所有实验都在一台单独的NVIDIA 1080-Ti GPU上进行,使用Adam[21]优化器和学习率为0.0001。我们使用大小为T =128的滑动窗口来提取音频的训练样本。38730图6. 与2D GAN-basedVougioukas等人[32]和Chen等人[7]方法的比较。0图7. 与Suwajanakorn等人的Synthesizing Obama[28]和Thies等人的Neural Voice Puppetry [29]的比较。0我们在数据集上使用滑动距离为5帧的音频和视频样本。总共训练了50个epoch,批量大小为64,用于一般训练。对于微调步骤,需要10个epoch,批量大小为16。对于渲染到视频网络,训练过程需要50个epoch,批量大小为1,最后30个epoch进行学习率衰减。在我们的实验中,方程(4),(6),(8)中的参数为ω1 = 2,ω2 = 1,ω3 = 5,ω4= 10,ω5 = 10,ω6 = 0.1。方程(10)中的参数为λ1 =2,λ2 = 10,λ3 = 50。05.2. 与现有技术的比较05.2.1 定性比较0如图5所示,我们首先将我们的结果与四种最先进的音频驱动说话面部视频生成方法进行比较:ATVG [9],DAVS[40],Zhou等人[41]和Yi等人[36]。ATVG和DAVS是基于2D的方法,它们将音频序列和目标图像作为输入。它们生成的视频中的头部姿势和眨眼是完全静态的,这与人类的感觉相矛盾。Zhou等人[41]使用面部关键点作为中间步骤生成说话面部视频。然而,使用关键点位置来表示它们无法完全捕捉到头部姿势的动态变化。Yi等人[36]通过使用3D面部模型生成逼真的说话视频。然而,它生成的头部姿势显示出微小的运动,如图5中的轨迹图所示,而眨眼完全静止。相比之下,我们的方法通过协同学习显式和隐式属性,生成具有个性化头部运动和逼真眨眼的逼真说话面部视频。我们还将我们的方法与基于2DGAN的Vougioukas等人[32]和Chen等人[7]的方法进行了比较,如图6所示。比较是在0相同的字符,我们的结果在视觉质量上比其他所有方法都要高。我们进一步将我们的方法与音频驱动的面部复现方法[28,29]进行比较,这些方法首先生成与输入音频同步的唇部区域,并将其合成到原始视频中。我们在同一角色 -巴拉克∙奥巴马的基础上展示了定性结果,面部复现方法可以在图7中生成逼真的说话视频。然而,它们生成的隐式属性(例如,头部姿势和眨眼)完全来自原始视频,这意味着生成的视频长度受参考视频限制,否则必须使用特殊的视频连接技术。05.2.2 定量评估0地标距离度量:我们应用了Chen等人提出的地标距离(LMD)[8]来评估唇部运动的准确性。清晰度度量:帧清晰度通过累积概率模糊检测(CPBD)进行评估。唇同步度量:我们通过SyncNet[12]评估唇部运动与输入音频的同步性,该方法计算音频-视觉(AV)偏移和置信度分数来确定唇同步误差。眼睛眨动度量:人类平均眼睛眨动率为0.28-0.45次/秒,平均眨眼间隔时间为0.41秒[26]。这些参考值会因不同的人和说话场景而有所不同。个性化度量:一个高质量的合成应该能够为不同的身份生成个性化特征。为了评估这种个性化能力,我们通过匹配输入头部姿势或眼睛眨动来训练一个典型的N路姿势分类网络(更多信息请参见补充材料)的N个身份。如表1所示,我们的模型能够生成个性化属性,并超过大多数现有方法[9, 40, 41,36],这验证了我们的协作学习网络的有效性。05.3. 消融研究0在我们的FACIAL-GAN模块中,我们生成时间相关特征z和本地语音特征c,然后使用解码器将这两个特征转换为包括表情、头部姿势和眼睛眨动AU在内的面部属性。在这里,我们评估了这两个特征的重要性。如图8所示,生成的视频在第二行(无Gloc)中导致-3 /4.309(AV偏移/置信度),在第三行(无Gtem)中导致-2/ 4.051,对于我们的组合方法导致-2 /5.127。此外,从跟踪图中可以看出,没有Gtem网络时头部运动更加静态。我们还评估了我们的部分敏感编码模块。对于没有眼部注意力的视频帧,闪烁频率为DAVS [40]-1.2-1.7-1.7-1.6Zhou [41]0.80.90.61.0Yi [36]1.60.80.90.2Vougioukas [32]-0.61.1-1.3-1.438740表1. 最先进模型和我们的模型的定量比较。较好的值以粗体显示。0方法 LMD CPBD AV 偏移 AV 置信度 闪烁/秒 闪烁持续时间(秒)个性化0眨眼 头部姿势0ATVG [ 9 ] 5.31 0.119 -1 4.048 N/A N/A N/A N/A DAVS [ 40 ] 4.54 0.144 -3 2.796 N/A N/A N/AN/A Zhou [ 41 ] 4.97 0.271 -2 5.086 0.42 0.21 0.40 0.52 Yi [ 36 ] 3.82 0.291 -2 4.060 N/A N/AN/A 0.30 我们的 3.57 0.314 -2 5.216 0.47 0.26 0.73 0.850图8. Gtem和Gloc的消融研究。0图9. 部分敏感编码映射的消融研究。0生成的视频的闪烁频率非常低且不自然。我们从测试数据集中采样了1,569个视频片段,每个片段约为4秒。然后我们计算了视频片段的眨眼分布以及有无眼部注意力映射的眨眼持续时间分布,如图9所示。从我们的方法的结果可以看出,闪烁频率和持续时间与真实视频的相似。05.4. 用户研究0我们进行用户研究,从人的角度比较生成的结果。有20名志愿者参与研究,根据四个标准评估视频质量:1)照片逼真的图像质量,2)音频-唇同步,3)自然的头部运动,4)真实的眨眼。参与者0表2. 我们的模型与现有技术的用户研究分析。0隐式注意力方法 图像 唇部 姿势 眨眼0我们的1.6 1.2 1.7 1.40真实视频1.9 2.0 1.9 2.00根据评估标准,需要对每个视频进行4次评估。评估分数包括:-2(非常差),-1(差),0(正常),1(好),2(非常好)。每个参与者首先学习3个示例,然后评估18个真实视频或从面部生成方法合成的视频。我们计算每种方法评估结果的平均值。参与者的评估结果总结在表2中,表明我们的方法优于最先进的方法。06.讨论和未来工作0在这项工作中,我们专注于自然头部姿势和眨眼的隐式属性学习。值得注意的是,人类说话的视频仍然具有其他隐式属性,例如注视运动,身体和手势,微表情等,这些属性由其他信息维度引导,并可能需要其他网络组件的特定设计。我们希望我们的FACIAL框架能够成为未来探索隐式属性学习以及这些方向的垫脚石。0致谢0这项研究得到了美国国家科学基金会(2007661)和三星研究美国的研究礼物的部分支持。曾受到NSFC(No.62072382)的支持,中国中央高校基本科研业务费(No.20720190003)。所表达的观点仅代表作者本人,不一定代表资助机构的观点。38750参考文献0[1] Shruti Agarwal,Hany Farid,Yuming Gu,MingmingHe,Koki Nagano和HaoLi。保护世界领导人免受深度伪造。在IEEE计算机视觉和模式识别会议研讨会论文集中,页码38-45,2019年。60[2] Brandon Amos,Bartosz Ludwiczuk和Mahadev Satya-narayanan。Openface:一个通用的面部识别库,具有移动应用。技术报告,2016年。50[3] Volker Blanz,ThomasVetter等。用于合成3D面部的可变模型。在Siggraph中,卷99,页码187-194,1999年。60[4] Christoph Bregler,Michele Covell和MalcolmSlaney。视频重写:用音频驱动视觉语音。在第24届计算机图形学和交互技术年会上,页码353-360,1997年。1,20[5] Chen Cao,Yanlin Weng,Shun Zhou,Yiying Tong和KunZhou。Facewarehouse:用于视觉计算的3D面部表情数据库。IEEE可视化和计算机图形学交易,20(3):413-425,2013年。60[6] Caroline Chan,Shiry Ginosar,Tinghui Zhou和Alexei AEfros。现在每个人都在跳舞。在IEEE国际计算机视觉会议(ICCV)中,页码5933-5942,2019年。50[7]陈乐乐,崔国锋,刘策龙,李忠,寇子怡,徐毅和徐晨亮。具有韵律头部运动的说话头生成。在欧洲计算机视觉会议(ECCV)中,页码35-51,2020年。2,7,80[8] 陈乐乐,李志恒,Ross KMaddox,段志耀和徐晨亮。一瞥生成唇部运动。在欧洲计算机视觉会议(ECCV)中,页码520-535,2018年。70[9] 陈乐乐,Ross KMaddox,段志耀和徐晨亮。具有动态像素损失的分层跨模态说话面生成。在IEEE计算机视觉和模式识别会议(CVPR)中,页码7832-7841,2019年。1,2,6,7,80[10] 钟俊孙,Amir Jamaludin和AndrewZisserman。你说了什么?在英国机器视觉会议(BMVC)中,2017年。1,20[11] 钟俊孙和AndrewZisserman。在野外读唇。在亚洲计算机视觉会议(ACCV)中,页码87-103,2016年。50[12] Joon Son Chung和Andrew Zisserman.时间上的自动化唇同步。在亚洲计算机视觉会议(ACCV)上,页码251–263,2016年。70[13] Martin Cooke, Jon Barker, Stuart Cunningham和Xu Shao.用于语音感知和自动语音识别的视听语料库。美国声学学会杂志,120(5):2421–2424,2006年。50[14] Yu Deng, Jiaolong Yang, Sicheng Xu, Dong Chen, YundeJia和Xin Tong.弱监督学习下准确的3D人脸重建:从单个图像到图像集。在IEEE计算机视觉和模式识别会议研讨会上,页码0–0,2019年。60[15] Paul Ekman和Wallace V Friesen.面部动作编码系统手册。1978年。60[16] Tony Ezzat, Gadi Geiger和Tomaso Poggio.可训练的逼真语音动画。ACM Transactions on Graphics(TOG),21(3):388–398,2002年。1, 20[17] Awni Hannun, Carl Case, Jared Casper, Bryan Catanzaro,Greg Diamos, Erich Elsen, Ryan Prenger, Sanjeev Satheesh,Shubho Sengupta, AdamCoates等。深度语音:扩展端到端语音识别。arXiv预印本arXiv:1412.5567,2014年。4, 50[18] Justin Johnson, Alexandre Alahi和Li Fei-Fei.用于实时风格转换和超分辨率的感知损失。在欧洲计算机视觉会议(ECCV)上,页码694–711。Springer,2016年。50[19] Hyeongwoo Kim, Mohamed Elgharib, Michael Zollh¨ofer,Hans-Peter Seidel, Thabo Beeler, Christian Richardt和ChristianTheobalt. 保持神经风格的视觉配音。ACM Transactions onGraphics (TOG),38(6):1–13,2019年。30[20] Hyeongwoo Kim, Pablo Garrido, Ayush Tewari, WeipengXu, Justus Thies, Matthias Niessner, Patrick P´erez, ChristianRichardt, Michael Zollh¨ofer和Christian Theobalt.深度视频肖像。ACM Transactions on Graphics(TOG),37(4):1–14,2018年。3, 50[21] Diederik P Kingma和Jimmy Ba.Adam:一种随机优化方法。在国际学习表示会议(ICLR)上,2015年。60[22] Pascal Paysan, Reinhard Knothe, Brian Amberg, SamiRomdhani和Thomas Vetter.用于姿态和光照不变的人脸识别的3D人脸模型。在2009年第六届IEEE国际高级视频和信号监控会议上,页码296–301,2009年。60[23] KR Prajwal, Rudrabha Mukhopadhyay, Vinay PNambood- iri和CV Jawahar.一个唇同步专家足以实现野外语音到唇部生成。在第28届ACM国际多媒体会议上,页码484–492,2020年。20[24] Albert Pumarola, Antonio Agudo, Aleix M Martinez,Alberto Sanfeliu和Francesc Moreno-Noguer.Ganimation:从单个图像生成解剖学感知的面部动画。在欧洲计算机视觉会议(ECCV)上,页码818–833,2018年。30[25] Ravi Ramamoorthi和Pat Hanrahan.用于辐照度环境图的高效表示。在第28届年度计算机图形学和交互技术会议上,页码497–500,2001年。60[26] Sanjana Sinha, Sandika Biswas, and BrojeshwarBhowmick.保持身份的逼真说话人脸生成。在2020年国际联合神经网络会议(IJCNN)上,2020年。1, 2, 70[27] Yang Song, Jingwen Zhu, Dawei Li, Andy Wang和HairongQi.通过条件循环对抗网络生成说话人脸。在第二十八届国际人工智能联合会议(IJ-CAI)上,页码919–925,2019年。1, 20[28] Supasorn Suwajanakorn, Steven M Seitz, and IraKemelmacher-Shlizerman.合成奥巴马:从音频学习唇同步。ACM Transactions on Graphics(TOG),36(4):1–13,2017年。2, 738760[29] Justus Thies, Mohamed Elgharib, Ayush Tewari, ChristianTheobalt, 和 Matthias Nießner. 神经语音操纵:音频驱动的面部再现. 在欧洲计算机视觉会议上, 第716-731页.Springer, 2020年. 2 , 70[30] Justus Thies, Michael Zollhofer, Marc Stamminger,Christian Theobalt, 和 Matthias Nießner. Face2face:实时RGB视频的面部捕捉和再现.在IEEE计算机视觉与模式识别会议上, 第2387-2395页, 2016年. 30[31] Konstantinos Vougi
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功