基于时空卷积GAN的人脸表情视频生成：FEV-GAN

86 浏览量更新于2023-12-10 收藏 2.27MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

智能系统与应用16（2022）200139基于时空卷积GAN的人脸表情视频生成：FEV-GANHamza Bouzid*，Lahoucine Ballihi摩洛哥拉巴特穆罕默德五世大学科学学院，LRIT-CNCLUC URAC 29A R T I C L EI N FO保留字：面部表情生成视频生成深度学习生成对抗网络时空卷积网络MSC：41A0541A1065D0565D17A B S T R A C T面部表情生成一直是全球科学家和研究人员的一项有趣的任务。在这种情况下，我们提出了我们的新方法，用于生成视频的六个基本的面部表情。从单个中性面部图像和指示所需面部表情的标签开始，我们的目标是合成执行指定面部表情的给定身份的视频。我们的方法被称为FEV-GAN（面部表情视频GAN），基于时空卷积GAN，已知它可以在同一网络中对内容和运动进行建模。以前的方法基于这样的网络已经显示出良好的能力，以产生连贯的视频与平滑的时间演变。然而，它们仍然遭受低图像质量和低身份保持能力。在这项工作中，我们解决这个问题，通过使用两个图像编码器组成的生成器。第一个是预先训练的面部身份特征提取和空间特征提取的第二个。我们已经定性和定量地评估了我们的模型上的两个国际面部表情基准数据库：MUG和Oulu-CASIA NIR VIS。实验结果分析表明，我们的方法在生成视频的六个基本的面部表情，同时保持输入身份的有效性。分析还证明，身份和空间特征的使用增强了解码器更好地保留身份并生成高质量视频的能力。代码和预训练模型将很快公开提供。1. 介绍面部表情一直被认为是人类互动的重要工具之一。将识别和合成面部表情的能力集成到机器中，可以提供自然流畅的交互。这为不同领域的许多令人兴奋的新应用打开了大门，包括电影业，电子商务，甚至医疗领域。受此启发，研究人员已经研究了面部表情识别，并且已经达到了高精度水平，而面部表情生成在现有技术中要求更高，研究较少。最近，随着遗传对抗网络（GAN）的成功（Goodfellow et al.，2014）在数据生成，特别是图像生成中，生成面部表情的任务已经取得了巨大的进步。然而，动态面部表情合成的研究甚至更少，这是由于任务的难度：（1）学习数据集分布（面部结构，背景），（2）表示自然和平滑的面部表情演变（时间表示），（3）保持相同的输入身份。为了解决高复杂性在这三个任务中，大多数现有方法倾向于将面部表情生成视为两步过程。一个步骤用于低维时间生成（运动），另一个步骤用于空间生成（内容）。这些方法（ Otberdout 等人， 2019; Tulyakov 等人，2018;Wang等人，2018a）主要基于（1）在潜在空间中生成作为代码的运动，然后（2）通过使用图像到图像转换网络将其与输入图像嵌入组合以单独生成帧。这些方法在学习面部结构和身份保持方面是有效的，但在建模时空一致性和外观保持方面存在缺陷。这是由帧生成之间的独立性引起的。受到深度时空神经网络模型在识别和预测任务中的成功的启发（AlChanti和Caplier，2018;Ali等人，2021，2022; Tran等人，2018），研究人员提出了各种一步法（ Jang et al. ， 2018; Vondrick 等人，2016;Wang等人，2020 a，2020 b），其使用分数步幅3D卷积。这些方法生成的视频具有更好的时空一致性，但视频质量较低，噪声* 通讯作者。电子邮件地址：hamza-bouzid@um5r.ac.ma（H. Bouzid），lahoucine. fsr.um5.ac.ma（L.Ballihi）。https://doi.org/10.1016/j.iswa.2022.200139接收日期：2022年7月20日;接收日期：2022年9月21日;接受日期：2022年2022年10月8日网上发售2667-3053/© 2022作者。由Elsevier Ltd.发布。这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表智能系统及其应用杂志主页：www.journals.elsevier.com/intelligent-systems-with-applicationsH. Bouzid和L. 巴利希智能系统与应用16（2022）2001392和失真，以及与两步法相比更多的身份保存问题。我们认为这是由于在一个网络中结合了三个任务的高复杂性（学习1。空间表现; 2. 时间表征，3. 身份保护）。这就需要一个潜在复杂度高、数据量大的大型网络，这就大大增加了模型优化的难度。为了解决一步方法所面临的低质量、噪声和身份保持能力的问题，我们提出在潜在空间中将输入图像编码成两个代码，使用两个特征提取器（EId身份特征提取器，Es空间特征提取器）。我们还建议利用最先进的面部识别系统的高性能，通过利用预先训练的面部识别特征提取器作为我们的身份编码器EId。这将授予有助于身份保留的身份相关功能。此外，使用预先训练的特征提取器允许仅对用于提取其他空间特征的其他编码器ES应用优化过程，以便在重构面部表情视频的同时保持足够好的质量。概括而言，我们的贡献包括以下几个方面：1. 我们提出了一个有条件的GAN，一个单一的发电机和一个单一的神经网络，在每个时间步生成一个动态的面部表情视频，对应于所需的表情类。生成的视频呈现逼真的外观，并保留输入图像的身份。2. 我们调查的影响，利用两个编码器EId和ES，其中EId是一个面部身份特征提取器和ES是一个空间特征提取器。3. 我们利用最先进的面部识别系统的巨大潜力。我们使用预先训练的人脸识别模型作为我们的生成器编码器EId，这将确保强相关的身份特征。这旨在通过提供有意义的和结构化的特征来促进解码器的任务。4. 我们深入评估我们的模型，定量和定性，在两个公共的面部表情基准：MUG面部表情数据库和Oulu-CASIA NIR VIS面部表情数据库。我们将其与最近的最先进的方法进行比较：VGAN（Vondrick等人，2016）、MoCoGAN（Tulyakov等人，2018）、ImaGI-Nator（Wang等人， 2020b）和（Otberdout等人， 2019年）。2. 相关工作静态面部表情生成-面部表情合成最初是通过使用传统方法实现的，例如几何插值（Pighin等人，2006），参数化（Raou-zaiou等人，这些方法在化身上取得了成功，但在处理真实面孔时却有所不足，并且由于自然人类表情的高度复杂性和身份特定特征的多样性，它们无法概括所有人脸的运动流。为了面对这些限制，基于神经网络的方法已经应用于面部表情生成，包括RBM（Zeiler等人，2011）、DBN（Sabzevari等人，2010）和变分自动编码器（Kingma和Welling，2014）等。与现有方法相比，这些方法学习可接受的数据表示和不同数据分布之间的更好流动，但它们面临诸如控制面部表情时缺乏精度、分辨率低和生成的图像模糊等问题。随着GAN的出现，它的多个扩展已经被致力于面部表情的生成。Makhzani et al.（2015）和Zhou and Shi（2017）利用自动编码器的逆境概念来呈现对抗性自动编码器。Zhu等人（2017）提出了一种concept GAN，即CycleGAN，它使用循环一致性损失来保留数据的关键属性（身份）。Choi等人（2018年）解决了为每种类型的转换，通过提出一个架构，可以处理不同的数据集之间的不同的转换。Wang等人（2018 b）建议利用U-Net架构作为GAN生成器，以提高生成图像的质量和分辨率。US-GAN（Akram和Khan，2021）使用了一种称为终极跳过连接的跳过连接，它将输入图像与模型的输出联系起来，这使得模型可以专注于学习与表情相关的细节。该模型输出输入图像和所生成的表情细节的相加，从而改进了身份保持，但是在与表情相关的区域（嘴、鼻子、眼睛）中显示伪像。上述研究建立了生成面部表情类别（悲伤、快乐、愤怒等）的任务，但实际上，表达的强度抑制了对人的情绪状态的理解。E X prGAN（Ding等人，2017）使用表达控制器模块来连续地控制表达强度从弱到强。方法如GANimation（Pumarola等人，2018）、EF-GAN（Wu等人，2020年）使用行动单位（AU），以学习调节生成过程，从而在生成的实验中提供更多的多样性。其他方法如G2-GAN（Song等人，2018）和GC-GAN（Qiao等人，2018）利用面部几何作为控制面部表情合成的条件。后一种模式的目标是将二进制图像或地标坐标，然后学习生成具有相同身份和目标表情的真实人脸图像。Kollias等人（2020）和Bai等人（2022）利用来自2D效价-唤醒空间的标签，其中效价是情绪的积极或消极程度唤醒是情绪激活的动力（Russell，1980），引导表情生成过程，增强表情生成的多样性和控制性。所有这些方法和其他方法都建立了面部表情生成的任务，但没有考虑这些表情的动态性动态面部表情生成-面部表情是自然的动态动作，包含比单个姿势更多的信息和细节，例如面部表情变换的速度，显示表情时的头部运动等。为了实现这一点，方法如（Ha等人，2020年; Li等人，2021年;Tang等人，2021; Tu等人，2021; Vowels等人，2021）集中于面部表情转移，其中面部表情从驾驶员转移到目标面部，同时旨在即使在驾驶员的面部特征与目标的面部特征大不相同的情况下也保持目标身份。在其他方法中，运动被单独地生成为潜在空间中的代码，这些代码然后被馈送到生成器，以便单独地生成视频的帧。例如，MoCoGAN（Tulyakov等人，2018）将视频分解为内容和运动信息，其中视频运动由门控RNN（GRU）学习，并且视频帧由GAN顺序生成。RV-GAN（Gupta等人，2022）使用转置（上采样而不是下采样）卷积LSTM作为GAN生成器来单独生成帧。然而，这两种模型的结果都存在内容和运动伪影，并且它们都只能应用于之前见过的身份和有限数量的表达式。在（Fan等人，2019年），MoCoGAN的原理通过添加编码器来扩展，保持输入恒等式和系数，以连续地控制表达式作者Wang et al.（2018 a）利用多模式递归标志生成器来学习生成相同类别的面部标志的变体序列（例如，不同的微笑方式），稍后转换为视频帧。在Otberdout et al. （2019），作者利用流形值Wasserstein GAN的条件版本将面部标志运动建模为编码为超球体上的点的曲线。W-GAN学习不同类别的面部表情动态的分布，从中合成新的面部表情运动并通过TextureGAN转换为视频。其他工作已经研究了通过语音音频数据来引导面部表情生成，例如 Chen 等人（ 2020 ）、 Guo 等人（2021）、Liang等人（2022）和Wang等人（2022），或者通过音频和H. Bouzid和L. 巴利希智能系统与应用16（2022）2001393̂̂̂×× ××（）下一页× ××（）（）Fig. 1. 概述用于生成面部表情的拟议模型：FEV-GAN。输入图像通过两个编码器（身份（EId）和空间（ES）编码器）被映射成潜码FId和FS。代码和标签L都被馈送到解码器Gdec，解码器G dec将它们变换为执行期望表达的输入身份的视频。而CNOD的目的是从合成的场景中分类真实场景。面部标志信息，如Sinha等人（2022），Wang等人（2021）和Wu等人（2021）。前面提到的所有方法都是在时间步长处生成单个帧的方法，这降低了视频帧之间的依赖性，从而导致缺乏时空一致性。与前面提到的方法相比，像VGAN（Vondrick等人，2016）、G3AN（Wang等人，2020a）和ImaGINator（Wang等人，2020 b）通过采用分数步幅的时空卷积来同时生成外观以及运动，使用单个步骤来生成整个面部表情视频。VGAN将生成的视频分解为两个部分，静态部分（背景）和动态部分，这强制使用由两个流组成的生成器，用于生成背景和前景，其在输出中组合以生成整个视频。G3AN旨在以非纠缠的方式对外观和运动进行建模。这是通过在三流发生器中分解外观和运动来实现的，其中主流对时空一致性进行建模，而两个辅助流分别用多尺度外观和运动特征增强主流。VGAN和G3AN都是从高斯噪声输入开始的无条件模型，导致缺乏身份保护和对生成的表达式的控制。为了避免这些问题，ImaGINator使用了混合自动编码器架构和时空融合机制，哪里的低层空间编码器中的特征被直接发送到解码器（与 U-Net 相同的概念（Ronneberger等人，2015））。它还使用两个判别器，一个处理整个视频，另一个处理逐帧。与两步方法相比，这类方法生成的视频具有更好的时空一致性，但视频质量较低，噪声更多，身份保留基于以上讨论，我们提出了一种新的基于分数步长时空卷积的一步人脸表情生成方法。本文的其余部分组织如下。在第3节中，我们介绍了我们的新FEV-GAN模型。第四节介绍了实验设置和模型的定量和定性分析。第五部分总结全文，并对未来的研究进行展望.3. 该方法如引言所述，我们的主要目标是建立一个模型，从外观信息和表情类别生成动态面部表情视频。因此，我们将我们的目标公式化为学习函数G：{I，L}Y，其中I是输入图像，L是标签向量，Y是生成的视频。为了实现这一目标，我们提出了一个框架，由以下组件组成：一个生成器网络G建立在一个编码器-解码器架构。编码器EId和ES将单个图像I作为输入，并分别提取身份特征FId和空间特征FS。解码器Gdec利用所提取的特征（FId，FS），并且标签L，以生成真实视频Y。最后，一个可编程逻辑数据库辅助生成器学习外观和表达类别。我们的方法的概述如图所示。1.一、3.1. FEV-GAN模型描述在下文中，描述了我们的网络的架构，并提供了关于生成器G和CNOD的细节。生成器EId、ES、Gdec：如图1所示，我们的生成器由三个网络组成，即预训练的图像身份编码器EId、随机初始化的编码器ES和视频解码器Gdec。编码器E1d是公知的编码器。 state-of-the-art 面部识别模型，VGG-FACE（Parkhi例如，2015）特征提取器。它将（64× 64× 3）RGB图像I作为输入，并将其转换为包含面部身份特征FId的1024个（14× 14）特征图。编码器ES用高斯噪声它提取512个特征映射的（14 14）功能FS，包含更多的空间细节旁边的身份特征。然后，特征F_Id、F_S和标签向量L被级联并由解码器G_dec利用以生成新视频。解码器结合时空卷积和分数步长卷积，以将输入张量变换为高维生成的视频。三维卷积提供空间和时间不变性。分数卷积是一种有效的过采样工具，允许将潜在张量转换为（32 64 643）视频。鉴别器D：鉴别器的目标是学习i从合成场景中分类现实场景的能力，ii识别现实运动的能力，iii检测不同运动类别之间的差异的能力。为了实现这三个任务，我们使用五层时空卷积网络来学习视觉内容和运动建模。网络需要(32 3）来自数据集的视频Y或由生成器G生成的Y和作为输入的标签向量。然后，它会检查视频是否真实，以及运动和标签是否方便。该架构被设计为通过用直接时空卷积（子采样而不是过采样）替换分数步幅时空卷积来几乎反转Gdec，并调整后一层以产生二进制真实或假分类。H. Bouzid和L. 巴利希智能系统与应用16（2022）2001394输入：地面实况视频Y=[Y0，Y1，...，输入图像I=[I0，I1，...，I n];目标表达标记L=[L0，L1，...，L n];输出：FEV-GAN模型;EId←−使用不可学习的预训练VGG-FACE参数初始化;Es，Gdec，D←−用从高斯分布采样的可学习参数初始化;对于历元的数量，对于一个epoch中的迭代次数，FId（Ii） iii（i）;Fs（Ii）（Ii）;余氏←−Gdec（FId（Ii），Fs（Ii），Li）;E房←−D（Yi，Li）;←−D（Yi，Li）;LD ←−log（Ereal）+（1 −log（1−Erecon））;E侦察D←−D −α（ LD/D）;←−||Yi−Yi||1;←−||Fvg g（Yi）−Fvg g（Y<$i）||1;LrecLG ←−log（Ereal）+ Lrec+Lid;述盖G←−G −α（LG/G）;结束结束联系我们̂̂̂̂VGĜGDGDGD3.2. 损失函数为了训练我们的模型G：I，L_Y，网络D和G都使用我们的目标函数Eq. 1.一、Ltotal （ G ， D ） =Ladv （ G ， D ） +λ1Lrec （ G ） +λ2Lid （ G ），（ 1）它由三个损失组成：对抗损失Ladv，帮助生成器学习数据库分布。重构损失Lrec，其捕获视频的整体结构并提高质量。身份丢失LID，确保面部身份细节保留。由于我们发现三个损失值之间存在很大差异，因此使用λ1和λ2参数来帮助稳定训练并平衡模型的优化。因此，我们旨在解决G*=arg min max 我全部。（二）我们注意到，EId的参数在训练阶段被冻结，因为它是一个已经提取面部特征的预训练模型对抗性损失：我们的条件对抗性损失是交叉熵损失，其应用于G和D两者，目的是G（I，L）学习生成看起来类似于真实视频Y的视频Y，并且D学习区分真实样本Y和生成样本Y。我们训练模型，使G的目标是最小化函数，而D的目标是最大化它。min max Ladv=最小最大E-Y-P数据（Y）[logD（Y;L）]（三）+Ez<$Pz（z）[1-logD（G（I;L）; L）].重建损失：我们在视频级别的重建损失定义为：Lrec=[||对-对||1]、（ 4）其目的是捕获整体结构、视频一致性并帮助保存身份细节。这种损失是生成的视频之间的L1 Y 和地面实况视频Y 通过将该损失与Ladv结合，它有助于生成器G产生更多的逼真的视频和重建平滑的表情运动。身份丢失：身份丢失用于身份保存。这是一个类似于Lrec的L1范数损失，但是虽然Lrec旨在最小化Lid旨在最小化输入图像的身份特征与生成的视频的帧之间的L1距离。我们利用我们的VGG-FACE编码器相同的架构，从输入和输出数据中提取身份特征。这一损失形式化为：NLid=Σ[||Fvg g（I）-Fi（Y）||1]、（5）i=0我其中Fvgg（I）是输入图像I的身份特征，并且Fvgg（Y）日是i的身份特征 Y的框架。此外，我们在视频的4帧而不是32帧上使用Lid我们依靠3D卷积的时空一致性来将身份保留推广到视频的其余部分3.3. 训练算法算法1突出了所提出的FEV-GAN模型的训练过程。将训练数据集（I，L，Y）输入算法1。首先，初始化模型参数EId的参数是从预训练的VGG-FACE模型中加载的，而其余参数是从高斯分布（1;2）初始化。外部for循环用于从给定迭代次数（3;4）的数据中学习。输入图像Ii被馈送到编码器Eld（5）和Es（6），编码器Eld（5）和Es（6）分别将其编码为标识Fld和空间Fs特征。这些特点和123456789101112131415算法1.FEV-GAN模型的学习算法H. Bouzid和L. 巴利希智能系统与应用16（2022）2001395̂××× ×××表1使用PSNR、SSIM、ACD和ACD-I指标的FEV-GAN和基线模型的定量比较结果在MUG上训练在Oulu-Casia模型PSNRSSIMACDACD-IPSNRSSIMACDACD-IVGAN（Vondrick等人，（2016年）16.320.410.141.5515.090.610.271.37C-VGAN（Vondrick等人，（ 2016年）22.300.830.090.7315个。980.610.251.26MoCoGAN（Tulyakov等人， 2018年）18.160.580.150.90- ，- ，- ，- ，ImaGINator（Wang等人，（2020年b）20.290.850.080.2922.980.840.070.16（Otberdout等人， 2019年度）25.90.90- ，- ，24.440.89- ，- ，拟议的FEV-GAN27.100.910.090.2325.610.890.120.19然后，解码器Gdec使用给定的标签Li来生成伪视频Yi（7）.接下来，网络D估计从数据集而不是生成器采样视频的概率（8;9）。所生成的视频和视频估计用于计算损失（10;12;13;14）。最后，使用反向传播方法和Adam优化器来训练FEV-GAN模型（11;15）。4. 实验为了评估我们的模型，我们进行了广泛的实验验证。在下面的部分中，我们将详细介绍我们学习的实验设置。然后，对该模型进行定量和定性评估，并与 VGAN 、 MoCoGAN 、 ImaGINator 和（Otberdout等人，2019年）。最后，烧蚀研究，观察我们的模型的每个组件的影响4.1. 数据集对我们的方法进行评价：MUG面部表情数据库（多媒体理解组面部表情数据库）（Aifanti等人，2010年）：包含86人的视频，表演七种面部表情：“快乐”，“悲伤”，“惊讶”，“愤怒”，“厌恶”，“恐惧”和“中性”。数据库中的视频以中性表情开始和结束，并在中间显示表情的峰值。每个视频由50到160个RGB帧组成，分辨率为896 896。52名受试者的数据可供授权的互联网用户使用，25名受试者的数据可应要求提供，其余9名受试者的数据仅在MUG实验室提供。在这项工作中，我们使用了52个主题的公共数据。我们只使用了六个基本表情视频的前半部分，从中性表情开始，以表情峰值结束Oulu-CASIA NIR &VIS面部表情数据库（Zhao等人，2011年）：由480个视频组成，80人，年龄在23至58岁之间，表演六种面部表情：“快乐”，“悲伤”，“惊讶”，“愤怒”，“厌恶”和“恐惧”。每个视频由9到72个RGB帧组成分辨率为320 240，以中性表达式开始，以相应表达式的顶点结束。经授权的互联网用户可以使用整个数据库。4.2. 实现细节在使用数据之前，我们首先以独立于受试者的方式将数据分为两组，80%的数据用于学习阶段，20%用于测试阶段。然后，我们使用OpenFace裁剪面部区域并移除背景（Baltrusaitis等人，2018），使用Karcher（1977）提出的框架将所有视频标准化为32帧，并将每帧缩放为64 64像素。经过预处理阶段，我们最终得到了32 64 64 3个不同表情和黑色背景的视频。网络ES、Gdec和D的权重最初是从均值零和标准差0.01.网络E Id的权重用预训练的VGG-FACE的权重初始化（Parkhi等人，2015年，被冻结在培训阶段。梯度下降用于400个时期，以解决当量(2).二进制交叉熵损失用于对抗性损失，并且L1范数用于重建和身份损失。此外，Adam Optimizer（Kingma和Ba，2014）用于使用学习率0.0002，动量0.5。输入图像和视频的像素值被缩放到区间[ -1]。1]。Gdec的每一层后面都是激活函数ReLU（Agarap，2018）和批量归一化（Ioffe和Szegedy，2015），除了输出，它使用tanh。 LeakyReLU（Xu等人， 2015）和批量正常化除了输入层之外，都在屏幕中使用。该网络的实现是基于Vondrick et al.（2016）的实现的TensorFlow框架完成的。MUG数据的训练需要大约70小时的Nvidia GeForce GTX 1650 GPU（4Gb内存）。在Oulu-CASIA近红外VIS的培训需要大约X-iPhone40小时的Nvidia泰坦V GPU（12 GB的内存）.4.3. 评价衡量标准和基线为了定量地深入评估我们的模型，我们使用了几个指标：1) PSNR：（峰值信噪比）衡量生成的视频与其地面真实值之间的像素级相似性2) SSIM（Structural Similarity Index Measure，结构相似性指数）表示真实视频和重建视频之间的结构相似性。3) ACD（Tulyakov等人，2018）：（平均内容距离）基于生成的视频中每两个连续帧的面部特征之间的所有成对L2距离的平均值，测量生成的视频中的内容一致性。然而，ACD仅表示视频中的身份一致性，缺乏关于输入图像的身份保持的信息。4) ACD-I（Zhao等人，2018）：ACD扩展，用于测量生成的视频中输入人脸的身份保留。它计算L2之间的视频帧的面部特征和输入图像的距离的平均值。为了提取面部特征向量，我们使用OpenFace（Amos等人，2016年），这是一种经过面部识别训练的深度模型，可以超越人类的表现。较高的SSIM和PSNR分数指示较好的生成的视频质量，较低的ACD分数指示连续生成的视频帧中的相似面部，并且较低的ACD-1值指示输入图像和生成的视频中的面部之间的关于用于比较的最先进模型，我们使用了作者提供的VGAN和ImaGINator的公共代码，并进行了一些微小的更改。由于我们处理面部表情，我们训练了两个版本的VGAN，原始版本和条件版本。在条件VGAN中，我们使用了将输入图像转换为潜码的编码器，然后将潜码与标签连接并馈送到生成器，生成相同输入面部的目标表现的视频。对于MoCoGAN，我们利用了Wang等人（2020 b）中给出的结果。至于Otberdout等人（2019），我们使用了原始论文中的结果。4.4. 实验结果分析定量结果-为了进行我们的定量分析，我们首先从执行六个基本面部表情的测试子集中生成18个不同主题的106个视频。首先，我们证明我们的模型FEV-GAN提供更好的H. Bouzid和L. 巴利希智能系统与应用16（2022）2001396图二. 在MUG数据库（左）和Oulu-Casia（右）上生成面部表情视频。图像序列显示了测试数据集上同一对象的六个所呈现的图像每两帧被采样补充材料中提供了更多不同身份的例子图3.第三章。由输入图像中给定的人执行的六个基本面部表情的模型生成的视频的示例。见图4。FEV-GAN模型和MUG数据库上最新模型生成的序列的定性比较。我们的模型（a，c，e，g，i），VGAN（b），C-VGAN（d）和ImaGINator（h）生成的序列是从测试结果中随机选择的。由MoCoGAN（f）和Otberdout等人生成的序列。（ 2019）（j）摘自原始文件。所有图像都以4的时间步长采样重建能力比所有基线使用PSNR和SSIM。表1表明，我们的模型生成的视频质量更好，噪声更少，并且在所有视频中保留了输入的一般结构。然后，我们使用ACD度量分析内容一致性。我们的模型实现了与具有时空卷积的模型（VGAN和ImaGINator）相似的内容一致性，这些模型已知具有高内容一致性，而它超过了使用图像到图像的转换。在身份保护方面，我们提出的模型大大超过了VGAN，C-VGAN和MoCoGAN，并与ImaGINator竞争。我们注意到VGAN不保留身份。其分数用于表示未保留身份的度量值。ACD和ACD-I比较不包括Otberdout等人使用的模型。（2019年）作者使用H. Bouzid和L. 巴利希智能系统与应用16（2022）2001397表2FEV-GAN和基线模型的主观比较。报告的结果是评分员偏好的平均值。评分者偏好（%）FEV-GAN/C-VGAN 91.44% /08.56%FEV-GAN/MoCoGAN 78.09% /21.91%FEV-GAN/ImaGINator 71.07% /28.93%FEV-GAN/（Otberdout等人， 2019年）68.05% /31.95%一种不同的方法来计算指标。定性结果-图2呈现了相同身份的六个面部表情的生成视频的示例。图3展示了不同给定身份的六个两张图都显示了我们提出的模型在MUG数据集（左）和Oulu-Casia数据集（右）上训练的结果。生成的视频是从测试结果中随机抽取的。我们记得，用于学习和测试模型的数据是独立于主题的。合成的视频通常显示可以根据输入标签控制的自然、平滑和连续的面部变化。它们还保留了输入图像的特征，例如身份，胡子和眼镜。我们的模型在MUG数据上的结果略好于Oulu-Casia数据。这是由于Oulu-Casia包含的数据实例较少，具有各种肤色，光照条件和面部配件（眼镜），这增加了模型的模式学习难度。由我们的模型生成的视频的更多示例在图7中给出。图 4、将我们的结果与最先进的方法进行比较，在MUG数据库上进行。该图示出了由我们的模型VGAN、C-VGAN、MoCoGAN、ImaGINator和（Otberdout等人，2019年）。在图像的左侧，我们显示了用于生成视频的输入图像，在中间，我们显示了由模型生成的视频（a，c，e，g，i），在右侧，我们显示了由基线生成的视频（b，d，f，h，j）。在每次比较中，每行，我们的模型生成的视频和基线都包含相同的身份和表达。在第一个比较（a，b）中，VGAN显示出自然的平滑表达，但完全丧失了同一性。在（c，d）中，C-VGAN通常保留输入身份，但具有细节损失（如肤色）、噪声和伪影。在（e，f）中，MoCoGAN提供了足够的身份保护，但身份已经在训练集中使用。MoCoGAN还遭受了生成图像中的不自然表达和失真，我们怀疑这导致了高 ACD-I 值，即使身份比 C-VGAN 更好地保留。在（ g ， h ）中，ImaGINator保留输入身份，但更改皮肤颜色并显示不自然的表情。在（i，j）中，基线示出了充分的身份保持和结构一致性，但是在嘴和鼻子区域附近显示伪影。该图表明，我们的模型在身份保留和质量方面通常超过基线。生成的视频。它还表明，我们的模型保持了具有与时空模型相同的内容一致性和表达自然性。与这些方法和其他方法的更多定性比较在图中进行。 8 in Baghdi X.此外，我们还进行了一项主观测试，旨在获得人类评分员对我们的方法生成的视频的意见，并与最先进的方法进行比较。我们要求17名志愿者比较我们的方法和基线生成的视频。所有志愿者都是来自不同大学实验室的深度学习领域的博士生和研究人员。志愿者们被问了30多个问题，每次我们都给他们提供两个视频，由我们的模型和其中一个基线生成，而不透露视频的来源。他们被问到的问题是根据表情自然度、身份保护和视频质量的平均值，从两个给定的视频中选择最好的一个。如表2所示，我们的方法在很大程度上优于引用的模型。评分者对我们的方法表现出强烈的偏好，而不是C-VGAN（91。44% VS 08. 56%）、MoCoGAN（78. 09% VS 21. 91%）、ImaGINator（71. 07% VS 28. 93%），这与定量结果一致。评论员还指出，1。与C-VGAN相比，我们表现出几乎相同的表达自然度和内容一致性，而在身份保留和生成视频的质量方面超过了它。2. 与MoCoGAN相比，我们在所有标准上都超过了它。3. 至于ImaGINator，我们有相同水平的身份保护，但我们提供更好的质量和更自然的外观。4. 评分员还提到，最接近我们的模型是Otberdout等人提出的模型。（2019年）。他们说，基线在身份保护方面略优于我们，而我们生成具有较少噪声和伪影的视频定量和定性分析的结果表明，该模型与其他时空卷积模型一样，保持了内容一致性和表达自然性，同时提供了更好的质量和身份保护。消融研究-在本节中，我们将重点展示用于构建模型的技术的重要性。我们展示了双编码器方法的效果和预训练的面部特征提取器的效果。这是通过在MUG数据库上进行消融研究来进行的。我们在模型的多个版本上使用了与之前相同的评估指标，其中我们取消了目标组件并观察其效果。我们首先训练模型的两个新版本。在第一个中，我们丢弃空间编码器ES，而在第二个中，我们移除身份特征编码器EId。两个网络都使用相同的数据集、参数、损失和相同数量的时期进行训练和评估，作为完整的网络。图5示出了由我们的完整网络、由网络w/oES和由网络w/oEId生成的序列。我们推断，我们的完整网络生成输入身份的视频，以高质量和更好的面部细节执行目标表情。从序列中可以看出图5中。b，网络w/oES生成较低质量和较差身份保留的视频，并且它不能充分保留表3我们的模型在没有EId和ES的情况下的性能比较型号PSNR SSIM ACDACD-IFEV-GAN w/oES25.44 0.90 0.11 0.34FEV-GAN w/oEId19.71 0.69 0.13 1.22全FEV-GAN 27.10 0.91 0.09 0.23图五、在MUG数据库上定性比较由我们的全FEV-GAN模型（a）、由FEV-GAN w/o ES（b）和由FEV-GAN w/o E Id（c）生成的序列。H. Bouzid和L. 巴利希智能系统与应用16（2022）2001398见图6。我们的模型有缺陷的视频生成的例子。重要的细节，如肤色，面部毛发，和次要的细节，嘴、鼻子和眼睛周围的区域。如图5所示。c，由网络w/oEId生成的视频显示出更自然的表达，但它们也显示出更多的噪声和失真，并且它们完全缺乏身份保护。表3中所示的测试表明，在质量、内容一致性和身份保留方面，网络的完整版本比修改后的版本给出了更好的结果。这可以通过两个编码器架构的存在来解释。保证强身份相关特征的EId能力使得ES更容易学习提取提供更多细节和信息的其他特征，从而给予解码器学习生成更好质量视频的能力。4.5. 讨论和局限性从定量和定性比较中，我们得出结论，我们的模型在所有标准中大大优于基准C-VGAN和MoCoGAN。至于与ImaGINator的比较，我们显示了类似的内容一致性，但是ImaGINator结果显示了一些身份细节丢失和不自然的表情，在嘴和眼睛区域有明显的扭曲图 4.f 图8.j。对于（Otberdout等人，2019年），它生成具有高身份和结构保留的视频，但它也显示了嘴和眼睛区域的伪影。我们认为，我们提出的模型通常生成更好的质量视频的输入身份的自然表达，具有最小的噪声和失真。然而，有一些不准确的缺陷，我们的FEV-GAN模型。图6示出了不精确视频生成的一些示例。例如，当在源图像中没有给出牙齿区域时，模型学习合成牙齿区域，但是当它们在输入图像中没有清楚地显示时，模型不能生成眼睛（图6的第一示例）。此外，该模型使用中性表情输入图像进行训练。如果给出非中性表情，则所生成的视频不显示从中性表情到目标表情的转变（图6的第二示例）。此外，该模型偶尔会在眼睛或嘴巴区域构建具有一些轻微失真的视频（图3中的第3和第 4个示例）。（六）。5. 结论和展望在本文中，我们提出了一种新的条件GAN，即FEV-GAN，有效地产生六个基本的面部表情视频，给定一个单一的中性图像和目标面部表情类别。具体来说，我们解决了低质量和身份保护问题所遇到的面部表情生成模型，利用分数跨越时空卷积。基于我们最先进的研究，这些问题与生成动态面部表情的任务的难度有关。我们的FEV-GAN模型通过利用分别提取身份特征FId和空间特征FS的两个不同编码器EId（身份编码器）和ES（空间编码器）来解决这些问题。这些特征作为输入被提供给解码器Gdec，以便更好地保留身份并生成高质量的面部表情视频。我们深入评估了我们的方法在两个基准数据库，MUG面部表情数据库和Oulu-CASIA NIR VIS面部表情数据库，定量地使用不同的指标（PSNR，SSIM，ACD，ACD-I），并定性地使用专家人眼评级。这些测试的结果证实了我们的说法，并表明我们的方法显着超过了动态面部表情生成的最先进的基线。为了进一步研究，我们计划用其他最先进的面部识别编码器测试该模

下载后可阅读完整内容，剩余1页未读，立即下载