神经情感总监：野外视频中面部表情的语音保持语义控制方法

78 浏览量更新于2023-10-25 收藏 1.74MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

18781神经情感总监：“野外”视频中面部表情的语音保持语义控制Foivos Paraperas Papantoniou1Panagiotis P. Filntisis1Petros Maragos1Anastasios Maragos2，31希腊雅典国立技术大学电气计算机工程学院2希腊希腊希腊研究技术基金会计算机科学研究所（FORTH）3英国埃克塞特大学工程、数学和物理科学学院图1.我们的神经情绪控制器（NED）可以在输入视频中操纵面部表情，同时保留语音，条件是语义情感标签（图的顶部）或从参考视频中提取的外部参考风格（底部）。详情请放大。视频结果可以在以下网站找到：https://foivospar.github.io/NED/摘要在本文中，我们介绍了一种新的深度学习方法，用于对“野外”视频中演员的情绪状态进行照片般逼真的操作所提出的方法是基于一个参数化的3D人脸表示的演员在输入场景中，提供了一个可靠的解纠缠的面部身份从头部姿势和面部表情。然后，它使用一种新的深域翻译框架，该框架以一致和合理的方式改变面部表情，同时考虑到它们的动态。最后，基于一个专门设计的神经人脸渲染器，使用改变的面部表情来照片逼真地据我们所知，我们的方法是第一个能够控制演员的面部表情，甚至使用作为唯一的输入的语义标签的操纵的我们进行了广泛的定性和定量评价和比较，这表明我们的方法的有效性和特别有前途的我们得到的结果。我们的方法为神经渲染技术的有用应用开辟了大量新的可能性，从电影后期制作和视频游戏到照片般逼真的情感化身。1. 介绍照片逼真地操纵图像或视频中的面部最近受到了极大的关注，其令人印象深刻的结果扩展了创意视频编辑，内容创作和VFX行业的范围。然而，当涉及到改变视频中的面部情绪时，现有技术表现出严重的局限性。当拍摄电影时，这种类型的操纵的重要性被清楚地示出，因为捕捉期望的演员情感编辑的鲁棒解决方案将方便地将面部表演的操纵放置在后期制作阶段。在过去，解决这个问题的方法是假设同一个剧本的不同录音被表演，18782····多种情绪可用;因此，在实现完美同步之后，能够在拍摄之间切换或混合[33]。然而，在更现实的情况下，人们希望例如，一个中立的演员看起来很高兴，没有使用预先存在的镜头。组合来自未配对数据的性能更具挑战性。最近，图像到图像的翻译已经成功地应用于情感编辑，通过将问题投射到图像空间中[7，9]。这些方法处理静态图像，其中改变嘴型（例如，张开紧闭的然而，在没有对嘴部区域施加任何特定约束的情况下，当唇同步直接应用于视频序列时，唇同步可能丢失。与此任务更相关的是面部再现问题，其中源演员的面部表演被转移到目标演员，使后者模仿前者的表情。最先进的技术[13，23，51]通过训练以面部表示为条件的神经渲染器来实现引人注目的照片现实主义（例如，3DMM）。尽管如此，这与语义控制目标参与者有很大的不同，因为这些表达只是从另一个主体复制而来相反，我们希望根据所需的情感编辑演员最近的方法只解决了这个问题的一个方面。例如，DSM[39]基于情感标签生成新颖的表达，而不保留原始语音，而[22]保留嘴部运动，但所提出的操纵仅限于匹配单个目标说话风格。在这项工作中，我们提出了一种混合方法，其中参数化的3D人脸表示被转换到不同的域，然后用于驱动合成的目标脸通过基于视频的神经渲染器。我们的方法，我们称之为神经情绪导演（NED），实现了照片般逼真的操纵演员的情绪状态在“在野外”的视频Fig.1.它可以将面部表情转换为6种基本情绪（愤怒，快乐，惊讶，恐惧，厌恶，悲伤）中的任何一种，加上中性，仅使用其语义标签作为输入，同时保留原始的嘴巴运动。它还允许将特定的风格附加到目标演员，而不需要特定于个人的培训。这意味着可以在测试时从任何给定的视频中提取参考样式：例如，我们的系统可以让罗伯特·德尼罗像阿尔·帕西诺那样大喊大叫，而不会看到后者在训练中的镜头。我们的贡献可以总结如下：据我们所知，我们提出了第一个基于视频的方法，用于我们介绍了一个情感翻译网络，我们称之为基于3D的情感操纵器，它接收一个se-translation网络。表达式参数的序列，并将它们转换为给定的目标域或参考样式，并在非并行数据上进行训练。我们在2个带有情感标签的大型视频数据库上训练这个网络。我们设计了一个基于视频的人脸渲染器，将参数表示解码回照片级真实感的帧。基于强大的，最先进的面部编辑技术（面部分割，对齐，混合），我们只修改面部区域，而背景保持不变，使其能够操纵具有挑战性的场景。我们进行了广泛的定性和定量实验、用户研究和消融研究，以评估我们的方法，并将其与最新的最先进的方法进行比较。实验结果表明了该方法的有效性和优越性，在具有运动背景物体的电影场景等非常具有挑战性的场景• 我们发布我们的代码和训练模型[1]。2. 相关工作人脸操作方法可以根据它们是通过卷积架构直接编辑人脸肖像，还是依赖于几何人脸表示来划分：基于图像的情感编辑。GANs的引入[15]引发了图像和视频合成领域越来越多的研究。绝大多数的作品利用条件生成器，在这个意义上说，合成的图像是以另一个图像为条件的（例如，[19]）。这使得能够在不同的域（即，图像到图像转换），同时保留源图像的内容，甚至通过循环一致性的思想在非并行数据上进行训练[54]。在面部图像上使用这样的技术使得能够改变面部属性（例如，头发颜色，性别等）并构成了所谓的deepfakes领域的主要部分。StarGAN的多域框架[7]证明了通过根据给定的语义标签（例如，快乐、愤怒等）。其他技术利用连续的情感标签，如强度[12]或效价-唤醒空间[32]。最近，GANmut [9]提出的方法引入了一种即使在使用仅用基本情感的分类标签注释的数据集时也能获得2D可解释条件标签系统然而，所有上述方法都在不考虑面部表现的动态性质的情况下转换静态帧这在嘴部区域尤其重要，因为如果将这些技术独立地应用于视频的每一帧，则所传达的语音可能会失真。此外，它们通常是在包含多个不同身份的大型图像数据集上训练的，这很可能导致身份泄漏，例如。在封闭的18783×∈∈∈∈∈∈∈嘴巴被微笑所取代，露出另一个身份的牙齿。与此同时，该领域的进展表明，通过将生成器调节为密集表示而不是粗糙的域标签，可以生成给定图像的不同版本[8]。为了克服上述限制，我们利用基于GAN的域到域转换方法（受StarGAN v2 [8]的启发），该方法转换面部表情的主题不可知参数表示序列而不是图像。然后，我们的人特定的脸渲染器确保，操纵的表情是在一个身份保留的方式合成基于几何的面部操作。在过去的几年中，操纵的问题，在参数空间的脸已经吸引了越来越多的兴趣。面部再现是最典型的例子，其中目标演员被迫模仿参考视频中的源主体的表情。一些作品利用2D面部标志来捕捉表情并通过图像扭曲[2]或神经渲染[51]来驱动目标演员。3D Morphable Models（3DMM）[3]是一个非常受欢迎的选择，因为它们提供了一个从身份中解脱出来的表达。传统技术[40]，[41]在参考视频上执行3D面部重建，并在原始目标镜头之上的源表达式下渲染目标主体。基于学习的方法，如 DVP [23] 和Head2Head++[13]使用条件GAN在给定条件下渲染然而，这些方法对生成的视频没有提供语义控制，因为它们直接从源演员复制表情。 ICface [43] 和FACEGAN [44]通过对动作单位（AU）值进行条件合成，提供了一个更直观的动画框架，但设置单独的AU值是一个繁琐的过程，需要专业知识才能实现所需的情感。Solanki和Rous-sos [39]训练解码器网络，将Valence-Arousal对映射到3D面部模型的表情系数，并使用神经渲染器合成目标演员。然而，他们的方法完全忽略了演员的原始表情和嘴部动作。Groth等人[16]试图通过仅仅在他/她的表情和从参考演员获得的MoCap数据之间进行插值来改变演员的情绪状态。Kim等人[22]提出了一种电影配音的风格保持解决方案，其中配音员的表达参数在驱动外国演员的表演之前通过风格翻译网络。他们的方法保留了配音员的语音，但只能在一对说话风格之间转换（配音员到演员）。其他产生情绪化说话面孔的方法包括音频驱动[20]和文本驱动[48]技术。据我们所知，没有系统的方法来翻译视频中现有的面部表演对多种情感只给予语义信息作为输入，同时保留原始语音。我们的方法，提供了一个自动的解决方案，这项任务，通过建议的基于3D的情感操纵器。它不试图处理两个预定义演员的特定说话风格（如[22]），但能够将任何主题的表达转换为任何基本情感或给定的参考风格。3. 方法我们的神经情感总监（NED）框架解决了视频中面部情感相关语义操作的挑战性任务，同时保留了语音相关的嘴巴运动。图1给出了测试时拟议管道的轮廓。二、它包括三个主要模块（3D人脸分析，基于3D的情感操纵器和照片真实感合成3.1. 3D人脸分析人脸检测和分割：我们首先执行人脸检测，裁剪和缩放到256 256像素us-ing [52]。然后我们应用FSGAN[37]来分割人脸并去除背景。3D人脸重建：我们利用3DMM [ 3 ]的能力来估计3D面部几何形状，同时将表情贡献与身份特定和3D姿势贡献分开。这使得我们能够以主体不可知的方式将情感转换问题从图像空间映射到3D模型参数我们使用最近最先进的DECA方法[ 14 ]执行深度3D面部重建，该方法使用FLAME模型[31]：对于输入视频的每一帧，DECA回归相机c的参数。R3，头部姿势pR6（包括3个颌关节参数）、身份aR100、表情eR50以及个人特定细节向量δR128，其将中频细节添加到面部几何形状。我们使用后者来创建详细的形状图像SR256×256×3（见图3D面部形状）。2）。地标检测和面部对齐：我们使用FAN [4]为每帧获得68个面部标志。之后，类似于[13]，我们基于眼睛区域内像素的逆强度估计瞳孔坐标，并创建眼睛图像ER256×256×3，为面部渲染器提供有关眼睛注视的信息。然而，与[13]相反，我们只在瞳孔周围画了两个红色圆盘，而不是轮廓的边缘。这是因为我们准确地整合了NMFC和详细形状图像中有关眨眼的信息（见第二节）。3.3），这要归功于DECA [14]获得的眼部区域的可靠重建。然后，我们将所有的人脸帧对齐到一个人脸模板，基于提取的人脸地标和Procrustes分析。我们发现，这样的面部对齐提高了我们的面部渲染器18784∈∈∈YS∈S∈Y·∈ S∈Y∈∈ Y∈∈Y∈∈ S图2.我们的神经情绪控制器（NED）在推理时的概述。首先，我们对输入帧进行三维人脸恢复和对齐，以获得人脸的表情参数。然后，使用我们的基于3D的情感操纵器来翻译这些参数，其中风格向量由语义标签（即，情绪）或驾驶参考视频。最后，将生成的3D面部形状与归一化平均面部坐标（NMFC）和眼睛图像连接起来，并输入神经渲染器（以及先前计算的帧），以渲染操作的照片级逼真帧。我们将相同的对齐应用于NMFC、形状和眼睛图像。有关面部对齐步骤的更多详细信息，请参阅Supp.材料3.2. 基于3D的情感操纵器在3D面部分析步骤之后，与帧中的面部表情相关的信息被编码在表达向量e R50和3个颌参数（形成为姿态向量p R 6的最后3个分量）中。我们扩展了50个表情参数e与颚开口p4（第一颚关节参数），因为这是描述语音相关的嘴部运动的主要参数。因此，我们将这两个连接成一个单一的载体，即完整的表达载体R=（p4;e）R51，为简单起见，以下称为表达载体。为了应对表情的动态特性，我们将帧分组为N长度的序列s=（n，..， n+N−1），其中N=10。Giventheset在c=7个情感标签（中性、高兴、恐惧、悲伤、惊讶、愤怒、厌恶）中，每个情感标签表示一个不同的域，以及一组表情参数序列，我们设计了一个基于3D的情感操纵器，该情感操纵器以保持原始嘴部运动的现实方式将一系列表情向量s转换为给定的情感y。受StarGAN v2 [8]框架的启发，该框架通过在连续样式向量上调节生成器来提供生成样本的多样性，我们设计了一个具有以下四个模块的架构表达式翻译器：翻译器G将a作为输入根据从参考序列中提取出的说话风格，对所述说话风格进行分类。与[8]相比，我们的风格编码器不需要关于参考序列s的地面真实情感标签y的任何知识。测绘网络：映射网络M学习生成与目标相关的风格向量d=M y（z）R16。通过变换从正态分布采样的潜在代码zR4来获得情感y。这里，My（）表示对应于情绪y的M的输出分支。该网络允许翻译者通过仅采样随机噪声并指定所需的语义情感标签来将一系列表达翻译为目标情感表达式鉴别器：我们的CIDD有c=7个分支（类似于M），并通过为每个分支输出标量值Dy（s）来学习区分每个域y的真实s和伪G（s，d）序列。的网络 M跟随一简单 MLP架构，而G，E和D使用带有LSTM单元的递归架构[18]。3.2.1情绪操纵器的训练和测试给定一个表达向量序列的数据集，以及它们对应的情绪的真实标签y，我们通过两个交替的步骤来训练我们的网络：1）首先，我们从正态分布中采样z R 4，我们随机选择一个ta r，得到域y，把我们的地图网-用于生成说话风格d=My（z）的工作。（2）然后我们直接从一个参考序列中提取样式，表达式序列s和风格向量d∈R16，使用我们的风格编码器d=E（s）并存储引用将s翻译成表达向量G（s，d）的输出序列它反映了d中编码的说话风格。为了将d注入G，我们将d与序列的N个向量中的每一个连接起来。样式编码器：我们的风格编码器E提取输入序列s的与情感相关的风格向量d=E（s），从而使翻译器G能够翻译给定的序列labely。在这两种情况下，翻译器将输入序列s（属于域y）与风格向量d相结合，并产生属于目标域y并类似于d中的说话风格的输出序列G（s，d）。的然后使用以下目标更新网络对抗性损失：我们使用LSGAN [34]，对于真实样本，标签b = c =1，对于假样本，标签a =0。这种方式18785映射网络M学习输出属于情感域Y的讲话风格，并且翻译器学习产生与真实的讲话风格不可区分的目标域的序列。风格重建损失：如在[8]中，我们确保输出序列通过使用损失来反映给定的风格，该损失强制翻译序列的风格向量，如风格编码器E所示，以匹配所需的风格。循环一致性损失：我们使用循环一致性损失[7，54]，它鼓励翻译器产生保留输入序列内容的序列，以便输入序列可以通过翻译重建将输出序列返回到原始样式d=E（s），如E.言语保留损失：如在[ 22 ]中观察到的，循环一致性损失并不总是保证与语音相关的原始嘴部运动被翻译器保留。为此，我们利用我们精心选择的FLAME模型[31]，该模型通过第一下颌参数明确控制开口。因此，我们向总目标添加了一个额外的约束，该约束仅考虑该嘴相关参数，而不是如[22]中那样考虑整个表达向量。通过将这个目标适当地定义为原始和翻译的下颌张开变量之间的相关性的最大化，我们设法平衡了我们具有挑战性和矛盾性的目标，即在不扭曲感知语音的情况下改变情绪（见图11）。（3）第三章。总体目标：G、E和M的目标对应于对抗性、风格重建、循环一致性和语音保留损失的加权总和。D的目标对应于判别器损失。所采用的损失函数的更多细节和数学公式可以在Supp. 材料我们在两个视频数据库上训练我们的基于3D的情感操纵器，其中包含6种基本情感加上中性的注释：“野外”视频的Aff-Wild 2数据库[24-我们恢复视频的每一帧的表达参数，并提取长度为N的滑动窗口。为了充分利用这两个数据库，我们在Aff-Wild 2中对网络进行了预训练，然后在MEAD的一个子集上对其进行微调。在测试期间，为了变换整个输入视频的表达，我们每次将N长度窗口滑动1帧，通过G平移序列，并使用高斯类型的加权平均来处理重叠。条件风格向量或者由M通过选择目标情感来生成，或者由E从任意长度的参考视频中提取。在后一种情况下，我们顺序地处理整个参考视频，提取采用相同滑动模式的风格向量序列。然后，我们将它们的几何中值[45]作为代表整个参考视频的风格向量，并将其馈送给G。图3.我们失去语言能力的影响。如果没有这种损失（中间行），结果不会保留来自输入视频的嘴部运动。相比之下，我们的完整模型（底行）将演员的表情转换为快乐，同时保留他的嘴部动作和语音。详情请放大3.3. 照片般逼真的合成3D人脸合成渲染：通过我们的基于3D的情感操纵器修改表情参数，我们在新的情感下合成一个操纵的3D人脸几何。然后，我们将其渲染（使用传统的3D图形）为神经渲染的方便表示，即所谓的归一化平均面部坐标（NMFC）图像[13]，并将其与类似渲染的详细形状图像S和眼睛图像E连接起来。神经面部渲染器：我们用NMFC、S和E图像作为条件输入来输入神经渲染器。我们在公开可用的Head2Head++ [13]实现的基础上构建它，并以自我重演的方式在目标演员的训练片段上训练它（即具有原始的面部几何形状）。我们遵循[13]的递归方案，向生成器提供当前帧和两个先前帧的条件输入以及两个先前生成的图像。然而，与[13]相比，我们将S作为额外的条件输入，如上所述，并将图像合成约束到对齐和掩蔽的面部，因为我们考虑了变化的背景。如[13]中所述，我们采用专用的嘴部放大器来增强嘴部区域的真实感。混合：通过根据先前存储的对齐矩阵的逆变换生成的图像然后，我们仔细地将合成的人脸与原始背景混合，从而实现对“野外”视频的操作。为此，我们使用多波段混合[5]，因为我们发现它在平滑边界过渡方面比软掩蔽或泊松编辑[38]更好。有关此模块的更多详细信息，请参阅Supp. 材料4. 实验结果我们进行全面的定性和定量评估，我们的方法和比较与最近的国家的最先进的方法。其他结果和视觉-18786在我们的网站上提供[1]。我们的实验使用以下数据集：YouTube Actors数据集：我们从6个YouTube视频中收集了一个小数据集，其中包括6个演员在电影场景，电视节目和采访中的面部视频。MEAD数据集：我们从最近的MEAD数据库中选择了3个演员[46]。对于每个演员，我们为6种基本情绪（快乐、愤怒、惊讶、恐惧、悲伤、厌恶）加上中性情绪中的每一种选择了30个视频，结果是来自MEAD的总共630个视频有关实验中使用的数据集的更多详细信息材料必须针对这些数据集的每个演员然而，我们发现，通过为给定演员从头开始训练新模型，生成器倾向于过度适应该演员的特质，无法合成新颖的情感，如果这些情感不存在于他/她的对于YouTube的演员来说，找到一个几分钟长的镜头，涵盖了所有的情绪范围往往是不可能的。为了克服生成演员看不见的表情的挑战，同时保留他/她的身份，我们建议在包括YouTube和MEAD演员的视频混合上训练单个元渲染器，然后为每个演员独立地微调元渲染器这有助于在YouTube演员之间有关此过程的进一步材料我们将我们的方法与以下最近的方法进行比较：GANmut [9]，它根据2D连续情感标签转换输入的裁剪的面部图像。然后将变换后的图像放置在全帧中的原始位置。为了公平比较，我们使用对应于具有最大强度的纯7种情绪之一的2D向量。此外，我们在输入视频的每一帧中应用该方法。ICface [43]，它也转换输入的裁剪图像，但基于姿势和AU值的确定。为了进行公平比较，该方法仅包括在自我再现实验中，其中地面实况可用，并且可以以明确定义和一致的方式从中提取AU值。DSM [39]，它基于分类情感标签执行面部视频的语义该方法支持的标签是中性的，并且只有4种基本情绪（快乐、惊讶、恐惧、悲伤），这是其他方法所考虑的标签的子集，因此在该子集中进行与DSM的相关比较。值得一提的是，视频中照片般逼真的面部情绪操纵的文献仍然非常有限，上述3种方法是我们唯一可以找到源代码运行评估的方法。有关运行我们的方法和我们比较的方法的详细信息可以在Supp. 材料图4.我们的方法和GAN-mut [9]之间的定性比较。我们展示了YouTube Actors 数据集的 3 个演员的 3 种情绪的例子。GANmut产生可见的伪影，特别是在嘴和眼睛区域。详情请放大图5. 与最先进的方法进行视觉比较，对MEAD演员进行的情感“自我翻译”实验。请注意，ICface [43]需要更严格的面部裁剪，并使用背景颜色填充用于可视化。4.1. 定量比较为了评估每种方法在操纵情绪方面的表现，我们使用了自我再现任务的一个变体，其中包括对表情的操纵。特别地，给定情感标签y的视频（例如，快乐），我们通过将目标情绪定义为18787∼我们FAPD FIDGANmut [9]FAPD FIDDSMFAPD[39]第三十九届FIDICfaceFAPD[四十三]FID中性14.92.116.82.922.15.540.045.8快乐17.83.415.02.627.010.343.750.5恐惧18.43.020.54.328.08.543.046.6伤心19.03.018.14.324.58.838.647.4惊讶18.92.919.17.227.311.846.145.0生气18.43.022.44.2--51.753.5厌恶18.13.115.14.5--39.754.6avg.（七）17.92.918.14.3--43.349.0avg.（五）17.82.917.94.325.89.042.347.1表1.情绪“自译”实验中MEAD的定量比较。粗体值表示每个指标的最佳值（越低越好）。为了公平比较，对7个情感标签的完整集合和DSM支持的5个标签的集合进行平均[39相同的标签y（从快乐到快乐）。在这种情况下，输出视频应该与原始视频匹配。具体地，使用以下度量来测量“自翻译”和真实视频之间的差异：1）面部平均像素距离（FAPD）：这是在地面实况和生成的视频之间的所有面部像素和帧的RGB值的平均2距离。我们使用提取的人脸面具来定义面部区域。2）初始距离（FID）[17]：通过使用来自最先进的人脸识别网络[10]的特征向量计算所有地面真实和生成的帧。我们的基于3D的情感操纵器可以通过简单地使用由风格编码器E提取的它们自己的风格向量来将序列翻译到相同的域。然而，对于其他3种方法，原始视频的标签y必须是已知的，使得其可以用作目标标签。因此，我们的定量比较是在我们的MEAD数据集中进行的，其中视频由[46]的作者进行了情感具体来说，对于每个演员，我们使用4个视频每种情绪，导致总共84个视频，平均持续时间3秒。结果见表。1.一、关于视觉比较，请参见图10。五、注意，DSM方法不支持厌恶和愤怒可以看出，我们的方法在两个指标上都优于基线我们在几乎所有7种情绪上都表现出卓越的表现。这表明我们合成的视频具有更高的真实感，并且在身份保留方面具有更好的表达可转移性（参见图5GANmut和ICface产生的伪影）。4.2. 用户研究我们还进行了两项基于网络的用户研究：MEAD数据库上的情感识别和现实主义：在第一个用户研究中，参与者被随机展示了来自MEAD数据库的3个演员的所有6种基本情感的操纵视频，并被要求在Likert 5点量表上对镜头的现实主义进行评级，以及识别所显示的情感（从下拉列表中）。包括所有6种情绪）。除了我们的方法外，提问者还向参与者展示了GANmut [9]，DSM [39]的操纵视频以及MEAD的原始真实视频。调查问卷共包括66个视频，20名参与者完成了调查。结果见Tab。2，其中我们观察到所有方法具有相对较低的真实性分数。这可以归因于MEAD中的真实视频包括特别强烈的曝光，这可能导致4或5级的整体低频率（即使是真实视频），越来越倾向于将这些评级（无论何时使用）更专门地用于真实视频。然而，我们看到，我们的方法实现了显着更高的现实主义分数比其他方法，始终在所有6个emo- tions。在情感识别准确性方面，我们观察到，与DSM相比，我们的方法合成了具有操纵情感的视频，这些情感始终更容易被参与者识别。然而，当我们将我们的方法与GANmut进行比较时，情况并非如此：GANmut的合成视频实现了非常高的准确率，甚至高于真实视频的准确率这一点，再加上GANmut的现实主义得分很低4和5），反映了GANmut合成强烈的表情的事实，这些表情通常看起来是假的，但很容易识别。YouTube演员的真实性在第二项研究中，我们向用户展示了6名YouTube演员在所有6种基本情绪下的操纵视频（包括原始音频），并要求他们按照与第一项研究相同的协议我们在本研究中没有评估情绪识别，因为该数据集不存在真实的情绪符号（以进行比较）。该研究包括对我们的方法和GANmut操作的视频以及原始视频进行随机洗牌有关这些视频的一些指示性帧，请参阅图。4.第一章DSM未用于本研究，因为它无法处理YouTube视频中的动态背景。调查问卷共包括54个视频，由50名参与者完成获得的评级可以在Tab中看到。3 .第三章。我们观察到，这两种方法的真实感得分相对较低，这可以归因于操纵视频中的情感的高度挑战性任务，特别是在“野外”条件下，就然而，我们的方法比GANmut获得了更好的分数，例如，对于6个演员中的3个，合成逼真视频的次数超过20%，这是一个有希望的结果，显示了我们方法的潜力。此外，在最频繁的评级方面，我们看到我们的方法明显优于GANmut，因为它产生了3或2的评级作为几乎所有参与者的最频繁答案，而GANmut产生了1的评级作为最频繁的答案。18788×变化APDFAPDMAPDFIDw/o详细的形状图像5.0112.5713.275.06无面对齐5.0112.6414.594.77完整模型4.6311.3512.204.53带有元渲染器的完整模型4.4910.8911.664.38表2.真实性评级（将视频评级为4或5的用户百分比）和MEAD用户研究的分类准确性公告补充详细分数的材料）。M表3.现实主义评分的用户研究6 YouTube演员.第1-5列显示用户给出此评级的次数“真实”一栏显示了给视频评分为4或5的用户的百分比。粗体值表示每个方法和参与者的最频繁用户评级。4.3. 消融研究为了通过实验确认我们的面部渲染器的设计选择，我们在纯自我重演设置中进行了消融研究，没有使用基于3D的情感操纵器对表情进行任何操纵。具体来说，我们从YouTube数据集中随机选择了3个演员，并从头开始训练了我们的渲染器的4个不同变体（即没有元渲染器）：首先，我们省略了作为额外条件输入的详细形状图像S。其次，我们省略了面部对齐步骤。第三，我们训练了我们的完整模型，但没有像之前所有变体那样的元渲染器阶段。最后，我们还考虑了我们的完整模型，包括元渲染器。通过FAPD和FID（如上所定义）以及另外2个度量，即APD（与FAPD相同，但在整个图像上计算）和嘴APD（MAPD，与FAPD相同，但仅在嘴中心周围的72 × 72像素区域上计算），计算与地面实况帧相关的每个变化的性能。所有指标的结果，如Tab. 4，展示了详细的形状图像和面部对齐的贡献，特别是在高度挑战性的嘴部区域。最后，第四行的度量显示元渲染器进一步改进了结果。5. 讨论我们已经在神经渲染的新应用的各种场景中显示出有希望的结果。正如预期的那样，我们的方法仍然存在局限性，这可以为今后的工作铺平道路。例如，我们的渲染器亲-表4.自我重演设置下的消融研究结果，来自我们数据集的三个YouTube演员的平均值。对于所有指标，较低的值表示较好的性能。粗体和下划线值分别对应于每个度量的最佳和次佳值。引入中等分辨率的图像，这可能导致在将它们与高分辨率背景混合时面部这可能解释了我们的用户研究中报告的一些低真实性分数。将该方法扩展到更高的分辨率可以促进这种技术与电影工业的结合。已经通过渐进式训练显示了面部交换的成功方法[36]。此外，为了进一步提高情感操纵的真实性，音频内容应该以类似的方式进行修改。然而，情感语音转换的最新成果[53]仍然远远不能与合成视觉内容的质量相匹配。关于社会影响的说明。尽管它们具有积极的影响，但用于视频处理的深度学习系统已经引起了与假新闻和其他负面社会影响相关的担忧[6，11，21，47]。虽然我们的语音保存目标本质上与大多数深度伪造相反，其中一个人及其话语的输出组合完全是假的，但我们的方法也可能在传达的含义严重依赖于外观情感的情况下被滥用（例如，政治演讲）。我们认为，在相关领域工作的科学家需要认真考虑这些风险和伦理问题。一些应对措施包括提高公众对当前技术能力的认识，以及开发检测deepfake视频的系统[35，42，49]。6. 结论我们提出了神经情绪导演（NED），一种新颖的方法，用于逼真地操纵视频中演员的情绪。我们新的基于3D的情感操纵器通过仔细保留源表演的语音相关内容来翻译面部表情，而我们的照片级逼真合成模块忠实地合成目标演员我们广泛的实验结果证明了我们的框架的优势，最近的国家的最先进的方法和它的有效性在“在野外”的条件下致谢。A. Hellenic研究与创新基金会（HFRI）在“第一次呼吁HFRI研究项目，以支持教职员工和研究人员以及采购高成本研究设备”项目I.C.Humans，编号：91.我们现实主义GANmut DSM真实的视频我们精度GANmut DSM 真实的视频快乐百分之十七百分之三百分之八百分之八十百分之六十三百分之九十百分之四十二百分之九十恐惧百分之三十二占7%百分之十百分之六十七百分之三十三百分之七十五百分之十三百分之二十五伤心百分之三十百分之十八百分之十二百分之五十五百分之十三百分之七十八百分之二十五百分之六十五我们GANmut [9]真实的视频12345123451 2 345McDormand32 3252 21 13 23%5923 16 28 240 2 3 21124 97%帕西诺19 4553 25 8.22%4041 26 24 19 29%0 3 6 29112 94%Tarantino7029 23 17 11 19%7220 26 19 13 21%1 5 9 43 9290%康诺伊3763 33 13 4.11%8843 12 70 百分之五0 4 18 33 9385%罗伯茨3460 39 12 5.11%8827 17 13 5.12%0 0 3 24123 98%Foxx26 3539 34 15 33%7943 18 64 占7%0 0 7 31111 95%18789引用[1] https://foivospar.github.io/NED/网站。二、六[2] Hadar Averbuch-Elor ， Daniel Cohen-Or ， JohannesKopf，and Michael F.科恩将肖像画带入生活。ACMTransactions on Graphics （ Proceeding of SIGGRAPHAsia 2017），36（6）：196，2017. 3[3] Volker Blanz和Thomas Vetter。三维人脸合成的可变形模型。在Proceedings of the 26th Annual Conference onComputerGraphicsandInteractiveTechniques ，SIGGRAPH’99，page 187-194，USA，1999中。出版社：ACM Press/Addison-Wesley Publishing Co. 3[4] Adrian Bulat和Georgios Tzimiropoulos我们离解决二维和三维人脸对齐问题还有多远？（和230，000个3D面部标志的数据集）。在IEEE国际计算机视觉会议（ICCV）的论文集，2017。3[5] Peter J. Burt和Edward H.阿德尔森多分辨率样条及其在图像拼接中的应用。ACM Trans.Graph. ，2（4）：217-236，Oct. 1983. 5[6] Bobby Chesney和Danielle Citron Deep fakes：A looming-ing challenge for privacy ， democracy ， and nationalsecurity.加州L. Rev. ，107：1753，2019. 8[7] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sunghun Kim，and Jaegul Choo. Stargan：用于多域图像到图像翻译的统一生成对抗网络。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。二、五[8] Yunjey Choi，Youngjung Uh，Jaejun Yoo，Jung-WooHa.Stargan v2：多领域的多样化图像合成。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，2020年。三、四、五[9] Stefano d'Apolito，Danda Pani Paudel，Zhiwu Huang，An dres Romero，and Luc Van Gool. Ganmut：学习可解释的条件空间，用于各种情绪. 在IEEE计算机视觉和模式识别会议（CVPR）上，2021年。二、六、七、八[10] Jia Guo ， Xue Niannan ， and Stefanos Zafeiriou.Arcface：用于深度人脸识别的附加角度余量损失。在IEEE计算机视觉和模式识别国际会议（CVPR）上，2019年。7[11] 尼古拉斯·迪亚科普洛斯和黛博拉·约翰逊。预测和解决选举背景下deepfakes的道德影响。New Media Society，23（7）：2072- 2098，2021. 8[12] HuiDing ， KumarSricharan ， RamaChellappa.Exprgan：面部表情编辑与可控的表达强度。AAAI，2018年。2[13] Michail Christians Doukas，Mohammad Rami Koujan，Vik- toriia Sharmanska，Anastasios Rizzos，and StefanosZafeiriou. Head2head++：深层面部属性重新定位。IEEETransactions on Biometrics ， Behavior ， and IdentityScience，3（1）：31-43，2021. 二三五[14] 放大图片作者：Yao Feng，Haiwen Feng，Michael J.布莱克和蒂莫·博尔卡特。从野外图像中学习可动画化的详细 3D 人脸模型。 ACM Transactions on Graphics（ToG），Proc. SIGGRAPH，40（4）：88：1-88：13，2021。318790[15] Ian J. Goodfellow、Jean Pouget-Abadie、Mehdi Mirza、Bing Xu 、David Warde-Farley 、Sherjil Ozair 、AaronCourville和Yoshua Bengio。生成性对抗网。在第27届神经信息处理系统国际会议论文集-第2卷，NIPSCambridge，MA，USA，2014.麻省理工学院出版社. 2[16] 科林·格罗斯，简·菲利普·陶舍尔，苏珊娜·卡斯蒂略，马库斯·马格诺。通过自动重现视频肖像来改变所传达的面部情感。在计算机动画和社会代理人国际会议（CASA）中，第1300卷，第1283[17] MartinHeusel、HubertRamsauer、ThomasUnterthiner、Bernhard Nessler和Sepp Hochreiter。通过两个时间尺度更新规则训练的Gans收敛到局部Nash均衡。神经信息处理系统国际会议（NeurIPS），2017年。7[18] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，9：1735-80

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

神经情感总监：野外视频中面部表情的语音保持语义控制方法

面向语音与面部表情信号的情感可视化方法

自然环境下的人脸表情识别

遥感野外实习的意义和目的

Shimadzu IRSpirit适合野外测量吗

unity野外自然写实场景 csdn

野外地质编录需要提交的资料有哪些？

野外性xxxxfreexxxx自由

asd hh2野外光谱仪

中山大学3s野外综合实习

unity野外森林场景 csdn

野外确定断层及褶皱是否存在，需要哪些标志？

针对地震发生后野外救援现场的异构网络系统（现场搜救、环境监测、应急指挥、人员定位、视频监控、资源调度等网络）设计一套协同数据传输系统。简述其基本工作过程。

用全站仪在野外采集碎步点的一般步骤

高速公路计算机网络施工总计

极小种群野生植物野外回归技术规范

cass野外测点自动连线

动物语言识别系统项目概述

利用几何流形和多模态感知解决野外环境下无人车对伪装目标的检测、可行驶区域分割、路径规划问题，并实现感知决策一体化

软件测试编写一个可用于帮助设计野外气象站系统测试的场景。

地理信息数据的获取方法

最新资源