基于动态像素损失的说话人脸视频生成

196 浏览量更新于2023-10-19 收藏 2.74MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4321基于动态像素损失的陈乐乐.Maddox Zhiyao段晨亮徐美国{lchen63，rmaddox}@ ur.rochester.edu，{zhiyao.duan，chenliang.xu}@rochester.edu摘要我们设计了一种级联GAN方法来生成说话人脸视频，该方法对不同的人脸形状，视角，面部特征和噪声音频条件具有鲁棒性。代替学习从音频到视频帧的直接映射，我们提出首先将音频转移到高级结构，即，面部标志，然后生成以该标志为条件的视频帧。与直接的音频到图像方法相比，我们的级联方法避免了与语音内容无关的视听信号之间的拟合伪相关性我们人类对视频中的时间不连续性和微妙的伪影很敏感。为了避免这些像素抖动问题，并强制网络专注于视听相关区域，我们提出了一种新的动态可调像素损失与注意力机制。此外，为了生成具有良好同步的面部运动的更清晰的图像，我们提出了一种新的基于回归的递归结构，该结构考虑了序列级信息以及帧级信息。在几个数据集和真实世界样本上的实验表明，我们的方法在定量和定性比较方面都比最先进的方法获得了更好的结果。1. 介绍对以另一种模态为条件的移动人脸/身体的动态进行建模是计算机视觉中的一个基本问题，其中应用范围从音频到视频生成[28，3，2]到文本到视频生成[23，19]以及图像到图像/视频生成[21，7]。本文考虑这样一个任务：给定目标面部图像和任意语音音频记录，生成目标主体的照片般逼真的说话面部，用自然的嘴唇同步说出该语音，同时保持面部图像随时间的平滑过渡（参见图11）。①的人。请注意，该模型应具有强大的通用性-图1：问题描述。该模型采用任意的语音和人脸图像，并合成一个说话的脸说的话。合成帧（最后一行）由合成的注意力（第一行）和运动（第二行）组成，它们展示了动力学在哪里以及如何合成。例如，绿色框中的人脸看起来与示例人脸相似，因此注意力地图几乎是黑色的;红色框中的面部与示例图像有很大不同，因此注意力突出了嘴部区域，而运动部分暗示了牙齿的白色像素。对不同类型的面部的识别能力（例如，卡通脸，动物脸）和嘈杂的语音条件（见图。（七）.解决该任务对于实现许多应用是至关重要的，例如，为听力受损的人从电话音频中进行唇读，为电影和游戏生成具有同步面部动作的虚拟角色和语音音频。静态图像生成和视频生成之间的主要区别是时间依赖性建模。它带来额外挑战的主要原因有两个：人们对任何像素抖动都很敏感（例如，时间不连续性和细微的伪像）;它们还对面部运动和语音音频之间的轻微未对准敏感。然而，最近的研究人员[3，12，17]倾向于将视频生成公式化为时间独立的图像生成问题。例如，Chung等人[3]提出了一种编码器-解码器结构，每次从0.35秒的音频中生成一个图像。Song等人[27]采用递归网络来考虑时间依赖性。他们在特征提取部分应用了RNN，然而，每一帧都是在7832告诉哪里改变身份形象运动告诉如何改变音频信号7833在生成阶段。本文提出了一种新的时域GAN结构，它由一个基于多模态卷积 RNN （ MultimodalConvolutional-RNN-based，MMCRNN）的生成器和一个新的基于回归的神经网络结构组成。通过建模时间依赖性，我们的基于MMCRNN的生成器产生更平滑的广告帧之间的交易。我们的回归为基础的approximation，结构相结合的序列级（时间）的信息和帧级（像素变化）的信息来评估所生成的视频。说话面部生成的另一个挑战是处理各种视觉动态（例如，摄像机角度、头部运动）与语音音频不相关并且因此不能从语音音频推断。如果在像素空间[30]中建模，这些复杂的动态将导致低质量的视频。例如，在网络视频[5，24]（例如，LRW和VoxCeleb数据集），说话者在说话时会明显移动尽管如此，所有最近的照片真实感说话人脸生成方法[3，12，27，1，28，35]都没有考虑这个问题。在本文中，我们提出了一个层次结构，利用高层次的面部标志表示桥梁的音频信号与像素图像。具体地说，我们的算法首先从输入音频信号中估计面部标志，然后在图像空间中以生成的标志为条件生成像素变化。除了利用中间地标来避免直接将语音音频与不相关的视觉动力学相关联之外，我们还提出了一种新的动态可调损失以及注意力机制来强制网络专注于视听相关区域。值得一提的是，在最近的音频驱动的面部标志生成工作[8]中，通过归一化和身份去除面部标志，在训练过程中去除了这种不相关的视觉动态这已被证明导致生成的嘴形状和语音音频之间的更自然的同步。结合上述旨在克服现有方法的局限性的特征，我们的最终模型可以捕获信息丰富的视听线索，如嘴唇运动和脸颊运动，同时在显著的头部运动和嘈杂的音频条件下生成鲁棒的说话面部。我们在几个流行的数据集上评估我们的模型以及最先进的方法（例如，[13][14][15][16Exper-初步结果表明，我们的模型优于所有的比较方法和所有提出的功能有助于有效地我们最终的模型。此外，我们还展示了其他新的例子，合成的面部运动的人/卡通人物谁是不是在任何数据集，以证明我们的方法的鲁棒性。我们的工作贡献可概括如下：（1）提出了一种新的级联网络结构，以减少声音无关视觉的影响。图像空间中的动态。我们的模型显式地构造从音频信号的高级表示，并使用推断的表示指导视频生成(2)我们利用了一个动态可调的像素损失以及注意力机制，可以减轻时间的不连续性和微妙的文物在视频生成。(3)我们提出了一种新的基于回归的判别器，以提高视听同步和平滑的面部运动过渡，同时生成逼真的图像。该代码已在https://github.com/lelechen63/ATVGnet上发布。2. 相关工作在这一节中，我们首先简要地调查有关工作的说话人脸生成任务。然后，我们讨论了我们的模型中使用的每种技术的相关工作。说话的面部合成传统方法的成功主要限于从特定人的语音音频合成说话的面部 [11 ， 9 ， 29] 。例如，Suwajanakorn et al.[29]一个人，一个人，根据奥巴马总统的演讲音频，用准确的嘴唇同步来模拟他的脸。该方法首先通过视听特征相关从数据库中检索出最佳匹配的唇区域图像，然后将检索出的唇区域与原始人脸合成。然而，这种方法需要目标人物的大量视频片段。最近，通过结合GAN/编码器-解码器结构和数据驱动的训练策略，[27，4，1，12]可以从任意输入音频生成任意人脸。高级表示近年来，图像的高级表示[31，14，34，15]已经通过使用编码器在视频生成任务中被开发，解码器结构为主要途径。给定一个条件，我们可以将其转换为高级表示，并将其馈送到生成网络，以输出像素预测移动的位置上的分布。通过采用人体标志，Villegas等人。[31]提出了一种实现长期未来预测的编码器-解码器网络。Suwajanakorn等人[28]将音频信号转换为唇形，然后基于转换的唇形合成嘴部纹理。这些工作启发了我们使用面部标志来桥接音频与行像素生成。注意力机制注意力机制是自然语言任务[20]和图像/视频生成任务 [26 ， 37 ， 22 ， 36] 中的新兴主题。Pumarola等人[26]第二十六话：单位注释。他们没有使用基本的GAN结构，而是利用了一个生成器，在整个图像上回归注意力遮罩和RGB颜色变换。注意掩模定义了每像素强度，指定原始图像的每个像素将贡献到什么程度7834不（AT-net）PCADlib+时间+德孔夫乙状MFCC+LSTM（VG-网）CRNN图2：我们的网络架构概述。蓝色部分示出了AT网络，其将音频信号传输到低维地标表示，并且绿色部分示出了VG网络，其生成以地标为条件的视频帧在训练期间，输入到VG-网络的是地面实况地标（p1：T）。在推理过程中，输入到VG-网的是由A T -网生成的fa k elandmarks（p1：T）。为了避免误差积累，分别训练AT网和VG网。到最终渲染的图像。我们采用这种注意力机制，使我们的网络对视觉变化和嘈杂的音频条件具有鲁棒性。Feng等人[10]观察到，在训练期间将加权掩码集成到损失函数基于这一观察，而不是使用一个固定的损失权重，我们提出了一个动态可调的损失，利用注意力机制，以强调视听区域。3. 架构本节描述了建议模型的体系结构。图2示出了整体图，其被分解为两个部分：音频转换网络（AT-网络）和视觉生成网络（VG-网络）。首先，我们解释了SEC的整体架构和培训策略第3.1条然后，我们介绍了两个新的组件：基于注意力的动态像素损失在秒。3.2和一个基于回归的结构在SEC。3.3用于我们的VG网络。3.1. 概述梯级结构与培训策略我们以级联的方式处理谈话面部视频生成的任务。给定输入音频序列a1：T，一个示例帧ip及其地标pp，我们的模型生成面部地标序列p1：T，并随后生成帧v1：T。为了解决这个问题，我们提出了一种新颖的级联网络结构：p1：T=（a1：T，pp），（1）v1：T=Φ（p1：T，ip，pp），（2）其中，AT-网络编码器（见图2蓝色部分）是一个条件LSTM编码器-解码器，而VG-网络Φ（见图2）是一个条件LSTM编码器-解码器。2绿色部分）是一个多模态卷积递归网络。在推理过程中，AT-网（AT-net）将（见Eq.（1）观察音频序列a1：T和示例界标pp，然后预测低维f个界标p_i：T。通过将p1：T传递到VG-netΦ中（参见等式2）连同示例图像ip和pp，我们随后得到合成的视频帧vp1：T。采用解耦的方式训练Φ和Φ，使得Φ可以采用教师强迫策略进行训练。为了避免由p1：T引起的误差累积，Φ在训练期间以地面实况界标p1：T为条件音频转换网络（AT-网）具体地，AT-网（AT）被公式化为：[ht，ct]=fullmark（LSTM（faudio（at），flmark（hp），ct−1）），（3）pt=PCAR（ht）=ht<$ω <$UT+M。（四）这里，AT网络观察音频MFCCat，并且标记目标身份的PCA分量hp，并且输出与输入音频MFCC配对的PCA分量htf_audio、f_lmark和f_lmark表示音频编码器、界标编码器和界标解码器。ct−1和ct是细胞单位的输出PCAR是PCA表示，ω是增强PCA特征的提升矩阵。U对应于最大的特征值，M是训练集中标志的平均形状。在我们的实验研究中，我们观察到PCA可以减少非音频相关因素的影响（例如，头部运动）用于训练AT网络。直观地说，类似于[34，31]，我们假设特征空间中当前地标pt和示例地标pp之间的距离可以表示图像特征空间中当前图像帧和示例图像之间的距离。根据这一假设（见Eq.5），我们可以获得当前帧特征v′′（大小为128×8×8）。与他们的方法不同，我们用通道式卷积代替元素式加法在Eq. 5，在我们的实证研究中更好地保留了原始帧信息。同时，我们还可以根据不同的注意力来计算注意力图（attention map，attpt）。7835不不不p不p不图3：我们的基线方法的结果。合成大小的帧与像素抖动的问题。不连续的问题和微妙的文物将被放大后，组成一个视频。pt和pp之间的距离（参见等式（六）。通过将计算的v′′和attp与示例图像特征i′（大小为128 × 32 ×32）一起馈送到MMCRNN部分，我们得到当前图像特征v′（参见等式（七）. 结果图像其中注意力αt通过对v′应用卷积和Sigmoid激活操作获得，运动mt通过对v′应用另一卷积和双曲正切激活操作获得。该步骤强制网络在视听非相关区域中生成稳定像素从图5中，我们可以得出结论，视听非相关区域中的像素（例如，头发、背景等）通常吸引较少的注意力，并且与给定条件（音频）无关相比之下，网络主要是为了-基于相关区域（例如，嘴、下巴和脸颊）。直观地说，0≤αt≤1可以被看作是一个空间掩码，它指示给定人脸图像ip的哪些像素需要在时间步长t处不移动。我们也可以把αt看作是特征VT将用于生成视频帧在下一节中。具体地，执行VG网络签署人：表示每个像素对损失的贡献程度。与相关区域相比，视听非相关区域对损失的贡献较小。因此，在本发明中，v′′=f img（ip）（f 勒马克（pt）−f勒马克（pp）），（5）我们提出了一种新的动态可调像素损失，ATTPT=σ（flmark（pt）<$flmark（pp）），（6）利用αt的功效，其定义为：v′=（CRNN（v′′））attp+i′（1−attp），（7）Tt ttptLpix=<$（vt−v<$t）<$（αt+β）<$1），（9）其中，k和k分别是级联运算和逐元素乘法。CRNN部分包括Conv-RNN、残差块和反卷积层。i′是fimg（ip）的中间层输出，σ是Sigmoid激活函数.为了更好地理解，我们省略了方程中的一些卷积运算。3.2. 基于注意力的动态像素丢失最近关于视频生成的工作采用基于GAN的方法[1，32，27]或基于编码器-解码器的方法[3]。然而，一个常见的问题是相邻帧之间的像素抖动（见图1）。（3）第三章。像素抖动在单个图像生成中并不明显，但是对于视频生成是严重的问题，因为人类对任何像素抖动都很敏感视频中的时间不连续性和细微的伪像。原因在于GAN损失或L1/L2损失几乎不能生成所有像素在时域中一致地变化的完美帧，特别是对于视听非相关区域，例如，背景和头部运动。为了解决像素抖动问题，我们提出了一种新的动态像素丢失，以强制生成器沿时间轴生成一致的像素。如第2，Pumarola et al.[26]利用一个生成器，在整个图像上回归注意力遮罩和RGB颜色变换。我们在我们的VG网络中调整了这种注意力机制，以将运动部分与视听非相关区域分开。因此，我们的最终帧输出由以下组合控制：vt=αtmt+（1−αt）ip，（8）7836t=1其中α t与α t相同，但没有梯度。它表示的重量，每个像素的动态，简化了生成。当将损失反向传播到网络时，我们去除了α t的梯度，以防止琐碎的解决方案（较低的损失但没有区分能力）。我们还为所有像素提供基本权重β，以确保所有像素都得到优化。在这里，我们手动调整超参数β并设置β =0。5在所有的实验中3.3. 基于回归的判别器最近，人们发现感知损失[16]有助于在GAN/VAE[27，1]中生成清晰图像。感知损失利用高级特征来比较生成的图像和地面实况图像，从而获得更好的合成图像清晰度。其关键思想是感知网络部分的权重是固定的，并且损失将仅贡献于生成器/解码器部分。基于这种直觉，我们提出了一种新的结构（见图1）。4）.该方法观察示例地标pp和地面实况视频帧v1：T或合成视频帧v1：T，然后回归与输入帧配对的地标形状pp1 ：T，并且另外给出整个序列的判别分数s具体来说，我们将Rk公式化为逐帧部分D p（图中的蓝色箭头）。4）和序列级部分D s（图中的红色箭头）。4）.Dp观察示例地标和视频帧，然后基于观察到的信息回归地标序列。通过产生面部标志，它可以基于高级表示在783722假/真参数的回归损失的基础上，当训练的递归，Dp可以学习从原始图像数据中提取低维表示。当我们训练生成器时，我们将固定包括Ds和DP的权重，使得DP不会损害生成器。从Dp反向传播的损失将迫使生成器生成准确的面部形状（例如，脸颊形状，嘴唇形状等）并且从Ds反向传播的损失将强制网络生成高质量图像。3.4. 目标函数通过线性组合第2节中介绍的所有部分损耗，3.2与次级3.3，全损失函数L可以表示为：图4：基于回归的判别器的概述这个词的意思是连接。+表示元素加法.蓝色箭头和红色箭头分别表示Dp和Ds。帧方向样式。具体地，通过下式计算pΔtpt=Dp（pp，vt）=pp+LSTM （ flmark （ pp ） <$fimg（vt）），（10）其在训练器训练阶段期间观察地面实况图像，并在生成器训练阶段期间观察合成图像。除了Dp之外，LSTM细胞单元产生另一个分支Ds，它从每个LSTM细胞单元获得向量并通过平均池化来聚合它们。通过传递Sigmoid激活函数，Ds为整个输入序列产生最终的判别分数s得分s可以通过以下方式获得：s=Ds（pp，v1：T）1TL=Lgan+λLpix，（13）其中λ是控制不同损失项的相对重要性的超参数我们设定λ=10。0在我们的实验中4. 实验在本节中，我们进行了深思熟虑的实验，以证明所提出的视频生成架构的效率和有效性秒4.1详细解释了秒4.2显示了我们的结果以及其他最先进的方法。我们在第4.3节和第4.4节中展示了用户研究和消融研究。4.4分别地。4.1. 实验装置数据集我们在LRW数据集[4]和GRID数据集[6]上定量和定性地评估了我们的ATVGnet。LRW数据集由500个不同的单词组成，这些单词是由野外不同的说话者说的我们遵循与[4]中相同的训练测试分割。在GRID数据集中，有1000个短视频，每个由33个不同的发言人在实验条件下发言。对于图像流，视频中的所有说话面部都基于提取的地标的关键点（眼睛和鼻子）对齐，同时使用[18]。=σ（不 t=1（LSTM（flmark（pp）fimg（vt）。（十一）每秒25帧，然后调整为128×128。至于音频数据，每个音频段对应280 ms au-Dp部分被优化以最小化预测地标和地面实况地标之间的L2损失。因此，我们的GAN损失可以表示为：dio。我们在10ms的窗口大小下提取MFCC，并使用中心图像帧作为配对图像数据。与[3，27]类似，我们从原始 MFCC 向量中删除第一个系数，并最终产生28×12MFCC特征Lgan=Epp，vE1：T[logDs（pp，v1：T）]+[log（1 −D（p， G（p，p（i））]+对于每个音频块。实施细节我们的网络已实施pp，p1：T，ipSpp1：Tp使用Pytorch 0.4库。我们采用亚当优化器，<$（Dp（pp， G（pp，p1：T，ip））−p1：T）<$ Mp<$2+以2×10- 4的固定学习率进行训练。我们要-<$（Dp（pp，v1：T）−p1：T）<$ Mp<$2、（十二）使用随机标准化对所有网络层进行初始化，平均值=0.0，标准差=0.2。所有模型都在一个其中，Mp是预定义的权重掩模超参数，其可以在唇部区域上惩罚更多通过更新聚集+++++时间LSTMLSTMLSTM7838单台NVIDIA GTX 1080Ti。在训练过程中，AT网络在3小时后收敛，VG网络在3小时后稳定。7839地面真相VoxCeleb数据集LRW数据集凯通样品真的-世界样本图5：ATVGnet的输出输入是一个真实世界音频序列，并且不同的示例身份图像的范围从真实世界的人到卡通人物。第一行是与给定音频序列配对的地面实况图像我们在左侧标记身份图像的不同来源。从这个图中，我们可以发现，我们合成的帧的嘴唇运动（例如，最后一行中的绿框）与地面实况（第一行中的红框）很好地同步。同时，注意力（绿色框的中间行）准确地指示需要移动的位置，而运动（绿色框的最后一行）指示动态看起来像什么（例如，白色像素用于牙齿，红色像素用于嘴唇）。方法实时ATVGnet（our）Chung et al.[3]Zhou等人[12]Wiles等人[35]推理时间（FPS）30 34.53 19.10 10.00 10.53表1：差异模型的推理时间我们使用帧速率（FPS）来测量时间。24小时表1显示了推断阶段的生成时间。我们可以发现，我们的推理时间可以达到 34 左右。每秒 5 帧（FPS），比[34，12，3]快得多，比实时（30FPS）略快。4.2. 结果图像结果如图所示5和图7.第一次会议。为了评估合成视频帧的质量，我们计算了PSNR和SSIM [33]。为了评估合成的视频是否包含与输入音频对应的准确的嘴唇运动，我们采用[1]中提出的评估标记地标距离（LMD）。我们将我们的模型与其他三种最先进的方法进行比较，ods [1，3，35]。所有这些都是在LRW数据集上训练的，而Chung et al.[3]需要在VGG Face数据集上预训练额外的VGG-M网络[25]和Wilels等人。[35]需要由[5]预训练的额外MFCC特征提取器。定量结果见表2。基线模型是没有任何特征的简单模型（例如，DMA、MMCRNN、DAL和RD在第4.4)正如SEC中提到的那样。3.模型ATVG-ND具有与ATVGnet相同的网络结构。但是它是端到端训练的，没有解耦的训练策略（参见第二节）。第3.1节）。我们可以发现，我们的ATVGnet在图像质量（SSIM，PSNR）和视听同步（LMD）的正确性方面都取得了最好的结果7840方法LRW GRIDLMD SSIM PSNR LMD SSIM PSNRATVGnet0.800.8633.450.700.8933.84无DMA0.980.8330.221.100.8429.90不含MM-CRNN1.030.8030.610.810.8632.68不含DAL0.860.8631.350.760.8733.11不含研发0.820.8432.840.730.8833.25基线1.270.8129.551.170.8029.45ATVG-P0.900.8430.450.750.8731.78图6：用户研究统计。y轴是投票百分比，x轴是不同的数据源（例如，total表示所有视频样本，Other表示来自YouTube的采样视频左边的直方图是真实性的评级。右边的直方图是面部动作和音频同步的评分。方法LRW GRIDLMD SSIM PSNR LMD SSIM PSNR陈[1]1.730.7329.651.590.7629.33怀尔斯[35]1.600.7529.821.480.8029.39香港[3]1.630.7729.911.440.7929.87基线1.710.7228.951.820.7728.78ATVG-ND1.350.7830.271.340.7930.51ATVGnet1.370.8130.911.290.8332.15表2：不同方法在LRW数据集和GRID数据集上的定量结果。本表中提到的模型是从头开始训练的。我们用粗体标出每一个领先的分数。4.3. 用户研究我们的目标是根据音频信息生成逼真的视频。4.2中的评估只能在单帧样式中评估质量。为了评估视频级别的性能，我们在本节中进行了深思熟虑的用户研究。人类受试者评价（见图6）进行调查的视觉质量，我们生成的结果相比，Chung等人。[3] Zhou et al. [12]第10段。地面实况视频选自不同来源：我们从LRW[5]、VoxCeleb [24]、TCD [13]、GRID [6]的测试集中随机选取样本，并从YouTube上选取真实世界的样本（共38个视频）。三种方法进行了评价w.r.t.两个不同的标准：参与者是否可以将所生成的说话面部视为真实的，以及所生成的说话面部是否在时间上与相应的音频同步。我们打乱了所有的样本视频，参与者不知道视频到方法之间的他们被要求为IM-表3：LRW数据集和GRID数据集上的消融研究我们一次移除每个特征。我们把最高分加黑。年龄范围为0（最差）至10（最佳）。总共有10名参与者，结果按人员和视频时间步长进行汇总。根据Fig. 6，我们可以发现我们的方法在同步程度和真实性方面优于其他两种方法。更具体地说，我们的模型在所有数据集上的唇同步与音频输入方面取得了最好的结果。至于图像真实性，我们的模型在大多数数据集上都获得了最高分，但略低于Chung等人。[3]在VoxCeleb测试集上。我们将其归因于音频噪声（例如，背景音乐）。4.4. 消融研究我们进行烧蚀实验来研究在第二节中介绍的四种组分的组成。3：动态运动注意力（DMA），多模态crnn（ MMCRNN ），动态可调损失（ DAL ）和Recommendation鉴别器（RD）。&消融研究在LRW数据集和GRID数据集上进行。结果如表3所示。在这里，我们遵循SEC中提到的协议。4.1.我们使用地面真实地标而不是AT网络生成的假地标来测试每个模型，这样我们就可以消除不相关噪声引起的误差，并专注于每个组件。如表3所示，每个组件都对完整模型有贡献。我们可以发现，MMCRNN和DMA是我们的完整模型的关键。我们将此归因于在相邻帧之间生成平滑事务的更好的能力。ATVG-P模型的结构与T V Gnet b ut以最后一个f a k e帧vt−1为条件，而不是等式中的示例帧ip。8在秒3.2. 我们认为它可以产生更好的性能。然而，错误是-随着时间的推移，它迅速地进行简化，直到它从示例帧中提取视觉信息，这导致αt=0n×n的平凡解，从而降低性能。我们研究模型性能w.r.t.gen-现实的分数同步得分7841我们的ATVGnetChung等人[3]第一章Zhou等人[12个]我们的ATVGnetChung等人[3]第一章Zhou等人[12个]地面实况地面实况图7：ATVGnet，Chung等人产生的定性结果[3] Zhou et al.[12]来自LRW和VoxCeleb数据集的样本我们可以从中观察到，与其他两种方法相比，我们的开口更接近地面真实。值得一提的是，第二个样本是在外面录的，背景噪音很大。姿势角度）具有相同的音频。结果表明，该方法是可行的。8（b）证明了我们的方法相对于不同的姿态角。图8：图像质量w.r.t. (a)标志（顶部）和（b）姿势（底部）。请放大计算机屏幕。标定的地标精度和不同的姿态角（见图1）。（八）。我们在推理过程中向生成的地标添加具有不同标准偏差的高斯噪声，图像质量下降（见图1）。（8）如果我们提高标准的话。这一现象也表明我们的AT网络可以5. 结论与讨论在本文中，我们提出了一个级联说话的人脸视频生成方法，利用面部标志作为中间的高层次表示，以弥合两个不同的方式之间的差距。我们提出了一种新的多模态卷积-RNN结构，它考虑了相邻帧之间的重叠在生成阶段。同时，我们提出了两个新的组件：动态可调整的损失和基于回归的补偿。在我们看来，这两种技术是通用的，可以在其他任务中采用（例如，人体生成和面部表情生成）。我们的最终模型ATVGnet在定性和定量比较中在几个流行的数据集上实现了最佳性能。对于未来的工作，应用其他技术使我们的网络能够生成无意识的头部运动/表情可能是一个有趣的话题，我们目前的方法已经绕过了这个话题。谢谢。这项工作得到了 NSF IIS 1741472 、 IIS1813709和罗切斯特大学AR/VR试点奖的部分支持。这篇文章只反映了输出有希望的中间地标。为了研究姿势效应，我们测试了不同的示例图像（不同的其作者的意见和结论，而不是基金代理人。（一）现实分数同步评分地面实况帧高斯噪声的标准差Ground Truth生成帧（b）第（1）款帧ID #1帧ID#5帧ID#8偏航角-15°0°5°15°20°25°45°65°同步评分现实分数7842引用[1] L. Chen，Z.利河，巴西-地K. Maddox，Z. Duan和C.徐唇部动作生成一目了然。在计算机视觉- ECCV 2018-第15届欧洲会议，慕尼黑，德国，2018年9月8日至14日，会议记录，第七部分，第538- 553页[2] L. Chen，S.斯里瓦斯塔瓦河Duan和C.徐深度跨模态视听生成。在2017年ACM多媒体研讨会会议记录中，美国加利福尼亚州山景城，2017年10月23日至27日，第349-357页[3] J. S. Chung，A.Jamaludin和A.齐瑟曼。你这么说的2017年英国机器视觉会议，BMVC 2017，英国伦敦，2017年9月4日至7日。[4] J. S. Chung和A.齐瑟曼。在野外读唇语。在计算机视觉-ACCV 2016 -第13届亚洲计算机视觉会议，台北，台湾，2016年11月20日至24日，修订的选定论文，第二部分，第87-103页[5] J. S. Chung和A.齐瑟曼。超时：在野外自动对口型。InComputer Vision - ACCV 2016 Work-shops- ACCV 2016International Workshops，Taipei，Tai- wan，November20-24，2016，Revised Selected Papers，Part II，pages251[6] M. Cooke，J. Barker，S. Cunningham和X.邵语音感知和自动语音识别的视听语料库。美国声学学会杂志，2006年。[7] X. Di，V. A. Sindagi和V. M.帕特尔Gp-gan：性别保留gan，用于从地标合成人脸。2018年第24届国际模式识别会议（ICPR），第1079-1084页[8] S. E. 埃斯基梅兹河K. 马多克斯角Xu和Z.段。从语音中生成说话人面部标志。在潜在变量分析和信号分离-第14届国际会议，LVA/ICA 2018，Guildford，英国，2018年7月2日至5日，Pro-ceedings，第372-381页[9] B. 范湖，澳-地Wang，F.K. Soong和L.谢具有深度双向LSTM的照片真实在2015年IEEE声学、语音和信号处理国际会议，ICASSP 2015，南布里斯班，昆士兰，澳大利亚，2015年4月日，第4884-4888页[10] Y. Feng，F. Wu，X.邵，Y. Wang和X.舟结合位置映射回归网络的三维人脸重建与密集对齐。在计算机视觉-ECCV 2018-第15届欧洲会议，慕尼黑，德国，2018年9月8日至14日，会议记录，第XIV部分，第557-574页[11] P. 加里多湖，加-地瓦尔加伊特湾萨尔马迪岛Steiner，K.瓦拉纳西P. P e'rez和C. 希奥博尔特Vdub：修改演员的现场视频，以便与配音音轨进行合理的视觉对齐Comput. Graph.Forum，34（2）：193 -204，2015.[12] Z. L. P. L. X. W. 杭州，刘玉。通过对抗性解缠的视听表示生成说话脸在AAAI人工智能会议（AAAI），2019年。[13] N. Harte和E.吉伦TCD-TIMIT：连续语音的视听IEEETrans. Multimedia，17（5）：603[14] S.洪，X. Yan，T. S. Huang和H.李你通过结构化学习表示。 In S. Bengio，H. Wallach，H. 拉罗谢尔K.格劳曼Cesa-Bianchi和R. Garnett，editors，Advancesin Neural Information Processing Systems 31，pages 2708-2718. Curran Associates，Inc. 2018年。[15] S. Hong，D. Yang，J. Choi，and H.李你推理语义布局分层文本到图像合成。在IEEE计算机视觉和模式识别会议上，2018年6月。[16] J. Johnson，A. Alahi和L.飞飞实时风格转换和超分辨率的感知损失。2016年欧洲计算机视觉会议[17] T. Karras，T. Aila，S. Laine，A. Herva和J.莱赫蒂宁通过姿势和情感的联合端到端学习的音频驱动的面部动画。 ACM Trans. Graph. ，36（4）：94：1[18] D. E. 王 Dlib-ml ：一个机器学习工具包。 Journal ofMachine Learning Research，2009。[19] Y. Li，M.R. Min，D.Shen，D.E. Carlson和L.卡琳从文本生成视频。在第32届AAAI人工智能会议（AAAI-18），第30届人工智能创新应用（IAAI- 18）和第8届AAAI人工智能教育进展研讨会（EAAI-18）的会议记录中，美国路易斯安那州新奥尔良日，第7065-7072页[20] T. Luong，H. Pham和C. D.曼宁基于注意力的神经机器翻译的有效方法。在Proceedings of the 2015 Conferenceon Empirical Methods in Natural Language Processing，EMNLP 2015，里斯本，葡萄牙，2015年9月17-21日，第1412-1421页[21] L.妈，X。贾湾，加-地孙湾Schiele，T. Tuytelaars和L.V.Gool姿势引导人物图像生成。在神经信息处理系统的进展30：2017年神经信息处理系统年会，2017年12月4日至9日，美国加利福尼亚州长滩，第405-415页，2017年。[22] S. Ma，J. Fu，C. Wen Chen和T.美. Da-gan：通过深度注意生成对抗网络进行实例级图像翻译在IEEE计算机视觉和模式识别会议（CVPR），2018年6月。[23] T. 马尔瓦湾Mittal和V.N. Balasubramanian 使用字幕的注意语义视频生成。在IEEE国际计算机视觉会议，ICCV2017，意大利威尼斯，2017年10月22日至29日，第1435-1443页[24] A. Nagrani，J. S. Chung和A.齐瑟曼。Voxceleb：大规模说话人识别数据集。InInter- Speech，2017.[25] O. M. Parkhi、黑腹拟步行虫A. Vedaldi和A.齐瑟曼。深度人脸识别。2015年英国机器视觉会议论文集，BMVC2015，英国斯旺西，2015年9月7日至10日，第41.1-41.12页，2015年[26] A. Pumarola，A. Agudo，A. M.马丁内斯A. Sanfeliu，以及F.莫雷诺诺格尔Ganimation：从单个图像生成的解剖学感知的面部动画。在计算机视觉- ECCV 2018-第15届欧洲会议，德国慕尼黑，2018年9月8日至14日，会议记录，第X，第8357843[27] Y. Song，J. Zhu，X. Wang和H.气基于条件递归对抗网络的说话人脸生成。CoRR，abs/1804.04786，2018。[28] S. Suwajanakorn，S. M.塞茨和我克梅尔马赫-施利泽曼。合成奥巴马：从音频中学习对口型ACM事务处理图表，36（4）：95：1[29] S. Suwajanakorn，S. M.塞茨和我克梅尔马赫-施利泽曼。合成奥巴马：从音频中学习对口型ACM事务处理图表，36（4）：95：1[30] R. Villegas，J. Yang，S.洪，X. Lin和H.李你对自然视频序列进行运动和内容分解预测. ICLR，2017年。[31] R. Villegas，J. Yang，Y. Zou，S. Sohn，X. Lin和H.李你学习通过分层预测生成长期未来。第34届国际机器学习会议论文集，ICML 2017，澳大利亚悉尼，新南威尔士州，2017年8月6日至11日，第3560-3569页，2017年[32] C. Vondrick，H. Pirsiavash和A.托拉尔巴生成具有场景动态的视频。在神经信息处理系统的进展29：2016年神经信息处理系统年会，2016年12月5日至10日，西班牙巴塞罗那，第613-621页，2016年。[33] Z. Wang，中国山核桃A. C. Bovik，H. R. Sheikh和E.西蒙切利图像质量评估：从错误可见性到结构相似性。IEEE图像处理，2004年。[34] N.威彻斯河维勒加斯D. Erhan和H.李你无监督的分层长期视频预测。在第35届机器学习国际会议的筹备会上，ICML2018 ， Stoc kholmsmaüssan ， Stoc kholm ， Swe-den，2018年7月10日至15日，第6033-6041页[35] O. Wiles，A. S. Koepke和A.齐瑟曼。X2face：一个使用图像、音频和姿势代码控制人脸生成的网络。在计算机视觉- ECCV 2018 -第15届欧洲会议，慕尼黑，德国，2018年9

下载后可阅读完整内容，剩余1页未读，立即下载