唇动同步的超高分辨率人脸视频生成方法

194 浏览量更新于2023-10-16 收藏 2.87MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5209×基于唇动同步的超高分辨率人脸视频生成方法IIT-HyderabadRudrabhaMukhopadhyayIIIT-海得拉巴SindhuBalachandraIIIT-海得拉巴Faizan FarooqKhan IIIT-海得拉巴维奈山口巴斯大学C. V.JawaharIIIT-Hyderabad{anchit.gupta，radrabha.m，sindhu.hegde}@ research.iiit.ac.in，faizan. students.iiit.ac.in，vpn22@bath.ac.ukjawahar@iiit.ac.in结果从我们的管道Shaíp íesults in highResolution口腔中的细节像牙齿一样Less aítifacts neaíthe mouth íegion768 x 768Píoposed PipelineUpsampled foíDemoPuíposes高分辨率结果图1：我们提出了第一个说话脸生成网络，它可以以4K等超高分辨率对任何身份进行我们的模型捕捉嘴唇区域的细粒度细节，包括颜色、纹理和牙齿等基本特征虽然当前最先进的模型Wav2Lip [16]以96×96像素（左部分）生成人脸，但我们提出的方法合成了64倍的像素，以768×768像素呈现逼真的高质量结果。摘要说话人视频生成工作已经在合成具有唇同步的视频方面取得了最先进的结果。然而，大多数以前的作品处理低分辨率的人脸视频（高达256 256像素），因此，生成极高分辨率的视频仍然是一个挑战。我们在这项工作中取得了巨大的飞跃，并提出了一种新的方法来合成分辨率高达4 K的说话人脸视频！我们的任务提出了几个关键挑战：（i）将现有方法缩放到如此高的分辨率在计算和非常高分辨率数据集的可用性(ii)合成的视频需要在空间和节奏上连贯。模型需要生成的像素的绝对数量，同时在视频级别保持时间一致性，使得这项任务不平凡，并且在文献中从未尝试过。为了解决这些问题，我们建议第一次在压缩矢量量化（VQ）空间中训练唇同步生成器我们上采样96 x 96原始决议768 x 768奎安特州原始Wav2Lip5210××××以紧凑的16 × 16表示对面部进行编码的核心思想允许我们对高分辨率视频进行建模。在我们的框架中，我们在新收集的4K Talking Faces（4KTF）数据集上学习量化空间我们的方法是说话者不可知的，可以处理各种语言和声音。我们将我们的技术与几个有竞争力的作品进行基准测试，结果表明，我们可以实现比当前最先进技术高出64倍的像素！我们的补充演示视频描述了广告定性结果，比较和几个现实世界的应用，如专业电影编辑启用我们的模型。1. 介绍我们上次看录像是什么时候？对我们中的许多人来说，24小时内就会好起来！事实上，对于大多数人来说，视频是最常见的娱乐形式。YouTube等流媒体平台和Netflix等OTT媒体平台的兴起使视频制作更容易为大众所接受这就是每天超过20万分钟的视频仅在Netflix视频会议是另一个用户大量涌入的领域根据最近的一份报告2，像Zoom这样的视频会议平台可以实现超过3亿次的日常会议，相当于3。每年3万亿分钟！最近，由于COVID-19疫情，对在线讲座的需求受到用户的极大关注。新闻阅读，视频通话，视频博客，营销视频，以及通常很大一部分电影场景都包含演讲者的视频。这些视频被称为“说话脸视频”。随着整体视频内容的增长，说话面部视频的关键组成部分继续呈指数级增长由于互联网服务和摄像机技术的进步，今天的大多数视频都是以极高的分辨率捕获和流式传输像3840 2160（4K）和7680 4320（8K）这样的分辨率被认为是主流，也是娱乐行业的重要要求。随着国际视频内容的增长，基于音频一致地配音所生成的视频内容的能力是一种新的多媒体应用。使用这种技术，可以无缝地观看其他语言的视频内容，并且可以匿名化化身以用于视频会议、游戏和其他多媒体应用。然而，基于音频的视觉配音的主要挑战是基于音频的唇同步方法缺乏可扩展性。这些方法要么不能很容易地推广到多种身份，要么，即使适用于多种身份，也不能推广到高质量、高质量的身份。1https://www.business2community.com/内容营销2https://backlinko.com/zoom-users分辨率视觉配音。我们的工作旨在全面解决这一挑战，使高分辨率的唇同步的任何身份，以一个给定的讲话。在深入研究细节之前，我们首先调查了当前用于将说话面部与给定演讲进行对口型同步的方法的主要分支。语音驱动的说话人脸生成技术近年来取得了巨大的进展。第一个作品[12，19]在这个空间处理大量的数据的特定发言者（例如，Pre-ident Obama），并训练深度神经网络来学习说话者的属性。这些工作表明，通过神经网络学习音素-视位对应是可能的。后续工作继续处理特定于说话者的方法[8，13，18，20]，旨在减少训练所需的特定于说话者的数据量。虽然最初的模型是用奥巴马20所有特定于说话人的方法的基本思想第一模块学习唇形和语音之间的对应关系，而第二渲染器模块生成最终视频。一般来说，这个渲染器是以特定于说话者的方式训练的。尽管多年来孤立说话者的数据已大幅此外，它们也不能处理动态环境，如由大的头部运动和照明变化组成的电影场景为了学习野外说话者的嘴唇同步，说话者不可知的作品开始变得重要。这些作品[2，11，16]在包含数千个身份的LRS2 [3]等大型数据集上进行训练，以学习说话者不可知的特征。它们可以处理看不见的身份，而不需要对特定于说话人的数据进行额外的微调。他们还为各种语言，姿势和声音工作。目前最先进的Wav2Lip [16]以为任何语言的任何身份的视频生成对口型而闻名Wav 2Lip使用标准的编码器-解码器架构，将目标姿势和目标语音作为输入，并生成唇同步面部。一个预先训练好的唇音同步专家库被用作一个批评，惩罚网络不准确的嘴唇形状。然而，Wav2Lip生成的视频分辨率为9696像素-使其几乎无法使用在专业视频中，通常需要4K分辨率。我们总结了当前模型的功能，并将其与表1中提出的方法进行了比较。请注意，我们不同于基于音频的谈话头部生成作品[24，27，30]，其目的是从语音中生成头部运动以及嘴唇类似地，面部再现作品[17，23，28]使用驾驶视频将头部运动转移到源身份。在我们的例子中，5211××≈××≈∼×方法身份不明在野外？高分辨率Synth.奥巴马[19][12]第十二话[20]第二十话LipGAN [11]Wav2Lip [16]××✓×✓×××✓×✓✓✓××我们✓✓✓表1：不同假声模型的比较。我们的模型可以处理这个领域中最具挑战性的案例。我们只改变嘴唇的动作以与目标语音同步，而不改变表情或头部运动，因此我们在比较中排除了这些作品。为什么不以超高分辨率训练Wav2Lip？由于Wav2Lip[16]是当前最先进的唇同步技术，因此出现的最直接和最自然的问题是：“我们可以直接将Wav2Lip扩展到生成和唇同步超高分辨率视频吗？“实现这一点有两种主要方法：（i）以更高的分辨率（如4K）训练Wav2Lip;（ii）在当前Wav 2Lip世代的基础上使用最先进的超分辨率（SR）技术。我们观察到，使用这些策略中的任何一种都会导致次优的世代。这有几个关键原因。首先，来自Wav2Lip的唇同步专家不会收敛于来自AVSpeech [5]或我们提出的4KTF数据集等数据集的高分辨率数据。我们认为这与网络处理的像素数量增加直接相关，增加了整体的可变性。Wav 2Lip的编码器-解码器结构也面临类似的问题，并且不产生有效的输出。另一个需要应对的主要挑战是计算和硬件要求。训练网络生成如此高分辨率的视频会遇到硬件问题。此外，这种网络在训练和处理小批量数据时非常缓慢，导致性能低下。作为替代方案，使用SR方法对Wav2Lip输出进行上采样也不是理想的解决方案。主要原因是：（i）虽然Wav2Lip生成准确的嘴唇和下巴区域，但是所得到的视频缺乏细粒度的面部特征，如牙齿、嘴唇颜色和面部纹理（在面部的下半部分中）。这些文物放大时，我们应用SR方法，以获得高质量的结果;（ii）Wav2Lip生成的视频在96 - 96像素的分辨率。将这些输出上采样到超高分辨率（如4K）将需要可以在高比例因子（如8和16）下工作的视频SR方法。然而，现有的视频SR已知方法[1，9]仅在低比例因子（如4×）下有效工作并生成高质量结果。我们的贡献为了解决获得超高分辨率视频的问题，我们以以下方式修改现有的方法：我们得到了一个量子化的基因-解码超高分辨率图像的交互流水线。生成流水线中的中间量化表示用于使用量化潜在空间中的适当鉴别器来学习嘴唇同步总的来说，我们生成的所有面部包含的像素是Wav2Lip当前输出的96 96的64倍[16]。我们的模型适用于任何在野外看不见的身份，语言和声音（包括合成的文本到语音的声音）。由于现有的人脸视频数据集分辨率有限，我们从YouTube上公开的视频中收集了一个新的4K数据集。我们的数据集总共持续了30个小时，涵盖了各种身份和广泛的词汇表（见图2）。我们训练我们的模型来合成高质量的说话脸视频，并将此数据集放在手中。2. 4K人脸数据集以前的数据集，如MEAD [22]，AVspeech [5]和HDTF [27]，在收集高保真数据方面做了令人难以置信的工作，但分辨率有限。我们介绍了4K说话人脸数据集（4KTF），这是一个新的4K分辨率的视听数据集.我们的数据集由140个YouTube高质量（分辨率：4K）视频，时长30小时。这些视频长度不等，从40秒到40分钟不等，超过2. 500万帧包含一个采取的脸。该数据集主要包含英语视频，词汇量为10，000个单词。这些视频选自不同的频道，包括技术评论、访谈、播客、教育内容和电影场景。这导致了广泛的话题，大量的词汇量和不同的说话风格。虽然大多数视频都包含单个说话者，但我们对多说话者情况使用主动说话者检测[4]，以丢弃可见人脸和音频不同步的片段此外，我们使用YouTube的成绩单，以删除包含不适当或暴力语言的片段我们使用S3FD [26]执行面部检测以获得面部裁剪。在4K分辨率下，人脸检测不仅速度较慢，而且令人惊讶地不准确。因此，我们将视频大小调整为4倍以执行人脸检测，然后将坐标缩放回原始分辨率。我们使用预处理的视频和面部裁剪，用于下一节中描述的管道。还请注意，所收集视频的全分辨率为4K，而视频中的面部裁剪为768 768像素尺寸。图2显示了来自数据集的不同统计数据，以及一些示例帧。我们使用这些新收集的数据来训练所有的网络。由于我们的数据集包含说话的脸视频，语音和自动生成的文本转录（未在本工作中使用），因此它也将对涉及面部，嘴唇运动，语音和文本的空间中的我们将发布数据集以帮助未来的研究在视听领域。5212图2：我们新收集的4K数据集的样本和统计数据（从YouTube收集的我们的数据集具有几乎相等的男女比例，包含不同的视频长度和FPS，涵盖广泛的词汇，并包含高分辨率帧。有关数据集的更多详情，请参阅我们的补充资料。3. 生成超高分辨率的说话人脸高分辨率图像合成的最新进展表明，学习紧凑的向量空间[6]有助于高分辨率合成。像[6]这样的方法首先学习VQ-GAN，然后使用它来生成中间量化嵌入以表示HD图像。像图像到图像转换、超分辨率或随机图像生成这样的下游任务使用量化的嵌入来完成在量子化的空间中。来自这样的下游任务的最终输出是使用VQGAN解码器来生成的，以将结果嵌入转换成RGB图像。3.1. 第一阶段：口形同步发生器在量化空间中表示面部和头部姿势：在我们的工作中，我们采取了这种策略的叶子，首先学习一个紧凑的量化空间来表示更高的分辨率faces。我们首先训练VQGAN[6]，Vf，使用在[6]中重建F。关于损失和超参数的详细信息可以在同一个文件中找到。与Wav2Lip [16]和LipGAN [11]类似，我们的目标是变形扬声器的嘴唇运动，而不改变目标头部姿势。在训练唇同步生成器期间，在为网络提供准确的目标头部姿势的同时，不泄漏关于地面真实面部中的嘴形的信息是至关重要的。WavLip和LipGAN都通过掩蔽地面真实人脸的下半部分并根据语音信号调节生成器以将其生成回来来实现这一点。不幸的是，我们不能直接在量化空间中使用这个技巧。掩蔽Eq的下半部分并不能阻止在嵌入的上半部分中编码的嘴信息的泄漏。因此，我们训练单独的Pose-VQGAN，Vp，仅具有面部的上半部分以避免任何不必要的泄漏。Vp的编码器摄取具有较低半掩模，Fp∈RH×W×3，并输出一个量化的em-E层∈××256。然后解码器学习HW3.公开可用的实现VQGAN en-pR1616编码器将输入面部图像F转换为HW ∈RH×W ×3到从量化的嵌入生成输入Fp该网络使用[6]中提到的损失进行训练。通过集合的中间嵌入Eq∈R16×16×256一旦两个V和V被训练来编码完整的面孔，的卷积层。一种N×256的可学习码书C用于对Ein执行矢量量化。在我们的设置中，我们选择H=W=256和Nc=1024作为码本条目的数量。我们获得矢量量化输出Eq，然后将其传递到标准VQGAN解码器3https://github.com/CompVis/taming-transformers头部姿势，下一步是在量化空间中训练唇同步发生器我们遵循与Wav2Lip类似的训练策略[16]。我们首先训练一个唇同步专家，他在训练唇同步生成器时充当评论家。在量化空间中训练唇同步专家我们的唇同步专家使用类似的架构建议fp5213语音窗口德科代恩科迪同步丢失口形同步发生器语音编码量子化空间假唱体验Face DecodeíFace Encodeí姿势量化嵌入预测嵌入L1通道式连续Vp Quantize参考人脸量化嵌入恩科迪德科代量子化空间Vf QuantizeVf Quantize下半部分掩蔽地面实况窗口参考窗口Pose VQGAN（Vp）Face VQGAN（Vf）后Píocessing（阶段-2）最终输出用生成图像的输入面唇同步嵌入德科代生成的脸部假唱（第一阶段）参考输入语音人脸分割嵌入式嵌入Vf QuantizeVp Quantize输入面戴着面具的脸×−−−−Post PíocessingNetwoík（GPEN）TíainingVQGANSTAGE-1：Lip-sync Geneíatoí第二阶段：后期处理Oveíall Infeíence PipelineL1Lpips最终预测地面实况窗口扰动地面实况窗口图3：我们展示了用于生成超高分辨率对口型视频的管道。我们首先训练Face VQGAN和Pose VQGAN网络（col-1），以在紧凑的1616维空间然后，我们在量化空间中训练唇同步生成器，并使用Face VQGAN解码器返回图像。（阶段-1，col-2）。可选的后处理网络用于提高生成的输出的质量（阶段2，col-3）。为了更好地理解我们的框架，我们还展示了整个推理管道（col-4）。在Wav2Lip [16]中，但是我们在量化空间V f中训练我们的专家，而不是在Wav2Lip中使用的RGB空间。网络主要包含视频和语音编码器。视频编码器摄取T f个连续帧的量化嵌入，并输出由w f表示的D维向量。语音编码器获取从输入语音段获得的Ts长度的梅尔频谱图，并生成D维向量ws。两个编码器的最后一层都是ReLU激活的，以确保向量只有正元素。为了训练唇同步专家，我们从相同的时间步长（同步，即，正对）和来自不同时间步长的随机对（不同步，即，负对）。该网络采用对比学习的方法进行训练我们计算ws和wf之间的余弦相似度，并反向传播二进制交叉熵损失来训练网络。唇同步专家仅在具有Tf=25帧和Ts=1秒（100梅尔频谱图时间步长）的每秒25发生器的架构：我们的发电机网络由三个部分组成：（i）面部编码器，（ii）语音编码器，和（iii）面部解码器。面部和语音编码器输出256维嵌入这些是连接形成512 三维编码，作为解码器的输入编码器和解码器Coder包含一堆带有残差块的2D卷积层、批量归一化层和ReLU激活。此外，我们还在人脸编码器和人脸解码器之间添加了跳过连接，以获得更好的解码器最终在潜在空间Vf中生成量化嵌入。培训细节：发电机网络经过培训，根据给定的语音片段生成精确的唇形。为了准备到语音编码器的输入，我们采用T x= 20梅尔频谱图时间步长（200 ms的语音）的短窗口，由S x表示。然后，我们取该语音窗口的中间帧Fgt，并将其视为地面真值帧。我们将F gt传递通过Vf的编码器以获得地面实况嵌入Egt，并屏蔽Fgt的下半部分，将其传递通过V p，并生成姿态嵌入E gtp。选择来自不同时间步长的参考帧Fr，并将其给定为Vf，这生成参考量化嵌入Fr。我们按通道级联E gtp和E r，其充当面部编码器的输入。语音编码器摄取输入语音梅尔频谱图Sx。然后我们将两个编码器的输出连接起来。解码器使用该级联嵌入来预测输出嵌入Eg′t。该网络使用Eg′t和Egt 之间的L1 损失进行训练。我们还计算同步损失使用我们预先训练的唇同步专家判别器，它采取的音频视频对（S x，T f），并检测他们是否同步或不同步。推理细节：我们考虑在推理过程中跨整个语音段的200 ms（20 mel时间步长）的滑动窗口。每个语音窗口是通过我们的唇同步发生器单独推断。假设我们在推理期间有一个视频，我们获取相应的视频帧并将其传递给Vf，Vf生成参考嵌入。我们还将帧的掩蔽版本输入到Vp，V p对姿势进行编码参考和姿势嵌入都是逐通道级联的，并与melspectogram输入一起提供给唇形同步生成器解码器最终输出唇同步量化嵌入。.....5214××−3.2. 第2阶段（可选）：后处理阶段1输出这是一个可选的阶段，用于进一步提高从阶段1生成的输出的视觉质量。我们使用GPEN [25]作为后处理网络，发现我们得到了稍微改进和更清晰的结果。我们按照原始的训练过程和新收集的4KTF数据集上的损失来训练GPEN [25]。在推断过程中，我们将修改后的面部裁剪馈送到网络：我们使用从Mediapipe [14]获得的嘴唇标志用从阶段1生成的输出仅替换视频的原始面部裁剪的嘴唇区域。然后将合成的输出粘贴回原始视频。有关架构、训练和推理过程的更多细节可以在补充材料中找到。这一阶段是完全可选的，可以用任何后处理网络代替.3.3. 水印最终输出说话的脸生成模型[10，16，17，23，29]能够实现过多的积极应用。然而，由于可能出现有害的“deepfakes”，因此存在潜在的负面影响。我们使用不可见水印技术将不可见水印添加到我们的数据集[15]4。图像的感知视觉质量没有变化。该方法利用离散小波变换（DWT）+离散余弦变换（DCT）+奇异值分解（SVD）变换，将随机生成的固定字符串嵌入我们可以使用每个变换的逆来解码图像以获得固定的字符串。我们首先对整个数据集进行水印，然后训练网络。它确保模型固有地学习水印，并将其输出到每个生成的面部裁剪中，最终粘贴回全帧。在测试时，我们首先检测视频中存在的每个人脸区域。然后，我们尝试在每帧中检测到的面部区域如果总帧的50%包含水印，我们假设它是匹配的。4. 实验在本节中，我们评估了我们的方法在不同数据集上生成的输出的各个方面。我们还包括我们的技术的几个视觉结果，并将它们与当前最先进的方法进行比较。4.1. 定量评价图1：为了评估唇同步的质量，我们使用Wav 2Lip[16]中引入的“唇同步误差-置信度”（LSE-C）和“唇同步误差-距离”（LSE-D）指标。公开可用的预训练模型SyncNet [4]用于计算唇同步误差。更4https://github.com/ShieldMnt/不可见水印关于这两个度量的细节可以在Wav2Lip [16]中找到除了这些指标之外，我们还使用流行的Fre'chetInceptionDistance（FID）来评估帧级别上各代的感知质量。类似地，我们使用Fre'chetVideoDistance（FVD）[21]来衡量视频级别的感知质量。FVD用于测量帧级的时间相干性和锐度。这些指标仅使用面部裁剪进行计算，确保高分辨率背景在计算中不起任何作用。基线：我们用多个基线来比较我们的工作.我们修改了公开可用的代码库“你说的？“[2]，我们在架构中进行适当的更改，以处理更高分辨率的输入。作为另一个基线，我们使用原始分辨率（96 96）的公开可用的Wav 2Lip模型，并使用预先训练的最先进的视频超分辨率模型我们对来自AVSpeech测试集和拟议4K数据集的 5000 个选定视频的所有模型进行了请注意，AVSpeech测试集是在1080p分辨率下评估的。结果：如表2所示，我们的表现优于竞争对手，通过一个显着的利润率的方法。我们的方法以非常高的分辨率（由LSE指标表示）生成对口型视频。所产生的输出是尖锐的，高度时间相干相比，以前的作品（指示FID和FVD度量）。我们的方法在生成具有非常少伪影的高质量帧方面超越了现有的基线（也在图4和柔性视频中验证）。Silent Regions的相关资料：虽然Wav2Lip [16]在大多数情况下都能生成准确的对口型，但它在长时间的无声区域中很难做到。存在于视频中的原始嘴唇运动干扰所生成的嘴唇运动，导致嘴唇的显著变形。我们提供无声音频作为测试集中所有视频的输入，并将我们的结果与表3中的Wav2Lip进行比较。图5中还提供了样品的视觉演示。从表和图中可以看出，我们的模型处理静音的效果比Wav2Lip好得多。我们假设原因是在量化空间中学习唇同步，量化空间比Wav2Lip训练的图像空间更丰富4.2. 人类评价由于对口型的质量是高度主观的，我们对生成的视频进行人工评估。我们向50名用户展示了不同算法的输出，并要求他们对视频进行评分，评分范围为1 -5，1为最低评分，5为最高评分。要求用户对以下三个属性进行评分：（i）唇同步质量，（ii）5215AVSpeech [5]4KTF方法LSE-C ↑ LSE-D ↓ FID↓FvD ↓ LSQ↑嘘。 ↑ OE↑LSE-C ↑ LSE-D ↓ FID↓FvD ↓ LSQ↑嘘。 ↑ OE↑你说的4K [2]0.9810.019.129.812.501.321.981.0710.4718.349.831.321.441.41[11]第十一话1.099.527.638.522.631.712.311.438.1814.219.161.471.421.31[16]第十六话2.669.138.018.413.171.652.183.128.747.547.913.521.372.63[16]第十六话+ TecoGAN [1]4.176.337.477.163.261.942.274.037.247.188.863.431.722.14我们7.266.215.186.413.724.514.327.106.326.846.666.864.434.62表2：AVSpeech [5]和我们新的4KTF数据集上不同方法的定量比较我们的模型远远优于所有基线使用我们的方法，我们可以获得高质量的输出（表示为FID和FVD）和准确的唇同步（表示为LSE-C和LSE-D）。请注意，FVD按100的因子缩放以获得更好的可读性。我们还报告了基于以下内容的人类评估分数：（i）口形同步质量（LSQ），（ii）可共享性（Shrp.），（三）整体经验（OE）。面部的清晰度和其他细节，以及（iii）视频的整体体验我们在表2中报告了平均意见得分与定量评估一致，我们的方法在所有这些属性中获得了最高分数，表明我们的方法具有鲁棒性。图4描述了从不同模型生成的样本。我们可以观察到，与当前方法相比，我们的模型生成了高度详细的唇部区域。它能有效地重建牙齿、唇色、嘴唇和下颌纹理等精细的面部特征我们发现视觉结果证实了我们的定量和人为评估的结果。方法LSE-C↑ LSE-D↓ FID↓ FVD↓[16]第十六话+ TecoGAN [1]我们1.084.1812.738.217.1246.7910.889.03表3：我们的方法在视频的无声区域工作良好。5. 消融研究我们进行了几次消融，以验证我们不同组件的效果。在4KTF数据集的测试集上报告分数。后处理网络的重要性为了评估第2阶段网络的重要性，我们比较了管道第1阶段和第2阶段的结果。虽然结果具有良好的对口型同步，但第2阶段的结果稍微尖锐，如表4所示。方法LSE-C↑LSE-D↓FID↓FVD↓我们的，不含第2我们7.017.106.316.327.126.847.486.66表4：阶段1和阶段2结果的比较。我们在不使用同步丢失的情况下训练了一个对口型同步我们还改变上下文窗口大小T-我们用T=5和T=25进行测试。我们发现假唱专家在较长的视听序列上训练的表现更好，并被选择用于最终版本。我们还通过创建随机的视听对来计算唇同步专家的准确性，这些视听对以50%的概率同步和不同步表5表明，使用25帧的上下文窗口，针对用同步丢失训练的模型实现了最佳准确度。方法LSE-C↑ LSE-D↓Acc. ↑我们的无同步丢失1.1311.01-同步丢失，T=53.1210.3865.1%同步丢失，T=257.106.3291.2%表5：我们评估了对口型专家的重要性，并显示了使用不同上下文窗口的效果。我们发现，用25帧训练的对口型专家是最准确的，迫使发生器产生最准确的唇形。6. 应用我们相信我们的模型是一个完美的适合几个appli-阳离子的时候，全球各地的多媒体内容的数量呈指数级增长。我们的模型支持的一些潜在应用如下。(i)影视行业：现代电影被配音并以数十种语言发行。我们的模型可以轻松地对这样的配音电影进行对口型同步，并改善观看体验。同样，其他形式的配音内容，如电视节目，访谈，纪录片和讲座也可以精确对口型;（ii）营销：营销视频对于接触客户至关重要。大规模生成逼真的营销视频可以降低成本，并受到全球企业的追捧。一个视频可以用不同的音频和语言对口型，而不是为不同的产品录制数百个营销视频，从而降低了成本; ㈢在线会议：几个小时的在线会议已经引起了像变焦疲劳[7]这样的问题，即，厌倦了看镜头。我们的工作可以潜在地用于替换扬声器的实际视频流，5216图4：不同算法的样本结果。显然，我们的模型产生了更好、更清晰、更高质量的输出。我们的模型捕捉到了牙齿、皮肤皱纹和唇色等复杂的细节，而这些都是以前的模型无法生成的。图5：无声语音段的性能评估。虽然Wav2Lip的输出遵循原始的嘴唇运动，但我们的模型可以生成与无声语音同步的闭合嘴唇形状与所述口述内容同步的已授权内容。我们的模型还可以在连接质量下降的情况下生成视频流;（iv）动画：即使我们的模型从未在CGI面部上训练过，它仍然表现良好动画人物的故事这使得我们的模型可以用于游戏和动画电影;以及（v）训练：由于我们的模型在给定语音片段的情况下生成准确的唇形，因此它可以用于向听力困难的人及其家庭成员教授唇读。可以创建各种各样的课程内容，显示与单词和句子相对应的嘴唇运动，从而能够大规模地训练人类唇读者。7. 结论本文提出了第一种生成超高分辨率人脸视频的方法通过我们的方法，现在可以在非常高的分辨率（4K）下合成具有精确唇形的说话面部视频。我们的工作围绕着一个两阶段的框架，我们首先学习在一个紧凑的矢量化空间唇同步，然后渲染高分辨率的人脸输出。我们首次以如此高的分辨率生成最先进、逼真、高质量的结果，并在竞争方法上取得了重大改进。我们相信，我们的工作将积极影响多个行业，开辟新的应用程序，使电影制作更容易！Wav2lip-oíiginal+TecoGAN我们Wav2lip-4KLipGAN-4K我们的Wav2Lip原始视频一个喂5217引用[1] MengyuChu，YouXie，JonasMayer，LauraLeal-Taixe' ，and Nils Thuerey.经由自我监督学习时间相干性以用于基于gan的视频产生。ACM事务处理图表，39，2020年7月。[2] Joon Son Chung、Amir Jamaludin和Andrew Zisserman。你这么说的？2017年英国机器视觉会议[3] 郑俊山，老安德鲁，奥里尔·维尼亚和安德鲁·齐瑟曼.在野外读唇语句子。在2017年IEEE计算机视觉和模式识别会议上，第3444-3453页。IEEE，2017年。[4] J. S. Chung和A.齐瑟曼。超时：自动对口型在多视图唇读研讨会上，ACCV，2016年。[5] Ariel Ephrat，Inbar Mosseri，Oran Lang，Tali Dekel，Kevin Wilson，Avinatan Hassidim，William T. Freeman和Michael Rubinstein。在鸡尾酒会上聆听：一种用于语音分离的与说话人无关的视听模型。37（4），2018年7月。[6] PatrickEsse r，RobinRombach，andB joürnOmme r. 用于高分辨率图像合成的驯服变压器，2020年。[7] G. 福维尔湾Luo ， A.C.M.Queiroz， J.N.Bailenson和 J.Hancock。Zoom疲劳量表。计算机在人类行为报告，4：100119，2021。[8] OhadFried ， AyushTewari ， MichaelZollhoüfer ，AdamFink el-stein ，Eli Shechtman ，Dan B Goldman ，Kyle Genova ， Zeyu Jin ， Christian Theobalt ， andManeesh Agrawala.基于文本的编辑说话头视频。ACM事务处理图表，38（4）：68：1[9] MuhammadHarisGregShakhnarovich 和 NorimichiUkita。用于视频超分辨率的递归反投影网络。在IEEE计算机视觉和模式识别会议（CVPR），2019。[10] Jia Ji，Hang Zhou，Kaisiyuan Wang，Wayne Wu，ChenChange Loy，Xun Cao，and Feng Xu.音频驱动的情感视频肖像。arXiv预印本arXiv：2104.07452，2021。[11] Prajwal K R，Rudrabha Mukhopadhyay，Jerin Philip，Ab-hishek Jha，Vinay Namboodiri，and CV Jawahar.走向自动面对面翻译。第27届ACM多媒体国际会议论文集，MM'19。ACM，2019年。[12] Rit heshKuma r，J. Sotelo，K. Kuma r，A. D. 布雷比松和尤伊·本吉奥。奥巴马：照片般逼真的文字对口型。ArXiv，abs/1801.01442，2018。[13] Avise kLahiri ， VivekKw atra ， ChristianFrüh ， JohnLewis，and Chris Bregler.Lipsync3d：使用姿势和光照归一化从视频中对个性化3D说话面部进行数据高效学习CoRR，abs/2106.04185，2021。[14] Camillo Lugaresi，Jiuqiang Tang，Hadon Nash ，ChrisMc- Clanahan ， Esha Uboweja ， Michael Hays ， FanZhang，Chuo- Ling Chang，Ming Guang Yong，JuhyunLee，Wan-Teh Chang，Wei Hua，Manfred Georg，andMatthias Grundmann.Mediapipe：构建感知管道的框架。ArXiv，abs/1906.08172，2019。[15] KA Navas ， Mathews Cheriyan Ajay ， M Lekshmi ，Tampy S Archana，and M Sasikumar.基于Dwt-dct-svd的水印技术ing. 2008年IEEE，2008年。[16] KRPrajwal ， RudrabhaMukhopadhyay ， VinayP.Nambood-iri和C.V.贾瓦哈一个唇同步专家是所有你需要的语音唇代在野外。在第28届ACM多媒体国际会议论文集，MM[17] Ali aksandrSiarohin ， Ste' phaneLathuilie` re ， Ser geyTulyakov，Elisa Ricci，and Nicu Sebe.图像动画的一阶运动模型。在神经信息处理系统会议上，2019年12月。[18] Linsen Song，Wayne Wu ，Chen Qian ，Ran He ，andChen Change Loy.大家都在说让我按你说的说。arXiv预印本，arXiv：，2020年。[19] Supasorn Suwajanakorn ， Steven M Seitz ， and IraKemelmacher-Shlizerman. 合成奥巴马：从音频中学习对口型。ACM Transactions on Graphics（TOG），36（4）：95，2017。[20] Justus Thies，Mohamed Elgharib，Ayush Tewari，Chris-tian Theobalt ， and Matthias Nießner. 神经语音 pup-petry：音频驱动的面部重现。arXiv预印本arXiv：1912.05566，2019。[21] Thomas Unterthiner ， Sjoerd van Steenkiste ， KarolKurach ， Raphael Marinier ， Marcin Michalski ， andSylvain Gelly.为了准确的视频生成模型：新的度量&挑战。arXiv预印本arXiv：1812.01717，2018。[22] Kaisiyuan Wang，Qianyi Wu，Linsen Song，ZhuoqianYang，Wayne Wu，Chen Qian，Ran He，Yu Qiao，andChen Change Loy.Mead：一个大规模的音频-视频数据集，用于情感说话面部生成。在ECCV，2020年8月。[23] Ting-Chun Wang，Arun Mallya，and Ming-Yu Liu.用于视频会议的单镜头自由视角神经讲话头合成在IEEE计算机视觉和模式识别会议论文集，2021年。[24] 吴浩哲，佳佳，王浩宇，窦义顺，段超，邓青山。模仿任意说话风格的现实音频驱动的说话脸合成，第1478-1486页。美国纽约州纽约市计算机协会，2021年。[25] 杨涛，任沛然，谢轩松，张磊。Gan先验嵌入式网络用于野外盲人脸恢复.在IEEE/CVF计算机视觉和模式识别集，第672[26] Shifeng Zhang，Xiangyu Zhu，Zhen Lei，Hailin Shi，Xiaobo Wang，and S.李S3fd：单镜头比例不变的人脸检测器。2017年IEEE计算机视觉国际会议（ICCV），第192-201页[27] Zhimeng Zhang，Lincheng Li，Yu Ding，and ChangjieFan.流引导的一次性说话人脸生成高分辨率的视听数据集在IEEE/CVF计算机视觉和模式识别会议论文集，第3661-3670页[28] Hang Zhou，Yasheng Sun，Wayne Wu，Chen ChangeLoy，Xiaogang Wang，and Ziwei Liu.基于隐式模块化视听表示的姿态可控的说话人脸生成。在IEEE计算机视觉和模式识别会议（CVPR）上，2021年。5218[29] Hang Zhou，Yasheng Sun，Wayne W

下载后可阅读完整内容，剩余1页未读，立即下载