音频和视频生成真实的头部视频

56 浏览量更新于2023-10-16 收藏 1.47MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

5178视听人脸再现MadhavAgarwal IIIT，海得拉巴RudrabhaMukhopadhyayIIIT，海得拉巴巴斯大学C V JawaharIIIT，海得拉巴{madhav.agarwal，radrabha.m} @ research.iiit.ac.in，vpn22@bath.ac.uk，jawahar@iiit.ac.in图1：我们提出了AVFR-GAN，这是一种用于面部重现的新方法我们的网络需要一个源身份，一个驱动帧，和一个小的音频块与驱动帧相关联，以动画的源身份根据驱动帧。与以前的作品（如[29]和[30]）相比，我们的网络生成了高度逼真的输出。我们网络的结果包含的伪影明显更少，并且可以处理嘴部运动、眼球运动等。以更好的方式。摘要本文提出了一种利用音频和视频流来生成真实的头部视频的方法。我们通过使用可学习的关键点生成的密集运动场从驾驶视频传输头部运动来动画源图像。我们使用音频作为额外的输入来提高唇同步的质量，帮助网络关注嘴部区域。我们使用额外的先验知识，使用人脸分割和人脸网格来改善重建人脸的结构。最后，我们提高了一代人的视觉质量，通过将一个精心设计的身份感知生成器模块。身份感知生成器将源图像和变形的运动特征作为输入，以生成具有细粒度细节的高质量输出。我们的方法产生了最先进的结果，并很好地推广到看不见的面孔，语言和声音。我们使用多个指标全面评估我们的方法，并在定性和定量方面优于当前的技术。我们的工作开辟了几个应用，包括实现低带宽视频通话。我们在http://cvit.iiit.ac.in/上发布演示视频和广告信息research/projects/cvit-projects/avfr.1. 介绍想象一下，你最喜欢的名人每天给你最新的新闻，激励你去锻炼，或者在你的手机上与你互动！如果一个电影导演可以重新扮演一个演员的形象，或者，如何熟练的内容创作者动画化身在一个虚拟世界，以遵循一个演员的头部运动和表达的细节我们还可以通过在视频通话中制作自己穿着得体的形象来减少缩放疲劳[11]，而无需传输实时视频流！这些想法似乎是虚构的、不可行的、不可扩展的。但是，如何动画或“重演”一个单一的形象，任何人根据驾驶视频的因此，在一个日益数字化的世界里，面部再现开辟了许多机会。人脸重现的目的是动画的源图像使用的驾驶视频的运动，同时保持源身份。多种出版物提高了一代人的素质现有的关于讲话头部生成的工作通常使用单一模态，即，无论是视觉[12，29，39，40]或音频功能[13，37，31]。音频驱动的谈话5179×头部生成模型擅长生成高质量的对口型;然而，它们在处理非语言线索方面有严重的缺点。视频驱动的方法严重依赖于运动与外观的分离[17]。这些方法通常使用关键点作为中间表示[29，12，39]，并尝试对齐源帧和驱动帧的检测到的关键点。这些作品以无监督的方式学习关键点，并且未能专注于面部的特定区域这是由于对面部结构或所发出的语音的先验知识不足生成的最终质量也受到使用基本的基于CNN的解码器的影响，该解码器无法捕获源图像中存在的锐度并生成模糊的输出视频。作为这项工作的一部分，我们在第2节中详细介绍了不同的方法。在本文中，我们分析了目前的工作的不足之处我们介绍了一个 audio-visual 的面部重演 GAN （ AVFR-GAN），一种新颖的架构，使用音频和视觉线索来生成高度逼真的面部重演。我们首先以面部分割掩码和面部网格的形式提供关于面部结构的额外先验我们还提供了相应的语音，我们的算法，以帮助它注意到嘴部区域，提高嘴唇同步。最后，我们的流水线使用一种新的身份感知人脸生成器来改善最终输出。我们的方法生成的结果优于当前最先进的作品，如第4节所示我们根据几个基线全面我们还进行人工评估，以评估同一部分中的我们提出的方法打开了一系列应用程序，如第6节所讨论的，包括压缩视频通话。我们的工作取得了超过7在相同条件下测试时，视觉质量得到改善压缩水平使用最近发布的H.266 [7]编解码器。我们的贡献总结如下：1. 我们使用额外的先验知识的形式的脸网格和脸分割掩模，以保持面部的几何形状。2. 我们利用音频形式的附加输入来提高嘴部区域的生成质量。音频还有助于保持嘴唇同步，增强观看体验。3. 我们建立了一个新的精心设计的身份感知人脸生成器，以生成高质量的谈话头部视频相比，在以前的作品中存在的高水平的模糊。2. 相关工作基于用于生成讲话头部的输入类型，讲话头部生成工作可以大致分为三类：文本驱动[16，33，36]，音频-驱动[9，13，18，31，37，43，45]和视频驱动[12，27，29，39，44] Talking Head Generation.文本驱动的自然图像生成[25，26]最近在计算机视觉领域取得了很大进展。受GANs最近在从文本生成静态人脸方面的成功启发[38]，Liet al. [16]提出了一种用文本驱动嘴部、上面部和头部动画参数的方法。Txt2Vid[33]将口头语言和面部网络摄像头数据转换为文本，并将其传输，以实现使用通话头生成的低带宽视频会议。然而，这种方法在很大程度上依赖于生成的语音，改变了视频通话中原始说话者这取决于语音转文本模块的质量，该模块会引入语法错误和语言依赖性。文本作为一种媒介，对头部和嘴唇运动的信息很少;因此，我们认为这个问题是不适定的。虽然文本驱动的方法严重缺乏足够的先验知识，但我们现在转向音频，这是一种更具表达性和信息性的输入形式。顾名思义，音频驱动方法[9，13，18，31，37，43，45]仅使用音频来动画静态人脸图像。第一套作品就像你说的那样？[9]，LipGAN [15]和Wav2Lip[24]实现了与给定音频的嘴唇同步，但未能生成与语音同步的头部运动。这些作品使用完全卷积架构，并在不考虑时间约束的情况下一次生成一帧。最终，一个不同的类的作品开始，从宋等人。[31]在2018年和Zhouet al. [43]在2019年，开始使用条件递归神经网络来建模说话人脸的时间特征。2020年，Zhouet al. [45]发表了一项里程碑式的工作，预测密集流从音频，而不是直接产生输出视频。然后使用密集流来扭曲源图像以生成最终输出。其他几个著名的作品，如情感视频肖像[13]，添加了一个额外的情感标签作为输入，以创建所需情感的说话头部。然而，所有这些工作都缺乏对讲话头部的细粒度控制，并且经常包含循环的头部运动，因此不能直接用于许多应用中。最后，我们转向视频驱动的方法，其使用驱动视频来获得重新表现源图像所需的运动和其他面部特征。请注意，驾驶视频和源图像可能不具有相同的身份。由于驱动视频的重要先验，视频驱动方法的最终生成质量优于5180×256x256x5网片缝合源遮罩关键点朱奈亚托伊苏伊塞菲亚梅运动轨迹图256x256x364x64x256关键点检测苏伊塞菲亚梅MediaPipe基于Waípino的密集运动场真假Concat跳过连接迪维诺·菲亚梅256x256x5网格拼接掩模200毫秒语音（Melaníooíam）DíivinoKeypoints音频地图C迪斯科舞曲64x64x51380x16x1音频编码64x64x256口腔护理注意事项256x256x3视听注意障碍geneniated64x64x1Identity-AwaíeGeneíatoí图2：我们提出的视听人脸重现网络（AVFR-GAN）的整体管道在此图中给出我们采用源图像和驱动图像，以及它们的面部网格和分割掩模来提取关键点。音频编码器从驾驶音频中提取特征，并使用它们来提供对唇部区域的注意音频和视觉特征图被扭曲在一起，并与源图像的提取特征一起传递到精心设计的身份感知生成器，以生成最终输出。纯文本和纯音频。Siarohin等人发表了这一领域最有影响力的工作，一阶运动模型（FOMM）。[29]2019年其核心思想是从源帧和驱动帧中检测到的稀疏关键点估计运动场。运动场用于计算稠密流，并在隐空间中对源帧进行变形。其他几个作品[39，12]遵循相同的原则，并添加了补充组件，以提高质量。Face-vid 2vid [39]在3D空间中使用关键点信息，处理头部旋转等。DA-GAN[12]进一步增加了深度感知注意力，以提供密集的3D面部几何形状来指导运动场的生成。在运动-关节式动画表示[30]中的类似方法使用关键区域而不是关键点来生成可扭曲的运动场。像ICface[34]这样的方法提供了一种使用头部姿势角度和动作单元值来控制面部图像的姿势和表情的方法最近，Zhanget al.[42]提出了使用三维可变形人脸模型（3DMM）参数来重现人脸图像。他们证明了3DMM的运动描述符参数可以从驾驶视频中导出，反过来，可以动画静态面部图像。据我们所知，PC-AVS [44]是唯一使用音频和视频来制定低维姿势和运动代码的工作。与FOMM不同，PC-AVS不预测运动场来计算密集流和扭曲源图像。相反，他们试图训练他们的网络学习运动在一个潜在的空间内在.虽然这使他们能够实现国家的最先进的嘴唇同步，一般-视频的整体质量被认为不如DA-GAN [12]。在这项工作中，我们的方法基于FOMM我们还提供了额外的结构信息，以提取更好的面部几何形状。这使得我们能够利用两个世界的最佳效果，并提出一种新的网络AVFR-GAN，如下一节所述。3. 视听人脸再现GAN我们提出了一个音频-视觉FaceR eenactment GAN（AVFR-Gan），它需要一个源图像和一个驾驶视频加上音频，通过保留源身份来创建高质量的说话头部视频。如前所述我们不是以视频的形式生成多个帧，而是以逐帧的方式处理输入。我们的主要目标是估计源和驱动帧之间的运动，然后相应地扭曲源帧以生成驱动帧的近似。如图2所示，我们的型号可大致分为MGen发生器和MRM椎间盘我们首先讨论发电机内部的各个组件关键点检测器的附加结构先验我们从选择源帧Fs和驱动帧Fd开始，源帧Fs和驱动帧Fd都具有维度hw。在训练过程中，这两个帧都是从同一个视频中选择的。我们将这些帧通过mediapipe [19]来生成人脸5181K4444××××× ×图3：音频窗口选择器机制的图示它生成200 ms频谱图，使得驱动帧保持在片段的中间。在25 FPS视频的情况下，200 ms片段包含5帧。网格和面部分割图。我们将生成的网格和分割掩模与它们各自的图像进行通道连接，并创建相同的5通道版本。我们将级联的源帧和驱动帧分别称为Is和Id。我们使用这些关联的输入来馈送到我们的关键点检测器Mkp中。这些先验的添加帮助我们为关键点检测器提供关于源帧和驱动帧的相应结构的更多信息。此外，分割掩模还向模块提供前景和背景信息，使得能够仅从前景检测关键点。我们在我们的架构中使用FOMM [29]中的关键点关键点检测器Mkp检测K个关键点。更具体地说，我们可以写，图4：视听注意力模块的图示。注意力是通过在每个位置的学习的音频特征和视觉特征之间取点积来产生的，然后是Sigmoid激活。仅从音频，我们的目标是仅改善嘴部运动，并直接从驾驶视频传输头部运动因此，我们遵循与唇同步工程相同的策略来处理语音，如[9，15，24]我们在我们的驱动帧Fd周围选择200ms的语音窗口，使得Fd是采样窗口中的中间帧。音频窗口选择的图形表示如图3所示我们从语音窗口生成mel频谱图Imel音频编码器还输出hwc维度的特征图Encaud我们将（Encmotion，Encaud）与生成的注意力地图连接起来，如下所述。{XT，n}n=1=Mkp（IT），T∈s，d（1）从源帧和驱动帧生成的关键点之间的差异用于计算FOMM之后然后，运动场用于计算密集流并生成变形特征图。我们将该特征图表示为运动特征图，Encmotion，因为它捕获源帧和驱动帧之间的运动。此特征图的维度保持为视听注意力除了提高生成的视频中的嘴唇同步，我们还建议使用音频来专门关注说话者为了做到这一点，我们将Imel传递通过注意编码器，该注意编码器生成维度11c的编码Enc查询。然后，我们采取尺寸hwc的Enc运动，并使用Enc查询计算每个位置处的点积，生成h生成一个h×w×1矩阵。我们把它通过一个S形4×4×c。我们绘制在特定的4 4中检测到的样本关键点图5（左）。此外，请注意，每个关键点在生成的运动场中都有一个特定的感兴趣区域我们在图5（中）中绘制了每个关键点的热图。热图显示每个键的感兴趣区域层以获得注意力地图Encattn，如图4所示该块的正式定义在等式2中给出。Encattn（i，j）=Sigmoid（EncqueryEncmotion（i，j）），点对应于特定的面部特征。例如，w h深蓝色关键点用于嘴部区域，绿色用于下巴，天蓝色专门用于i∈4，j∈4（二）眼部区域。有趣的是，两只眼睛都被同一个关键点所关注。音频调节功能音频（在我们的例子中主要是语音）是一个重要的信息来源，通常伴随着一个说话的头部视频。我们决定使用驾驶视频中的语音来提高生成的视频中嘴部运动虽然像MakeItTalk [45]这样的作品已经产生了头部运动，视听注意力的可视化可以在图5中找到。正如我们所看到的，音频不仅帮助模型关注嘴部区域，还帮助网络关注其他区域，如眼睛，这与语音中的表情相关。身份感知生成器我们提出了一种新的生成器来解码级联特征向量。我们分析了FOMM中使用的当前解码器[29]，Face-5182MGen每个层之后都是光谱归一化[21]或实例归一化[35]。每个卷积块后面都是Leaky ReLU激活[20]。判别器预测真实或虚假标签，并被训练以最大化等式3中给出的以下损失函数L_DiscmaxLDisc =Expreal logMDisc（x）+M圆盘E F基因 log（1 −M圆盘（Fgen））（三）图5：检测到的关键点（左），与每个关键点对应的彩色编码热图（中）以及视听模块产生的注意力（右）。ROI图像示出存在特定于眼睛和嘴区域的关键点注意力图像显示AVFR-Gan关注的重要面部区域。用于训练生成器的损失我们使用类似于[29]的多个损失函数。我们利用Fd和Fgen之间的L1重建损失。我们还使用LPIP [41]视觉相似性损失（由Lper表示）来提高生成的输出的感知质量最后，我们采用等变约束Leq中所描述的原始FOMM文件。我们建议读者参考[29]以了解有关这些约束的信息。在训练生成器的同时，我们还最小化了等式3中给出的最小损失。因此，我们给出了最终的损失函数，公式4。[39]我们意识到，目前的作品遵循的管道无法直接从源图像捕获信息。网络最小LGen=||Fd−Fge n||1个以上Lper+Leq+EFgenlog（1−MDisc（Fgen））（四）完全依赖于运动估计器产生的变形特征来获得源说话人的身份特征。不幸的是，扭曲的特征被迫编码运动和细粒度的身份信息，使其更难训练。这最终导致输出包含主要的伪影并失去锐度。我们在此基础上进行改进，设计了一个身份感知的人脸生成器。我们首先将Encmotion、Enccon和Encattn连接在一起，以获得最终的扭曲特征，从而生成Encdec。而不是只提供扭曲的特征，我们还将源图像Fs单独馈送到UNet形状[28]推理设置虽然我们在训练期间从同一视频中采样Fs和Fd，但我们的训练策略确保身份和运动信息得到很好的提取。因此，我们的方法允许跨身份的面部重新识别。在推理过程中，我们选择一个人的单个图像作为源图像Fs。给定N帧的驾驶视频，Vi. N，我们将每个帧与Fs和Vi的相应音频片段（由Ai表示）一起单独通过我们的网络，以生成如等式5所示的最终输出。生成器. 生成器由身份编码器和解码器组成编码器和解码器都包含受空间自适应归一化启发的残留卷积块[23]。源图像Fs首先通过iGen=M Gen（F s，V i，A i），i ∈ 1. N（5）身份编码器，用于对身份信息进行编码。来自身份编码器的输出然后与Encdec级联，并且最终通过匹配解码器，其中在编码器和解码器块之间具有适当的跳过连接。生成器的最终输出由Fgen表示。我们的发电机产生最尖锐的输出，把目前的国家相比，最先进的，如在随后的部分。为了提高生成输出的质量，我们还使用了一个标准的鉴别器，它与网络的其余部分一起在GAN设置中进行训练。我们的CNORM光盘，由一堆Conv2D在我们的实验中，我们设置h=256，w=256，并预测K=10个关键点，用于训练我们所有的模型。该模型使用Adam优化器[14]进行训练，学习率调度器设置为60和90epochs。初始学习率设置为0。001。模型在4个NVIDIA RTX 3080Ti GPU上的训练时间约为10天，批量大小为10。我们在VoxCeleb [22]数据集上训练我们的模型，该数据集包含25 FPS视频。因此，200ms音频窗口由5个帧组成，其中第3帧被选择为驱动帧框架Fd. 来自同一视频的任何其他随机帧在训练网络期间被选择为F。补充材料中提供了有关网络结构和其他培训特性的更多详细信息。F5183×同一身份再现交叉ID重演L1↓PSNR↑SSIM↑FID↓LMD↓AED↓同步↑FID↓同步↑FOMM[29]0.04628.8900.74011.041.2940.1425.1711.933.17[39]第三十九话0.06229.1600.69011.471.6200.1534.9610.814.19MRAA [30]0.04023.3510.6411.361.2800.1353.1015.613.96[44]第四十四话0.08123.7500.62014.321.8430.1806.7616.786.39[12]第十二话0.03631.2200.8049.101.2780.1295.019.404.71AVFR-GAN（我们的）0.03432.200.8248.481.2800.1275.459.054.99表1：与VoxCeleb[22]数据集上相同身份重演和交叉身份重演的最新方法的比较。↑表示越大越好，↓表示越小越好。4. 实验和结果我们提供了一套全面的评估，以measure- sure我们提出的方法的性能。我们按照以前的作品所设定的标准基准进行定量评估。我们还进行了广泛的人工评估，以提供对生成结果的定性我们使用Vox- Celeb [22]数据集的公共测试集。该数据集包含名人的视频。所有的视频都被预处理到256 256.的测试集包含465个不同身份的视频，总共76分钟。评估为了提供视频重建的广泛评估，我们使用几个指标来衡量不同作品的性能。我们使用以下指标来衡量我们这一代人的各个方面。L1：它检查生成的视频和地面实况视频之间的平均L1距离。LMD：LandmarkDistance使用预先训练的面部地标检测器[8]计算地面实况和开发视频的检测到的关键点之间的距离。请注意，该指标在[29]中用平均关键点距离表示。然而，我们将其重新命名为地标距离，以避免与本工作中使用的关键点检测器模块AED：平均欧几里德距离用于评估身份信息。我们使用Openface[6]来找到生成的和地面实况视频的特征向量，然后在它们之间取L2PSNR：峰值信噪比用于评估生成图像与地面真实图像相比的重建质量SSIM：结构相似性指数评估图像结构信息的感知变化。我们将其与PSNR一起使用，因为它还可以处理全局光照变化。FID：Fre'chetInceptionDistance用于比较生成图像的分布与使用从InceptionV3模型提取的特征的地面实况图像[32]。同步：Syncnet置信度分数用于测量嘴唇同步的量[10]。与最先进方法的比较我们将我们的工作与针对相同任务发表的当前方法进行比较。为了进行公平的比较，我们使用FOMM [2]，MRAA [3]，PC-AVS [5]和DA-GAN [1]的官方预训练模型，这些模型来自各自的开源实现。对于Face-Vid 2 Vid，我们在[4]中使用非官方的实现。所有预训练模型和AVFR-GAN都在相同的训练分割上进行训练，并使用下面定义的两种推理策略在VoxCeleb[22]的测试分割同一身份重演我们执行人脸重新生成任务，其中源帧和驾驶视频是同一个人的。在此设置中，我们将任何视频的第一帧作为源帧，并将视频的其余部分视为驱动视频。对应于每个驱动帧的音频块也被馈送到网络作为输入。在这种情况下，我们希望生成的输出尽可能接近原始视频。因此，我们可以计算L1、LMD、PSNR和SSIM等指标，这些指标需要地面实况。我们还为所有模型生成的输出计算AED、FID和Sync指标。从表1中可以明显看出，我们的方法优于所有其他竞争方法。优越的L1和AED表明，我们的模型更好地保留身份信息。我们的模型在LMD方面取得的改进表明生成的人脸结构得到了改善。有趣的是，与以前的方法相比，我们的模型可以更详细地生成改进的眼球运动。我们得到了最先进的PSNR、SSIM和FID分数，与更好的视觉质量相关。最后，我们的算法实现的同步质量优于所有的方法，除了PC-AVS，它在这个指标稍好跨身份重演在这种情况下，我们采取了不同的身份驾驶视频和动画的源图像。像往常一样，来自驾驶视频的音频也作为输入提供然而，由于生成的输出不模仿任何特定的地面实况，我们使用不直接需要相同的指标。我们使用FID，它测量真实和生成之间的距离5184图6：跨身份重演的定性比较我们的方法给出更少的伪影，保留面部结构，并以更好的方式处理运动。分布，不需要一对一的地面真理。我们还使用Sync来测量生成的视频中的唇形同步的质量。如表1所示，我们实现了最好的FID结果和第二个最好的结果，同步尾随仅PC-AVS。人类评估由于我们的算法生成直接用于人类消费的输出，我们执行广泛的人类评估，以从人类的角度确定我们的模型生成的质量。我们进行了一项研究，招募了20名用户。每个用户都显示了从最先进的方法以及我们的方法生成的样本。用户还可以看到源图像和驾驶视频。我们从交叉身份世代中选择了30个样本我们的用户研究并排显示了每个算法的相应结果，以及源图像和驾驶视频。要求用户根据三个特征对每个生成的输出进行评级。用户对质量的评价为1。头部姿势与行车视频相符2.与行车视频相匹配的表情，3.在源图像和生成的视频之间保持身份。评级在1到5之间，其中1对应于5是最差的，5是最好的如图所示表2中，我们的模型在所有情况下都能得到更好的结果。标准。我们的模型可以制定一个更好的头部姿势和驾驶视频的表情匹配，同时保持源身份。表2：用户研究定量比较。“HPMS”表示头部姿势匹配评分，“EMS”表示表情匹配评分，“IPS”表示身份保持评分。↑表示越高越好。5. 消融研究我们提出的方法包括添加几个关键的先验知识和使用一个更好的图像生成器。我们在本节中检查这些新区块中的每一个的贡献为了设置基线（非常类似于FOMM ），我们删除了 FaceMesh ， FaceSegmentation，Audio Encoders，并使用了基于CNN的基本解码器架构[29，12，39]。我们一次添加一个模块到这个基线，并在相同的训练-测试分割上训练它们。我们首先只添加人脸网格和人脸分割的基线。我们还单独检查将音频添加到基线的效果。最后，我们结合结构先验和音频来训练一个没有新的身份感知生成器的模型。我们计算SSIM、FID和Sync指标，并在表3中报告它们。正如我们清楚地观察到的，结构性先验改善了HPMS↑EMS↑IPS↑FOMM[29]3.403.162.80[39]第三十九话3.703.122.66MRAA [30]3.263.062.50[44]第四十四话1.581.641.92[12]第十二话3.983.823.10AVFR-GAN（我们的）4.564.223.945185图7：同一身份面孔重现的定性结果上排：驾驶视频，下排：生成的结果低带宽视频会议人脸重现方法可以很容易地扩展到视频压缩。在发送方和接收方之间进行视频通话的情况下，我们可以首先在两者之间发送单个高分辨率帧，然后发送关键点检测器为每个帧检测到的关键点。然后，我们的模型可以在接收器端生成输出帧表3：消融研究。基线代表模型没有面部网格、分割、音频和身份感知解码器。“+Structural Prior”表示具有面部分割和面部网格的基线。’+ Audio Prior’ represents Baseline身份识别生成器↑表示越大越好，↓表示越小越好。将高分辨率帧作为源和来自每个驱动帧的关键点，类似于图7所示的这10个关键点分别由x和y坐标以及四个雅可比行列式组成，所有这些都表示为浮点值。因此，使用FP16表示法表示256×256帧所需的总比特数为：10×6×16=960位。每像素比特数（Bits-per-Pixel ，BPP）SSIM显著超过基线，而音频改善了我们的模型达到960256×256 =0。014 公司现采用国际嘴唇同步质量。我们还观察到，视觉质量（使用FID测量）的代边际。最后，身份感知人脸生成器在视觉质量改善方面有显着的提升。6. 应用我们的工作在数字工业中开辟了几个应用领域。我们的方法可以彻底改变多个行业。我们有可能取代在录音棚环境中录制名人的做法，成本高达数千美元;我们可以根据家庭录制的驾驶视频制作它们的动画。教育部门也可以取得类似的进展，在线讲座是教育的一个组成部分。新闻读者可以减少他们的通勤和目前的新闻从舒适的家中通过动画他们的人物。我们还可以通过多种方式使视频通话更简单。我们可以用生成的视频代替实时视频更重要的是，由于基于关键点的紧凑表示，这可能导致巨大的带宽减少，如[39]中已经指出的最新的H.266编解码器[7]于2021年9月发布，并在相同的BPP上压缩VoxCeleb测试集虽然我们的算法生成的结果达到了8.48的FID，但H.266滞后了58.32。这表明使用AVFR-GAN生成的结果质量卓越，并为未来的工作中压缩视频通话提供了概念验证7. 进一步讨论在这项工作中，我们提出了一个新的人脸重演网络，视听人脸重演GAN。我们的网络使用视听线索来根据驾驶视频再现源图像。我们为网络提供了额外的结构先验和语音，以提高嘴唇同步。最后的输出质量也受益于一种新的身份感知生成器。生成网络质量的提高因此，我们敦促任何此类作品的使用者以道德的方式使用它。我们还鼓励用户使用水印清楚地标记生成的视频。我们相信这些作品将有利于减少专业内容创作中的手动工作。SSIM↑FID↓同步↑基线0.7411.045.17+ 结构优先0.8018.985.19+ 音频优先级0.798.695.48+ IAG0.8128.515.13AVFR-GAN0.8248.485.455186引用[1] 深度感知生成对抗网络会说话的头部视频生成。https://github.com/ harlanhong/CVPR2022-DaGANl.[2] 图像动画的一阶运动模型。https://github.com/AliaksandrSiarohin/一阶模型。[3] 关节式动画的运动表示。https://github.com/snap-research/articulated-animation.[4] 单镜头自由视图神经说话头合成。https：//github.com/zhanglonghao1992/One-Shot_Free-View_Neural_Talking_Head_Synthesis.[5] 通过隐式模化视听表示的姿态可控的说话人脸生成https：//github.com/Hangz-nju-cuhk/Talking-Face_PC-AVS.[6] Brandon Amos ， Bartosz Ludwiczuk ， Mahadev Satya-narayanan，等. Openface：一个带有移动应用程序的通用人脸识别库。CMU计算机科学学院，6（2）：20，2016。[7] Benjamin Bross，Ye-Kui Wang，Yan Ye，Shan Liu，Jianle Chen，Gary J. Sullivan，and Jens-Rainer Ohm. 通用视频编码标准及其应用综述。IEEE Transactions onCircuits and Systems for Video Technology，31（10）：3736[8] Adrian Bulat和Georgios Tzimiropoulos我们离解决二维和三维人脸对齐问题还有多远？(and 230，000个3D面部标志的数据集）。法律程序中IEEE InternationalConference on Computer Vision，第1021-1030页，2017年。[9] Joon Son Chung、Amir Jamaludin和Andrew Zisserman。你这么说的？arXiv预印本arXiv：1705.02966，2017。[10] Joon Son Chung和Andrew Zisserman。在野外读唇语。亚洲计算机视觉会议，第87施普林格，2016年。[11] G. 福维尔湾Luo ， A.C.M.Queiroz， J.N.Bailenson和 J.Hancock。Zoom疲劳量表。计算机在人类行为报告，4：100119，2021。[12] 洪发庭，张龙浩，李申，徐丹。深度感知的生成对抗网络用于说话头部视频生成。在IEEE/CVF计算机视觉和模式识别会议论文集，第3397-3406页[13] Jia Ji，Hang Zhou，Kaisiyuan Wang，Wayne Wu，ChenChange Loy，Xun Cao，and Feng Xu.音频驱动的情感视频肖像。在IEEE/CVF计算机视觉和模式识别会议论文集，第14080-14089页[14] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[15] Prajwal KR ， Rudrabha Mukhopadhyay ， Jerin Philip ，Ab- hishek Jha，Vinay Namboodiri，and CV Jawahar.走向自动面对面翻译。在第27届ACM多媒体国际会议论文集，第1428- 1436页[16] Lincheng Li ， Suzhen Wang ， Zhimeng Zhang ， YuDing，Yixing Zheng，Xin Yu，and Changjie Fan.撰写演讲者：基于文本的情感和节奏的说话头生成。在AAAI人工智能会议论文集，第35卷，第1911-1920页[17] Dominik Lorenz，Leonard Bereska，Timo Milbich，andBjorn Ommer.对象形状和外观的无监督的基于部分的解开。在IEEE/CVF计算机视觉和模式识别会议论文集，第10955-10964页[18] 元勋路，柴金祥，曹勋。现场演讲优点：实时照片级逼真的说话头动画。 ACM Transactions on Graphics（TOG），40（6）：1[19] 张凡，张卓玲，李祖贤，李明光，等.培养基：构建感知管道的框架。 arXiv 预印本 arXiv ： 1906.08172 ，2019。[20] 安德鲁湖，加-地马斯整流器的非线性改善了神经网络声学模型。2013年。[21] Takeru Miyato，Toshiki Kataoka，Masanori Koyama，and Yuichi Yoshida.生成式对抗网络的谱归一化。arXiv预印本arXiv：1802.05957，2018。[22] Arsha Nagrani ， Joon Son Chung ， Andrew Zisserman.Voxceleb：一个大规模说话人识别数据集。arXiv预印本arXiv：1706.08612，2017.[23] Taesung Park ， Ming-Yu Liu ， Ting-Chun Wang ， Jun-Yan Zhu.具有空间自适应归一化的语义图像合成。在IEEE/CVF计算机视觉和模式识别会议论文集，第2337-2346页，2019年。[24] KR Prajwal ， Rudrabha Mukhopadhyay ， Vinay PNambood-iri，and CV Jawahar.一个唇同步专家是所有你需要的语音唇代在野外。第28届ACM国际多媒体会议论文集，第484-492页，2020年[25] Aditya Ramesh 、 Mikhail Pavlov 、 Gabriel Goh 、 ScottGray、Chelsea Voss、Alec Radford、Mark Chen和IlyaSutskever 。零拍摄文本到图像生成。 arXiv 预印本arXiv：2102.12092，2021。[26] Scott Reed ， Zeynep Akata ， Xinchen Yan ， LajanugenLo- geswaran，Bernt Schiele，and Honglak Lee.生成对抗性文本到图像合成。国际机器学习会议，第1060-1069页。PMLR，2016.[27] Yurui Ren，Ge Li，Yuanqi Chen，Thomas H Li，andShan Liu. Pirenderer：通过语义神经渲染的可控肖像图像生成。在IEEE/CVF计算机视觉国际会议论文集，第13759[28] Olaf Ronneberger，Philipp Fischer，and Thomas Brox.U-网：用于生物医学图像分割的卷积网络放大图片作者：Nassir Navab，Joachim Hornegger，William M.Wells和Alejandro F.Frangi，editors，Medical Image Computingand Computer-Assisted Intervention施普林格国际出版社.[29] Ali aksandrSiarohin ， Ste' phaneLathuilie` re ， Ser geyTulyakov，Elisa Ricci，and Nicu Sebe.一阶运动模型5187图像动画在神经信息处理系统会议上，2019年12月。[30] Aliaksandr Siarohin ， Oliver Woodford ， Jian Ren ，Menglei Chai ， and Sergey Tulyakov. 运动表示为articulated动画。在CVPR，2021年。[31] Yang Song，Jingwen Zhu，Dawei Li，Xiaolong Wang，and Hairong Qi.基于条件递归对抗网络的说话人脸生成。arXiv预印本arXiv：1804.04786，2018。[32] Christian Szegedy、Vincent Vanhoucke、Sergey Ioffe、Jon Shlens和Zbigniew Wojna。重新思考计算机视觉的初始架构在Proceedings of the IEEE conference on computervision and pattern recognition，pages 2818[33] Pulkit Tandon，Shubham Risak，Pat Pataranutaporn，Yi-meng Liu，Anesu M Mapuranga，Pattie Maes，TsachyWeiss- man，and Misha Sra.Txt2vid：通过文本对说话头视频进行超低比特率压缩。 arXiv 预印本 arXiv ：2106.14014，2021。[34] Soumya Tripathy Juho Kannala和Esa

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

音频和视频生成真实的头部视频

语音和视频

Audio-driven-TalkingFace-HeadPose:“基于学习的个性化头姿势的音频驱动的有声面部视频生成”的代码

java根据视频生成字幕

ffmpeg 音视频混流音频pts

用python 如何提取视频中的音频 要求提取的音频和视频时长一致

ffmpeg怎么合并音频和视频

Android系统播放音频和视频

流媒体技术将PC端音频和视频传输到移动端的免费软件

qt音频视频通话tcp

如何使用流媒体技术将PC端音频和视频传输到移动端

javacv 实现将视频分离为音频和视频

mqtt 音频流 视频流

python ffmpeg 音频和视频合成

websoket如何解析收到的图片音频、视频

python 自动生成视频

as怎么使用mediaplayer复用播放音频和视频

python 生成视频

使用HTML5标签播放音频和视频。

midjourneys 怎么生成视频

weixin021基于JAVA微信点餐小程序设计+ssm.rar

最新资源

用python 如何提取视频中的音频要求提取的音频和视频时长一致

mqtt 音频流视频流