语音到唇形同步：Wav2Lip模型在动态视频中的应用

版权申诉

146 浏览量更新于2024-08-08 收藏 517KB DOCX 举报

"这篇论文探讨了语音到口型同步生成技术，特别是在动态、无约束的人脸视频中的应用。研究人员提出了一种名为Wav2Lip的新模型，该模型能够更准确地在未知身份的人物视频中生成与目标语音片段匹配的唇部动作。此工作旨在解决现有方法在处理动态视频时的局限性，这些方法往往无法在任意人物上产生满意的同步效果。文章指出，当前的技术在静态图像或特定人物的视频上表现出色，但在动态、无约束的环境中，对于任意身份的人脸视频，其唇部同步准确性会显著下降。为了解决这个问题，研究团队识别出关键的挑战，并训练了一个强大的唇部同步鉴别器，以改进模型在处理复杂情况下的性能。论文还引入了新的评估标准和指标，用于精确测量非同步视频中的唇部同步程度。通过广泛的定量评估，证明了Wav2Lip模型在提出的挑战性基准上的表现，生成的视频唇部同步效果几乎与实际同步视频一样好。这项研究对于推动人工智能在语音转视频领域的应用具有重要意义，如虚拟现实、娱乐、教育和辅助沟通等领域。Wav2Lip模型可能有助于创建更加逼真的虚拟角色，改善音频-视频同步，以及在隐私保护方面，允许使用合成的面部动画来代替真实的说话人画面。生成对抗网络（GANs）是实现这一目标的关键技术，它通过两个神经网络（生成器和鉴别器）的相互竞争来生成高质量的唇部同步视频。生成器试图创建看起来真实的唇部运动，而鉴别器则努力区分生成的视频与真实视频。通过不断的训练和迭代，生成器可以逐渐提高其生成同步口型的能力。这篇论文展示了如何通过深度学习技术，特别是生成对抗网络，来提升语音到唇型同步的准确性，从而在动态环境中实现更自然、更准确的视频生成。这是一项重要的进展，对于未来的多媒体内容创作和人机交互有着深远的影响。"

≈

和相应的唇部地标。由于它们只对特定的说话人进行了训练，

因此它们不能对新的身份或声音进行合成。它们还需要大量

的特定演讲者的数据，通常是几个小时。最近沿着这个思路

的一项工作[13]提出通过添加或重新移动讲话中的短语来无缝

编辑单个讲话者的视频。他们仍然需要每个演讲者一个小时

的数据来实现这一任务。最近，另一项工作[23]试图通过使用

一个两阶段的方法来减少这种数据开销，他们首先学习与说

话人无关的特征，然后学习

用 5 分钟的所需说话人的数据进行渲染映射。然而，他们在

训练独立于说话人的网络时，是在一个标准的

然而，他们在一个明显较小的语料库上训练独立于说话人的

网络，而且还有一个额外的开销，即需要每个目标说话人的

干净训练数据来为该说话人生成。现有工作的另一个限制是

在词汇方面。一些作品[5,26,28] 在具有有限词汇集的数据集

上进行训练，如 GRID [10] (56 个词汇)。 TIMIT [14] 和 LRW

[8] (1000 个单词)，这极大地阻碍了模型学习真实视频中大量

的音素-词汇映射[18] 。我们的工作重点是对无约束的人脸视

频进行唇语匹配，以匹配任何目标语音，不受身份、声音或

词汇的限制。

2.2 从语音中生成无约束的说话人脸

尽管在语音驱动的人脸生成方面的工作越来越多，但令人惊

讶的是，很少有工作被设计为与任意身份、声音和语言的视

频对口。它们没有在一小部分身份或一小部分词汇上进行训

练。这使得它们在测试时可以对任何语音的随机身份进行唇

语同步。据我们所知，在目前的文献中，只有两个这样突出

的作品[17,18] 。请注意，[17] 是[7] 的扩展版本。这两项工作

[17,18]都将学习在野外进行唇语的任务表述如下。

给定一个

简短的语音片段

和一个随机的参考人脸图像

，网络的任务

是生成一个与音频相匹配的输入人脸的唇语版本

Lд。此外，

LipGAN 模型还输入了下半身被遮住的目标脸，作为姿势先验。

这一点至关重要，因为它允许将生成的人脸作物无缝粘贴到

原始视频中，无需进一步的后期处理。它还与生成器一起训

练了一个判别器，以判别同步或不同步的音频视频对。然而，

这两项工作都有一个重要的局限性：它们在任意身份的静态

图像上工作得非常好，但在试图对野外无约束的视频进行唇

语生成时，却产生了不准确的唇语。与 LipGAN[18]中使用的

GAN 设置不同，我们使用了一个预先训练好的、准确的唇语

辨别器，而不是与生成器一起进一步训练。我们观察到这是

一个重要的设计选择，以达到更好的唇语效果。

3 准确的语音驱动的野外视频对口型的处理

我们的核心架构可以总结为"

通过向训练有素的唇语专家学习，

生成准确的唇语

"。为了理解这一设计选择，我们首先确定了

现有架构（第 2.2 节）在野外的视频中产生不准确的唇音的两

个关键原因。。我们认为，损失函数，即

在现有的工作中使用的 L1 重建损失[17,18] 和 LipGAN 中的判

别器损失[18] 都不足以惩罚不准确的唇语同步生成。

3.1 像素级重建损失是判断唇语同步的一个弱

点

脸部重建损失是针对整个图像计算的，以确保正确的姿势生

成，保留身份，甚至脸部周围的背景。嘴唇区域相当于总重

建损失的 4%以下（基于空间范围），因此在网络开始执行细

粒度的唇形校正之前，大量的周围图像重建首先被优化。这

一点从网络开始变形的事实中得到了进一步的支持

嘴唇在其训练过程（ 11thepoch）的一半左右才开始变形

（20epochs [18] ）。因此，关键是要有一个额外的判别器来

判断唇语，这也是 LipGAN 的做法[18]。但是。

LipGAN 中采用的鉴别器有多强大？

3.2 弱的唇部同步辨别器

我们发现，LipGAN 的唇部同步鉴别器在 LRS2 测试集上检测

不同步的音频-唇部对时，准确率只有 56%左右。作为比较，

我们将在这项工作中使用的专家判别器在同一测试集上的准

确率为 91%。我们假设这种差异有两个主要原因。首先，

LipGAN 的判别器使用单帧来检查唇语同步。在表 3、中，我

们表明，在检测唇语同步时，小的时间背景非常有帮助。其

次，在训练过程中生成的图像由于尺度和姿势的巨大变化而

含有大量的假象。我们认为，像 LipGAN 那样，在 GAN 设置

中对这些嘈杂的生成图像进行训练，会导致鉴别器专注于视

觉伪影而不是音频-嘴唇的对应关系。这导致了非同步检测精

度的大幅下降（表 3）。.我们认为并表明，从实际视频帧中

捕捉到的 "真实"、准确的唇音概念可以用来准确地分辨和执

行生成的图像中的唇音。

3.3 你只需要一个唇语专家就够了

基于以上两个发现，我们建议使用一个预先训练好的专家级

唇语辨别器，它能准确地检测出真实视频中的同步情况。此

外，它不应该像 LipGAN 那样对生成的帧进行进一步的微调。

一个这样的网络已经被用来纠正唇部同步错误，以创建大型

唇部同步数据集[1,3] 是 SyncNet [9] 模型。我们建议为我们的

任务调整和训练 SyncNet[9]的修改版本。

3.3.1 SyncNet 的概述。］SyncNet [9] 输入一个由 Tv 连续人

脸帧（仅下半部分）和一个大小为 Ta D 的语音段 S 的窗口

V。其中 Tv 和 Ta 分别为视频和音频的时间步骤。。训练它通

过随机取样一个音频窗口 Ta D 来辨别音频和视频之间的同步

性，该窗口要么与视频对齐（同步），要么来自不同的时间

步长（不同步）。］它包含一个人脸编码器和一个音频编码

器，两者都是由一叠二维旋转组成的。从这些编码器生成的

嵌入之间计算出 L2 距离，并使用最大边际损失训练模型，以

最小化（或最大化）同步（或不同步）对之间的距离。

剩余11页未读，继续阅读

青灯有味是儿时

粉丝: 283
资源: 1

语音到唇形同步：Wav2Lip模型在动态视频中的应用

Wav2Lip:该存储库包含“ Alip Sync专家是您在野外生成嘴唇时所需的全部语音”代码，在ACM Multimedia 2020上发布

voice-and-lip-sync-in-pytorch-web-app-colab:Colab中的语音和口型同步Web应用

Ynnk Voice Lipsync

rhubarb lip sync插件安装教程

ynnk voice lip-sync ue5

wav2lip a2e

lips sync pro

语言信息处理的外文文献

No module named 'LipReading'

windows Wav2Lip

最新资源