唇到语音合成：学习个人说话风格以实现精确的唇语音合成

161 浏览量更新于2023-10-25 收藏 789KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1学习个人说话风格以实现精确的唇到语音合成K.R.PrajwalG.IIIT，海得拉巴RudrabhaMukhopadhyayIIIT，海得拉巴维奈山口NamboodiriIIT，坎普尔C V JawaharIIIT，海得拉巴{prajwal.k，radrabha.m}@ research.iiit.ac.in，vinaypn@iitk.ac.in，jawahar@iiit.ac.in摘要当言语不存在或被外部噪声破坏时，人类不自觉地倾向于从嘴唇运动推断出部分会话。在这项工作中，我们探讨了唇到语音合成的任务，即，学习仅在给定说话者的嘴唇运动的情况下生成自然语音。由于认识到语境和说话者特定线索对准确唇读的重要性，我们采取了与现有作品不同的路径。我们专注于学习准确的唇序列语音映射为个人扬声器在不受约束，大词汇量设置。为此，我们收集并发布了一个大规模的基准数据集，这是同类数据集中的第一个，专门用于在自然环境中训练和评估单扬声器唇到语音任务我们提出了一种新的方法与关键的设计选择，以实现准确的，自然的唇语音合成在这样的不受约束的sce- narios的第一次。使用定量，定性指标和人类评价的广泛评价表明，我们的方法是四倍以上的理解比以前的作品在这个空间。1. 介绍婴儿在开始学习说话时会积极观察人的嘴唇运动[24]。身为成年人的我们高度注意嘴唇的运动，以便面部动作，特别是嘴唇的运动，从而揭示了大量有用的语音信息。这一事实也被重听人所利用，他们经常随着时间的推移学会唇读他们的亲密熟人[15]，以进行更流畅的交谈。自然，问题是，模型是否可以通过长时间“观察”说话者的嘴唇运动来学习发音学习这样的模型只需要人们说话的视频，而不需要进一步的手动注释。它还具有各种实际应用，例如（i）无声环境中的视频会议，（ii）从语音中恢复高质量的语音，以及（iii）从语音中恢复高质量的语音。两位作者对这项工作做出了同样的贡献图1.我们提出“Lip2Wav”：第一次在非约束设置中从无声的嘴唇视频中准确地生成语音的序列到序列架构。气泡中的文本是手动转录的，并出于演示目的而显示。背景噪声[1]，（iii）用于监视的远距离收听，以及（iv）为不能产生有声声音（失音）的人产生声音另一个有趣的应用是然而，仅仅从嘴唇的运动来推断讲话是一项非常困难的任务。一个主要的挑战[5，10]是存在同素异构体：在听觉上不同的多个声音（音素）在感觉上非常相似，具有几乎相同的唇形（视位）。例如，当说出音素/p/（park）时，唇形很容易与/b/（bark）和/m/（mark）混淆。事实上，只有25%到30%的人英语的语言是通过唇读单独辨别[8，15，25，26]。这意味着专业的读唇者不仅读唇，而且还将多个信息流拼凑在一起：他们对谈话对象的熟悉程度，谈话的主题，谈话对象的面部表情和头部动作，以及他们的语言知识。与此相反，当代的唇对言语和唇对文本的作品采取了截然不同的方法。最近在唇到文本[2，5]中的尝试是从具有数千个说话者的未控制的大型词汇数据集然而，这些数据集仅包含约2分钟1379613797这对于模型学习唇读所必需的具体的说话者特定的上下文线索来说是不够唇到言语的努力也受到类似问题的影响，但原因不同。这些工作被限制在人工约束环境中具有窄词汇语音的小数据集[7]在这项工作中，我们从一个独特的角度探讨唇语音合成的问题。我们从聋人或专业唇读者发现他们经常与之互动的人更容易读唇的事实中因此，我们不是试图在野外对随机说话者进行唇语，而是专注于通过简单地观察一个人的讲话来学习特定说话者的讲话模式我们从数据驱动学习的角度探讨以下问题：“我们能从一个人的嘴唇动作中准确地推断出他/她的讲话风格和内容吗？”.为此，我们收集并公开发布了一个120小时的视频数据集，其中有5个说话者在非约束环境中发出自然语音我们的Lip2Wav数据集包含的每个说话者的数据比当前的多说话者数据集多800倍[2]以便于对说话者特定的视听线索进行精确建模。自然语音分布在一个多样化的词汇表1中，该词汇表1比当前单个说话者唇到语音数据集大约100倍[7，13]。到达贝斯特我们的数据集是唯一公开的能够大规模的基准，以评估单扬声器唇语音合成在无约束的设置。在这个数据集的帮助下，我们开发了Lip2Wav，这是一个序列到序列模型，可以生成与给定说话者的嘴唇运动相匹配的准确，自然的语音我们通过广泛的定量和定性评估和消融研究来支持我们的结果。我们的主要贡献如下：• 我们调查的问题，无声的唇视频语音生成在大词汇量，无约束的设置首次。• 我们发布了一个新的 120 小时的特定于人的Lip2Wav数据集，专门用于学习单个说话者的准确唇语模型。每个扬声器包含80倍以上的数据，100倍以上的词汇量。演讲是在自然的环境中发出的，没有头部姿势或句子长度的限制。• 我们的序列到序列建模方法产生的语音在无约束环境中的可理解性几乎是以前的4倍工程.人类评价研究也表明，我们生成的语音更自然，韵律丰富。未来的研究以及演示视频在这里2.本文其余部分的组织结构如下：在第二节中，我们概述了这一领域的最新发展。在此之后，我们在第3节中描述了我们的新Lip2Wav数据集。我们的方法和培训细节在第4和第5节中解释。我们评估和比较我们的模型与以前的作品在第6节。我们在第7节中进行了各种消融研究，并在第8节中总结了我们的工作。2. 相关工作2.1. 唇语生成虽然这个问题的初始方法[20，23]从传感器或主动外观模型中提取视觉特征Vid2Speech [10]和Lipper [22]生成低维 LPC （线性预测编码）特征，给定 K 帧（K15）的短序列。将面部帧逐通道级联，并且使用2D-CNN来生成LPC特征。我们表明，这种架构是非常不足以模拟真实世界的说话的脸视频，包含显着的头部运动，沉默和大型vocabularies。此外，在这些作品中使用的低维LPC特征不包含大量的语音信息，导致机器人，人工发声语音。Vid2Speech的后续工作[9]取消了LPC特征，并使用高维melspectrograms以及光流来强制网络显式地对嘴唇运动进行调节。虽然这对于没有头部移动的GRID语料库可能是有效的，但是由于大的头部姿势变化，光流在无约束设置中可能是有害的特征另一项工作[36]通过使用GAN生成原始波形来提高语音质量。然而，这两项工作都没有使用用于文本到语音生成[30]的经过充分研究的序列到序列范例[31];因此在语音质量和正确性方面留下了很最后，所有上述工作主要在GRID语料库[7]上显示结果，该语料库的词汇量非常窄，只有56个标记和非常小的头部运动。我们是第一个在拥有数千个单词和句子的大词汇量环境中研究这个问题我们的数据集是col-从YouTube视频剪辑中选择，因此包含大量的自然语音变化和头部移动。这使得我们的研究结果与几个现实世界的应用程序直接相关。2.2. Lip to Text生成在这个领域，也有一些作品[6，28，37，38]局限于狭窄的词汇表和小数据集，然而，与唇到语音不同，有多个作品[2，5]我们公开发布数据、代码和训练模型，2cvit.iiit.ac.in/research/projects/1只考虑频率>4的cvit-projects/speaking-by-observing-lip-movements13798图2.我们的Lip2Wav数据集包含来自国际象棋分析和讲座视频的5位发言者的说话面部视频。每个演讲者都有大约20小时的YouTube视频内容，涵盖5000多个单词的丰富词汇。专门处理开放词汇表中的唇语到文本。他们采用Transformer序列到序列[35]模型来生成给定无声嘴唇运动序列的句子。这些作品还强调了唇读空间中的多个问题，特别是固有的模糊性，因此使用语言模型的重要性。我们手头的任务可能更难，因为我们不仅要推断语言内容，还要在目标说话者的声音中产生丰富的韵律因此，我们专注于广泛分析的问题，在一个单一的扬声器不受约束的设置，并学习精确的个人说话风格。2.3. 文本到语音生成近年来，神经文本到语音模型[27，30]为生成以任何给定文本为条件的高质量自然语音铺平了道路。使用具有注意力机制的序列到序列学习[31]，他们以自回归方式生成melspectrograms。在我们的工作中，我们提出了Lip2Wav，这是Tacotron 2的修改版本[30]，它基于面部序列而不是文本。3. 特定于说话者的Lip2Wav数据集目前唇到语音（或）文本的数据集处于频谱的两端：（一）小的、受限制的狭义词汇，如全球资源信息数据库[7]、TCD-TIMIT [13]或（ii）不受约束的开放词汇多说话者，如LRS2 [2]，LRW [6]和LRS3 [3]。后一类数据集只包含每个说话者大约2-5分钟的数据，这使得模型很难学习说话者特定的视觉线索，而这些线索对于从嘴唇运动中推断准确的语音至关重要。此外，结果还将直接受到多扬声器语音合成的现有挑战的影响[11，19]。在另一个极端中，单说话者唇到语音数据集[7，13]不模仿自然设置，因为它们被限制在狭窄的词汇表和人工环境中。因此，这两种极端情况都没有测试未控制应变的单扬声器唇到语音合成的限制。思路如下：从一个人的嘴唇动作中我们能准确地推断出他/她的讲话风格和内容吗？为了创建Lip2Wav数据集，我们收集了5个说话者总共约120小时的说话面部视频。演讲者来自各种在线讲座系列和国际象棋分析视频。我们选择英语作为数据集的唯一语言。每个说话者大约有20个小时的自然语音，每个人的词汇量超过5000个单词，我们的数据集比GRID [7]或TIMIT [13]数据集更不受约束因此，它是理想的学习和评估准确的人的特定模型的唇到语音任务。表 1 将我们的Lip2Wav数据集的特征与其他标准的单说话者唇读数据集进行了比较。请注意，只有当单词在数据集中的频率至少为5时，该单词才会被包括数据集Num.演讲者总小时数小时数每个扬声器Vocab每个扬声器自然布景？GRID [7]34280.856×TIMIT [13]31.50.582×Lip2Wav（我们的）5120≈205000万C表1. Lip2Wav数据集是第一个大规模的数据集，旨在作为一个可靠的基准单扬声器唇语音合成。4. 在野外进行唇语合成给定人脸图像序列I=（I1，I2，. . .，IT），我们的目标是生成相应的语音片段S=（S1，S2，. . .，ST′）。为了在不受约束的设置中获得自然语音，我们在Lip2Wav架构中做出了许多关键的设计选择。下面，我们重点介绍并讨论它们与以前的唇到语音合成方法的不同之处。4.1. 问题公式化唇到语音的先前工作将其语音表示视为在melspectrograms的情况下的2D图像[10，36]或 LPC特征的情况下的单个特征向量[10]我们引入了一个新的基准数据集，唇到语音合成是针对探索3近似量身定制;使用Google ASR API获取的文本13799在这两种情况下，他们都使用2D-CNN来解码这些语音表示。通过这样做，它们违反了它们对顺序语音数据进行建模的顺序，即，未来时间步影响当前时间步的预测相比之下，我们在标准的序列到序列学习范式中阐述了这个问题[31]。具体地，每个输出语音时间步长Sk被建模为先前语音时间步长S< k和输入面部图像序列I=（I1，I2，. . .，IT）。每个输出语音时间步长的概率分布由下式给出：P（S|I）=k（Sk|（<1）第二节第一节如图3所示，Lip2Wav由两个模块组成(i)时空人脸编码器（ii）基于注意力的语音解码器。这些模块以端到端的方式联合训练。序列到序列的方法使模型能够学习一个隐式的语音级语言模型，帮助它消除同音异义。4.2. 语音表示有多种输出表示，我们可以从中LPC特征是低维的并且更容易生成，然而，它们导致机器人的人工发声语音。在另一个极端[36]，可以生成原始波形，但输出的高维数（每秒16000个样本）使网络训练过程的计算效率低下。我们从以前的文本到语音的作品[27，30]中获得我们采样的原始音频在16千赫。窗口尺寸、料斗尺寸和熔化尺寸分别为800、200和804.3. 时空人脸编码器我们的视觉输入是一个简短的视频序列的面部图像。模型必须学会提取和处理嘴唇运动的细粒度序列。3D卷积神经网络已被证明在涉及时空视频数据的多个任务中是有效的[18，33，36]在这项工作中，我们尝试使用一堆3D卷积来编码嘴唇运动的时空信息（图3）。我们网络的输入是一个面部序列尺寸为T×H×W×3的图像，其中T是输入视频序列中的时间步长（帧）的数量，H、W对应于面部图像的空间维度。我们逐渐对特征图的空间范围进行下采样，并保留时间维度T。我们还在整个网络中使用了剩余跳过连接[14]和批归一化[16]。编码器输出-为T个输入面部图像中的每一个放置单个D维向量，以得到要传递到语音解码器的时空特征集合T×D每一个时间步，图3.用于唇语合成的Lip2Wav模型。时空编码器是一个3D卷积的堆栈，用于提取嘴唇运动的序列。这之后是一个解码器改编自[30]，用于高质量的语音生成。解码器根据来自编码器的面部图像特征进行调节，并以自回归方式生成melspectrogram。从编码器产生的嵌入还包含关于未来嘴唇运动的信息，因此有助于随后的产生。4.4. 基于注意力的语音解码器为了实现高质量的语音生成，我们利用了文本到语音生成的最新突破[27，30]。我们调整了Tacotron 2 [30]解码器，该解码器已用于生成以文本输入为条件的melspectrograms。在我们的工作中，我们根据上一个模块中编码的人脸嵌入来调节解码器。我们建议读者参考Tacotron 2 [30]论文，了解有关解码器的更多细节。编码器和解码器通过最小化生成的和地面实况melspectrogram之间的L1重建损失来端到端地训练。4.5. 渐进式教师强制衰减在训练的初始阶段，最多30K次迭代，我们采用类似于文本到语音对应物的教师强制。我们假设这使得解码器能够13800学习隐式语音级语言模型以帮助消除同音异义。类似的观察在唇到文本作品 [2] 中进行，其采用基于transformer的序列到序列模型。在训练的过程中，我们逐渐衰减教师强制执行模型以注意嘴唇区域并防止隐式语言模型过度拟合训练集词汇。我们将在7.3小节中考察这种衰变的影响。4.6. 上下文窗口大小用于推断当前语音时间步长的视觉上下文窗口的大小有助于模型消除同音异义[10]。我们使用了比以前的作品大6倍的上下文大小，并在7.1小节中表明，这种设计选择会导致更准确的语音。5. 基准数据集和培训详细信息5.1. 数据集我们的工作的主要重点是在不受约束的，大词汇量设置单扬声器唇语音合成。为了与以前的工作进行比较，我们还在GRID语料库[7]和TCD-TIMIT唇说话者语料库[13]上训练了Lip 2 Wav模型。接下来，我们对新收集的特定于说话者的Lip2Wav数据集的所有五个说话者进行训练。除非另有说明，否则所有数据集均分为90-5-5%的训练、验证和不可见的测试分割。在Lip2Wav数据集中，我们使用不同的视频创建这些分割，确保同一视频的任何部分都不用于训练和测试。列车和测试的分裂也被释放，在未来的作品公平的比较。5.2. 训练方法和超参数我们准备一个训练输入的例子，随机采样的连续序列3秒，其对应的T=75或T=90取决于帧速率（FPS）的视频。7.1节研究了各种上下文窗口大小的影响。我们使用S3FD人脸检测技术从视频帧中检测并裁剪人脸.tor [40].面裁剪的大小调整为48×48。对应于音频的melspectrogram表示所选择的短视频片段被用作训练的期望的基础事实。对于像GRID和TIMIT这样的小数据集的训练，我们将隐藏维度减半以防止过度拟合。We set the trainingbatch size to 32 and train until the mel reconstruction lossplateaus for at least 30K itera- tions.在我们的实验中，无约束的单扬声器，收敛实现了约200K迭代。使用的优化器是Adam [21]，初始学习率为10−3。选择在验证集上具有最佳性能的模型进行测试和评估。更多细节，特别是一些小的特定于扬声器的超参数更改可以在公开发布的代码2中找到。5.3. 测试时的语音生成在推理过程中，我们只提供嘴唇运动的序列，并以自回归的方式生成语音。请注意，我们可以为任何长度的嘴唇序列生成语音。我们简单地采取连续的T秒窗口，并为每个窗口独立地生成语音，并将它们连接在一起。我们还保持跨滑动窗口的小重叠，以调整边界效应。我们使用标准Griffin-Lim 算法[12]从生成的melspectrogram中获得波形。我们观察到神经声码器[34]在我们的情况下表现不佳，因为我们生成的melspectrograms明显不如最先进的TTS系统准确。最后，为任何长度的唇语序列生成语音的能力值得强调，因为在句子级别训练的当前唇转文本作品的性能对于仅持续4-5秒的长句急剧恶化[2]。6. 实验和结果我们从我们的Lip2Wav模型中获得了上述所有测试分割的结果为了比较相关的工作，我们使用作者提供的开源实现（如果可用）或重新实现自己的版本。我们使用三个标准的语音质量指标将我们的模型与之前的唇到语音作品进行比较：短时客观可懂度（STOI）[32]和扩展短时客观可懂度（ESTOI）[17]用于估计可懂度和语音质量感知评估（PESQ）[29]以测量质量。使用开箱即用的ASR系统4，我们获得我们生成的语音的文本转录，并使用GRID [7]和TCD-TIMIT唇说话者语料库[13]的单词错误率（WER）评估我们的语音结果。然而，我们不计算WER的建议Lip2Wav语料库由于缺乏文本转录。我们还进行了人类评估，并报告了建议的 Lip2Wav 模型和竞争方法的平均意见得分（MOS）。接下来，我们还对我们的方法进行了广泛的消融研究，并报告了我们的观察结果。最后，由于我们在单说话者设置中实现了与先前工作相一致的优异结果，因此我们还通过使用LRW [6]数据集报告单词级多说话者唇到语音生成的基线结果来结束实验部分，并强调其挑战。6.1. 限制环境下的唇语转换我们首先在约束数据集中评估我们的方法与以前的唇到语音作品，即GRID [7]语料库和TCD-TIMIT唇说话者语料库[13]。对于GRID数据集，我们报告了4个扬声器的平均测试分数，这在以前的作品中也有报道4Google语音转文本API13801表2和表3分别总结了GRID和TIMIT数据集的结果。方法STOI埃斯托伊PESQWER[第10话]0.4910.3351.73444.92%[4]第四届全国政协委员0.5130.3521.67332.51%基于GAN [36]0.5640.3611.68426.64%Ephrat等人[9]第一章0.6590.3761.825百分之二十七点八三Lip2Wav（我们的）0.7310.5351.772百分之十四点零八表2. GRID数据集的客观语音质量、可懂度和WER评分未被看到的测试分割。表3. TCD-TIMIT数据集的客观语音质量、可懂度和WER评分未被测试分割。正如我们所看到的，我们的方法在所有客观指标上都优于竞争方法。这种差异在TIMIT [13]数据集中尤其明显这表明，我们的模型学习捕获短音素序列之间的相关性，并且比以前的方法更好地发音新单词。6.2. 无约束环境下的唇语转换我们现在继续在非约束数据集中评估我们的方法，这些数据集包含大量头部运动和更广泛的词汇。它们还包含大量的单词和句子之间的沉默或停顿。正是在这里，我们看到了与以前的方法相比，我们的方法更生动的区别。我们在新收集的Lip2Wav数据集的所有5个扬声器上独立训练我们的模型。培训详情见第5.2小节。为了与以前的工作进行比较，我们根据STOI分数在TIMIT数据集上选择性能最好的模型[9，36]我们计算了表3中使用表4中报告了我们的方法和两种竞争方法在所有三个指标上的所有五个扬声器的分数我们的方法可以在不同的说话者和词汇量之间产生更清晰和自然的语音。值得注意的是，我们的模型具有更准确的发音，这可以从与以前的作品相比增加的STOI和ESTOI分数中看出。表4.在不受约束的单扬声器设置中，我们的Lip2Wav模型实现了几乎4倍以上的可理解的语音比传统的方法。6.3. 人工评价除了语音质量和可懂度指标外，人工评估语音也很重要，因为这些指标并不完美[9]。6.3.1客观人体评价在这项研究中，我们要求人类参与者手动识别并报告（A）错误发音的百分比(B)单词跳过的百分比和（C）同音异义的错误发音的百分比。字跳过去笔记的话，要么是完全无法理解的，由于噪音或泥浆讲话的数量。我们从Lip2Wav数据集中的每个说话者的看不见的测试分裂中选择10个预测，以获得总共50个文件。我们在表5中报告了（A）、（B）和（C）的平均数。模型(A)（B）（C）基于GAN [36]百分之三十六点六百分之二十四点三百分之六十三点八Ephrat等人[9]百分之四十三点三27.5%百分之六十点七Lip2Wav（我们的）百分之二十一百分之八点六百分之四十九方法扬声器STOI埃斯托伊PESQ基于GAN [36]Ephrat等人[9]第一章Lip2Wav（我们的）化学讲座0.1920.1650.4160.1320.0870.2841.0571.0561.300基于GAN [36]Ephrat等人[9]第一章Lip2Wav（我们的）国际象棋分析0.1950.1840.4180.1040.0980.2901.1651.1391.400基于GAN [36]Ephrat等人[9]第一章Lip2Wav（我们的）深度学习0.1440.1120.2820.0700.0430.1831.1211.0951.671方法STOI埃斯托伊PESQWER[第10话]0.4510.2981.13675.52%[4]第四届全国政协委员0.4500.3161.25461.86%基于GAN [36]0.5110.3211.218百分之四十九点一三13802点五点八表5.目的人体评价结果。参与者手动识别测试样本中（A）发音错误，（B）单词跳过和（C）基于同音异义词的错误我们的方法比目前最先进的方法发音错误要少得多。它还跳过了3×lesser的单词，然而，需要注意的关键点是，同音异义词的问题仍然是所有情况下错误的主要原因，这表明在这方面仍有改进的余地。138036.3.2主观人体评价我们要求15名参与者对不受约束的唇语合成的不同方法进行评分，评分范围为1-5，每个标准如下：（i）可理解性和（ii）生成的语音的自然度。使用10个样本从我们的Lip2Wav数据集中为5个说话者中的每一个生成语音，我们比较了以下方法：(i)我们的Lip2Wav模型（ii）当前最先进的唇到语音模型[9，36]（iii）手动转录文本，然后是多扬声器TTS[19，30]，以表明即使使用最准确的文本，唇到语音也不是唇到文本和文本到语音的融合。最后，（四）人类语言也被添加以供参考。在所有的情况下，我们在将其显示给评分者之前将语音覆盖在面部视频上。平均评分报告见表6。方法懂度自然度基于GAN [36]1.561.71Ephrat等人[9]第一章1.341.67Lip2Wav（我们的）3.043.63MTT + TTS [30]3.863.15真实的人类语言4.824.95表6.基于各种唇语转换方法的语音质量和可懂度的平均人类评估分数。MTT表示“手动转录文本”。倒数第二行模拟自动唇转文本的最佳可能情况，一个最先进的文本语音转换系统在这种情况下，自然度分数的下降说明了演讲风格和韵律的损失与之前的评估一致，我们可以看到，与之前的最新技术相比，我们的方法产生了更高质量和清晰的语音[36]。同样明显的是，即使文本是完全准确的，从通过嘴唇运动（嘴唇到文本）阅读的文本生成语音也不能实现期望的韵律和自然度。此外，这种方法也会导致嘴唇和音频不同步。因此，我们的方法是目前从嘴唇运动产生自然语音的最佳方法6.4. 多扬声器字级唇转语音鉴于我们的Lip 2 Wav ap-proach单扬声器唇语音的优越性能，我们也获得了基线结果的高度挑战性的问题，多扬声器唇语音合成随机身份。请注意，这项工作的重点仍然主要是单扬声器唇到语音。我们调整了[19]中提出的方法，并将扬声器嵌入作为我们模型的输入。我们报告了LRW [6]数据集上用于单词级唇读的基线结果，即：它用于测量在给定的短语音短语中识别单个单词的性能。我们没有在LRS2数据集[5]上进行演示，因为它的干净训练集只包含29小时的数据，这对于多说话者语音生成来说是相当小的。第例如，包含类似数量的说话者的多说话者文本到语音生成数据集[39]包含数百小时的语音数据。在表7中，我们报告了我们的多扬声器Lip2Wav模型在LRW测试分割上实现的语音质量和可由于以前的唇到语音的工作都没有解决多说话人的情况下，我们不做任何比较与他们。我们还通过使用Google ASR API获取文本来为了进行比较，我们还报告了LRW上基线唇到文本工作的WER [6]。请注意，表7中所示的单词级唇到语音的语音度量分数不能直接与包含各种长度的单词序列以及停顿和沉默的单说话者情况方法STOI埃斯托伊PESQWERLip2Wav（我们的）0.5430.3441.19734.2%Chung等人[6]美国NANANA百分之三十八点八表7. LRW数据集上的客观语音质量和可懂度评分。WER也是在对生成的语音使用ASR之后计算的。我们的模型优于[6]中提出的基线方法，没有任何文本级监督。语音指标不适用于[6]，因为它是一个唇到文本的工作。我们在这里结束我们的实验部分除了显示-ING显着增加性能从以前的唇到语音作品，我们还实现了字级多扬声器唇到语音合成。在下一节中，我们对我们的模型进行7. 消融研究在本节中，我们将探讨Lip2Wav方法的不同方面。本节中的所有结果都是使用我们的Lip2Wav数据集的“硬件安全”扬声器上的不可见测试预测计算的7.1. 更大的上下文窗口有助于消除歧义如前所述，唇到语音任务是高度模糊的，不能仅从嘴唇运动推断。解决这个问题的方法之一是提供合理的大上下文信息到模型以消除给定视位的歧义。然而，以前的作品仅使用约0。三比零5秒的背景。在这项工作中，我们使用接近6×这个数字，并提供3秒的上下文这有助于模型通过学习音素的共现来消除歧义，单词，由此产生的改进在表8中是明显的7.2. 模特对嘴的我们在图4中绘制了时空人脸编码器的倒数第二层的激活，以表明我们的编码器高度关注说话者的嘴部区域。图5中的注意力对齐曲线显示了13804上下文窗口大小STOI埃斯托伊PESQ0.5秒0.2640.1931.0621.5秒0.3210.2261.0803秒0.4460.3111.290表8.更大的上下文信息始终导致更准确的语音生成。由于内存限制，我们将窗口大小限制为3解码器在生成相应的语音时以适当的视频帧的嘴唇为条件图4.我们绘制了面部编码器的倒数第二层的激活和来自解码器的注意力对齐我们看到面部编码器高度关注嘴部区域。图5.解码器对齐曲线说明该模型通过强烈地调节对应的嘴唇运动来生成语音。7.3. 教师强迫与非教师强迫为了加速序列到序列架构的训练，通常，前一时间步的地面实况（而不是生成的输出）被作为当前时间步的输入给出。虽然这在国际上是非常有益的，在训练的初始阶段，我们观察到，逐渐衰减的教师强迫从2030K迭代显着提高，证明结果并防止对训练词汇表的过拟合。类似的改善也观察到唇到文本作品[2]。在表9中，我们显示了逐渐衰减的教师强迫对考试成绩的显著教师强迫STOI埃斯托伊PESQ总是被迫0.2210.1621.141逐渐衰减0.4460.3111.290表9.逐渐衰减的教师强迫使模型能够通过强迫它查看视觉输入而不仅仅是从先前说出的语音中预测来推广到看不见的词汇。7.4. 不同视觉编码器虽然在我们的实验中使用3D-CNN在无约束设置中捕获空间和时间信息方面效果最好，但我们还在表10中报告了使用不同类型编码器的效果我们更换编码器模块，同时保持语音解码器模块完好无损。我们看到，使用3D-CNN编码器获得了最佳性能。编码器STOI埃斯托伊PESQ2D-CNN0.2910.2111.1122D-CNN +1D-CNN0.2980.2231.1703D-CNN（我们的）0.4460.3111.290表10.我们的Lip 2 Wav模型采用3D-CNN编码器来捕获时空视觉信息，是其他替代方案的最佳选择。8. 结论在这项工作中，我们研究了基于嘴唇运动的语音合成问题。我们通过专注于单个扬声器来我们在数据驱动的学习方法中通过创建用于无约束的大型词汇单扬声器唇到语音合成的大规模基准数据集来实现这一点。我们制定手头的任务作为一个序列到序列的问题，并表明，通过这样做，我们实现了显着更准确率和自然的语音比以前的方法。我们用广泛的定量指标和人类研究来评估我们的模型。我们工作的所有代码和数据都是公开的2。我们的工作开辟了几个新的方向。其中之一将是检查相关的工作，在这个空间，如唇到文本生成从特定的发言者的角度。同样，明确地解决同音异义词的主要问题可以产生更准确的语音。对说话者的典型领域之外的词汇进行概括是另一项富有成效的尝试。我们相信，以数据驱动的方式探索上述一些问题，可能会在这一领域带来更多有用的见解。13805引用[1] TriantafyllosAfouras ， Joon Son Chung ，和 AndrewZisser-man.对话内容：深度视听语音增强。arXiv预印本arXiv：1804.04121，2018。[2] TriantafyllosAfouras ， Joon Son Chung ，和 AndrewZisser-man. 深度唇读：模型的比较和在线应用。在INTERSPEECH，2018年。[3] TriantafyllosAfouras ， Joon Son Chung ，和 AndrewZisser-man. lrs 3-ted：一个用于视觉语音识别的大规模数据集。arXiv预印本arXiv：1809.00496，2018。[4] Hassan Akbari、Himani Arora、Liangliang Cao和NimaMesgarani。Lip2audspec：从无声的嘴唇运动视频重建语音。2018 IEEE声学、语音和信号处理国际会议（ICASSP），第2516-2520页[5] 郑俊山，老安德鲁，奥里尔·维尼亚和安德鲁·齐瑟曼.在野外读唇语句子。在2017年IEEE计算机视觉和模式识别会议上，第3444-3453页。IEEE，2017年。[6] Joon Son Chung和Andrew Zisserman。在野外读唇语。在亚洲计算机视觉会议上，第87103.施普林格，2016年。[7] Martin Cooke 、 Jon Barker 、 Stuart Cunningham 和 XuShao。语音感知和自动语音识别的视听语料库。美国声学学会杂志，120（5）：2421[8] David A Ebert和Paul S Heckerling。与聋哑患者沟通：物理学家的知识、信仰和实践。Jama，273（3）：227[9] Ariel Ephrat，Tavi Halperin，and Shmuel Peleg.改进了无声视频的语音重建2017年IEEE国际计算机视觉研讨会（ICCVW），第455-462页[10] 阿里尔·埃弗拉和什穆尔·法勒。Vid2speech：从无声视频重建语音。在2017年IEEE声学、语音和信号处理国际会议，第5095-5099页。IEEE，2017年。[11] Andrew Gibiansky，Sercan Arik，Gregory Diamos，JohnMiller，Kainan Peng，Wei Ping，Jonathan Raiman，andYanqi Zhou.低沉的声音2：多说话者神经文本到语音转换。神经信息处理系统的进展，第2962-2970页，2017年[12] Daniel W. Griffin和Jae S.林基于修正短时傅立叶变换的信号估计。见ICASSP，1983年。[13] 娜奥米·哈特和约恩·吉伦Tcd-timit：一个连续语音的视听语料库。 IEEE Transactions on Multi-media ， 17（5）：603[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[15] Lisa I Iezzoni，Bonnie L O'Day，Mary Killeen和HeatherHarker。关于医疗保健的沟通：聋人或听力障碍者的意见。Annals of Internal Medicine，140（5）：356[16] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。第32届国际机器学习会议论文集-第37卷，ICML'15，第448-456页，2015年[17] 杰斯珀·詹森和西斯·塔尔一种预测被调制噪声掩蔽的语音清晰度的算法。IEEE/ACM Transactions on Audio，Speech，and Language Processing，24：1[18] 水忘机、魏旭、明阳、开宇。用于人体动作识别的三维IEEE Transactions on Pattern Analysis and MachineIntelligence，35（1）：221[19] Ye Jia，Yu Zhang，Ron Weiss，Quan Wang，JonathanShen ， Fei Ren ， Patrick Nguyen ， Ruoming Pang ，Jiangnacio Lopez Moreno，Yonghui Wu，et al.从说话人确认到多说话人文本到语音合成的迁移学习。神经信息处理系统的进展，第4480-4490页，2018年[20] Christopher T Kello和David C Plaut。发音参数记录训练的发音声学前向映射神经网络模型。美国声学学会杂志，116（4）：2354[21] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[22] Yaman Kumar，Rohit Jain，Khwaja Mohd Salik，RajivRatn Shah，Yifang Yin，and Roger Zimmermann.唇读：使用多视角唇读来合成你的语言。在AAAI人工智能会议上，第33卷，第2588-2595页[23] Thomas Le Cornu和Ben Milner。从可视语音生成可理解的音频语音。 IEEE/ACM Transactions on Audio ，Speech，and Language Processing，25（9）：1751[24] David J Lewkowicz和Amy M Hansen-Tift。婴儿在学习语言时，会选择性地注意一张会说话的脸的嘴。Proceedings of the National Academy of Sciences ， 109（5）：1431[25] Ch

下载后可阅读完整内容，剩余1页未读，立即下载