没有合适的资源?快使用搜索试试~ 我知道了~
105870超越言语:野外视觉驱动的韵律文本到语音0Michael HassidGoogle研究0hassid@google.com0Michelle TadmorRamanovich Google研究0tadmor@google.com0Brendan ShillingfordDeepMind0shillingford@deepmind.com0Miaosen WangDeepMind0miaosen@deepmind.com0Ye JiaGoogle研究0jiaye@google.com0Tal RemezGoogle研究0talremez@google.com0摘要0在本文中,我们提出了VDTTS,一种以视觉为驱动的文本到语音模型。受配音的启发,VDTTS利用视频帧作为文本之外的附加输入,并生成与视频信号匹配的语音。我们演示了这样做使得VDTTS能够生成不仅具有韵律变化(如自然暂停和音高)的语音,而且还与输入视频同步。在实验中,我们展示了我们的模型在几个具有挑战性的基准测试中产生了良好同步的输出,接近于基准的视频-语音同步质量,包括来自VoxCeleb2的“野外”内容。在项目页面上提供了补充演示视频,展示了视频-语音同步、对说话者ID交换的鲁棒性和韵律。01. 引言0后期同步或配音(在电影行业中)是在拍摄过程之后,由原始演员在受控环境中重新录制对话,以提高音频质量的过程。有时,当需要不同的声音时,会使用替代演员代替原始演员,比如《星球大战》中的达斯∙维达角色[1]。自动音频-视觉配音的研究通常通过以下两个步骤来生成具有同步视频和语音的内容:(1)应用文本到语音(TTS)系统从文本生成音频,然后(2)修改帧,使面部与音频匹配[2]。这种方法的第二部分特别困难,因为它需要在任意拍摄条件下生成逼真的视频。01 项目页面:0http://google-research.github.io/lingvo-lab/vdtts0VDTTS0“这不是一种权利”0这是一种需求"0语音0图1. 给定说话者的文本和视频帧,VDTTS生成与视频信号匹配的具有韵律的语音。0相比之下,我们将TTS设置扩展到不仅输入文本,还包括面部视频帧,从而生成与输入视频的面部动作相匹配的语音。结果是音频不仅与视频同步,而且保留了原始的韵律,包括可以从视频信号中推断出的暂停和音高变化,为生成高质量的配音视频提供了关键部分。在这项工作中,我们提出了VDTTS,一种以视觉为驱动的TTS模型。给定说话者说话的文本和相应的视频帧,我们的模型经过训练,可以生成相应的语音(见图1)。与标准的视觉语音识别模型相反,后者只关注嘴部区域[3],我们提供了整个面部,以避免潜在地排除与说话者表达相关的信息。这为模型提供了足够的信息,可以生成不仅与视频匹配,而且还恢复了韵律的语音,如时间和情感。尽管我们的模型没有明确训练生成与输入视频同步的语音,但学习到的模型仍然可以实现这一点。我们的模型由四个主要组件组成。文本和视频编码器处理输入,然后是一个多源注意机制,将它们连接到生成mel频谱图的解码器。然后,一个声码器从mel频谱图生成波形。我们在GRID[4]上评估了我们方法的性能。105880以及来自VoxCeleb2[5]的具有挑战性的野外视频。为了验证我们的设计选择和训练过程,我们还对我们方法的关键组件、模型架构和训练过程进行了消融研究。项目页面上提供了演示视频。10展示了视频-语音同步、对说话者身份交换的鲁棒性以及韵律。我们鼓励读者去了解。我们的主要贡献是:0•展示并评估了一种新颖的视觉TTS模型,该模型在各种开放域YouTube视频上进行了训练;0•在GRID和VoxCeleb2上展示了在面对任意未知说话者时实现了最先进的视频-语音同步;0•证明了我们的方法在产生自然、类似人类的语音时恢复了韵律的一些方面,如停顿和音高。02. 相关工作0文本到语音(TTS)引擎可以从文本生成自然的语音,近年来取得了令人瞩目的进展。方法已经从参数模型转向了越来越多的端到端神经网络[6,7]。这种转变使得TTS模型能够生成听起来与专业人类语音一样自然的语音[8]。大多数方法由三个主要组件组成:一个编码器将输入文本转换为一系列隐藏表示,一个解码器从中生成类似mel频谱图的声学表示,最后一个声码器从声学表示中构建波形。一些方法,包括Tacotron和Tacotron2,使用基于注意力的自回归方法[7, 9,10];后续的工作,如FastSpeech [11,12]、非注意力Tacotron (NAT) [8, 13]和并行Tacotron[14,15],通常用Transformer替换循环神经网络。已经进行了大量研究,以确定如何将mel频谱图反转回波形;由于前者是一种压缩的音频表示,它通常不可逆。例如,Griffin和Lim的开创性工作[16]提出了一种简单的最小二乘方法,而现代方法则训练模型来学习任务特定的映射,这些映射可以捕捉更多的音频信号,包括WaveNet应用于Tacotron2的方法[9]、MelGAN [6, 17],或者像WaveGlow[18]这样训练流式条件生成模型的最新工作,DiffWave[19]提出了一种用于条件和无条件波形生成的概率模型,或者WaveGrad[20]利用数据密度梯度生成波形。在我们的工作中,我们使用全卷积的SoundStream声码器[21]。0TTS韵律控制Skerry-Ryan等人[22]将韵律定义为“语音信号的变化,不包括语音学、说话人身份和信道效应。”标准的TTS方法往往被训练成产生中性语音,因为建模韵律的难度较大。在将TTS音频的韵律转移或控制方面已经做出了巨大努力。Wang等人[23]通过在编码输入音频序列和全局风格令牌(GSTs)之间使用多头注意力模块来创建风格嵌入。他们使用mel频谱图的重构损失,与Tacotron模型一起训练了一个模型。在推理时,他们从文本中构建风格嵌入以实现风格控制,或者从其他音频中进行风格转移。[24]使用了变分自动编码器(VAE)的语音风格潜在表示。在推理时,他们通过操作潜在嵌入或从参考音频中获取潜在嵌入来改变说话风格。Hsu等人[25]使用VAE创建了两个层次的分层潜在变量,第一个表示属性组,第二个表示更具体的属性配置。这种设置允许对生成的音频韵律进行细粒度控制,包括口音、说话速度等。0无声视频到语音在这种设置中,向模型呈现无声视频,模型试图生成与嘴部运动一致的语音,而不提供文本。Vid2Speech[26]使用卷积神经网络(CNN)为每帧无声视频生成一个声学特征。Lipper[27]使用嘴唇的特写视频生成文本和语音,而[28]则直接生成语音而不使用声码器。Prajwal等人[29]提出了一种特定说话人的唇读模型。0数据集对于我们的任务,我们需要包含以下三个部分的三元组:面部视频、相应的语音音频和文本转录。视频和文本被用作模型的输入,0句子 小时 词汇 说话人 ID 来源0GRID [4] 34K 43 51 34 � Studio LRS2 [30] 47K 29 18K - � BBC LRS3[31] 32K 30 17K 3.8K � TED/TEDx VoxCeleb2 [5] 1M 2442 ˜35K*6.1K � YouTube LSVSR [2, 3] 3M 3130 127K ˜464K � YouTube0表1.音频-视觉语音数据集的大小比较,以句子数量、小时数和词汇量为指标。数字表示处理前的数据;我们在VoxCeleb2和LSVSR中使用的句子数量较小。在Yang等人[2]的论文中,LSVSR被称为MLVD。(*VoxCeleb2缺少转录,因此我们使用仅限英语的自动转录模型[32]为训练目的生成转录,该模型也用于本表中的词汇量测量。)105890文本编码器0视频编码器0多源0注意力0输入帧0输入文本0频0解码器 声码器0说话人ID 说话人编码器0生成的语音0VDTTS0图2. 我们模型的整体架构。颜色:输入:黄色,可训练:蓝色,冻结:紫色,输出:橙色。0语音音频用作指标和损失计算的基准。GRID是一个在一致条件下拍摄的标准数据集[4]。LRW [33]和LRS2[30]基于高质量的BBC电视内容,而LRS3[31]基于TED演讲;然而,这些数据集仅限于学术用途。VoxCeleb2 [5]和LSVSR [2,3]基于开放领域的YouTube数据,包含了最广泛的人员、内容类型和单词。表1比较了数据集的大小。在这项工作中,我们采用GRID作为标准基准,并选择VoxCeleb2和LSVSR因为它们更具挑战性。0自动配音自动配音的常见方法是生成或修改视频帧,以匹配给定的音频片段[2, 34, 35, 36, 37, 38, 39, 40,41]。这个广泛而活跃的研究领域使用的方法各不相同,从条件视频生成到检索再到3D模型。与这一系列工作不同的是,我们从一个固定的视频开始生成音频。最近的视觉TTS工作使用文本和视频帧来训练TTS模型,与我们的方法类似。与我们的工作同时进行的工作[42,43]采用了这种方法,前者使用GRID,后者仅使用LRS2。与我们的工作不同的是,这些方法明确地约束输出信号的长度和注意力权重以促进同步。03. 方法0在本节中,我们描述了所提出模型的架构,并描述了其组成部分。完整的架构和训练细节在附录A和附录B中给出。0概述图2展示了VTTS模型的整体架构。如图所示,与[44]类似,该架构由以下部分组成:(1)视频编码器,(2)文本编码器,(3)说话人编码器,(4)具有多源注意力机制的自回归解码器,以及(5)声码器。该方法采用[44]中的L1+L2损失函数。0设 T x 和 T y 分别为输入视频帧和音素序列的长度。设D w ,D h 和 D c 为帧的宽度、高度和通道数,D e为音素嵌入的维度,P为音素集合。我们从一个由源视频帧序列 x ∈ R T x × Dw × D h × D c 和音素序列 y ∈ P T y组成的输入对开始。视频编码器接收帧序列作为输入,为每个帧产生一个隐藏表示,然后将这些表示连接起来,即0h x = 视频编码器 ( x ) ∈ R T x × D m , (1)0其中 D m是模型的隐藏维度。类似地,文本编码器接收源音素并产生一个隐藏表示,0h y = 文本编码器 ( y ) ∈ R T y × D m . (2)0说话人编码器将说话人映射到一个256维的说话人嵌入,0d i = 说话人编码器 ( 说话人 i ) ∈ R 256 . (3)0自回归解码器接收两个隐藏表示 h x 和 h y,以及说话人嵌入 d i作为输入,并使用注意力上下文预测合成语音的梅尔频谱,0ˆ z t = 解码器 (ˆ z t − 1 , h x , h y , d i ) . (4)0最后,预测的梅尔频谱 [ˆ z 1 , ˆ z 2 , . . . , ˆ z T z ]使用一个冻结的预训练神经声码器[21]转换为波形。0视频编码器我们的视频编码器受到VGG3D的启发,如[3]所述。然而,与他们的工作和类似的唇读工作不同,我们使用的是整个面部裁剪而不是仅仅嘴巴裁剪,以避免可能排除与韵律有关的信息,如面部表情。hxhy105900文本编码器我们的文本编码器源自Tacotron2的文本编码器[9]。每个音素首先嵌入到一个D e维的嵌入空间中。然后,音素嵌入序列经过卷积层和Bi-LSTM层。0说话人编码器为了使我们的模型能够处理多说话人环境,我们使用了一个冻结的、预训练的说话人嵌入模型[45],遵循[10]。当数据集中提供说话人ID时,如GRID和Vox-Celeb2,我们为每个话语生成嵌入,并对与该说话人相关的所有话语进行平均,将结果归一化为单位范数。对于LSVSR,说话人身份不可用,因此我们按话语计算嵌入。在测试时,虽然我们可以使用任意说话人嵌入来使声音与说话人匹配以进行比较,但我们使用来自该说话人音频片段的平均说话人嵌入。我们鼓励读者参考项目页面1,在该页面上有示例视频演示了VDTTS在不同说话人之间交换说话人声音嵌入时的表现。0解码器我们基于RNN的自回归解码器类似于[9]提出的解码器,由四个部分组成:预网络,一个全连接网络,将先前的解码器输出重新投影到较低维度,然后用作未来时间步的输入;注意力模块,在我们的情况下是多源注意力,稍后讨论;LSTM核心;以及后网络,用于预测最终的梅尔频谱输出。解码器接收以下输出序列作为输入:视频编码器 h x,文本音素编码器 h y,以及由说话人编码器产生的说话人嵌入 d i,并生成语音信号的梅尔频谱 ˆ z t。与[9]不同,它们不支持说话人声音嵌入,我们将它们与预网络的输出连接起来,以使我们的模型能够在多说话人环境中使用,即:在时间步t的多源注意力的输入为 q t =concat ( PreNet (ˆ z t − 1 ) , d i ) . (5)0多源注意力机制类似于文本回声消除[44],允许在每个时间步选择将编码器的哪些输出传递给解码器。多源注意力机制如图3所示,每个编码器都有一个独立的注意力机制,它们之间没有权重共享。在每个时间步t,每个注意力模块输出一个注意力上下文。0ctx = Att x (qt, ct-1 x, hx); cty = Att y (qt, ct-1 y, hy),(6)0其中qt是解码器在时间步t的预网络层的输出。0频谱图0解码器0qt0注意力ct-1 x 注意力ct-1 y0连接0项目0ct0多源0注意力0cty ctx0图3. 多源注意力机制。0解码器在时间步t的输入是通过线性层对上述两个上下文的连接进行投影得到的,ct = Linear([ctx, cty])。 (7)0而[44]使用求和来聚合上下文向量,我们发现在我们的设置中,连接和投影效果更好,如第4.6节所示。我们对两种模态(视频和文本)都使用高斯混合注意力机制[46],因为它是一种软性单调注意力,已知在语音合成[47, 48,49]中可以获得更好的结果。完整的架构细节见附录A。04. 实验0为了评估提出的视频增强TTS模型的性能,我们在两个非常不同的公共数据集GRID [4]和VoxCeleb2[5]上进行了实验。GRID提供了一个受控的环境,允许我们在高质量的工作室捕获视频中测试我们的方法,其中包含一个小的词汇表,同一批演讲者出现在训练集和测试集中。然而,VoxCeleb2更具野外性质,因此在外观(照明、图像质量、音频噪声、面部角度等)方面更加多样化,并且测试集中的演讲者不出现在训练集中。这使我们能够测试模型对未见过的演讲者的泛化能力。04.1. 评估指标0我们客观地评估韵律准确性、视频-语音同步性和词错误率(WER)。我们还通过人工评分主观地评估同步性,如下所述。使用YIN音高跟踪算法[50]的输出计算音高(基频F0)和声调轮廓,帧移为12.5毫秒。对于以下情况:̸̸105910如果预测信号太短,我们使用适当领域的填充方式填充到参考长度。如果太长,我们将其剪裁为较短的长度。在本节的其余部分中,我们对实验部分中的度量进行定义并提供直观解释。04.1.1 梅尔倒谱失真(MCD K)[51]0是一种定义为梅尔频谱距离的度量。0MCD = 10T0T −1 �0t = 00� � � �0k = 1 (ft,k − ˆft,k)2,(8)0其中ˆft,k和ft,k是参考音频和预测音频的第t帧的第k个Mel频率倒谱系数(MFCC)[52]。我们对前K =13个MFCC进行平方差求和,跳过ft,0(总能量)。MFCC使用25毫秒的窗口和10毫秒的步长计算。04.1.2 音高指标0我们计算从合成和实际波形中产生的音高和声调序列上的以下常用韵律度量[48, 53]。0F0帧错误(FFE)[54]衡量了包含20%音高误差或声调决策错误的帧的百分比。0FFE = �0t 1 [|pt − p′t| > 0.2pt] 1 [vt = v′t] + 1 [vt ≠0T(9)其中p,p'是预测和实际音频上计算的音高,v,v'是预测和实际音频上计算的声调轮廓。0Gross Pitch Error (GPE)[55]衡量了在预测和参考音频上,音高差异超过20%且声音同时存在的帧的百分比。0GPE = �t1[|pt - p't| > 0.2pt]1[vt = v't]�t1[vt = v't](10)0其中p,p'是在预测和基准音频上计算的音高,v,v'是声音轮廓。0Voice Decision Error (VDE)[55]衡量了预测音频与基准音频声音不同的帧的比例。0VDE = �0t1 [0T (11)0其中v,v'是在预测和基准音频上计算的声音轮廓。04.1.3 Lip Sync Error0我们使用Lip Sync Error - Confidence (LSE-C)和Lip SyncError - Distance (LSE-D)[56]来衡量预测音频与视频信号之间的视频-语音同步。使用预训练的SyncNet模型[57]进行测量。04.1.4 Word Error Rate (WER)0TTS模型应该产生与输入文本一致的可理解的语音信号。为了客观地衡量这一点,我们使用自动语音识别(ASR)模型来测量WER。为此,我们使用了一种最先进的ASR模型,如[32]中所提出的,该模型在LibriSpeech[58]训练集上进行了训练。识别器没有进行修改或微调。由于LSVSR是开放式内容,并且与LibriSpeech中的有声读物不同领域,ASR性能可能会导致即使在基准音频上也出现较高的WER。因此,我们只使用WER指标进行相对比较。在附录C中,我们计算了在训练于多个数据集上的纯文本TTS模型的预测上的WER,以建立合理WER范围;我们确认较高的WER是可以预期的。04.1.5 Video-speech sync Mean Opinion Score (MOS)0我们使用3点Likert量表来衡量视频-语音同步质量,粒度为0.5。每个评估者在评分之前需要至少观看两次视频,一个评估者不能评价超过18个视频;每个视频由3个评估者评分。每次评估都是独立进行的;不会对不同的模型进行两两比较。MOS评分(平均值)显示为90%的置信区间。在第4.4节中,我们对包含唯一发言者的200个视频进行评分,而在第4.3节中,我们选择每个发言者的5个片段,共计165个视频。04.2. 数据预处理0在训练和评估我们的模型之前,进行了几个预处理步骤,包括音频过滤、人脸裁剪和限制示例长度。我们遵循[3]首次提出的类似方法,创建LSVSR数据集。我们将所有示例的持续时间限制在1到6秒的范围内,并通过语言分类器[60]对转录文本进行过滤,只包括英文。我们还删除了平均每秒少于一个单词的话语,因为它们不包含足够的口语内容。我们过滤模糊的剪辑,并使用神经网络[61]验证音频和视频通道的对齐。然后,我们应用类似于[62]的标记器,并保留面部偏航和俯仰在±15°之内的片段,删除其中的剪辑。MOS ↑LSE-C ↑LSE-D ↓WER ↓MCD ↓FFE ↓GPE ↓VDE ↓GROUND-TRUTH2.79 ± 0.037.007.51-----TTS-TEXTONLY [59]1.77 ± 0.051.8212.444%14.670.590.380.42VDTTS-VOXCELEB22.50 ± 0.045.998.2248%12.170.460.310.30VDTTS-LSVSR2.45 ± 0.045.928.2525%12.230.460.290.31ALTTS [42]; (2) PnG NAT TTS zero-shot voice transfer-ring model from [59], a state-of-the-art TTS model trainedon the LibriTTS [64] dataset, denoted as TTS-TEXTONLY;(3) our model when trained over LSVSR (see Sec. 4.2); and(4) our model trained on the GRID training set.Unfortunately, VisualTTS [42] did not provide their ran-dom train/test splits. Therefore, we report the original met-rics as they appear in [42] alongside the numbers we foundover our test set. Luckily, the two are comparable, as can beseen by the two rows in Table 2 named GROUND-TRUTH.The results appear in Table 2. Observe that, when trainedon GRID, our method outperforms all other methods overin all metrics except WER. Moreover, our model trained onLSVSR, as we will see in a later section, gets better video-speech synchronization results than VisualTTS, which wastrained on GRID, showing that our “in-the-wild” modelgeneralizes to new domains and unseen speakers.105920MOS ↑ LSE-C ↑ LSE-D ↓ WER ↓ MCD ↓ FFE ↓ GPE ↓ VDE ↓0GROUND-TRUTH [42] - 7.68 6.87 - - - - - V ISUAL TTS [42] - 5.81 8.50 - - - - -0GROUND-TRUTH 2.68 ± 0.04 7.24 6.73 26% - - - - TTS-TEXT ONLY [59] 1.51 ± 0.05 3.39 10.44 19% 15.760.48 0.30 0.42 VDTTS-LSVSR 2.10 ± 0.06 5.85 7.93 55% 12.81 0.37 0.21 0.32 VDTTS-GRID 2.55 ± 0.05 6.976.85 26% 7.89 0.14 0.07 0.110表2. GRID评估。该表显示了我们在GRID数据集上的实验结果。前两行显示了V ISUAL TTS[42]中的数字。GROUND-TRUTH显示了在原始语音/视频上评估的指标。TTS-TEXTONLY显示了纯文本TTS模型的性能,而VDTTS-LSVSR和VDTTS-GRID分别是我们在LSVSR和GRID上训练的模型。虽然VDTTS-GRID取得了最好的整体性能,但显然VDTTS-LSVSR在GRID数据集上的泛化能力足够好,超过了V ISUAL TTS[42]。有关指标的解释,请参见第4.1节;箭头表示更高或更低更好。0表3. VoxCeleb2评估。GROUND - TRUTH显示了原始VoxCeleb2语音和视频的同步质量。TTS-T EXT ONLY表示纯文本TTS模型,而VDTTS-V OX C ELEB2和VDTTS-LSVSR分别表示我们在VoxCeleb2和LSVSR上训练的模型。从WER可以看出,VDTTS-V OX C ELEB2生成的结果难以理解,而VDTTS-LSVSR在VoxCeleb2数据上具有良好的泛化能力,并且整体质量更好。有关指标的解释,请参见第4.1节;箭头表示较高或较低为更好。0眼睛间距小于80像素。使用提取和平滑处理的关键点,我们使用阈值过滤器丢弃微小的嘴唇运动和非说话的面部。关键点用于计算和应用仿射变换(无倾斜)以获得规范化的面部。音频经过滤波处理[ 63 ]以减少非语音噪声。我们使用这种方法收集了一个类似于LSVSR[ 3]的数据集,将其用作我们的“野外”训练集,共有527,746个示例,并对VoxCeleb2进行预处理,只改变了最大面部角度为30°。0为了增加数据集的大小,我们对VoxCeleb2进行了相同的处理,结果得到了71,772个训练示例和2,824个测试示例。至于我们用作受控环境的GRID数据集,我们不对数据进行过滤,只使用上述流程中的面部裁剪部分生成模型输入。04.3. 受控环境评估0为了在受控环境中评估我们的方法,我们使用了GRID数据集[ 4]。GRID由33个说话者(最初为34个,其中一个损坏)的工作室视频录制组成。每个说话者有1000个视频,在每个视频中以预定的“GRID”格式说出一个句子。数据集的词汇量相对较小,所有视频都是在受控的工作室环境中在绿幕上拍摄的,头部姿势变化很小。我们将VDTTS与最近的VisualTTS [ 42 ]进行比较。0使用与作者报告的相同方法进行评估。为此,我们从每个说话者中随机选择100个视频作为测试集。我们使用剩余的900个示例作为训练数据,并生成一个查找表,其中包含每个说话者的平均和归一化的说话者嵌入,如第3节所述。在测试时,我们将视频帧与转录文本和平均说话者嵌入一起提供给我们的模型。我们使用上述提到的指标评估我们的方法。0第4.1节,并将其与几个基线进行比较:(1) V ISU -105930GT0VDTTS0TTS- T EXTO NLY [59]0F0(VDTTS)F0(GT)0F0(TTS- T EXTONLY)F0(GT)0时间 时间(a)(b)0图4.定性示例。我们从VoxCeleb2的测试集中展示了两个示例(a)和(b)[5]。从上到下:输入人脸图像,地面真实(GT)梅尔频谱图,VDTTS的梅尔频谱图输出,香草TTS模型TTS- T EXT O NLY的梅尔频谱图输出,以及与地面真实信号相比,显示VDTTS和TTS-T EXT ONLY的归一化音高F0(通过非零音高的平均归一化,即均值仅在有声时期间计算)的两个图。有关实际视频,请参阅项目网页。04.4.野外评估0在本节中,我们对来自VoxCeleb2测试集[5]的野外数据进行了VDTTS的评估。这是一个由YouTube上的野外人们说话的开源数据集。我们按照第4.2节中的描述对数据进行预处理。由于这些数据没有转录,我们使用[32]自动生成的转录自动增加了数据,得到了2824个高质量的自动转录测试视频。我们通过对同一说话者的所有示例的说话者语音嵌入进行平均和归一化来创建说话者嵌入查找表。0作为基线,我们再次使用了来自[59]的仅文本TTS模型TTS-TEXT O NLY。结果如表3所示。0最初,我们在VoxCeleb2的训练集上训练了我们的模型,称为VDTTS-V OX C ELEB2。不幸的是,正如高达48%的WER所示,该模型产生了难以理解的音频。我们假设嘈杂的自动转录是罪魁祸首,因此在人工生成的转录的替代野外数据集LSVSR上训练了模型,我们将该模型称为VDTTS-0LSVSR。正如我们的假设,这导致了WER的大幅改善,并将错误率降低到仅为24%,而其他大多数指标保持可比。有关更多详细信息,请参阅附录C。有关VDTTS-LSVSR的定性示例,请参阅第4.5节。04.5.使用视频的韵律0我们从VoxCeleb2的测试集中选择了两个推理示例,展示了VDTTS的独特优势,我们在图4中展示了这些优势。在这两个示例中,视频帧提供了有关韵律和词语时序的线索。这种视觉信息对于仅文本的TTS模型TTS-T EXT O NLY[59]是不可用的,我们将其与之进行比较。在第一个示例中(见图4(a)),说话者以特定的节奏说话,导致地面真实的梅尔频谱图中出现周期性的间隙。VDTTS模型保留了这一特点,并生成了与地面真实更接近的梅尔频谱图,而没有访问视频的TTS-T EXT ONLY生成的梅尔频谱图。类似地,在第二个示例中(见图4(b)),105940LSE-C ↑ LSE-D ↓ WER ↓ MCD ↓ FFE ↓ GPE ↓ VDE ↓0完整的VDTTS 5.92 8.25 25% 12.23 0.46 0.29 0.31 VDTTS-no-sp-emb1.49 12.14 27% 14.5 0.67 0.43 0.37 VDTTS-small 1.48 12.45 38% 140.6 0.4 0.43 VDTTS-sum-att 5.74 8.47 28% 12.22 0.46 0.29 0.31VDTTS-no-text 5.90 8.28 98% 12.99 0.53 0.35 0.35 VDTTS-no-video1.44 12.62 27% 14.36 0.58 0.34 0.47 VDTTS-video-len 1.58 12.3728% 13.98 0.59 0.37 0.42 VDTTS-mouth 5.51 8.59 29% 12.24 0.520.41 0.310表5.消融研究,显示了VDTTS模型的不同变体以及这些组件对VDTTS性能的贡献。有关不同模型的详细说明,请参阅第4.6节,有关指标定义,请参阅第4.1节。箭头表示更高或更低更好。0说话者在某些单词之间有很长的停顿。通过观察地面真实的梅尔频谱图中的间隙可以观察到这一点。这些停顿被VDTTS捕捉到,并反映在下面的预测结果中,而TTS-T EXT ONLY的梅尔频谱图则没有捕捉到说话者节奏的这一方面。我们还绘制了F0图表,将每个模型生成的音高与真实音高进行比较。在这两个例子中,VDTTS的F0曲线与真实音高的拟合要比TTS-T EXT ONLY的曲线好得多,无论是在语音和静音的对齐上,还是在音高随时间变化的方面。要查看视频和其他示例,我们建议读者访问项目页面1。04.6. 消融0在本节中,我们进行了一项消融研究,以更好地理解我们的关键设计选择的贡献。结果在表5中呈现,使用以下缩写表示模型:(1)VDTTS-no-sp-emb:没有使用说话者嵌入的VDTTS。虽然不太可能,但这个版本可能会学习使用视频中的人来补偿缺失的嵌入。(2)VDTTS-small:VDTTS使用较小的编码器和解码器,Dm=512,与[9]中相同。(3)VDTTS-sum-att:VDTTS在多源注意机制中使用求和(如[44]中所示)而不是串联。(4)VDTTS-no-text:VDTTS没有文本输入,可以看作是一个无声视频到语音模型。(5)VDTTS-no-video:VDTTS没有视频输入,可以看作是一个TTS模型。(6)VDTTS-video-len:VDTTS使用空帧进行训练,作为一个知道视频长度的TTS模型的基准。(7)VDTTS-mouth:VDTTS仅在嘴部区域上进行训练和评估(与大多数语音识别模型相同)。VDTTS-no-sp-emb在视频-语音同步度量LSE-C和LSE-D上表现不佳,可能是由于欠拟合,因为该模型仅使用视频无法推断说话者的声音。0观察VDTTS-small,可以明显看出需要增加Dm超过Ding等人[44]最初建议的值。另一个有趣的模型是VDTTS-no-text,它只能访问视频帧输入而没有任何文本。在视频-语音同步方面,它与完整模型在LSE-C和LSE-D上相当,但无法产生单词,这可以从其高WER中看出。有趣的是,该模型的输出看起来明显同步,但听起来像是英语的胡言乱语,可以在项目页面1上的示例中看到。一方面,这表明文本输入是产生可理解内容所必需的,另一方面,它表明视频足以推断同步和韵律,而无需访问底层文本。尽管VDTTS-video-len似乎与VDTTS-no-video模型显示类似的结果,但前者生成的语音信号与原始场景长度相对应(如期望的那样),而后者则不是。最后,VDTTS-mouth的表现略逊于完整模型,这表明使用完整的面部裁剪对模型确实有益。05. 讨论和未来工作0在本文中,我们提出了VDTTS,一种新颖的以视觉为驱动的TTS模型,利用视频帧作为输入,并生成与视频信号匹配的语音和韵律。这样的模型可以用于后期同步或配音,产生与一系列视频帧同步的语音。我们的方法还自然地扩展到其他应用,如视频中的低质量语音增强和字幕视频中的音频恢复。VDTTS在GRID数据集上产生接近真实质量的输出。在开放域的“野外”评估中,它产生了与真实视频-语音同步质量接近的良好同步输出,并且与其他方法相比表现良好。有趣的是,VDTTS能够在没有任何明确的损失或约束的情况下产生视频同步的语音,这表明同步损失或明确建模等复杂性是不必要的。此外,我们证明了文本和说话者嵌入提供了语音内容和声音,而韵律则由视频信号产生。我们的结果还表明,在合成的背景下,解决潜在的生成具有欺骗性的虚假音频的问题是很重要的。由于VDTTS是使用视频和文本对进行训练的,其中视频中描绘的语音与文本相对应,因此从任意文本合成是超出领域的,不太可能被滥用。105950参考文献0[1] V. Canby, “卢卡斯回归“绝地武士”,” The New YorkTimes , p. 24, May 1983. 10[2] Y. Yang, B. Shillingford, Y. Assael, M. Wang, W. Liu, Y.Chen, Y. Zhang, E. Sezener, L. C. Cobo, M. Denil, Y. Ay- tar,and N. de Freitas, “大规模多语言音频视觉配音,”arXiv:2011.03530 [cs, eess] , Nov. 2020. 1 , 2 , 30[3] B. Shillingford, Y. Assael, M. W. Hoffman, T. Paine, C.Hughes, U. Prabhu, H. Liao, H. Sak, K. Rao, L. Ben- nett et al., “大规模视觉语音识别,” arXiv preprint arXiv:1807.05162 ,2018. 1 , 2 , 3 , 5 , 60[4] M. Cooke, J. Barker, S. Cunningham, and X. Shao,“用于语音感知和自动语音识别的音频-视觉语料库,” TheJournal of the Acoustical Society of America , vol. 120, no. 5,pp. 2421–2424, 2006. 1 , 2 , 3 , 4 , 60[5] J. S. Chung, A. Nagrani, and A. Zisserman, “Vox- celeb2:深度说话人识别,” arXiv preprint arXiv:1806.05622 , 2018. 2 ,3 , 4 , 70[6] A. v. d. Oord, S. Dieleman, H. Zen, K. Simonyan, O.Vinyals, A. Graves, N. Kalchbrenner, A. Senior, and K.Kavukcuoglu, “Wavenet: 一种用于原始音频的生成模型,”arXiv preprint arXiv:1609.03499 , 2016. 20[7] Y. Wang, R. Skerry-Ryan, D. Stanton, Y. Wu, R. J. Weiss, N.Jaitly, Z. Yang, Y. Xiao, Z. Chen, S. Bengio et al. , “Tacotron:朝着端到端语音合成,” arXiv preprint arXiv:1703.10135 ,2017. 20[8] Y.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功