统一语音-文本预训练方法在语音翻译和识别中的有效性

188 浏览量更新于2023-11-30 收藏 19.56MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Yun Tang, Hongyu Gong, Ning Dong, Changhan Wang,Wei-Ning Hsu, Jiatao Gu, Alexei Baevski, Xian Li,Abdelrahman Mohamed, Michael Auli, Juan PinoMeta AI{yuntang,hygong,dnn,changhan,wnhsu,jgu,abaevski,xianl,abdo,michaelauli,juancarabina}@fb.com1https://github.com/pytorch/fairseq/tree/main/examples/speech text joint to text.0统一的语音-文本预训练用于语音翻译和识别0摘要0我们描述了一种在编码器-解码器建模框架中联合预训练语音和文本的方法，用于语音翻译和识别。所提出的方法包括四个自监督和监督子任务，用于跨模态学习。一个自监督的语音子任务利用未标记的语音数据，一个（自）监督的文本到文本子任务利用丰富的文本训练数据。两个辅助的监督语音任务用于统一语音和文本建模空间。我们的贡献在于将文本语料库中的语言信息整合到语音预训练中。详细分析揭示了子任务之间的学习干扰。我们提出了两种语音翻译和识别的预训练配置，以减轻子任务干扰。我们的实验证明，所提出的方法可以有效地融合语音和文本信息到一个模型中。在MUST-C语音翻译数据集上，它的BLEU指标比现有技术提高了1.7到2.3个点，并且在LIBRISPEECH语音识别任务上的词错误率与wav2vec 2.0相当。01 引言0预训练可以从大规模训练语料中学习通用特征表示，并且对于训练数据有限的下游任务是有益的（Peters等，2018；van denOord等，2018；Chung等，2018；Zoph等，2020）。随着计算能力的提升和自监督预训练方法的发展，大量未标记的数据现在可以用于预训练。BERT（Devlin等，2019）、BART（Lewis等，2020b）和wav2vec2.0（Baevski等，2020b）等方法已经成为许多语音和自然语言处理任务的基础。0上述的预训练方法专注于从文本或语音中学习特征表示。许多语音应用程序结合从语音和文本语料库中学到的信息，以实现最先进的结果。在语音处理中，对于许多语言来说，转录的语音训练数据通常非常稀缺。仅基于标记的语音训练数据很难建立健壮的语言知识表示。Jia等（2019）；Chen等（2021）提出从文本生成合成数据以增加语音训练语料库。Li等（2021）证明了使用预训练的wav2vec2.0和mBART（Liu等，2020）模块初始化的模型在多语言语音到文本翻译任务中具有竞争力。Chuang等（2020）提出将声学模型和BERT模型连接起来进行语音问答。Chung等（2021b）将语音话语表示与相应的文本句子表示进行对齐，其中两种表示都是从无监督预训练模型生成的，用于语音理解。0在这项研究中，我们对使用基于注意力的编码器-解码器（AED）框架进行语音到文本任务的预训练感兴趣。特别地，我们试图回答一个问题，即不同模态数据的整合是否有助于表示学习。为了回答这个问题，我们提出了语音和文本联合预训练（STPT），这是一个多任务学习框架，将不同的模态，即语音和文本，在预训练阶段进行组合。一个自监督的语音子任务和一个（自）监督的文本到文本子任务主导预训练计算，以利用大量未标记的语音数据和丰富的文本训练语料库。两个辅助的监督语音子任务用于统一相同的建模空间中的不同模态。所提出的方法将文本和语音训练语料库的信息融合到一个单一模型中，并有效地提高了性能。0arXiv:2204.05409v1[cs.CL] 11Apr20220+v:mala2277获取更多论文0流任务，例如语音到文本翻译（ST）和自动语音识别（ASR）。我们的贡献总结如下：01.我们提出了一个多任务学习框架，以一个模型学习四个语音和文本子任务，并成功地将文本语料库中的语言信息整合到语音预训练中。02.对所提出的预训练方法进行了详细分析，揭示了不同子任务之间的干扰。03.提出了两种联合预训练配置，以减轻ASR和ST之间的学习干扰。04.在下游任务中取得了最先进的结果。与最佳MUST-CST系统相比，我们在BLEU上至少提高了1.7个单位，并且在LIBRISPEECHASR任务中的WER与wav2vec 2.0相当。02 相关工作0预训练：自监督预训练通常使用两种不同的准则进行优化：对比损失（van denOord等，2018；Chung和Glass，2020；Baevski等，2020b）和遮蔽预测损失（Devlin等，2019）。对比损失侧重于在给定参考样本的情况下区分正样本和负样本，并且在语音识别方面取得了巨大成功（Baevski等，2020b）。遮蔽预测损失首先用于自然语言处理任务（Devlin等，2019；Lewis等，2020b），然后应用于语音处理（Baevski等，2020a；Hsu等，2021）。Chung等（2021a）结合了对比损失和遮蔽预测损失，对下游ASR任务表现出良好的性能。我们自监督语音任务的优化更多地与遮蔽预测损失相关。我们不是预测遮蔽帧的硬离散标签，这容易出错，而是使用KL散度来最小化有遮蔽和无遮蔽的相同特征帧之间的分布差异。有关更多详细信息，请参阅第3.2节。自我训练（或迭代伪标记）：自我训练是另一种广泛使用的方法，利用未标记的语音数据来提高ASR性能（Kahn等，2020；Xu0et al. , 2020 ; Pino et al. , 2020 ; Zhang et al., 2020 ; Wang et al. , 2021b ; Xiao et al. ,2021 ; Wang et al. , 2021c ).一个种子模型通常使用少量的有监督语音训练数据进行训练，用于为未标记的语音数据生成伪标签。带有伪标签的语音数据被增加到训练数据集中，构建另一个模型，预期由于更多的训练数据暴露，该模型将优于种子模型。与自我训练类似，我们还使用少量的有监督数据来统一语音和文本建模空间。然而，本研究中的自监督语音训练避免了进行硬预测，并使用KL散度来最大化遮蔽区域和观察到的特征帧之间的互信息。多任务学习：由于数据稀缺，多任务学习被广泛应用于利用并行文本训练数据进行ST（Weiss et al.，2017；Anasta-sopoulos和Chiang，2018；Tang etal.，2021b；Ye etal.，2021）。这些方法主要在多任务学习过程中使用有监督的语音数据集，而我们的方法可以在预训练阶段利用大量未标记的语音数据，这有可能进一步提高性能。Ao等人（2021）的一项并行工作还提出了联合预训练语音和文本用于ASR和文本到语音应用，这是完全无监督的。我们的方法侧重于利用有监督的语音数据，这可能是用于微调的相同数据，以改进联合语音文本预训练。Bapna等人（2021）的另一项并行工作侧重于使用语音和文本数据进行语音编码器预训练。我们的方法强调编码器-解码器框架，并在预训练阶段训练编码器和解码器。03 方法0ASR和ST是提出的预训练方法的两个主要下游任务。图1描述了我们的联合预训练框架，包括四个子任务：01. （自）监督文本到文本子任务（T2T）02. 自监督语音学习子任务（SSL）0+v:mala2277获取更多论文LT2T = −N�ilog p(yi|y1:i−1, X)(1)0（a）ASR预训练的完全共享编码器（FSE）。0（b）ST预训练的部分共享编码器（PSE）。0图1：语音文本联合预训练框架。紫色、绿色、钢蓝色和蓝色线分别描述了文本到文本（T2T）、自监督语音学习（SSL）、监督语音到音素分类（S2P）和基于监督AED的语音到文本（S2T）子任务的编码器中的数据流。黑色线显示了T2T和S2T子任务的解码器模型中的数据流。虚线表示音素嵌入应用于SSL和S2P子任务。03. 监督语音到音素分类子任务（S2P）04.监督的基于语音的文本到文本子任务，与下游任务相同，即ST或ASR（S2T）0T2T子任务的选择取决于下游任务。对于ASR，T2T子任务是一个去噪自编码器任务（BART）（Lewis等人，2020a），而ST利用基于文本的神经机器翻译任务。SSL子任务是一个自监督语音学习任务，通过掩码预测损失来利用大量未标记的语音数据进行优化。最后两个监督语音任务（S2P和S2T）将两种模态，即语音和文本，统一到一个建模空间中。在本研究中，我们发现ASR预训练的子任务是互补的，而ST预训练在某些编码器层面存在子任务干扰。我们提出了两种不同的配置：完全共享编码器（FSE）（图1（a））用于ASR预训练，部分共享编码器（PSE）（图1（b））用于ST预训练。FSE配置旨在鼓励不同子任务之间的信息共享，而PSE配置试图最小化仅编码器子任务（SSL和S2P）与序列到序列AED任务（子任务T2T和S2T）之间的信息共享。更多子任务干扰分析在第5.2节中介绍。我们在以下各小节中描述每个子任务的细节。03.1 (自)监督文本到文本子任务0在序列到序列的ASR和ST任务中，解码器是一个以编码器输出为条件的文本生成器。需要大量的训练样本来覆盖目标语言的不同语言方面。丰富的文本是有限的监督语音数据语料库的理想补充。假设目标文本序列为Y=（y1，y2，...，yN），其对应的损坏版本X =NOISE（Y）=（x1，x2，...，xM）可以通过掩码或替换Y中的令牌范围来创建（Lewis等人，2020a）用于ASR预训练。如果下游任务是ST，则X是相应的源令牌序列。该任务通过最大化交叉熵来优化0在这个子任务中，我们还将输入文本转换为相应的发音形式，即音素序列，因为这样更容易对齐来自语音和文本的编码器输出（Tang等人，2021b）。图1中的紫色和黑色线描述了T2T子任务中的数据流。03.2 自监督语音子任务0SSL子任务旨在利用大量未标记的语音数据并学习通用的语音表示。模型配置遵循wav2vec2.0（Baevski等人，2020b），其中语音模型包括特征提取器和0+v:mala2277获取更多论文0上下文编码器。上下文编码器对应于图1(b)中的语音编码器，在ST预训练中使用。如果ASR是下游任务，则上下文编码器包括一个额外的共享编码器，如图1(a)所示。我们使用不同的框架进行ST和ASR预训练，以减少子任务之间的干扰。详细的子任务干扰在第5.2节中讨论。我们提出了一种掩码KL散度损失来优化SSL子任务。它由两次计算组成。给定语音输入S=(s1,s2,...,sT)，特征提取器和上下文编码器的输出分别为Z=(z1,z2,...,zT')和O=(o1,o2,...,oT')，其中语音输入由特征提取器进行下采样，T>T'。在第一次计算中，将输出O与音素嵌入E=(e1,e2,...,eI)进行比较，音素嵌入来自于第3.1节中描述的T2T子任务，I是音素词汇大小。预测的音素分布p(oj|ei)定义为0p(oj|ei) = exp(oj�∙ei) / ∑i′ exp(o�j∙ei′)(2)0在第二次计算中，选择语音特征段ˆZ�Z，并将其损坏为wav2vec2.0 (Baevski etal.，2020b)。ˆO是从ˆZ得到的相应的上下文编码器输出。我们通过最小化KL散度来训练模型，使得损坏的p(ˆoj|ei)与p(oj|ei)相似。0LSSL = -∑0ˆoj∈ˆO0∑0∑i p(oj|ei)log0p(oj|ei) (3)0与掩码预测损失相比，我们不是预测掩码帧的硬离散标签，而是使用软标签预测，即从第一次计算中得到的预测音素分布，以学习语音表示并避免硬预测错误。03.3 监督的语音到音素分类0S2P子任务用于统一自监督训练的语音和文本模型。它与SSL子任务使用相同的模型。在这个子任务中，使用一个转录的ASR数据集，目标是预测帧级音素标签。使用Kaldi (Povey etal.，2011)在相同的转录数据集上训练HMM-GMM模型，使用强制对齐生成帧级标签。0音素分类任务使用交叉熵损失进行优化。0LS2P = -∑0oj∈O log p(oj|ea(j)) (4)0其中a(j)是与上下文编码器输出oj相关联的音素标签。S2P子任务中的数据流在图1中用steelblue线表示。03.4 监督的基于AED的语音到文本子任务0除了前面提到的S2P子任务，我们还在预训练阶段包括了潜在的下游AED任务，即ASR或ST。在许多语音翻译数据集中，如MuST-C (Gangi etal.，2019)或CoVoST (Wang etal.，2021a)，我们既有语音转录又有翻译标签。语音转录用于S2P子任务，而S2T子任务可以利用相应的翻译标签。我们希望这个辅助任务能够使从预训练到微调的过渡更加平滑，并在下游任务中获得更好的性能。优化过程中涉及的组件在图1中用蓝线连接在编码器中，用黑线连接在解码器中，它们使用交叉熵准则进行训练。0LS2T = -∑0t log p(yi|yi−1,O) (5)0其中O是输入语音，Y=(y1,...,yN)是目标标签。总的预训练损失定义为上述四个损失的组合。0L = LT2T + αLSSL + βLS2P + γLS2T（6）0其中α，β和γ是SSL、S2P和S2T子任务的任务权重。在预训练期间，共享编码器的输入来自两个来源，要么来自S2T子任务中的语音编码器输出，要么来自T2T子任务中的音素嵌入。共享编码器的输入可能处于不同的数值尺度。为了稳定多任务训练，我们对共享编码器的输入应用了LayerNorm（Ba等人，2016），将这些输入放置在相同的数值尺度上，如图1所示。0+v:mala2277获取更多论文+v:mala2277获取更多论文04实验设置0在预训练中，我们首先训练T2T子任务的模块，直到它们收敛。这有助于稳定训练并获得更好的结果。然后，整个模型与第3节中提到的所有子任务一起进行联合优化。最后，在下游任务上对预训练模型进行微调。在微调阶段，我们继续优化模型的T2T和S2T子任务。由于模型已经从预训练的无标签语音数据中学到了良好的语音表示，因此两个仅编码器的子任务（SSL和S2P）被丢弃。对ASR和ST进行了两个下游任务的评估。ASR系统在四个LIBRISPEECH（Panayotov等人，2015）评估集上进行评估：dev-clean、dev-other、test-clean和test-other。实验中报告了WER。ST模型在两个翻译方向上进行评估：英语-西班牙语（EN-ES）和英语-法语（EN-FR）。在来自M UST-C（Gangi等人，2019）的tst-COMMON测试集上报告了区分大小写的去标记化SACREBLEU（Post，2018）。对于ASR和ST预训练，使用了来自Libri-light（Kahn等人，2020）的60k小时的无标签英语语音数据来构建自监督语音任务，除非另有说明。我们在预训练和微调中使用相同的标记数据进行监督学习，即ASR使用LIBRISPEECH训练数据，ST使用M U ST-C。0使用LIBRISPEECH语言模型（LM）训练数据集构建单语BART模型。对于ST预训练，我们使用WMT的平行训练语料库。有关训练数据的更多细节，请参见附录A。04.1模型配置0该模型以原始语音音频作为输入。特征编码器包含七个块，每个块中的时间卷积具有512个通道，步幅为（5,2,2,2,2,2,2），内核宽度为（10,3,3,3,3,2,2）。语音编码器、共享编码器和共享解码器都具有6个Transformer层，模型维度为768，内部维度（FFN）为3072，注意力头为8。我们采用了Transformer块中的Pre-LN（Xiong等人，2020）。总参数数量为1.69亿。每个子任务的任务权重由训练过程中使用的小批次数量设置。在预训练中，共享编码器的输入来自两个来源，要么来自S2T子任务中的语音编码器输出，要么来自T2T子任务中的音素嵌入。共享编码器的输入可能处于不同的数值尺度。为了稳定多任务训练，我们对共享编码器的输入应用了LayerNorm（Ba等人，2016），将这些输入放置在相同的数值尺度上，如图1所示。0T2T、SSL、S2P和S2T子任务分别为T2TBART子任务中的30%令牌进行掩码处理，在ST预训练中的T2TNMT子任务中不应用掩码处理。在SSL子任务中，选择7%的特征帧和两个受监督语音子任务中的3%特征帧作为掩码跨度起始时间步。掩码跨度长度为10。通过网格搜索选择掩码百分比（文本掩码为（20,30），语音掩码为（6,6.5,7）和（2,3））。有关其他实验细节，如优化超参数，请参见附录B。05实验结果05.1主要结果0我们在表1中呈现了LIBRISPEECH识别结果。报告了没有/有解码语言模型的识别结果。使用语言模型得到的词错误率（WER）显示在“()”中。第二列显示了在预训练中用作无标签数据的数据集。 “LS-960”代表LIBRISPEECH训练数据集，“LV-60k”是60,000小时的Librilight数据集。解码语言模型是使用LIBRISPEECH文本训练语料库构建的，该语料库是ASR预训练和微调中的T2T子任务使用的文本语料库。表的第一部分显示了基于wav2vec2.0基础模型的结果，该模型是基于CTC的ASR系统。表的第二部分呈现了两个基于AED的ASR系统的结果，我们主要与这两个AED系统进行比较。LAS是基于LIBRISPEECH数据训练的LSTM系统。Transformer（Tang等人，2021b）基于多任务学习，并与文本任务一起进行训练。表的第三部分呈现了STPT模型的结果。第四行显示了使用960小时的LIBRISPEECH训练数据作为无标签预训练数据的模型的结果，而第五行的模型是使用60k小时的Librilight数据进行预训练的。STPT优于所有先前报告的基于AED的系统。与联合训练的Transformer模型（Tang等人，2021b）相比，平均绝对WER降低了1.2。如果不应用外部语言模型，STPT还减少了2.2的WER，并在使用语言模型解码时实现了可比的WER。一个有趣的观察是解码语言模型对STPT模型并不是非常有帮助。STPT33.139.70数据集无标签 Dev 测试平均数据清晰其他清晰其他0wav2vec 2.0（Baevski等人，2020b）LS-960 3.2（1.8）8.9（4.7）3.4（2.1）8.5（4.8）6.0（3.4）0LAS（Park等人，2019）- - - 2.8（2.5）6.8（5.8）- Transformer（Tang等人，2021b）- 2.8 7.0 3.1 7.2 5.00STPT LS-960 2.1（1.9）5.4（5.2）2.3（2.2）5.6（5.3）3.8（3.6） STPT LV-60k2.0（2.1）4.4（4.2）2.1（2.1）4.6（4.5）3.3（3.2）0表1：Librispeech上的WER结果。“()”表示使用外部LM测量的WER。0数据语料库 EN-ES EN-FR0Inaguma等人（2020）28.0 32.70Tang等人（2021a）31.0 37.40Zheng等人（2021）30.8 -0Ye等人（2021）30.8 38.00表2：MuST-Ctst-COMMON上两个语言对的BLEU结果。0当应用解码语言模型时，仅观察到0.2的词错误率（WER）降低。另一方面，其他系统在解码时应用语言模型时显示出相当大的WER降低。这表明我们在预训练和微调阶段的多任务学习可以有效地将文本数据语言信息融合到ASR模型中。如果LM是在相同的文本语料库上训练的话，可能不需要LM。我们还报告了使用60k小时Librilight数据预训练的模型的结果，位于第五行。与LS-960STPT模型相比，Librilight数据有助于降低两个困难的“其他”数据集的WER。在接下来的实验中，我们将在预训练中使用Librilight作为无标签数据。在表2中，我们呈现了MuST-C数据集上的语音翻译结果。第一到第四行是来自文献的最新结果。第一行显示了仅训练语音到文本翻译任务的结果。第二行和第三行呈现了两个多任务系统的结果，语音和文本一起进行训练。第四行是报告的最佳系统，该系统使用预训练的wav2vec2.0和机器翻译模型进行初始化，然后通过联合语音和文本训练进行微调。我们的方法在EN-ES和EN-FR翻译方向上比最佳系统（Ye等人，2021）获得了2.3和1.7个BLEU分数。05.2 模型结构的影响0子任务之间的干扰可能会阻碍多任务学习的进展并导致较差的结果。在本研究中，我们研究了任务干扰。0通过比较成对子任务之间的梯度相似性来比较任务梯度。我们选择使用第3节中讨论的FSE配置预训练的模型，并从四个联合训练的子任务中累积梯度。我们为每个子任务准备了20批训练样本，并通过将这些批次发送到模型来检索累积的梯度。然后，我们计算任意两个子任务之间的余弦相似度。0共享编码器的成对子任务梯度相似性在图2中呈现。图2(a)展示了ASR预训练中的梯度相似性。在大多数层中，梯度相似性较小。没有观察到严重的梯度干扰。图2(b)描述了ST预训练中的梯度相似性。与ASR预训练相比，S2T和T2T子任务在预训练中被语音翻译和基于文本的神经机器翻译子任务所取代。不同子任务之间的干扰是显著的，第三层和第五层观察到了大的正负梯度相似性。0类似地，我们比较语音编码器中的任务梯度，并且在ASR和ST预训练中没有观察到明显的任务干扰。有关语音编码器的详细分析包含在附录C中。0为了减轻任务干扰，提出了ST预训练的PSE配置。表3展示了两种配置在ASR和ST预训练上的性能比较。在表的左侧，我们列出了使用100小时标注语音数据（train-clean-100）进行预训练和微调的ASR结果。而表的右侧显示了在MUST-C数据集上评估的BLEU。正如我们所预期的，FSE配置鼓励任务之间的信息共享，并且它在ASR任务上实现了更低的WER。这表明ASR预训练中的子任务彼此互补。另一方面，PSE配置0+v:mala2277获取更多论文-0.4-0.200.20.4-0.4-0.200.20.49609602.04.42.14.61009602.34.92.25.11003.26.83.57.2109602.75.32.85.31003.87.84.07.71019.927.522.028.80层0 层1 层2 层3 层4 层50无监督语音到语音和文本对齐0无监督语音到语音和文本对齐0无监督语音到文本对齐有监督语音到语音和文本对齐0（a）ASR预训练的梯度相似性。0层0 层1 层2 层3 层4 层50无监督语音到语音和文本对齐0无监督语音到语音和文本对齐0无监督语音到语音和文本对齐有监督语音到语音和文本对齐0有监督语音到文本对齐0（b）ST预训练的梯度相似性。0图2：共享文本编码器上不同子任务的梯度相似性。0配置 Librispeech（WER↓）MuST-C（BLEU↑）0开发集（干净）开发集（其他） EN-ES EN-FR0FSE 3.2 6.8 31.4 38.3 PSE 3.1 8.3 33.1 39.70表3：ASR和ST的两种预训练配置的比较。0最小化AED子任务和仅编码器子任务之间的信息共享，并导致ST任务的BLEU更高。05.3 训练数据的影响0有监督语音数据连接了文本和语音建模，并统一了来自不同模态的表示。我们想要研究的一个有趣问题是多少有监督数据足以学习良好的跨模态表示。在这个实验中，我们选择了不同数量的标注数据进行ASR预训练和微调，从960小时（完整数据集），100小时（train-clean-100）到10小时（Kahn等，2020年），以回答这个问题。在表4中，第一列显示了预训练阶段可用的有监督语音数据量，第二列显示了微调阶段使用的标注数据量。在预训练中，相同的有监督语音数据用于S2P和S2T子任务。第一个观察结果是在预训练阶段使用更多的有监督语音数据总是有助于获得更小的WER。例如，如果模型使用完整的LIBRISPEECH训练数据集进行微调，那么在预训练阶段使用960小时、100小时和10小时标注数据的实验中，平均WER分别为3.3（第一行）、3.6（第二行）和4.0（第四行）。第二个观察结果是0PT（小时）FT（小时）开发集测试集0干净其他干净其他0表4：监督数据量的影响。“PT”和“FT”分别代表预训练和微调。0即使只有少量的标注数据，我们仍然能够获得良好的语音表示。在第四行，模型使用10小时的标注数据进行预训练，然后使用960小时的有监督语音数据进行微调。它可以达到平均4.0的WER，比表1中的AED系统的结果要好。然而，我们也注意到，如果只有少量的标注语音数据可用，性能会迅速下降。当只有10小时的有监督语音数据在预训练和微调中使用时，平均WER增加到24.6（第六行）。我们还感兴趣的另一个问题是预训练模型的泛化能力。LIBRISPEECH有两个数据分区：“clean”和“other”。其中，“clean”分区被认为是“录音质量更高，口音更接近美式英语”，而“other”分区是具有高WER的困难说话者（Panayotov等，2015年）。我们为预训练和微调创建了四个数据分区，以模拟不匹配的训练条件。将“train-clean-100”用作预训练的“clean”数据集（“PTC”），将“train-clean-360”的前30,000个语音作为微调的“clean”数据集（“FTC”）。前30,000个语音0+v:mala2277获取更多论文0FT C FT O0clean other clean other0PT C 3.0 6.7 3.2 5.90PT O 3.0 5.9 3.2 5.80表5：不匹配的预训练和微调条件下的WER比较。“C”和“O”代表“clean”和“other”标记数据；“PT”和“FT”代表预训练和微调。在不匹配条件下获得的WER以斜体显示。0前30,000个utterances来自“train-clean-100”，接下来的30,000个utterances来自“train-other”，用作预训练（“PTO”）和微调“other”（“FTO”）数据集。每个数据集包含约100小时的语音数据。在表5中，模型在4种不同的组合下进行训练，使用不同的有监督预训练和微调数据集。我们将“dev-clean”和“test-clean”测试集上的平均WER作为“clean”，将“dev-other”和“test-other”上的平均WER作为“other”，以减少结果的变化。从表5中，我们得出以下观察结果。1）模型在匹配条件下取得最佳结果。“PT C + FTC”模型在“clean”集上的WER最低，“PT O +FTO”模型在“other”集上取得最佳结果。2）在完全不同的条件下进行训练和测试会显著增加WER。与“PT O + FT O”模型相比，“PT C + FTC”模型在“other”集上的WER增加了0.9。3）不匹配的预训练和微调可能会稍微增加WER，在本实验中增加了0.1至0.2。05.4 掩码KL散度损失与对比损失0在SSL子任务中，我们优化模型以减少输入不带掩码和带掩码之间的KL散度损失，如3.2节所述。这是掩码预测损失的一种变体（Baevski等人，2020a），我们的实现不需要目标标签。对比损失是自监督语音学习中另一种广泛使用的方法（Baevski等人，2020b）。我们在表6中比较了这两个准则。对比损失中的干扰项数量为100（Baevski等人，2020b）。表6报告了ASR和ST的结果，其中掩码KL散度损失在Librispeechdev数据集中的WER降低了约0.6，在MuST-Ctst-COMMON数据集中的BLEU得分提高了约0.7至1.4。0损失 Librispeech（WER ↓）MuST-C（BLEU ↑）0dev clean dev other EN-ES EN-FR0Cont. 2.6 5.0 31.7 39.0 KL 2.0 4.4 33.1 39.70表6：SSL子任务中掩码KL散度损失和对比损失的比较。“Cont.”代表对比损失。0这证明了所提出的掩码KL散度损失对SSL子任务的有效性。05.5 消融研究0在表7中，我们通过删除预训练阶段中的不同步骤/任务进行了消融研究。为了使预训练更加稳定，模型训练采用了三阶段的优化策略：1）预训练T2T子任务，以获得良好的音素嵌入初始化；2）与四个子任务一起进行联合预训练，利用大量未标记的语音数据和丰富的文本数据；3）在下游任务上进行微调，以获得最佳性能。在第二行中，我们跳过T2T预训练步骤，随机初始化模型进行联合预训练。平均而言，在两个Librispeechdev数据集上观察到0.5的WER增加。在EN-ES翻译方向上，没有适当的初始化导致1.2的BLEU得分下降。在第三行中，我们展示了没有S2T子任务的结果。对于ASR和ST，都观察到了显著的性能下降，两个ASR测试的平均WER增加了1.1，两个ST方向的平均BLEU降低了1.8。我们还尝试删除S2P子任务，同时保留S2T子任务。训练无法收敛。SSL子任务的成本非常小或为零，因为所有预测都会崩溃为一个或两个目标音素。即使与SSL和T2T子任务一起训练，S2T子任务的进展也很小。在最后一行，模型在没有预训练的情况下进行训练，即仅优化T2T和S2T子任务。与STPT结果相比，两个Librispeech测试集的WER增加了约1.4，两个ST方向的BLEU平均降低了3.4。06.结论0在这项工作中，我们提出了一种方法，可以在AED框架下联合预训练语音和文本，用于语音翻译和识别。0+v:mala2277获取更多论文+v:mala2277获取更多论文0配置。Librispeech（WER↓）MuST-C（BLEU↑）0dev clean dev other EN-ES EN-FR0STPT 2.0 4.4 33.1 39.7 - T2T PT 2.4 5.0 31.9 39.2 -AED任务 2.9 5.6 31.3 38.0 - 联合PT 2.8 6.4 30.6 35.40表7：STPT的消融研究。“PT”代表“预训练”。0它包括来自两种不同输入模态的四个自监督和监督子任务，因此所提出的方法可以利用大量的无标签语音数据和丰富的文本数据进行预训练阶段。我们对不同子任务之间的干扰进行了详细分析，并提出了ASR和ST预训练的两种模型配置，以减轻子任务之间的干扰。我们的实验结果表明，STPT可以有效地将文本和语音训练数据中的信息融合到一个模型中。在MUST-CEN-FR和EN-ES语音翻译任务上，我们在现有技术水平上实现了1.7到2.3的BLEU改进，并在LIBRISPEECH ASR任务中获得与wav2vec2.0相当的WER。07.致谢0我们要感谢匿名审稿人对他们的深入评论和建议。08.更广泛的影响0我们强调这项工作在社会上具有积极影响的潜力：通过文本语料库增强语音处理任务，并改进与语音相关的应用。同时，如果不正确处理文本数据，这项工作可能会产生一些负面影响。在使用文本数据训练语音系统之前，应评估所收集数据的公平性，并确保不在冒犯或任何不适当的数据上进行训练。0参考文献0Antonios Anastasopoulos和David Chiang. 2018年。0神经语音翻译的绑定多任务学习。在NAACL-HLT中。0Junyi Ao，Rui Wang，Long Zhou，Shujie Liu，ShuoRen，Yu Wu，Tom Ko，Qing Li，Yu Zhang，ZhihuaWei，Yao Qian，Jinyu Li和Furu Wei. 2021.Speecht5：面向口语语言处理的统一模态编码器-解码器预训练。ArXiv，abs/2110.07205。0Jimmy Ba，Jamie Ryan Kiros和Geoffrey E. Hinton.2016. 层归一化。ArXiv，abs/1607.06450。0Alexei Baevski，Steffen Schneider和Michael Auli.2020a.vq-wav2vec：离散语音表示的自我监督学习。在ICLR中。0Alexei Baevski，Henry Zhou，AbdelrahmanMohamed和Michael Auli. 2020b. wav2vec2.0：自我监督学习语音表示的框架。在NeurIPS中。0Ankur Bapna，Yu an Chung，Nan Wu，AnmolGulati，Ye Jia，Jonathan H. Clark，MelvinJohnson，Jason Riesa，Alexis Conneau和Yu Zhang.2021.Slam：通过语音-文本联合预训练的统一编码器进行语音和语言建模。ArXiv，abs/2110.10329。0Zhehuai Chen，Yu Zhang，Andrew Rosenberg，BhuvanaRamabhadran，Gary Wang和Pedro J. Moreno. 2021.在自我监督语音预训练中注入文本。在ASRU中，页码251-258。0Yung-Sung Chuang，Chi-Liang Liu，Hung yiLee和Lin-Shan Lee. 2020.Speechbert：一种用于端到端口语问答的音频和文本联合学习语言模型。在INTERSPEECH中。0Yu-An Chung和James Glass. 2020.使用多目标自回归预测编码改进语音表示。在ACL中。0Yu-An Chung，Wei-Hung Weng，SchrasingTong和James R. Glass. 2018.无监督的语音和文本嵌入空间的跨模态对齐。在NeurIPS中。0Yu-An Chung, Yu Zhang, Wei Han, Chung-ChengChiu, James Qin, Ruoming Pang, and Yonghui Wu.2021a. W2v-bert:结合对比学习和掩码语言建模的自监督语音预训练.在ASRU中.0Yu-An Chung, Chenguang Zhu, and Michael Zeng.2021b. Splat: 用于口语语言理解的语音-语言联合预训练.在NAACL中.0Jacob Devlin, Ming-Wei Chang, Kenton Lee, andKristina Toutanova. 2019. Bert:深度双向Transformer的预训练用于语言理解.在NAACL-HLT中.0Mattia Antonino Di Gangi, Roldano Cattoni, LuisaBentivogli, Matteo Negri, and Marco Turchi. 2019.MuST-C: 一个多语言语音翻译语料库. 在NAACL-HLT中.0Wei-Ning Hsu, Yao-Hung Hubert Tsai, Benjamin Bolte,Ruslan Salakhutdinov, and Abdelrahman Mohamed1.2021. Hubert: 一个糟糕的教师能为ASR预训练带来多少好处.在ICASSP中.0H. Inaguma, S. Kiyono, K. Duh, S. Karita, N. Soplin,T. Hayashi, and S. Watanabe. 2020. Espnet-st:一体化语音翻译工具包. 在ACL中.0Ye Jia, Melvin Johnson, Wolfgang Macherey, Ron J.Weiss, Yuan Cao, Chung-Cheng Ch

下载后可阅读完整内容，剩余1页未读，立即下载