STEMM:语音-文本混合自学习语音翻译的方法与应用

32 浏览量更新于2023-11-30 收藏 1012KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文STEMM：基于语音-文本混合的自学习语音翻译方庆凯1，2 *，叶荣3，李磊4**，杨峰1，2*，王明轩3*1智能信息处理中国科学院计算技术研究所（ICT/CAS）2中国科学院大学，中国3字节跳动AI实验室4加州大学圣巴巴拉分校{fangqingkai21b,fengyang}@ict.ac.cn{yerong，wangmingxuan.89}@bytedance.com，leili@cs.ucsb.edu摘要如何在有限的标记数据下学习更好的语音表示，以进行端到端的语音到文本翻译（ST）现有技术往往试图将强大的机器翻译（MT）能力转移到ST，但忽略了跨模态的表示差异。在本文中，我们提出了Speech-TExtM anifoldM ixup（STEMM）方法来校准这种差异。具体来说，我们将不同模态的表示序列混合起来，并将单模态语音序列和多模态混合序列并行地作为翻译模型的输入，并使用自学习框架正则化它们的输出预测。在MuST-C语音翻译基准上的实验和进一步的分析表明，该方法有效地消除了跨模态表示的差异，在8个翻译方向上取得了较强基线的显著改善。1介绍语音到文本翻译（Speech-to-Text Translation，ST）的目的是将声学语音信号翻译成外语文本，在语音助手、跨国视频会议翻译等方面有着广泛的应用。，2017; Cheng et al. ，2018;Sper-ber et al. ， 2019; Dong et al. ， 2019b;Zhang et al. ，2019a; Lam et al. ，2021 b），这可能遭受错误传播和高等待时间。为了打破这一瓶颈，端到端的ST系统吸引了许多* 表示相应的作者。[2]这些工作是在字节跳动人工智能实验室完成的ICT/CAS和字节跳动人工智能实验室联合项目的一部分。当QF是联合项目的成员时，工作已经完成。代码和模型可在github.com/ictnlp/STEMM上公开获取。图1：STEMM旨在弥合语音和文本的模态差距。具有相同意义的不同模态被投射到一个共享空间。最近注意到（Wang et al. ，2020b，c; Dong etal. ，2021a，b; Han et al. ，2021; Inaguma etal. ，2021a; Tang et al. ，2021 a），其学习统一模型以直接从语音生成翻译。最近的一些工作已经显示出端到端语音翻译的巨大潜力，甚至超过了传统的级联系统（Ye et al. ，2021;Xu et al. ，2021年）。作为一个跨模态任务，训练端到端ST模型的一个主要挑战是跨模态的表示差异，这意味着语音表示和文本嵌入之间存在模态差距，如图1的左子图所示。现有的方法通常采用复杂的MT模型来帮助ST的训练，其中一些技术如预训练（Wang et al. ，2020c; Ye et al. ，2021;Xu et al. ，2021）、多任务学习（Ye et al. ，2021; Han et al. ，2021; Tang et al. ，2021a）和知识蒸馏（刘等。，2019; Gaido et al. ，2020; Inaguma et al. ， 2021b; Tang et al. ，2021a）。虽然这些方法在ST任务中取得了令人印象深刻的改进考虑到在训练期间，翻译模块的输入仅包括语音序列或文本序列，多模态上下文的缺乏使得ST模型难以从MT模型学习。受最近一些交叉研究的启发-7050计算语言学协会第60届年会论文集，第7050 - 70622022年5月22日至27日2022年计算语言学协会自行车S“自行车”的“路”“那个”路对骑“开”“骑”他“speech”文本自行车S路的骑他对“路”“那个”“骑”“自行车”“开”“他”“演讲”文本+v：mala2277获取更多论文7051D{}语言（Lample和Conneau，2019; Liu et al. ，2020a; Lin et al. ，2020）和交叉模态（Li etal. ，2021b; Zhou et al. ，2020; Dong等人，2019 a）任务，我们建议在语音和文本之间建立一个共享的语义空间，如图1的右子图所示，有可能从MT模型中获益最多。在本文中，我们提出了 Speech-TExtManifoldM ixup（STEMM）方法来弥合文本和语音之间的模态差距。为了校正跨模态表示的差异，我们将语音和文本表示混合作为输入，并保持目标序列不变。具体地说，STEMM是一个自学习框架，它将语音表示和混合表示作为翻译模型的并行实验结果表明我们的方法实现了有前途的性能，基准数据集MuST-C（Di Gangi et al. 、2019a），甚至超过了强大的级联基线。此外，我们发现我们的STEMM大街上的一点中文（简分布（语音）分布（混合）可以有效地缓解跨模态表示的差异，并将两种模态投射到一个共享空间中。2方法在本节中，我们将从基本问题公式化（第2.1节）开始，并介绍模型架构（第2.2节）。然后，我们在第 2.3 节中介绍了我们提出的Speech-TExtM anifoldM ixup（STEMM）。最后，我们在第2.4节中介绍了我们提出的使用STEMM的自学习框架，并在第2.5节中提出了两个混淆比率策略。图2说明了我们提出的方法的概述2.1问题公式化语音翻译语料库通常包含语音-转录-翻译三元组，可以表示为=（s，x，y）。这里s是音频波的序列，x是源语言的转录，y是目标语言的翻译。端到端语音翻译旨在直接从音频波s生成翻译y，而不生成中间转录x。2.2模型架构受最近的作品启发（Dong et al. ，2021b; Xu etal. ，2021）在端到端语音翻译中，图2：我们提出的自学框架概述与STEM合作我们先把顺序打乱语音表示和单词嵌入的能力。然后，单峰语音序列和多模态混合序列都被馈送到共享翻译模块中以预测翻译，并且我们用额外的JS Divergence损失正则化两个输出预测。我们将ST模型分解为三个模块：声学编码器、翻译编码器和翻译解码器。声学编码器首先将原始音频波编码成隐藏状态，馈送到翻译编码器以学习进一步的语义信息。最后，翻译解码器基于翻译编码器的输出生成翻译。声学编码器作为最近作品（Yeetal. ，2021; Han et al. ，2021）显示Wav2vec2.0（Baevski et al. ，2020）可以提高语音翻译的性能，我们首先使用预训练的Wav2vec2.0从音频波s中提取语音表示c。我们添加了两个额外的卷积层，以进一步将语音表示的长度缩小4倍，表示为a=CNN（c）。翻译编码器我们的翻译编码器由NeTransformer（Vaswani et al. ，2017）编码器层，其包括自注意层，前馈层，归一化层，声学编码器JS��∗翻译解码器翻译编码器mixup（（，），）��位置编码Mixup1 −��∗CNN嵌入Wav2vec2.0在路上“rode on the+v：mala2277获取更多论文7052| | ||| | ≤|| ≤ ||·和残余联系对于MT任务，翻译编码器的输入是转录e=Emb（x）的嵌入.对于ST任务，它是声学编码器a的输出序列。输入也可以是具有我们提出的STEMM的多模态混合序列（参见第2.3节中的细节）。通常，对于输入序列χ，我们在N e Transformer之后获得上下文表示h（χ）（Vaswani et al. ，2017）层，对于字wi为[xmi：xni]，其嵌入矩阵为[emi：eni]，其中mi和ni是子字序列中的开始位置和结束位置为了混合这两个序列，对于每个单词单元wi，我们选择语音表示的片段[ali：ari]或子单词嵌入[emi：eni]，具有一定的概率p，在本文中称为混合比被馈送到翻译解码器以预测翻译。mi= .[ali：ari]p≤p、（二）翻译解码器我们的翻译解码器是由NtTransformer解码器层，其中包含一个额外的交叉注意层与Transformer编码器层。对于输入序列χ，交叉熵损失被定义为：[emi：eni]p >p其中p是从均匀分布U（0，1）。最后，我们将所有mi连接在一起，并获得mixup序列：|y|Concat（m，m，.，M）的。（三）L（χ，y）= −log p（y |y，h（χ））。（一）m=1 2TCEi=1θii请注意，就混合表示而言，我们遵循pretrain-finetune范式来训练我们的模型。首先，我们用并行转录-翻译对预训练翻译编码器和翻译解码器，这些翻译对来自语音翻译语料库和外部MT数据集。此外，声学编码器以自我监督的方式在大量未标记的音频数据上进行预训练。我们结合这些预训练模块并微调ST的整个模型。2.3语音-文本歧管混淆（STEMM）正如我们在第1节中提到的，为了减轻由于缺乏多模态上下文而导致的表示差异，我们提出了Speech-TExtM anifoldM ixup（STEMM）方法来混合语音表示和词嵌入的序列。我们首先在本节中介绍STEMM，然后展示如何使用它来帮助ST的训练。注意子字嵌入的序列为e=[e1，e2，...，e|e|]和语音表示的序列为a=[a1，a2，...，一|一|]，其中序列长度通常跟随e。我们首先执行单词级强制对齐，语音和文本转换以确定特定单词何时出现在语音段中通常，对准器识别字单元序列w =[w1，w2，.， wT]，并且对于每个单词wi，它返回语音表示a的序列中的开始位置li和结束位置ri。同时，我们将对应的子词跨度序列长度，我们有e m a。考虑到混淆后标记的位置发生了我们进一步执行层规范化以规范化嵌入：Mixup（（s，x），p<0）= LayerNorm（m+ Pos（m）），（四）其中 Pos（）是正弦位置嵌入（ Vaswani etal. ，2017年）。Mixup（（s，x），p<0）指示语音s和文本x的具有概率p<0的混合序列，该混合序列被馈送到翻译编码器中以用于预测翻译。2.4用STEMM在我们提出的STEMM的帮助下，我们现在能够访问多模态混合序列，除了单峰语音序列。我们将它们整合到一个自学框架中。具体地说，我们输入的单峰语音序列和多模态混合序列的翻译模块（翻译编码器和翻译解码器）。通过这种方式，单模态语音序列的翻译专注于ST任务本身，而多模态混合序列的翻译致力于捕捉不同模态中的表示之间的连接此外，我们试图通过最小化两个输出分布之间的Jensen-Shannon散度（JSD）来正则化上述两个输出预测，+v：mala2277获取更多论文7053Σ|·|Σ·这是LJSD（s，x，y，p）=|y|i=1JSD {pθ（yi|y

下载后可阅读完整内容，剩余1页未读，立即下载