基于注意力的改进语音增强联合训练-端到端语音识别

168 浏览量更新于2024-01-18 收藏 922KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报基于注意力潜在特征的改进语音增强联合训练端到端语音识别Da-Hee Yang，Joon-HyukChang汉阳大学电子工程系，首尔04763，韩国阿提奇莱因福奥文章历史记录：2022年12月27日收到2023年2月2日修订2023年2月6日接受2023年2月15日在线提供保留字：时域语音增强端到端自动语音识别基于注意力的潜在特征联合培训框架A B S T R A C T在本文中，我们提出了一个联合训练框架，有效地结合了时域语音增强（SE）与端到端（E2E）自动语音识别（ASR）系统利用基于注意力的潜在特征。使用潜在特征来训练E2E ASR意味着各种时域SE模型可以应用于噪声鲁棒ASR，并且我们的修改框架是第一种方法。我们实现了一个完整的E2E计划流水线从SE到ASR没有领域知识和短时傅立叶变换（STFT）的一致性约束，通过应用时域SE模型。因此，使用时域SE的潜在特征作为ASR输入的适当特征是我们框架中的主要方法。此外，我们将注意力算法应用于时域SE模型，以选择性地集中在某些潜在特征上，从而为任务实现更好的相关特征。详细的实验进行了混合CTC/注意力架构的E2 E ASR，我们证明了我们的方法相比，基线ASR系统训练与梅尔滤波器组系数特征作为输入的优越性。与仅在干净数据上训练的基线ASR模型相比，所提出的联合训练方法在TIMIT和WSJ“匹配”测试集上分别实现了63.6%和86.8%的相对误差减少版权所有©2023作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍端到端（E2 E）自动语音识别（ASR）系统已经取得了重大进展（ Graves 和 Jaitly ， 2014;Chorowski 等人， 2015; Chiu 等人，2018），具有基于输入语音直接预测目标序列的优点。尽管如此，E2EASR性能仍然在真实世界环境中的环境背景噪声的影响下下降，这是ASR系统中需要解决的基本且具有挑战性的问题。在E2E ASR系统中，有两种主流方法来实现对噪声的鲁棒性。第一种是多条件训练（MCT），它使用干净和有噪声的数据来训练ASR模型，MCT方法可以改善ASR对噪声的性能，但它仍然存在局限性，*通讯作者。电子邮件地址：douxi15@hanyang.ac.kr （D.-H. Yang），jchang@hanyang.ac.kr（J.-H. Chang）。沙特国王大学负责同行审查性能改进取决于训练的噪声环境并且受环境失真的影响（Seltzer等人，2013年）的报告。第二种方法是采用用于ASR模型的语音增强（SE）模块（Weninger等人，2015; Wang等人，2020; Gao等人，2015;Wang和Wang，2016）。根据SE模型的应用，两种方法：ASR的前端（Weninger等人，2015年;王例如，2020年）和与ASR的联合培训（Gao等人，2015; Wang和Wang，2016）。在前端方法中，SE模块增强噪声语音并将增强语音用于ASR系统。这种方法也可以在一定程度上提高ASR性能，但它不能完全优化更高的ASR性能目的（Seltzer，2008），因为SE和ASR网络是分开训练的，导致次优问题。然而，联合训练方法可以同时优化整体网络（Mimura等人，2016年; Xu等人，2019）以获得最佳性能并减轻语音失真（Narayanan和Wang，2014;Menne等人， 2019年）。在以前的研究中，与联合训练集成的SE和E2 E ASR网络已被广泛应用于鲁棒ASR（Wang和Wang，2016; Liu等人，2019; Fan等人，2020年; Li等人，2021;Pandey等人，2021; Kinoshita等人，2020年）。Liu等人（2019）联合训练了一个基于面具的SE网络，基于注意力https://doi.org/10.1016/j.jksuci.2023.02.0071319-1578/©2023作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comD.- H.杨和J. -H.常沙特国王大学学报203（XXFHð × Þt1/2编码器-解码器网络和用于噪声鲁棒语音识别的判别网络。此外，Fan等人（2020）将门控递归融合（GRF）算法应用于联合网络，表明SE和E2E ASR的联合训练优于MCT方法。此外，Li et al. （2021）联合训练了基于GAN的SE网络和E2E ASR系统，得出的结论是它比MCT方法对噪声更鲁棒。然而，先前的研究（Wang和Wang，2016; Liu等人，2019; Fan等人，2020年;Li等人，2021）的局限性在于SE模型的域被限制在时间-频率（TF）域。与之前的研究相比，Kinoshita等人（2020）提出使用时域SE模型进行鲁棒语音识别，认为时域SE比TF域SE具有更多优势，并通过向时域SE模型添加噪声损失来改善ASR性能。然而，（Kinoshita等人，2020）使用SE模型作为ASR的前端。如（Wang和Wang，2016; Liu等人，2019; Fan等人，2020年; Li等人，2021），采用SE模型作为前端可能会限制获得ASR系统的卓越性能。在本文中，我们提出了一个联合训练框架，有效地集成了时域SE与E2E ASR的潜在特征。最近，时域SE模型由于其优异的性能而受到相当大的关注。与TF域SE模型（Soni等人，2018; Kim等人，2020; Choi等人，2018年;胡用粗体字表示，向量用粗体字表示，矩阵用粗体字表示。2. 相关工作2.1. 原始Conv-TasNet时域SE模型已经引起了相当大的关注，因为它们不会引起相位估计问题（Luo和Mesgarani，2019年; Luo等人，2020; Rethage等人，2018; Pandey和Wang，2019; Wang等人，2021; Pascual等人，2017年）。其中，卷积时域音频分离网络（Conv-TasNet）是Luo和Mesgarani（2019）在源分离领域引入的一种流行模型，具体由编码器、掩码估计（分离）和解码器模块组成编码器模块使用一维（1-D）卷积运算将输入波形投影到潜在表示中。分离模块然后通过采用从包括具有扩张因子的若干1-D卷积块的时域卷积网络（TCN）获得的输入潜在表示来估计掩码以抑制每个时频仓信号处的特定干扰掩码估计如下：例如，2020; Yin等人，2020），通过短时傅里叶变换（STFT）将输入波形转换为频谱特征，时域SE模型（Luo和Mesgarani，2019; Luo等人，RBM¼Hr<$1b<$1FrbErb）;12020; Rethage 等人，2018; Pandey 和 Wang ， 2019; Wang 等人，2021）主要在原始波形上操作。因此，时域SE模型联合增强幅度和相位信息，而无需额外的相位估计算法。此外，由于时域SE是完全不受STFT一致性约束的完全E2E学习方案（Wisdom等人，2019; Nakaoka等人，2021）和领域知识（Graves等人，2013年; Han等人，2015年），它可以为ASR任务提取更合适的特征（Pande yand Wang，2021年;Kadıo glu等人， 2020年）。然而，时域SE模型很少用于鲁棒E2E ASR的联合训练框架中。与TF域SE模型不同，ASR训练，时域SE模型必须从增强波形中提取用于ASR训练的频谱特征。该过程没有充分考虑时域SE模型的优点，并且不能实现完整的E2E学习方案。为了克服这一限制并实现完全的E2E学习方案，我们利用时域SE模型的潜在特征，而不需要从SE解码器模块重构波形。此外，我们将注意力算法应用于Conv-TasNet（Luo和Mesgarani，2019）模型，以选择性地集中于某些潜在特征，从而在噪声环境中获得更好的相关特征。我们的贡献可概括如下：(1) 这是第一次，我们的框架提供了一种有效的方法，用于在执行时域SE和ASR网络的联合训练时使用潜在特征。(2) 为了获得更好的性能，我们将注意力算法应用于时域SE模型，以根据其相对重要性提取更多相关的潜在特征。本文的其余部分组织如下。在第二节中，回顾了原始SE结构和E2EASR网络，并给出了TF域SE和E2E ASR联合训练的一般方法。介绍了在第三节中，基于注意力的自我效能结构和我们的其中Erb是包括TCN的若干1-D卷积块中的第r个 B和R分别表示连续卷积块和重复的数量。另外且是构成估计模块的卷积和非线性函数。因此，掩码乘以输入潜在表示以生成掩码潜在表示。解码器模块使用转置的1-D卷积操作将掩蔽的潜在表示重建为波形。用于源分离的相应结构可以通过估计噪声掩模来应用于去噪任务（Koyama等人， 2020年）。2.2. E2E ASRE2 E ASR模型直接从输入语音中预测单词或序列，并被分类为三种主要架构：连接主义时间分类（CTC）（Graves和Jaitly，2014）、基于注意力的编码器-解码器（AED）（Chan等人， 2016）和递归神经网络换能器（Graves等人，2012年）。在这项研究中，我们采用广泛用于E2 E ASR的CTC/注意力架构（Watanabe et al.，2017），它利用CTC和AED架构。CTC/attention架构通过共享编码器模块来设计，总ASR模型损失LASR定义如下：LASR¼kLCTC1-kLatt;200 L其中k是调整损失项的权重。此外，LCTC和Latt分别表示CTC模型的CTC损失和AED模型的KL发散损失2.2.1. 联结主义时间分类CTC架构（Graves和Jaitly，2014）对输入序列X^f xtgT的每个帧的单个输出进行建模，其中输入帧长度为T，而输入帧之间没有强制对齐。X和目标Y ¼ f y ugU1 与U 长度输出标签，其中介绍了潜域联合训练框架。在y u2 f 1;. ;联系我们Kg表示预测标签，K表示第4节，探索了各种实验装置和结果。最后，在第五部分，对本文进行了总结。在本文中，标量不同标签的数量。CTC为每个帧获得一组可能的输出组合BY;X，并消除冗余D.- H.杨和J. -H.常沙特国王大学学报204BBt1/2fgl¼1XF×（XXð × Þjbj其中Erb是卷积器中的第2r×b个1-D卷积块的输入序列来预测最终的输出序列。输入特征X的所有可能输出序列的对数似然函数如下：不2020年; Li等人，2021; Pandey等人，2021），其主要接收基于频谱图的特征作为输入。联合训练的常规基线框架如图所示。 1（a）：首先，将STFT应用于噪声信号y_t_t_x_t_t_n_t_t_t，以产生PYjXXYPy^tjX;3得出Yt; f;Xt; f和Nt; f。噪声输入Y被馈送到估计中，y^2BY;Xt¼1其中，y1表示预测的标记序列。因此，CTC损失表示如下：LCTC1/4-InP双金属氧化物，X射线衍射：104nm2.2.2. 基于注意力的编解码器AED架构（Chan等人，2016年），我们使用由编码器，解码器和注意模块。编码器模块将输入特征X ^f x tgT编码为H ^h lL ，其中L是编码器输出中的帧数。注意力模块计算编码器的输出H与解码器信息SU-1，提供关于输出序列应该集中在输入序列的何处的信息以下表示在第u个时间步长处的注意力机制的计算：fu<$Fωau-1;5eu;l¼scor esu-1;hlwTtan h.Wsu-1VhlUfu;lb;6au;l¼softmax.eu;l;7Lc u¼a u;l h l;8l¼1其中fu是通过与可训练卷积滤波器F卷积获得的先前注意力权重au-1的卷积特征向量。采用基于位置的注意力机制来根据在u的先前输出步骤处的解码器隐藏状态u-1和编码器隐藏状态h_l来计算注意力分数eu_l。 w;W;V;F;U和b是可训练参数。这里，au;l由注意力分数eu;l的softmax计算，并且注意力上下文向量cu通过基于长度L上的注意力权重au对所有输入h; l进行积分来计算。解码器使用yu-1、cu和su-1 生成第u个输出序列y ^ u。每个符号表示以前的输出序列，注意力上下文向量，和解码器隐藏状态。信息模块，以相对于N估计目标清洁X，指示背景噪声。估计模块产生噪声掩模MTF，其从噪声频谱图中消除噪声并导致增强的频谱。jX j¼ jY jMTF;12其中X是从TF域SE网络获得的增强的频谱图。相应地，Mel滤波器组系数（Fbank）是应用于幅度谱图X以提取E2E ASR的输入特征。由于SE网络的输出域与ASR网络的输入域相同，因此两个网络在没有额外模块的情况下联合训练，如图所示。 1（a）.3. 提出方法在本文中，我们提出了一种联合训练框架，该框架利用潜在表示将时域SE与E2E ASR系统有效集成，如图1（b）所示。使用时域SE的潜在表示允许我们直接在E2E ASR的潜在域中完成联合训练，而无需重建波形。然而，不可能直接使用潜在表示作为ASR输入来训练ASR系统。具有绝对函数的卷积网络允许将潜在表示转换为用于ASR训练的潜在特征，而不是Fbank组件。换句话说，整个机制与SE编码器，掩码估计模块（没有解码器），卷积网络和E2E ASR网络联合训练。此时，我们将原始Conv-TasNet修改为基于注意力的Conv-TasNet，以进一步提高性能。3.1. 基于注意力的Conv-TasNet由于原始Conv-TasNet模型平均地添加了所有1-D卷积块的信息，因此它具有无法使用对于去噪相对重要的1-D卷积块的限制为了解决这一限制，我们将可学习的参数应用于每个1-D卷积块，以在估计掩码时根据其相对重要性关于我们u-1 ;cu;9我们提出的基于注意力的Conv-TasNet如图2所示，其中不同的权重被应用于跳过连接路径su<$RNNsu-1;yu;c u;10Y第1页一维卷积块用于估计模块的修改的等式描述如下：Lrb<$ FrbErb; 13其中，FFNN表示前馈神经网络生成具有解码器隐藏状态和注意力上下文向量的输出序列yu随后，使用RNN来产生解码器隐藏状态su。最后，给出概率分布，在每个输出步骤处计算，以先前的TCN包括估计模块。连续的一维卷积具有增加的膨胀因子的B次的逻辑块被重复R次。此外，rb是第r b个一维卷积函数，它有两个输出：残差和跳过连接路径。产出2.3.常规联合训练法RBMT¼Hr<$1b<$1wrb·Lrb）;2014TF域SE和E2E ASR网络的联合训练已经以各种方式用于噪声鲁棒ASR。先前的研究（Wang和Wang，2016; Liu等人，2019; Fan等人，2020年;Li等人，2021）集成了TF域SE模型，用于与当代E2EASR模型进行联合训练（Liu等人，2019; Fan等人，残差输出被馈送到下一个F函数中，并且跳过连接输出L rb乘以w rb以估计掩码M T，其中w rb是分配给每个第r b个输出的注意权重，并且顺序地位于注意块中，如图2所示。二、由于wrb是一个可学习的参数，因此它由SE网络期间1-D卷积块的相对重要性决定UPYjXPy^ujX;y1：u-1;11D.- H.杨和J. -H.常沙特国王大学学报205Fig. 1. SE和E2E ASR的联合培训框架。(a)传统的联合训练方法与集成TF域SE和E2E ASR与Fbank。(b)提出了结合时域SE和E2E ASR与卷积网络的联合训练方法。图二、使用基于注意力的Conv-TasNet和E2 E ASR网络的整体联合训练框架使用潜在特征。训练通过将大参数分配给相对重要的块，它可以实现去噪的最佳性能。换句话说，基于注意力的Conv-TasNet估计注意力根据1D卷积块的相对重要性进行掩码，以获得更稳健的结果。Hf：g是估计模块中PReLU、1×1卷积和sigmoid函数D.- H.杨和J. -H.常沙特国王大学学报206¼2¼3.2. 卷积网络在本文中，我们介绍了一种卷积网络，它对SE潜在特征的帧数进行子采样。卷积网络允许在ASR上训练时域SE的潜在表示，而不被重构为波形。卷积网络由一个绝对值函数和四个一维卷积层组成，如图2所示。应用绝对值函数，ASR模型仅使用幅度谱作为输入。绝对函数是联合训练框架中的一个关键点，它允许使用潜在特征进行训练。卷积块由一维卷积、最大池化和非线性激活函数校正线性单元（ReLU）组成。3.3. 基于潜空间的联合训练方法为了实现我们提出的方法，我们生成噪声信号ztstnt，其中st和nt分别表示干净信号和可以将输入信号ztR L划分为长度为L的T个重叠帧，由ztRL表示，其中t 1;. T.噪声信号由SE的编码器模块投影到潜在表示中，如E¼U·Z;15000其中Z2RL×T通过可训练卷积层编码器U2RN×L经由乘法被变换成N维表示E2RN×T。掩码MT2RN×T是估计模块的输出，MT与E元素相乘以去除噪声，如下所示：Z^¼EMT;16其中Z^2RN×T成为增强的潜在空间特征表示，其由具有T帧的N维元素组成，然后Z^被馈送到卷积网络中作为可训练的ASR输入特征。卷积网络使用绝对值函数从输入潜在表示中取正值。从卷积网络中提取潜在特征，并用于训练E2E ASR系统。因此，包括E2 E ASR网络、卷积网络和基于注意力的Conv-TasNet在内的整体框架将被联合训练，以优化整个网络。由于我们去除了SE解码器以有效地将SE集成到潜在域中的ASR中，因此使用ASR损失来训练整个网络（Heymann等人，2017; Ochiai等人，2017; Subramanian等人，2019年;索尼和熊猫，2019年）。4. 实验结果4.1. 数据集我们使用两个语料库数据集进行实验：TIMIT（Garofolo，1993）用于小数据集，华尔街日报（WSJ）（Consortium et al.，1994年，在一个大型数据集。为了评估性能-组被移除：即，数据库中所有说话者的相同句子开发集由400个话语组成，核心测试集由192个话语组成。我们使用电话错误率（PER）作为TIMIT数据中电话识别的评估指标PER是音素错误（插入、删除和更改音素）的数量除以音素总数。值越低表示性能越好WSJ corpus：WSJ数据集是一个英语朗读的语料库它包括用于训练的train-si 284，用于开发的test-dev 93和用于测试集的test-eval 92，分别具有37416，503和333个输出。单词错误率（WER）被用作WSJ数据集的评估指标。它是单词错误总数除以单词总数;值越小表示性能越好。SE 训练噪声数据集：为了预训练时域SE网络，我们通过从TIMIT和WSJ中选择每个话语来将CHiME-4噪声与干净数据集我们将CHiME-4噪声添加到信噪比（SNR）在[0 dB和20 dB]之间随机采样的干净数据中。TIMIT和WSJ总共生成了16，000个噪声话语。ASR训练噪声数据集：我们从训练和开发集中随机混合CHiME-4噪声，以生成用于网络联合训练的噪声数据集，其中SNR在[0 dB和20 dB]之间随机采样。测试噪声数据集：我们生成了“匹配”和“不匹配”的测试数据集.测试数据集的SNR为0、5、10、15和20 dB。“匹配”测试数据集指的NOISEX DB用于4.2. 实验装置4.2.1. Conv-TasNetConv-TasNet和基于注意力的Conv-TasNet的参数在表1中列出如下：N= 512，L= 40，C= 128，Sc =128，H= 512，P= 3，B= 8，和R =3。我们采用全局层归一化，Adam优化算法（Kingma和Ba，2015）和sigmoid函数作为激活函数。数据集的采样率为16 kHz。4.2.2. 卷积网络我们使用四个一维卷积层提取潜在特征，每个卷积层有512，256，128和128个过滤器。对于TIMIT数据，第一层采用滤波器大小9，其余层采用滤波器大小3。在WSJ中，所有层的过滤器大小为3。这些参数被选择为使得潜在特征的帧的数量与原始ASR输入特征的帧的数量相似。我们使用长度为2的最大池来减少潜在特征的长度，并使用ReLU作为激活函数。我们还将绝对值函数应用于输入潜在表示，从而产生正分布。因为我们考虑了表1Conv-TasNet的超参数在嘈杂的环境中，我们通过添加-消除噪声以清理TIMIT和WSJ数据集。对于噪声数据集，我们准备了两种类型的噪声数据，用于在不同的噪声条件下进行评估：CHiME-4和NOISEX DB。在街道、咖啡馆、公共汽车和行人环境中记录CHiME-4噪声数据集。NOISEX DB（Varga和Steeneken，1993）包含了串音、工厂噪声和白噪声。TIMIT语料库：TIMIT数据集由630个说话者中的每个人说出的10个句子组成。训练集包括具有八个句子的3696个话语（训练集符号描述编码器和解码器L过滤器的长度（样品中）C瓶颈中的通道数和剩余路径块Sc1-D转换块的跳跃连接路径中的通道数H卷积块卷积块中的B每次重复R重复次数D.- H.杨和J. -H.常沙特国王大学学报207ASR模型将幅值作为输入并产生正分布。除了绝对值函数之外，我们还应用ReLU和平方函数来获得正分布。然而，这些激活功能并不起作用。我们假设激活函数在ASR模型的训练中没有起到积极的作用，因为它们倾向于过度平滑或扭曲潜在表征。4.2.3. E2E ASR模型我们采用了混合CTC/注意力架构与RNN结构的E2 E ASR系统。我们的方法是使用ESPnet工具包（Watanabe et al.，2018年）。为了与所提出的潜在特征进行比较，使用Fbank特征来训练基线模型。对于TIMIT和WSJ，分别使用23和80梅尔尺度滤波器组系数，窗口长度为25，窗口移位为10 ms，如（Parcolle等人，2020年）。为了训练ASR模型，分别对TIMIT和WSJ数据使用具有512个单元ASR编码器的五层和六层Bi-GRUP。我们训练了20和15个时期的模型，并分别将CTC损失权重应用为0.5和0.24.3. 实验结果4.3.1. Conv-TasNet模型中注意力算法的应用效果我们通过两种方法进行了实验，以表明所提出的基于注意力的Conv-TasNet模型对于ASR系统更有效项目包括：(i) 使用Fbank特征训练ASR系统的实验;以及(ii) 使用潜在特征训练ASR系统的实验。Fbank特征是E2E ASR系统中广泛使用的特征类型，其通过从语音信号中提取预先计算的特征来训练。为了比较Conv-TasNet和基于Fbank特征的Conv-TasNet的ASR性能，对每个SE网络的增强语音信号进行STFT变换，然后应用对数梅尔滤波器组系数。相比之下，从每个时域SE网络中提取潜在特征而不进行波形重构，以有效地训练E2E ASR系统。每个SE网络都使用SE训练数据集进行预训练，然后冻结以提取用于训练ASR系统的潜在特征。实验结果表明，将注意力算法应用于Conv-TasNet是有效的，仅需要很小的参数增加用于ASR训练。结果列于表2和表3中3 .第三章。每个表分别表示TIMIT和WSJ数据集的PER和WER结果。首先，如表2和表3所示，基于注意力的Conv-TasNet提高了Fbank和潜在特征的语音识别性能因此，在以下结果中，基于注意力的Conv-TasNet可以获得比Conv-TasNet更鲁棒的结果，而不管特征类型如何。表2和表3中的一个有趣事实是，潜在功能的性能改进差距超过了Fbank功能的性能改进差距这意味着，atten-特征提取算法对潜在特征的提取效果优于对Fbank特征的提取效果。由于我们对Conv-TasNet的每个1- D卷积块应用了一个可学习的参数换句话说，与Conv-TasNet相比，基于注意力的Conv-TasNet增加了24个参数，因为我们的实验中使用了24个块。此外，我们证明了潜在的功能是更强大的噪声比Fbank功能。在表2和表3中，具有潜在结果的基于注意力的Conv-TasNet优于具有Fbank结果的Conv-TasNet。在Conv-TasNet模型中也得到了同样的结果。出于这个原因，我们假设潜在特征比使用语音信号上的滤波器提取的Fbank特征具有更多的信息和更少的失真从这些结果中，我们证明了从基于注意力的Conv-TasNet生成的潜在特征对于时域SE和E2 E ASR的集成是有效的4.3.2. 有针对性的隐性联合训练效果我们的实验表明，通过将注意力应用于Conv-TasNet来提取潜在基于上述结果，我们进行了一项实验，在潜在域中联合训练SE和E2E ASR网络，以实现噪声鲁棒语音识别。表4-7中的注释(i) E2 E_ASR-Clean：仅使用干净数据训练ASR系统。该基线模型根据SE网络显示了三个测试结果（无，Conv-TasNet和基于注意力的Conv-TasNet）。(ii) E2 E_ASR-MCT：使用多条件数据训练ASR系统。该基线模型根据SE网络显示了三个测试(iii) E2 E_ASR-SE：使用潜在特征训练ASR系统根据SE网络和联合训练，所提出的模型显示了三个测试结果（没有联合训练的Conv-TasNet，没有联合训练的基于注意力的除了每个预训练的SE网络之外，还使用所有SE网络表4和表5给出了TIMIT数据的实验结果，表6和表7列出了WSJ数据。对于测试数据集，具有E2 E_ASR-Clean和E2 E_ASR-MCT的基线型号列于表4中。MCT是噪声鲁棒ASR系统的主流方法之一，而通过SE网络进行预处理E2 E_ASR-Clean在“匹配”和“不匹配”噪声环境中的性能分别为60.5%和64.4%。这些结果表明，ASR系统对噪声高度敏感。相比之下，E2 E_ASR-MCT使患者的平均寿命提高了30.1%和36.8%。此外，我们还应用了增强网络，包括Conv-TasNet和基于注意力的Conv-TasNet，作为ASR的前端，以略有改善表2通过Fbank特征和具有语音增强的潜在特征（包括Conv-TasNet和基于注意力的Conv-TasNet）训练的E2 E ASR系统在TIMIT测试集上的PER结果（%）模型恐惧PER（%）0db的5 dB10 dB15 dB20 dB平均Conv-TasNetFbank31.326.223.922.822.625.36基于注意力的Conv-TasNet31.126.023.422.822.525.16Conv-TasNet潜31.225.522.620.820.324.08基于注意力的Conv-TasNet30.024.821.720.320.223.4D.- H.杨和J. -H.常沙特国王大学学报208表3在WSJ测试集上，通过Fbank特征和具有语音增强的潜在特征（包括Conv-TasNet和基于注意力的Conv-TasNet）训练的E2 E ASR系统的WER结果（%）模型恐惧WER（%）0db的5 dB10 dB15 dB20 dB平均Conv-TasNetFbank16.110.08.58.07.710.06基于注意力的Conv-TasNet16.010.48.17.67.59.92Conv-TasNet潜14.79.77.16.66.68.94基于注意力的Conv-TasNet14.28.97.36.56.38.66表4在TIMIT开发（dev.）上，通过干净的多条件数据训练的E2E ASR系统的PER结果（%），有和没有语音增强。测试集。Fbank特征被用作基线模型。模型预处理恐惧PER（%）匹配错配Dev.测试Dev.测试E2E_ASR-Clean没有一Fbank59.060.563.064.4Conv-TasNet25.627.531.333.4基于注意力的Conv-TasNet25.426.830.732.2E2E_ASR-MCT没有一Fbank29.030.135.936.8Conv-TasNet23.824.628.730.5基于注意力的Conv-TasNet23.724.628.428.9表5在有和没有联合训练的情况下使用潜在特征对TIMIT开发（开发）的影响测试集。结果以PER（%）表示模型预处理联合恐惧PER（%）匹配错配Dev.测试Dev.测试E2E_ASR-SEConv-TasNet–潜23.624.228.630.1基于注意力的Conv-TasNet–22.823.427.128.8基于注意力的Conv-TasNetU20.722.026.027.9表6在WSJ开发（dev.）上，通过干净和多条件数据训练的E2E ASR系统的WER结果（%），有和没有语音增强。测试集。Fbank特征被用作基线模型。模型预处理恐惧WER（%）匹配错配Dev.测试Dev.测试E2E_ASR-Clean没有一Fbank78.568.064.667.6Conv-TasNet20.915.431.127.0基于注意力的Conv-TasNet21.415.730.925.8E2E_ASR-MCT没有一Fbank17.812.022.316.4Conv-TasNet16.310.621.115.1基于注意力的Conv-TasNet16.511.020.415.0表7在联合训练和不联合训练的情况下使用潜在特征对WSJ开发的影响（开发）测试集。结果以WER（%）表示模型预处理联合恐惧WER（%）匹配错配Dev.测试Dev.测试E2E_ASR-SEConv-TasNet–潜13.69.719.714.9基于注意力的Conv-TasNet–13.59.519.614.4基于注意力的Conv-TasNetU13.39.017.712.9性能如表4所列，SE网络显著提高了ASR系统的性能。特别是，基于注意力的Conv-TasNet应用于E2 E_ASR-MCT，在“匹配”和“不匹配”中分别获得了24.6%和28.9%的良好性能。基于上述实验结果，我们利用SE网络的潜在特征进行ASR训练。如表5所示结果，Conv-TasNet和基于注意力的Conv-TasNet都显示出比基线模型的结果更鲁棒的结果事实上，与Conv-TasNet相比，没有联合训练的基于注意力的Conv-TasNet在“匹配”和“不匹配”测试集上分别进一步提高了0.8%和1.3%最后，我们共同培养整个D.- H.杨和J. -H.常沙特国王大学学报209表8根据E2E_ASR模型比较参数数量和相对推理时间。模型联合恐惧参数（M）E2 E_ASR-基线–Fbank20.63E2E_ASR-SE–潜22.28U潜29.88基于注意力的Conv-TasNet比Conv-TasNet更鲁棒;并且潜在特征比Fbank特征更鲁棒。此外，我们的联合训练框架在“匹配”和“不匹配”测试集上分别显示出对噪声最鲁棒的结果，分别为22.0%和27.9%对WSJ数据重复这些过程，结果见表6和表7。与上述结果相似，E2E_ASR-Clean在“匹配”测试集中表现较差，为68.0%，在“不匹配”测试集中为67.7%。此外，E2 E_ASR-MCT显示出12.0%和16.4%的显著改善。将SE网络作为ASR的前端，可以在一定程度上进一步提高性能。然而，这仍然不是最佳的预期结果。为了提高性能，我们使用潜在特征来训练E2E ASR系统，如表7所示。此外，为了实现更优的性能，我们使用参与的潜在特征联合训练了整个网络。我们的联合训练框架在“匹配”和“不匹配”测试集中分别显示了9.0%和12.9%此外，在TIMIT数据中，根据E2E_ASR模型的参数的数量被比较，如表8所示。E2 E_ASR-Baseline包括使用Fbank功能进行训练的E2E_ASR-Clean和E2 E_ASR-MCT基线模型具有20.63 M参数。因为它使用了预先计算的特征Fbank。当使用潜在特征而不是Fbank特征时，计算成本增加，因为使用卷积网络提取可学习的特征。因此，没有联合训练的E2 E_ASR-SE使用22.28 M可学习参数。此外，由于SE和ASR网络的联合训练结合了两个网络，因此需要更多的参数来训练模型。5. 结论在这项研究中，我们提出了一种联合训练的方法与时域SE网络和E2E ASR网络通过使用潜在的功能。对于鲁棒ASR，时域SE模型与TF域SE模型相比没有被广泛应用，因为域失配导致效率低下。然而，随着时域SE模型受到越来越多的关注，有必要将它们与ASR系统相结合。通过简单地从时域SE的增强波形中提取频谱特征来执行与E2E ASR的联合训练是一项简单的任务，但是这种方法没有充分利用时域SE的优点。我们首次提出，两个网络在潜在域的整合将为时域SE模型和E2EASR系统的联合训练提供良好的指导。因此，各种时域SE模型和ASR模型可以在未来集成。除了用于E2 E ASR的混合CTC/注意力架构之外，我们还将进行一项研究，以通过联合训练使用潜在特征来集成各种E2 E ASR系统和时域SE模型竞争利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作。确认这项工作得到了韩国政府（MSIT）资助的信息通信技术规划评估研究所（IITP）资助（编号2020-0-01373，工业智能研究生院计划（汉阳大学））和贸易工业能源部（MOTIE，韩国）资助的技术创新计划（20013726，制造、流程和物流工业智能技术的开发）的部分支持。引用Chan，W.，Jaitly，N.，莱塞，维尼亚尔斯岛，澳-地2016.听、听、拼：用于大词汇量会话语音识别的神经网络。IEEEInternational Conference on Acoustics，Speech andSignal Processing（ICASSP）. 4960-4964。丘角，澳-地C.的方法，Sainath，T.N.，吴，Y.，Prabhavalkar河，阮，P.，陈志，Kannan，A.，Weiss，R.J.，Rao，K.，Gonina，E.，例如，2018.采用序列到序列模型的最先进语音识别。IEEE International Conference onAcoustics，Speech andSignal Processing（ICASSP）. 4774- 4778崔，H.-美国，金，J. -H、嗯，杰，Kim，A.，哈，杰。-W.，李，K.，2018年基于深度复杂U-Net的相位感知在：学习代表国际会议。Chorowski，J.K.，Bahdanau，D.，Serdyuk，D.，周，K.，本焦，Y.，2015年。基于注意力的语音识别模型。Adv. 神经信息过程系统 28岁Consortium，L.D.，例如，1994. CSR-II（WSJ 1）完成，语言数据联盟，费城，卷。LDC94S13A。范，C.，Yi，J.，Tao，J.，田志刘，B.，文志，2020年。用于鲁棒端到端语音识别的具有联合训练框架的门控递归融合。IEEE/ACM Trans. 音频语音语言处理。29，198-209.高，T.，杜，J.，代湖R.，李角，澳-地H、2015.前端和后端深度神经网络的联合训练，以实现鲁棒的语音识别。在：声学，语音和信号处理国际会议（ICASSP），pp。4375-4379Garofolo，J.S.，1993. Timit声学语音连续语音语料库。语言学数据伴侣一九九三年格雷夫斯，A.，Jaitly，N.，2014.使用递归神经网络进行端到端语音识别。在：国际机器学习会议（ICML），pp。 1764-1772年。格雷夫斯，

下载后可阅读完整内容，剩余1页未读，立即下载