Transformer模型在中文语音合成中的混合注意力机制优化

需积分: 49 6 下载量 192 浏览量 更新于2024-08-06 收藏 565KB PDF 举报
"混合注意力机制-星级酒店全系统弱电智能化设计方案" 本文主要探讨了在语音合成领域,特别是基于Transformer的端到端模型中,如何通过改进注意力机制来提高合成语音的质量和稳定性。混合注意力机制被引入以解决Transformer模型在语音合成中的问题,尤其是解码器在并行化训练过程中丢失时间序列信息导致的合成稳定性下降。 1. 混合注意力机制详解 混合注意力机制是针对Transformer模型在解码层中仅依赖内容注意力机制的问题而提出的。在标准的Transformer模型中,解码器的注意力机制是基于内容的,即通过计算解码器当前时刻的隐状态(si)和编码器的某个时刻输出(hj)的相关性(eij)来确定注意力权重。然而,这种机制忽略了位置信息,可能导致语音合成时的“跳字”现象。 混合注意力机制则结合了前一时刻的注意力权重(αi−1),以减少注意力权重的突变,从而降低跳字的频率。具体公式表示为eij = score(si, hj, αi−1),其中Vhj是编码器时刻h的输出表示的权重,Ufi,j是基于注意力权重的位置特性。位置特性fi通过累加前一时刻的注意力权重cαi−1进行卷积得到,使得模型能够记住已学习到的注意力信息,有助于保持语音合成的连续性。 2. 实验设置与结果分析 实验使用了标贝提供的12小时中文女生语音数据集进行训练,并采用thcoss的中文语音数据集预训练解码器。声学模型基于Transformer构建,而声码器则使用Griffin-Lim算法恢复语音信号。评估指标包括梅尔倒谱失真度(MCD)以及跳字和重复字符的频率。低MCD值代表合成语音与真实语音之间的失真更小,质量更高。 实验的基线模型参数设定为embedding_dim=256,encoder_stack=3,decoder_stack,multi-heads=4。表1和表2展示了不同头部数量(1-head和4-head)下的MCD值和对齐结果。结果显示,增加头部数量可以降低MCD值,但同时也会出现一定的跳字和重复字符问题。 通过引入混合注意力机制和相对位置编码,以及手工预测停止符来克服模型预测的不稳定性,实验最终得到了具有较小MCD值、高对齐稳定性和显著减少的跳字、重复现象的合成语音,整体效果显著提升。 关键词:语音合成;混合注意力机制;位置编码 这篇论文的研究表明,对Transformer模型的编码器结构和注意力机制进行优化,特别是引入混合注意力机制,对于改善基于Transformer的端到端语音合成系统的效果至关重要,尤其是在保持语音合成的连贯性和准确性方面。这些改进对于提高人机交互的语音系统质量和用户体验有着积极的意义。