阿里巴巴发布DFSMN:语音识别新突破,优于BLSTM

需积分: 0 2 下载量 24 浏览量 更新于2024-08-05 收藏 1.07MB PDF 举报
"阿里提出的DFSMN是一种改进的前馈序列记忆神经网络,用于大词汇量连续语音识别,尤其在英文和中文识别任务上表现出色。DFSMN结合了低帧率技术(LFR),在识别性能、训练速度、模型大小、解码速度和延迟方面优于传统的基于BLSTM的系统。此技术由阿里巴巴语音交互智能团队在ICASSP-2018会议上提出。" 在深度学习领域,尤其是在语音识别中,深度神经网络(DNN)已成为主流的声学模型。由于语音信号的长时相关性,循环神经网络(RNN)如长短时记忆网络(LSTM)被广泛使用,以捕捉序列数据中的长期依赖关系。然而,RNN在训练时通常面临BPTT(Backpropagation Through Time)算法的慢速和梯度消失问题。 为了解决这些问题,阿里巴巴的语音交互智能团队提出了前馈序列记忆网络(FSMN),这是一种非递归的网络结构,能够有效建模长时相关性,同时保持训练效率并提高性能。FSMN避免了RNN中的循环结构,使得训练过程更为快速。 在此基础上,团队进一步发展了深层前馈序列记忆网络(DFSMN),通过引入跳跃连接(skip connections)来确保高层的梯度能有效地传递到低层,从而缓解深度网络训练中的梯度消失问题。这使得DFSMN能够构建更深的网络架构而不影响训练效果。 DFSMN与低帧率(LFR)技术的结合,形成了LFR-DFSMN声学模型,它在语音识别任务上实现了对BLSTM系统的显著性能提升。此外,LFR-DFSMN还具有训练速度快、模型参数量少、解码速度快和延迟小等优势,这些优点使其在实际应用中更具吸引力。 DFSMN是语音识别领域的一个重要进展,它通过创新的网络结构和优化技术,提高了模型的性能和训练效率,为大词汇量连续语音识别提供了新的解决方案。这一成果不仅展示了深度学习在语音识别领域的潜力,也体现了阿里巴巴在人工智能和语音交互领域的持续探索和创新。