阿里巴巴发布DFSMN：语音识别新突破，优于BLSTM

需积分: 0 24 浏览量更新于2024-08-05 收藏 1.07MB PDF 举报

"阿里提出的DFSMN是一种改进的前馈序列记忆神经网络，用于大词汇量连续语音识别，尤其在英文和中文识别任务上表现出色。DFSMN结合了低帧率技术（LFR），在识别性能、训练速度、模型大小、解码速度和延迟方面优于传统的基于BLSTM的系统。此技术由阿里巴巴语音交互智能团队在ICASSP-2018会议上提出。" 在深度学习领域，尤其是在语音识别中，深度神经网络（DNN）已成为主流的声学模型。由于语音信号的长时相关性，循环神经网络（RNN）如长短时记忆网络（LSTM）被广泛使用，以捕捉序列数据中的长期依赖关系。然而，RNN在训练时通常面临BPTT（Backpropagation Through Time）算法的慢速和梯度消失问题。为了解决这些问题，阿里巴巴的语音交互智能团队提出了前馈序列记忆网络（FSMN），这是一种非递归的网络结构，能够有效建模长时相关性，同时保持训练效率并提高性能。FSMN避免了RNN中的循环结构，使得训练过程更为快速。在此基础上，团队进一步发展了深层前馈序列记忆网络（DFSMN），通过引入跳跃连接（skip connections）来确保高层的梯度能有效地传递到低层，从而缓解深度网络训练中的梯度消失问题。这使得DFSMN能够构建更深的网络架构而不影响训练效果。 DFSMN与低帧率（LFR）技术的结合，形成了LFR-DFSMN声学模型，它在语音识别任务上实现了对BLSTM系统的显著性能提升。此外，LFR-DFSMN还具有训练速度快、模型参数量少、解码速度快和延迟小等优势，这些优点使其在实际应用中更具吸引力。 DFSMN是语音识别领域的一个重要进展，它通过创新的网络结构和优化技术，提高了模型的性能和训练效率，为大词汇量连续语音识别提供了新的解决方案。这一成果不仅展示了深度学习在语音识别领域的潜力，也体现了阿里巴巴在人工智能和语音交互领域的持续探索和创新。

新智元专栏

团队：阿里巴巴语音交互智能团队

作者：张仕良，雷鸣，鄢志杰，戴礼荣

会议：ICASSP-2018

【新智元导读】在语音顶会ICASSP，阿里巴巴语音交互智能团队的poster论文提出一种改进

的前馈序列记忆神经网络结构，称之为深层前馈序列记忆神经网络（DFSMN）。研究人员进

一步将深层前馈序列记忆神经网络和低帧率（LFR）技术相结合，构建LFR-DFSMN语音识别

声学模型。

在语音顶会ICASSP，阿里巴巴语音交互智能团队的poster论文提出一种改进的前馈序列记忆

神经网络结构，称之为深层前馈序列记忆神经网络（DFSMN）。研究人员进一步将深层前馈

序列记忆神经网络和低帧率（LFR）技术相结合，构建LFR-DFSMN语音识别声学模型。

该模型在大词汇量的英文识别和中文识别任务上都可以取得相比于目前最流行的基于长短时记

忆单元的双向循环神经网络（BLSTM）的识别系统显著的性能提升。而且LFR-DFSMN在训

练速度，模型参数量，解码速度，而且模型的延时上相比于BLSTM都具有明显的优势。

阿里提出DFSMN语音识别声学模型

星期五, 三月 16, 2018 3:12 下午

下载后可阅读完整内容，剩余8页未读，立即下载

韩金虎

粉丝: 35
资源: 285

阿里巴巴发布DFSMN：语音识别新突破，优于BLSTM

阿里开源语音识别模型DFSMN1

Python-DFSMN阿里达摩院公布自研语音识别模型

阿里DFSMN模型：刷新全球语音识别准确率纪录，开源在GitHub

阿里云的语音识别（一句话识别） SDK PHP代码实现

阿里云语音识别demo

用java实现本地语音实时采取，然后对接阿里AI语音识别实现，语音识别系统。并内部加载逻辑实现电脑语音控制

阿里云语音识别一句话RESTFUL识别PHP demo

js 阿里云实时语音识别

如何实现jq+socket通讯阿里云实时语音识别

写一个调用本地阿里语音识别模型的程序

最新资源