阿里巴巴发布DFSMN:语音识别新突破,优于BLSTM
需积分: 0 24 浏览量
更新于2024-08-05
收藏 1.07MB PDF 举报
"阿里提出的DFSMN是一种改进的前馈序列记忆神经网络,用于大词汇量连续语音识别,尤其在英文和中文识别任务上表现出色。DFSMN结合了低帧率技术(LFR),在识别性能、训练速度、模型大小、解码速度和延迟方面优于传统的基于BLSTM的系统。此技术由阿里巴巴语音交互智能团队在ICASSP-2018会议上提出。"
在深度学习领域,尤其是在语音识别中,深度神经网络(DNN)已成为主流的声学模型。由于语音信号的长时相关性,循环神经网络(RNN)如长短时记忆网络(LSTM)被广泛使用,以捕捉序列数据中的长期依赖关系。然而,RNN在训练时通常面临BPTT(Backpropagation Through Time)算法的慢速和梯度消失问题。
为了解决这些问题,阿里巴巴的语音交互智能团队提出了前馈序列记忆网络(FSMN),这是一种非递归的网络结构,能够有效建模长时相关性,同时保持训练效率并提高性能。FSMN避免了RNN中的循环结构,使得训练过程更为快速。
在此基础上,团队进一步发展了深层前馈序列记忆网络(DFSMN),通过引入跳跃连接(skip connections)来确保高层的梯度能有效地传递到低层,从而缓解深度网络训练中的梯度消失问题。这使得DFSMN能够构建更深的网络架构而不影响训练效果。
DFSMN与低帧率(LFR)技术的结合,形成了LFR-DFSMN声学模型,它在语音识别任务上实现了对BLSTM系统的显著性能提升。此外,LFR-DFSMN还具有训练速度快、模型参数量少、解码速度快和延迟小等优势,这些优点使其在实际应用中更具吸引力。
DFSMN是语音识别领域的一个重要进展,它通过创新的网络结构和优化技术,提高了模型的性能和训练效率,为大词汇量连续语音识别提供了新的解决方案。这一成果不仅展示了深度学习在语音识别领域的潜力,也体现了阿里巴巴在人工智能和语音交互领域的持续探索和创新。
414 浏览量
579 浏览量
414 浏览量
1020 浏览量
1319 浏览量
1955 浏览量
628 浏览量
224 浏览量
149 浏览量
韩金虎
- 粉丝: 35
- 资源: 285
最新资源
- 《Linux服务器搭建实战详解》-pdf
- java爬虫的实例代码+java清除空文件夹的代码
- Project1:使用HTML,CSS和引导程序创建的响应式投资组合网页
- Catfish(鲶鱼) Blog v1.1.9
- ROG-Phone-2-Switch-WW-Stock-ROM
- 社交媒体演示
- gatsby-shopify-toy-store-test
- 使用MATLAB分析车队测试数据:在线讲座“使用MATLAB分析车队测试数据”中的文件-matlab开发
- 汽车销售管理系统-毕业设计
- 台达A2伺服说明说.rar
- 商品销售系统源码.rar
- c33
- 校无忧人事工资系统 v2.5
- react-contentful-nextjs-tutorial:使用适用于SSR或Jamstack的NextJS React x Contentful
- 视频编码器
- Rapla, resource scheduling-开源