深度FSMN：科大讯飞模型提升大规模连续语音识别性能

需积分: 49 24 浏览量更新于2024-09-08 2 收藏 344KB PDF 举报

本文主要探讨了Deep-FSMN（DFSMN），一种深度改进的Feedforward Sequential Memory Networks（FSMN）在大规模词汇连续语音识别领域的应用。DFSMN是由科大讯飞团队提出的一种新型架构，它引入了相邻层内存块之间的跳跃连接（skip connections）。这些连接的作用在于允许信息在不同层级间流动，有效解决了深度结构下常见的梯度消失问题，从而极大地提高了模型的性能。相比于传统的BLSTM（双向长短时记忆网络），DFSMN通过深层结构的优势，显著提升了识别准确性和效率。实验对比显示，无论是在英文还是汉语（如普通话）的语音识别任务中，DFSMN都能展现出明显的优势。特别是当使用较低帧率（LFR）训练，并将CD-Phone作为建模单元时，DFSMN的表现更加突出。在一项2000小时的Fisher语料库（FSH）测试中，DFSMN甚至能够实现令人满意的9.4%的词错误率（Word Error Rate, WER），这表明其在大规模、复杂语言环境下的语音识别能力得到了极大提升。 Deep-FSMN通过创新的网络设计和优化，不仅克服了深度网络中的挑战，而且在实际应用中展现出了强大的适应性和高精度，对于推动大规模连续语音识别技术的发展具有重要意义。在未来的研究中，这种模型有望进一步优化语音处理算法，提升用户体验，尤其是在智能家居、智能客服等场景中。

weixin_44276261

粉丝: 1
资源: 49

深度FSMN：科大讯飞模型提升大规模连续语音识别性能

科大讯飞FSMN论文

人工智能语音识别训练好的模型.zip

PaddlePaddle-DeepSpeech中文语音识别模型（thchs_30数据集训练的）

毕设&课程作业_基于科大讯飞的语音识别系统.zip

End-to-End-Speech-Recognition-Models:自动语音识别模型的 PyTorch 实现

科大讯飞新一代语音识别系统解读.docx

科大讯飞语音识别原理

目前，除了科大讯飞开源的语音识别，还有什么开源的语音识别

Python-在终端设备上实现语音识别的TensorFlow预训练模型

deep-speech:使用来自Deepspeech的预训练模型将语音演示为文本

最新资源