深度SE-MCNN-CTC:中文语音识别的新声学模型

需积分: 9 2 下载量 135 浏览量 更新于2024-08-05 收藏 1.6MB PDF 举报
"这篇学术论文探讨了一种用于中文语音识别的新型声学模型——SE-MCNN-CTC,旨在解决传统卷积神经网络在处理中文语音识别时的预测错误率高和泛化性能弱的问题。文章由张威、翟明浩、黄子龙、李巍和曹毅合作完成,发表在2020年3月的《应用声学》期刊上,研究主要集中在深度学习领域的语音识别技术。" 本文介绍的研究重点是基于深度卷积神经网络(DCNN)-连接时序分类(CTC)的声学模型,并在此基础上提出了一种改进模型——多路卷积神经网络(MCNN)-CTC,进一步结合SENet结构构建了深度SE-MCNN-CTC模型。DCNN-CTC是语音识别中的基础模型,通过卷积层、池化层和全连接层的组合来提取和处理音频特征。然而,传统的DCNN-CTC在处理中文语音时存在预测错误率高的问题,且其泛化性能不足。 为了解决这些问题,研究者提出了MCNN-CTC模型,它增加了多个卷积路径,增强了模型对不同频率成分的捕获能力。随后,他们引入了SENet(Squeeze-and-Excitation Network),这是一种能动态调整特征图权重的结构,通过对特征图进行自适应重标定,提升了模型对关键信息的敏感性和选择性。 SE-MCNN-CTC模型结合了MCNN的多路径卷积和SENet的注意力机制,强化了深层信息的传递,减少了梯度消失或爆炸的问题,同时提高了模型对语音特征的提取效率。实验结果显示,SE-MCNN-CTC相对于DCNN-CTC的错误率降低了13.51%,最终的错误率为22.21%,表明了该模型在提高泛化性能方面的显著优势。 关键词涉及的领域包括深度学习、语音识别、声学模型以及SE-MCNN-CTC,这表明该研究对于理解如何利用深度学习技术改进中文语音识别模型具有重要意义。中图法分类号TN912.34和文献标识码A表明这是一篇科学技术类的学术论文,而DOI则提供了该资源的唯一标识符,方便后续引用和检索。