DNN驱动的发音偏误检测提升系统性能

0 下载量 194 浏览量 更新于2024-08-26 收藏 759KB PDF 举报
本篇研究论文标题为"基于DNN的发音偏误趋势检测",主要探讨的是如何利用深度神经网络(DNN)改进计算机辅助对外汉语发音训练系统。论文在第十三届全国人机语音通讯学术会议上发表,该会议于2015年10月25日至27日在天津迎宾馆召开。研究的目的是开发一个能够提供正音反馈的系统,通过前期工作中的发音偏误趋势标注体系和基于HMM的偏误趋势检测系统为基础,进一步提升系统的性能。 文章的核心内容集中在采用深度神经网络进行声学建模,对比了MFCC( Mel-frequency cepstral coefficients,梅尔频率倒谱系数)、PLP(Perceptual Linear Predictive,感知线性预测)和FBank(Filterbank)三种不同的声学特征参数。实验结果显示,DNN-HMM模型相较于GMM-HMM(Gaussian Mixture Model-Hidden Markov Model,高斯混合模型-隐马尔可夫模型)在发音偏误检测上表现出更高的准确性。三种声学特征对于不同类型的发音偏误有不同的响应,通过网格联合技术整合这些特征,系统整体性能得以优化,表现为错误拒绝率5.5%,错误接受率35.6%,检测正确率高达88.6%。 论文的研究重点在于计算机辅助发音训练(CAPT)领域,特别是在发音错误检测方面,它能够提供精确的反馈,弥补了传统发音质量打分系统在纠正学习者特定偏误方面的不足。研究者关注的不仅是发音的整体评估,而是针对个体发音问题的精准识别与矫正策略,这对于提高外语学习者的口语技能具有重要意义。 此外,本文还提及了资金支持,包括国家自然科学基金项目(61175019)和北京市高等学校青年英才计划(YETP0879),以及作者高迎明的个人简介和联系方式,这体现了研究者对该领域的持续投入和合作精神。 这篇论文深入探讨了深度学习在语音识别和发音偏误检测中的应用,对于语音技术驱动的语言学习系统的发展具有重要价值。