2008年SM-DBN:大词汇量语音识别与音素切分的创新模型

需积分: 5 0 下载量 193 浏览量 更新于2024-08-12 收藏 399KB PDF 举报
本文主要探讨了2008年发表在《西北工业大学学报》上的一篇关于基于动态贝叶斯网络的大词汇量连续语音识别和音素切分的研究论文。作者吕国云、蒋冬梅、张艳宁和赵荣椿,以及Hichem Sahli合作提出了Single Stream Multi-states Dynamic Bayesian Network (SM-DBN)模型。这一创新性的模型是在Bilmes等人先前的Single Stream Dynamic Bayesian Network (SS-DBN-P)模型基础上发展而来,SS-DBN-P模型专注于词级别的识别,而SM-DBN则进一步细化到音素层面。 SM-DBN的主要特点是它将语音识别的基元从词级细化到音素级,每个词由其对应的音素状态组成,这使得模型能够更好地捕捉和描述语音中的发音细节。音素被赋予固定数量的状态描述,并直接与观测向量相连,从而实现了对音素动态发音过程的精确建模。这种设计允许模型在处理大词汇量连续语音时展现出更高的准确度。 实验结果显示,相比于传统的隐马尔可夫模型(HMM)和SS-DBN-P模型,SM-DBN在纯净语音环境下,语音识别率分别提升了13.01%和35.2%,音素切分的正确率也分别提高了10%和44%。这表明SM-DBN在复杂任务中的性能显著优于传统方法,特别是在处理大量未知词汇和连续语音时。 动态贝叶斯网络(DBN)作为一种统计建模工具,因其强大的非线性建模能力和自适应性,在语音识别领域中得到了广泛关注。Bilmes等人的工作不仅推动了DBN在连续语音识别中的应用,而且SM-DBN的提出更是对其进行了进一步的优化和扩展,使之适用于大词汇量的场景。 这篇论文在语音识别技术的发展史上具有重要意义,因为它不仅提升了识别性能,还通过引入音素级的处理,为后续的研究提供了新的思路和技术手段,对后续大词汇量连续语音识别和音素分析的算法设计产生了深远影响。