2008年SM-DBN:大词汇量语音识别与音素切分的创新模型
需积分: 5 166 浏览量
更新于2024-08-12
收藏 399KB PDF 举报
本文主要探讨了2008年发表在《西北工业大学学报》上的一篇关于基于动态贝叶斯网络的大词汇量连续语音识别和音素切分的研究论文。作者吕国云、蒋冬梅、张艳宁和赵荣椿,以及Hichem Sahli合作提出了Single Stream Multi-states Dynamic Bayesian Network (SM-DBN)模型。这一创新性的模型是在Bilmes等人先前的Single Stream Dynamic Bayesian Network (SS-DBN-P)模型基础上发展而来,SS-DBN-P模型专注于词级别的识别,而SM-DBN则进一步细化到音素层面。
SM-DBN的主要特点是它将语音识别的基元从词级细化到音素级,每个词由其对应的音素状态组成,这使得模型能够更好地捕捉和描述语音中的发音细节。音素被赋予固定数量的状态描述,并直接与观测向量相连,从而实现了对音素动态发音过程的精确建模。这种设计允许模型在处理大词汇量连续语音时展现出更高的准确度。
实验结果显示,相比于传统的隐马尔可夫模型(HMM)和SS-DBN-P模型,SM-DBN在纯净语音环境下,语音识别率分别提升了13.01%和35.2%,音素切分的正确率也分别提高了10%和44%。这表明SM-DBN在复杂任务中的性能显著优于传统方法,特别是在处理大量未知词汇和连续语音时。
动态贝叶斯网络(DBN)作为一种统计建模工具,因其强大的非线性建模能力和自适应性,在语音识别领域中得到了广泛关注。Bilmes等人的工作不仅推动了DBN在连续语音识别中的应用,而且SM-DBN的提出更是对其进行了进一步的优化和扩展,使之适用于大词汇量的场景。
这篇论文在语音识别技术的发展史上具有重要意义,因为它不仅提升了识别性能,还通过引入音素级的处理,为后续的研究提供了新的思路和技术手段,对后续大词汇量连续语音识别和音素分析的算法设计产生了深远影响。
232 浏览量
312 浏览量
232 浏览量
2021-05-18 上传
167 浏览量
261 浏览量
101 浏览量
weixin_38693192
- 粉丝: 5
最新资源
- 华为编程规范与实践指南
- 电脑键盘快捷键全解析:速成操作指南
- 优化JFC/Swing数据模型:减少耦合与提高效率
- JavaServerPages基础教程 - 初学者入门
- Vim 7.2用户手册:实践为王,提升编辑技能
- 莱昂氏UNIX源代码分析 - 深入操作系统经典解读
- 提高单片机编程效率:C51编译器中文手册详解
- SEO魔法书:提升搜索引擎排名的秘籍
- Linux Video4Linux驱动详解:USB摄像头的内核支持与应用编程
- ArcIMS Java Connector二次开发指南
- Java实现汉诺塔算法详解
- ArcGISServer入门指南:打造企业级Web GIS
- 从零开始:探索计算机与系统开发的发现之旅
- 理解硬件描述语言(HDL):附录A
- ArcGIS开发指南:ArcObjects与AML基础编程
- 深入浅出Linux:RedHat命令手册解析