2008年SM-DBN:大词汇量语音识别与音素切分的创新模型
需积分: 5 164 浏览量
更新于2024-08-12
收藏 399KB PDF 举报
本文主要探讨了2008年发表在《西北工业大学学报》上的一篇关于基于动态贝叶斯网络的大词汇量连续语音识别和音素切分的研究论文。作者吕国云、蒋冬梅、张艳宁和赵荣椿,以及Hichem Sahli合作提出了Single Stream Multi-states Dynamic Bayesian Network (SM-DBN)模型。这一创新性的模型是在Bilmes等人先前的Single Stream Dynamic Bayesian Network (SS-DBN-P)模型基础上发展而来,SS-DBN-P模型专注于词级别的识别,而SM-DBN则进一步细化到音素层面。
SM-DBN的主要特点是它将语音识别的基元从词级细化到音素级,每个词由其对应的音素状态组成,这使得模型能够更好地捕捉和描述语音中的发音细节。音素被赋予固定数量的状态描述,并直接与观测向量相连,从而实现了对音素动态发音过程的精确建模。这种设计允许模型在处理大词汇量连续语音时展现出更高的准确度。
实验结果显示,相比于传统的隐马尔可夫模型(HMM)和SS-DBN-P模型,SM-DBN在纯净语音环境下,语音识别率分别提升了13.01%和35.2%,音素切分的正确率也分别提高了10%和44%。这表明SM-DBN在复杂任务中的性能显著优于传统方法,特别是在处理大量未知词汇和连续语音时。
动态贝叶斯网络(DBN)作为一种统计建模工具,因其强大的非线性建模能力和自适应性,在语音识别领域中得到了广泛关注。Bilmes等人的工作不仅推动了DBN在连续语音识别中的应用,而且SM-DBN的提出更是对其进行了进一步的优化和扩展,使之适用于大词汇量的场景。
这篇论文在语音识别技术的发展史上具有重要意义,因为它不仅提升了识别性能,还通过引入音素级的处理,为后续的研究提供了新的思路和技术手段,对后续大词汇量连续语音识别和音素分析的算法设计产生了深远影响。
2014-05-06 上传
2019-07-22 上传
点击了解资源详情
2021-05-18 上传
2011-05-07 上传
2021-01-12 上传
2021-05-21 上传
weixin_38693192
- 粉丝: 5
- 资源: 934
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能