2008年SM-DBN:大词汇量语音识别与音素切分的创新模型
需积分: 5 193 浏览量
更新于2024-08-12
收藏 399KB PDF 举报
本文主要探讨了2008年发表在《西北工业大学学报》上的一篇关于基于动态贝叶斯网络的大词汇量连续语音识别和音素切分的研究论文。作者吕国云、蒋冬梅、张艳宁和赵荣椿,以及Hichem Sahli合作提出了Single Stream Multi-states Dynamic Bayesian Network (SM-DBN)模型。这一创新性的模型是在Bilmes等人先前的Single Stream Dynamic Bayesian Network (SS-DBN-P)模型基础上发展而来,SS-DBN-P模型专注于词级别的识别,而SM-DBN则进一步细化到音素层面。
SM-DBN的主要特点是它将语音识别的基元从词级细化到音素级,每个词由其对应的音素状态组成,这使得模型能够更好地捕捉和描述语音中的发音细节。音素被赋予固定数量的状态描述,并直接与观测向量相连,从而实现了对音素动态发音过程的精确建模。这种设计允许模型在处理大词汇量连续语音时展现出更高的准确度。
实验结果显示,相比于传统的隐马尔可夫模型(HMM)和SS-DBN-P模型,SM-DBN在纯净语音环境下,语音识别率分别提升了13.01%和35.2%,音素切分的正确率也分别提高了10%和44%。这表明SM-DBN在复杂任务中的性能显著优于传统方法,特别是在处理大量未知词汇和连续语音时。
动态贝叶斯网络(DBN)作为一种统计建模工具,因其强大的非线性建模能力和自适应性,在语音识别领域中得到了广泛关注。Bilmes等人的工作不仅推动了DBN在连续语音识别中的应用,而且SM-DBN的提出更是对其进行了进一步的优化和扩展,使之适用于大词汇量的场景。
这篇论文在语音识别技术的发展史上具有重要意义,因为它不仅提升了识别性能,还通过引入音素级的处理,为后续的研究提供了新的思路和技术手段,对后续大词汇量连续语音识别和音素分析的算法设计产生了深远影响。
2014-05-06 上传
2019-07-22 上传
点击了解资源详情
2021-05-18 上传
2011-05-07 上传
2021-01-12 上传
2021-05-21 上传
weixin_38693192
- 粉丝: 5
- 资源: 934
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析