汉语连续语音识别:基于音素类单元的随机轨迹模型研究
下载需积分: 5 | PDF格式 | 243KB |
更新于2024-08-11
| 153 浏览量 | 举报
"随机轨迹模型中汉语连续语音识别基元的选取方案* (1999年)"
本文探讨了在随机轨迹模型(STM)框架下,针对汉语连续语音识别的基元选择策略。作者黄心晔、施嵘、富煜清和陆佶人来自东南大学无线电工程系,并得到了国家自然科学基金的支持。他们研究了多种汉语语音识别基元,结合汉语语音的特点和STM的优势,提出以音素类单元作为识别基础。
随机轨迹模型是对基本隐马尔可夫模型(HMM)中三个不合理假设的改进,它提供了一种更灵活的统计建模方式。然而,选择合适的语音单元作为STM识别基元是一项挑战,因为协同发音现象和语音的多样变化使得基元的选择、提取和训练变得复杂。
在语音识别中,识别基元的选择至关重要,直接影响到系统的识别准确性和扩展性。理想的基元应具备检测一致性、可训练性及鲁棒性。尽管采用词作为识别基元可以实现高识别率,但当扩展到大词汇量的系统时,词级别的建模面临诸多问题。首先,训练数据需要足够多以充分建模每个词的上下文。其次,随着词汇量增加,词之间的区分特征减弱,整体识别率可能下降。此外,大量重复的声学内容会造成资源浪费,并导致存储需求随着词汇量线性增长,超出计算机处理能力。
因此,研究人员考虑使用更小的基元,如音素。音素作为汉语语音的基本单位,能够更好地应对协同发音和发音变化,同时也符合识别基元的要求。通过建立基于音素的STM模型,实验结果显示这种方案是可行的,它能够提高识别系统的灵活性和适应性,同时降低对大量训练数据的依赖。
关键词包括识别基元、随机轨迹模型和音素。STM语音识别系统通过选用音素类单元,能够在一定程度上解决协同发音和语音变化带来的问题,提高了识别效率。这种方法为汉语连续语音识别提供了新的视角,并可能为未来的大词汇量语音识别系统设计提供参考。
相关推荐









weixin_38731027
- 粉丝: 4
最新资源
- 初学者入门必备!Visual C++开发的连连看小程序
- C#实现SqlServer分页存储过程示例分析
- 西门子工业网络通信例程解读与实践
- JavaScript实现表格变色与选中效果指南
- MVP与Retrofit2.0相结合的登录示例教程
- MFC实现透明泡泡效果与文件操作教程
- 探索Delphi ERP框架的核心功能与应用案例
- 爱尔兰COVID-19案例数据分析与可视化
- 提升效率的三维石头制作插件
- 人脸C++识别系统实现:源码与测试包
- MishMash Hackathon:Python编程马拉松盛事
- JavaScript Switch语句练习指南:简洁注释详解
- C语言实现的通讯录管理系统设计教程
- ASP.net实现用户登录注册功能模块详解
- 吉时利2000数据读取与分析教程
- 钻石画软件:从设计到生产的高效解决方案