汉语连续语音识别:基于音素类单元的随机轨迹模型研究
需积分: 5 5 浏览量
更新于2024-08-11
收藏 243KB PDF 举报
"随机轨迹模型中汉语连续语音识别基元的选取方案* (1999年)"
本文探讨了在随机轨迹模型(STM)框架下,针对汉语连续语音识别的基元选择策略。作者黄心晔、施嵘、富煜清和陆佶人来自东南大学无线电工程系,并得到了国家自然科学基金的支持。他们研究了多种汉语语音识别基元,结合汉语语音的特点和STM的优势,提出以音素类单元作为识别基础。
随机轨迹模型是对基本隐马尔可夫模型(HMM)中三个不合理假设的改进,它提供了一种更灵活的统计建模方式。然而,选择合适的语音单元作为STM识别基元是一项挑战,因为协同发音现象和语音的多样变化使得基元的选择、提取和训练变得复杂。
在语音识别中,识别基元的选择至关重要,直接影响到系统的识别准确性和扩展性。理想的基元应具备检测一致性、可训练性及鲁棒性。尽管采用词作为识别基元可以实现高识别率,但当扩展到大词汇量的系统时,词级别的建模面临诸多问题。首先,训练数据需要足够多以充分建模每个词的上下文。其次,随着词汇量增加,词之间的区分特征减弱,整体识别率可能下降。此外,大量重复的声学内容会造成资源浪费,并导致存储需求随着词汇量线性增长,超出计算机处理能力。
因此,研究人员考虑使用更小的基元,如音素。音素作为汉语语音的基本单位,能够更好地应对协同发音和发音变化,同时也符合识别基元的要求。通过建立基于音素的STM模型,实验结果显示这种方案是可行的,它能够提高识别系统的灵活性和适应性,同时降低对大量训练数据的依赖。
关键词包括识别基元、随机轨迹模型和音素。STM语音识别系统通过选用音素类单元,能够在一定程度上解决协同发音和语音变化带来的问题,提高了识别效率。这种方法为汉语连续语音识别提供了新的视角,并可能为未来的大词汇量语音识别系统设计提供参考。
2023-07-12 上传
114 浏览量
2009-01-14 上传
2024-11-08 上传
2024-11-07 上传
153 浏览量
2024-11-07 上传
2023-03-24 上传
138 浏览量
weixin_38731027
- 粉丝: 4
- 资源: 975
最新资源
- talks:我讲过的各种演讲的幻灯片和资料
- ColorRampGenerator:色带生成器
- 具有dnssec支持的重要隐私,快速递归的dns解析器服务器-Golang开发
- ASP人才网内容管理系统(源代码+论文).zip
- 梅吉特
- Google浏览器安装包
- favicon-badge:一个Polymer元素,用于使用动态设置的数字声明式更新Webapp的favicon。
- react-way-immutable-flux:使用ES6,Immutable.js和Flux的React.js方法
- Trubble
- testina
- uskzvqgn.zip_相位跟踪
- my-plugin-manager:用于WordPress主题或插件的嵌入式脚本,为您的用户提供一个界面,以管理您建议与产品一起使用的插件
- 用数组实现一个线性表.zip
- Gx00_83-05-33-SNMP.zip
- imersaodev-conversoranosluz:每天从法拉利岛(Códigofeitotambémna1ª)出发。 Us programa em que quee convert anos luz emquilômetrose assim poder saber adistânciade planetas e astros
- [Android实例] Android 竖着的SeekBar.rar