汉语连续语音识别:基于音素类单元的随机轨迹模型研究

需积分: 5 0 下载量 5 浏览量 更新于2024-08-11 收藏 243KB PDF 举报
"随机轨迹模型中汉语连续语音识别基元的选取方案* (1999年)" 本文探讨了在随机轨迹模型(STM)框架下,针对汉语连续语音识别的基元选择策略。作者黄心晔、施嵘、富煜清和陆佶人来自东南大学无线电工程系,并得到了国家自然科学基金的支持。他们研究了多种汉语语音识别基元,结合汉语语音的特点和STM的优势,提出以音素类单元作为识别基础。 随机轨迹模型是对基本隐马尔可夫模型(HMM)中三个不合理假设的改进,它提供了一种更灵活的统计建模方式。然而,选择合适的语音单元作为STM识别基元是一项挑战,因为协同发音现象和语音的多样变化使得基元的选择、提取和训练变得复杂。 在语音识别中,识别基元的选择至关重要,直接影响到系统的识别准确性和扩展性。理想的基元应具备检测一致性、可训练性及鲁棒性。尽管采用词作为识别基元可以实现高识别率,但当扩展到大词汇量的系统时,词级别的建模面临诸多问题。首先,训练数据需要足够多以充分建模每个词的上下文。其次,随着词汇量增加,词之间的区分特征减弱,整体识别率可能下降。此外,大量重复的声学内容会造成资源浪费,并导致存储需求随着词汇量线性增长,超出计算机处理能力。 因此,研究人员考虑使用更小的基元,如音素。音素作为汉语语音的基本单位,能够更好地应对协同发音和发音变化,同时也符合识别基元的要求。通过建立基于音素的STM模型,实验结果显示这种方案是可行的,它能够提高识别系统的灵活性和适应性,同时降低对大量训练数据的依赖。 关键词包括识别基元、随机轨迹模型和音素。STM语音识别系统通过选用音素类单元,能够在一定程度上解决协同发音和语音变化带来的问题,提高了识别效率。这种方法为汉语连续语音识别提供了新的视角,并可能为未来的大词汇量语音识别系统设计提供参考。