汉语连续语音识别：基于音素类单元的随机轨迹模型研究

需积分: 5 85 浏览量更新于2024-08-11 收藏 243KB PDF 举报

"随机轨迹模型中汉语连续语音识别基元的选取方案* (1999年)" 本文探讨了在随机轨迹模型（STM）框架下，针对汉语连续语音识别的基元选择策略。作者黄心晔、施嵘、富煜清和陆佶人来自东南大学无线电工程系，并得到了国家自然科学基金的支持。他们研究了多种汉语语音识别基元，结合汉语语音的特点和STM的优势，提出以音素类单元作为识别基础。随机轨迹模型是对基本隐马尔可夫模型（HMM）中三个不合理假设的改进，它提供了一种更灵活的统计建模方式。然而，选择合适的语音单元作为STM识别基元是一项挑战，因为协同发音现象和语音的多样变化使得基元的选择、提取和训练变得复杂。在语音识别中，识别基元的选择至关重要，直接影响到系统的识别准确性和扩展性。理想的基元应具备检测一致性、可训练性及鲁棒性。尽管采用词作为识别基元可以实现高识别率，但当扩展到大词汇量的系统时，词级别的建模面临诸多问题。首先，训练数据需要足够多以充分建模每个词的上下文。其次，随着词汇量增加，词之间的区分特征减弱，整体识别率可能下降。此外，大量重复的声学内容会造成资源浪费，并导致存储需求随着词汇量线性增长，超出计算机处理能力。因此，研究人员考虑使用更小的基元，如音素。音素作为汉语语音的基本单位，能够更好地应对协同发音和发音变化，同时也符合识别基元的要求。通过建立基于音素的STM模型，实验结果显示这种方案是可行的，它能够提高识别系统的灵活性和适应性，同时降低对大量训练数据的依赖。关键词包括识别基元、随机轨迹模型和音素。STM语音识别系统通过选用音素类单元，能够在一定程度上解决协同发音和语音变化带来的问题，提高了识别效率。这种方法为汉语连续语音识别提供了新的视角，并可能为未来的大词汇量语音识别系统设计提供参考。

第

２９

卷第

４

期

１９９９

年

７

月

东南大学学报

ＪＯＵＲＮＡＬＯＦＳＯＵＴＨＥＡＳＴＵＮＩＶＥＲＳＩＴＹ

Ｖｏｌ２９Ｎｏ４

Ｊｕｌｙ１９９９

随机轨迹模型中汉语连续语音识别基元的选取方案



黄心晔施嵘富煜清陆佶人

（东南大学无线电工程系，南京

２１００９６

）



国家自然科学基金资助项目（

６９６７２０１０

）

．

收稿日期：

１９９８－０９－２８．

第一作者：男，

１９７２

年生，博士研究生

．

摘要在比较各种汉语语音识别基元的基础上，结合汉语语音和随机轨迹模型的

特色，提出了以音素类单元作为汉语连续语音识别系统的识别基元

．

基于音素基随机

轨迹模型的汉语连续语音识别系统的实验结果表明，该方案可行

．

关键词识别基元；随机轨迹模型；音素

分类号

ＴＮ９１２．３４

随机轨迹模型（

ｓｔｏｃｈａｓｔｉｃｔｒａｊｅｃｔｏｒｙｍｏｄｅｌｓ

，简称

ＳＴＭ

）

［

１

］

是针对基本隐马尔可夫模型（

ｈｉｄｄｅｎ

Ｍａｒｋｏｖｍｏｄｅｌｓ

，简称

ＨＭＭ

）

［

２

］

所隐含的

３

个不合理假设而提出的统计建模方法

．

选择什么样的

语音单元作为识别基元是

ＳＴＭ

语音识别系统训练中的主要问题之一

．

由于协同发音现象

［

３

］

和

语音本身很强的多变性

［

４

］

给识别基元的选择、提取和训练带来了极大的困难

．

１

汉语语音识别基元的选择

语音识别中，识别基元的选取是一个很重要的问题，它直接关系到系统的准识率与扩展

性

．

识别基元的选取应该具备以下要求

［

５

］

：

①

具有优良的检测一致性；

②

具有可训练性；

③

用这些基元构成的系统具有较强的鲁棒性

．

为了克服协同发音现象以及发音的多变性等困难，最简单的办法是采用词作为识别基元，

文献［

６

］表明，用词作为识别单元可以获得很高的识别率

．

但是如果要将语音识别系统扩展成

大词汇量的孤立词、短语或连续语音识别系统时，采用词作为识别基元就遇到了很大困难

．

首

先，为了获得可靠的模型，训练集中出现某个词的次数必须相当大，这样才能够保证词的两端

被很好地建模

．

其次，由于词汇量增大，词与词之间的区分特征越来越小，整个系统的识别率下

降

．

再者，大词汇量词表的声学内容有很大一部分是重复的，对它们区别处理会带来很大的浪

费，同时系统的存储量也会随着词汇量的增大而线性增长，从而超出了计算机的处理能力

．

实

验表明，随着词汇量的增大，采用词作为识别单元是不可能的

［

７

］

．

综上所述，应该使用更小、更

有效的子词语音单元作为识别基元

．

如果能够对子词单元丰富的变化及其语音学功能作很好

的表述，用子词单元构成的识别系统可以获得很高的识别率

［

８

］

．

目前常用的子词单元有音节、

半音节、音素、双音、三音、声学单元等

．

语音流中由音素结合而成的最小单位是音节，一个音节由元音和辅音构成

．

元音构成一个

音节的主干，因为无论从长度还是从能量看，元音在音节中都占主要部分

．

所有元音都是浊音



．

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38731027

粉丝: 4

汉语连续语音识别：基于音素类单元的随机轨迹模型研究

"汉语连续语音识别技术及其在移动机器人导航中的应用研究

语音识别技术：基于HMM的声学模型与建模单元分析

2008年SM-DBN：大词汇量语音识别与音素切分的创新模型

汉语连续语音识别及其在移动机器人导航中的应用.doc

基元模型在服装CPC中的应用* (2005年)

基于动态贝叶斯网络的大词汇量连续语音识别和音素切分研究 (2008年)

新的基本粒子模型-物质基元模型

遗传算法在基元识别与提取中的应用

基于声韵母基元的嵌入式中文语音合成系统

脱机手写满文笔画基元的提取和识别 (2007年)

最新资源