汉语连续语音识别:基于音素类单元的随机轨迹模型研究
需积分: 5 87 浏览量
更新于2024-08-11
收藏 243KB PDF 举报
"随机轨迹模型中汉语连续语音识别基元的选取方案* (1999年)"
本文探讨了在随机轨迹模型(STM)框架下,针对汉语连续语音识别的基元选择策略。作者黄心晔、施嵘、富煜清和陆佶人来自东南大学无线电工程系,并得到了国家自然科学基金的支持。他们研究了多种汉语语音识别基元,结合汉语语音的特点和STM的优势,提出以音素类单元作为识别基础。
随机轨迹模型是对基本隐马尔可夫模型(HMM)中三个不合理假设的改进,它提供了一种更灵活的统计建模方式。然而,选择合适的语音单元作为STM识别基元是一项挑战,因为协同发音现象和语音的多样变化使得基元的选择、提取和训练变得复杂。
在语音识别中,识别基元的选择至关重要,直接影响到系统的识别准确性和扩展性。理想的基元应具备检测一致性、可训练性及鲁棒性。尽管采用词作为识别基元可以实现高识别率,但当扩展到大词汇量的系统时,词级别的建模面临诸多问题。首先,训练数据需要足够多以充分建模每个词的上下文。其次,随着词汇量增加,词之间的区分特征减弱,整体识别率可能下降。此外,大量重复的声学内容会造成资源浪费,并导致存储需求随着词汇量线性增长,超出计算机处理能力。
因此,研究人员考虑使用更小的基元,如音素。音素作为汉语语音的基本单位,能够更好地应对协同发音和发音变化,同时也符合识别基元的要求。通过建立基于音素的STM模型,实验结果显示这种方案是可行的,它能够提高识别系统的灵活性和适应性,同时降低对大量训练数据的依赖。
关键词包括识别基元、随机轨迹模型和音素。STM语音识别系统通过选用音素类单元,能够在一定程度上解决协同发音和语音变化带来的问题,提高了识别效率。这种方法为汉语连续语音识别提供了新的视角,并可能为未来的大词汇量语音识别系统设计提供参考。
点击了解资源详情
点击了解资源详情
点击了解资源详情
2023-07-12 上传
2021-04-28 上传
2021-05-13 上传
162 浏览量
132 浏览量
2014-05-22 上传
![](https://profile-avatar.csdnimg.cn/default.jpg!1)
weixin_38731027
- 粉丝: 4
最新资源
- “不可能候选人”新标签页音乐主题插件体验
- Axiom 1.2.12_1版源码压缩包下载及依赖介绍
- 深入解析Servlet+JSP+JavaBean MVC模式源码
- 掌握Eclipse RCP结构:rcp.example的e2tools向导应用
- 一键识别图片文字,截图转文字工具高效操作
- C#实现Omron PLC串口通信源码示例
- 使用React Native和TypeScript开发GoMarketplace
- 易优CMS企业建站系统v1.0:快速建设SEO友好型网站
- ASP.NET教务平台学籍管理模块的设计与开发
- C#(VS2008) 示例集:详尽代码学习Linq和WCF
- 百度地图4.1新版:覆盖物与线条的使用详解
- 新订单提示音MP3下载 - 三个新订单语音提示
- 单片机温度控制系统设计与PID参数调整
- 掌握安卓游戏开发:虚拟方向手柄的使用与实现
- C语言设计:职工资源管理系统功能与实现
- OPC自动化版本2.02数据访问接口标准手册