基于Sphinx的汉语连续数字语音识别系统研究

需积分: 0 3 下载量 44 浏览量 更新于2024-09-08 收藏 288KB PDF 举报
"这篇论文研究了使用Sphinx进行汉语连续数字语音识别的方法。作者王韵和张雪英来自太原理工大学信息工程学院,他们构建了一个基于Sphinx的系统,该系统利用SphinxTrain训练声学模型,cmuclmtk生成语言模型,并采用PocketSphinx作为识别引擎。实验结果显示,该系统在非特定人不定长数字串识别中的准确率为89.583%,词识别率为97.20%。" 文章详细介绍了构建汉语连续数字语音识别系统的过程。首先,Sphinx是一个广泛使用的开源语音识别框架,而SphinxTrain是用于训练声学模型的工具,它可以处理汉语的声学特性,将声音转换为可识别的模式。声学模型是语音识别系统的关键组成部分,它将音频信号转化为概率模型,以便与词汇表中的发音对应。 其次,cmuclmtk是一个统计语言模型生成工具,用于构建语言模型。语言模型则处理语音识别中的语言上下文问题,帮助系统理解连续数字串的语义结构,提高识别准确性。在汉语环境中,由于数字之间的混淆性和单音节的特点,语言模型尤为重要。 接着,文章提到使用了PocketSphinx作为识别引擎。PocketSphinx是CMU开发的轻量级、适用于嵌入式设备的语音识别引擎,特别适合小词汇量的连续语音识别,例如数字识别。尽管它最初设计用于英语,但经过调整后,也可以适应汉语数字的识别。 系统结构部分,文章指出连续语音识别系统包括四个主要部分:特征提取、声学模型、语言模型和识别引擎。特征提取是通过SphinxBase库实现的,该库使用MFCC(梅尔频率倒谱系数)技术对原始音频数据进行预处理,提取出有助于识别的特征。MFCC流程包括预加重、分帧、窗函数、傅里叶变换、梅尔滤波器组、对数运算以及离散余弦变换等步骤。 这篇论文展示了一个基于Sphinx的汉语连续数字语音识别系统的构建过程和其实效性,为汉语语音识别技术的发展提供了有价值的参考。通过优化声学模型和语言模型,以及利用开源工具,系统实现了高识别率,显示了在各种应用场景中的潜力。