台湾科技大学硕士论文:97%识别率的中文语音识别技术

5星 · 超过95%的资源 需积分: 50 120 下载量 50 浏览量 更新于2024-07-31 2 收藏 1.41MB DOC 举报
"这篇硕士论文主要探讨了中文语音识别技术,特别是针对普通话、闽南语和客家话三种语言的识别。研究中采用了梅尔倒频谱系数(MFCC)及其差分系数来提取声学特征,并利用Legendre多项式和离散余弦函数对音调轨迹进行建模。通过构建高斯混合模型(GMM)处理这两种特征,同时使用预测部分匹配(PPM)模型来捕获连续特征间的语言特性。论文中还进行了线内和线外实验,结果显示三种语言的平均识别率可以达到97%,在线上初步测试中,平均识别率为73%。" 本文研究的核心在于语音识别技术,特别是对于中文的识别。首先,作者使用MFCC作为声学特征的表示方法,这是一种常见的语音信号处理技术,能有效地捕捉语音的频谱特性。MFCC的差分系数则有助于捕捉声音的动态变化,进一步增强特征表达。 其次,为了建模音调轨迹,论文引入了Legendre多项式和离散余弦变换(DCT)。这两种数学工具能够有效地逼近声音中的非线性特征,尤其是音调的变化。音调是中文等语言中非常重要的部分,因为它可以改变词汇的意义。 接下来,高斯混合模型(GMM)被用来分别对MFCC特征和音调特征进行建模。GMM是一种统计建模方法,常用于语音识别,因为它能有效模拟不同说话人的语音变异性。 此外,论文还采用了预测部分匹配(PPM)模型,这是一种基于上下文的压缩编码方法,用于捕捉语言的序列性和连贯性特征。通过将每个帧的特征向量转化为“令牌”,PPM可以建立一个模型来模拟连续特征之间的语言规律。 实验部分,作者不仅进行了线外实验来确定模型结构的适用性,还构建了一个实际的在线语言识别系统。实验结果表明,该系统在三种语言的识别中表现优秀,线外测试的平均识别率为97%,而线上初步测试的平均识别率为73%。这显示了该方法在实际应用中的潜力。 这篇硕士论文深入研究了中文语音识别的关键技术和方法,包括特征提取、模型构建以及实际系统实现,为提高多语言语音识别的准确性和实用性提供了理论基础和实践经验。