基于MFCC和HMM的阿拉伯语音识别系统:92.92%识别精度

2 下载量 12 浏览量 更新于2024-09-02 1 收藏 549KB PDF 举报
本篇论文深入探讨了基于Mel Frequency Cepstral Coefficients (MFCC)和Hidden Markov Models (HMMs)的阿拉伯语语音识别系统的开发与研究。在语音识别领域,这项工作的重要性体现在它通过将复杂的语音信号转化为可理解的文本,实现了机器对人类语音的理解。作者们利用MATLAB平台构建了一个自动化的阿拉伯语语音识别系统,该系统专注于识别CVCVCV形式的单词,这些单词由19位母语为阿拉伯语的演讲者各重复三次,共收集了1368个单词样本。 在特征提取阶段,论文详细描述了过程,将语音信号分割成约0.25秒的帧,每个帧进一步处理为39个特征,这有助于捕捉语音信号的关键信息。这些特征是后续模型训练的基础,它们被用于确定每个状态的统计特性,例如4到10个状态,每个状态对应8个高斯分布,这在HMM中扮演了关键角色,用于建模语音信号的潜在模式。 数据方面,所有音频样本采样率为48kHz,深度为32位,以wave文件格式存储,确保了高质量的信号处理。研究者采用了一种分层次的方法,首先使用丰富的、均衡的阿拉伯语语音数据(10位演讲者*3次*24个单词,共720个单词)进行训练,然后用另一个包含24个单词、9位演讲者和3次重复的测试集(648个单词)评估系统的性能。 实验结果显示,系统在不同演讲者之间的相似单词上表现优异,达到了92.92%的单词识别准确率和仅7.08%的单词错误率(WER)。这一成果对于提高阿拉伯语语音识别的精度和实用性具有重要意义,为今后的研究提供了有价值的技术参考和实践案例,特别是在跨语言和多说话人环境下的自动语音识别系统优化上。论文发表在《计算机与通信》期刊(Journal of Computer and Communications,2020年8期),并提供了在线ISSN和印刷ISSN以及DOI,便于学术界进一步查阅和引用。