DNN-HMM多语种电话语音识别器:性能分析与Kaldi实践

需积分: 10 3 下载量 160 浏览量 更新于2024-07-17 1 收藏 2.01MB PDF 举报
本篇论文主要探讨了基于深度神经网络(DNN)和隐马尔可夫模型(HMM)的多语言电话语音识别问题,针对五个东欧语言——捷克语、俄语、匈牙利语、斯洛伐克语和波兰语,这些语言的语音数据集在SpeechDat-E中可用。由于所使用的SAMPA(Simplified Articulatory Matrix Phonetic Alphabet)编码不规范,且不同符号代表相同的音素,首先提出了将特定语言的音素映射到通用的X-SAMPA音标字母表的方法。 研究重点在于分析多语言声学建模对连续语音识别任务的影响。分别对基于高斯混合模型-隐马尔可夫模型(GMM-HMM)系统和基于深度神经网络-高斯混合模型(DNN-GMM)方法进行了分析。实验是在保持每种语言特定声学模型不变的情况下进行的,利用Kaldi工具包实现了这些识别器。论文目标之一是提供Kaldi工具的教程式描述和SpeechDat数据库的使用指南,以便于该领域研究人员的进一步研究。 单语言HMM识别器在不同语言中的最佳准确率达到了18%至28%的词错误率(WER)。引入DNN-HMM后,整体上平均提升了约4%的WER。对于多语言HMM系统,识别准确率范围在25%至37%的WER之间。对于多语言DNN模型,其对语音识别准确性产生了显著提升,平均降低了约9%的WER。 论文还涵盖了语音识别任务中的音素识别和大词汇连续语音识别分析,以全面评估DNN-HMM架构在多语言电话语音识别中的性能。通过这个研究,作者不仅展示了深度学习技术在语音识别中的应用优势,而且提供了实用的工具和技术指导,为后续的研究者提供了宝贵的参考。