多层特征与性别模型提升汉语口音识别准确率

需积分: 0 155 浏览量更新于2024-09-07 收藏 449KB PDF 举报

该篇论文深入探讨了中文口音辨识领域的研究方法，由侯珏和刘轶两位作者共同完成。他们提出了一个两阶段的策略，旨在提高汉语口音识别的准确性和性能。首先，他们采用了多层特征的概念，这是通过整合传统梅尔频率倒谱系数(MFCC)参数和基频曲线特征来实现的。这些音段特征和超音段特征能够捕捉汉语口音的独特特性，比如音节的发音方式和音调变化。基频曲线片段被采用三次多项式进行拟合，这种方法有助于捕捉不同口音之间的细微差别。传统的基于高斯混合模型(GMM)的处理方式未能充分利用多维特征，因此，作者引入了支持向量机(SVM)这一机器学习工具，它在决策阶段表现出更强的特征融合能力。论文特别强调了性别相关模型的应用。考虑到口音可能与说话者的性别有关，通过分阶段的方式，他们构建了性别相关的高斯混合模型，这进一步提升了辨识的精确性。实验结果在863汉语口音数据集上验证了这一方法的有效性，相较于仅使用MFCC特征且不考虑性别因素的传统方法，他们的方法能够显著降低约20%的相对误差。这篇论文的核心贡献在于结合多层特征、性别相关模型以及支持向量机技术，开发出了一种新颖且有效的中文口音识别系统。这对于语音识别技术，特别是针对汉语口音的个性化识别具有重要的理论价值和实践意义。研究者们通过细致的特征工程和模型设计，展示了在实际应用中如何提升口音识别的准确性，为今后相关领域的研究提供了新的思路和参考。