多层特征与性别模型提升汉语口音识别准确率

需积分: 0 0 下载量 155 浏览量 更新于2024-09-07 收藏 449KB PDF 举报
该篇论文深入探讨了中文口音辨识领域的研究方法,由侯珏和刘轶两位作者共同完成。他们提出了一个两阶段的策略,旨在提高汉语口音识别的准确性和性能。首先,他们采用了多层特征的概念,这是通过整合传统梅尔频率倒谱系数(MFCC)参数和基频曲线特征来实现的。这些音段特征和超音段特征能够捕捉汉语口音的独特特性,比如音节的发音方式和音调变化。 基频曲线片段被采用三次多项式进行拟合,这种方法有助于捕捉不同口音之间的细微差别。传统的基于高斯混合模型(GMM)的处理方式未能充分利用多维特征,因此,作者引入了支持向量机(SVM)这一机器学习工具,它在决策阶段表现出更强的特征融合能力。 论文特别强调了性别相关模型的应用。考虑到口音可能与说话者的性别有关,通过分阶段的方式,他们构建了性别相关的高斯混合模型,这进一步提升了辨识的精确性。实验结果在863汉语口音数据集上验证了这一方法的有效性,相较于仅使用MFCC特征且不考虑性别因素的传统方法,他们的方法能够显著降低约20%的相对误差。 这篇论文的核心贡献在于结合多层特征、性别相关模型以及支持向量机技术,开发出了一种新颖且有效的中文口音识别系统。这对于语音识别技术,特别是针对汉语口音的个性化识别具有重要的理论价值和实践意义。研究者们通过细致的特征工程和模型设计,展示了在实际应用中如何提升口音识别的准确性,为今后相关领域的研究提供了新的思路和参考。