结合静态与动态特征的方言辨识:92.5%高识别率与时间成本

需积分: 13 2 下载量 104 浏览量 更新于2024-09-05 收藏 526KB PDF 举报
该篇论文研究的焦点在于提升方言识别的准确性,特别是在处理普通话、上海话、广东话和闽南话等几种方言时,传统的Mel频率倒谱系数(MFCC)方法因其只捕捉语音的静态特征,如基频和能量分布,而在识别率上存在局限。为了克服这一问题,作者提出了一种将静态特征MFCC与动态特征滑动差分倒谱(SDC)相结合的方法。 MFCC作为一种常用的语音特征提取工具,利用人耳对频率响应的模拟来补偿信道失真,但它忽略了语音信号随时间的变化,即其动态特性。SDC则不同,它通过计算语音帧与前后帧的差异,捕捉到了语音的瞬时频率和强度变化,从而提供了更丰富的信息,有助于区分不同方言间的细微差异。 论文作者首先对四种方言分别提取了MFCC和SDC特征,然后将这两组特征集成到支持向量机(SVM)模型中进行辨识。实验结果显示,这种结合静态和动态特征的方法显著提高了识别率,达到了92.5%,这表明动态特征对于提高方言识别的鲁棒性和精度起到了关键作用。然而,引入SDC也带来了额外的计算负担,导致了较长的运算时间。 值得注意的是,SDC的性能受四个参数(N-d-P-k)的影响,这些参数的选择对识别效果有直接关系。作者对这些参数进行了深入研究,旨在找到针对不同方言的最优参数组合,以平衡识别准确性和效率。 这篇论文为解决方言识别中的挑战提供了一个创新思路,展示了如何通过结合传统静态特征和动态特征来增强模型的性能。尽管动态特征方法在识别精度上有显著提升,但实际应用中可能需要权衡计算复杂度和识别性能,这为后续的研究提供了有价值的方向。