HHT倒谱系数在说话人识别中的应用与优势

需积分: 9 1 下载量 201 浏览量 更新于2024-09-05 1 收藏 890KB PDF 举报
"这篇论文研究了一种基于HHT(希尔伯特-黄变换)倒谱系数的说话人识别算法,旨在解决LPCC(线性预测倒谱系数)在描述语音低频局部特征上的不足。HHT通过经验模态分解(EMD)能够更准确地捕捉语音的低频局部特性,并通过Hilbert变换揭示语音的动态特性。论文中,作者首先使用EMD将语音信号分解为多个固有模态函数(IMF)分量,然后对每个IMF分量进行Hilbert变换以获取Hilbert边际谱。接下来,计算总边际谱的对数功率谱,并通过离散余弦变换(DCT)得到13维倒谱系数,这些系数被用于高斯混合模型(GMM)进行说话人识别。实验结果显示,与传统的LPCC方法相比,基于HHT倒谱系数的识别算法在识别率上提高了12.59%,尽管特征提取时间增加了19.27秒。" 本文是关于计算机工程与应用领域的研究,聚焦于改善说话人识别的准确性。说话人识别是一种重要的生物特征识别技术,通常采用如LPCC、MFCC和PLPCC等特征参数。LPCC虽然能反映声道响应特性,但因其假设语音为短时平稳且基于线性频标,无法充分突出低频部分的局部特征。为克服这一局限,研究人员提出了多种改进方法,但多数仍基于语音的短期稳定性。 论文引入了HHT,这是一种结合经验模态分解和Hilbert变换的时频分析方法。EMD能将语音信号分解为一系列IMF分量,每个分量代表不同频率成分,尤其擅长处理非线性和非平稳信号。接着,Hilbert变换提供了一个信号的瞬时频率和幅度信息,增强了对语音动态特性的描述。 在实验部分,论文对比了HHT倒谱系数与LPCC的识别性能。结果显示,HHT倒谱系数在识别准确率上有显著提升,达到了12.59%,这表明HHT有效地利用了语音的动态特性。然而,这种改进也带来了一些代价,即特征提取时间的增加,这可能限制了该方法在实时系统中的应用。 这篇研究论文为说话人识别领域提供了一个新的特征提取途径,通过HHT倒谱系数可以更全面地捕获语音信号的特性,从而提高识别的准确性和鲁棒性。未来的研究可能会关注如何优化这一过程,减少特征提取的时间消耗,同时保持高识别率。