HHT倒谱系数在说话人识别中的应用与优势

需积分: 9 201 浏览量更新于2024-09-05 1 收藏 890KB PDF 举报

"这篇论文研究了一种基于HHT（希尔伯特-黄变换）倒谱系数的说话人识别算法，旨在解决LPCC（线性预测倒谱系数）在描述语音低频局部特征上的不足。HHT通过经验模态分解（EMD）能够更准确地捕捉语音的低频局部特性，并通过Hilbert变换揭示语音的动态特性。论文中，作者首先使用EMD将语音信号分解为多个固有模态函数（IMF）分量，然后对每个IMF分量进行Hilbert变换以获取Hilbert边际谱。接下来，计算总边际谱的对数功率谱，并通过离散余弦变换（DCT）得到13维倒谱系数，这些系数被用于高斯混合模型（GMM）进行说话人识别。实验结果显示，与传统的LPCC方法相比，基于HHT倒谱系数的识别算法在识别率上提高了12.59%，尽管特征提取时间增加了19.27秒。" 本文是关于计算机工程与应用领域的研究，聚焦于改善说话人识别的准确性。说话人识别是一种重要的生物特征识别技术，通常采用如LPCC、MFCC和PLPCC等特征参数。LPCC虽然能反映声道响应特性，但因其假设语音为短时平稳且基于线性频标，无法充分突出低频部分的局部特征。为克服这一局限，研究人员提出了多种改进方法，但多数仍基于语音的短期稳定性。论文引入了HHT，这是一种结合经验模态分解和Hilbert变换的时频分析方法。EMD能将语音信号分解为一系列IMF分量，每个分量代表不同频率成分，尤其擅长处理非线性和非平稳信号。接着，Hilbert变换提供了一个信号的瞬时频率和幅度信息，增强了对语音动态特性的描述。在实验部分，论文对比了HHT倒谱系数与LPCC的识别性能。结果显示，HHT倒谱系数在识别准确率上有显著提升，达到了12.59%，这表明HHT有效地利用了语音的动态特性。然而，这种改进也带来了一些代价，即特征提取时间的增加，这可能限制了该方法在实时系统中的应用。这篇研究论文为说话人识别领域提供了一个新的特征提取途径，通过HHT倒谱系数可以更全面地捕获语音信号的特性，从而提高识别的准确性和鲁棒性。未来的研究可能会关注如何优化这一过程，减少特征提取的时间消耗，同时保持高识别率。