抗噪声说话人识别:基于浊音语音谐波谱子带加权重建

需积分: 9 0 下载量 129 浏览量 更新于2024-08-12 收藏 457KB PDF 举报
"这篇论文是2008年发表在东南大学学报自然科学版上的科研成果,主题涉及语音处理和说话人识别技术。研究提出了一个针对浊音语音的抗噪声说话人识别算法,通过谐波谱子带加权重建来补偿噪声对训练和测试条件的影响。该方法利用重建的浊音频谱提取感知线性预测倒谱系数,并结合基音信息作为特征参数,采用高斯混合模型进行说话人建模。实验结果显示,该方法能有效提升在各种噪声环境下的说话人识别率,特别是低信噪比环境,同时对纯净语音和高信噪比环境的识别率影响较小。关键词包括说话人识别、频谱重建、感知线性预测倒谱系数、噪声补偿和谱平坦度测度。" 本文主要讨论的是一个针对噪声环境下的说话人识别技术,其核心在于浊音语音谐波谱的子带加权重建策略。在语音识别领域,噪声一直是影响识别准确性的主要因素。论文作者曾毓敏和吴镇扬提出了一种创新的算法,旨在解决这一问题。他们观察到浊音语音短时频谱的结构特征,并结合基音信息,对浊音语音的谐波结构频谱进行子带加权重建,以补偿由于噪声引入的训练与测试条件的不匹配。 该算法的具体步骤如下:首先,分析浊音语音的短时频谱,识别其特有的结构特征和基音信息;然后,基于这些信息对谐波结构频谱进行子带加权,这一过程有助于恢复噪声干扰下损失的语音信息;接着,通过重建的浊音频谱提取感知线性预测倒谱系数(PLP Coefficients),这是一种常用的语音特征提取方法,能够更好地模拟人类听觉系统的感知特性;最后,将这些特征参数与基音信息相结合,形成一个特征向量,并利用高斯混合模型(Gaussian Mixture Model, GMM)对说话人进行建模。GMM是一种常用的概率模型,特别适合于语音识别中的说话人建模,因为它能够有效地捕捉不同说话人的声音模式。 实验结果表明,这个算法在多种噪声类型下都有良好的噪声补偿效果,显著提升了在低信噪比环境下的说话人识别率。这种改进对于实际应用至关重要,因为在许多实际场景中,如嘈杂的公共场所或车载通信,低信噪比的情况非常常见。同时,该方法在保持纯净语音和高信噪比环境下的识别率方面表现出色,避免了识别性能的牺牲。 这篇论文为噪声环境下的说话人识别提供了一个有效的解决方案,通过谐波谱子带加权重建技术和感知线性预测倒谱系数的结合,提高了识别的鲁棒性,对于噪声补偿和提高识别率有重要的理论和实践意义。这一工作对于进一步改进语音识别系统,尤其是在复杂环境下的性能优化,具有重要的参考价值。