改进相位自相关系数在说话人识别中的应用

需积分: 9 0 下载量 111 浏览量 更新于2024-08-12 收藏 268KB PDF 举报
"说话人识别中语音特征参数研究 (2009年),作者:杨建华,于小宁,发表于《六理学院学报》,主要探讨了线性预测倒谱系数(LPCC)和美尔倒谱系数(MFCC)在说话人识别系统中的应用,并提出了一种改进的相位自相关系数方法。 说话人识别是一种生物特征识别技术,它通过分析语音信号来确定说话人的身份。在构建说话人识别系统时,特征参数的选择和提取是核心环节,因为它们直接影响系统的识别性能。本文主要研究了两种常见的语音特征参数: 1. **线性预测倒谱系数(Linear Prediction Cepstral Coefficients, LPCC)**: 线性预测编码是一种分析语音信号的方法,它基于语音信号的线性预测模型。通过对语音信号进行傅里叶变换,然后计算倒谱系数,可以得到反映语音频谱特性的参数。LPCC是进一步对倒谱系数进行差分处理得到的,增强了时间上的局部特征,对于说话人识别系统具有较高的辨别能力。 2. **美尔倒谱系数(Mel-Frequency Cepstral Coefficients, MFCC)**: 美尔倒谱分析结合了人类听觉系统的特性,首先将频率轴转换为美尔尺度,然后进行滤波、取对数和倒谱变换。MFCC能够模拟人类听觉感知,捕捉到语音中的主要音调和节奏信息,因此在语音识别中广泛使用。 在基础研究之上,作者提出了**改进的相位自相关系数**,这是一种优化的特征参数。传统的自相关系数主要关注信号的时间相关性,而改进的相位自相关系数可能考虑到了相位信息,从而提高了识别的准确性。通过实验比较,发现该改进方法能显著降低系统的误识率,即减少了将一个说话人误识别为另一个说话人的概率,从而提升了系统的整体性能。 这项工作不仅深入研究了现有语音特征参数的优势与不足,还提供了新的方法来优化这些参数,对提高说话人识别系统的性能有着重要的理论和实践价值。对于未来的语音识别研究,尤其是在噪声环境下或大规模说话人数据库的应用,改进的相位自相关系数可能成为一个有效的工具,有助于推动整个领域的进步。