语音识别新方法:基频同步分析与Fisher准则结合

需积分: 9 4 下载量 23 浏览量 更新于2024-12-31 收藏 329KB PDF 举报
"COMBINATION_OF_PITCH_SYNCHRONOUS_ANALYSIS_AND_FISHER__CRITERION_FOR_SPEAKER_IDENTIFICATION.pdf" 本文主要探讨了一种新颖的文本独立的说话人识别系统,该系统结合了音高同步分析和费雪准则,旨在提高识别的准确性和效率。在说话人识别领域,理解和应用这些技术对于语音处理和安全通信至关重要。 首先,系统采用了12阶感知线性预测倒谱(Perceptual Linear Predictive Cepstrum,PLP)和它们在5帧范围内的增量系数。这是特征提取的关键步骤,通过音高同步分析对分割的语音信号进行处理,能够有效地捕捉到语音的动态特性,这些特性对于区分不同说话人的声音特征至关重要。 接下来,利用费雪比率(Fisher Ratio)对原始系数进行计算。费雪比率是一种衡量特征区分度的统计指标,它能帮助选择那些最具区分性的系数。通过对系数的这一筛选,可以构建出一个13维的特征向量,这个向量能够更精确地表征每个说话人的独特声纹。 然后,使用高斯混合模型(Gaussian Mixture Model,GMM)来对说话人进行建模。GMM是一种常用的统计建模工具,在语音识别中特别有效,因为它能够模拟复杂的概率分布,适应不同说话人的声音变化。 实验结果显示,采用这种基于音高同步分析和费雪准则的方法,识别系统的准确性显著优于使用其他传统系数(如线性预测倒谱系数,Linear Predictive Cepstral Coefficients,LPCC)的系统。这表明所提出的特征选择策略和建模方法对于提高说话人识别性能具有积极影响。 这项研究为说话人识别提供了一种创新的解决方案,融合了音高同步分析的时序信息和费雪准则的统计优势,有望在语音识别技术中得到广泛应用,尤其是在安全通信、智能家居、智能助手等需要个体识别的场景中。