VQ与GMM在说话人识别中的应用研究

4星 · 超过85%的资源 需积分: 13 16 下载量 200 浏览量 更新于2024-07-30 2 收藏 2.48MB PDF 举报
"这篇论文是关于基于VQ(矢量量化)与GMM(高斯混合模型)的说话人识别技术的研究,由研究生处鳇撰写,导师昱锺扬指导,于2005年提交东南大学,研究内容包括特征参数提取、VQ和GMM的模板识别方法,以及系统的实现和优化。" 说话人识别是一种生物特征识别技术,自20世纪30年代起就开始研究,其应用范围广泛。本文深入探讨了说话人识别的核心技术,包括特征提取和多种识别策略。特别关注的是矢量量化(VQ)和高斯混合模型(GMM)这两种基于模板的识别方法。 VQ是一种将连续的特征序列离散化的技术,通过将特征空间划分为多个区域,每个区域对应一个向量,从而实现语音信号的量化。在论文中,作者提出了一种改进的逐点搜索LBG算法来优化VQ训练过程。传统的LBG算法在迭代过程中可能存在空胞腔问题,不适应多种距离度量。改进后的算法能够更好地解决这些问题,提高量化效率。 同时,论文还涉及了对VQ量化误差的规格化处理,以使量化误差更适应于说话人的判断。这种规格化处理可以改善识别系统的性能,使系统在闭集测试中达到更好的识别效果。 对于GMM方法,论文进行了初步研究,讨论了EM(期望最大化)算法的初始值选择、方差限制以及模型混合数如何影响识别结果。EM算法是GMM训练的关键,正确的迭代初值和模型参数设置对识别准确性至关重要。 在预处理阶段,论文提出了一种基于基音轮廓抖动的去噪方法,有效去除语音中的噪声和静音段,提高了特征提取的准确性。这种方法在实际应用中表现出良好的效果。 最终,作者构建了一个针对8kHz单声道语音的识别系统,使用了10阶线性预测系数、10阶线性预测倒谱系数和基音参数。该系统主要基于VQ,闭集测试中在10个说话人中的识别率接近100%。系统还进一步扩展到了多人对话场景下的说话人自动分段识别,也取得了积极的识别成果。 关键词包括:说话人识别、矢量量化、高斯混合模型、LBG算法、EM算法以及去噪声方法。这些关键词揭示了研究的主要内容和技术焦点,表明了作者在说话人识别技术上的深入探索和实践。