TI DSK5402平台上的VQ说话人识别系统

0 下载量 138 浏览量 更新于2024-09-01 收藏 369KB PDF 举报
"该文介绍了如何使用数字信号处理器(DSP)实现基于矢量量化(VQ)技术的说话人识别系统。系统建立在TI的DSK5402开发平台上,设计了一个能识别6个不同说话人的系统。系统利用10阶线性预测系数(LPC)、10阶线性预测倒谱系数(LPCC)以及基音参数作为特征提取,同时提出了一种改良的LBG(Linde-Buzo-Gray)算法,防止在迭代过程中出现空腔问题,以适应不同的距离度量。实验表明,该系统在特定文本的说话人闭集测试中表现出良好的识别性能。" 本文的核心是利用 DSP 技术实现说话人识别,这是一种基于个人语音特征的自动识别技术。根据说话人是否需要说出特定文本,说话人识别可以分为文本相关和文本无关两类。本文的系统属于文本相关类型,要求识别时说话人需念出特定内容。近年来,说话人识别技术在理论和实践中都取得了显著的进步,许多公司和研究机构,如AT&T、欧洲电信联盟等,都在开展相关研究。 系统的设计基于TI的DSK5402开发板,选择VQ作为主要的特征编码技术。VQ是一种数据压缩技术,常用于语音识别中,能将复杂的语音特征映射到离散的矢量空间,便于比较和匹配。为了提高VQ的效率和适应性,文章提出了一种改进的LBG算法,LBG算法是经典的码书生成方法,改良后的版本能够避免在生成码书过程中出现的空腔问题,增强了系统的鲁棒性。 识别流程包括语音预处理、特征提取、模板生成和匹配判断四个步骤。预处理阶段,系统使用一阶滤波器进行预加重,然后进行分帧加窗处理,采用汉明窗和余弦窗的组合,以及幅度门限法进行端点检测。特征提取则涉及10阶LPC和LPCC参数以及基音参数,这些参数能有效反映说话人的独特语音特征。识别时,新语音的参数与预先训练的模板进行比较,最终确定最匹配的说话人。 该系统展示了在DSP硬件平台上实现高效、低成本的说话人识别的可能性,具有广泛的应用潜力。其改良的LBG算法和VQ技术的结合,为优化识别准确性和实时性提供了新的思路。