嵌入式非特定人孤立词语音识别系统设计与实现

需积分: 34 16 下载量 97 浏览量 更新于2024-08-10 收藏 6.39MB PDF 举报
"这篇硕士学位论文探讨了非特定人孤立词语音识别系统在嵌入式环境中的设计与实现,尤其关注FPGA平台上的解决方案。作者赵淳在指导教师黄樟钦和龚卫中的指导下,研究了如何在玩具和教育类电子产品中实现低成本、小词汇量的语音控制系统。" 在语音识别技术中,非特定人孤立词语音识别是一种广泛应用于各种交互式设备的技术,它不依赖特定说话人的语音特征,而是针对普遍人群设计。这种识别系统的核心在于特征提取和模式匹配。描述中提到了两种主要的语音特征向量类型:时域特征向量和变换域特征向量。时域特征向量直接由语音帧的采样值构成,计算简单但无法有效压缩信息;而变换域特征向量,如线性预测编码(LPC)系数,能更全面地反映语音的幅度谱特性,虽然计算复杂,但对语音特征的描述更准确。 LPC是一种利用线性预测分析来描述语音信号的方法。它通过寻找一个线性预测滤波器,该滤波器能最小化实际语音样本与预测样本之间的差异。LPC系数是这个滤波器的参数,它们在倒谱域中表示为LPCC。LPC模型假设人类发声器官可以用一系列串联的声管模型来模拟,每个声管对应模型的一个极点。这种模型对元音的描述效果好,但对辅音和噪声环境下的识别能力较弱。 在实际应用中,LPC模型利用递归公式预测当前语音帧的值,即通过前面几帧的加权和来近似当前帧的采样值。这个过程可以通过最小化误差平方和来优化权重系数。论文指出,FPGA作为一种新型的实时数字信号处理平台,相比传统的MCU和DSP,提供了更高的性价比,适合实现嵌入式语音识别系统。 在FPGA平台上构建语音识别系统涉及整体结构设计、算法优化、软硬件划分以及用户友好的辅助软件开发。论文还强调了面向非特定人的语音识别SoPC系统在玩具和学习产品中的应用,这不仅有理论价值,也有实际的市场潜力。 关键词包括:语音识别、动态时间规整、嵌入式、非特定人。这表明论文涵盖了从基本的语音处理技术到实时系统实现的多个方面,特别是在FPGA上的实现,这对于开发成本效益高的嵌入式语音控制系统至关重要。