嵌入式语音识别:短时零能积算法与FPGA实现

需积分: 34 16 下载量 32 浏览量 更新于2024-08-10 收藏 6.39MB PDF 举报
"这篇硕士学位论文主要探讨了嵌入式非特定人孤立词语音识别系统的设计与实现,作者赵淳,专业为软件工程,指导教师为黄樟钦和龚卫中。该研究来源于‘十五’‘211工程’重点学科建设项目和北京市教委基金项目。论文中提到了FPGA在语音识别中的应用,以及针对低成本、小词汇量、非特定人的语音识别控制系统的设计方法。" 在语音识别技术中,短时零能积(imx267llr-c_data_sheet)是一种关键的特征计算方法,用于判断声音是否存在。短时零能积(Pn)是短时平均能量(E)与短时平均过零率(z)的乘积,公式表示为Pn=E·z。传统的语音检测方法包括短时平均幅度检测、双门限比较法和零能积比较法等。在复杂的环境条件下,由于噪声和能量幅度的不稳定性,零能积比较法被采用,因为它能更好地应对环境影响。 零能积端点检测算法通过计算每帧语音的平均能量和过零率的乘积,当这个乘积超过预设阈值时,判断为有声状态;否则,认为是无声。这种方法在高信噪比环境下表现优秀,既能保证高的识别率,又能提高计算效率,适用于嵌入式环境,计算量相对较小。然而,在实际应用中,零能积算法也存在局限性,如数据溢出和大振幅波形不易观察等问题,因此需要进一步改进。 FPGA(Field-Programmable Gate Array)作为一种新型实时数字信号处理平台,相比MCU(微控制器)和DSP(数字信号处理器),具有更高的性价比。在嵌入式语音识别系统中,FPGA架构提供了实现高性能、低功耗解决方案的可能性。论文中,作者研究了基于FPGA的语音识别片上系统(SoPC)的整体结构设计,优化了适合嵌入式环境的语音识别算法,探讨了软硬件划分策略,并实现了面向非特定人的语音识别SoPC系统,应用于玩具和学习类电子产品中,为低成本FPGA SoPC语音控制系统奠定了理论和实践基础。 关键词涉及:语音识别、动态时间规整(DTW)、嵌入式、非特定人。这表明论文深入研究了这些领域的技术和应用,特别是如何在FPGA平台上实现非特定人的、成本效益高的语音识别系统,以适应不同的交互需求。