嵌入式语音二次识别:BP神经网络与DTW算法结合

需积分: 34 16 下载量 190 浏览量 更新于2024-08-10 收藏 6.39MB PDF 举报
"本文档是一篇北京工业大学硕士研究生赵淳的学位论文,主题是‘嵌入式非特定人孤立词语音识别系统的设计与实现’,由黄樟钦和龚卫中教授指导。该研究源于‘十五’‘211工程’重点学科建设项目和北京市教委基金项目。论文探讨了在FPGA平台上实现非特定人的小词汇量、孤立词、低成本的语音识别控制系统的设计与实现方法。" 在语音识别领域,二次识别算法是一种提高准确性和降低词表外语音影响的有效手段。在本文提及的系统中,采用了动态时间规整(DTW)作为第一次识别,然后利用神经网络进行第二次识别,即二次识别。DTW是一种计算两个序列最佳匹配路径的方法,常用于声学模型的匹配。在DTW识别后,每个模板的累积距离被作为神经网络的输入。这里选择的是简单的反向传播(BP)网络,它是一种三层感知器,包括输入层、隐藏层和输出层。输入向量x通过Sigmoid激活函数传递到隐藏层,再由隐藏层通过权值连接到输出层,输出层负责识别和拒绝决策。 神经网络的训练涉及权值的更新,这通常通过反向传播算法完成,该算法根据输出误差逆向调整权重,以最小化网络的总体误差。Sigmoid函数在神经网络中常用作激活函数,因为它能提供连续且光滑的输出,有助于网络的训练和泛化能力。 在嵌入式系统中,FPGA(现场可编程门阵列)由于其灵活性和高性能/成本比,成为了实现语音识别的理想选择。与传统的MCU(微控制器)和DSP(数字信号处理器)相比,FPGA可以并行处理多个任务,更适合实时信号处理。本文中,作者探讨了如何在FPGA平台上优化嵌入式语音识别算法,以及系统软硬件的划分策略。此外,还研究了辅助软件的用户友好性,以确保整个语音识别系统易于操作。 该研究最后集成了一种面向非特定人的语音识别片上系统(SoPC),用于控制不同的玩具,展示了其在实际应用中的潜力。这为基于FPGA的低成本SoPC语音控制系统提供了理论基础和实践经验,对嵌入式语音识别技术的发展具有重要意义。 关键词: 语音识别,动态时间规整,嵌入式,非特定人。