嵌入式语音二次识别:BP神经网络与DTW算法结合
需积分: 34 190 浏览量
更新于2024-08-10
收藏 6.39MB PDF 举报
"本文档是一篇北京工业大学硕士研究生赵淳的学位论文,主题是‘嵌入式非特定人孤立词语音识别系统的设计与实现’,由黄樟钦和龚卫中教授指导。该研究源于‘十五’‘211工程’重点学科建设项目和北京市教委基金项目。论文探讨了在FPGA平台上实现非特定人的小词汇量、孤立词、低成本的语音识别控制系统的设计与实现方法。"
在语音识别领域,二次识别算法是一种提高准确性和降低词表外语音影响的有效手段。在本文提及的系统中,采用了动态时间规整(DTW)作为第一次识别,然后利用神经网络进行第二次识别,即二次识别。DTW是一种计算两个序列最佳匹配路径的方法,常用于声学模型的匹配。在DTW识别后,每个模板的累积距离被作为神经网络的输入。这里选择的是简单的反向传播(BP)网络,它是一种三层感知器,包括输入层、隐藏层和输出层。输入向量x通过Sigmoid激活函数传递到隐藏层,再由隐藏层通过权值连接到输出层,输出层负责识别和拒绝决策。
神经网络的训练涉及权值的更新,这通常通过反向传播算法完成,该算法根据输出误差逆向调整权重,以最小化网络的总体误差。Sigmoid函数在神经网络中常用作激活函数,因为它能提供连续且光滑的输出,有助于网络的训练和泛化能力。
在嵌入式系统中,FPGA(现场可编程门阵列)由于其灵活性和高性能/成本比,成为了实现语音识别的理想选择。与传统的MCU(微控制器)和DSP(数字信号处理器)相比,FPGA可以并行处理多个任务,更适合实时信号处理。本文中,作者探讨了如何在FPGA平台上优化嵌入式语音识别算法,以及系统软硬件的划分策略。此外,还研究了辅助软件的用户友好性,以确保整个语音识别系统易于操作。
该研究最后集成了一种面向非特定人的语音识别片上系统(SoPC),用于控制不同的玩具,展示了其在实际应用中的潜力。这为基于FPGA的低成本SoPC语音控制系统提供了理论基础和实践经验,对嵌入式语音识别技术的发展具有重要意义。
关键词: 语音识别,动态时间规整,嵌入式,非特定人。
2019-11-20 上传
107 浏览量
2020-03-18 上传
2019-05-27 上传
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
杨_明
- 粉丝: 77
- 资源: 3876
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍