嵌入式语音识别:非特定人孤立词识别与DTW算法
需积分: 34 13 浏览量
更新于2024-08-10
收藏 6.39MB PDF 举报
"这篇硕士学位论文来自北京工业大学,作者赵淳,导师黄樟钦和龚卫中,主题聚焦于嵌入式非特定人孤立词语音识别系统的设计与实现,与‘十五’‘211工程’重点学科建设项目和北京市教委基金相关。论文探讨了在FPGA平台上构建语音识别系统的策略,特别关注低成本、小词汇量的语音控制系统在玩具和学习类电子产品中的应用。"
在语音识别领域,非特定人孤市词语音识别是一项重要的技术。这一过程涉及多个步骤,首先介绍的是聚类中心的确定方法。聚类中心是类别内的代表,通过寻找距离它最近的元素个数最多的样本作为伪中心。这个过程中,利用均值和方差来衡量样本的集中趋势和离散程度,公式(2-16)分别给出了均值和方差的计算方式。设定一个门限(如公式(2-17)所示),用于判断样本间的距离是否足够接近。如果存在多个样本拥有相等数量的近邻,那么会取它们子类中的平均距离作为标准。
接下来,论文提到了动态时间弯折(DTW)算法,这是进行时间归正处理的关键技术。DTW允许两个序列在时间轴上进行非线性对齐,以克服语音信号的长度差异,确保即使在不同时间录制的同一词汇也能正确匹配。DTW利用动态规划策略,将全局优化问题分解为一系列局部优化问题,逐步找到最佳匹配路径。
在语音模板匹配环节,直接比较输入模板和参考模板并不理想,因为语音信号的随机性和时变特性。因此,DTW被用来对类内的各个模式进行平均处理,得到更准确的聚类中心。具体操作是将伪中心与类内其他模式进行DTW匹配,取所有最优路径对应到伪中心的平均值作为最终聚类中心。
论文进一步强调了FPGA(Field-Programmable Gate Array)在嵌入式语音识别系统中的优势,相比于传统的MCU(Microcontroller Unit)和DSP(Digital Signal Processor),FPGA提供了更高的性价比和实时处理能力。研究者探讨了FPGA平台上的系统结构设计、优化的嵌入式语音算法、软硬件划分以及辅助软件的易用性,以实现面向非特定人的语音识别SoPC(System on a Programmable Chip)系统。
这篇论文深入研究了非特定人孤立词语音识别系统在FPGA上的实现,不仅具有理论价值,也为实际应用,尤其是低成本嵌入式系统中的语音控制,奠定了理论和实践基础。关键词包括语音识别、动态时间规整、嵌入式系统以及非特定人识别。
2019-11-20 上传
2020-03-23 上传
2019-02-15 上传
2024-11-05 上传
2024-11-05 上传
2024-11-05 上传
2024-11-05 上传
2024-11-05 上传
2024-11-05 上传
幽灵机师
- 粉丝: 35
- 资源: 3903
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全