DenseNet-BiLSTM网络架构:提升关键字识别的精度与效率
154 浏览量
更新于2024-08-26
收藏 821KB PDF 举报
"本文介绍了一种有效结合DenseNet和BiLSTM的网络架构,用于关键字识别(Keyword Spotting,KWS),旨在提高检测精度,同时降低存储需求。该研究在DenseNet基础上构建了一个适应语音特性的DenseNet-Speech变体,以保留语音时间序列信息,并结合BiLSTM捕捉时间依赖性。实验证明,这种方法在Google Speech Commands数据集上的性能优于现有技术。"
正文:
关键字识别是智能设备和人机交互的关键部分,目标是提高识别精度并保持小巧的模型尺寸。近年来,深度学习技术在语音识别领域取得了显著进展,特别是DenseNet和BiLSTM等网络结构的应用。DenseNet以其高效的特征提取能力而闻名,而BiLSTM则擅长处理时间序列数据,捕捉长期依赖关系。
本文中,作者提出了一个创新的DenseNet-BiLSTM架构,专门针对KWS任务。传统的DenseNet在计算机视觉任务中表现出色,但在语音识别中可能会丢失时间序列信息。为此,研究者设计了DenseNet-Speech,它在时间维度上删除了池化层,以保留语音信号的时间连续性。此外,通过使用更稀疏的块和滤波器,DenseNet-Speech能够保持较小的模型大小,减少计算时间和内存占用,这对于在移动设备上运行尤其重要。
BiLSTM在网络的另一端发挥着作用,它通过两个反向传播的LSTM层同时考虑过去的和未来的上下文信息,从而增强对语音序列的理解。DenseNet-Speech提供的局部特征与BiLSTM的时间序列理解相结合,形成了一个强大的特征表示,提高了识别准确性。
实验结果显示,这个集成模型在Google Speech Commands数据集上表现优越,对于包含223K可训练参数的20条命令识别任务,实现了96.6%的精度。这一成果表明,DenseNet-Speech和BiLSTM的结合是KWS任务的一种有效解决方案,有望在未来的人机交互系统中得到应用。
本研究由国家自然科学基金、广东省公共研究与能力建设项目以及广东省基础与应用基础研究基金资助。作者Mengjun Zeng和Nanfeng Xiao来自于华南理工大学计算机科学与工程学院,他们的工作对改进语音识别系统及其在实际应用中的性能有着重要的贡献。
2022-01-20 上传
2023-05-24 上传
2023-05-24 上传
2023-05-24 上传
2023-05-24 上传
2023-05-24 上传
2023-05-24 上传
weixin_38723461
- 粉丝: 3
- 资源: 964
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析