DenseNet-BiLSTM网络架构:提升关键字识别的精度与效率

6 下载量 154 浏览量 更新于2024-08-26 收藏 821KB PDF 举报
"本文介绍了一种有效结合DenseNet和BiLSTM的网络架构,用于关键字识别(Keyword Spotting,KWS),旨在提高检测精度,同时降低存储需求。该研究在DenseNet基础上构建了一个适应语音特性的DenseNet-Speech变体,以保留语音时间序列信息,并结合BiLSTM捕捉时间依赖性。实验证明,这种方法在Google Speech Commands数据集上的性能优于现有技术。" 正文: 关键字识别是智能设备和人机交互的关键部分,目标是提高识别精度并保持小巧的模型尺寸。近年来,深度学习技术在语音识别领域取得了显著进展,特别是DenseNet和BiLSTM等网络结构的应用。DenseNet以其高效的特征提取能力而闻名,而BiLSTM则擅长处理时间序列数据,捕捉长期依赖关系。 本文中,作者提出了一个创新的DenseNet-BiLSTM架构,专门针对KWS任务。传统的DenseNet在计算机视觉任务中表现出色,但在语音识别中可能会丢失时间序列信息。为此,研究者设计了DenseNet-Speech,它在时间维度上删除了池化层,以保留语音信号的时间连续性。此外,通过使用更稀疏的块和滤波器,DenseNet-Speech能够保持较小的模型大小,减少计算时间和内存占用,这对于在移动设备上运行尤其重要。 BiLSTM在网络的另一端发挥着作用,它通过两个反向传播的LSTM层同时考虑过去的和未来的上下文信息,从而增强对语音序列的理解。DenseNet-Speech提供的局部特征与BiLSTM的时间序列理解相结合,形成了一个强大的特征表示,提高了识别准确性。 实验结果显示,这个集成模型在Google Speech Commands数据集上表现优越,对于包含223K可训练参数的20条命令识别任务,实现了96.6%的精度。这一成果表明,DenseNet-Speech和BiLSTM的结合是KWS任务的一种有效解决方案,有望在未来的人机交互系统中得到应用。 本研究由国家自然科学基金、广东省公共研究与能力建设项目以及广东省基础与应用基础研究基金资助。作者Mengjun Zeng和Nanfeng Xiao来自于华南理工大学计算机科学与工程学院,他们的工作对改进语音识别系统及其在实际应用中的性能有着重要的贡献。