深度学习驱动的语音情感识别:混合CNN-LSTM模型与注意力机制

6 下载量 2 浏览量 更新于2024-08-30 1 收藏 960KB PDF 举报
"本文介绍了一种基于语谱图提取深度空间注意特征的语音情感识别算法,采用混合卷积神经网络模型,并对Itti模型进行了改进,增强了情感特征的提取。研究中增加了局部二值模式纹理特征,利用听觉敏感度权重来提取与情感相关的关键特征。进一步提出约束挤压和激励网络结构,用于特征约束条件下的权重特征提取。最后,通过VGGnet和长短时记忆网络的混合微调模型提升情感表征能力。实验结果显示,该模型在自然情感数据库和柏林德语数据库上的情感识别率显著提高,相比于基准模型有8.43%的提升,且在不同数据库上的表现验证了其良好的泛化性能。" 文章深入探讨了语音情感识别领域的最新进展,特别是如何利用深度学习方法优化特征提取和情感分类。首先,作者提及Itti模型作为特征提取的基础,并对其进行了扩展。Itti模型通常用于视觉注意力机制,但在本文中被应用于语音情感分析。作者增加了一个步骤,即通过局部二值模式(LBP)提取语谱图中的纹理特征,这种特征有助于捕捉声音中的细腻变化,对情感识别至关重要。 其次,考虑到人类听觉系统的特性,研究者结合听觉敏感度权重来增强情感相关特征的提取。这有助于模拟人耳对不同频率成分的敏感度,使得模型能够更准确地捕捉到与特定情感相关的声音细节。 接下来,提出了一个创新的网络结构——约束挤压和激励网络(Constrained Excitation and Squeezing Network,简称CESN)。这一结构在特征提取过程中引入了约束条件,旨在优化特征的选择和权重分配,从而提高情感识别的准确性。这个过程类似于特征选择,确保模型关注到最相关的特征,避免过拟合。 最后,研究者采用了VGGnet和长短时记忆网络(LSTM)的混合模型进行微调。VGGnet在图像处理领域表现出色,可以有效处理语谱图的视觉信息,而LSTM则擅长捕捉时间序列数据中的长期依赖关系,这对于理解连续的语音信号至关重要。这种混合模型能够综合两者的优点,进一步提升情感表示能力。 实验部分,该模型在两个不同的数据库——自然情感数据库和柏林德语数据库上进行了测试。实验结果显示,模型的情感识别率相比基准模型提高了8.43%,这表明了模型的有效性和鲁棒性。此外,通过比较在FAU-AEC和EMO-DB两个数据库上的表现,模型展现出良好的泛化能力,能够在不同数据集上保持稳定的识别效果。 这项工作为语音情感识别提供了新的思路,即通过深度混合神经网络模型结合改进的特征提取策略,提升了情感识别的准确性和泛化性。这些成果对于未来的情感识别系统设计,以及人工智能在语音交互、情感理解和人机对话中的应用具有重要的理论和实践意义。