深度学习驱动的语音情感识别：混合CNN-LSTM模型与注意力机制

23 浏览量更新于2024-08-30 1 收藏 960KB PDF 举报

"本文介绍了一种基于语谱图提取深度空间注意特征的语音情感识别算法，采用混合卷积神经网络模型，并对Itti模型进行了改进，增强了情感特征的提取。研究中增加了局部二值模式纹理特征，利用听觉敏感度权重来提取与情感相关的关键特征。进一步提出约束挤压和激励网络结构，用于特征约束条件下的权重特征提取。最后，通过VGGnet和长短时记忆网络的混合微调模型提升情感表征能力。实验结果显示，该模型在自然情感数据库和柏林德语数据库上的情感识别率显著提高，相比于基准模型有8.43%的提升，且在不同数据库上的表现验证了其良好的泛化性能。" 文章深入探讨了语音情感识别领域的最新进展，特别是如何利用深度学习方法优化特征提取和情感分类。首先，作者提及Itti模型作为特征提取的基础，并对其进行了扩展。Itti模型通常用于视觉注意力机制，但在本文中被应用于语音情感分析。作者增加了一个步骤，即通过局部二值模式（LBP）提取语谱图中的纹理特征，这种特征有助于捕捉声音中的细腻变化，对情感识别至关重要。其次，考虑到人类听觉系统的特性，研究者结合听觉敏感度权重来增强情感相关特征的提取。这有助于模拟人耳对不同频率成分的敏感度，使得模型能够更准确地捕捉到与特定情感相关的声音细节。接下来，提出了一个创新的网络结构——约束挤压和激励网络（Constrained Excitation and Squeezing Network，简称CESN）。这一结构在特征提取过程中引入了约束条件，旨在优化特征的选择和权重分配，从而提高情感识别的准确性。这个过程类似于特征选择，确保模型关注到最相关的特征，避免过拟合。最后，研究者采用了VGGnet和长短时记忆网络（LSTM）的混合模型进行微调。VGGnet在图像处理领域表现出色，可以有效处理语谱图的视觉信息，而LSTM则擅长捕捉时间序列数据中的长期依赖关系，这对于理解连续的语音信号至关重要。这种混合模型能够综合两者的优点，进一步提升情感表示能力。实验部分，该模型在两个不同的数据库——自然情感数据库和柏林德语数据库上进行了测试。实验结果显示，模型的情感识别率相比基准模型提高了8.43%，这表明了模型的有效性和鲁棒性。此外，通过比较在FAU-AEC和EMO-DB两个数据库上的表现，模型展现出良好的泛化能力，能够在不同数据集上保持稳定的识别效果。这项工作为语音情感识别提供了新的思路，即通过深度混合神经网络模型结合改进的特征提取策略，提升了情感识别的准确性和泛化性。这些成果对于未来的情感识别系统设计，以及人工智能在语音交互、情感理解和人机对话中的应用具有重要的理论和实践意义。

2019052-1

研究与开发

基于语谱图提取深度空间注意特征的

语音情感识别算法

王金华，应娜，朱辰都，刘兆森，蔡哲栋

（杭州电子科技大学，浙江杭州 310018）

摘要：从语音情感特征的提取和分类建模出发，以混合卷积神经网络模型为基础，改进特征提取中的 Itti

模型，包括：增加通过局部二值模式提取的纹理特征；结合听觉敏感度权重提取情感强相关特征。然后提出

通过特征约束条件提取标定权重特征的约束挤压和激励网络结构；最后形成以 VGGnet 和长短时记忆网络混

合网络为基础的微调模型，进一步提升了情感表征能力。通过在自然情感数据库和柏林德语数据库上进行验

证，该模型在情感识别率上有明显的上升，相较于基准模型提升了 8.43%，同时对比了本模型在自然数据库

（FAU-AEC）和柏林数据库（EMO-DB）上的识别效果，实验结果证明模型具有良好的泛化性。

关键词：情感识别；深度混合神经网络模型；视觉注意机制

中图分类号：TP18

文献标识码：A

doi: 10.11959/j.issn.1000−0801.2019052

Speech emotion recognition algorithm based on spectrogram

feature extraction of deep space attention feature

WANG Jinhua, YING Na, ZHU Chendu, LIU Zhaosen, CAI Zhedong

Hangzhou Dianzi University, Hangzhou 310018, China

Abstract: Starts from the extraction and classification modeling of speech emotion features, based on the hybrid

convolutional neural network model, the Itti model in feature extraction was improved, including increasing the ex-

traction by local binary mode. The strong correlation features were extracted combining with the sensitivity of the

auditory sensitivity. Then, the constrained extrusion and excitation network structure of the calibration weights were

extracted by feature constraints. Finally, a fine-tuning model based on VGGnet and long-short-time memory network

hybrid network was formed, further enhancing the ability to express emotions. By validating on the natural sentiment

database and the German-German database, the model had a significant increase in the rate of sentiment recognition,

which is 8.43% higher than the benchmark model. At the same time, the recognition effect of the model on the natural

database (FAU-AEC) and the Berlin database (EMO-DB) were compared. The experimental results show that the

model has a good generalization.

Key words: emotion recognition, deep hybrid neural network model, visual attention mechanism

收稿日期：2018−09−03；修回日期：2019−03−06

基金项目：国家自然科学基金资助项目（No.61705055）；浙江省自然科学基金资助项目（No.LY16F010013）

Foundation Items: The National Natural Science Foundation of China (No.61705055), The Natural Science Foundation of Zhejiang

Province of China (No.LY16F010013)

下载后可阅读完整内容，剩余8页未读，立即下载

weixin_38704922

粉丝: 6
资源: 919

深度学习驱动的语音情感识别：混合CNN-LSTM模型与注意力机制

基于语谱图和卷积神经网络的语音情感识别.pdf

语音MFCC特征提取并通过CNN深度学习训练实现语音识别+matlab操作视频

语音情感识别,语音情感识别算法,matlab

基于深度学习的语音情感识别系统matlab算法实现

基于深度信念网络的鲁棒语音情感识别特征融合方法

基于深度神经网络的语音情感识别及性格分析.pdf

【课程设计】基于Pytorch实现的语音情感识别算法源码+项目说明.zip

基于卷积神经网络和长短时记忆神经网络的非特定人语音情感识别算法.pdf

一种语音情感深度迁移识别算法.docx

基于特征降维的语音情感识别MATLAB

最新资源