深度模态融合网络在多模态情感识别中的应用

5星 · 超过95%的资源 需积分: 50 35 下载量 54 浏览量 更新于2024-09-06 5 收藏 697KB PDF 举报
"这篇论文‘基于深度模态融合网络的多模态情感识别’由陈坤和夏海轮等人撰写,探讨了在情感计算领域中如何通过深度学习技术提高多模态情感识别的准确性。文章主要关注如何从音频和视频数据中提取有效的特征,并通过深度模态融合网络进行融合,以识别人类情感的微妙差异。" 情感识别是情感计算领域的核心问题之一,尤其是在处理音视频数据时,由于情感表达的复杂性和多样性,提取出具有区分度的特征是一项极具挑战性的任务。传统的研究方法通常采用特征级融合、决策级融合或模型级融合等策略来整合不同模态的信息。然而,这些方法可能无法充分挖掘多模态数据的深层关联。 论文提出了一种基于Xception网络的深度模态融合模型,这是一种创新的双通道情感识别框架。首先,通过滑动窗口技术将音视频信号分割为多个数据片段,接着获取人脸关键帧和语音信号的梅尔森倒频谱特征。然后,使用带有残差结构的深度方向可分离卷积核对两路输入信号进行特征提取,这种设计有助于保持模型的深度和宽度,同时减少计算复杂性。特征提取后,进行特征融合,最后通过全连接层训练分类器,以在联合特征上进行情感分类。 为了验证模型的有效性,研究人员在三个公开的音视频情感识别数据集——RML、eNTERFACE05和BAUM-1s上进行了实验。实验结果显示,提出的网络模型在所有数据集上都表现出优秀的分类性能,超越了之前的工作,证明了深度模态融合网络在多模态情感识别上的优越性。 关键词包括:情感识别、多模态、模态融合,这表明论文的重点在于探索多模态数据的情感识别方法,特别是通过深度学习和模态融合技术来提升识别效果。论文的研究对于理解和改进人机交互、智能系统的情感理解能力以及人的情感分析有着重要的理论与实践价值。