LSTM与注意力机制在视频-脑电情感识别中的协同应用

版权申诉

131 浏览量更新于2024-06-27 收藏 478KB DOCX 举报

"本文探讨了基于长短记忆网络（LSTM）和信息注意机制的视频-脑电交互协同情感识别技术在人机交互中的应用。文章提出了一个二维情感表示理论，以激活度和效价值来量化人类情感，并利用人脸视频和脑电信号这两种模态的数据来更全面地理解情感状态。传统的多模态情感识别方法依赖于手动特征提取和后期融合，而深度学习，尤其是LSTM，已经在情感识别中展现出优势。尽管如此，当前方法在模态融合和信息筛选方面仍存在挑战。" 本文关注的是情感识别领域，特别是如何通过结合视觉和神经生理信号来提高识别的准确性和效率。情感识别是人机交互的关键组成部分，旨在创建能够理解和响应人类情感的智能系统。为了实现这一目标，作者采用了二维情感表示模型，将情感看作是激活度和效价值的组合。激活度衡量情感的强度，而效价值则反映了对情感的主观评价。这种表示方法有助于更全面地捕捉和量化人类情感。在技术实现上，文章提到了两种主要的信号源：人脸视频和脑电信号。前者捕捉到的面部表情反映了个体的直观和外在情感，而后者则揭示了深层和内在的情感状态。通过结合这两种模态的数据，可以获取更全面的情感信息，从而提高识别准确性。传统多模态情感识别方法通常涉及手动特征工程和后期融合，这在处理大规模数据时效率低下。相比之下，LSTM作为一种深度学习模型，特别适合处理时序数据，因此被广泛用于视频和脑电信号的情感识别。然而，现有的方法通常是分别处理每个模态，然后在决策层进行融合，这种方法可能没有充分利用模态间的交互信息。文章指出，当前研究面临的主要挑战包括如何有效地融合异构的多模态信号以及如何快速定位情感关键信息。对于前者，交互协同的融合策略可能是解决方案；对于后者，信息注意机制可以用来减少冗余信息，提高模型的效率和准确性。具体来说，可能需要开发一种新的融合模型，它能够动态地整合来自不同模态的信息，并利用注意力机制来关注最相关的信号片段。这篇文档提出了一个利用LSTM和信息注意的框架来改进情感识别的策略，特别是针对视频和脑电数据的融合处理。未来的研究可能会进一步探索这种融合模型的设计，以优化情感识别的性能，使人工智能系统在人机交互中更好地理解和适应人类的情感状态。

本文将情感识别视作一个以"选择性聚焦"方式分析人类情感各模态的时间序列信号的

过程.该过程受启发于人类视觉系统的注意机制

[13]

.人类观察场景时, 并非一次性理解整个场

景, 而是动态地"聚焦"视觉空间中的多个局部获取信息, 再将获取的信息综合以理解当前的

场景.同理, 所提的情感识别模型接收到人类情感的各模态信号时, 对每一时间点的信号进

行学习并预测出下一时间点将要"聚焦"的关键信号帧, 反复进行分析与预测, 直到获取充足

的信息进而给出情感识别结果.

其框架如图 2 所示, 本文提出的脑电信号与人脸视频交互协同的 LSTM 情感识别模型

主要包括特征提取与交互协同两个阶段.在特征提取阶段, 首先选取需要"聚焦"的关键信号

帧进行数据预处理, 然后提取出表达与泛化能力较强的特征; 在交互协同阶段, 首先将两个

模态的特征融合并进行学习.特别之处在于, 本文还会通过空域频带注意机制对脑电信号中

αα 波、ββ 波与 θθ 波的可视化图像进行重要度计算; 通过时域注意机制进行强化学习

(Reinforcement learning, RL)

[14]

, 计算下一时间点需要"聚焦"的关键信号帧时间信息并反馈至

特征提取阶段.最终, 利用情感分类器输出情感识别结果.在该模型下, 输入信号和模型行动

之间构成一个闭环-一个有选择地反复"聚焦"人类情感多模态的信号, 进行情感识别的过程.

在上述基本模型的基础上, 以下章节将展开说明人脸视频-脑电信号交互协同情感识别

方法的实现过程.

2.1 基于 CNN 的特征提取过程

本文输入信号为实验参与人员观看情感诱导视频时采集到的人脸视频与脑电信号.其

中, 人脸视频是普通摄像机采集到的实验参与人员的面部活动信号, 属于视觉信号.脑电信

号(EEG)是指按照时间顺序, 在头皮表层记录下的由大脑神经元自发性、节律性运动而产生

的电位

[15]

, 属于生理信号.脑电信号的采集方式是让实验参与人员在观看情感诱导视频时佩

戴电极脑电帽, 从而得到人类大脑皮层上 32 个不同位置的脑电信号.两个异构的信号难以直

接融合, 为此本文提出提取表达能力与泛化能力较强的特征, 同时令两模态的特征有效地交

互协同.针对人脸视频, 基于 CNN 提取面部表情特征; 与传统特征提取方法相比, CNN 具有

更强大的挖掘数据深层潜在的分布式表达特征的能力.针对脑电信号, 本文首先将脑电信号

转化为三组频带的图像序列, 这种可视化处理保留脑电信号的时域-空域特征的同时将两个

模态的信号统一为图像.然后基于 CNN 与空域频带注意机制提取脑电图像的特征.

如图 3 所示, 人脸视频的特征提取过程为:首先, 利用 Faster-RCNN 模型

[16]

检测出视频

帧中人脸区域; 然后, 利用 CNN 对人脸区域提取特征; 最后, 利用全连接层处理特征输出

最终特征向量 xxv,nxxv,n.图 4 显示的是 VGG-16 三个卷积层输出的特征图.

剩余18页未读，继续阅读

罗伯特之技术屋

粉丝: 4506
资源: 1万+

LSTM与注意力机制在视频-脑电情感识别中的协同应用

基于脑机协同智能的情绪识别.docx

基于脑电功能连接微状态的情绪状态解码.docx

基于RCNN-LSTM的脑电情感识别研究.docx

1基于蓝牙的项目开发--蓝牙温度监测器.docx

基于用户体验的共享衣橱平台研究---衣二三为例.docx

RED二次开发-Node-RED与AI技术结合.docxRED二次开发-Node-RED与HTTP协议集成.docx

基于粤嵌GEC6818开发平台-娱乐影音实训报告.docx

泛微协同办公平台E-cology9.0版本后台维护手册(K)--日程(1).docx

泛微协同办公平台E-cology9.0版本后台维护手册(O)--邮件(1).docx

PRML-2023-模式识别第四组-预研报告(1).docx

最新资源