多模态人类情感识别的深度学习框架研究

150 浏览量更新于2023-12-09 收藏 1.17MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

埃及信息学杂志22（2021）167用于多模态情感识别Elham S.Salamaa，Renda A.作者：El-Khoribia，Mahmoud E.穆罕默德·舒曼Wahby Shalabya，ba埃及吉萨开罗大学计算机和人工智能学院b埃及吉萨尼罗河大学智能工程系统研究中心（SESC）阿提奇莱因福奥文章历史记录：2019年12月29日收到2020年3月19日修订2020年7月24日接受在线预订2020年关键词：脑电图面部表情多模态情感识别深度学习迁移学习数据扩充包围学习法A B S T R A C T人类情感识别是当前许多人机交互领域的一项重要任务。提出了一种新的多模态人类情感识别框架。该方案首先利用3D卷积神经网络（3D-CNN）深度学习架构从脑电图（EEG）信号和人脸视频数据中提取时空特征。然后，结合数据增强，集成学习技术，提出了最终的融合预测。在所提出的方案中的多模态的融合进行使用数据，和得分融合方法。因此，三种人类识别方法被建立来实现所提出的目标。它们分别是基于脑电信号的情感识别方法、基于人脸的情感识别方法和基于融合的情感识别方法。对于EEG方法，3D-CNN用于获得EEG信号的最终预测对于面部方法，首先利用Mask-RCNN对象检测然后，利用支持向量机（SVM）分类器对人脸块的3D-CNN输出特征进行分类。对于基于融合的情感识别方法，实验了两种融合技术：装袋和堆叠。结果表明，叠加技术的识别准确率最高，采用网格搜索集成学习技术，由于将权重从EEG和人脸方法转移到基于融合的情感识别方法，分别实现了效价和唤醒类的96.13%和96.79%的识别准确率该方法优于多模态情感识别领域的最新研究成果。©2021 THE COUNTORS.由Elsevier BV代表计算机和人工智能学院发布开罗大学法律系这是一篇CC BY-NC-ND许可证下的开放获取文章（http：//creative-commons.org/licenses/by-nc-nd/4.0/）上提供。1. 介绍情绪在人类生活中扮演着重要的角色。它们影响他们的生理和心理状态。情绪可以用来评价顾客对餐馆环境的印象正如作者在[1]中所说。他们提出了一个基于面部表情识别的评级系统，该系统使用预训练的深度卷积神经网络（CNN）模型。食物和环境应该在他们的系统中被评级。他们的系统由Android移动应用程序、Web服务器和预训练的AI服务器组成。Shanok等人。[2]利用自闭症儿童的情绪识别。他们的研究结果表明，TD儿童在情绪识别系统上更熟练，*通讯作者。电子邮件地址：elham. fci-cu.edu.eg（E.S. Salama）。开罗大学计算机和人工智能系负责同行审查而ASD儿童识别熟悉的表达比不熟悉的表达更准确。情绪识别是一个人识别其他人每时每刻的感受并理解他的感受和表达之间的联系的能力。Ekman等人[3]定义了六种基本情绪，即快乐、悲伤、惊讶、恐惧和愤怒。他证明了人类感知这些情绪，而不管他们的文化。情感可以用两个正交维度来表达：效价和唤醒，如费尔德曼等人所述[4]的文件。他说，每个人都可以用不同的方式表达自己的情感。当有人被要求表达周期性情绪时，这种差异就被清楚地注意到了效价范围从愉快到不愉快，唤醒范围从平静到兴奋。在所提出的工作中，作者打算将输入实例分类为效价和唤醒的二元组合;低/高效价或低/高唤醒。Mehrabian等人[5]认为面部表情能表达整体印象的占55%，发声部分能表达整体印象的占38%，https://doi.org/10.1016/j.eij.2020.07.0051110-8665/©2021 THE COMEORS.由Elsevier BV代表开罗大学计算机和人工智能学院出版。这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表埃及信息学杂志杂志主页：www.sciencedirect.com168E.S. Salama等人/Egyptian Informatics Journal 22（2021）167语义内容占7%。因此，人类的情感在本质上是多模态的文献中的情感识别工作分为两个主要领域：一些工作使用一种模态来识别情感，例如面部区域[6]、语音[7]或脑电图（EEG）信号[8]。其他研究人员使用不同的情感模态组合构建了多模态情感识别系统。将来自不同来源的知识结合起来以产生更准确的信息称为融合[9]。有三种常见的融合方法：数据级，特征级和评分级。数据级将来自不同来源的输入原始数据组合起来，以产生更多信息的数据。然后，为组合数据提取一组特征，并建立一个分类系统来对提取的特征进行特征级从不同数据源提取的多个输入特征中创建组合特征。然后，一个分类器也被用来模拟组合特征之间的关系在分数融合中，一个单独的分类系统将来自每个源的数据分布，并将它们分类到相关的类别中。然后，将每个分类系统的得分合并以获得最终得分。所提出的工作在一个紧凑的框架中采用了数据和分数融合方法。几十年来，大量的研究工作已经使用人工智能（AI）和深度学习技术来有效地解决不同的复杂问题最近，基于AI和深度学习技术开发了几种人类情感识别方案[8，15，16]。从文献中可以看出，这些最新的技术可以显着提高per-perception。最常见的深度学习方法之一是3D-CNN架构，主要用于对长序列（如语音和EEG信号）中的时间相关性进行建模，如Maturana等人所述。作者在[8]中证明了3D-CNN结构在识别多通道EEG信号中的情感方面的优越性。他们采用DEAP数据集，实现了87.44%的效价准确率和88.49%的arou- sal准确率。长序列的各个部分之间存在时间关系，忽略这些时间信息会影响情感识别系统的鲁棒性。3D-CNN架构通过在输入段上应用3D卷积操作来对长序列中的时间依赖性进行建模。3D-CNN架构被用于这项工作的拟议目标。任何识别系统的主要缺点是缺乏数据，这可能会影响其推广到看不见的样本。这可以通过增加数据（增加样本数量）来解决，或者使用已经在任务上训练过的模型，并将其重新用于另一个相关任务（迁移学习）。众所周知，数据增强可以避免系统过拟合问题。此外，迁移学习还具有节省处理时间、所需数据量少和增强系统鲁棒性等优点。因此，在所提出的多模态情感识别框架中，在一个紧凑的融合系统中采用迁移学习和数据增强阶段来解决问题缺乏有效的数据。本文的组织如下：在第二节中，以前的相关工作进行了讨论。在第3节中，讨论了所提出的方法的主要目标，以及人脸、EEG和融合识别方法的三个主要组成部分。在DEAP基准上对所提出的方法进行了评估，与最先进的方法进行了比较，并在第4节中对实验工作进行了讨论和分析。第5节总结了建议的工作和未来的工作。2. 相关作品人类的情感可以通过多种行为来表达，如手势[18]、文本[19]、EEG信号[20]和面部表情[21]。作者在[22]中提高了最近emo的准确性，利用CNN模型学习脑电信号的空间、时间特征，无需特征工程，在时间、频率组合特征上取得了最佳的识别性能。作者在[23]中提出了一种人类情感分类，该分类使用来自连续EEG信号的分层双向门控递归单元（GRU）网络，该网络能够从EEG序列中学习更重要的特征Noroozi等人。[18]定义了一个完整的自动情感身体姿势识别框架，并介绍了一种人检测，评论静态和动态身体姿势估计方法。Pan等人[24]提出了一种基于EEG的脑机接口（BCI）系统，用于意识障碍（DOC）患者的情绪识别。在delta、theta、alpha、beta和gamma频带中的共同空间模式（CSP）和微分熵（DE）特征被用于对EEG信号进行分类。Chu等人。[25]提出了一种结合空间和时间特征的多级算法。使用CNN网络提取空间表示。而时间依赖性是由长短期记忆（LSTM）网络建模的。CNN和LSTM网络的输出进一步聚合到融合网络中，以产生每帧预测。 Hasani等人。[26]使用3D-Inception-ResNet网络和LSTM单元提取视频序列中人脸帧内的空间和时间关系。面部标志点被设置为该架构的输入。Graves等人[27]采用了两种类型的LSTM（双向LSTM和单向LSTM）来建模图像序列中的时间依赖性。他们的实验证明，双向网络提供了与单向LSTM相比，这是一个显著的性能。Jain等人。[28]采用LSTM和CNN架构来获得面部表情的最终预测。首先，提取背景，并从前景图像中分离出来。然后，提取纹理模式相关的关键特征.最后，提取相关特征，以便稍后引入LSTM-CNN网络。许多与情感相关的作品使用一个源来识别情感。然而，情绪的感知在自然界是多模态的。因此，最近实现了几种结合不同情感源的工作，但达到了需要进一步改进以达到鲁棒识别性能的准确性。Liao等人。[29]提出了两种用于情感识别的多模态融合方法，它们采用求和规则和乘积规则。输入信号是EEG和面部表情。对于EEG检测，情感状态通过支持向量机（SVM）检测。使用AdaBoost算法检测人脸区域采用神经网络分类器进行表情检测。基于EEG和面部表情检测融合的情感识别结果表明，两种多模态融合检测的正确率分别为81.25%和82.75%，高于面部表情检测的正确率（74.38%）和EEG检测的正确率Castellano等人。[30]将面部表情、语音和身体姿势信息结合起来进行多模态情感识别，并使用贝叶斯网络算法实现了78.3%的准确率，优于单模态识别系统。深度神经网络在多模态融合中进行了探索[31，30]。Gunes等人。[32]结合了面部和身体模式。性能评估表明，双模态融合优于单独使用面部模态完成的分类。Baltrusaitis等人[33]开发了一个系统，除了面部表情，还可以从上身姿势推断情绪，包括头部和肩部运动。一个多层次的动态贝叶斯网络（DBN）模型的情绪状态取决于手势的概率。可以改进任何模块，或向其添加功能，但限制是E.S. Salama等人/Egyptian Informatics Journal 22（2021）167169不考虑诸如情绪状态的强度、偏移和开始的属性，如果包括这些属性，则可以进一步提高性能。如图所示，最近的多模态情感识别系统在其性能上仍需要进一步改进。所提出的方法的目的是研究使用深度学习方法将面部表情与EEG信号相结合来识别人3. 所提出的方法所提出的工作的主要目的是研究深度学习方法结合集成学习技术用于多模态情感识别的有效性。该方法结合了输入视频中的人脸数据和EEG信号。在所提出的方法中，创建了两个阶段：在第一阶段，训练两个基于3D-CNN的分类器来将EEG信号和视频数据分类到它们的二进制类中。这导致两个训练模型，每个模型用于一种模态。在第二阶段中，基于来自EEG的融合块和面部模态创建第三模型。包含两个阶段的拟议工作的完整框架见图1。所提出的框架的主要组成部分的详细描述如图所示。 1将在下面的小节中解释。3D-CNN架构是传统卷积神经网络（CNN）深度学习架构的扩展提出了3D-CNN深度学习架构，以使用3D卷积运算对长持续时间序列之间的时间依赖性和空间相关性进行建模3D卷积操作使用3D滤波器产生一组3D特征图。3D卷积运算如图所示。二、所采用的3D-CNN架构由六个基本层组成。输入层。然后，两个卷积层产生3D特征图。每个卷积层之后是最大池化层。最大池化层对来自前一层的3D特征图进行下采样，以减少处理具有巨大维度的体积所需的时间。最后一层是全连接层，用于提取最终特征. 输入体积的尺寸是5*32*128，其中5是模拟时间信息的连续帧的数量，32、128分别是来自EEG的输入帧的高度和宽度以及面部域。对于EEG输入，32表示通道的数量，并且128表示EEG输入中的样本。图二、3D卷积运算：C是输入体积，F是卷积滤波器，Q是卷积运算的输出。帧段。对于面部输入，32和128是高度，和面框的宽度。在所提出的网络中，卷积滤波器具有3*3*3的形状：其中3、3和3分别是其高度、宽度和深度。第一层中的特征图的数量是8。最大池化层的分辨率为2*2*2。第二卷积层的特征图的数量被设置为16.所提出的3D-CNN网络如图3所示。下文详细说明实现拟议框架主要目标的三种主要方法。3.1. 基于脑电信号的情感识别方法通常，来自每个信号的EEG数据从不同通道记录来自每个通道的数据被分割成小段（帧）。通过组合来自32个EEG通道的5个连续帧来创建3D-CNN模型的输入块时域数据是从EEG块中附加在一起的多个帧中捕获的一个样本EEG块如图所示。四、Koelstra等人。[34]开发了一个使用生理信号进行人类情感分析的数据库（DEAP）。它由32路脑电信号和12路外周生理信号组成。DEAP数据集速率为512 Hz，并经预处理以具有128 Hz的采样速率。这会产生少量的样本，这可能会影响任何机器学习系统的性能，从而推广到看不见的样本。采用数据扩充操作来增加样本的数量。为了增强EEG信号，首先随机生成高斯噪声信号w。然后，噪声信号和原始EEG信号两者在数学上图1.一、所提出的框架方法采用堆叠或装袋技术的融合为基础的情感识别方法。170E.S. Salama等人/Egyptian Informatics Journal 22（2021）167PW图三. 建议的3D-CNN网络。见图4。 EEG块的3D形状。添加以创建新的嘈杂版本。仅在训练阶段应用增强步骤。在测试阶段，使用EEG信号的干净版本。高斯随机噪声信号w的概率密度函数（P）由下式定义W-L-2面框。预处理步骤包括为面对系统显示在图。五、Mask-RCNN被证明为实例分割提供了增强的性能[36]。对于输入面帧，Mask- RCNN返回类标签和每个对象周围的边界框Mask-RCNN是在COCO数据集上训练的它被标记为对象，如人，汽车和其他（不包括面部对象）。Mask-CNN在DEAP数据集上进行了测试。这导致输入图像帧中的人区域。然后，应用OpenCV[37]从掩码帧中提取面部像素OpenCV，或开源计算机视觉库，是一个C++库，最初是为图像处理和计算机视觉开发的。最后，五个连续的结果帧被附加在一个块中，以对视频数据中的时间信息进行建模。人脸块的最终预测是使用最后一个完全连接层产生的3D-CNN输出特征的SVM分类器计算的输出预测是效价和唤醒的状态e2r2ðÞ¼rpﬃ2ﬃﬃpﬃﬃ ﬃ3.3. 基于融合的情感识别方法输入融合旨在将来自多个传感器的数据组合起来，其中，mu和sigma分别是噪声信号的平均值和标准偏差，w是噪声信号。3.2. 基于人脸的情感识别方法正如Khatri等人所述，面部表情被认为是人类情感的主要来源。[35]。为了在所提出的面部系统中基于面部表情来预测情绪，采取了以下操作：输入视频的帧速率为30帧每秒（fps）。这总共产生1800帧，因为在DEAP数据集中一个视频的持续时间是一分钟（60秒）。为了最小化处理时间，通过从每30个连续帧中取一帧，每个视频仅取60个帧。为了解决数据不足的问题，还增加了数据扩充步骤。选择所选择的增强类型，使得它们不影响图像中的情感相关特征，并且保持面部表情的形状清晰地出现而没有任何扭曲。除了原始帧外，仅采用3种类型的增强;翻转，更新颜色和调整亮度。从左向右翻转意味着围绕垂直轴反射帧。更新颜色意味着将原始（红-绿-蓝）RGB像素值转换为（色调-比例-方差）HSV域。然后，更新色调，饱和度和方差像素值与一些值。最后，将更新后的HSV重新转换为RGB。更新亮度意味着将恒定值（delta）添加到输入像素值。在建议的工作中选择值为0.2的Delta。然后，使用Mask-RCNN实例分割技术去除输入中的背景区域与单独使用单个传感器数据所能实现的相比，实现了改进的精度、获得了较低的检测误差概率、产生了较高的可靠性以及更具体的推断。所提出的融合框架有三个主要阶段，影响识别精度;阶段A，B和C，如图所示。1.一、阶段在这个阶段，面部块和EEG块被组合以创建融合块。EEG块和相同的5秒的面部块被组合在一个块中以创建融合块。这是通过将EEG块的第一帧和面部块的第一帧附加在彼此之上，然后以相同的方式组合连续的帧以创建具有深度5、高度64和宽度128的融合块脑电信号的持续时间为63 s。前3个被删除，因为它们没有情感内容。在EEG信号中，DEAP数据集中的原始样本数为63 s的8064个样本每秒（帧）有128个样本（这是DEAP数据集中EEG信号的帧速率由于前3秒被移除，其映射到384个样本（3*128），因此剩余的60秒具有7680个样本（8064-384）。这映射到60秒内的60帧（60*128 = 7680）。来自每5个连续帧（秒）的样本这为每个视频产生12个块（60/5 =12）。对于人脸视频，一个视频的帧数为1800帧，改变帧率后，帧数变为60帧。为了创建块，组合5个连续帧，这导致每个视频的60秒期间的12个块（60/5 = 12）。这意味着在融合阶段，E.S. Salama等人/Egyptian Informatics Journal 22（2021）167171图五. 基于人脸的情感识别系统的预处理步骤。EEG域中的块与其在面部域中的对应块组合，因为在60秒中存在相同数目的块（12）。图6描述了输入视频和信号的时间尺度上的融合过程。阶段B每个3D-CNN系统由输入数据，初始权重，3D-CNN网络组成。在输入数据的训练部分中训练的3D-CNN，以及用于给出训练模型的初始权重。然后，在输入数据的测试部分上测试该训练模型，以给出该系统的最终预测。深度学习技术中最有效的策略之一是将初始权重替换为先前训练模型中的一些权重，以利用其学习信息，并节省从头开始训练的时间，而无需任何情感背景。该策略应用于所提出的融合系统，该系统以EEG和人脸系统的初始权重开始训练。这是转移学习的主要思想，它将知识从一个任务转移到另一个相关的任务，目的是减少泛化误差，并在准确率和处理时间方面实现性能的改善。阶段C最终的分数是通过建立第三个模型来实现的，该模型分别对融合块该第三模型的预测进一步的步骤被添加以获得三个模型的最大预测，其被认为是最终的融合得分。封闭式学习是一种将各种见图6。脑电信号与人脸图像在时间尺度上的融合过程。集合学习者（个体模型）在一起即兴发挥就稳定了，提高了系统的整体性能机器学习中有几种常见的集成学习技术，包括堆叠[38]，装袋[39]和提升[40]。对于所提出的工作，采用了两种不同的分数融合方法：堆叠和装袋。3.3.1. 堆叠每个提出的面部和EEG情感系统都会产生一个经过训练的模型，以及对效价和唤醒类的最终预测。堆叠创建一个模型，从以前的训练模型中学习。然后，输出得分向量由Map规则确定，该规则给出了三个训练模型中具有最大概率的假设;EEG，面部和堆叠模型[41]。P¼arg maxhSi;Fi;Eii2其中，S、F和E是堆叠、面部和EEG情绪识别方法的预测而P是三个情绪系统的最终组合预测。3.3.2. 套袋它是一种从原始训练数据中创建许多样本数据集以减少方差的技术。然后，为每个分割构建一个最后，这些多个分类器的结果使用Map规则函数进行组合，该函数从训练模型的输出预测中获得最大预测。有许多方法可以将整个数据分割成子集。原始数据可以使用k折交叉验证进行拆分，该交叉验证将数据拆分为相等大小的子集，但防止样本在子集上重复用于分裂的另一种可能的方法是具有替换的随机子采样，其允许样本在不同的子集中重复Bagging技术有助于减少方差误差，避免过拟合，提高机器学习算法的稳定性和准确性图7示出了所提出的堆叠和装袋集成学习技术。对于叠加技术，使用交叉验证技术（K = 5）对输入融合数据进行拆分，以具有用于训练的0.8的原始数据，以及用于测试的剩余数据。这产生了融合预测，该融合预测稍后与面部相结合，并且EEG预测使用考虑来自三个预测的最大预测的指数的Map规则。对于建议的装袋，原始数据被拆分为172E.S. Salama等人/Egyptian Informatics Journal 22（2021）167见图7。建议的堆叠（左）和装袋（右）技术。5个不同的分割，保留一个分割用于测试。对于每个剩余的分割，创建一个单独的模型，产生四个训练模型。这四个训练模型使用产生四个预测向量的第五次分裂进行测试。最后的融合预测由MAP规则产生。三种不同的叠加方法被采用，它们分别是：模型平均集成，加权和集成，网格搜索集成。模型平均是一种集成学习方法，其中每个模型对最终预测的贡献相等在加权和集成和网格搜索集成中，每个集成模型的贡献可以通过系数（权重）加权以指示其预期性能。任何模型的所有预测的乘积乘以其权重以产生长度为N的新的更新的加权x¼w iω vi为所有i2 N3所提出的加权和集成与网格搜索集成方法之间的主要区别在于找到最佳权重值的方式。在加权和系综中，权重值通过实验确定。而在网格搜索集合[42]中，权重值是通过选择在从初始权重值开始之后使识别误差最小化的值来确定的。网格搜索是一种自动算法，它迭代更新不同的超参数（权重）值，并获得最小化误差的最佳超参数值。网格搜索获取您想要训练的模型和超参数值。然后计算超参数值的均方误差，让您选择最佳值。最初，它以超参数的一个值开始，并训练模型。然后，使用不同的值来训练模型。继续该过程，直到完成超参数的所有值集合。每个模型产生一个误差，选择使误差最小化的超参数值。4. 实验性作品4.1. 实验设置和结果建立了几个情感相关的数据库来评估多模态识别系统，例如DEAP、SEED和MAHNOB-HCI数据库[43]。选择DEAP数据集来评估亲-姿势的工作，因为它具有最长的持续时间信号，并且包含比其他人更多的多模态情感信号[43]。为了评估所提出的方法，由Koelstra等人开发的DEAP数据集。[34]被用来通过参与者的生理信号对参与者的状态进行建模。记录了32名参与者的生理信号。仅为22个参与者记录正面视频数据。以512 Hz的采样率记录EEG信号和外周信号。应用一组预处理操作来改善输出EEG信号，包括将采样率最小化到128 Hz，将其平均到公共参考，并且去除眼睛伪影。此外，从4到45Hz的带通滤波器被应用于EEG信号。此外，从EEG信号中去除EOG伪影音乐视频被用来引发不同的情绪，并产生EEG信号，以及在对每个音乐视频在0到9之间的唤醒、效价、喜欢/不喜欢和支配的量表上进行自我评估后，为DEAP数据集中的每个参与者提供视频数据。只有价，和唤醒类中所提出的工作。要将这些比例转换为标签，1-4的效价标度分别映射为低，5-9映射为高。1-4的唤醒量表被映射为低，5- 6的唤醒量表被映射为低。9、分别为高。为了节省处理时间在所提出的深度学习模型中有大量的像素，并且与融合系统中的3D-CNN模型具有相似的输入，输入帧被调整大小为小比例。视频数据和EEG片段的大小分别调整为32*128的高度和宽度。从每个系统中提取的特征数量分别为EEG、面部和融合系统的600、600和200。特征的数量是通过实验选择的。表1列出了所提出的框架在来自DEAP的具有EEG和面部数据的22个用户的平均准确度方面的实验结果。文中还介绍了人脸识别的分类精度和脑电检测方法。此外，从两个建议的集成学习技术的结果显示的细节。对于人脸部分，进行了三个主要实验：使用3D-CNN分类器的未增强的人脸系统，使用SVM分类器的未增强的人脸系统，以及使用SVM分类器的增强的人脸系统。SVM作为一个分类器进行测试，以提高系统的分类结果。SVM分类器被证明比3D-CNN分类器给出更好的识别结果。在SVM实验中，SVM分类器处理从3D-CNN深度学习架构中提取的特征。经证明，增强过程的准确性优于不增强的过程E.S. Salama等人/Egyptian Informatics Journal 22（2021）1671738><¼表1平均精度：堆垛，装袋。系统细节价唤醒Face +3D-CNN65.43%69.17%人脸+SVM70.28%71.45%人脸+ SVM +增强74.93%75.15%EEG +3D-CNN79.31%百分之七十七点九七EEG + 3D-CNN +增强82.32%84.12%装袋+垫块子样本86.22%86.22%k折85.49%87.75%平均集成方法84.46%86.49%加权总和84.83%86.64%网格搜索包围84.40%87.43%堆叠+扩充+迁移学习平均集成方法百分之九十五点九八百分之九十六点三一（建议的融合工作）加权总和百分之九十五点三八百分之九十五点一五网格搜索包围百分之九十六点一三百分之九十六点七九增强实验对于EEG部分，进行了两个主要实验，即EEG增强和未增强。这两个实验都使用3D-CNN分类器进行。增强次数的数目是映射到面部中的增强次数的三个：翻转、改变颜色和调整亮度。因此，除了原始样本数据之外，输入EEG信号的三个噪声版本。图8示出了在增强的情况下EEG片段与面部帧的融合。½1;1]（如果是¼A型电压，W½0：9;0：4]）实验如果输入“¼加权”>：半0：9;0：4] 最初，如果键入¼GridSearch4.2. 与其他文献的比较ð4Þ此外，它还描述了一个样本融合块及其尺寸。在融合部分，实验了两种主要的集成学习技术，即装袋和堆叠。这两种方法都是利用增广过程进行的。使用具有增强过程的堆叠技术进行额外的实验，并将权重从EEG和面部训练模型转移到融合方法。从实验结果来看，EEG模态比人脸模态具有更好的准确性。因此，在所提出的堆叠技术，更大的权重值被设置到EEG模态比面对一个。在所提出的工作中选择的权重值对于EEG和面部模态分别为0.9和0.4。在下面的等式中示出了三种所提出的堆叠方法的权重值，使得W是分别映射到EEG和面部权重值的长度为2的权重向量。type parame- ter表示当前工作堆叠方法的类型;平均、加权和或网格搜索。从表1可以得出结论，与加权和和平均集成方法相比，网格搜索方法是最好的方法。这是由于使用基于权重值的搜索来最小化误差的值，而加权和方法使用手动选择的权重值，并且在该方法中测试的值不多。将所提出的叠加技术与一种基线技术（装袋）和五种最先进的方法进行比较[44所有比较作品在实验工作中使用相同的DEAP数据集。图9示出了所提出的工作与文献中的相关工作的比较。下面列出了我们比较的文学作品的详细描述图中的本节结尾处还提供了拟议系统与比较工程之间的精度差异。Tang等人。[44]提出了两种模型来对EEG信号和外周生理信号中的情绪进行分类。第一个模型被称为双模态深度去噪自动编码器（BDDAE），其是原始去噪自动编码器（DAE）的扩展。第二个模型是双模态LSTM，它根据EEG信号和眼球运动数据生成的数据对输入特征中的时间信息进行建模。双模态LSTM在唤醒和效价分类任务上都获得了更好的性能。其效价和唤醒的成绩分别为83.82%和83.23%。Liu等人。[48]演示了一种双模态自动编码器（BDAE），用于对EEG的共享表示进行见图8。增强情况下脑电信号与人脸帧的融合过程。174E.S. Salama等人/Egyptian Informatics Journal 22（2021）167见图9。提出的融合工作（叠加增强和迁移学习）与文献中的相关工作的比较。特征或眼球运动，其随后由线性SVM分类器分类以增强多模态情感识别模型的性能。他们提出的方法分别达到85.2%和80.5%的效价，唤醒二进制类。 Shu等人[47]提出了限制玻尔兹曼机（RBM）来对多个生理信号之间的依赖关系进行建模，RBM的可见节点代表EEG信号，而外周生理信号。RBM从多个生理信号生成新的表示。然后，采用支持向量机从生成的特征中识别用户的情感状态。这分别提供了60.7%和64.6%的分类准确度的效价，唤醒。Kawde等人[46]提出了深度学习网络（DLN）来确定EEG，EMG和EOG信号特征之间的相关性它被引入到两种半监督算法中，即堆栈自动编码器（SAE）和深度信念网络（DBN）。决策融合用于对所有信号给出更精确的解释。对效价和唤醒类别的分类准确率分别为78.84%和73.08%Huang等人[45]研究了面部表情和EEG信号在组合融合系统中的使用对于人脸识别系统，使用CNN结构检测人脸的效价和唤醒状态对于脑电信号检测，采用支持向量机分类器。所有实验都使用 DEAP 数据集进行。人脸与脑电的融合率为68.00%，两个维度的融合率为70.00%：效价和唤醒。从所提出的工作取得的最好的准确性是96.13%，和96.79%的效价，唤醒类分别使用网格搜索堆叠方法与数据增强，迁移学习方法。所提出的工作的结果优于Huang等人[45]开发的工作的结果，Huang等人[45]结合了与所提出的方法类似的模态; EEG信号和面部数据，并且分别达到了68.00%和70.00%的效价和唤醒类别的融合准确度。他们的结果可能是有价值的，因为他们只使用决策级融合，而我们的工作利用数据和决策级融合。此外，他们的工作忽略了EEG和面部片段之间的时间相关性。我们的工作优于Liu等人提出的工作。[48]他们结合了EEG信号和眼动数据，并使用双模态自动编码器模型分别实现了85.2%和80.5%的效价和唤醒二进制类，这是文献中最近最好的情感识别融合系统。这可能是由于仅在眼睛区域上工作而忽略了具有丰富情感信息的面部的其余部分。实验结果证明了将知识从单模态系统转移到融合系统的优越效果。4.3. 讨论对于融合的面部表情，和情绪识别的脑电信号，在这项研究中提出了两种方法;堆叠，装袋。一个包含面部视频和EEG数据的数据集被用来评估这些方法。两种单一模式均获得了显著结果。此外，两种融合方法优于单一模式。在所提出的工作中，一个显着的改善多模态融合检测相比，单一的模态检测。原因可能是由于面部表情检测具有快速、强烈但波动的响应。而EEG检测在试验时间内具有稳定的响应。此外，人类可以欺骗机器学习系统，因为他们能够通过面部表情知道如何假装。利用脑电检测可以在很大程度上弥补表情检测的不足因此，面部表情检测和EEG检测是彼此互补的，并且多模态融合系统使用这两种检测应该比单独使用两种检测中的一种实现更高的准确度。虽然大多数研究在特征水平上结合数据，但分数融合方法被证明具有结合数据的强大可靠优势，因此优选用于结合来自不同来源的信息。一方面，在特征级别组合源在实践中难以实现，因为不同的模态可能不兼容（例如，视频数据和EEG信号）。此外，特征级产生了一个高维空间，需要进一步的降维过程来减少特征空间。另一方面，在分数级融合中，来自不同来源的知识可以单独应用。在这项工作中，面部表情和脑电信号有自己的能力，和局限性如上所述。这些信息可以用来提高识别性能。此外，它相对容易访问，并结合了面部表情和EEG模态相关的深度学习模型因此，在本研究中，评分水平的融合是首选对于所提出的融合方法，数据融合，得分融合水平相结合，得到最终的预测。EEG信号和来自输入参与者的面部表情在数据级被组合。然后，将组合数据设置为所提出的3D-CNN深度学习架构的输入。最后，使用Map规则从来自三个系统的三个输出分数计算最终预测;基于面部、基于EEG和基于融合的系统。我们的另一个亮点是通过在处理目标数据集之前预训练我们的深度学习模型来解决这个问题。从单个对象中提取的样本数量是有限的。因此，仅使用少量训练数据而不过度拟合来训练复杂模型（如3D-CNN）是具有挑战性的。增加数据扩充阶段是为了避免过度拟合。实验结果证明了将知识从单一模态系统传递到融合系统的优越效果。与不进行系统间权值转移的方法相比，该方法对效价和唤醒类别的准确率分别提高了8.41%和9.36%。5. 结论本文提出了一种将人脸表情和脑电信号相结合的信息融合技术用于人体状态识别的在这项研究中，两个融合方法进行了探索，结合面部表情，和脑电信号。除了实现广泛使用的集成融合方法，其中两个模型之间的不同权重，另一种新的融合E.S. Salama等人/Egyptian Informatics Journal 22（2021）167175通过采用两种不同的套袋技术，对该方法进行了探索。此外，所提出的融合方法优于单模态系统。从实验结果来看，3D-CNN网络被证明可以提取在准确性方面具有更好性能的共享表示。基于所进行的比较研究，表明所提出的方案可以在唤醒和效价二进制类方面实现更好的性能，因为端到端的深度学习框架被执行以映射的视频数据，和EEG信号直接到情感状态，而不是试图手动提取的特征，从输入帧，并在视频和EEG数据的时间信息建模。由于样本的限制，深度学习方法通常很难应用。因此，训练一个复杂的模型是很有挑战性的，比如只使用少量的训练数据而不过度拟合的3D-CNN。我们的另一个亮点是通过在处理目标融合任务之前预训练我们的单模态系统来解决这个问题。这减少了泛化误差，并且减少了开发和学习模型所花费的总时间。所提出的工作的主要贡献可以总结如下：所提出的方法引入了一种新的框架，该框架研究了使用3D-CNN提取EEG信号中的相关特征，并结合集成学习技术提取视频数据。此外，将知识从单一模态系统转移到融合系统导致开发和学习模型所花费的总时间的改善，并且增加了所提出的融合框架的性能。此外，脑电信号与人脸信息的结合也证明了其相对于目前其他模式结合的优越性。最后，在所提出的工作中，数据融合，得分融合利用一个紧凑的融合系统。这项研究仍有进一步的问题需要在今后解决。目前大多数的情感识别系统都是离线开发的，要将它们转换成在线的，以模拟人类的生活，方便人们的生活方式，需要大量的处理。此外，DEAP数据集的缺点是在面部的不同位置上具有许多电极，这影响了面部分割的过程，从而影响了所提出的从面部区域进行情感识别的性能。引用[1] 放大图片作者：Chang WJ，Schmelzer M，Kopp F. A deep learning facialexpressionrecognition based scoring system for restaurants. 信息与通信人工智能国际会议（ InternationalConferenceonArtificialIntelligenceinInformation and Communication，ICAIIC）p. 251- 4[2] Shanok A，Nathaniel NA Jones，Lucas NN.自闭症谱系儿童面部情绪识别障碍的本质。儿童精神病学20 1 9 ;50（4）：661-7.[3] Ekman P，Friesen WV.揭开面孔：从面部表情识别情绪的指南。1st ed.EnglewoodCliffs，N.J：Prentice Hall; 1975年。[4] 费尔德曼湖效价焦点和唤醒焦点：情感体验结构的个体差异。J. 人格，社会心理学1995;69：53-166.[5] 梅赫拉比安·阿尔伯特没有言语的交流神经病今天1968年：53-6。[6] 科湾基于视觉信息的面部情感识别研究综述传感器2018;18（401）。[7] 埃尔巴鲁吉河基于有声情感单元的语音情感识别。Int. J. 计算机应用 2019年。[8] Salama Elham S，El-Khoribi Reda A，Shoman Mahmoud A，Mohamed A. 瓦比·沙拉比使用3D卷积神经网络进行基于EEG的情感识别。国际高级计算机科学杂志，Appl. 2018;9（8）：329-37。[9] Hall DL，Llinas J.多传感器数据融合介绍。Proc. IEEE1997;85（1）：6-23。[10] M.A.W. Shalaby，N.R. Ortiz，H.H.阿马尔基于神经模糊的能源消耗和利润运营预测方法，Hassanien A.，沙兰·K托尔巴湾(eds)2019年高级智能系统和信息学国际会议论文集。AISI 2019. Advances in Intelligent Systems，and Compu

下载后可阅读完整内容，剩余1页未读，立即下载