基于深度学习网络的脑电情感识别

114 浏览量更新于2023-12-20 收藏 1.91MB PDF 举报

情感识别

深度学习网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

工程科学与技术，国际期刊24（2021）1442全文文章基于深度学习网络的脑电特征图情感识别AnteTopic，Mladen RussoFaculty of Electrical Engineering，Mechanical Engineering and Naval Architecture，University of Split，克罗地亚斯普利特21000阿提奇莱因福奥文章历史记录：收到2020年2021年2月28日修订2021年3月24日接受2021年4月16日网上发售保留字：脑机接口脑电图情绪识别效价-唤醒模型深度学习计算全息A B S T R A C T近年来，利用脑电信号进行情感识别的研究越来越受到人们的关注。由于脑电信号具有噪声、非线性和非平稳特性，因此开发一种能够提供高精度情感识别的智能框架是一项在本文中，我们提出了一个新的模型，情感识别，将基于创建的特征地图的基础上的地形（TOPO-FM）和全息（HOLO-FM）表示的EEG信号特征。深度学习已被用作特征图上的特征提取器方法，并且在分类过程中将提取的特征融合在一起以识别不同种类的情感。实验在四个公开的情绪数据集上进行：DEAP，SEED，DREAMER和AMIGOS。我们证明了我们的方法的有效性，与研究相比实验结果表明，本文提出的方法在不同规模的数据集上都能提高情感识别率。©2021 Karabuk University. Elsevier B.V.的出版服务。这是CCBY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍情绪是人类对事件的反应，它们对整个身体都有它们是我们日常生活的一部分，也是非语言交流的重要组成部分，因此心理学家对它们进行了数十年的研究也就不足为奇了我们接触的每一个物体都是我们对之产生情感反应的刺激物如果刺激是积极的，那么情绪也会是积极的。无论是哪种类型的情绪，它们都可以通过人类情绪表达的各种模式来表现，例如心理生理学，面部表情，手势或生物反应。研究人员已经投入了大量的精力来发明智能情感识别系统。其中一些是基于一组非生理信号，如语音[1]，面部表情[2]和姿势[3]，但由于这些方法非常主观，取决于一个人的年龄和文化，很难确定情感的真实性。生理信号，如心率[4]、皮肤阻抗、呼吸[5]或大脑信号，以及功能性磁共振成像（fMRI）[6]、脑磁图（MEG）[7]和脑电图（EEG），可以给出*通讯作者。电子邮件地址：atopic@fesb.hr（A. 题目）。由Karabuk大学负责进行同行审查更可靠的结果。这一研究领域的关键挑战是仅基于各种身体传感器可以捕获和测量的生理和生物反应来检测人类情绪。一个例子是脑机接口（BCI）[8，9]，这是一个我们将重点关注的EEG传感器。它测量人脑（中枢神经系统）中产生的生理信号。由于脑电信号是非线性、非平稳的，并且含有大量的噪声，因此基于脑电信号特征的情感识别领域具有很大的挑战性。此外，EEG信号的特征主要从时间、频率或时间-频率域提取，并且最近从空间域提取。基于信号的空间特征构建情感识别模型的研究人员主要关注电极对之间的不对称性。也就是说，在大多数情况下，分别由大脑左半球和右半球上的相应电极测量的信号。因此，出现的问题是，信号的空间特征，其中包含的重要信息有关的情绪识别，是否可以以其他方式呈现这项工作的动机正是研究人员目前面临的问题。更具体地说，目标是从EEG信号创建新的特征图，并构建一个高级模型来识别用户的情绪状态，https://doi.org/10.1016/j.jestch.2021.03.0122215-0986/©2021 Karabuk University.出版社：Elsevier B.V.这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表工程科学与技术国际期刊杂志主页：www.elsevier.com/locate/jestchA. Topic和M. Russo工程科学与技术，国际期刊24（2021）1442-14541443以高精度产生结果。因此，我们提出了地形（TOPO-FM）和全息（HOLO-FM）特征图，这些特征图是从EEG信号的各种特征中创建的。此后，深度学习技术已被用作特征图上的特征提取器方法。提取的特征已被融合，并得到用户情绪的分类，机器学习技术已被利用。此外，该想法是在通过实验方法获得的信号上验证模型，并且通过具有相对于电极数量的不同空间分辨率的测量设备记录。为此，我们在四个公开的情绪数据集上进行了实验： DEAP ， SEED ， DREAMER 和AMIGOS。通过使用所提出的方法，我们已经取得了优于使用可比方法的研究本文其余部分的结构如下。第二节介绍了相关工作。第三节介绍了所使用的数据集和选定的特征。此外，在第IV节中详细解释了创建特征图、特征提取以及最后分类方法的过程。关于结果的讨论见第五节，结论见第六节。2. 相关工作近年来，随着脑机接口技术的发展，从脑电信号中识别情绪越来越受到研究者的重视，常用离散或维模型进行情绪分类。Ekman[10]提出了一个包含六种基本情绪的离散模型：愤怒、厌恶、恐惧、快乐、悲伤和惊喜，而Plutchik则开发了八种基本情绪的轮子[11]。这些情绪中的每一种都可以被表达得更强或更弱，因此，Russel和Mehrabian分别提出了在Valence-Arousal和Pleasure-Arousal-Dominance空间中表示情绪的二维模型[12]和三维模型[13]情感认知利用单一或多模态标记数据作为输入，并进一步进行深度学习，以不断学习未标记数据。情绪检测是情绪认知的一部分，它在机器或深度学习算法的分类过程中使用单一或多模态情绪标记数据[14]。基于EEG的情绪识别研究通常包括以下步骤：情绪诱发、收集和预处理信号、特征提取、以及最后分类以识别特定情绪。特征可以从时域、频域、时频域或空间域中提取类似地，迄今为止已经提出了许多分类算法，诸如支持向量机（SVM）、线性判别分析（LDA）、贝叶斯分类器、k-最近邻（k-NN）等。但由于越来越多的公开数据集包含大量实验获得的大脑信号，研究人员开始使用深度学习技术[17]。卷积神经网络（CNN）和深度信念网络（DBN），其次是多层感知器神经网络（MLPNN），某种混合网络和递归神经网络（RNN）是情感识别任务中最常用的深度学习技术[18]。CNN在特征提取和分类任务方面表现出了强大的能力。例如，在基于重合滤波方法[19]的方法中，特征的自动提取和分类[20]，或使用多列CNN模型的情感识别[21]。为了提高模型的精度，许多研究结合用于提取特征的深度学习技术和用于各种领域分类的监督学习技术，例如群体活动识别[22]，基于微多普勒雷达[23]等，但也用于情感识别领域。这些混合方法最常使用CNN进行特征提取[24，25]，但也使用PCANet深度学习模型[26]和双峰深度自动编码器（BDAE）[27]。长短期记忆（LSTM）[28]和SVM[24，25，26，27]通常用于这类模型中的分类任务。在[24]中达到了最高的准确性，作者使用CNN和SVM组合来识别社交辅助机器人使用面部表情图像的情绪。此外，注意力特征用于EEG情感识别并不罕见，如作者在[29]中所做的那样，其中接受通道注意力机制以自适应地分配不同通道的权重，并且该框架被集成到CNN中以探索编码EEG信号的空间信息。基于注意力的卷积递归神经网络（ACRNN）将扩展的自注意力机制集成到RNN中，以探索EEG信号的时间信息。地形图像可以提供与情感识别领域中其他更常用的特征相当的结果。由于DEAP是这项工作中使用的其他数据集中引用最多的，因此可以合理地预期，许多研究论文都在处理图像作为特征存在。比如说，将电极映射到二维矩阵[30，31]中以构建多维或多频带图像的方法被证明对于整合EEG信号的空间特征、频域和时间特征是良好的。可以使用连续小波变换（CWT）构建特征图像，以创建网格状帧[32]或使用短时傅立叶变换（STFT）[33]生成EEG频谱图。有趣的是，这两种方法在情绪识别任务中对效价和唤醒提供了几乎相同的准确率。通过计算θ、α和β子带上的PSD来生成功率谱热图是用于创建二维图像的另一个想法[34]。该方法试图利用脑电地形图来提取不同脑区的信息.最后，在具有锁相值（PLV）的运动相关脑网络中构建了在不同频带（θ、α、β和γ）下作为头皮上的特征分布生成的特征图，旨在捕获非线性相位同步，以统计测量两个脑区之间的相位同步[35]。SEED数据集[27，36]的作者已经创建了特征图从五个频段提取的不同类型的特征中进行比较，用微分熵特征进行比较，得到了最好的结果。另一种方法是构建空间图，这些空间图是从分别为每个通道计算的平均微分熵创建的[37]，或者从格兰杰因果关系密度创建的空间图，格兰杰因果关系密度是整个大脑动力学复杂性的度量[38]。值得注意的是，电极频率分布图（EFDM）[39]和拓扑保持微分熵（TP-DE）[40]是用于创建将被馈送到深度学习网络的图像的两种方法，可以在SEED数据集上实现最高的准确性。任何上述类型的创建的特征地形图不一定必须仅从EEG信号构建。与其他生理信号的融合是一种常见的方法。例如，在AMIGOS数据集上采用了来自组合EEG、心电图（ECG）和皮肤电反应（GSR）信号的频谱图[41]。1948年伽柏发明了全息术[42]，这是一种利用光的干涉和衍射，借助相干光而不使用光学透镜来捕获和再现物体的三维图像的方法。我们区分全息术中的两种波，物波和参考波。第一个是被物体散射并向记录介质发散的波，而后者直接照亮记录介质。物体波的振幅，A. Topic和M. Russo工程科学与技术，国际期刊24（2021）1442-14541444害怕紧张生气兴奋负快乐积极悲惨伤心无聊高兴高兴放松的平静累困表示亮度或强度的相位和表示物体形状的相位包含关于物体的完整空间信息。如果全息图被适当地照明，观察者很难区分它是原始物体还是虚像。计算机生成全息术（CGH）是一种适用于从合成三维图形模型生成全息图的技术[43]。数字全息图通常是打印的，但在我们的研究中，我们使用[44]将其显示为二维图像。在数字全息图的再现过程中，将提供所有对象信息。CGH用于医学研究人员，例如[45]，作者利用全息显微镜和深度卷积神经网络对全息图像进行另一个例子是[46] ，其中作者使用基于 VGG-19 预训练网络的深度转移学习（DTL）对用无透镜数字在线全息（LDIH）构建的原始全息图对现有文献的回顾没有发现任何将全息术用于情感识别过程的科学研究。计算全息记录了物体的所有空间信息，因此本文的思想是将三维物体映射到平面上，并将其表示为二维图像，然后将其输入模型进行识别。唤醒活性被动Fig. 1.情感唤起空间价用户的情绪状态3. 实验数据3.1. 选定数据集本研究使用四个公开数据集的情绪EEG信号来评估我们的情绪识别方法。[2019-04- 17] [2019 - 04- 19][2019 - 04 - 05][2019 - 05] 19 - 0501：00]以下简要介绍了两种类型的数据集，表1给出了一般比较。每个人的原始EEG数据根据测量设备，通过14、32或62个电极从大脑的每个区域收集数据集。根据10-20国际系统[51]放置EEG电极该系统将相邻电极之间的距离分别定义为头部的左、右、前、后之间总距离的10%和20%。只有使用图1所示的二维情感空间的EEG信号才被视为数据。这两个维度是唤醒，范围从放松到唤醒，和效价，范围从愉快到不愉快。DEAP和AMIGOS数据集的评分范围为1 - 9，而DREAMER数据集的评分范围为1 - 5，因此我们分别使用阈值4.5和2.5将所选数据集最初不具有相同的采样率，因此为了具有可比性，我们使用来自 DREAMER 和AMIGOS的原始信号，以及来自DEAP数据集的预处理数据，其采样率为128 Hz。此外，在从SEED数据集读取数据后，我们将EEG信号重新采样为128 Hz。DEAP（使用生理信号进行情绪分析的数据集）是一个多模态数据集，包含EEG、肌电图（EMG）、眼电图（EOG）和血容量脉搏。他们是根据皮肤温度、体积描记器和皮肤电反应收集的，这些数据收集自32名参与者（16名男性和16名女性），年龄在19至37岁之间（平均年龄26.9岁）。每个参与者都通过40个一分钟长的音乐视频片段进行刺激。在每次试验/视频后，评估自我报告将EEG信号下采样到128 Hz，并使用盲源分离技术来去除EOG伪影。试验前3秒的基线也被删除。此外，还采用了4.0-SJTU情绪EEG数据集（SEED）包含来自15名受试者（7男8女，年龄23.27 ± 2.37（平均值±标准差））的EEG信号和被试在观看15个中文电影片段的同时，通过62个电极采集脑电信号，这些电影片段包含三种情绪，消极、积极和中性。每一种情绪都有五个相应的电影片段。每个参与者进行三次实验，间隔约一周。每次试验持续约4分钟的EEG数据被向下采样至200 Hz，并应用0至75 Hz的带通滤波器。在我们的工作中，我们将信号重新采样到128 Hz，以便与本工作中使用的其他数据集相同。此外，我们只使用了来自参与者的阳性和阴性试验，以与利用二进制分类的其他数据集进行比较。积极和消极的情感状态可以分别映射为高和低效价情感状态，正如作者在研究中所做的那样[52，53，54，55]表1数据集之间的比较数据集参与者审判/视频渠道实验情感状态等级表范围（阈值）测量装置采样率[Hz]出版年份DEAP3240321效价/唤醒1BioSemi ActiveTwo5122012种子1510623正/负N/AESI神经扫描系统10002015梦想家2318141效价/唤醒1EPOC的概念1282018AMIGOS4016142效价/唤醒1EPOC的概念1282018A. Topic和M. Russo工程科学与技术，国际期刊24（2021）1442-14541445p2pr22胡吉里胡吉里1/1xJ ðþð我...Þ·拉吉½N-km]·k在我们的研究中，我们希望有输入数据，已记录的便携式低成本现成的测量设备，所以我们选择了梦想和AMIGOS数据集。梦想家是由EEG和ECG信号组成的多模态数据集，hX-1þ11点经验值-12LX-LLX-log2R21p2pr2x-l2R223名参与者（14男9女），¼2log 2perð1Þ在22到33岁之间。采用14个电极的128Hz采样率的EPOC无线耳机采集被试在观看18个电影片段时的脑电数据，这些电影片段用于诱发9种不同的情绪：娱乐、兴奋、快乐、平静、愤怒、厌恶、恐惧、悲伤和惊讶。在观看情感电影（持续时间为65至393秒）后，参与者使用自我评估模型（SAM）[56]评估自我情绪，以获得对效价（范围从不快乐/悲伤到快乐/快乐）、唤醒（范围从平静/无聊到刺激/兴奋）和支配（顺从/无控制到支配/授权）的主观评估。用于个体和群体的情绪、个性和情感研究的数据集（AMIGOS）包含EEG（14通道）、ECG（2通道）和皮肤电反应（1通道）信号，以及来自两个实验的正面视频（RGB）在第一次实验中-其中，X服从高斯分布，x是变量，p和e是常数。由于脑电信号是非线性的，有几种方法来计算分形维数（FD），这是信号的复杂性和不规则性的度量这意味着如果分形维数的值更高，则信号更复杂。其中一些是Minkowski bouligand或盒计数维[63]，分形布朗运动[64]和Higuchi算法[65]。我们使用了后者提到的一个，因为它表明它优于其他方法[63]。为了用Higuchi算法计算分形维数，设X（1），X（2），. . ，X（N）是时间序列样本的有限集合。然后，新构造的时间序列如（2）和（3）所示定义：Xm：Xm; Xmk;· ··;。mN-m·k240名受试者观看了16个短视频片段（小于kk250年代），而第一个参与者中有37人参加了第二个实验。他们观看了四个长视频剪辑（更多他们被分成四组，每组五名参与者，17人单独观看视频。参与者执行自我评估在效价，唤醒，支配，熟悉，喜欢，和七种基本情绪（中性，m¼1;2; ···;k其中m是初始时间，k是间隔时间。k组Lm（k）由（4）计算：厌恶，快乐，惊讶，愤怒，恐惧和悲伤），在他们看了每一个视频。为了与其他数据集进行公平比较，. . P½N-km]X m ikX m i1K1000吨在我们的研究中，我们只使用了第一个实验的数据。作为Lm kk4在[57]中报告，7名参与者（ID：9，12，21，22，23，24，29和33）在他们的试验中有缺失数据，因此我们没有在我们的研究中使用它们。由于我们定义的阈值为4.5，一些参与者没有同时具有低情感状态和高情感状态，因此我们也排除了他们的数据。参与者5和28仅具有高唤醒，而参与者11和30仅具有低唤醒值。除此之外，ID为11的参与者还具有只有高价。3.2. 所选要素其中Lk表示Lm（k）的平均值，并且在（5）中存在如下关系：hLki/k-D5此外，分形维数可以通过不同的k与其相关联的Lk之间的对数绘图来获得。长度为N的信号x的Hjorth参数[66]是信号处理[16，67]中常用的特征。Hjorth活动（HA）表示振幅的平方标准偏差（信号的平均功率），如（6）所示：这些特征描述了信号，因此选择能够为我们提供最佳信息的特征非常重要活动时间表N2n1N6信号φ通常，从时域（例如，统计、分形维数、Hjorth参数、高阶交叉）、频域（例如，功率谱密度）、时频域（其中x代表x的平均值。Hjorth迁移率（HM）测量斜率相对于振幅（信号平均频率）标准偏差的标准偏差，并可通过（7）计算：svarx0估计，差异因果关系）。尽管研究人员正在使用一种在大量不同的复杂特征中，我们只选择了9个移动性分析关于我们ð7Þ描述信号功率、能量、复杂度、不规则性和标准偏差的特征所选特征的分数维、Hjorth活动、流动性和复杂性、峰-峰和均方根属于时域，而其中x第三个参数，Hjorth复杂度（HC），是标准斜率的数量，即- 测量信号与正弦形状的偏差（8）：带功率、微分熵和功率谱复杂度xMobilityMexx0Mexx8密度是来自频域的特征。这些特征在使用它们的模型中产生最先进的精度，如下所述。频带功率（BP）是表示其时域样本的平方和除以信号长度的常规特征[15，58，59]。微分熵（DE）是信号复杂性的度量，也与最小描述长度相关[60，61，62]。高斯分布的微分熵公式可以表示为（1）联系我们_联系我们峰间（PP）是信号x中最大值和最小值之间的差。使用峰-峰技术[15，68]频繁评估信号幅度。此外，该特征经常用于从音频信号中识别情感[69]。功率谱密度（PSD）[36，70，71，72]是计算不同频带平均能量的传统和众所周知的方法。我们利用韦尔奇ZexpP-A. Topic和M. Russo工程科学与技术，国际期刊24（2021）1442-14541446方法并取其平均值。均方根（RMS）是测量电磁波振幅的常用方法，一个生物信号[73，74，75]。4. 方法在利用常用EEG特征的情况下，不考虑用于特定EEG频带的EEG电极的位置此外，可以使用基于深度学习的方法提取比传统方法表现更好的更有意义的特征[34]。本研究的目标是利用特征图的优势，这些特征图可用于表示五个所用EEG子带（δ、θ、α、β和γ）中每一个的空间和频谱信息为此，我们使用九个特征从EEG信号创建了新的特征图，并构建了一个具有可靠性的高级模型，以识别用户的情绪状态，其准确性与最先进的水平相当。我们新构建的混合模型在信号特征的深度学习过程中使用卷积神经网络和监督学习技术来对用户的情绪状态进行分类。4.1. 要素地图创建这项研究提出了两种方法，称为TOPO-FM和HOLO-FM，用于创建将输入到深度学习网络中的特征图这两种方法的共同点是，对于每个参与者在每个子带上计算信号特征，诸如频带功率（BP）、微分熵（DE）、分形维数（FD）、Hjorth活性（HA）、复杂度（ HC ）和迁移率（ HM ）参数、峰 - 峰（ PP ）、功率谱密度（PSD）每个单独的信号特征的值被映射到描述头部上的电极位置的标准国际10 -20系统，其在图1中示出。3.第三章。通过显示电极位置处的信号特性的值，定义了该点在三维空间中的位置。在三维空间中的信号特性的研究进行了两个方向：TOPO-FM和HOLO-FM。在第一个研究方向中，通过拓扑图显示为特定子带计算的信号特征的值，其中对我们称之为HOLO-FM的第二种方法利用计算机生成的全息术，其用于从信号的空间特性（即，从空间中的点）创建二维特征图。数据集的比较如表1所示，可以看出，所有这些数据集在参与者数量、试验、渠道（DREAMER和AMIGOS除外）和实验方面都有所不同。因此，每个参与者的特征图数量将根据数据集而变化。因此，DEAP具有每个partic-ipant的1800个特征图，总共是57600个。对于SEED，每个参与者产生1350个，所有三个实验一起产生20250个。DREAMER和AMIGOS是具有与SEED相似的特征映射总数的数据集。DREAMER和AMIGOS总共使用了18630和20880，每个参与者分别使用了810和7204.2. TOPO-FM信号的每个特征的值位于由10-20系统定义的电极位置处。如图2所示，电极位置被映射在特征矩阵取决于数据集。具有九行和九列的矩阵已被证明是一个很好的选择，因为它可以充分映射所有电极[30，31]。另一方面，它适用于具有少于81个电极的所有数据集，并且在我们的情况下是所有四个数据集。如图所示 3分别利用脑电信号的每个特征，为五个子带中的每个子带创建了一个二维特征图。然后，对矩阵上的空白空间进行插值，并这些TOPO-FM图像被输入到深度学习模型中进行特征提取。图在图4中，示例显示了第一个参与者的α带中的Hjorth活动特征，并且它在SEED上被分类为阳性值，在所有其他数据集上被分类为高效价。关于根据9 x9矩阵上的10-20个电极标测，如图所示。在图2中，每个电极的坐标是恒定的，并且例如，额叶F7具有（1，7），而颞叶T7具有（1，5）坐标。它不是完全可比的，但在图中可见。图4显示F7和T7电极之间的区域在这些试验期间高度活跃。4.3. HOLO-FM由于全息图能够在三维空间中记录被照射物体的完整空间信息，我们将其应用于创建全息特征图。为此，我们采用了计算全息的同轴全息图算法[44]。首先计算了脑电各通道子带的特征，并在空间域上加以表示下一步是将三维物体映射到平面上，并将其显示为二维图像。一个简单的方法来描述一个全息fea的创建图5给出了真实的地图。照明源是波长k= 532 nm的相干光，其是绿色二极管泵浦固态（DPSS）激光器的模拟。三维物体场景是旋转的方式，照明沿Z轴保持相同的逻辑地形特征地图。对于归一化的每个点，我们计算了经典全息图，即，球面波（物体光）和平面波（参考光）的干涉图案当物体被照明时，波被物体散射，其光向全息平面发散，而参考波直接照明全息平面。直接光传播方法用于全息图平面，这些波干涉在一起并创建给定物体的全息图显然，对象表示空间区域中的特征值为了创建完整的HOLO-FM，我们对所有通道重复了上述过程，其中DEAP为32， SEED为62，DREAMER和AMIGOS数据集为14。我们研究中的每个数据集至少有14个通道，这些通道会产生大量干扰，导致最终图像包含大量噪声。为了缓解这个问题，我们用指数函数平滑干扰，以减少撕裂的数量，并获得有关信道中特征值的更清晰的此后，从各个物点产生的所有图像相加在一起，这对应于多次曝光全息图。最后，图 6，给出了所有数据集的第一参与者的HOLO-FM示例。高化合价或正值类显示的Hjorth活动的α带。与TOPO- FM的例子类似，当参与者受到音乐视频的刺激时，额叶和颞叶的同一区域高度活跃。A. Topic和M. Russo工程科学与技术，国际期刊24（2021）1442-14541447图二. 9 x9矩阵上的104.4. 模型构建该模型一般由特征提取、特征融合和特征分类三部分组成。TOPO-FM和HOLO-FM的特征通过深度学习方法提取，每个特征的EEG信号。通过融合从每个卷积网络获得的提取特征来构造特征矩阵。之后，使用机器学习方法执行用户情绪状态的分类。该模型在图8的流程图中示出，并且在下面更详细地描述。A. Topic和M. Russo工程科学与技术，国际期刊24（2021）1442-14541448图三.从子带计算特征并将其映射到特征图上。见图4。 TOPO-FM示例。4.5. 特征提取CNN适用于解决从EEG信号中识别情感的问题，它被广泛用于学习和提取特征，以及各个领域的分类任务。CNN是一个前馈网络，它通常包含卷积层、激活层（如ReLU）和池化层。这些层的主要任务是学习和提取符号，输入对象的icant特征。这种网络的分类部分由全连接层组成，因此我们在本文中仅使用了上述层为了降低模型的复杂性并保持执行时间尽可能短，作者使用了具有少量层的CNN[30，40]。如表2所示，深度CNN由七层组成，以提取高度代表性的特征。输入到网络中的输入彩色图像的尺寸A. Topic和M. Russo工程科学与技术，国际期刊24（2021）1442-14541449图五. 全息场景。见图6。 HOLO-FM示例。表2构造卷积神经网络的细节层细节激活学习者总数图像输入卷积200x200x3，‘zerocenter’30，2x2，stride[22]，200x200x3100x100x30390ReLUpadding [0 0 0]100x100x30最大池化2x2，步幅[22]，padding [0 0 0]50x50x30卷积ReLU10，2x2，stride[22]，padding [0 0 0]25x25x1025x25x101210完全连接1x1x625039068750是200x200x3，具有“零中心”归一化。对于第一个二维卷积层，我们定义了30个高度和宽度相同的两个像素的过滤器，没有填充，所以这个层总共有390个可学习的参数。它遵循Rectified Linear Unit（ReLU）层和具有指定2x2池化区域的最大池化层。第二卷积层有10个滤波器，其尺寸与第一层相同。它有1210个可学习的参数，其次是第二个ReLU层。两个卷积层以及最大池化层都具有等于2的步幅。最后，在CNN的末尾是一个完全连接的层，由39068750个最重要的特征组成，我们稍后将使用这些特征进行特征融合，最后用于情感分类。利用带有动量的随机梯度下降（SGDM）进行优化，而初始学习率，L2正则化和最小批量大小分别为0.001，0.04和32。从所有特征图中提取的特征被融合在一起，为SVM机器学习分类器提供输入。卷积神经网络学习隐藏层中的高级特征第一个卷积层学习简单纹理等特征，而后面的卷积层学习在前一层中学习的特征的高级在DEAP数据集中，第二个二维卷积层已经为第一个参与者学习了效价情感状态的特征的可视化如图所示。第七章由于TOPO-FM特征图仅由“jet”颜色图中定义的颜色组成4.6. 多特征融合与分类来自多个全连接图层的已学习要素融合在一起，作为用作输入的最终表示有监督的机器学习分类算法。在分析文献后，可以得出结论，支持向量机通常用作深度学习方法提取特征的分类器[24，25，26，27]。一项调查显示[76]其中涵盖了99篇研究使用EEG信号进行情绪识别的论文，SVM是占主导地位的分类器，并且在~59%的情况下使用SVM[77，78]是一种功能强大的机器学习算法，通常用于分类和回归问题。它通过确定一个最佳的分离超平面来区分不同类型的标签。因此，我们使用了一个径向基函数（RBF）核的SVM分类器采用10倍交叉验证技术来评估A. Topic和M. Russo工程科学与技术，国际期刊24（2021）1442-14541450见图7。 2D卷积层的可视化。我们模型的性能其中一个折叠被用作每次迭代的测试样本，其余的折叠被用作训练样本。该过程重复十次，并在每次折叠时计算所有参与者的平均分类准确度每个参与者的准确度在实验结束时也被平均。5. 结果和讨论在本节中，我们将展示我们的情感识别模型的实验结果。表3概述了显著性水平a= 0.05的准确度和置信区间对于TOPO-FM和HOLO-FM方法，效价和唤醒空间。可以清楚地看出，HOLO-FM方法对于所有数据集都优于TOPO-FM。虽然这两种方法在DEAP数据集上的准确性几乎相同，但在SEED上的差异要显著得多，达到18个百分点。DREAMER和AMIGOS分别将它们的效价值调整为约7个百分点，唤醒值调整为5%由于特征图是根据为每个通道计算的特征创建的，因此这些结果意味着最大的差异是在具有更多电极的数据集回想一下，SEED有62个电极，DEAP有32个电极，DREAMER和AMIGOS在其测量设备上有14个电极表4提供了使用建议功能的附加视图。从HOLO-FM和TOPO-FM中提取的特征，被称为TH-FM，被融合在一起，然后被分类。得到的结果，即。准确度和置信区间，cance水平a= 0.05，与仅计算值相差不大具有TOPO-FM功能。图9-12给出了每个数据集上每个参与者的分类准确度。可以看出，TOPO-FM和HOLO-FM图表上表示每个参与者精度的线是相似的，但当然，对于地形图，值较低。它可以可以说，这是预期的行为，我们的方法给出了一致的结果。这方面的最佳示例在图10中针对不具有唤醒值的SEED数据集。在表5中，给出了每个数据集的比较结果。除了基线研究（实际上是数据集作者的研究）之外，我们选择了作者仅使用EEG信号从一个或多个不同的特征创建某种地形图或频谱图图像的研究，这些EEG信号在效价和唤醒空间中对人类情绪进行分类。在研究中，深度学习技术用于特征提取，而不管使用哪种方法进行分类。评价方法是评价模型成功与否的标准，一般可分为hold-out和k-fold交叉验证方法。最常用的方法是k折交叉验证，我们也在这项工作中使用了它。留一法（LOO）交叉验证是k折交叉验证的一种特殊情况，其中k = 1，因此可以在文献中找到留一法（LOSO）或留一法（LOTO）。因此，表5提供了与使用10倍交叉验证的其他研究的比较，这在本研究中很常见。A. Topic和M. Russo工程科学与技术，国际期刊24（2021）1442-14541451HOLO-FMSVM分类见图8。特征提取、融合与分类流程图。表3每个数据集的TOPO-FM和HOLO-FM效价和唤醒状态的准确性。TOPO-FMHOLO-FM价唤醒价唤醒DEAP0.7630 ± 0.01860.7654 ± 0.02690.7661 ± 0.02130.7772 ± 0.0287种子梦想家0.7037 ± 0.03410.8196 ± 0.01690.8492 ± 0.02760.8845 ± 0.01560.8820 ± 0.00840.9043 ± 0.0139AMIGOS0.8063 ± 0.01760.8575 ± 0.01940.8739 ± 0.00940.9054 ± 0.0102表4每个数据集的效价和唤醒状态中融合TOPO-FM和HOLO-FM的准确度。价TH-FM唤醒DEAP0.7491 ± 0.01930.7544 ± 0.0271种子梦想家0.7311 ± 0.03020.8125 ± 0.01730.8510 ± 0.0262AMIGOS0.7954 ± 0.01260.8507 ± 0.0204研究领域[31]。 AMIGOS和DREAMER数据集发布时间不长，因此除了基线数据集之外，只有少数比较作品。[31]中关于DEAP数据集的结果表明，通过在二维矩阵上映射电极来创建图像的方法[35]的方法提出了一种创建空间地图的方法。图正则化极限学习机与支持向量机见图9。 DEAP数据集上每个参与者的准确性。结合在一起进行情绪预测，作者获得了与DEAP数据集作者相同的62%的准确率[47]。在[31]以及[34]和[35]中计算了PSD特征，相比之下，它们的结果为66.73%- 71.09%，深度学习特征提取CONVUMaxCONV关于我们泳池连接BPDEFDHAHMHCPPPSDRMSA. Topic和M. Russo工程科学与技术，国际期刊24（2021）1442-14541452-见图10。 SEED数据集上每个参与者的准确性。见图11。 DREAMER数据集上每个参与者的准确性。见图12。 AMIGOS数据集上每个参与者的准确性。效价和唤醒度分别为68.28%和72.58%。通过融合信息传播模式和大脑中的激活差异，[35]中达到的最高分类准确率为88%。SEED数据集的作者[48]实现了86.65%的情感识别，但[35]和HOLO-FM方法的分类准确率分别为88%和88.45%。在[49]中达到了62.49%的效价和62.17%的唤醒，这对于情绪识别是相当有效的，然而研究[34]，TOPO-FM和HOLO-FM方法达到了更显著的准确率水平。AMIGOS数据集[50]的作者已经使用谱功率特征达到了57.60%的效价和59.20%的唤醒情绪预测。如果我们考虑[34]中的情况，我们可以看到它们优于两种情感状态的准确性结果，但仍然低于我们的两种方法。在我们的测试机器（Windows 10，Mat-lab 2019，集成Intel GPU的HP ProBook， 12 GB RAM，CPU Intel Core i5 2.40 GHz）上，使用10倍评估方法，针对每个数据集的第一名参与者试验的Hjorth活动功能的HOLO-FM/TOPO-FM和Valence/Arousal的结果是相似的，所以我们不单独显示它们。该模型目前无法用于实时识别情绪，这是未来工作中最大的挑战之一。本研究表明TOPO-FM和HOLO-FM是有效的情感识别方法。在DEAP、DREAMER和AMIGOS数据集中，效价和唤醒情绪状态分为低和高级别，而在SEED中，情绪状态分为正值和负值。在效价和唤醒空间的分类精度，以及与种子的所有三个实验的整体精度，表明所提出的方法比以前报道的可比方法更好地6. 结论在本文中，我们提出了使用EEG信号特征创建地形和全息特征图，分别称为TOPO-FM和HOLO-FM 10 -20系统用于标测电极位置处每个特性的值。通过在头部上的电极位置中显示信号的特征值来定义三维空间TOPO-FM方法利用信号特征值来显示地形图，HOLO-FM方法利用计算机生成的全息图从空间中的点创建二维特征图。深度学习技术分别用于TOPO-FM和HOLO-FM的特征学习每个神经网络的特征被合并成一个特征矩阵，然后采用基于机器学习的分类来确定情感状态。DEAP，SEED，DREAMER和AMIGOS是用于我们新提出的模型的性能评估的数据集。基于我们的研究结果，这些结果优于本工作中使用相同EEG数据集分析的研究，我们得出结论，所提出的方法可能在未来的情感识别模型中发挥重要作用。这种方法可以有助于改进为医疗目的开发的应用程序，例如为残疾人在我们未来的工作中，我们计划探索更多不同的特征集，除了本文给出的，以提高情感识别性能。此外，我们将通过组合用于训练和测试目的的数据集来扩展所提出的最后，将特别努力参与者独立的交叉验证与分类在三维空间，即价-唤醒-优势情绪模型。竞争利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作。致谢克罗地亚科学基金会在项目UIP-2014-09-3875下提供了部分支持，虚拟远程医疗援助- VITA是克罗地亚政府和欧盟通过欧洲区域发展基金-竞争力和

下载后可阅读完整内容，剩余1页未读，立即下载