没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报基于元学习Soumya Kuruvayil,SujaPalaniswamy计算机科学与工程系,Amrita工程学院,Bengdalu,Amrita Vishwa Vidyapeetham,印度阿提奇莱因福奥文章历史记录:2021年1月28日收到2021年6月16日修订2021年6月17日接受2021年6月22日在线提供保留字:情感识别元学习原型网络CMU Multi-PIEAffectNetA B S T R A C T在现实世界的情况下,如部分遮挡,不同的头部姿势和照明条件下,自动面部表情识别对机器学习社区来说是一个挑战。主要原因是在基线数据集中缺乏足够的具有上述条件的样本,这在训练性能良好的机器学习或深度学习模型方面带来了困难。为了克服这一挑战,我们采用了元学习的概念。使用原型网络的元学习(基于度量的元学习)已被证明非常适合少数问题,而不会出现严重的过度拟合。我们利用原型网络的快速适应能力,在这种不同的样本稀缺的情况下进行情感识别。我们使用CMU Multi-PIE数据集来训练和评估模型,该数据集包含具有部分遮挡、不同头部姿势和光照水平的为了测试系统对类内和数据集间变化的适应性,使用了AffectNet人脸数据库图像。所提出的方法被命名为ERMOPI(情感识别使用Meta- learning across Occlusion,Poseand Illumination),它使用元学习方法对静止图像进行面部表情的情感识别,并且对部分遮挡,不同的头部姿势和照明水平具有鲁棒性,这是这项工作的新颖性。与现有的情感识别工作相比,该方法的主要优点是使用较少的训练样本,并取得了与最先进方法相当的结果。该方法对CMU Multi-PIE数据库图像的准确率达到90%,对AffectNet数据库图像的准确率达到68%。版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY许可下的文章(http://creativecommons.org/licenses/by/4.0/)。1. 介绍1.1. 面部情绪识别阅读和理解情感是人类文明不可或缺的一部分。自动情感识别(ER)具有广泛的应用,如人机交互(HRI),医疗保健应用,虚拟辅助,行为分析,情感传感智能家电和驾驶员情感识别系统(Patil和Veni,2019)。多种模式识别emo-*通讯作者:计算机科学与工程系,Amrita工程学院,Kasavanahalli,Bengalu,Karnataka 560035,AmritaVishwa Vidyapeetham,印度。电子邮件地址:p_suja@blr.amrita.edu(新加坡)Palaniswamy)。沙特国王大学负责同行审查。制作和主办:Elsevier包括面部、身体姿势、生物信号和语音(Zhang等人,2017; Zhu等人, 2017年)。面部表情在面对面的人际交流中具有自动FER系统利用从人脸中提取的各种人脸特征可以大致分为几何特征和基于外观的特征。几何特征提取的相对位置的面部标志。在基于外观的方法中,提取人脸图像的纹理变化。机器学习和深度学习技术使构建能够从面部表情中自动识别情绪的软件成为可能(Baskar和GireeshKumar,2018; Li和Deng,2020)。目标是实现类似人类的性能。但由于特征提取的天然障碍、情感的混合性以及情感表达和感知的主观性等诸多挑战,该方法仍然是复杂的。1.2. 自动FERFER 的 主 要 挑 战 是 实 现 快 速 可 靠 的 野 外 性 能 ( Martinez 和Valstar,2016)。情绪识别本质上是复杂的,这是因为情绪的范围很广,https://doi.org/10.1016/j.jksuci.2021.06.0121319-1578/©2021作者。由Elsevier B.V.代表沙特国王大学出版。这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comS. Kuruvayil和S. 帕拉尼斯瓦米沙特国王大学学报7272人类除了六种基本情感外,恐惧、愤怒、快乐、悲伤、厌恶和惊讶,大多数研究都集中在这些情绪上。存在诸如疼痛或复合情绪(例如,快乐地惊讶,愤怒地厌恶)等表情(Du et al.,2014)使情感识别的任务具有挑战性。另一个主要障碍是诸如头部姿势、部分遮挡、照明条件、主体身份、面部配准误差和相机镜头失真或分辨率的变化。这些因素导致高的类内变异。学习所有这些变化因素对于机器学习或深度学习模型来说是一个挑战,除非它们提供了大量不同的数据集来覆盖所有的变化因素(Martinez和Valstar,2016)。我们的工作试图解决的挑战,由于自然的障碍,面部特征提取,如部分遮挡,姿态和光照变化。为了对机器学习或深度学习情感识别系统进行建模,该系统可以很好地概括自然障碍物,例如部分遮挡,各种头部姿势和照明,必须使用大量数据进行训练。但是,在基线情感识别数据集中具有部分遮挡、姿势和光照变化的图像的稀缺性构成了挑战。少镜头元学习算法可以帮助解决这类问题。也就是说,从每个类的几个样本中学习。元学习方法使系统能够通过从许多先前任务中跨数据学习来在很少的数据体系中快速学习。1.3. 元学习元学习是机器学习社区中的一个新兴研究领域,它解决了学习学习的问题。元学习类似于人类如何从每个类的几个例子中学习新概念。这可以通过利用过去学习类似任务的经验来实现。在元学习中,系统利用从许多先前的学习经验中积累的元知识。传统的机器学习模型也称为基本学习者(例如决策树,神经网络,SVM等)。产生一个假设,依赖于一个固定的归纳偏差。在这种情况下,目标函数的搜索范围限于由固定偏置定义的假设空间。元学习与基础学习在适应水平上存在差异。 它通过扩展假设空间来学习如何动态地选择正确的偏差(Vilalta和Drissi,2002)。在元学习中,涉及两个学习者,即,元学习者和基本学习者。元学习器不断地分析和改进性能通过改变学习策略来提高基础学习者的学习能力。元学习器通过学习一些优化参数来训练基学习器。实际上,元学习系统通常学习问题行为,使得基础学习者可以毫不费力地适应任何类似的问题。元学习已经用于少量图像识别和快速强化学习(Finn等人,2017年)。对于分类任务,它使系统能够学习一般的分类,而不是学习一个特定的分类任务。我们已经使用了少量的元学习,使用原型网络,为这项工作而工作。少次学习技术旨在使模型能够从少量数据中学习,这与机器学习中使用大数据的正常实践相反。在少镜头场景中,学习问题被定义为N路K-shot任务,其中N是指类的数量,K是指每个类的样本数量。在元训练阶段,针对少量问题的元学习模型在大量类似的少量任务上进行训练,并且在元测试阶段测试其学习新任务的能力。新任务可以包含一组不同的类。小批量的小任务在元学习范式中被称为片段。每一集都是一个迷你数据集,由一个小的训练集和一个小的测试集组成。训练集和测试集分别称为支持集和查询集。少镜头学习可以帮助FER,因为具有真实世界条件的人脸图像样本在基线数据集中是有限的。对于我们提出的问题,目标任务是从面部图像中学习情感分类,其中样本在现实世界的场景中是多样的,例如部分遮挡,不同的头部姿势和光照。因此,机器学习或深度学习系统很难在这些场景下很好地泛化,除非使用大量此类样本进行训练我们的方法学涉及使用原型网络的基于度量的元学习,因为它可以使用有限的样本在无严重过拟合的情况下在无约束的环境中提供ER的解决方案。通过使用元学习,我们可以实现的另一个好处是系统能够适应情感类别的类内变化。这项工作是(Soumya和Palaniswamy,2020)中所做工作的扩展,该工作使用原型网络在部分遮挡下对面部图像进行情感分类。第2.2解释了与先前工作相比的额外贡献、改进和差异。为 了 进 行 这 项 研 究 , 我 们 考 虑 了 Ekman 模 型 的 基 本 情 绪(Ekman,1992),增加了中性作为一个无情绪状态。根据Ekman模型,基本情绪是那些进化来处理基本生活任务的情绪,并且在不同文化中是一致这个模型列出的六种基本情绪是恐惧、愤怒、快乐、悲伤、厌恶和惊讶。基本情绪的理论已经被许多心理学家所接受,尽管在确切的数字上没有达成一致例如,Robert Plutchik提出了八种主要情绪(Plutchik,1982),而另一项研究提出人类只有四种基本情绪(Jack et al., 2014年)。我们的工作集中在一个子集的Ekman模型的基本情绪。所提出的模型分为五个情感类别,在同时部分遮挡、不同的头部姿势和照明水平下的厌恶、快乐、中性、愤怒和惊讶该模型被命名为ERMOPI(使用跨遮挡、姿势和照明的元学习的情感识别),因为它从遮挡、姿势和照明变化下的图像中执行情感识别为了训练系统,使用CMU Multi-PIE数据集(Gross等人, 2008年),因为它由具有上述变化的图像组成。数据库记录了前面提到的4种基本情绪,此外还有中性和斜视。我们忽略了斜视,因为它不是基本的情绪之一尖叫情绪代表愤怒,因此,它被重新命名为选择的遮挡类别是眼镜、脸上的头发、胡子和头发暨眼镜。我们认为胡须也是一种遮挡,因为它隐藏了面部的下巴和脸颊部分考虑用于训练模型的头部姿势角度从顺时针方向的45 °变化到以15°间隔的逆时针方向的45°。所选择的各种图1显示了来自CMU Multi-PIE数据集的4种基本和中性情绪对来自CMU Multi-PIE和AffectNet数据集的图像进行评价在CMU Multi-PIE上进行的实验以部分受试者独立的方式进行。这意味着训练集和测试集有55个共同的主题,因为缺乏具有上述变化的主题但对于这些子系统中的任何一个,他们的情绪在训练集和测试集中都是常见的在AffectNet上进行的评估完全与受试者无关,因为该模型仅在CMU Multi-PIE上进行训练。这项工作的重大贡献突出如下:提出了一种利用同时存在遮挡、姿态和光照变化的图像从面部表情中进行情感识别的方法。据我们所知,到目前为止,在使用元学习的情绪识别领域还没有进行这样的工作。●S. Kuruvayil和S. 帕拉尼斯瓦米沙特国王大学学报7273图1.一、来自CMU Multi-PIE的具有遮挡、姿态和照明变化的样本图像即使使用具有固定头部姿势和照明水平的图像的实验室数据集进行训练,该模型也表现出对具有任意头部姿势、照明、颜色和对比度的图像的适应能力。也就是说,ERMOPI表现出比传统机器学习或深度学习模型更好的泛化能力。该模型能够适应未经训练的野生数据集中的图像,这些图像在表达情感时具有类内变化,尽管它是用具有可忽略的类内变化的图像训练的。为此,该模型仅需要来自新数据集的大量图像来形成支持集图像。也就是说,ERMOPI支持少量情绪学习。该模型能够从图像中的多个人脸中检测和执行情感识别,并用相应的情感标记其中的每一个。本文的其余部分组织如下:第2节解释了在各种真实世界场景下情感识别领域的相关工作。它还探讨了一些使用元学习进行少量分类的方法。用于工作的数据库在第3节中介绍。在第4节中,我们的方法ERMOPI详细介绍了模型架构和实施步骤。结果和分析见第5。结论和未来的工作在第6中讨论。2. 相关工作本节简要介绍了以前在真实场景下的情感识别方面的一些工作,它们的局限性以及用于少数镜头分类的各种元学习方法最后指出了选择基于元学习的方法的优点。2.1. 真实世界场景在本节中讨论了在各种真实世界条件下从静止图像中识别情感的早期方法,例如部分遮挡,变化的头部姿势和照明水平。RPCA对缺失数据和离群值具有鲁棒性,用于部分遮挡的面部图像的情感识别(Cornejo和Pedrini,2017)。利用RPCA重构特征后,提取Gabor小波和几何特征。作者在三个面部表情数据集上评估了他们的方法,即CK+,JAFEE和MUG。由于数据集中缺少部分对于CK +数据库,该方法使用PCA + LDA + KNN和特征组合(即,LBP、HOG和Gabor描述子。自然遮挡的实验在这项工作中没有报道,而在ERMOPI中考虑了面部的自然遮挡。此外,提到了RPCA对丢失数据是鲁棒的,但是在图1中没有探索照明和姿态变化。这与ERMOPI不同。通过线性组合属于每个测试图像的类的训练图像来形成稀疏表示(Cotter,2010)。实验通过使用放置在面部图像上的黑色和白色盒子人工创建遮挡来进行。关键的发现是,识别率取决于用于遮挡面部部分的盒子的颜色。该方法未对自然遮挡进行评估,也未考虑姿态和照明变化。在指定角度的Radon变换用于将被遮挡的面部图像投影到一维函数信号上(Ali等人,2018年)。在这项工作中,被遮挡的纹理特征恢复使用高阶光谱(HOS)或二阶统计称为双谱。双谱能够捕捉到人脸的纹理和轮廓信息. CK数据库用于训练和测试。对于上面部的遮挡,该方法的准确率达到91.3%。在(Mao等人,2017),开发了贝叶斯模型来执行多姿态FER。该方法在CMU Multi-PIE数据集上取得了90.24%的准确率。所有上述机器学习方法都可以在上述数据集上获得超过90%的准确率,但它们处理遮挡或姿态,但不能同时处理遮挡、姿态和光照变化。此外,研究咬合的工作使用了合成咬合来证明结果。深度学习模型在现实生活场景中为FER提供了有希望的结果 具有2个卷积层和4个初始层的深度学习模型在CMU Multi-PIE数据集上实现了94.70%的最新准确度(Mollahosseini et al., 2016年)。初始层提供了稀疏网络的近似,从而减少了过度拟合和增加计算需求的问题基于GAN的方法用于多视图图像的面部正面化(Lai和Lai,2018)以及联合姿态和表情建模。在使用堆叠卷积自动编码器(SCAE)和渐进贪婪逐层算法(Webb等人,2020年)。SCAE模型首先在CMU Multi-PIE上进行预训练,以提高图像亮度并减少面部姿势。预训练的模型在来自许多基线面部数据集的大型数据库上进行了微调该模型在现实生活环境中看不见的图像上产生了79.5%的准确率。在(Palaniswamy和Tripathi,2018)和(Suja等人, 2016年)。具有注意力机制的CNN(ACNN)用于构建遮挡感知面部情绪识别系统(Li等人, 2019年)。这项技术部署了门单元,将注意力从被遮挡的面部转移到未被遮挡的面部区域。作者在RAF-DB和AffectNet等各种野外数据集以及CK+、MMI、Oulu-CASIA和SFEW等实验室数据集上评估了他们的模型。ACNN的性能取决于模型中人脸标志点定位模块的准确性对于合成遮挡图像,RAF-DB的准确率为80.54%,AffectNet的准确率为54.84%。进行了一项工作,以解决与各种类别的数据不平衡有关的问题(Ngo和Yoon,●●●S. Kuruvayil和S. 帕拉尼斯瓦米沙特国王大学学报72742020年)。作者使用加权软最大值和修改的中心损失函数的组合损失函数来微调在VGGFace 2数据集上预训练的SE-ResNet 50。共有283,651 个来自AffectNet 的样本在8种情绪类别下,正确率为60.70%另一项研究集中在使用迁移学习的基于口腔的ER(Franzoni等人, 2020年)。为了用多视图图像增强训练集,系统还使用旋转度的随机值执行数据增强。在4个高性能CNN上进行了实验,发现InceptionResNetV2在AffectNet上的在(Hunget al., 2019年)。该方法在AffectNet上以65.29%的准确率完成了包括FER在内的面部应用任务。在(Halawa et al., 2020年),它试图在不受约束的情况下解决ER。该模型从人脸图像的变化因素中分离出在AffectNet上报告的准确率为60.53%。尽管深度学习模型给出了令人鼓舞的结果,但它们的性能需要数千个样本进行训练。因此,在只有有限样本可用的真实世界场景中的情感识别问题中,元学习是有益的,这在第2.3节中详细说明。 我们的工作与现有文献不同,训练样本数量较少,训练时间较短,同时解决了遮挡,姿势和光照不变性,这在第5中解释。2.2. 基于元学习的少样本分类方法元学习方法可以大致分为基于模型的元学习、基于优化的元学习和基于度量的元学习。基于模型的元学习使用具有外部或内部存储器的网络进行快速参数更新(Santoro等人,2016年)。基于优化的方法寻求调整优化算法以快速收敛于新任务(Finn等人,2017; Raviand Larochelle,2017).基于度量的元学习学习一个有效的距离度量,用于对学习的嵌入空间中的一组对象进行分类。分类策略接近最近邻算法,如k-最近邻(KNN)分类器和k-均值聚类。该类别中的示例包括卷积连体神经网络(van der Spoel等人, 2015)、匹配网络(Vinyals等人, 2016),关系网络(Sung等人,2018)和原型网络(Snellet al., 2017年)。基于元学习的少量分类仍然是一个有趣的研究领域。在(Finn等人 , 2017 ) , 作 者 提 出 了 一 种 基 于 优 化 的 模 型 不 可 知 元 学 习(MAML)算法。模型不可知意味着该算法与任何使用梯度下降优化训练的模型兼容。Ravi和Larochelle提出了一种基于优化的元学习模型,用于使用LSTM作为元学习者进行少量学习(Ravi和Larochelle,2017)。原型网络是基于度量的元学习模型,其通过有效的距离度量来学习K-shot N-way分类策略(Snell等人, 2017年)。 原型网络的特点是非常简单的归纳偏置,但在少数数据制度产生示范性的结果。其思想是计算每个类的质心,该类的数据点聚集在该质心周围。质心表示类的原型。其计算方法如下:神经网络首先将支持集样本点嵌入到一个嵌入空间中。嵌入的支持点的平均值被计算为类原型。具有未知类别的查询样本也通过相同的神经网络嵌入到学习的嵌入空间中,并分类为最接近的类原型。显着的性质是,训练后的网络可以很好地执行一组看不见的类的分类,虽然每个类只给出了几个例子。原型网络的这种质量使其适用于真实世界条件下的FER,其中样本的可用性有限。原型网络的强大泛化能力已被用于部分遮挡下的面部图像的情感分类(Soumya和Palaniswamy,2020),并且名为MERO在CMUMulti-PIE数据库中对部分遮挡的面部图像表现良好。 这项工作(ERMOPI)是MERO的扩展,除了部分遮挡之外,还可以从其他真实世界的障碍物(如姿势和照明条件)中进行情感识别。所提出的模型,ERMOPI解决了与闭塞,姿态和照明变化,即使他们同时发生的问题在MERO中,仅对遮挡变化进行情感识别,并在同一数据集上进行训练和测试。另一方面,为了测试系统的适应性,在未经训练的数据集上评估ERMOPI,即,影响网也是。此外,情节形成是不同于以前的工作。对于MERO,每次发作仅包括一种闭塞,即,头发、眼镜、胡子、头发和眼镜,无遮挡。首先,该模型是按顺序训练的非遮挡图像的情节,其次是被遮挡图像的情节在一个顺序的方式。为了缓解与顺序学习相关的灾难性遗忘问题,ERMOPI采用了不同的情节形成策略,在第4.2.2节中进行了解释。相对于MERO的另一改进是在嵌入网络中使用较少数量的残差块和滤波器,其架构在第4.1中讨论。在下一节中,我们将描述原型网络如何在真实世界条件下的FER中,优于传统的机器学习和深度学习方法。2.3. 将元学习与原型网络一起用于ER的好处在约束环境下进行面部情绪识别的现有方法要么处理遮挡/姿势/照明 , 但 不 是 同 时 处 理 所 有 这 三 个 ( Cornejo 和 Pedrini ,2017;Cotter,2010; Zhang等人,2018)或需要大量数据来获得良好的性能以处理约束(Hung等人,2019; Mollahosseini等人,2016;Ngo和Yoon,2020)。此外,在一个数据集上训练的模型不能很好地概括新的数据集,因为头部姿势、颜色水平、对比度、遮挡和照明等的数据集间变化(Li 等人, 2019; Mollahosseini 等人, 2016年)。情感表达的主观性在这项工作中利用的具有原型网络的元学习的优势总结如下(Snell等人, 2017年):使用原型网络的元学习在少数情况下提供了出色的结果,而没有严重的过拟合。快速适应新的任务,即使很少的例子,没有进一步的培训。原型网络的最后一层是非参数的,因此与其他参数元学习模型相比,可学习的参数较少。归纳偏差与最近邻分类器一样简单,但仍然表现出可观的性能。因此,我们在真实世界条件下使用原型网络用于FER,即,部分遮挡、变化的头部姿势和照明水平。下一节概述了这项工作中使用的数据集●●●●S. Kuruvayil和S. 帕拉尼斯瓦米沙特国王大学学报7275C¼X3. 数据库3.1. CMU Multi-PIE数据库该数据库中的图像是分4次采集的,受试者在不同的头部姿势和照明条件下表达了不同的情绪有超过75万张图片。总的来说,它捕捉了337个主题表达的情绪,其中129个主题出现在所有四个会话中。图像是从不同的偏航角和通过改变面部上的光量来捕捉到的面部表情有微笑、惊讶、斜视、厌恶和愤怒。在337名受试者中,182名有部分遮挡,如头发落在脸上、眼镜、头发和眼镜以及胡子和眼镜。我们考虑了188名受试者来训练模型,其中109名受试者有部分闭塞。这项工作考虑了5种基本情绪、4种类型的遮挡、非遮挡、7种头部姿势(从45°顺时针方向到45°逆时针方向,间隔15°)和8个照明水平(其中5个用于训练)总共使用了875张图像来训练模型,每个表情-遮挡-姿势-照明组合各一张,350张图像用于测试。被认为是遮挡的头发落在脸上,眼镜,头发暨眼镜和胡子。3.2. AffectNet典型的网络来构建情感识别系统。该模型由一个特征嵌入网络,其次是最近邻分类器。特征嵌入是一种将特征从原始空间转换到新空间的技术,该空间与原始维度不同且小于原始维度,并支持有效学习(Golinko和Zhu,2019)。在ERMOPI中,特征嵌入网络负责学习输入图像的非线性映射,并将其编码为变换空间中的特征向量。任何神经网络都可以作为ERMOPI的嵌入网络,其结构对于学习所需的非线性非常重要。ERMOPI特征嵌入网络的体系结构已在第4.1节中描述。给定标记的面部图像的小支持集,S = {(x1,y1),(x2,y2),.. . ,(xn,yn)},xi=RD是原始图像的D维特征向量,yi是对应的标签。特征嵌入网络将每个原始输入图像映射到嵌入空间中的特征向量。设fU是具有可学习参数U的嵌入函数。fU:RD-> RMRM是嵌入空间中的M维特征向量在下一步中,模型通过取属于每个类的嵌入支持集向量的平均值来计算类原型换句话说,它是嵌入的支持点向量的质心。AffectNet是一个捕捉面部表情的野外数据集,包含从互联网上收集的约100万张图像1kjSkjFxi;yi2Sk£100x100大约一半的图像是手动注释的。该数据集提供了11个情感标签和68个面部标志位置。情绪类别是中性的,快乐,悲伤,惊讶,恐惧,厌恶,愤怒和蔑视。该数据库包含部分遮挡,任意头部姿势和照明变化。4. 拟议方法ERMOPI的模型架构和设计步骤将在本节中进行说明。如前所述,我们使用了Pro-S1,S2,.. . ,Sk是支持集样本。每当一个未标记的查询图像到达时,它被使用相同的映射函数嵌入到相同的嵌入网络中,然后计算嵌入的查询样本和每个类原型之间的欧氏距离。欧几里德距离的选择从(Snell et al.,2017年),因为作者根据经验发现,欧几里得距离大大优于更常用的余弦相似性。查询图像被分类到其原型在最小距离处的类。高层次的系统架构如图所示。 二、图二. 用于情感识别的原型网络架构。S. Kuruvayil和S. 帕拉尼斯瓦米沙特国王大学学报7276××××× ××4.1. 嵌入式网络架构在这项工作中,提出了深度残差网络(ResNet)架构作为特征嵌入网络。ResNet是具有快捷连接的前馈网络(He等人,2016年),它可以堆叠数百到数千层,仍然可以学习复杂的函数,而不会遇到消失梯度问题。该算法具有良好的复杂特征提取能力,适合于从人脸图像中提取低层特征的复杂任务。 如图3所示。具有“k”个过滤器的两个3x3卷积的块第一残余块被展开并在图的上部示出。我们在所提出的特征嵌入网络中使用了四个残差块。根据(He et al., 2016),残差块被定义为如等式(2016)中给出的。(二)、y¼FxifWigWsx2这里,x和y是所考虑的残差块的输入和输出向量。表示要学习的残差映射,Wsx表示捷径连接。第快捷连接由11卷积使用“k”个滤波器,以便匹配作为残差块的输出的特征图的维度。这将确保等式2中的加法操作的体积。(2)大小相同在快捷连接之后,应用Leaky ReLU激活,然后是2 2 max池化层,用于对图像进行下采样。为了找到最佳的网络参数,我们通过改变网络的层数、残差块的数量和每个残差块的滤波器数量进行从6个残留块开始,通过在每个步骤中将其减少一个来评估模型性能结果发现,4个残差块,每个块2个卷积层,给出了最大的精度。过滤器计数在32、64、128、256和512之间变化,32、64、128和256个滤波器。4.2. 设计步骤建立一个完整的系统所要执行的步骤包括特征提取和预处理,情节准备,训练和测试。本节简要介绍了这些步骤4.2.1. 人脸提取和预处理对 于 面 部 检 测 和 提 取 , 我 们 使 用 多 任 务 卷 积 神 经 网 络(MTCNN)(Zhang等人,2016年),这是鲁棒的真实世界的情况下,如变化的姿态,照明和部分遮挡。与著名的Viola-Jones人脸检测器(Viola and Jones,2004)相比,它产生的误报数量较少结果发现,MTCNN的性能下降时,同时发生的闭塞,姿态和照明不良。在这种情况下,我们手动裁剪面部。为了更快地处理,裁剪后的图像被调整为70 70 3,并且该尺寸是在实验了各种尺寸(例如100×100、80× 80和70× 70等)之后选择的4.2.2. Epperin制剂原型网络采用情景训练。Epsilon是小批量的样本点,每个样本点由支持集和查询集组成。CMU Multi-PIE的一个样本事件如图所示。四、4.2.2.1. 训练插曲。为了准备训练集,我们从CMU Multi-PIE数据库中选择了875张具有部分遮挡、不同头部姿势和照明水平的图像,每次发生一个或多个变化。选择样本时准备Excel表格,记录每个遮挡-姿势-照明组合的受试者编号对于每种情绪,仅从每个遮挡姿态照明类别中选择一个图像因此,我们总共有,5情绪7姿势5照明5闭塞(包括无遮挡)= 875张图像。与传统的机器学习和深度学习方法相比,这种训练集的大小要小得多。例如,在(Palaniswamy和Suchitra,2019)中提出了一种用于从面部图像中进行鲁棒姿态和照明不变情感识别的深度学习方法。图三.特征嵌入网络架构。在上部中示出了扩展的第一残留块层。S. Kuruvayil和S. 帕拉尼斯瓦米沙特国王大学学报7277见图4。 一集样本。(左)支持设置样本。(右)查询集示例。作者使用7350张图像来训练分类器,用于考虑CMU Multi-PIE数据库中的5种光照水平和7种头部姿势的5种基本情绪。我们的模型ERMOPI使用更小的训练集大小实现了相当的准确性,并且还考虑了遮挡以及姿势和照明变化。由于系统需要对5种情绪进行分类,因此这是一个5路K杆问题。也就是说,我们有5个类,每个类有K个样本,用于形成每个类的支持集。我们选择K为5,因为先前从部分被遮挡的面部图像中识别情感的工作给出了5次拍摄的最大准确度(Soumya和Palaniswamy,2020)。对于每个类,通过从先前形成的训练集中随机选择5个图像来形成查询集。训练片段中的查询集的目的是评估系统对具有所选支持集的特定任务(片段)的分类能力。查询集有助于调整特征嵌入网络的参数,相对于在将成员图像分类为正确的情感时发生的损失。培训过程详见第4.2.3节。在训练图像池中随机选取支持集和查询集的图像,不进行替换,从而得到训练集。4.2.2.2. 验证事件。验证事件类似于一般机器学习问题中的验证集,用于调整超参数以获得最佳性能。一个这样的验证集是用每个类26个图像创建的,所以我们总共有130个图像。从该集合中随机抽取Epperiment而不进行替换。支持集大小与训练集相匹配,每类5个。 剩下的21张图片构成了查询集。4.2.2.3. 测试情节。测试集旨在检查系统在各种现实场景中从样本中识别情绪的适应性。从CMU Multi-PIE准备两个测试片段;第一个片段包括具有与训练图像相同的照明水平的图像,第二个片段具有与训练图像不同的照明水平。第二集是为了测试系统对训练期间看不到的新照明水平的适应性而形成的。其中一集由AffectNet制作。AffectNet中的图像具有任意的头部姿势和照明水平,而CMU Multi-PIE图像具有一些固定的姿势角度和照明水平。此外,情感网络中的情感表达具有不同的效价,唤醒,有时以不同的风格从CMU多PIE图像。测试片段1:在测试片段1中,我们包括来自35个姿势照明组合中的每一个的一个图像。因此,总共选择175个图像用于测试第1集,即,35个图像每一种情绪。其中,5幅图像构成支持集,其余30幅图像构成查询集。大多数面部有部分咬合。测试第二集:测试片段2由测试片段1中包括的相同受试者形成,但是查询图像具有不同的照明水平。这一集是为了分析系统在识别与训练不同的光照水平的情绪方面的表现。这些看不见的照明级别包括级别2、级别4和级别6。Testing episode 3:Testing episode 3是从AffectNet创建的。每个类的支持集大小为5,查询集大小为20。对这一特定事件的测试突出了该模型在适应情绪类别的不可见变体方面的能力。例如,有些人以与CMU Multi-PIE不同的风格表达厌恶情绪。 这示于图 五、图片5(a)和5(b)来自CMU Multi-PIE,图像5(c)和5(d)来自AffectNet。5(a)和5(b)中的人表示厌恶,半睁着眼睛,鼻子紧缩,嘴巴紧闭。5(c)和5(d)中的人用半睁的眼睛和捂住鼻子来表示厌恶。同样,愤怒情绪也表现出一定的类内变异。图像5(e)和5(f)来自CMU Multi-PIE,图像5(g)和5(h)来自AffectNet。除了类内变化之外,AffectNet图像还具有任意的头部姿势,照明,颜色和对比度水平。4.2.3. 培训在训练过程中,系统通过softmax在距离的负值上将查询图像分类到最近的类原型。 交叉熵损失的计算,反向传播和嵌入网络的权重更新通过随机梯度下降(SGD)。在训练结束时,网络学习可以执行分类的特征嵌入空间修复图 五 、CMU Multi-PIE 和 AffectNet 中 的 情 绪 比较 ( 左) CMU 多 PIE 图 像 ( 右 )AffectNet图像。S. Kuruvayil和S. 帕拉尼斯瓦米沙特国王大学学报7278最佳的剧集数量,系统被训练为连续10集,然后在10个验证剧集上进行评估。在Google Colab GPU环境中,此过程不到4分钟。最佳的训练次数是通过绘制准确度和损失来决定的,如图所示。 六、发现表1用于训练模型的超参数。超参数值的超 参数值支持集大小5正则化丢弃块正则化1250个片段以最小的损失提供最佳的准确性。总结了模型训练中使用的超参数查询集大小5激活功能Softmax表1中学习率0.01损失函数负对数损失Momentum 0.99优化SGD4.2.4. 测试对CMU Multi-PIE形成的两个事件和AffectNet形成的一个事件进行了测试。第1、2和3次发作的总体准确率分别为92%、88%和68%,发作次数表21250办妥了一批对于AffectNet图像,ERMOPI最初的准确率最高为55%。低准确度背后的原因似乎是模型对CMU Multi-PIE图像的过度拟合。为了减少过拟合,我们在训练模型时使用了权重衰减正则化。权重衰减通过向损失函数添加正则化项来惩罚模型的复杂性,从而导致权重与其大小成比例地衰减。将0.001的权重衰减应用于模型,其在训练1780集时将准确度提高到68%。4.2.4.1. 评价指标。所有情绪的预测准确度和平均准确度被选为评估指标,以评估模型的性能。由于我们为每个类选择了相同数量的图像来制作平衡的测试集,因此准确度是衡量性能的一个很好的指标使用混淆矩阵进行进一步分析,以确定情感方面的真阳性、真阴性、假阳性和假阴性。5. 实验结果表2显示了对模型应用和不应用权重衰减正则化的总体准确性。使用Eq. (三)、表3显示了具有最高准确度的模型版本(具有权重衰减的模型版本或没有权重衰减的模型版本)使用Eq. (四)、这里,Accavg是整个测试片段上的平均准确度,Nct是正确分类的图像的数量,Nq是查询图像的总数,Accem是情绪方面的准确度,Ncte是正确分类到情绪的图像的数量,并且Nqe是属于情绪的查询图像的数量所有情绪的所有事件的平均测试准确度无重量衰减随着体重的下降测试第一百分之九十二85.33%测试第二百分之八十八百分之八十四测试第3百分之五十五百分之六十八图7显示了CMU Multi-PIE的一些具有挑战性的图像。由模型预测的情感标签显示在图像上。图像同时具有部分遮挡、姿态和照明变化。尽管如此,该系统仍然能够正确识别情绪。该系统可以识别眼睛的特征如果玻璃是无色的。系统的性能可以归因于两个因素。1)在元训练期间,在每一集中,系统都被训练来区分五种情绪,但支持集和查询集都包含来自所有不同场景(遮挡、姿势和照明)的图像的混合。因此,无论遮挡、姿态和照明如何,系统都学习了与情感相关的特征。2)由于我们使用的是原型网络,系统会寻找最匹配的原型。因此,即使某些特征由于遮挡、头部姿势或光照而被隐藏,其他特征仍然可以决定其最近的原型,从而决定类别。图8中示出了一些错误分类的图像。8(a)中的图像表示厌恶,但系统将其归类为中性。这是因为大多数厌恶的训练样本都是眼睛半睁,嘴巴闭着的。图8(a)中的图像眼睛睁得稍大,因此该模型被解释为中性。在8(b)中,受试者张开嘴,系统将其错误地解释为表达快乐。在8(c)中,由于照明差,特征不太明显,特别是在ACCNctavg<$Nq3Ncte第一个图像。因此,预测的类是中性的。系统将8(d)中的情绪预测为厌恶,但实际上这种情绪是中性的。这是由于脸上的皱纹。在CMUMulti-PIE中,愤怒通常表现为眼睛闭上,嘴巴张大但在加速度为2.4倍8(e)这种情绪被错误地归类为惊讶。用于第一图像见图6。训练和验证的准确度(左)和损失(右)图与训练集的数量。在准确度图中,X轴:训练发作次数,Y轴:准确度。在损失图中,X轴:训练发作次数,Y轴:损失。S. Kuruvayil和S. 帕拉尼斯瓦米沙特国王大学学报7279表3智能测试精度。厌恶快乐中性愤怒惊喜平均准确率测试第一百分之八十百分之九十三点三三86.67%100%的100%的百分之九十二测试第二76.67%百分之九十三点三三86.67%百分之九十三点三三百分之九十百分之八十八测试第3百分之六十五百分之七十百分之六十五百分之七十百分之七十百分之六十八见图7。 样本图像被模型正确分类。见图8。 样本图像被模型错误分类。在这副眼镜中,系统考虑对象眼睛睁开时眼镜上的眩光。在8(f)中,情绪被预测为快乐,尽管实际上情绪是惊讶。这是由于嘴巴和眼睛没有像表达惊讶情绪的训练图像那样张开。分类器的自适应能力:图9显示了系统可以正确分类的来自AffectNet的一些图像。可以观察到,来自AffectNet的图像在照明水平、头部姿势、颜色和对比度方面不同该模型仍然能够识别情感。另一个有趣的观察是,一些
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功