HSEmotion：高效卷积神经网络情感识别软件，准确高速分类静态面部照片的情绪

161 浏览量更新于2024-01-25 收藏 590KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

软件影响14（2022）100433原始软件出版物HSEmotion：高速情感识别库安德烈五世SavchenkoHSE大学，网络分析算法和技术实验室，下诺夫哥罗德，俄罗斯A R T I C L E I N F O保留字：面部表情识别野外情感行为分析情感分类高效卷积神经网络A B标准最近，人们对减轻情感行为和面部表情识别模型中的算法偏差给予了很多关注。在本文中，提出了一种新的软件，提供了一个准确和高速的情感识别（HSEmotion）工具。已经训练了几个基于EfficientNet的模型来对静态面部照片的情绪进行分类。实验研究表明，我们的预训练模型可以用作特征提取器，用于在各种任务中快速准确地进行基于视频的情感识别，而无需微调整个神经网络。代码元数据当前代码版本v0.2用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2022-204可复制胶囊的永久链接https://codeocean.com/capsule/4322879/tree/v1合法代码许可证Apache 2.0许可证使用Git的代码版本控制系统使用Python的软件代码语言、工具和服务编译要求、操作环境和依赖关系PyTorch，Timm如果可用，请链接到开发人员文档/手册https://github.com/HSE-asavchenko/face-emotion-recognition/blob/main/python-软件包/README.md支持电子邮件，如有问题，请联系anzy.v.savchenko@ gmail.com1. 介绍人类的情绪是心理状态的变化，可以从表达的大脑信号、声音、身体部位和面部进行分析[1，2]。面部分析是工业应用中最合适的模式之一，事实上，如果一个人感到高兴、生气等，人们可以在他或她的面部图像上注意到表情的变化[2]。面部情感分析仍然是当今在人机交互的各种应用中提出的具有挑战性的问题传统上，面部表情识别（FER）[3]是在实验室控制的数据上进行的，这些数据很难代表现实世界中所面临的环境和条件[4]。由于深度学习在计算机视觉中取得了巨大的成功，当代神经网络已成功应用于“野外”的情感识别。FER进步的最重要因素之一是引入大型数据集，例如，AffectNet [5]，以及诸如ActutiW（野外情绪识别）[4]和ABAW（野外情感行为分析）[6，7]等挑战的出现。虽然对于每个特定的数据集都有很多精确的解决方案，但它们的实际使用存在两个主要障碍。首先，最好的准确性是通过基于视觉变换器、分类器集合和多模态技术的复杂模型来实现的。缩略语：AFEW，野生表情; ABAW，野生情感行为分析; CNN，卷积神经网络; FatiW，野生情感识别; FER，面部表情识别; MTCNN，多任务卷积神经网络;LSD，从合成数据中学习; MTL，多任务学习; VGAF，视频级组AFfect本文中的代码（和数据）已由 Code Ocean 认证为可复制：（ https://codeocean.com/ ）。更多关于生殖器的信息徽章倡议可在https://www.elsevier.com/physical-sciences-and-engineering/computer-science/journals上查阅。电子邮件地址：avsavchenko@hse.ru。https://doi.org/10.1016/j.simpa.2022.100433接收日期：2022年9月20日;接收日期：2022年10月7日;接受日期：2022年10月14日2665-9638/©2022作者。由Elsevier B. V.发布，这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表软件影响杂志首页：www.journals.elsevier.com/software-impactsA.V. Savchenko软件影响14（2022）1004332图1.一、使用HSEmotion工具的典型管道。这个封面是使用Freepik.com的图片设计的因此，它们很难由非专业人员仅使用廉价的笔记本电脑或移动设备启动。其次，现有的情感数据集非常脏，因为标签的困难。此外，这些数据集比用于训练人脸识别模型的数据集小一个数量级[8]。因此，FER模型包含算法偏差：它们学习特定于具体数据集的特征[6]，并且通常对记录条件和环境的多样性保持不稳定[9]。为了解决上述问题，我们提出了一种新的软件，提供准确和高速的情感识别，称为HSEmotion。它可以用于使用面部图像和视频来预测情绪，或者为下游任务（参与预测，群体影响预测等）提取情绪特征。该工具最重要的部分是一组卷积神经网络（CNN），通过使用裁剪的面部图像，通过我们之前的论文[3]中介绍的特殊技术进行预训练。这些模型甚至适用于部署到移动设备。最近的ABAW挑战赛[9，10]的参与以及几种环境中单个模型的最新结果2. 描述HSEmotion软件的主要使用场景如图1所示。该工具支持静态图像或面部视频的分析。在后一种情况下，独立地处理每个视频帧。通过适当的外部库（诸如MTCNN（多任务CNN））在输入图像中检测面部。接下来，面部区域被馈送到一个我们的模型[1，3]。他们可以从倒数第二层输出高维视觉嵌入（情感特征），也可以输出八种情感的后验概率，即愤怒，蔑视，厌恶，恐惧，快乐，中性，悲伤和惊讶[5]。在for-mer的情况下，提取的视觉特征向量可以被馈送到用于任意下游任务的分类器中。我们提供培训的例子使用AFEW（野外行动面孔）[4]进行视频中FER的机器学习模型，使用VGAF（视频级组AFfect）[11]进行组级影响分类，学生EngageWild数据集[4]以及第3和第4次ABAW挑战的所有任务的影响行为预测[6，7]。HSEmotion存储库包含Python 3的hsemotion包，用于训练模型和解决各种情感识别任务的Applyter Notebooks，用于Android平台的演示移动应用程序（图1）。2）和模型动物园，具有用于面部识别和FER的预训练CNN。后者基于timm（Pytorch Image Models）库中EfficientNets[12] 的 PyTorch 实现。 hsemotion 软件包中提供了以下型号：enet_b0_8_best_vgaf、enet_b0_8_best_afew、enet_b0_8_va_mtl和enet_b2_8。所有这些模型都以类似的方式进行训练。首先，EfficientNet使用VGGFace2数据集对面部识别任务进行了微调，面部检测器在没有任何余量的情况下裁剪了面部。接下来，该模型被微调以识别来自AffectNet的静态图像上的情绪[5]。培训过程的详细信息见论文[3]。前三个前缀为“enet_b0”的模型最后一个模型实现了260× 260输入图像和1408个输出特征的EfficientNet-B2结构。“enet_b0_8_va_mtl”与所有其他模型的不同之处在于，它不仅预测了8种基本的面部表情，而且预测了效价和唤醒，即，人的行为是主动还是被动，是积极还是消极。我们在五个大规模的真实世界数据集上评估了HSEmotion模型，即，AffectNet [5]具有所有8种情感类别，其中7种除了蔑视，AFEW [4]具有7种情感，VGAF [11]具有3种影响（积极，消极和中性），LSD（从合成数据中学习），6种表达和来自ABAW4挑战的MTL（多任务学习）任务[7]。使用了这些数据集作者的测试方案，其验证集的所有结果见表1。关于前三个和最后两个任务的实现细节分别在我们的论文[1，9]中提供，此外，我们使用PyTorch Mobile运行时在配备Qualcomm888 CPU和Android 12的A.V. Savchenko软件影响14（2022）1004333表1HSEmotion软件包中模型的性能模型准确度，% F1-评分L推断时间，msAffectNet（8类）AffectNet（7个类）AFEWVGAFLSD ABAW4MTL ABAW4enet_b0_8_best_afew60.9064.7159.8966.8059.321.11059 ±26enet_b0_8_best_vgafenet_b0_8_va_mtl61.33 64.57 55.14 68.2961.93 64.97 56.73 66.5860.941.1231.27660 ±32enet_b2_863.03 66.2957.78 70.231.147 191 ±18图二. Android演示移动应用程序的示例屏幕。这些结果表明，我们的软件具有优异的性能。根据而且与具有7种基本情绪的AffectNet当与来自2019年竞争的AFEW数据集的先前已知的最佳单个模型（即，来自 [ 14 ] 的迭代训练的噪声学生）比较时，“enet_b0_8_best_afew”的准确度此外，我们最近的论文[15]表明，该模型与 wav 2 vec 声学模型的融合达到了该数据集的最新准确度（67.88%），比LResNet 50 E-IR [16]之前已知的最佳结果高出2.3%。我们的EfficientNet-B2也是VGAF数据集的最佳单一模型：它比2020年ECOTIW相应子挑战的获胜者[17]的最佳面部模型准确5.5%。此外，LSD任务的F1分数和MTL子挑战的L度量（其是面部表情、动作单元的宏观平均F1分数和效价和唤醒的平均一致性相关系数的总和）也是最佳表现者之ABAW4挑战2事实上，“enet_b0_8_va_mtl”及其微调版本的合奏LSD子挑战。在MTL竞赛中，只有两个参与者的解的性能优于该模型，其中最好的值L=1。验证集上的76是一个特殊的网络，所有任务之间的相关性[18]。1https://paperswithcode.com/sota/facial-expression-recognition-on-affectnet2 https://ibug.doc.ic.ac.uk/resources/eccv-2023-4th-abaw/3. 影响HSEmotion是一种用于提高FER精度和性能的新型软件。这将使从业者更容易和更快地将最先进的情绪识别和影响行为分析技术纳入他们的软件中。这也将导致新研究的显着简化，因为我们的技术可以被视为许多任务的新基线，例如基于视频的FER [3]，组级影响预测[11，19]，野外参与预测[1]等。我们的模型的效率已经在以前的论文中得到了证明[1，3]。例如，EfficientNet-B2在AffectNet [5]的验证集上达到了它也是最好的单一模型的各种子挑战的竞争[3]。在这个软件的帮助下，HSE-NN团队在ABAW 3比赛中获得了多任务学习挑战的第三名和效价唤醒和表达挑战的第四名[10]。最后，它在最近的ABAW4挑战赛[7]中获得了LSD任务的第一名和MTL任务的第三名[9]HSEmotion模型被独立研究人员或大型企业广泛使用。例如，诺亚方舟实验室（华为技术）的工程师我们的模型对来自具体用户的情感数据进行微调，使得开发具有人机交互的非常准确的个性化系统成为可能在我们的模型的帮助下提取的面部情感特征通过自动预测学生的分心来增强电子学习软件此外，我们的结果在论文中用作参考，其中包括使用AffectNet，AFEW，VGAF，AlternatiWild和ABAW数据集的实验研究[6，7]。作者声明，他没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作确认这项工作得到了RSF（俄罗斯科学基金会）资助20-71-10010的支持。引用[1]Andrey V. Savchenko，Lyudmila V. Savchenko，Ilya Makarov，基于单一面部表情识别神经网络的在线学习中的情感分类和参与，IEEE Trans. Affect。Comput.（2022）http://dx.doi。org/10.1109/TAFFC.2022.3188390。[2]Paramartha Dutta ， Asit Barman ，人脸图像中的人类情感识别， SpringerNature，2020。[3]Andrey V. Savchenko，基于轻量级神经网络多任务学习的面部表情和属性识别，在： IEEE 第 19 届智能系统和信息学国际研讨会论文集， SISY ， 2021 ，http://dx.doi.org/10.1109/SISY52375.2021.9582508。A.V. Savchenko软件影响14（2022）1004334[4]Abhinav Dhall，2019年：自动情感，参与和凝聚力预测任务，在：多模态交互国际会议论文集，ICMI，2019，http://dx.doi.org/10.1145/3340555.3355710。[5]放大图片作者：Ali Mollahosseini，Behzad Hasani， Mohammad H. Mahoor，AffectNet：A database for facial expression，valence，and arousal computing inthewild ， IEEETrans.Affect.Comput.10 （ 1 ）（ 2017 ） 18http://dx.doi.org/10.1109/TAFFC.2017。2740923[6]DimitriosKollias ，ABAW ：Valence-arousalestimation，expressionrecognition ， action unit detection multi-task learning challenges ， in ：Proceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognitionWorkshops，CVPRW，2022，http://dx.doi.org/10.1109/CVPRW56347.2022.00259。[7]Dimitrios Kollias ， ABAW ：从合成数据中学习多任务学习挑战， 2022 ，https://arxiv.org/abs/2207.01138。[8]曹琼，李申，谢伟迪，Omkar M. Parkhi，Andrew Zisserman，Vggface2：一个用于跨姿势和年龄识别人脸的数据集，在：第13届IEEE自动人脸手势识别国际会议论文集，FG，IEEE，2018年，pp.67http://dx.doi.org/10.1109/FG.2018.00020[9]Andrey V. Savchenko，第四届ABAW竞赛的HSE-NN团队：多任务情感识别和从合成图像中学习，2022，https://arxiv.org/abs/2207.09508。[10] Andrey V. Savchenko，使用EfficientNets对移动设备上的情感行为进行基于视频的帧级面部分析，见：IEEE/CVF计算机视觉和模式识别研讨会会议记录，CVPRW，2022，http://dx.doi.org/10.1109/CVPRW56347.2022.00263。[11] 蔡剑飞，《视听自动群体情感分析》，美国心理学杂志。Comput.（2021）http://dx.doi.org/10.1109/TAFFC。2021.3104170。[12] Mingxing Tan， Le Quoc， EfficientNet： Rethinking model scaling for convolu-tional neural networks，in：Proceedings of International Conference on MachineLearning，ICML，2019，URL：http://proceedings.mlr.press/v97/tan19a.html.[13] Panagiotis Antoniadis，Panagiotis paraskevas filntisis，petros maragos，利用图形卷积网络的情感依赖性进行面部表情识别，在：第16届IEEE自动面部和手势识别国际会议论文集，FG，2021，pp. 1http://dx.doi.org/[14] Vikas Kumar，Shivansh Rao，Li Yu，使用肢体语言数据集进行嘈杂的学生训练可以提高面部表情识别，见：欧洲计算机视觉研讨会会议论文集，ECCVW，Springer，Cham，2020，http://dx.doi.org/10.1007/978-3-030-66415-2_53。[15] Amir Abdrahimov，Andrey V. Savchenko，基于多模态情感识别的在线事件视频摘要，在：IEEE俄罗斯自动化会议论文集，RusAutoCon，2022年，pp. 436http://dx.doi。org/10.1109/RusAutoCon54946.2022.9896386.[16] 周恒顺，孟德斌，张媛媛，彭晓江，杜军，王凯，乔宇，探索音频-视频情感识别的情感特征和融合策略，在：第19届ACM多模态交互国际会议论文集，ICMI，2019，http://dx.doi.org/10.1145/3340555.3355713。[17] Chuanhe Liu， Wenqiang Jiang ， Minghao Wang ， Tianhao Tang ， Group levelaudio-video emotion recognition using the hybrid networks，in：Proceedings ofthe 19th ACM International Conference on Multimodal Interaction ， ICMI ，2020，http://dx.doi.org/10.1145/3382507.3417968。[18] Tenggan Zhang ， Chuanhe Liu ， Xiaolong Liu ， Yuchen Liu ， Liyu Meng ， LeiSun， Wenqiang Jiang， Fengyuan Zhang， Jinming Zhao， Qin Jin， Multi-TaskLearningFrameworkforEmotionRecognitionintheWild，https://arxiv.org/abs/2207. 09373。[19] Alexandr Rassadin，Alexey Gruzdev，Andrey Savchenko，使用人脸识别的迁移学习进行群体级情感识别，在：第19届ACM多模态交互国际会议论文集，ICMI，2017，http://dx.doi.org/10.1145/3136755.3143007。[20] Mostafa Shahabinejad，Yang Wang，Yuanhao Yu，Jin Tang，Jani Li，TowardPersonalized Emotion Recognition：a Face Recognition Based Attention Methodfor Facial Emotion Recognition ， in ： Proceedings of 16th IEEE InternationalConference on Automatic Face and Gesture Recognition ， FG ， 2021 ，http://dx.doi.org/10。1109/FG52635.2021.9666982。[21] Andrey V. Savchenko，视频中的个性化帧级面部表情识别，在：模式识别和人工智能国际会议论文集， ICPRAI ， Springer ， Cham ， 2022 ，http://dx.doi.org/10.1007/978-3-031-09037-0_37。[22] Andrey V. Savchenko，Ilya Makarov，神经网络模型用于基于视频的E-learning学生情绪分析，Opt. Memory Neural Netw.（Information Optics 31（3）（2022）237http://dx.doi.org/10.3103/S1060992X22030055

下载后可阅读完整内容，剩余1页未读，立即下载