面部表情识别：基于联合和交替学习框架的多样性情感识别

117 浏览量更新于2023-12-01 收藏 673KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文当面部表情识别遇到少镜头学习时：一个联合和交替学习框架邹心怡1，严艳1*，薛景浩2，陈思3，王涵子11厦门大学2英国伦敦大学学院3厦门理工大学摘要人类的情感包括基本的和复合的面部表情。然而，目前人脸表情识别的研究主要集中在基本表情上，未能解决实际场景中人类情感的多样性。同时，现有的复合词错误率的研究工作严重依赖于大量的标记复合词表情训练数据，这些数据往往是在心理学专业指导下辛苦收集的本文研究了跨域少镜头学习集上的复合FER，其中只需要来自目标域的少量新类别的图像特别是，我们的目标是通过在易于访问的基本表达式数据集上训练的模型来识别看不见的复合表达式为了解决FER任务中基类有限的问题，提出了一种新的情感引导相似性网络（EGS-Net），它由情感分支和相似性分支组成，基于两阶段学习框架。具体而言，在第一阶段中，相似性分支与情感分支以多任务方式联合训练。通过情感分支的正则化，我们防止了相似性分支过度拟合到在不同情节中高度重叠的采样基类在第二阶段，情感分支和相似性分支进行在实验室和野外的化合物表达数据集上的实验结果证明了我们所提出的方法相对于几种最先进的方法的优越性。介绍在过去的几十年中，面部表情识别（FER）由于其在人机交互、在线教育、驾驶员监控等方面的广泛应用而引起了相当大的关注（Corneanu等人，2005）。2016年）。根据Ekman和Friesen的研究（Ekman和Friesen1971），面部表情通常分为七种基本表情，包括快乐，悲伤，厌恶，愤怒，恐惧，惊讶和中性。以往关于FER的研究主要集中在这些预定义的基本表达式的分类上。因此，许多基本表达数据集（Lucey etal.2010;Li，Deng，and Du2017;Zhaoetal. 2011年）已经收集，并取得了令人印象深刻的进展*通讯作者（电子邮件：yanyan@xmu.edu.cn）。（ Liet al.2018;Ruanet al. 2020;Zhao ， Liu ， and Zhou2021）已经被提出来解决由身份、姿态、遮挡、光照等引起的大的面部外观变化。遗憾的是，这些基本的表达方式并不能完全描述自然界中人类情感的多样性。 Du 等（ Du 、 Tao 和Martinez，2014）揭示了人类的情感涉及复合表达，而不是上述基本表达。他们通过组合基本表达式将表达式的数量扩大到22个。随后，使用大规模化合物表达数据构建了 AprictioNet 数据集（ Fabian Benitez-Quiroz，Srinivasan和Martinez2016）为了对上述复合表达进行分类，传统的基于深度学习的方法（Slimani etal. 2019;Guo et al.2017）通常严重依赖于大量标记的化合物表达训练数据。然而，收集这些数据是费力的，并且通常需要心理学的专业指导作为人类，只要给出几个参考图像（支持集），我们就可以很容易地根据各种可见表情的先验知识识别出一个看不见的表情（最近对少次学习（FSL）的研究表明，只需这些类的少量标记数据就可以快速推广到新类，从而缩小人类与人工智能之间的差距（Lu etal.2020）。本文采用跨域FSL（CD-FSL）范式研究化合物的FER，大大减轻了收集大规模标记化合物表达数据的负担。值得注意的是，我们探索了一种更具挑战性但更实用的设置，而不是手动将复合表达式数据集拆分为基类集和新类集，该设置旨在通过使用仅在易于访问的基本表达式数据集上训练的模型来对来自未知域的复合表达式进行分类。传统的FSL方法在许多计算机视觉任务中取得了很好的效果，例如图像分类（Liet al. 2019;Yaoet al. 2020）和物体检测（Dong et al.2018;Yang et al.2020）。然而，很少有工作是关于在CD-FSL设置的复合FER任务。不同于广泛使用的 FSL 基准测试（例如，miniImageNet （ Vinyals et al. 2016 ）和 Ominiglot（Lake，Salakhutdinov和Tenenbaum2015），其类的总数分别为100和1，623），基本表达式arXiv：2201.06781v1 [cs.CV] 2022年1月+v：mala2255获取更多论文数据集包含有限数量的基本表达式（即，在我们的设置中的基类）。因此，随机抽样过程不能有效地模拟未看到的任务的方差，因为抽样的基类在不同的片段中高度重叠。这样，传统的FSL方法容易遭受过拟合问题，导致其对未知复合表达式的推理能力下降。为了解决上述问题，我们提出了一种有效的CD-FSL方法称为情感引导相似性网络（EGS-Net），由一个情感分支和一个相似性分支，复合FER。情感分支捕获基本表达式的全局信息并充当正则化器，而相似性分支学习两个表达式之间的可转移相似性度量特别是，受人类感知的激励，人们可以更好地识别具有更多基本表达式先验知识的复合表达式，我们开发了一个两阶段学习框架，以渐进的方式训练EGS-Net：（i）以多任务方式联合学习情感分支和相似性分支;（ii）情感分支和相似性分支之间的因此，我们提出的方法显着减轻了大量的复合表达式训练数据的需求，并提供了良好的可扩展性，为实际应用。我们的主要贡献概括如下：• 我们提出了一种新的EGS-Net方法的复合FER在CD-FSL设置。我们的方法能够学习一个可转移的模型，该模型只在多个基本表达式数据集上训练。因此，我们可以很容易地识别新的复合表达式从看不见的域，与一些参考图像的新类。据我们所知，我们是第一个对FSL场景中看不见的复合表达式进行分类的人。• 我们开发了一个两阶段的学习框架来渐进地训练EGS-Net，从而有效地缓解了FER任务中基类有限的问题。基于所提出的学习框架，在情感分支的帮助下，相似性分支的推理能力得到了极大的提高，从而提高了新复合表达式的预测能力.• 在实验室和野生型化合物表达数据集上的大量实验结果表明，与几种最先进的FSL方法相比，我们提出的方法相关工作面部表情识别。在过去的几十年里，外汇储备取得了重大进展。考虑到其实际应用，FER的主要焦点已经从可控的实验室场景转移到更具挑战性的野外场景。然而，传统的 FER 方法（ Liet al.2018;Ruan etal.2020;Zhao，Liu，and Zhou2021）仅对基本表情进行分类，无法描述实际场景中人类情感的复杂性。最近，Du等人（Du，Tao和Martinez2014）揭示了人类有规律地表达大量情绪。他们进一步定义了化合物ex-通过组合基本表达式来实现。 Benitez-Quiroz 等人（Fabian Benitez-Quiroz，Srinivasan和Martinez2016）介绍了一个名为AdjactioNet的大型复合表达数据集基于上述数据集，对复合FER进行了几次尝试。Sli- mani等人（Slimani等人. 2019）提出了一种高速公路卷积神经网络，它用复合FER的可学习参数代替了捷径。作为FG 2017挑战赛的获胜者，Guo等人（Guo et al.2017）设计了一种多模态卷积神经网络，该网络将视觉特征与几何特征相结合，并在情感挑战中表现出优越性。传统的复合FER方法需要大量标记的复合表达训练数据。收集这些数据不仅费时费力，而且需要专业人员的指导。与上述方法不同，本文研究了CD-FSL集合中的复合FER问题，其中基类是从多个基本表达式数据集中抽取的因此，我们设法执行复合FER只有几个标记的参考图像，并提供了很大的灵活性，以确定一个新的表达类别。少拍学习随着卷积神经网络的成功，基于深度学习的FSL方法已经成为热门话题。这些方法可以粗略地分为基于元学习的方法（ Vinyals et al. 2016;Snell ，Swersky ， andZemel2017;Sungetal.2018;GarciaandBruna2018;Finn，Abbeel，and Levine2017）和trans-基于学习的方法（Chen et al.2019;Jassiyabi，Lalonde和Gagne2020;Hu， Gripon和Pateux2021;Yang ，Liu 和Xu2021）。在本文中，我们的方法属于基于元学习的方法，它是基于学习到测量（L2M）技术，旨在学习一个可转移的相似性度量。最近，一些FSL方法（Luoet al. 2017;Tsenget al. 2020年）也是在跨域环境下开发的。例如，Luoet al.（Luoet al.2017）采用对抗学习来学习跨不同领域的可转移表示。Tsenget al.（Tseng et al.2020）提出了新的特征变换层来模拟目标域的方差。 Guo等人（Guoet al.2020）研究了一个更具挑战性的场景，其中在基类域和新类域之间存在大的域转移。虽然现有的FSL方法在各种计算机视觉任务中表现出了良好的性能，但很少有人研究复合FER任务。与我们最相关的工作是（Ciubotaruet al. 2019），它评估了一些代表性的FSL方法用于基本FER任务，而不是概括分类看不见的复合表达式。事实上，由于FER任务中基类的数量有限，现有FSL方法的性能大幅下降。因此，我们开发了一种新的情感引导相似性网络（EGS-Net）的基础上的两阶段学习框架来解决这个问题。+v：mala2255获取更多论文基本句型情感科批次样品域1情感编码器相似分支支持集域J查询集相似性编码器Lsim(a)训练阶段联合学习交替学习第一阶段：第二阶段：整环r度量莱莫分类器图1：EGS-Net的概述，它由情感分支和相似性分支组成。(a)在训练阶段，EGS-Net通过使用两阶段学习框架进行逐步训练在第一阶段，我们以多任务的方式执行两个分支的联合在阶段2中，我们在两个分支之间执行交替学习（b）在测试阶段期间，基于学习的相似性分支在复合表达式数据集上评估性能该方法问题定义在本文中，我们在CD-FSL设置中执行复合FER，其中训练集的类（即，基类集）和测试集的那些（即，新的类集）是不相交的，并且它们来自不同的域。为了丰富基类的多样性并弥合训练集和测试集之间的域差距多个基本表达数据集）用于训练。因此，引入来自源域的基本表达式复合表达式数据集）被用作新类。这样的设置是一个具有挑战性但实用的设置，它研究了基于仅在易于访问的基本表达式数据集上训练的模型识别新的复合表达式因此，给定一个具有足够标记图像的基类集，我们的目标是学习一个可转移模型，并在一个具有少量参考图像的新类集上评估其性能这使得模型能够灵活地处理复合FER。概述所提出的情感引导相似性网络（EGS-Net）的概述如图1所示。EGS-Net由情感分支和相似性分支组成。情感分支学习全局特征表示来对所有基本表达式进行分类，而相似性分支学习两个表达式之间的可转移相似性度量。具体而言，对于训练阶段，情感分支通过小批量训练来学习。同时，相似性分支遵循L2M设置，并且它在一个L2M中被训练。情节的方式。在每一集中，通过从随机选择的源域中采样支持集和查询集来执行元任务，然后根据采样的查询集上的分类错误来在测试阶段，我们从复合表达式数据集构造类似的元任务。在每个元任务中，基于学习到的相似性分支，将查询图像分类到支持集中与其最近的类别中。特别地，考虑到在CD-FSL设置中由于有限的基类而难以执行复合FER，开发了两阶段学习框架（包括联合学习阶段和交替学习阶段）以渐进地训练EGS-Net。在第一阶段中，情感分支和相似性分支以多任务方式联合训练。在第二阶段，两个分支分别通过交替学习进行训练。他们在彼此的指导下交替因此，学习的相似性分支可以更好地服务于看不见的复合FER任务，只要给出一些新类别的参考图像。联合学习与包含大量类的传统FSL基准不同基类在我们的设置）。因此，构建的少镜头分类任务在不同的情节中严重重叠，现有的FSL方法很可能被困在采样的基类中，导致过拟合。为了解决这个问题，我们联合训练情感分支和相似性分支.在联合学习阶段，捕获全局信息的情感分支支持集查询集相似性编码器预测复合表达式(b)测试阶段度量+v：mala2255获取更多论文（·）（·）{\fnSimHei\bord1\shad1\pos（200，288）}{LLL分别发送相似度分支和情感分支的分类损失。表示平衡Pa-1[��=��]log g（��）。（2基本表达式作为正则化器，以避免过拟合的相似性分支。这种方法显著提高了相似分支对未知领域基本表达式的推理能力，从而有利于第二阶段的训练的优化目标其中，预测值表示查询图像的预测结果。��表示度量函数，并且表示根据相似性度量将查询图像分配到其最近类别的操作。每个少镜头分类任务的目标是该阶段被公式化为L= L+L，（1）其中L表示联合损失。L和L代表-最大限度地减少预测结果之间的损失�� 并且每个查询图像的地面实况标签 ��为∑��L= −=1参数在下文中，我们将详细介绍情感分支和相似性分支。情感分支情感分支由一个情感编码器和一个分类器组成，用于对基本情感进行分类。通过执行基本FER任务，情感分支提供了所有基本表达信息的全局视图。给定多个源域D =101， 102，，其中，第k个表示第k个源域，是训练域的总数，源域每集都是随机挑选批量数据{，}是从采样的，其中和表示通过跨不同的元任务进行训练，相似性分支可以很容易地适应看不见的任务。交替学习经过联合学习后，相似性分支对基本表达式的推理能力有了很大提高，但对复合表达式的推理能力仍然较弱。这是由于初始情感分支对小说类的推理能力差。受人类能够通过从不同的角度相互交流来更好地学习知识这一事实的激励我们进一步发展交替学习阶段。这个教训-批图像及其相应的标签。然后，预测的标签被计算为=（（x）），��学习阶段可以被看作是一个其中x学生（分支）依次向另一个学习。表示来自采样批次的单个图像。情感分支的分类损失基于预测结果之间的交叉熵损失��和地面实况表达标签，即，��更具体地说，在这个阶段的开始，我们更新情感分支，在固定相似度的监督下执行自己的表情分类任务分公司在各时期。给定一个采样图像x，L= −∑��=1[= ]log（x），（2）射函数L在该步骤中，给出为1=L��+��||��（x��）−��（x��）||第二条，（五）其中，表示基本表达式类别在纽约。仅当指示器函数1 [=]等于1时，指示器函数1[ = ]等于1，式中，表示公式中定义的分类损失。（二更）情感分支表示动态权重否则为0随着情节的变化而变化在本文中，我们采用了相似分支。相似性分支涉及相似性-重量衰减策略，以突出emo的关键作用大型编码器和度量模块。相似性-在交替学习过程中，在此步骤中执行操作分支 || ��（x��）−译码器情感编码器和情感编码器共享参数（十）||2是正则化项，其约束特征共同学习阶段。在数学上，对于元训练片段，给定随机选择的域集合，训练数据被随机采样并被划分为支持集S={训练集，查询集}和查询集Q={查询集，查询集}，其中，相似性编码器和情感编码器之间的距离因此，情感分支在某种程度上捕获了可以转移到看不见的任务的知识。而图1、图2 表示采样图像及其对应的-然后，交换每个分支的角色，相似性分支打算从更新的emo中学习分别在支持集和查询集中搜索标签。然后构造了一个多路镜头分类任务，其中表示样本类的个数，表示支持集每类中标记图像的个数。少数镜头分类的目标是以一种偶然的方式为一个周期性的分支。通过诉诸增强的推理能力，更新的情感分支可以提高相似性分支对基本和复合表达式的分类性能，任务是使用看不见的领域目标函数L在该步骤支持集的引用。被配制为来自支持集和查询集的所有图像都是= L+��|| ��第�� 二条第（六）款||2,(6)被馈送到相似性分支以评估相似性，2他们之间然后，查询图像被分配到其最近的类别之间的相似性，根据该图像和支持集在学习的特征空间。预测过程公式化为��ˆ��= (��( ��(��), ��( )),),(3)��其中，表示等式中定义的基于度量的分类损失。（4）相似分支。同样，我们强调了相似分支的关键作用，在这一步中的动态权重。接下来，相似性分支和情感分支是多次交替训练。与“两个玩家”不同，L+v：mala2255获取更多论文×（）下一页（）下一页GAN的“游戏”（Goodfellowet al. 2014），其中生成器和学习器彼此竞争，所提出的交替学习阶段通过交换它们各自的知识来提高两个分支的推理能力。最后，一个相似的分支，这对新的类具有优越的推理能力，可以获得和转移执行看不见的复合FER任务。整体训练在第一阶段，我们联合训练相似性分支和情感分支，防止相似性分支过度拟合高度重叠的采样基类。在第二阶段，我们交替训练一个分支和另一个分支的指导。首先固定相似度分支，然后更新情感分支，以提高其推理能力。然后，在更新的情感分支的监督下优化相似分支，以更好地开发基本表达式的全局信息最后，将上述两个步骤交替训练。通过这种方式，两个分支可以从不同的角度相互学习，大大提高了相似性分支识别未见过的复合表达式的推理能力两阶段的学习框架总结在附录中.实验数据集在本文中，我们研究了在CD-FSL设置中的复合FER任务，其中仅使用来自易于访问的基本表达数据集的图像来训练模型。我们使用几个流行的基本表达式数据集，包括三个实验室数据集（ CK+ （ Lucey et al.2010 ）、 MMI （ Panticet al.2005 ）和 Oulu-CASIA（Zhao et al.2011））以及两个野外数据集（RAF-DB（Li、Deng和Du2017）和SFEW（Dhall et al.2011））作为多个源域进行训练。我们使用两个新发布的化合物表达数据集（CFEE（Du，Tao和Martinez2014）和Emo- tioNet（Benitez-Quiroz et al.2017））进行测试。附录中提供了这些数据集的更多为了更好地分析该方法的推理能力，我们将CFEE分为两个子集，包括1,610幅标记有基本表达式的图像（表示为CFEE B）和3,450幅标记有复合表达式的图像（表示为CFEE C）。与CFEE类似，我们将ApricioNet分为Emo- tioNet B（由基本表达式组成）和ApricioNetC（由复合表达式组成）。实现细节对于所有实验，我们首先通过MTCNN（Zhang et al.2016），并进一步调整它们的大小224 224.基本表情数据集中的所有图像用于训练。使用复合表达式数据集及其相应子集进行测试。我们使用Pytorch工具箱实现我们的模型。我们采用ResNet-18（He et al.2016）作为情感编码器和相似性编码器的主干，它们在联合学习阶段共享参数，并在交替学习阶段单独更新。通过使用Adam算法（Kingma和Ba2015年），学习率为0.001， = 0。500和2= 0。999. 在联合学习阶段期间，情感分支的权重根据经验被设置为在交替学习阶段，我们采用逐步衰减策略。对于情感分支，批量大小设置为128。对于相似性分支，我们随机抽取了n=5个类和n=1，每个类中有5个图像以形成支持集，查询图像的数量设置为16。整个训练包含200个联合学习的epoch和5个交替学习的epoch，并且两个分支在每20个epoch（==20）之后交换角色。每个epoch中的剧集数量设置为100。我们报告了1000个元测试任务的平均识别准确率。消融研究为了更好地分析该方法对未知域的推理能力，我们在整个数据集和两个子集上测试了该方法，包括基本表达式的子集（CFEE B或CFEE Net B）和未知复合表达式的子集（CFEE C或CFEE Net C）。整个数据集用于评估整体精度，而基本和复合表达式的子集用于评估方法对可见类和未知域中的新类的推断能力。经典的ProtoNet（Snell，Swersky和Zemel2017）被用作本小节中的相似性分支。情感分支和相似分支的影响我们首先评估情感分支和相似性分支的推理能力，当它们独立训练而不使用两阶段学习框架时。这两个分支以FSL方式进行评估。也就是说，来自支持集和查询集的图像被馈送到经训练的特征提取器中以提取特征。然后将查询图像我们分别将在单个域（使用RAF-DB）上训练的情感分支和相似性分支表示为Eb（单个）和Sb（单个），并且将在多个源域上训练的情感分支和相似性分支表示为Eb（多个）和Sb（多个）。比较结果在表1中给出。如表1所示，Sb（单）和Eb（单）在看不见的结构域（即，CFEE B和Emo-tioNet B）。相比之下，Sb（单一）在分类看不见的复合表达方面远远优于Eb（单一）（即，对于5次和1次分类任务，在CFEE C上分别为7.69%、6.94%，在AdjactioNet C上分别为2.90%、2.88%当使用多个源域时，可以观察到类似的模式。这些结果表明，相似分支对未知任务的推理能力优于情感分支。这可以说明情景训练方式对于相似分支的优越性。此外，Eb（多）和Sb（多）获得更好的识别精度比Eb（单）和Sb（单），分别在整个数据集和其相应的子集。因此，多个源域有效地丰富了训练数据的多样性，并弥合了训练集和测试集之间的差距在接下来的部分中，我们将使用多个源域作为训练集。+v：mala2255获取更多论文Sb（单）Sb（多）EGS-Net（联合）方法CFEECFEE BCFEE C企业简介AsiantioNet B网络技术5次射击单次拍摄5次射击单次拍摄5次射击单次拍摄5次射击单次拍摄5次射击单次拍摄5次射击单次拍摄Eb（单）59.3647.4871.5759.8755.0043.1354.8644.0163.1850.2454.7645.25Eb（multiple）65.5952.6580.2867.4860.6647.4856.0345.1764.4551.4255.9046.23Sb（单）65.4154.2271.4465.7362.6950.0756.3546.3863.1351.1257.6648.13Sb（多个）69.6958.0582.2172.5166.8454.3057.4948.5868.2456.6658.4049.93EGS-Net（联合）70.8859.1885.6376.7467.0554.9958.5749.1470.6059.1658.8350.57EGS-Net（al）71.2560.0284.0975.1167.3355.1358.7349.2869.3957.3259.2550.86EGS-Net72.1760.9086.4577.1668.3856.6559.7750.0671.6559.6760.5251.62表1：CFEE、AdjactioNet和相应子集上的5次射击和1次射击准确度（%）方法CFEE CFEE C企业简介网络技术Eb（联合）Eb（两级）69.1471.3065.4666.7757.6158.7257.4459.25表2：情感分支的推理能力报告5次发射精度（%）用于性能评价。权重衰减CFEE CFEE C企业简介网络技术G×71.3172.1767.0368.3859.3359.7759.7360.52表3：权重衰减策略的影响。报告5次发射精度（%）用于性能评价。图2：在实验室和野外数据集上，基本表达式和复合表达式的学习特征的DB索引。对于DB索引，越小越好。共同学习的影响EGS-Net仅使用联合学习阶段（表示为EGS-Net（joint））获得的结果如表1所示。我们还比较了仅使用交替学习阶段的EGS-Net（表示为EGS-Net（al））与使用两阶段学习框架的EGS-Net与Sb（multiple）相比，EGS-Net（joint）在基本表达式子集上获得了更高的识别精度具体来说，EGS-Net（joint）在CFEE B上提高了3.42%，4.23%，在Emo上提高了2.36%，2.50%。tioNet B用于5次拍摄和1次拍摄分类任务，重新编译。因此，联合学习阶段有利于缓解样本基类上的过拟合问题，从而使EGS-Net能够更准确地从未知域中分类基本表达式。此外，相比EGS-Net（al）与CFEE C和AdjustioNet C相比，在5次分类任务中，EGS-Net的识别准确率分别提高了1.05%和1.27%这验证了联合学习阶段的必要性，有利于第二阶段的训练。我们还计算了四个子集上不同方法的Davies-Bouldin指数（DB指数）（Davies和Bouldin1979）。DB索引描述了学习特征空间中的类内变化和类间相似性。对于DB索引，越小越好。结果如图2所示。我们可以观察到，在所有子集上，EGS-Net（联合）获得的DB指标优于Sb（多重）。然而，DB指数在基本表达子集上降低得更多（即，CFEE B和AcettioNet B）比对新化合物子集（即，CFEE C和Emo- tioNet C）。这表明EGS-Net（joint）对看不见的复合表达式的推理能力仍然较差。其主要原因是初始Eb（multiple）对未知任务的推理能力较差，限制了联合学习过程中相似分支的性能。交替学习的影响。如表1所示，EGS-Net（al）在CFEE、AdjactioNet及其相应子集上的识别准确率高于Adjactib（multiple）。与EGS-Net（joint）相比，EGS-Net（al）在复合子集上具有更好的精度，但在基本子集上性能较差。这是因为交替学习阶段通过在类似任务中训练相似性分支来促进我们的模型识别看不见的复合表达式。然而，EGS-Net（al）仍然遭受有限的基类所导致的过拟合问题。两阶段EGS-Net进一步提高了EGS-Net（联合）的性能，特别是对于看不见的复合FER任务。具体来说，它在 CFEE C 上获得了 1.33% ， 1.66% 的改进，在AdjactioNet C上获得了1.69%，1.05分别用于5次拍摄和1次拍摄分类任务。因此，交替学习阶段对于提高相似分支的推理能力具有重要意义此外，我们还评估了情感分支的推理能力，如表2所示。我们给出了情感分支仅基于联合学习阶段（记为Eb（joint））和基于两阶段学习框架（记为Eb（two-stage））的结果。我们可以看到，在交替学习阶段之后，情绪分支对看不见的任务的推理能力得到了增强（ CFEE C 和 Emo- tioNet C 分别提高了 1.31% 和1.81%）。借助改进的推理+v：mala2255获取更多论文CFEE表4：在实验室CFEE和野生AprictioNet数据集上，不同竞争方法之间的5次和1次准确度（%）比较。能力，情感分支可以更好地指导第二学习阶段中相似性分支的训练。在本文中，权重衰减策略被引入到突出的关键作用，当前的训练分支在交替学习阶段。权重衰减策略的影响如表3所示。我们可以观察到，权重衰减策略有利于提高性能。最后，我们证明了EGS-Net获得的学习特征从图2中，EGS-Net在四个子集上给出了比EGS-Net（联合）更好的DB索引。这种差距在看不见的复合表达子集上更为明显。这进一步证实了拟议的替代学习阶段的重要性。此外，我们还在附录中展示了一些特征可视化结果。与最先进方法的表4给出了我们提出的方法和几种最先进的FSL方法在复合表达数据集上的比较结果。我们基于四种代表性的L2 M方法构建EGS-Net方法，包括ProtoNet（Snell，Swersky 和 Zemel2017 ）， MatchingNet （ Vinyalset al.2016）、WEBNet（Sunget al. 2018）和GNN（Garcia和Bruna2018 ），分别表示 EGS-Net （ P ）、 EGS-Net（M）、EGS-Net（R）和EGS-Net（G）。这些方法在度量模块方面有所不同。具体来说， ProtoNet 和MatchingNet分别采用欧氏距离和余弦距离。一个基于香草和图卷积的可学习度量模块被用于Rela- tionNet和GNN。为了公平比较，所有竞争方法都是通过在相同设置下使用公开可用的代码来训练的数据集和主干）。与相应的L2 M基线相比，EGS-Net（P）、EGS-Net（M）、EGS-Net（R）和EGS-Net（G）实现更高的性能（2.48%，2.73%，2.01%，3.69%CFEE上的改进，以及对于5次分类任务，更具挑战性的 AdjustioNet 数据集上的 2.28% ， 2.10% ， 0.72% ，4.06%的改进）。上述结果表明，证明我们提出的EGS-Net方法可以进一步提高现有L2M方法在未知复合表达式数据集上的推理能力此外，我们评估了最近几种FSL方法的性能比较。例如，InfoPatch（Liu etal. 2021）将对比学习引入到用于一般匹配的情景DKT（P atacchiola et al. 2020）学习一个内核，可以转移到一个新的任务，贝叶斯模型。Tsenget al.（Tseng et al.2020）通过使用特征变换层解决了CD-FSL问题。一些基于迁移学习的方法集中在预训练阶段的损失函数的设计（ Chenet al. 2019年;Alasiyabi，Lalonde和Gagne '2020）或微调阶段新类别分布的校准（Hu，Gripon和Pateux2021;Yang，Liu和Xu2021）。从表4中可以看出，在所有竞争方法中，我们的EGS-Net（G）使用基于图卷积的度量函数，在实验室CFEE数据集上获得了最高的准确率，分别为73.79%，61.28%，在野外的AdjustioNet数据集上分别为5shot和1 shot分类任务的62.12%，51.93%。结论在本文中，我们提出了一种新的EGS-Net方法，用于在CD-FSL环境下计算化合物FER，该方法避免了大规模标记化合物表达训练数据的繁琐收集，为实际应用提供了优越的可扩展性。为了缓解有限基类的问题所提出的框架包括一个联合学习阶段，以防止训练模型过度拟合高度重叠的采样基类，和一个备用学习阶段，以进一步提高我们的模型的推理能力大量的实验已经进行，以验证我们的方法在实验室和在野生化合物表达数据集的有效性。方法企业简介5次射击单次拍摄5次射击单次拍摄ProtoNet（Snell，Swersky和Zemel2017）69.6958.0557.4948.58MatchingNet（Vinyals et al. （2016年）64.7056.7554.1448.09Sung et al. 2018年）65.2756.5156.1848.33GNN（Garcia and Bruna2018）70.1058.4558.0649.23InfoPatch（Liu et al. 2021年）71.9960.8258.7346.61DKT（P atacchiola et al. 2020年）67.5554.9455.3045.39GNN+LFT（Tseng et al. 2020年）71.7659.9661.3751.56基线（Chen et al. 2019年度）66.9854.2160.1550.38BASELINE++（Chen et al. 2019年度）68.6056.2861.1351.00Arcmax损失（Alasiyabi，Lalonde和Gagne '2020）68.9256.9460.8751.02PT+NCM（Hu、Gripon和Pateux2021）68.5956.6055.7046.45LR+DC（Yang，Liu和Xu2021）68.9757.9755.7146.98EGS-Net（P）72.1760.9059.7750.06EGS-Net（M）67.4358.0656.2449.21EGS-Net（R）67.2857.6056.9049.55EGS-Net（G）73.7961.2862.1251.93+v：mala2255获取更多论文致谢本研究得到了国家自然科学基金项目 62071404 和61872307、浙江省实验室开放研究项目2021KG 0AB02、福建省自然科学基金项目2020J01001和厦门市青年创新基金项目3502Z20206046的资助。引用Alassiyabi，A.; Lalonde，J. F .地; 和Gag ne′，C. 2020年。用于少数拍摄图像分类的关联对准。在欧洲计算机视觉会议上，18-35。贝尼特斯-基罗斯角F.地; Srinivasan，R.;冯，Q.;王玉;和Martinez，A. M. 2017. ActutioNet挑战：在野外识别面部表情的情感。arXiv预印本arXiv：1703.01210。陈文Y的; 刘玉-C.的; Kira，Z.;王玉-C.的; 和Huang，J. -B. 2019.仔细看看少数镜头分类。在国际学术报告会议的筹备期间。Ciubotaru ， A.- N. 的 ; Devos ， A.; Bozorgtabar ， B.;Thiran，J.- P的;和Gabrani，M. 2019. 重新审视面部表情识别的几次学习。arXiv预印本arXiv：1912.02751。科尔内亚努角一、西蒙先生。的O.; Cohn，J. F.地; 和Guer-rero，S.E. 2016.面部表情识别的RGB，3D，热和多模态方法调查：历史，趋势和影响相关应用。IEEETransactionsonPatternAnalysisandMachineIntelligence，38（8）：1548戴维斯，D. L.的; Bouldin，D. W. 1979.一种聚类分离测度。IEEE Transactions on Pattern Analysis and MachineIntelligence，（2）：224Dhall，A.; Goecke，R.; Lucey，S.;和Gedeon，T. 2011.恶劣条件下的静态面部表情分析：数据，评估协议和基准。IEEE计算机视觉工作室国际会议论文集，2106董，X.;郑，L.;马，F.;杨;和Meng，D.2018年具有模型通信的少示例对象检测。IEEE Transactions on PatternAnalysis and Machine Intelligence，41（7）：1641杜，S.;陶，Y.;和Martinez，A. M. 2014.感情的复合的面部表情。美国国家科学院院刊，111（15）：E1454Ekman，P.;和Friesen，W. 1971年。在面部和情绪上的文化常数。 JournalofPersonalityandSocialPsychology，17（2）：124Fabian Benitez-Quiroz，C.;Srinivasan，R.;还有马丁内斯A. M. 2016. AnalogtioNet：一种精确的实时算法，用于自动注释野外一百万个面部表情。在IEEE计算机视觉和模式识别集，5562Finn，C.; Abbeel，P.;和Levine，S. 2017.模型不可知元学习用于深度网络的快速适应。在机器学习国际会议上，1126Garcia，V.;和Bruna，J.2018年图神经网络的少样本学习在学习表征国际会议论文集。古德费洛岛J.道：Pouget-Abadie，J.; Mirza，M.;徐，B.;Warde-Farley，D.; Ozair，S.; Courville，A.;和Be

下载后可阅读完整内容，剩余1页未读，立即下载