人脸表情识别中的数据偏差与Meta-Face2Exp方法

114 浏览量更新于2023-10-25 收藏 2.12MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

20291Face2Exp：对抗面部表情识别曾丹1，林志远1，肖艳1，刘玉婷2，王飞3，唐波 *11南方科技大学可信自治系统研究院南方科技2 JD.com，北京，中国;3南方科技大学微电子学院{zengd @，12132456@mail.，yanx @，wangf @，tangb3 @}sustech.edu.cnlalenaliu17@gmail.com摘要人脸表情识别（FER）是具有挑战性的，由于类不平衡造成的数据收集。现有的研究仅使用标记的面部表情数据集来解决数据偏差问题。正交现有的FER方法，我们提出利用大型的未标记人脸识别（FR）数据集，以提高FER。然而，这引起了另一个数据偏差问题-FR和FER数据之间的分布不匹配。为了克服这种不匹配，我们提出了Meta-Face 2 Exp框架，它由一个基本网络和一个自适应网络组成。基础网络学习类平衡的FER数据的先验知识，而自适应网络被训练以拟合由基础模型生成的FR数据的伪标签。为了克服FR和FER数据之间的失配，Meta-Face 2 Exp使用电路反馈机制，该机制利用来自自适应网络的反馈来改进基础网络。实验表明，我们的Meta-Face 2 Exp达到了与最先进的FER方法相当的准确性，基线利用了10%的标记FER数据。我们还证明，电路反馈机制成功地消除了数据偏置1。1. 介绍人脸表情识别（FER）在人机交互和情感计算中有着广泛的应用[1，2，7]。然而，如图1（a）所示，现有FER训练数据集偏向于某些主要类别，这导致少数类别的测试准确性较差。偏见是因为一些面部表情（例如，轻蔑、厌恶）在日常生活中是罕见的，为它们收集许多样本是昂贵的。用有偏见的数据训练的深度神经网络（DNN）倾向于支持多数类，而在少数类上表现不佳1代码可在以下链接获得：https://github.com/danzeng1990/Face2Exp。* 通讯作者。(a)（b）第（1）款图1. (a)FER训练数据的类别分布是有偏的，导致类别之间的测试精度不同（b）FER和FR数据不匹配的类别分布。我们使用整个AffectNet训练的ResNet50来测试FER和FR数据。早期的FER方法，如[9]和[19]，用有偏差的FER数据训练深度神经网络来对表达进行分类，并观察少数表达类别的准确性急剧下降。为了解决类别偏见，后来的方法[32]，[10]使用人类面部运动（即，面部动作单元、面部标志）作为表情识别的辅助信息。然而，这些方法需要具有除表达式之外的标签的数据集，收集这些数据集的成本甚至更高。一些FER方法[26，29]通过从训练集中去除模糊样本来提高性能。总而言之，现有的FER方法工作在有偏FER数据集上，重点是诸如模型设计、边信息和困难样本。然而，众所周知，高质量的训练数据对DNN模型的性能至关重要。方法[6，21，24]使用小规模对照未标记数据增强FER以提高性能。由于大规模类平衡FER数据集的获取成本很高，我们提出使用不带表情标签的大规模人脸识别（FR）数据集来提高FER。例如，Webface 260 M [42]、MS-Celeb-1 M [13]和VGGFace 2[3]都是百万级FR数据集，其中包含具有良好综合多样性的人脸图像（即，不同的姿势、身份、不同的照明和不同的表情）。相比之下，最大的公共FER数据集仅包含440K图像。然而，这不可避免地引起另一个数据偏差问题，因为FER数据和FR数据具有如图1（b）所示的不匹配的分布。为了克服上述数据偏差，我们提出了20292Meta-Face 2 Exp框架，它利用未标记的人脸数据，通过元优化框架来增强表情识别。元学习的目标是在平衡的FER数据的条件下，最小化模型预测对具有挑战性的面部表情的损失函数。Meta-Face 2 Exp由两个网络组成，即基础网络和自适应网络，它们通过电路反馈范例连接，该范例使用来自自适应网络的反馈来改进基础网络以进行去偏知识提取。我们将每个完全训练的基础和适应模型称为一代。在每一代中，使用由基础网络生成的伪标签在大规模FR数据上训练自适应网络，以便提取丰富的面部表情知识（在元训练阶段）。基础网络在去偏FER数据上学习先验面部表情知识，这些数据被采样以确保类平衡。为了解决FR和FER数据之间的不匹配，我们的电路反馈范例通过在元测试阶段利用自适应网络对有偏FR数据和去偏FER数据的认知差异来通知基础网络伪标签有多好。如果它们的认知差异较大，则基础网络被惩罚使用电流梯度的逆方向从而不断改进基本网络，生成更有说服力的伪表达式标签用于训练自适应网络，最终自适应网络学习去偏表达式知识。综上所述，本文的主要贡献如下• 我们解释了两个数据偏差，即，FER数据中的类别不平衡以及FR和FER数据之间的类别分布不匹配，这启发了Meta-Face 2 Exp，第一个利用大规模未标记的FR数据来提高FER的工作。我们认为Meta-Face 2 Exp提供了一个通用框架，可以将大规模未标记的FR数据用于其他面部相关任务（例如，性别/种族分类、年龄估计）。• 我们提出了Meta-Face 2 Exp框架，通过元优化框架从辅助FR数据中提取去偏知识。Meta-Face 2Exp为面部表情识别提供了一个具有成本效益的范例。• 我们对广泛使用的FER基准进行了广泛的实验，包括AffectNet [22]和RAF-DB [19]，以证明我们的Meta-Face 2 Exp框架的有效性具体而言，Meta-Face 2 Exp使用仅10%的标记FER数据获得了与最先进的FER方法相当的结果。2. 相关工作在本节中，我们将讨论与FER和使用未标记数据进行学习然后我们突出显示我们的关键探索大规模未标记的FR数据来增强FER的思想，这与现有的方法不同。2.1. 人脸表情识别用于单数据集FER的方法可以分为三类，即，基于深度分类网络的方法、基于人脸运动的方法和基于模糊表情注释的方法。基于深度分类网络的方法：他们采用用标记的FER数据训练的深度神经网络来保持局部相似性，并最大化用于区分特征提取的类间散点[9，10，19，36]。FaceNet2ExpNet [9]设计了一个两阶段的训练算法。在预训练阶段，使用人脸识别网络来训练卷积层，然后执行表情标签以完全训练网络。然而，他们的结果遭受了一个急剧下降，在minority表达类别。DLP-CNN[19]使用局部保留损失将同一类的局部相邻面拉在一起，并使用softmax损失强制分离不同的类。最近，DACL [10]提出了一种新的自适应学习判别特征的损失。TransFER [36]提出了一种基于Transformer的新架构，以学习关系感知的本地表示。基于人类面部运动的方法：它们提供了强有力的表情运动线索，有助于学习区分性表情特征，注意机制通常被探索[10，30，32]。RMT-Net [4]通过关联学习和残差学习建立FER和面部标志定位之间的联系，因此具有单任务标签的训练数据可以用于多任务网络。FDRL [25]由特征分解网络（FDN）和特征重建网络（FRN）组成。FDN将基本特征分解为基于面部动作单元的一组面部动作感知潜在特征。FRN通过学习每个潜在特征的特征内关系权重和特征间关系权重来重构表情特征然而，这些方法通常需要具有多任务标签的数据集。基于歧义表达式注释的方法：它们通常处理难以处理的标记混淆以增强FER结果，这与我们的工作最接近。IPA2LT [40]是学习具有多个不一致注释数据和大规模未标记数据的FER模型的第一项工作。LDL [5]将one-hot面部表情标签转换为标签分布，以解决注释不一致的问题，并从包括动作单元识别和面部地标检测在内的辅助任务中学习这些分布SCN [29]采用排名正则化来加权每个训练样本，并重新标记这些排名最低的组，以抑制FER的不确定性DMUE [26]介绍了一种用于潜在分布的辅助多分支学习20293均衡FER数据反馈（元检验）去偏置机制...s（0）（1）（t）（T）ceA a a A A(1)（t）（T）棕色DFRDFRDFRNS#s。a. D.中性聚丙烯我......安提偏倚FR数据BalMI常见罕见采样基础网络Lc...Lf均衡FER数据反馈（元检验）去偏置机制增强...PseudoFRlabely中文（简体）一中国（1）一（t）一（T）一D（1）FRD（t）FRD（T）FRS.a.D.ne.联合t.h a.p. .py偏倚FR数据常见罕见Meta-Train...适应网络蒸馏Meta-train去偏FR标签+新FR数据AB快乐中性伤心愤怒惊喜Fear.. . Digu stC ontem ptFER数据（L）（xFER，yFER）XFRFR数据（U）...Lu真实世界条件数据流梯度流标签生成图2. Meta-Face 2 Exp框架。Meta-Face 2 Exp由一个自适应网络和一个基本网络组成。在元训练阶段，在具有伪FR标签的未标记FR数据上训练自适应网络在元测试阶段，自适应网络估计有偏的FR数据和去偏的FER数据之间的认知差异，以更新基础网络作为反馈。两个网络连接在一个电路反馈范例，从大规模FR数据中提取去偏知识分布挖掘，并使用成对特征来估计不确定性，以便解决表达式注释的模糊性。2.2. 使用未标记数据在交叉数据集FER中，半监督学习已经被广泛研究用于使用未标记数据进行学习。现有的工作[11，12，37，38]将知识从训练集转移到目标数据，以联合学习源和目标数据集上的最佳非线性判别特征。相反，Ref.[31]使用GAN生成的目标数据来微调在源数据上训练的模型，以最小化源和目标表达式之间的差异。AdaFER [28]使用客观面部动作单元来执行无监督域自适应的辅助训练，以减轻源域和目标域之间的注释偏差AGRA [35]结合了图表示传播和对抗学习，根据不同数据集之间的数据不一致性和偏差对局部特征进行细粒度自适应。ECAN [18]通过应用最大平均差异作为重新加权正则化和类条件正则化学习来学习域不变和判别特征表示。与交叉数据FER相比，我们的工作重点是探索大规模未标记的FR数据（即，从不同的应用）来增强FER，这更具挑战性。一些通用的方法，如伪标签[17]，噪声学生[34]被提出来学习未标记的数据。Fix- match [27]通过使用高置信度伪标签训练模型来简化学习过程。UDA [33]通过合并数据来改进半监督学习，[8]限制模型预测对输入噪声的不变性。最近，Meta学习方法已被用于纯化伪标签。MPL [23]使教师网络能够根据学生对标记数据的表现反馈进行调整。CPGML[39]提出了不精确监督的元学习。训练样本只有粗粒度的标签，以减少对数据注释的需求。在Meta-Face 2Exp中，我们使用元学习哲学来解决数据偏差，包括类不平衡和分布不匹配，以提高FER。具体来说，它可以被视为一个双层优化问题[15]，主要涉及在不同级别学习的网络：内部和外部级别优化。基础网络，外层优化，学习知识，在训练后在FER验证集上表现良好。自适应网络是一种内部层次的优化，它根据对有偏和去偏数据的认知差异提供反馈以改进基本网络。3. Meta-Face2Exp3.1. 框架概述如图2所示，用于面部表情识别的Meta-Face 2 Exp框架由自适应网络（）和基础网络（）组成。这些两个网络具有相同的网络结构，具有独立的权重，并且通过电路反馈范例连接。在每一代，自适应网络使用所生成的伪标签F1，F2，F3，F4（即，通过利用基础网络）对未标记数据xFR进行训练。基本网络学习标记上的先验表达式知识Ls不平衡#20294·一B·ABL··BAdataxFER，它们被采样模块Smp（）采样以确保类平衡。采用Meta-Face 2 Exp的去偏机制，根据有偏FR数据与去偏FER数据之间的认知差异，在适应网络反馈的基础上逐步改进基础网络因此，基础网络可以产生更好的伪标签，用于训练下一代自适应网络。例如，如图2的右侧部分所示，我们估计初始自适应网络（即，用长尾FER数据训练），并观察到严重偏斜的蓝色精度分布。后来，我们可以观察到越来越平坦的精度分布（即，红色精度分布）从训练步骤1到T，具有去偏置机制。同时，预测的FR标签是通常基于对平衡FER数据的反馈从悲伤、中性到高兴的表情进行校正。通过设计，这两个网络不断地相互补充，以提取FER任务中的去偏知识在培训期间，网络和网络更新是交替进行的。在推理阶段，只有适应模型用于面部表情预测。3.2. 适应网络（A）对于自适应网络，利用大规模未标记的FR数据来增强FER，因为FR数据具有丰富和全面的多样性。如图2所示，Meta-Face 2 Exp通过对两个网络进行建模来训练自适应网络，以预测类似的条件分类。损失为Lu的未标记FR数据的分布：Lu=CE（θyF R，A（xF R;θA））.（一）最小化伪FR标签无规FR（即，one-hottar get标签），其是具有从（xFR;θB）导出的最高得分的表达式。与地面实况标签不同，伪标签在训练过程中动态变化。自适应网络θ A的参数在元训练阶段更新。在元测试阶段，平衡FER数据集（即，用于训练基本网络）用于估计有偏FR数据和去偏FER数据之间的认知差异。3.3. 基础网络（B）对于基础网络，标记的FER图像xFER用于训练网络，yFER用作地面实况标记。我们首先采用一个采样模块Smp（）来保证FER数据的类分布是均衡的。具体来说，我们在每个面部表情类上随机选择相同数量的样本，这确保了为训练基础网络生成平衡的类如图2所示，提出了监督损失、一致性损失和反馈损失三种损失来指导基础网络的学习过程，其可以表示为L B= Ls+ Lc+ Lf。（二）特定表达式封面所有数据的扩充FR数据的增强......图3.增强的面部图像的图解。具体而言，监督损失和一致性损失仅适用于基础网络，而反馈损失考虑了自适应网络的元测试性能。使用FER数据的监督学习：利用损失s，Meta-Face 2Exp训练基础网络以最小化标记但平衡的FER数据上的交叉熵损失：Ls=CE（yFER，B（xFER;θB）），（3）其中θB是Meta-Face 2 Exp的基础网络的参数，CE表示交叉熵损失。FR数据的一致性学习此外，我们在大规模FR数据上应用增强模块Aug（）Meta-Face 2 Exp通过利用损失Lc训练基础网络以保证原始FR数据和增强数据之间的一致条件分布：Lc= CE（B（xFR; θ B），B（Aug（xFR）; θB））.（四）我们提出了一个有效的表达特定的增强方法Aug（）FR数据。这些增强图像不仅用于训练自适应网络，而且用于基础网络的一致性学习。对于一致性学习，基本网络要求原始图像和增强图像具有接近的类条件分布。如图3所示，图像生成有三种类型的增强，包括用于左框上所有数据的常规变换（随机裁剪、旋转和水平翻转）、扩展图像变换（即，旋转、擦除和逐像素图像处理），用于右侧框上的FR数据和顶部框上的表达特异性扩增。考虑到面部表情与面部标志点密切相关，本文对人脸图像进行增强，通过覆盖与面部表情无关的区域来净化面部表情特征提取。具体来说，我们应用MTCNN [41]来检测五个面部界标并凭经验确定以界标为中心的块，即，眼睛为50×20像素，鼻子和嘴巴为50×40像素，前额为224×50像素使用FR数据进行反馈学习：在Meta-Face 2 Exp中，基础网络和自适应网络都是通过电路反馈模式来更新的。具体地，B → A与伪标签生成相关联，并且A →B20295LLB → ALL LLA → B参数与反馈损失F有关。作用在基本网络上的反馈损耗可以表示为Lf=f·CE（θyFR，B（xFR;θB）），（5）其中f估计FR和FER数据之间的认知差异的反馈，以帮助更新基础网络的参数反馈系数f的定义可以表示为：f=ηA·（θ（t+1）CE（yFER，A（xFER;θ（t+1）θ·分别为。图4显示了我们实验的典型结果，其中紫色和蓝色分别代表FER和FR数据。监督学习（SL）模型使用所有AffectNet进行训练。SL模型在图4（a）中显示了去偏置FER和偏置FR数据之间的严重不匹配。具体来说，Webface 260 M中的蓝色和AffectNet和RAF-DB中的紫色跨越了整个特征空间，并且没有明显的两种颜色的集群很好地对齐，这激发了我们的去偏见设计。我们展示了去偏见机制的哲学-θAA（吨）（六）nism工作。新的适应网络在θACE（其中f表示为两项的点积。第一项：新适应网络的梯度在去偏置FER数据上。第二项：旧的适应网络对有偏FR数据的梯度。如果两个项具有相同/不同的梯度符号，则根据当前梯度的相同/相反来更新基本网络。点积的绝对值决定梯度更新的强度。自适应网络使用伪标记数据来更新数据。θ（t+1）。特别地，我们用通过更新基从θ（t）获得的A来一平衡FER数据被用作测量。具体地，当FR数据上的自适应网络和FER数据上的新自适应网络具有相同的认知（即，它们的梯度的符号），我们获得正反馈系数（即，f）的正值，其通过使用梯度的当前方向来鼓励基础网络的更新当FR数据上的自适应网络和FER数据上的新自适应网络具有不同的认知（即，它们的梯度的符号），反馈系数将给出负号，这通过使用当前梯度的相反方向来通过这种方式，反馈被用作通过基础网络返回的奖励信号，确定基础网络的参数如何被使用。网络参数（xF R，xyF R），即，θ（t+1）=θ（t）−工作影响适应网络的梯度，ηAθACE（θyF R，A（xFR;θA））.A有偏特征提取。因此，自适应网络在有偏FR数据上的学习将执行与评估过程一致的去偏行为。均衡FER数据。如图4（b）所示，我们观察到分布失配已经通过去偏置机制和去偏置FR数据的特征布局（即，Webface260M）与均衡FER数据中的相似。例如，两个分布在中心底部重叠，指示即使在有偏FER数据中也学习到去偏知识。因为FER数据包含基本表达式，而FR数据具有复合表达式，如图6所示。这解释了它们的特征即使用我们的方法也不能完全对齐。3.4. Meta-Face 2 Exp算法(a)监督学习模型（b）Meta-Face 2 Exp图4.消除偏差机制对抗不匹配偏差的说明。FR数据和FER数据通过使用Meta-Face 2 Exp（b）比SL模型（a）更好地对齐。去偏机制：探索辅助FR数据以提高FER将不可避免地导致FR和FER数据之间的不匹配分布。为了验证Meta-Face 2 Exp的去偏性，我们通过tSNE分析FR和FER数据之间的面部表情特征的分布对于FR数据，我们从Webface260M中随机生成总共415个样本，这些样本是有偏分布的。对于FER数据，我们从AffectNet和RAF-DB测试集生成560个样本，每个表情类别70张面部图像，我们在算法1中列出了Meta-Face 2 Exp的详细分步伪代码。Meta-Face 2 Exp通过电路反馈范例从辅助FR数据中提取去偏知识在每一代，首先通过最小化第7行中所示的无监督损失u来更新自适应网络。因此，与FR数据的伪标签生成相关联。因此通过利用三个损耗（即，监督损失S、一致性损失C和反馈损失F），如第17行所示。具体地，用于指导基础网络的学习过程的三个损失分别在第9行、第11行和第15行中示出。因此，在本发明中，与线路12至15的反馈损耗有关。由-20296FER（x ，θ ）FR FRB →AA → B算法1Meta-Face 2 Exp的训练过程中立快乐悲伤惊喜恐惧消化愤怒蔑视输入：标记数据D′和未标记数据DFR输出：Θ（T）初始化e：θ（A0）和θ（0）1：B A′获取平衡的标记数据：DFER←Smp（DFER）2：对于t = 0. T− 1 do3：xFER，yFER←SampleMiniBatch（DFER）4：xFR←SampleMiniBatch（DFR）5：向前（t）6：使用伪标签更新适配网络工作图5. FER数据的示例表达式（即，RAF-DB，Af-fectNet）和FR数据（即，Webface260M）。对于FR数据，手动选择三个身份的八个面部表情进行显示。7：θ（t+1）<$θ（t）−ηA<$θCE（θyFR，A（xFR;θA））图8： CA根据FER数据计算基础网络图9：g（t）←θCE（yFER，B（xFER;θB））表1.用于深度人脸识别和深度面部表情识别的数据集。十：B，sB在FR数据上计算基础网络11：g（t）←θCE（B（xFR; θB），B（Aug（xFR）;θB））十二：B、c计算基本网络13：应用等式（6）14：通过反馈计算基础网络15：g（t）←f·θCE（θyFR，B（xFR;θB））最大的FER数据集，提供表达式cat-十六：B，fB更新基本网络：17：θ（t+1）← θ（t）− ηB·（g（t）+g（t）+g（t））egories注释。通过查询表达式相关的键-18：结束fB或B（T）B，sB、f和218c从三个搜索引擎的话，有44万im-年龄从互联网上收集。其中，28万19：返回ΘA符号，这两个网络不断相互补充，以提取FER任务中的去偏知识。为了避免数据偏差，使用电路反馈是关键。首先，基础网络从类平衡FER数据中学习先验表达式知识，这导致在伪标签生成过程中进行更多的去偏表达式预测（）。第二，适应网络比较认知差异（即，在更新参数之前和之后）对去偏置的FER数据进行处理，以通过利用反馈损失来更新基础网络的学习，这明确地解决了FR和FER数据之间的类别分布失配（）。最后，即使没有标记，自适应网络也具有去偏的表达知识。4. 实验在本节中，我们首先介绍实验设置，并将Meta-Face2 Exp与现有的最先进技术进行比较。然后，我们展示了我们的电路反馈成功地消除了数据偏置。最后对损耗设计进行了烧蚀研究4.1. 数据集和指标我们使用AffectNet [22]和RAF-DB [19]作为面部表情识别的目标FER数据集，并选择最新的Webface 260M [42]作为我们的FR数据，如表1所示AffectNet是迄今为止最具挑战性的网站首页260MAffectNetRAF-DB数据集#身份实验次数图像数量出版物Webface260M（FR数据）4M-260MCVPR'21RAF-DB（FER数据）-730KCVPR'1720297××训练图像和4000个测试图像用八个面部表情（例如，中性、高兴、愤怒、悲伤、恐惧、惊讶、厌恶和蔑视）。它有一个不平衡的训练数据集和平衡的测试数据集。RAF-DB是另一个大规模FER数据集，它包含30，000个面部图像，具有七个基本或复合标记（即，中性、高兴、惊讶、悲伤、愤怒、厌恶和恐惧）由大约40个独立的标记器注释网络-face260M[42]是一个百万级数据集，是迄今为止最大的公共FR数据集，包含来自4M身份的2.6亿张人脸和来自2M身份的42M张干净人脸。平均类准确度以及混淆矩阵用于测量。此外，我们还报告了每个表达类别准确度之间的标准差（std），以衡量FER偏倚。4.2. 实现细节培训详情：对于AffectNet，我们抽取了28，608幅图像作为标注的FER数据用于训练（仅为Affect-Net的10%），并抽取了4，000幅图像用于测试。对于RAF-DB，我们使用所有12，270个图像和七个基本表达式（即，无抽样）用于训练，3，068个图像用于测试。我们不使用抽样，因为少数人前-压缩只包含281个图像，这些图像太小而无法训练网络。所有的训练人脸图像被检测到，并调整大小为256 - 256像素，并通过随机裁剪- ping增强到224 -224像素。默认情况下，我们使用ResNet50 [14]作为基础网络和适配网络的骨干。首先初始化学习速率（即，1 e-2为20298基础网络，1 e-3用于自适应网络），并进一步用余弦退火策略衰减。一旦训练完成，我们将以1 e-5的固定学习率用标记数据集微调自适应网络批量大小设置为32。训练AffectNet的整个训练步骤和RAF-DB分别为180，000和30，000。它使用一个Nvidia RTX2080 GPU进行端到端训练。基线：我们将Meta-Face 2 Exp与最先进的基线进行比较。我们包括8个模型，这些模型使用整个标记的训练数据集进行训练，即，[14]，gaCNN [20]，IPA2LT[40]，RAN [30]，CAKE [16]，SCN [29]，LDL [5]”[26]《明史》其中，4款车型（即，SL、IPA 2LT、DMUE、SCN）提供了AffectNet和RAF-DB上的结果。IPA2LT是解决注释不一致问题的先驱工作。我们还包括CAKE模型，该模型使用7个类在AffectNet上进行训练和测试。所有结果都来自他们的论文。对于SL模型，我们在我们的实验设置下训练它们（即，ResNet50，100%标记数据大小），并进行广泛的超参数调优以实现性能优化。4.3. 与最新方法的我们报告Meta-Face 2 Exp和基线模型的平均分类准确度进行比较。表2中的结果显示Meta-Face 2 Exp优于现有技术（即，CAKE），如果模型在Af- fectNet上用7个类进行训练和测试。对于8个面部表情类，Meta-Face 2 Exp仍然可以获得可比较的结果（即，六十岁。17%）到使用仅10%标记的FER数据的现有技术方法根据表3中的结果，我们在RAF-DB上创造了一个新的第二好记录，平均准确率为88。54%，这也与最先进的水平相当方法（即，88岁76%）。我们认为，一个理想的FER系统-TEM不仅应报告高平均精度，而且标准差准确度低不幸的是，标准品的准确性在很大程度上被现有的方法忽略了。我们将重点分析和讨论FER的标准精度，并表明Meta-Face 2 Exp可以在较低的标准精度下实现较高的平均精度表2.在AffectNet上比较。+表示AffectNet和RAF-DB都用作训练数据。表示该方法用7个类进行训练和测试只有10%的标记数据用于我们的方法。表3. RAF-DB的比较。+表示AffectNet和RAF-DB都用作标记的训练数据。表4.不同模型在AffectNet上的平均值和标准精度所有模型都使用7种表情类别进行训练和测试。模型SLMeta-Face 2 Exp（我们的）标签数据大小百分百百分之一百分之五百分之十平均准确度（%）↑58.3753.5461.6664.23标准品准确度（%）↓21.5314.4110.6910.07表5.不同型号RAF-DB的平均值和标准准确度模型SLMeta-Face 2 Exp（我们的）标签数据大小百分百25% 50% 100%平均准确度（%）↑84.1680.8785.04 88.54标准品准确度（%）↓15.489.4310.70十点4.4. 班级不平衡标签集的大小：为了验证我们的Meta-Face 2 Exp对类不平衡的有效性，我们在表4和表5中报告了AffectNet和RAF-DB上不同模型的标准准确度。具体来说，我们使用Meta-Face 2 Exp模型精度作为标记数据集大小的函数对于Af- fectNet，我们使用Meta-Face 2 Exp模型准确度作为1%、5%和10%平衡数据的函数。对于RAF-DB，我们不需要平衡数据，因为它是一个小规模的数据集，并使用25%，50%和100%的不平衡标记数据。如结果所示，（1）Meta-Face 2 Exp显著降低了标准精度，并且始终以较大幅度优于基线，这证明了Meta-Face 2 Exp的去偏具体来说，我们通过仅使用1%的平衡标记 AffectNet 将 AffectNet 上的标准精度从21.53%降低通过仅使用25%不平衡RAF-DB，我们还将标准准确度从15.48%降低到9.43%。(2)我们可以通过使用小规模的标记数据（即，5%标记的AffectNet和50%标记的RAF-DB）。(3)我们发现，较大的标记数据大小会导致更好的平均准确性，但不一定会导致较低的标准差准确性。它验证了电路反馈可以成功地消除数据偏置，并且对非常有限的数据（即，与标记的训练数据的大小无关）。我们还比较了Meta-Face 2 Exp与其他现有方法的标准精度。由于SCN是唯一的开源项目，我们使用公共可用模型。SCN实现了15.56%的标准准确度，接近SL模型的15.48%，但比表5中提出的Meta-Face 2 Exp高出约6%这个比较再次支持了Meta-Face 2 Exp对抗类不平衡的有效性。训练期间的去偏见行为：我们以Meta-Face 2 Exp模型为例，用10%的标签AffectNet进行训练，展示了训练过程中的去偏行为。不同训练步骤的测试准确度以及真实和预测标签之间的混淆矩阵是方法IPA2LT+跑蛋糕（蛋糕）DMUESCNSLOurs（我们的）方法gaCNNIPA2LT+LDL+DMUESCNSL我们准确度（%）85.0786.7785.5388.7687.0384.1688.5420299LL(a) Meta-Face2Exp（10% AffectNet @ Step 10K）（b）Meta-Face2Exp（10% AffectNet @ Step 180K）图6. Meta-Face 2 Exp的去偏行为的图示。从（a）到（b）的蓝色曲线示出了通过训练更多步骤的Meta-Face 2 Exp的准确性改进。(b)与使用100%标记数据训练的监督学习模型相比，Meta-Face 2 Exp获得了更多的平衡，但精度更高。如图6所示。首先，我们观察到不同表达式的准确度曲线随着训练逐渐变平，如图6（a）至（b）所示。其次，与SL模型相比，提出的Meta-Face 2 Exp可以大大缓解类不平衡，如图6（b）所示。例如，Meta-Face 2Exp在厌恶表情上可以达到56.4%，而SL只能产生不到30%的平均准确度。这种去偏行为得益于我们的电路反馈范式，该范式不断提高FER的平均准确度并学习去偏面部表情知识。可视化分析：为了进一步研究我们的Meta-Face 2 Exp对FER和FR数据的有效性，我们展示了监督学习（SL）模型和Meta-Face 2 Exp对AffectNet的八种表达的预测结果。图7示出了一些示例面部和预测结果，包括来自不同面部表情的预测表情和概率。与使用整个AffectNet训练的基线相比，Meta-Face 2 Exp显示出更好的识别结果。具体来说，我们的模型预测正确识别面部表情的概率更高。从中间两行开始，我们的模型可以识别面部表情，但SL模型不能。从下两行，我们的模型预测面部表情无法识别的概率较低。4.5. 消融研究我们使用不同的损失函数探索Meta-Face 2 Exp的影响Af- fectNet和RAF-DB的消融性能研究如表6所示作为结果如图所示，（1）在四次损失的情况下，Meta-Face 2Exp可以实现最佳的平均精度。 (2)无监督损失LuGT Exp中性快乐悲伤惊讶恐惧厌恶愤怒蔑视好吧澩澫澙害羞。澫澥澙我不知道澤澭澙我是帕森斯。澧澦澙你好澦澨澙好吧澭澭澙害羞。澭澧澙好吧澬澦澙SL濂濙濩濨濦濕濠澼濕濤濤濭濇濕濘濇濩濦濤濦濝濧濙澺濙濕濦澸濝濧濛濩濧濨澵濢濛濙濦澷濣濢濨濙濡濤濨害羞。我不知道。偶尔会有一些bash.偶尔也会。我不知道。澨澪澙澪澭.你好，我是pstn我们濂濙濩濨濦濕濠濠濠澼濕濤濤濭濇濕濘濇濩濦濤濦濝濧濙澺濙濕濦澸濝濧濛濩濧濨澵濢濛濙濦澷濣濢濨濙濡濤濨好吧澨澧澙pstn电话偶尔好吧澨澧澙pstn.澨澥澙好吧澨澤澙好吧澤澩澙pstn巴什。澧澫澙SL澼濕濤濤濭澷濣濢濨濙濡濤濨濂濙濩濨濦濕濠澼濕濤濤濭濇濩濦濤濦濝濧濙濂濙濩濨濦濕濠澸濝濧濛濩濧濨澼濕濤濤濭不好意思。有时候会发生意外。有时候会很尴尬。偶尔也会这样。别这样你好澫澭澙我们濂濙濩濨濦濕濠澼濕濤濤濭濇濕濘濇濩濦濤濦濝濧濙澺濙濕濦澸濝濧濛濩濧濨澵濢濛濙濦澷濣濢濨濙濡濤濨bash bashPSTN电话澫澨澙有时候。澧澥澙偶尔pstn.偶尔的害羞。澬澦澙PSTN电话澧澨澙好吧澩澩澙SL招标人的招标人。我不知道。我不知道我不知道。我知道了我知道了有时候会害羞。澤澦澙我们澺濙濕濦澷濣濢濨濙濡濤濨濂濙濩濨濦濕濠澼濕濤濤濭濇濕濘濇濕濘濂濙濩濨濦濕濠澸濝濧濛濩濧濨图7.监督学习（SL）和我们的模型的比较大幅度提高了误码率，验证了伪标签生成的有效性。(3)一致性损失c对提高FER起着至关重要的作用。这不仅验证了所提出的增强模块的有效性（即，表达特定的封面），但也提供了一个线索，我们可以从FR数据学习全面的知识。（4）反馈损耗f对精度的提高有进一步的贡献，说明去偏机制是有效的。表6. Meta-Face 2 Exp在AffectNet和RAF-DB的7个表达类别上的性能，具有不同的损失函数。模型LsLuLcLfAffectNetRAF-DB1✓✗✗✗60.6684.162✓✓✗✗62.0386.253✓✓✓✗63.6087.264✓✓✓✓64.2388.545. 结论在本文中，我们提出了Meta-Face 2 Exp的面部表情识别，它利用未标记的FR数据，以提高FER通过元优化框架。它是由FER数据的类不平衡和FR和FER数据的不匹配分布的观察启发的。其关键部分是基础网络和自适应网络不断地相互补充，通过电路反馈范式来提取去偏知识特别地，去偏置机制可以有效地产生低标准差和高平均精度。实验表明，Meta-Face 2 Exp可以获得可比的，国家的最先进的方法使用只有10%的标记FER数据的结果。确认本工作得到了广东省重点实验室（批准号：2020B121201001 ）和国家自然科学基金（ No.62176170、62066042）。20300引用[1] Faiza Abdat，Choubeila Maaoui，and Alain Pruski.基于面部表情情感识别的人机交互。2011年UKSim第五届欧洲计算机建模与仿真研讨会，第196-201页。IEEE，2011年。[2] Marian Stewart Bartlett、Gwen Littlewort、Ian Fasel和Javier R Movellan。实时面部检测和面部表情识别：人机交互的发展和应用。2003年计算机视觉和模式识别研讨会，第5卷，第53-53页IEEE，2003年。[3] 曹琼，李申，谢伟迪，奥姆卡·M·帕克希，安德鲁·齐瑟曼. Vggface2：一个用于识别跨姿势和年龄的人脸的数据集。在2018年第13届IEEE自动面部手势识别国际会议（FG 2018）中，第67-74页。IEEE，2018年。[4] Boyu Chen，Wenlong Guan，Peixia Li，Naoki Ikeda，Kosuke Hirasawa，and Huchuan Lu.基于残差多任务学习的人脸标志点定位与表情识别。模式识别，115：107893，2021。[5] 陈世凯，王建峰，陈跃东，石中超，辛耿，永瑞。用于面部表情识别的辅助标签空间图上的标签分布学习在IEEE/CVF计算机视觉和模式识别会议论文集，第13984-13993页，2020年。[6] Ira Cohen ， Fabio Gagliardi Cozman ， Nicu Sebe ，Marcelo Ce-sar Cirelo，and Thomas S Huang.分类器的半监督学习：理论、算法及其在人机交互中的应用。IEEE Transactions on Pattern Analysis and MachineIntelligence，26（12）：1553-1566，2004.[7] Jeff F Cohn和Fernando De la Torre用于情感计算的自动人脸2015年。[8] Ekin D Cubuk，Barret Zoph，Jonathon Shlens，and QuocV Le.随机扩增：实用的自动数据扩充，减少搜索空间。在IEEE/CVF计算机视觉和模式识别研讨会

下载后可阅读完整内容，剩余1页未读，立即下载