自适应置信度模型的半监督深度面部表情识别方法(20字)

113 浏览量更新于2023-10-25 收藏 1.06MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4166基于自适应置信区间李航宇1，王楠楠1*，杨曦1，王晓宇2，高新波31西安电子科技大学2香港中文大学（深圳）3重庆邮电大学hangyuli.xidian@gmail.comnnwang@xidian.edu.cn，yangx@xidian.edu.cnexamplefanghuaxue@gmail.com，gaoxb@cqupt.edu.cn摘要对于大多数半监督学习方法，仅选择部分未标记数据来训练模型，其置信度分数通常高于预定义阈值（即，置信度）。我们认为，识别性能应进一步提高，充分利用所有未标记的数据。在本文中，我们学习了一种自适应置信度模型（Ada-CM），以充分利用所有未标记的数据进行半监督深度面部表情识别。所有未标记的样本被划分成两个子集，通过比较它们的置信度得分与自适应学习的置信度在每个训练时期：（1）子集I包括样本的置信度得分不低于利润;（2）子集II包括，ING样本的置信度得分低于利润。对于子集I中的样本，我们约束它们的预测以匹配伪标签。同时，子集II中的样本参与特征级对比对象，以学习有效的面部表情特征。我们在四个具有挑战性的数据集上对Ada-CM进行了广泛的评估，表明我们的方法达到了最先进的性能，特别是以半监督的方式超过了全监督基线。消融研究进一步证明了我们的方法的有效性。源代码可在https://github.com/hangyu94/Ada-CM 上获得。1. 介绍人脸表情识别的目的是使计算机理解视觉情感。近年来，大规模的标记数据集极大地促进了深层FER的发展，例如，[16]和AffectNet [22]。然而，大规模标签的收集是相当昂贵和困难的。此外，现有的标签往往无法*通讯作者图1. 30名志愿者在10张面孔上进行了自信度的测试，这些面孔被分为7类，包括惊喜、恐惧、沮丧、快乐、悲伤、愤怒和中性。每个面的左上角都标记有其置信度分数。基于置信度分数，所有面部被结果提供了这样的见解，即置信度分数在不同类别之间可能不一致，甚至类别内表达之间的置信度差距可能很大，例如，带着悲伤的面孔。满足实际的细粒度需求，并且重新标记数据需要人类专家。因此，迫切需要开发一种强大的方法，用于在没有相应标签的大量数据上训练模型，即，半监督深度面部表情识别（SS-DFER）。最近的半监督学习（SSL）算法通过预测未标记数据的人工标签来实现竞争性性能例如，伪标记方法[12，14，24，35]利用模型预测作为人工标签来重新训练CNN模型。通常，FixMatch[28] 探索弱增强和强增强的数据对并仅选择具有高置信度预测的未标记样本，其置信度得分高于预定义的固定阈值（例如，0.95）。尽管在常见的分类任务上表现出色来自不同类别的面部表情以不同程度的难度进行分类为了更好地理解这一点，我们随机挑选高预测置信度（≥0.9）0.970预测置信度低（0.75~0.9）0.833DIFe0.700HASA0.710DI0.687FeNE苏一个SA0.7670.8330.9170.9430.967预测置信度下限（≤0.75）4167从RAF-DB [16]中获取了几张图像，并进行了用户研究。如图1所示，对于用Happi-ness注释的面部，置信度分数比其他面部表情高得多。特别是，最可能和最不可能之间的信心差距高达28%。因此，固定阈值对于不同的面部表情是不公平的。换句话说，固定阈值（例如，0.95）可能导致选择太多具有高置信度分数的表达式（例如，幸福）和太少的具有低或更低置信度分数的表达（例如，厌恶）。此外，固定设置在每个训练时期处不够适应。(2)数据利用效率低下。不同类内样本的置信度得分例如，用Sadness注释的人脸之间的置信度差距高达25%（参见图1）。这个问题可能导致一些具有低置信度分数的类内样本不能被选择用于训练模型，例如，悲伤，置信度为0.71。这激励我们考虑低置信度分数的样本如何有助于特征学习。因此，利用自适应阈值充分利用未标记数据对于SS-DFER至关重要。为此，我们提出了一个半监督DFER算法与自适应置信度Margin（Ada-CM）享受其自适应学习所有未标记的数据。具体来说，建议Ada-CM首先运行所有给定的标记数据，并根据不同的面部表情的学习难度自适应地更新置信度重要的是，置信裕度在训练时期逐渐提高。然后，它预测弱增强的未标记数据的置信度得分，将其与学习的置信度裕度进行比较，以将所有未标记样本划分为两个子集：子集I包括具有高置信度得分的样本（即，其置信度分数不低于界限）和包括具有低置信度分数的样本的子集II（即，其置信度分数低于余量）。对于子集I中的样本，Ada-CM利用强增强的未标记样本和来自其弱增强版本的伪标记来计算交叉熵损失。此外，对于子集 II，我们通过应用InfoNCE损失进行特征级对比目标以学习有效特征[4]。总的来说，我们的主要贡献可归纳如下：• 我们提出了一种新的端到端的半监督DFER方法，通过自适应学习的置信区间。据我们所知，这是探索SS-DFER中的动态置信度的第一个解决方案• 自适应置信区间旨在对所有未标记的数据进行动态学习，以用于模型更重要的是，利用具有低置信度分数的样本来增强特征级相似性。• 在四个具有挑战性的数据集证明了Ada-CM的有效性。特别是，我们的方法实现了优越的性能，超越完全监督的基线在半监督的方式。2. 相关工作2.1. 人脸表情识别已经提出了许多FER方法[15，16，27，36关于FER的研究主要有两条路线，手工制作功能和基于深度学习的方法。传统上，早期的尝试[11，21，23]集中在实验室FER数据集上的纹理信息，例如，CK+[20]和Oulu-CASIA [42]。受大规模非约束FER数据集[1，16，22]的启发，DFER算法设计了有效的CNN网络或损失函数，以实现卓越的性能。从一开始，Li等人 [16]就提出了一种局部保持损失来学习更多的区分性面部表情特征。受注意力机制的启发，Wang等人 [32]提出了基于区域的注意力网络来捕获重要的面部区域。Li等人[19]探索了部分闭塞的面部表情识别。此外，一些作品[27，31，39]考虑了DFER中的不一致注释问题。此外，Xue等人。 [36]首先探索了基于transformers的DFER的关系感知表示。上述方法以完全监督的方式执行FER。不同的是，Florea et al.[7] 提出了 MixMatch [ 3 ] 的扩展，即Margin-Mix，并利用未标记的样本来解决密集区域问题。实际上，Margin-Mix通过类中心的嵌入而不是置信度裕度来确定未标记样本的人工标签。此外，中心更新是昂贵和耗时的。据我们所知，没有基于阈值的伪标记方法已被提出的SS-DFER任务。在我们的工作中，一个自适应的置信度边际的设计，以产生高质量的伪标签的未标记样本与高置信度得分。2.2. 半监督学习近年来，半监督学习方法已成功应用于一些具有挑战性的问题[28，33，40]。SSL上的现有工作部署了一致性正则化[26，34]，熵最小化[8，14]和传统正则化[3]来利用未标记的数据。其中，伪标签是一种先驱SSL方法，从模型预测中获得硬标签。特别是，基于阈值的方法[25，28]选择具有高置信度预测的未标记样本。 FixMatch [28]和UDA [34]基于固定阈值获得伪标签，并利用弱增强和强增强来实现一致性正则化。此外，一些工作已经研究了动态阈值[35，40]。4168地面实况（GT）苏哈WA自适应置信度标记数据帝安标记数据GT未标记数据自适应置信度不&0010000 00001000 0…p电子邮=1是两个常数。<<实际上，我们设置B= 0。第97章控制太大了此外，我们使用γ= e作为默认设置。关于B和γ的消融研究将在第二节中显示四点二。3.2.3无标记数据所提出的自适应置信度是确定置信度分数水平的重要标准。为了有效地利用所有未标记样本，我们设计了一种自适应学习策略来探索所有未标记数据以更新模型参数。为此，我们建议基于上述自适应置信区间对所有未标记数据进行自适应学习。具体来说，我们首先生成两个WA版本xa=Ta（xu）和xb=Tb（xu），并利用相同的模型来执行。我我我没有额外的标记数据来确定裕度。对于标记集合=（xi，yi），i=1，.，N s，我们想探索不同面部表情的置信区间。一个经典的想法是获得预测跟踪面部表情特征和概率分布。基于两个概率分布pa和pb，我们计算平均概率分布：并计算不同的阈值，1a a b b（六）2对于有标签和无标签的数据，置信度得分可以被视为对应于地面真值的概率值和最大概率分布中的值。哪里普什克pc=2（p（xi，θ）+p（xi，θ）），表示数据u的概率分布在余量中的对应阈值，对SA版本的预测将匹配来自上述、（五）关于C类现在，自适应学习策略比较4171˜}{}U{˜ =argmaxpc我LCCEΣΣargmax←− L←− LL˜uu两个值，即，max（p）和Tt动态地算法1Ada-CMcargmaxpcc输入：模型参数θ、标记样本及其标记S=将所有未标记的数据划分为包括sam的子集I，具有高置信度分数的样本和子集II，包括低置信度的样本。对于子集I中的样本，我们保留平均值作为（xi，yi），i = 1，.，N s，未标记样本=xi，i=1、…Nu ，epoch的数量tmax和学习率η。输出：更新模型参数θ。当前时期的伪标签，即，yi1：//学习自适应置信度。，2：T：T0∈ {f}C.其中，为了方便，yi˜3：对于i = 1，2，3，...， Ns do4：获得正确预测的集合ST。为了实现一致性正则化，我们采用强增广操作，使SA版本的预测与两个WA版本的伪标签相匹配。因此，给定一个高置信度样本xu，无监督损失u定义为交叉熵损失在SA版本xs=Ts（xu）和y之间：5：通过等式更新Tc。（四）、第六章：端第七章：通过等式获得当前置信裕度Tt。（五）、8：//使用标记和未标记样本训练模型。9：对于t= 1，2，3，...，tmaxdo伊伊鲁伊110：使用标记的样本通过等式（一）.图11：通过方程预测pa、pb和平均pc。（六）、Nh Cu cs（七）12：如果max（pc）≥Tt普什克泰河L=−Nhi=1c=1 y∈ilog（pc（xi，θ）），第13章：计算LC使用子集I通过等式（七）、其中Nh表示子集I中的数据的数量。对于子集II中的样本，由于低置信度预文字是没有说服力的，交叉熵损失不能用于指导模型的学习。灵感来自对比学习[4，17，37]，我们认为之间相同未标记数据的两个WA版本，面部表情特征的辨别力。具体C4172CECEL14：更新θθηu。15：其他第16章：计算c使用子集II通过等式（8）和（9）。17：更新θθηc。18：如果结束19：更新θ←θ−ηLs。20：结束4173NlL∈{}∈\{}S我我23我我u通常，特征级相似性首先通过以下方式测量：其中Ls和Lu表示标记4174（ea）（eb）4175样本和未标记的样本分别在子集I中。 C4176表示子集II中样本的对比目标λ，4177s（ea，eb）=i i，（8）1||ea||||eb||λ和λ是平衡每一项的超参数4178其中ea和eb是两个弱增强的面部表情紧张我们提出的方法的整个过程是求和-在算法1中实现。4179功能. 基于所获得的相似性度量，样本xu的特征ea的transative目标可以是41803.3. 讨论4181定义如下：c1我我4182es（ea，eb）/τ在这里，我们讨论了拟议4183Ada-CM，FixMatch[28]，Dash [35]和FlexMatch [40]，4184它们有着相似的理念，但有着不同的角色。4185与FixMatch的关系[28]。FixMatch专注于

下载后可阅读完整内容，剩余1页未读，立即下载