抑制大规模面部表情识别中的不确定性

42 浏览量更新于2023-10-25 收藏 12.44MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

68970抑制大规模面部表情识别中的不确定性0Kai Wang � 1,2, Xiaojiang Peng *1, Jianfei Yang 3, Shijian Lu 3, and Yu Qiao †101深圳先进技术研究院计算机视觉与模式识别深圳市重点实验室，中科院-商汤联合实验室 2中国科学院大学，中国 3新加坡南洋理工大学0摘要0由于模糊的面部表情、低质量的面部图像和注释者的主观性引起的不确定性，注释一个定性的大规模面部表情数据集非常困难。这些不确定性导致了深度学习时代大规模面部表情识别（FER）的一个关键挑战。为了解决这个问题，本文提出了一种简单而高效的自我修复网络（SCN），它能有效地抑制不确定性，防止深度网络过度拟合不确定的面部图像。具体而言，SCN从两个不同的方面抑制不确定性：1）通过对小批量进行自我注意机制，用排序正则化对每个训练样本进行加权，2）通过仔细的重新标记机制修改最低排名组中这些样本的标签。在合成FER数据集和我们收集的WebEmotion数据集上的实验证实了我们方法的有效性。公共基准测试结果表明，我们的SCN在RAF-DB上达到了88.14％，在AffectNet上达到了60.23％，在FERPlus上达到了89.35％，超过了当前最先进的方法。代码将在https://github.com/kaiwang960112/Self-Cure-Network上提供。01. 引言0面部表情是人类传达情感状态和意图的最自然、最强大和最普遍的信号之一[7,41]。自动识别面部表情对于帮助计算机理解人类行为并与之交互也很重要。在过去的几十年里，研究人员在面部表情识别（FER）方面取得了重要进展，使用了算法[17,47]和大规模数据集，其中数据集可以收集在0* 同等贡献的第一作者（kai.wang，xj.peng@siat.ac.cn）†通讯作者（yu.qiao@siat.ac.cn）0图1：RAF-DB真实世界面部图像的不确定性示例。对于机器和甚至人类来说，右侧的样本非常困难，最好在训练中抑制。0实验室或野外，如CK+ [31]，MMI [42]，Oulu-CASIA[54]，SFEW/AFEW [10]，FERPlus [4]，Af- fectNet[35]，EmotioNet [11]，RAF-DB[24]等。然而，对于从互联网收集的大规模FER数据集，由于注释者的主观性以及野外面部图像的模糊性，高质量地进行注释是非常困难的。如图1所示，不确定性从高质量和明显的面部表情增加到低质量和微小的表情。这些不确定性通常导致标签不一致和错误的标签，这些都阻碍了大规模面部表情识别（FER）的进展，特别是基于数据驱动的深度学习FER。一般来说，使用FER的不确定性可能会导致以下问题。首先，可能会导致对不确定样本的过拟合，这些样本可能被错误标记。其次，这对于模型学习有用的面部表情特征是有害的。第三，高比例的错误标签甚至使模型在优化的早期阶段发散。为了解决这些问题，我们提出了一种简单而高效的方法，称为自我修复网络（SCN），用于抑制大规模面部表情识别中的不确定性。SCN由三个关键模块组成：自我68980注意力重要性加权、排名正则化和噪声重新标记。给定一批图像，首先使用骨干CNN提取面部特征。然后，自注意力重要性加权模块学习每个图像的权重，以捕捉样本对于损失加权的重要性。预期不确定的面部图像被分配低的重要性权重。进一步，排名正则化模块对这些权重进行降序排列，将它们分为两组（即高重要性权重和低重要性权重），并通过在两组的平均权重之间施加边界来规范化这两组。这种正则化是通过一种损失函数实现的，称为排名正则化损失（RR-Loss）。排名正则化模块确保第一个模块学习到有意义的权重，以突出某些样本（例如可靠的注释）并抑制不确定的样本（例如模糊的注释）。最后一个模块是一个谨慎的重新标记模块，它试图通过比较最大预测概率和给定标签的概率来从底部组重新标记这些样本。如果最大预测概率高于给定标签的概率与边界阈值，则将样本分配给伪标签。此外，由于不确定性的主要证据是不正确/嘈杂的注释问题，我们从互联网上收集了一个极端嘈杂的FER数据集，称为WebEmotion，以研究SCN在极端不确定性下的影响。总的来说，我们的贡献可以总结如下，0•我们创新地提出了面部表情识别中的不确定性问题，并提出了一种自我修复网络来减少不确定性的影响。0•我们精心设计了一个排名正则化方法，以监督SCN学习有意义的重要性权重，同时为重新标记模块提供参考。0•我们在合成FER数据和从互联网上收集的新的现实世界不确定情绪数据集（WebEmotion）上广泛验证了我们的SCN。我们的SCN在RAF-DB上达到了88.14％的性能，在AffectNet上达到了60.23％的性能，在FERPlus上达到了89.35％的性能，创下了它们的新纪录。02. 相关工作02.1. 面部表情识别0一般来说，FER系统主要由三个阶段组成，即人脸检测、特征提取和表情识别。在人脸检测阶段，使用了多个人脸检测器，如MTCNN [51]和Dlib[2]，来定位复杂场景中的人脸。检测到的人脸可以进一步进行对齐。对于特征提取，有各种方法可以使用。0旨在捕捉由面部表情引起的面部几何和外观特征。根据特征类型，它们可以分为工程特征和基于学习的特征。对于工程特征，它们可以进一步分为基于纹理的局部特征[48]、基于几何的全局特征和混合特征。基于纹理的特征主要包括SIFT[37]、HOG [6]、LBP的直方图 [38]、Gabor小波系数[28]等。基于几何的全局特征主要基于鼻子、眼睛和嘴巴周围的标志点。将两个或更多的工程特征组合起来称为混合特征提取，可以进一步丰富表示。对于学习到的特征，Fasel[12]发现浅层CNN对于面部姿势和尺度具有鲁棒性。Tang[40]和Kahou等人[23]利用深度CNN进行特征提取，并赢得了FER2013和Emotiw2013挑战赛。Liu等人[29]提出了一种基于面部动作单元的CNN架构用于表情识别。最近，Li等人[27]和Wang等人[45]设计了基于区域注意力网络的姿态和遮挡感知FER，其中区域要么是从标志点裁剪出来的，要么是固定位置。02.2. 带有不确定性的学习0FER任务中的不确定性主要来自于模糊的面部表情、低质量的面部图像、不一致的注释和错误的注释（即噪声标签）。特别是，学习带有噪声标签的问题在计算机视觉领域得到了广泛研究，而其他两个方面则很少被探索。为了处理噪声标签，一个直观的想法是利用一小部分干净的数据，在训练过程中用于评估标签的质量[43, 25,8]，或者估计噪声分布[39]，或者训练特征提取器[3]。Li等人[25]提出了一个统一的蒸馏框架，利用来自小型干净数据集的“边缘”信息和知识图中的标签关系，以“规避”从噪声标签中学习的风险。Veit等人[44]使用一个多任务网络，同时学习清理噪声注释和分类图像。Azadi等人[3]通过辅助图像正则化选择可靠的图像，用于带有噪声标签的深度CNN。其他方法不需要一个小的干净数据集，但它们可能对噪声样本假设额外的约束或分布[34]，例如为随机翻转的标签使用特定损失[36]，通过MentorNet对损坏标签的深度网络进行正则化[22]，以及使用softmax层将潜在正确标签与噪声标签连接起来建模噪声的其他方法[13,50]。对于FER任务，Zeng等人[50]首次考虑了不同FER数据集之间的不一致注释问题，并提出利用这些不确定性来改进FER。相反，我们的工作侧重于抑制这些不确定性以学习更好的面部表情特征。LW CE = − 1NN�i=1logαiW⊤y xiwithαH = 1Mαi, αL =1N689903. 自愈网络0为了学习具有不确定性的鲁棒面部表情特征，我们提出了一个简单而高效的自愈网络（SCN）。在本节中，我们首先概述SCN，然后介绍其三个模块。最后，我们详细介绍SCN的实现。03.1. 自愈网络概述0我们的SCN建立在传统的CNN上，由三个关键模块组成：i）自注意力重要性加权，ii）排序正则化，和iii）重新标记，如图2所示。给定一批带有一些不确定样本的面部图像，我们首先通过骨干网络提取深度特征。自注意力重要性加权模块使用全连接（FC）层和sigmoid函数为每个图像分配一个重要性权重。这些权重与样本重新加权方案的对数相乘。为了明确减少不确定样本的重要性，进一步引入了排序正则化模块来规范化注意力权重。在排序正则化模块中，我们首先对学习到的注意力权重进行排序，然后将它们分成两组，即高重要性组和低重要性组。然后，我们通过基于边界的损失在这些组的平均权重之间添加约束，这被称为排序正则化损失（RR-Loss）。为了进一步改进我们的SCN，添加了重新标记模块来修改低重要性组中的一些不确定样本。这个重新标记操作旨在寻找更多的干净样本，然后增强最终的模型。整个SCN可以以端到端的方式进行训练，并且可以轻松添加到任何CNN骨干网络中。03.2. 自注意力重要性加权0我们引入了自注意力重要性加权模块来捕捉训练样本的贡献。预期某些样本可能具有较高的重要性权重，而不确定的样本具有较低的重要性。设 F = [ x 1 , x 2 , . . . , x N ] ∈ R D× N 表示 N个图像的面部特征，自注意力重要性加权模块以 F为输入，并为每个特征输出一个重要性权重。具体来说，自注意力重要性加权模块由一个线性全连接（FC）层和一个sigmoid激活函数组成，可以表示为，0α i = σ ( W � a x i ) , (1)0其中α i是第i个样本的重要性权重，Wa是用于注意力的全连接层的参数，σ是sigmoid函数。该模块还为其他两个模块提供参考。0加权对数交叉熵损失。根据注意力权重，我们有两种简单的选择来进行损失加权，受到[19]的启发。第一种选择是将每个样本的权重乘以样本损失。在我们的情况下，由于权重是以端到端的方式进行优化并从CNN特征中学习的，它们注定是零，因为这个平凡的解决方案会得到零损失。MentorNet[22]和其他自适应学习方法[21,32]通过交替最小化来解决这个问题，即一次优化一个，而另一个保持不变。在本文中，我们选择了[19]中的加权对数交叉熵损失（WCE-Loss），它被证明更加高效。对于多类交叉熵损失，我们将我们的加权损失称为加权对数交叉熵损失（WCE-Loss），其公式如下，0� C j =1 e αi W � j x i , (2)0其中W j是第j个分类器。如[30]所建议的，L WCE与α呈正相关。03.3. 排名正则化0上述模块中的自注意权重可以在(0,1)之间任意取值。为了明确约束不确定样本的重要性，我们精心设计了一个排名正则化模块来规范注意力权重。在排名正则化模块中，我们首先按降序对学习到的注意力权重进行排名，然后将它们分成两组，比例为β。排名正则化确保高重要性组的平均注意力权重高于低重要性组的平均注意力权重，并且有一个边界。具体而言，我们为此目的定义了一个排名正则化损失（RR-Loss），如下所示，0L RR = max { 0 , δ 1 − ( α H − α L ) } , (3)0M0N − M0i = M α i , (4)0其中δ1是一个边界，可以是一个固定的超参数或一个可学习的参数，α H和αL分别是高重要性组和低重要性组的均值，其中β�N =M个样本和N−M个样本。在训练中，总损失函数为L all =γL RR + (1 − γ)L W CE，其中γ是一个权衡比例。03.4. 重新标记0在排名正则化模块中，每个小批量被分为两组，即高重要性组和低重要性组。我们在实验中发现，不确定的样本通常具有较低的重要性权重，因此一个直观的想法是设计一种策略来重新标记这些样本。69000图2：我们的自愈网络的流程。首先将面部图像输入骨干CNN进行特征提取。自注意力重要性加权模块从面部特征中学习样本权重以进行损失加权。排名正则化模块以样本权重为输入，并通过排名操作和基于边界的损失函数对其进行约束。重新标记模块通过将最大预测概率与给定标签的概率进行比较，寻找可靠的样本。错误标记的样本用红色实心矩形标记，模糊的样本用绿色虚线矩形标记。值得注意的是，自愈网络主要通过重新加权操作来抑制这些不确定性，并且只修改其中一些不确定的样本。0表1：我们的WebEmotion统计数据。0类别快乐悲伤惊讶害怕生气厌恶轻蔑中立总计0# 视频 4,231 5,670 4,573 5,328 5,668 5,197 5,266 5,406 41,339 # 片段 27,854 29,667 27,418 29,82231,483 20,764 6,454 26,687 200,1490修改这些注释的主要挑战是知道哪个注释是不正确的。具体而言，我们的重新标记模块只考虑低重要性组中的样本，并在Softmax概率上执行。对于每个样本，我们将最大预测概率与给定标签的概率进行比较。如果最大预测概率高于给定标签的概率，就将样本分配给新的伪标签，阈值为一个阈值。形式上，重新标记模块可以定义为：0y' = lmax if Pmax - PgtInd > δ2, lorgotherwise, (5)0其中y'表示新标签，δ2是阈值，Pmax是最大预测概率，PgtInd是给定标签的预测概率，lorg和lmax分别是原始给定标签和最大预测的索引。在我们的系统中，我们希望不确定样本能够获得较低的重要性权重，从而通过重新加权来降低它们的负面影响，并最终落入低重要性组。0重要性组，并且最终可能通过重新标记被纠正为确定性样本。这些被纠正的样本可能在下一个周期中获得高的重要性权重。我们希望网络能够通过重新加权或重新标记自我修复，这就是我们将我们的方法称为自我修复网络的原因。03.5. 实现0预处理和面部特征。在我们的SCN中，面部图像通过MTCNN[52]进行检测和对齐，然后调整为224×224像素。SCN使用Pytorch工具箱实现，骨干网络是ResNet-18[16]。默认情况下，ResNet-18在MS-Celeb-1M人脸识别数据集上进行预训练，并从其最后的池化层提取面部特征。训练。我们使用8个Nvidia Titan 2080tiGPU对SCN进行端到端的训练，并将批量大小设置为1024。在每次迭代中，默认情况下，训练图像被分为两组，包括70%的高重要性样本和30%的低重要性样本。高重要性组和低重要性组之间的平均值之间的边界δ169010可以将其默认设置为0.15，也可以设计为可学习的参数。这两种策略将在接下来的实验中进行评估。整个网络与RR-Loss和WCE-Loss一起进行联合优化。两个损失的比例经验性地设置为1:1，并且其影响将在接下来的消融研究实验中进行研究。学习率初始化为0.1，分别在15个周期和30个周期后除以10。训练在40个周期停止。从第10个周期开始，包括重新标记模块以进行优化，其中重新标记边界δ2默认设置为0.2。04. 实验0在本节中，我们首先描述了三个公共数据集和我们的WebEmotion数据集。然后，我们展示了我们的SCN在合成和真实世界嘈杂的面部表情注释的不确定性下的鲁棒性。此外，我们进行了消融研究，通过定性和定量结果展示了SCN中每个模块的有效性。最后，我们将我们的SCN与公共数据集上的最先进方法进行了比较。04.1. 数据集0RAF-DB[24]包含由40名经过训练的人类编码员注释的30,000张面部图像，这些图像带有基本或复合表情。在我们的实验中，只使用具有六种基本表情（中性、快乐、惊讶、悲伤、愤怒、厌恶、恐惧）和中性表情的图像，这导致训练集有12,271张图像，测试集有3,068张图像。使用整体样本准确率进行测量。FERPlus [4]是从FER2013扩展而来，用于ICML2013挑战赛。它是由Google搜索引擎收集的大规模数据集。它包含28,709张训练图像、3,589张验证图像和3,589张测试图像，所有图像都被调整为48×48像素。其中包括轻蔑，使得该数据集中有8个类别。使用整体样本准确率进行测量。AffectNet[35]是迄今为止提供分类和价值-唤醒注释的最大数据集。它通过在三个搜索引擎中查询与表情相关的关键词来收集来自互联网的一百多万张图像，其中45万张图像使用与FERPlus相同的八个表情标签进行手动注释。它具有不平衡的训练和测试集以及平衡的验证集。使用验证集上的平均类别准确率进行测量。收集的WebEmotion。由于不确定性的主要证据是不正确/嘈杂的注释问题，我们从互联网收集了一个极端嘈杂的FER数据集，称为WebEmotion，以研究在极端不确定性下SCN的影响。WebEmotion是一个从YouTube下载的视频数据集（尽管我们将其作为图像数据使用，通过为帧分配标签），其中包含一组0关键词包括40个与情绪相关的词汇、来自亚洲、欧洲、非洲、美洲的45个国家和6个与年龄相关的词汇（即婴儿、女士、女人、男人、老人、老妇人）。它与FERPlus具有相同的8个类别，每个类别与几个与情绪相关的关键词相关联，例如，快乐与快乐、有趣、狂喜、自鸣得意和可爱等关键词相关联。为了获得关键词和搜索视频之间的有意义的相关性，只选择了最多有4分钟的前20个爬取的视频。这导致大约41000个视频，进一步分割为200000个视频剪辑，其中一个面部（由MTCNN检测到）至少出现5秒钟。为了评估，我们只使用WebEmotion进行预训练，因为注释非常困难。表1显示了WebEmotion的统计数据。元视频和视频剪辑将向研究界公开。04.2. 在合成不确定性上评估SCN0FER的不确定性主要来自模糊的面部表情、质量低下的面部图像、不一致的注释和错误的注释（即噪声标签）。考虑到只有噪声标签可以进行定量分析，我们探索了SCN对RAF-DB、FERPLus和AffectNet数据集的三个级别的标签噪声的鲁棒性，包括10%、20%和30%的比例。具体而言，我们随机选择每个类别的10%、20%和30%的训练数据，并随机将它们的标签更改为其他标签。在表2中，我们使用ResNet-18作为CNN骨干，并将我们的SCN与基线（传统的CNN训练，不考虑标签噪声）进行比较，有两种训练方案：i）从头开始训练和ii）在Ms-Celeb-1M上使用预训练模型进行微调[15]。我们还将我们的SCN与RAF-DB上的两种最先进的抗噪声方法CurriculumNet [14]和MetaCleaner[53]进行比较。0如表2所示，我们的SCN始终大幅改善了基线。对于噪声比例为30%的方案i)，我们的SCN在RAF-DB、FERPlus和AffectNet上分别比基线提高了13.80%、1.07%和1.91%。对于噪声比例为30%的方案ii)，尽管它们的性能相对较高，我们的SCN仍然在这些数据集上获得了2.20%、2.47%和3.12%的改进。对于这两种方案，随着噪声比例的增加，SCN的好处变得更加明显。CurriculumNet通过使用聚类密度来测量数据复杂性来设计训练课程，可以避免在早期阶段训练带有噪声标签的数据。MetaCleaner将每个类别中的几个样本的特征聚合成加权平均特征进行分类，也可以削弱带有噪声标签的样本。CurriculumNet和MetaCleaner都大大改善了基线，但仍然不如SCN简单。另一个有趣的发现是，SCN在RAF-DB上的改进要比其他数据集上的改进高得多×CurriculumNet [14]1068.5--×MetaCleaner [53]1068.45--××1061.4344.6877.15×✓1070.2645.2378.53×CurriculumNet [14]2061.23--×MetaCleaner [53]2061.35--××2055.541.0071.88×✓2063.5041.6372.46×CurriculumNet [14]3057.52--×MetaCleaner [53]3058,89--××3046.8138.3568.54×✓3060.6139.4270.45✓×1080.8157.1883.39✓✓1082.1858.5884.28✓×2078.1856.1582.24✓✓2080.1057.2583.17✓×3075.2652.5879.34✓✓3077.4655.0582.47WebEmoitionSCNRAF-DBAffectNetFERPlus××72.0046.5882.4w/o SCN×78.9756.4384.20w/o SCN✓80.4257.2385.13SCN✓82.4558.4585.9769020图3：我们SCN中学习到的重要性权重的可视化，我们在随机选择的具有原始标签的图像上显示这些权重（第一行），以及重新标记之前和之后的合成噪声标签（第二行和第三行）。0表2：SCN在合成噪声FER数据集上的评估。'Pretrain'表示我们使用来自人脸识别的预训练模型，否则我们从头开始训练。0预训练SCN 噪声(%) RAF-DB AffectNet FERPlus0数据集。这可能有以下原因解释。一方面，RAF-DB由复合面部表情组成，并由40人进行众包注释，使得数据注释更加不一致。因此，我们的SCN在原始RAF-DB上也可能有所改进，而无需合成标签噪声。另一方面，AffectNet和FERPlus由专家进行注释，因此涉及的标签不一致较少，导致在RAF-DB上的改进较少。0SCN中α的可视化。为了进一步研究我们的SCN在噪声注释下的有效性，我们在噪声比例为10%的RAF-DB上可视化了训练阶段的重要性权重α。在图3中，0表3：SCN在WebEmotion上的预训练效果。第二列表示是否使用SCN进行微调。0第一行表示SCN在使用原始标签进行训练时的重要性权重。第二行的图像使用合成的损坏标签进行注释，我们使用SCN（不使用Relabel模块）来训练合成的噪声数据集。实际上，SCN将这些标签损坏的图像视为噪声，并自动抑制它们的权重。经过足够的训练周期后，我们将Relabel模块添加到SCN中，这些带有噪声标签的图像被重新标记（当然，可能还有其他图像没有被重新标记，因为我们有重新标记的约束）。经过几个训练周期后，它们的重要性权重变得很高（第三行），这证明了我们的SCN可以“自我修复”损坏的标签。值得注意的是，重新标记模块生成的新标签可能与“真实标签”不一致（见第1、4和6列），但在可视化中也是合理的。04.3. 探索SCN在真实世界不确定性上的应用0合成的噪声数据证明了SCN的“自我修复”能力的有效性。在本节中，我们将我们的SCN应用于包含各种不确定性的真实世界FER数据集。0SCN在WebEmotion上的预训练。我们收集的WebEmotion数据集包含大量噪声，因为××72.0046.5882.4×✓78.3147.2883.42×CurriculumNet [14]74.67--×MetaCleaner [53]77.18--✓×84.2058.586.80✓✓87.0360.2388.010.20.30.50.60.876.12%76.35%78.31%76.57%71.75%69030图4：RAF-DB（无合成噪声标签）的十个重要性权重较低的示例。每列对应一个基本情绪。可以猜测它们的标签，RAD-DB的真实标签包含在文本中。0表4：SCN在真实世界FER数据集上的应用。SCN的改进表明这些公共数据集或多或少都存在不确定性。0预训练 SCN RAF-DB AffectNet FERPlus0搜索关键词被视为标签。为了更好地验证SCN对真实世界嘈杂数据的影响，我们将SCN应用于WebEmotion进行预训练，然后在目标数据集上微调模型。我们在表3中展示了比较实验结果。从第一行和第二行可以看出，在没有SCN的情况下，在RAF-DB、FERPlus和AffectNet上，WebEmotion的预训练将基线提高了分别为6.97%、9.85%和1.80%。在目标数据集上使用SCN进行微调获得了1%到2%的增益。在WebEmotion上进行SCN预训练将RAF-DB的性能从80.42%提升到82.45%。这表明SCN在WebEmotion上学习到了更强大的特征，更适合进一步的微调。SCN在原始FER数据集上的应用。我们进一步在原始FER数据集上进行实验，评估我们的SCN，因为这些数据集不可避免地受到模糊的面部表情、低质量的面部图像等不确定性的影响。结果如表4所示。从零开始训练时，我们提出的SCN在RAD-DB、AffectNet和FERPlus上分别提高了6.31%、0.7%和1.02%的基线。MetaCleaner也提高了RAF-DB的基线，但略逊于我们的SCN。通过预训练，我们仍然在这些数据集上获得了2.83%、1.73%和1.21%的改进。SCN和MetaCleaner的改进表明这些数据集确实存在不确定性。为了验证我们的推测，我们对RAF-DB的重要性权重进行排名，并在图中展示了一些重要性权重较低的示例。0表5：评估SCN中三个模块的效果。0权重等级重新标记RAF-DB RAF-DB（预训练）0× × × 72.00 84.20 × × � 71.25 83.78 × � × 74.1585.14 � × × 76.26 86.09 � � × 76.57 86.63 � � � 78.3187.030表6：评估SCN中三个模块的效果。0图4：从左上到右下的真实标签依次为surprise、neutral、neutral、sad、surprise、surprise、neutral、surprise、neutral、surprise。我们发现，质量低和有遮挡的图像很难标注，并且更有可能在SCN中具有低重要性权重。04.4.消融研究0评估SCN中三个模块的效果。为了评估SCN的每个模块的效果，我们设计了一个消融研究来研究WCE-Loss、RR-Loss和Relabel模块在RAF-DB上的效果。我们在表5中展示了实验结果。以下是几个观察结果。首先，对于两种训练方案，将一个简单的重新标记模块（第2行）添加到基线模型（第1行）中会稍微降低性能。这可能是因为许多重新标记操作从基线模型中是错误的。这间接表明，我们精心设计的在低重要性组中使用排名正则化的重新标记更有效。其次，当添加一个模块时，通过WCE-Loss获得了最大的改进，将RAF-DB上的基线性能从72%提高到76.26%。这表明重新加权是我们的SCN中最有贡献的模块。第三，RR-Loss和重新标记模块可以进一步提升WCE-Loss 2.15%。0评估比率γ。在表6中，我们评估了RR-Loss和WCE-Loss之间不同比率的效果。我们发现，为每个损失设置相等的权重可以获得最佳结果。将RR-Loss的权重从0.5增加到0.8会显著降低性能，这表明WCE-Loss更重要。0评估δ1和δ2。δ1是一个边界参数，用于控制高重要性组和低重要性组之间的平均边界。对于固定设置，我们将其从0到0.30进行评估。图5（左）显示了固定和可学习的δ1的结果。默认的δ1 =0.15获得了最佳性能，这表明边界应该是一个适当的值。我们还设计了一个可学习的范式的δ1，并将其初始化为0.15。可学习的δ1收敛到0.142 ±0.05，原始和噪声RAF-DB数据集的性能分别为77.76%和69.45%。δ2是一个边界，用于确定何时重新标记样本。默认的δ2为0.2。我们在原始RAF-DB上评估了δ2从0到0.5的效果，并在图5（中间）中展示了结果。δ2 =0意味着如果最大预测概率大于给定标签的概率，则重新标记样本。较小的δ2会导致大量不正确的重新标记操作，这可能会显著损害性能。较大的δ2会导致很少的重新标记操作，最终趋于不重新标记。我们在0.2时获得了最佳性能。评估β。β是一个小批量中高重要性样本的比例。我们在合成噪声和原始RAF-DB数据集上研究了不同的比率，从0.9到0.5。结果如图5（右）所示。我们的默认比率是0.7，可以获得最佳性能。较大的β会降低SCN的能力，因为它只考虑了少量的数据是不确定的。较小的β会过度考虑不确定性，不合理地降低训练损失。DLP-CNN [24]84.22IPA2LT [50]86.77gaCNN [26]85.07RAN [45]86.90Upsample [35]47.00Weighted loss [35]58.00IPA2LT‡ [50] (7 cls)55.71RAN [45]52.97RAN+ [45]59.5PLD∗ [5]85.1ResNet+VGG [20]87.4SeNet50∗ [1]88.8RAN [45]88.55RAN-VGG16∗ [45]89.1669040图5：在RAF-DB数据集上评估边界δ1和δ2以及比率β的效果。0表7：与最先进结果的比较。�这些结果是使用标签分布进行训练的。+由于AffectNet不平衡，使用了过采样。‡RAF-DB和AffectNet一起用于训练。请注意，IPA2LT在AffectNet上使用了7个类别进行测试。（a）在RAF-DB上的比较。0方法准确率0我们的SCN（ResNet18）87.03我们的SCN（ResNet18）‡ 88.140（b）在AffectNet上的比较。0方法平均准确率0我们的SCN +（ResNet18）60.230（c）在FERPlus上的比较。0方法准确率0我们的SCN（ResNet18/IR50）88.01/89.350δ1，并将其初始化为0.15。可学习的δ1收敛到0.142 ±0.05，原始和噪声RAF-DB数据集的性能分别为77.76%和69.45%。δ2是一个边界，用于确定何时重新标记样本。默认的δ2为0.2。我们在原始RAF-DB上评估了δ2从0到0.5的效果，并在图5（中间）中展示了结果。δ2 =0意味着如果最大预测概率大于给定标签的概率，则重新标记样本。较小的δ2会导致大量不正确的重新标记操作，这可能会显著损害性能。较大的δ2会导致很少的重新标记操作，最终趋于不重新标记。我们在0.2时获得了最佳性能。评估β。β是一个小批量中高重要性样本的比例。我们在合成噪声和原始RAF-DB数据集上研究了不同的比率，从0.9到0.5。结果如图5（右）所示。我们的默认比率是0.7，可以获得最佳性能。较大的β会降低SCN的能力，因为它只考虑了少量的数据是不确定的。较小的β会过度考虑不确定性，不合理地降低训练损失。04.5. 与现有技术的比较0表7将我们的方法与RAF-DB、AffectNet和FERPlus上的几种最先进的方法进行了比较。IPA2LT[50]引入了潜在的真实标签思想，用于处理不一致的FER数据集注释。gaCNN[26]利用基于补丁的注意力网络和全局网络。RAN[45]利用面部区域和原始面部进行级联注意力网络。由于裁剪的补丁和区域，gaCNN和RAN的计算时间较长。我们提出的SCN不增加任何成本。0在推理中，我们的SCN在RAF-DB、AffectNet和FERPlus上分别达到了88.14%、60.23%和89.35%（使用IR50[9]）的性能。05. 结论0本文提出了一种自我修复网络（SCN），以抑制面部表情数据的不确定性，从而学习到鲁棒的特征用于面部表情识别。SCN包括三个新颖的模块，包括自我注意力重要性加权、排序正则化和重新标记。第一个模块通过自我注意力为每个面部图像学习权重，以捕捉训练中的样本重要性，并用于损失加权。排序正则化确保第一个模块学习到有意义的权重，突出显示某些样本并抑制不确定样本。重新标记模块试图识别错误标记的样本并修改它们的标签。在三个公共数据集和我们收集的WebEmotion上进行了大量实验证明，我们的SCN取得了最先进的结果，并能够有效处理合成和真实世界的不确定性。06. 致谢0本工作部分得到中国科学院科技服务网络计划（KFJ-STS-QYZX-092）、广东特支计划（2016TX03X276）和国家自然科学基金（U1813218，U1713208）的支持，深圳市基础研究计划（JCYJ20170818164704758，CXB201104220032A），中科院-香港联合实验室的支持。[1] Samuel Albanie, Arsha Nagrani, Andrea Vedaldi, and An-drew Zisserman. Emotion recognition in speech using cross-modal transfer in the wild. arXiv preprint arXiv:1808.05561,2018. 8[2] Brandon Amos, Bartosz Ludwiczuk, and Mahadev Satya-narayanan. Openface: A general-purpose face recognitionlibrary with mobile applications. Technical report, CMU-CS-16-118, CMU School of Computer Science, 2016. 2[3] Samaneh Azadi, Jiashi Feng, Stefanie Jegelka, and TrevorDarrell. Auxiliary image regularization for deep cnns withnoisy labels. arXiv preprint:1511.07069, 2015. 2[4] Emad Barsoum, Cha Zhang, Cristian Canton Ferrer, andZhengyou Zhang. Training deep networks for facial expres-sion recognition with crowd-sourced label distribution. InACM ICMI, 2016. 1, 5[6] N. Dalal and B. Triggs. Histograms of oriented gradients forhuman detection. In CVPR, 2005. 2[7] Charles Darwin and Phillip Prodger. The expression of theemotions in man and animals.Oxford University Press,USA, 1998. 1[8] Mostafa Dehghani, Aliaksei Severyn, Sascha Rothe, andJaap Kamps.Avoiding your teacher’s mistakes: Trainingneural networks with controlled weak supervision.arXivpreprint 1711.00313, 2017. 2[9] Jiankang Deng, Jia Guo, Niannan Xue, and StefanosZafeiriou. Arcface: Additive angular margin loss for deepface recognition. In CVPR, pages 4690–4699, 2019. 8[10] Abhinav Dhall, Roland Goecke, Simon Lucey, and TomGedeon.Static facial expression analysis in tough condi-tions: Data, evaluation protocol and benchmark. In ICCV,pages 2106–2112, 2011. 1[17] Guosheng Hu, Li Liu, Yang Yuan, Zehao Yu, Yang

下载后可阅读完整内容，剩余1页未读，立即下载