人脸表情识别中的标签偏差及其解决方法

59 浏览量更新于2023-10-14 收藏 952KB PDF 举报

人脸表情识别

数据偏差

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14980i=1i=1人脸表情识别Yunliang Chen Jungseock Joo加州大学洛杉矶分校网址：chenyunliang@ucla.edu，jjoo@comm.ucla.edu摘要计算机视觉模型的性能取决于其训练数据的大小和质量。最近的研究已经揭示了常见图像数据集中先前未知的组成偏差，其然后导致偏斜的模型输出，并且已经提出了减轻这些偏差的方法。然而，大多数现有的作品都假设人类-哪些特定问题、数据集或模型遭受偏差，以及（3）哪些方法在每种情况下有效。除非明确修改，否则机器学习模型已被证明能够从数据中学习偏见[23]，因此，对某些人群产生有偏见的结果，破坏AI系统的公平性和社会信任[83，30，94，8，9，18，26，48]。我们考虑监督学习的场景让生成的注释可以被认为是黄金标准和无偏见的。在本文中，我们揭示了这一假设可以X={Xi}NY={Yi}N表示输入图像的集合，并且是标签的集合。数据集是无偏的，如果是有问题的，并且应该特别注意防止模型学习这样的注释偏差。我们专注于面部表情识别，并比较实验室控制和野生数据集之间的标签偏差。我们证明了许多表情数据集包含性别之间的显著注释偏差，特别是在快乐和愤怒的表情方面，并且传统方法无法完全减轻训练模型中的此类偏差。为了去除表情注释偏差，我们提出了一个AU校准的面部表情识别（AUC-FER）框架，该框架利用面部动作单元（AU）并将三重损失并入目标函数中。实验结果表明，该方法是更有效地消除表达式注释偏见比现有的技术。1. 介绍计算机视觉模型严重依赖于大量的训练图像。不幸的是，大多数数据集都传统（即，实验室控制的）数据集通常太小并且不够多样化以训练鲁棒模型。最近，许多大型图像数据集已经通过网络抓取和众包注释创建[16，95]。虽然这种做法有助于研究人员以低成本快速收集数百万不同的为了有效地缓解偏差问题，我们需要知道（1）导致偏差的原因（来源），（2）联合分布P（X，Y）与现实相符。特别地，这需要带注释的标签Y|X，不带偏见。对于列表数据，标签偏见是公平性文献中的经典焦点，其中机器学习模型应用于一些历史歧视性数据，其标签对某些种族或性别群体不公平[65]，例如累犯预测[12]，贷款批准和就业决策[89，63]。然而，对于众包的图像注释，通常假设注释不是系统地有偏的。每个注释者可能有他们的个人偏见，并且可能存在标记错误，但是考虑到数据的多样性和大尺寸，它们通常被认为只是随机噪声的另一个分量[6，96]。然而，在现实中，人们的偏见不太可能事实上，注释者可能具有系统的文化或社会偏见，如果没有经过专门的训练，他们可能会将这些偏见纳入他们的注释中。因此，在这些数据上训练的模型将变得不公平。在本文中，我们研究了系统注释偏差在大型野外数据集中的存在。我们专注于面部表情识别的任务。表达识别的公平性尚未得到广泛关注[87，70]，但它具有深远的影响：现在越来越多的公司进行视频面试，其中使用算法来评估申请人的面部表情，声音和单词选择，以预测他们的技能，行为和个性特征[90，67，28];此外，自动化情绪分析已经无处不在，并用于消费者分析、内容推荐、临床心理学、测谎、疼痛评估和许多其他人类计算机14981||接口（例如，“smile” shutters) [76,在面部表情识别的背景下，心理学研究表明，人类观察者更有可能认为女性的脸比男性的脸更快乐，即使他们的微笑具有相同的强度[75]，并且人们认为评分员持有文化刻板印象，这些刻板印象影响情绪的判断[31，46]。我们假设这种偏差存在于许多野生表达数据集中，其标签由非专家注释。特别地，我们寻求回答以下问题：注释者是否同样有可能在男性和女性之间分配不同的表达标签？“如我们将展示的，对于诸如面部表情识别之类的主观任务，图像注释可以是系统性的偏差，并且需要采取特别的努力来解决这种偏差。我们注意到，目前，深度学习文献中的大多数去偏置技术都集中在来自图像本身的偏置上（即分布P（X）中的偏差）。这通常被称为“数据集偏差”[79，78]或“样本选择偏差”[64]。当数据集的图像组成有偏差时，就会发生这种情况。因此，在一个数据集上训练的模型由于源和目标之间的域转移而不能很好地推广到现实世界。经过训练的模型在不同的组或类别之间也可能具有不期望的准确性差异[9]。此外，数据可能包含虚假或不期望的相关性。当这种不期望的相关性涉及受保护的属性（例如，性别、种族或年龄），则模型被认为是“不公平的”。已经提出了许多方法来去相关这些属性，并确保在这些数据上训练的模型不会基于其受保护的属性来区分人[71，2，34，53，62，11，60，38]。然而，去偏置P（X）不能解决所有问题，因为如果注释标签P（Y，X）是偏置的，则联合分布P（X，Y）将仍然是偏置的正如我们将在本文中演示，现有的技术，旨在减轻数据组合偏差未能完全减轻来自注释的偏见。另一方面，解决标签偏差的经典方法是侵入性的，因为它们通常涉及在训练之前改变标签[55，39]。在本文中，我们解决注释偏见，出现在面部表情识别任务。我们提出了一个AU校准的面部表情识别（ AUC-FER ）框架，该框架使用面部动作单元（AU），并将三重损失纳入目标函数，以学习一个嵌入空间，在该嵌入空间中，对于具有相似AU的人，表情被相似地分类。我们证明，所提出的方法更有效地减轻注释偏见比现有的方法。我们注意到，虽然我们的框架是为面部表情识别而设计的，但它可以适用于许多其他需要主观人类标记的应用，例如活动识别或图像字幕，但也可以使用一些公平或客观的措施（例如AU和主体关键点）。本文的贡献有三个方面：我们比较了实验室控制的数据集和野生数据集之间的注释偏差的存在，以进行面部表情识别，并观察到野生数据集通常在其注释中包含显着的系统偏差。据我们所知，这是第一个工作，以证明与图像数据相关的系统注释偏差的影响我们进一步证明，这种系统性的注释偏差将通过训练模型学习，因此不能像文献中经常假设的那样被忽略我们提出了一种新的AU校准的面部表情识别（AUC-FER）框架，利用面部动作单元，以消除表情注释偏见。实验表明，它优于现有的去偏置-ING技术，消除注释偏见。2. 相关工作如前一节所述，本文的重点是P（Y X）的偏差。我们简要回顾了文献的公平性和偏见，具体到这种类型，以及面部表情识别的研究。公平。公平通常意味着模型在某些受保护的属性方面没有歧视，例如种族，肤色，宗教，性别或民族血统[33]。存在许多关于公平的正式定义，它们一般可分为两种类型：群体公平性，要求不同的人口统计学群体平均接受相同的治疗[27]，以及个体公平性，要求相似的个体在分类结果上具有相似的概率分布[20]。与常用符号一样，我们将用Z表示受保护变量，用Y表示模型预测。实现个体公平的一个主要障碍一个密切相关的概念是反事实公平，它要求如果该人属于不同的人口群体，则该决定不变，同时保持其他一切不变[49]。Denton等人[17]建立在这个想法上并使用可以操纵面部的特定属性的生成模型（例如，从年轻到年老）来揭示微笑分类器的偏差去偏置技术。解决数据集偏差的常见技术包括迁移学习[64]，域自适应[80，81，25，82]和对抗性缓解[91，83]。还提出了许多方法来去除或防止模型学习虚假或不期望的相关性。Hardt等人[27]提出了一种事后校正技术，该技术在学习的预测器上强制概率相等。其他组公平性定义也被转化为约束优化问题[63，94，88，89]。···14982Robinson等人[71]提出学习子组特定阈值。在深度学习领域，修改损失函数以惩罚不公平[1]和对抗学习[69，91，35，60]是两种常见的技术，其目标是学习不包含受保护属性Z的信息的在数据标签有历史偏差的情况下，数据消息传递是最常用的技术。这包括通过在训练之前改变标签来直接校正标签[55，39]，或者在训练期间使用一些权重或采样技术[40，41]。注释偏倚。对于列表数据，历史标签偏倚是众所周知的问题[65]。Jiang和Nachum [36]提出了一种重新加权方案，该方案可以在关于有偏差的标签和真实标签之间的关系的某些假设下校正标签偏差然而，在为深度学习准备的大规模野外数据集的情况下，与更突出的数据组成偏差相比，注释偏差很少受到关注。无论图像被标记的确切方法（手动、半自动或自动）如何，一般假设是它们向标签添加随机噪声，但平均无偏[6，96]。在每个图像由多个工作者注释的情况下，重点在于改进数据集创建过程的编译步骤以提高标签的准确性在多标签监督学习的情况下，也已经开发了修复错误的方法Zhuang和Young [96]指出，将数据项批量呈现给注释者可能会导致批量注释偏差。一般来说，人群注释器在标记困难情况时的准确性较低，但研究人员发现，在某些条件下这相对没有问题[6]。在本文中，我们研究的偏见的标签的情况下，面部表情识别，我们将表明，与以往的研究假设，系统的偏见存在，需要积极管理。脸部表情辨识与脸部动作单位。面部表情识别从视觉数据[76]分析人们Ekman和Friesen进行的一项开创性研究[22]确定了六种原型情绪：愤怒、厌恶、恐惧、快乐、悲伤和惊讶。他们注意到某些面部肌肉模式和离散情绪之间的关联是普遍的，并且与性别和种族无关，并且采用了由面部动作单元（AU）[21]组成的面部动作编码系统（FACS），该系统客观地编码了通常用于各种面部表情的基本面部表情识别的早期工作通常是使用FACS的基于规则的方法[77]。通过深度学习，前压力识别已经显著改进，并且许多工作最近开始关注模型偏差和数据集（组合）偏差。一个常见的观察结果是厌恶，愤怒，恐惧和惊讶是数据集中的少数类别，与幸福和悲伤相比更难学习[51]，并且已经提出了解决数据组成偏差的经典方法，如加权，重新采样，数据增强，分层建模[32]和混淆损失[87]在另一项研究中，研究表明女性看起来比男性更快乐[75]，人们在检测男性脸上的愤怒表情和女性脸上的快乐表情时更快，更准确[5]。因此，有必要对注释进行更正[75]。类似地，Denton等人[17]发现在CelebA上训练的微笑分类器更有可能预测“微笑”，当他们去除人的胡子或在图像上化妆或涂口红时基于这些心理学研究以及观察到的模型偏差，我们假设系统性注释偏差存在于许多大型野生表达数据集中，并且它（除了数据组成偏差）有助于基因表达。训练模型中的偏差。3. 表达式数据集中在本节中，我们说明了面部表情数据集中存在的系统性注释偏差。如前所述，心理学研究表明，评分者倾向于持有女性比男性更快乐的刻板偏见[31]，并且他们更快地检测到男性脸上的愤怒表情[5]，我们假设这些偏见将在注释数据集中表现出来。特别是，我们检查了“幸福”和“愤怒”的为了量化“相同”的我们主要关注性别，因为它与表达感知的心理联系已经得到了充分的研究。我们还对年龄和种族进行了分析。然而，与性别不同，我们实验中使用的大多数公共数据集在不同年龄和种族群体之间并不平衡，而是由年轻人和白人关于年龄和种族的全面分析见补充材料。3.1. 面部动作单元（AU）识别在FACS的框架中，幸福被定义为AU6（脸颊抬起，眼睛眯起）和AU12（唇角向上和侧向拉起）的组合，而愤怒被定义为AU4（眉毛较低）、AU5（上眼睑抬起）、AU7（眼睑收紧）和AU23（嘴唇收紧）的组合。14983联系我们联系我们--∈⊥|AU6AU12准确度F1准确度F1男性女性0.859 0.6130.860 0.5980.887 0.8300.885 0.866p值0.8350.715表1. OpenFace AU识别的准确性和F1分数，在24，600张EmotioNet图像上进行评估，并使用专家编码的AU。[57，43]。因此，我们将用它们作为客观的基准来评估情绪的分类由于lim-这两种偏见之间的区别。定义1ANNOTATIONBIAS. 设Y0、1表示情感标签。令Z、M、F表示人的性别（或一些其他受保护的属性）。我们说表达式注释是无偏的，如果YZ|澳大利亚（1）对于幸福注释，这意味着在有限的空间内，我们在论文中只包括了快乐表情的数值结果;在补充材料中给出了愤怒的详细分析P（Y = 1|AU 6，AU 12，Z= M）=P（Y = 1|AU 6，AU 12，Z= F）（二）我们使用OpenFace，一种最先进的面部行为分析工具包[3]，用于我们的面部动作单元识别目的。为了让它作为一个基准，用于评估情绪注释的偏见，我们首先检查，其AU识别是不是有偏见的男性和女性本身之间。我们使用EmotioNet [24]，其包括24，600张由经验丰富的编码人员手动注释AU的图像，以评估OpenFace的AU存在和强度识别的性能。由于OpenFace和EmotioNet在二进制化AU变量时使用不同的阈值，因此我们使用OpenFace注释。我们使用FairFace数据集[44]来训练一个简单的性别分类器，其测试准确率为94.5%。然后，我们使用它对24，600张EmotioNet图像进行分类，这使我们能够测试OpenFace的性能是否因性别而异。表1总结了男性和女性之间校准的OpenFace AU6和AU12输出的准确度和F1评分。从准确度t检验的p值可以看出，AU6和AU12的差异均因此，我们得出结论，即使OpenFace对与愤怒表情相关联的AU进行类似的评估;详见补充材料）。3.2. 表达式注释偏倚如前所述，野外数据集可能包含两个潜在的偏差来源：数据组成偏差（例如，数据包含明显更多的快乐女性和不快乐男性）和注释偏差（例如，即使当两个图像相同时，女性也比男性更可能被注释为 “ 快乐”）。由于表达式被客观地定义为AU的组合，因此那些相应的AU可以帮助做出重要的区分。其中AU可以是离散的（即，（AU6，AU12）（0，0），（0，1），（1，0），（1，1））或连续的（即，强度评分）。愤怒注释的情况类似。备注。这个定义类似于几率相等（Y除了每个图像以AU为条件，并且要求是标签Y而不是模型预测注意，对A/U的调节是至关重要的，因为否则，我们将不能够将注释偏差与数据组成偏差分开（即，数据集中的女性图像可能平均比男性更不3.3. 不同数据集我们评估各种流行的表达式数据集上的表达式注释。它们可分为两种类型：其图像是在实验室控制条件下收集的那些和其图像是从卷筒纸上刮下来的那些（即，“in-the-wild”）。对于第一种类型，我们选择卡罗林斯卡定向情感面孔数据库（KDEF）[54]和芝加哥面孔数据库（CFD）[56]。对于第二种类型，我们选择Expression in the Wild Database（ExpW）[92，93]，真实世界情感人脸数据库（RAF-DB）[52]和AffectNet[59]。KDEF[54]：KDEF包含70个显示6个基本表达式加上中性的个体。每个表情从5个角度观看，拍摄两次。然而，为了与其他数据库进行比较，我们将仅使用4，900张图像中的980张正面照片。CFD[56]：CFD包含597张中性表情的照片。对于158个目标的子集，它还包括快乐、愤怒和恐惧的表情。ExpW[92，93]：ExpW是一个由91，793张面孔组成的野外数据集。每张脸都被手动标注为6个基本表情之一加上中性表情。RAF-DB[52]：RAF-DB包含从网络下载的29，672张面部图像。使用众包，每个图像由大约40个注释者独立地标记其中15，339个被分类为6个基本类别之一14984男女“快乐”标签“快乐”标签“快乐”标签AffectNet-手动标签“Happy”MFMF1.00.80.60.40.20.80.6P（快乐|AU6），用于ExpW男女0.00.51.01.52.02.53.0AU6强度P（快乐|AU 6）用于RAF-DB1.00.80.60.40.20.80.6P（快乐|AU12），用于ExpW男女0.00.51.01.52.02.53.0AU12强度P（快乐|AU 12）用于RAF-DB0.4M0.20.40.2F0.00.0 0.5 1.0 1.52.0AU6强度0.00.00.20.40.60.81.01.21.4AU12强度M0.8F0.6P（快乐|AU 6）用于AffectNet-Manual1.00.80.6P（快乐|AU 12）用于AffectNet-手动图1.来自AffectNet-Manual的针对每个（AU 6，AU 12）组合的“快乐”和“不快乐”面部的示例以及针对每个0.40.20.00.00.51.01.52.0二点五0.40.20.00.00.51.01.52.02.53.0每个性别。AffectNet-Manual中的情感标签来自手动注释，但可能包含错误，并且使用OpenFace检测AU。1.00.80.6AU6强度P（快乐|AU 6）用于AffectNet-自动1.00.80.6AU12强度P（快乐|AU 12）用于AffectNet-自动0.4 0.4表达式加上中性。还提供了性别、年龄和种族0.20.00.51.01.52.0二点五AU6强度0.20.00.00.51.01.52.02.53.0AU12强度AffectNet[59]：AffectNet包含从网络上收集的大约100万张面部图像。大约一半（420 K）的图像（表示为AffectNet-Manual）被手动注释为6个基本表达之一加上蔑视和中性。其余的（ 550 K ）（表示为AffectNet-Automatic）使用在所有手动注释的训练集样本上训练的ResNext神经网络自动注释为了进行评估，我们将分别使用38，889和45，369的随机样本进行AffectNet手动和AffectNet自动，而不是整个数据集。对于上述每个数据集，我们应用OpenFace AU检测器并获得每个图像的AU6和AU12强度。然后使用第3.1节中找到的最佳阈值将它们二进制化为AU存在变量当性别信息不可用时，我们也应用我们的性别分类器（即，ExpW和AffectNet）。请注意，即使在实践中，AU检测和表达注释是不完善的，并且将引入额外的噪声。然而，如果错误是随机的，则男性和女性之间的模式应该相似。请参见图1，查看AffectNet-Manual中每个（AU 6，AU 12）组合的“快乐”和“不快乐”面孔的一些示例表2显示了在AU6和AU12的不同值条件下，雄性和雌性中“快乐”标签的比例。对于“快乐”的每个条件分布由于有限的图2.男性和女性中“快乐”标签的比例对于每个“野生”表达数据集，以AU6和AU12强度为条件。在男性和女性之间可以看到显着差异，表明存在注释偏倚。KDEF和CFD的大小，一些（AU6，AU12）组合不包含用于卡方检验的足够数据，因此单个AU（即，仅AU6或仅AU12）用作条件。值得注意的是，尽管OpenFace并不完全准确，但我们已经证明它不包含关于性别的系统性偏见（即，它的误差是随机的），并且因此以AU为条件的情感注释中的任何系统偏差必须是由于情感注释中的偏差，而不是AU。从表2中，我们可以看到实验室控制的数据集和野外数据集之间的显著差异对于KDEF和CFD，当AU6和AU12被控制时，“快乐”标签的分布不依赖于性别。另一方面，对于ExpW、RAF-DB和AffectNet，即使AU已经被控制，女性的“快乐”标签的比例我们认为，实验室控制的数据集中显著较少的注释偏差可以通过以下事实来解释：这些图像在发布之前通常由专家仔细审查，而比较 AffectNet-Manual 和 AffectNet-Automatic，我们看到注释偏差的水平是相似的，这表明用于自动标记540 K图像的模型继承了手动标记数据集中的标签偏差。图2示出了对于每种野生型，作为AU6和AU12强度的函数的“快乐”标记的比例。男女男女男女男女男女(AU6，AU12）通过OpenFace（1、1）（1，0）（0，1）（0，0）“快乐”标签“快乐”标签“快乐”标签“快乐”标签“快乐”标签14985联系我们数据（采集条件，尺寸）以关节AU为以边缘AU为(AU6、AU12）P（快乐|AU,M)P（快乐|AU,F)∆p值为χ2检验YZAUP（快乐|AU,M)P（快乐|AU,F)∆p值为χ2检验YZKDEF（Lab，980）[54]（1、1）0.8380.771-0.0670.304AU6= 0AU6=1AU12=10.0360.4750.0000.7690.0160.5470.0050.673-0.0190.0720.005-0.0960.09510.268-0.140CFD（实验室，1，207）[56个]（0，1）（1、1）0.3830.8840.4870.8900.1040.0060.2280.877AU6=0AU6=1AU12=0AU12=10.0590.8380.0050.7250.0790.8540.0050.7510.0210.016-0.0010.0260.2220.706-0.546ExpW（Web，91，793）[92、93]（0，0）（1，0）（0，1）（1、1）0.1760.2460.6630.8010.2150.2850.7700.8700.0390.0400.1070.0690.000 *0.0488 *0.000 *0.000 *AU6=0AU6=1AU12=0AU12=10.2550.6460.1790.7160.3360.7700.2170.8060.0810.1240.0390.0910.000 *0.000 *0.000 *0.000 *RAF-DB(Web[52]（0，0）（1，0）（0，1）（1、1）0.1970.2320.8220.8080.1920.2540.8680.905-0.0050.0220.0470.0970.5700.5370.013 *0.000 *AU6=0AU6=1AU12=0AU12=10.2890.6320.2000.8140.3050.7850.1950.8880.0160.153-0.0050.074零点零八九。0.000 *0.5720.000 *AffectNet-手册（Web，420，299）[59]（0，0）（1，0）（0，1）（1、1）0.0860.2510.6080.7780.1250.2540.7250.8600.0390.0040.1170.0820.000 *0.9200.000 *0.000 *AU6=0AU6=1AU12=0AU12=10.1650.6760.0930.6990.2920.8210.1270.7810.1270.1450.0340.0820.000 *0.000 *0.000 *0.000 *AffectNet-自动（Web，539，607）[59]（0，0）（1，0）（0，1）（1、1）0.1510.4310.8110.9070.2360.5180.8730.9340.0850.0870.0620.0270.000 *0.024 *0.000 *0.000 *AU6=0AU6=1AU12=0AU12=10.2460.8220.1620.8610.4100.9080.2410.8990.1640.0860.0790.0380.000 *0.000 *0.000 *0.000 *1符号代码：0 '*' 0.001 '**' 0.01 '*' 0.05 '。' 0.1 ‘ ’表2.对于每个流行表达数据集，以AU6和AU12为条件的男性和女性中“快乐”标签的比例这里Y0，1是空白和省略的p值表明（AU6，AU12）组合不包含用于卡方检验的足够数据。数据集（实验室控制数据的大小太小，无法计算平均比例）。正如预期的那样，当AU6和AU12强度较高时，“快乐”标签的比例较高，但男性和女性之间的效果不同。 ExpW 、 AffectNet-Manual 和 AffectNet-Automatic都显示出男性和女性之间“快乐”标签的条件分布存在较大差异事实上，逻辑回归将显示性别是一个显著的预测因子，即使AU6和AU12对于所有四个数据集都是受控的这与表2中的结果一致。对于愤怒注释，我们还观察到所有野生数据集中系统注释偏差的一致模式，而实验室控制的数据集没有显示注释偏差的迹象。对于所有野外数据集，在AU被控制后，男性比女性更有可能被标记为“愤怒”;结果见补充资料。我们还检查了其他表达注释，但没有发现男性和女性之间的显着注释偏差这部分是因为许多表达式类例如，惊讶、恐惧和厌恶分别仅占 AffectNet-Manual中所有图像的4%、1%和1%，因此男性和女性之间的差异很小。我们也对“高兴”的注解进行分析14986在不同年龄和种族的人群中进行类似的实验。我们发现，与一般的老年人相比，年轻人更有可能被注释为“快乐”，尽管这种注释偏差的显着性在数据集之间有所不同。我们没有发现不同种族群体之间存在系统性的符号偏见的证据。完整的结果可以在补充材料中找到。对于年龄和种族分析，需要对更平衡的数据集（即，有更多老年人和少数民族的数据集）。为了解释“快乐”和“愤怒”表情标签遭受显著的注释偏差而许多AU标签没有的看似矛盾的观察，我们认为这是因为面部动作单元是局部属性，因此性别信息对注释者的注释几乎没有影响，而当注释者进行表情注释时，他们倾向于整体地看面部。因此面部的性别以不可忽略的方式影响它们的注释。4. 偏差校正4.1. 训练模型在观察到野生表达数据集中存在注释偏差之后，我们假设在这些数据上训练的朴素模型将学习这种偏差，并且14987--ΣsoftmaxN我我1Σ我训练数据P（Y=1|F）P（Y=1|M）盘原始ExpW0.39160.33420.0574重新标记的ExpW0.36550.36030.0052表3.通过在ExpW和重新标记的ExpW数据上训练的ResNet-50模型在CFD测试集上的男性和女性中的“快乐”分类的比例对于地面真值标签，测试集中“快乐”的比例去除注释偏差将减小模型的偏差。为了检验我们的假设，我们使用ExpW作为我们的训练数据，CFD作为我们的测试数据。我们选择CFD是因为图像是实验室控制的，因此当我们评估男性和女性之间的模型预测按照惯例[39，42，97]，我们使用Calders-Verwer（CV）区分评分[10]作为训练模型偏差的度量：Disc=P（Y=Happ y|F）−P（Y=Happ y|M）（3）由于概率不再以AU为条件，因此我们需要平衡测试数据（CFD），以便男性和女性之间真正快乐面孔的比例相同我们首先使用原始ExpW数据集训练一个朴素的幸福分类器。我们使用ResNet-50 [29]在Im-ageNet上进行预训练，并通过Adam优化进行微调[47]，在PyTorch中的学习率为0.0001。为了评估注释偏倚的影响，我们将ExpW数据重新标记如下：4.2. 偏差校正由于更改标签等数据按摩技术是侵入性的和不受欢迎的（它可能具有法律影响，因为它是对伪造数据的一种训练形式[36]），在本节中，我们提出了一个AU校准的面部表情识别（AUC-FER）框架，可以有效地实现类似的结果，而无需修改标签。我们的目标是确保模型基于AU而不是性别对表达进行分类，因此我们希望如果两个样本的AU相似，则鼓励模型以相似的方式处理两个样本，即使它们的性别不同并且标签不同。我们注意到，这与个人公平的概念有关（与群体公平相对）。我们的方法受到度量学习技术的启发，其目的是学习一个嵌入空间，其中相似样本的嵌入向量被鼓励更接近，而不相似的样本则保持彼此远离特别地，我们使用三重损失函数[73]作为正则化器来惩罚不公平。根据训练数据，我们构建体三胞胎各批次内的X i、X j、X k哪里X i和Xj是具有相同AU存在的图像（例如，（AU6，AU12）表示幸福），并且Xk是具有与Xi不同的AU存在的图像。然后将三重态损失定义为：N色氨酸Lt rp=[||f（Xi）−f（Xj）||2−||f（Xi）−f（Xk）||2+α]+，对于每个（AU6，AU12）存在组合，我们首先计算标记图像的平均比例2i，j，k2（四）“快乐”由于女性比男性更容易被标记为即使这可能引入标签错误，这些修改的标签在统计上是公平的，或者换句话说，系统地无偏的。然后我们在一个平衡子集上训练一个幸福分类器（其中每个AU和性别组合具有3，000 sam-ples）使用相同的过程来修改数据。对于测试集，我们从CFD中移除一些容易快乐和不快乐的面孔（其来自朴素分类器的预测分数>0.99999或0.00001），然后通过移除一些快乐的女性图像来平衡男性和女性之间的快乐比例由于ExpW和CFD使用不同的标记标准，因此调整用于对经训练的分类器的输出进行二值化的阈值以最大化测试集的准确性。表3显示了在测试集上观察到的模型偏倚。我们看到在原始ExpW上训练的模型的预测中存在显著偏差，而在重新标记的ExpW数据上训练的模型几乎没有偏差这表明注释偏差可能对模型公平性产生重大影响，因此应该积极管理。其中[z]+=max（z，0），并且f（. ）是图像的特征表示。三重损失函数的目标是使嵌入空间中Xi和Xj之间的距离比Xi和Xk之间的距离大至少最小余量α。像往常一样，我们有分类的交叉熵损失NL= −1[y= y]log（p（y））。（五）i=1然后，总损失函数被定义为Lsoftmax和Ltrp的加权和：L=Lsoftmax+λLtrp，（6）其中λ衡量我们偏离给定的有偏见的标签并执行公平的意愿。4.3. 实验我们评估所提出的AUC-FER方法，通过比较它与其他去偏置方法的公平性文献。流行的方法包括均匀混淆[1]，梯度投影[91]，域判别训练[85]和域独立训练14988[85]。许多人的动机是14989方法（ResNet-50 [29]）盘相比基线（%）基线均匀混淆[1][91]第91话[85]第八十五话域无关[85] AUC-FER（我们的）0.059 ±0.0350.046 ±0.0080.036 ±0.0140.076 ±0.0240.029 ±0.0150.006± 0.020-77.660.0128.849.410.6方法（MobileNetV2 [72]）盘相比基线（%）基线均匀混淆[1][91]第91话[85]第八十五话域无关[85] AUC-FER（我们的）0.079 ±0.0090.085 ±0.0210.070 ±0.0360.064 ±0.0290.062 ±0.0350.028± 0.029- 一百零七点八88.280.4表4.使用在大小为20，000的ExpW的随机子集上训练的ResNet-50架构的各种去偏置方法的辨别分数，并在CFD上针对“快乐”表达进行测试将平均辨别力得分与基线模型进行比较，并以百分比显示。域自适应技术，并被设计为减少数据组成偏差。我们将它们与AUC-FER进行比较，以评估它们在减轻注释偏倚方面的有效性对于第一组实验，我们使用在PyTorch中的ImageNet上预训练的ResNet-50架构[29]。对于四个基准模型，我们遵循Wang et al.[85]并将ResNet模型的FC层替换为两个连续的FC层，两个FC层的大小都为2，048，中间有Dropout和ReLU对于AUC-FER，我们使用PyTorch度量学习库[61]用于三重态损失实现。所有模型都在大小为20，000的ExpW的随机子集上进行训练，并在先前构建的CFD测试集上进行测试。再次选择用于二值化输出分数的阈值以最大化测试集的准确度，并且对于每个模型重复实验5次。为了测试AUC-FER相对于模型架构和训练数据的大小的鲁棒性，我们使用Mo-FER重复该实验bileNetV2 [72]和大小为8，000的训练集。表4和表5显示了模型的区分分数，并将其与基线ResNet-50和MobileNetV 2模型进行了比较。AUC-FER获得了最低的区分分数，与基线模型相比，偏倚降低了64-89%这表明所提出的AUC-FER框架在去除符号偏差方面是有效的我们还使用AffectNet-Automatic作为训练数据对愤怒的表情进行了实验，AUC-FER再次优于其他去偏置技术。愤怒表达的实验细节和分析包括在补充材料中。5. 讨论在本文中，我们研究了系统性的偏见，人类的注释在公共数据集上的面部表情。据我们所知，这是计算机视觉中的第一项工作，以证明注释者的感知偏差的系统性影响，作为可以注入计算机视觉模型的潜在偏差来源。我们表明，与注释错误只是随机的常见假设相反-表5.使用MobileNetV2架构的去偏置方法的区分分数在大小为8，000的ExpW的随机子集上训练，并在CFD上测试在许多面部表情数据集中存在DOM噪声、系统偏差。野生数据集的问题比实验室控制的数据集更严重。我们说明，如果不解决这些偏差，训练的模型也会有偏差。我们进一步开发了一个AUC-FER框架来解决表情识别任务的注释偏差，并证明它在减少注释偏差方面比现有的去偏差方法更有效。所提出的面部表情识别框架利用AU作为辅助变量来执行公平性，因为它们是专门设计来解决面部分析中的主观性的。该框架可以扩展到表情识别之外。一般来说，可以使用任何客观的措施（例如：身体关键点）用于需要主观人类标记的任务（例如，活动识别或图像字幕）。尽管这种客观测量在实践中可能不总是准确的（例如，应用 OpenFace 引入了额外的噪声），相信因为这些测量（AU，身体关键点）通常是局部属性并且较少受对象的其它属性的影响（例如，性别、种族或年龄），它们比训练数据中的主观标签更公平，因此可以用作公平性的校准。对于未来的工作，我们相信，当训练数据遭受多个来源的偏见（组合偏见和注释偏见）时，将我们的方法与其他去偏见技术相结合可能是有效的。本文主要研究系统性注释偏差的识别和消除。数据集管理者研究这种注释偏差是否在注释者亚组之间变化将是有趣的。最近的研究还指出，六种表情的原型框架并不能捕捉人类的全部面部表情[19]，并且已经提出了复合情绪来解决一些显示的面部表情上的真正矛盾心理[19，24，52，7]。未来的工作可以研究这些定义的作用及其与偏见的相互作用。鸣谢本工作得到NSF SBE/SMA #1831848“RIDIR：综合通信数据库和计算工具。14990引用[1] MohsanAlvi，Andr e wZisserm an n，andChristo f ferNella˚k e r. 视而不见：从深度神经网络嵌入中显式去除偏差和在欧洲计算机视觉会议（ECCV）的会议记录中，第0[2] AlexanderAmini， AvaPSoleimany ，WilkoSchwarting，Sangeeta N Bhatia，and Daniela Rus.通过学习的潜在结构发现和纠正算法偏差。在 2019 年AAAI/ACM人工智能，伦理和社会会议的会议记录中，第289-295页[3] 塔达斯·巴尔特鲁斯·艾提斯、马尔瓦·马哈茂德和彼得·罗宾逊。用于自动动作单元检测的跨数据集学习和特定于个人的标准化在2015年第11届IEEE国际会议和自动面部和手势识别（FG）研讨会上，第6卷，第1-6页。IEEE，2015年。[4] Marian Stewart Bartlett、Gwen Littlewort、Ian Fasel和Javier R Movellan。实时面部检测和面部表情识别：人机交互的发展和应用。2003年计算机视觉与模式识别研讨会，第5卷，第53-53页。IEEE，2003年。[5] D Vaughn Becker 、 Douglas T Kenrick 、 Steven LNeuberg、KC Blackwell和Dylan M Smith。愤怒的男人和快乐的女人的混乱本性。Journal of Personality andSocial Psychology，92（2）：179，2007.[6] Eyal Beigman和Beata Beigman Klebanov。使用注释噪声学习在

下载后可阅读完整内容，剩余1页未读，立即下载