基于偏斜感知强化学习的人脸识别种族公平性探究

11 浏览量更新于2023-10-23 收藏 1.89MB PDF 举报

种族平等

强化学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9322Actio奖励公平基于偏斜感知强化学习的人脸识别偏差抑制Mei Wang，邓颖超*北京邮电大学{wangmei1，whdeng}@ bupt.edu.cn摘要种族平等是国际人权法的重要主题，但在盲目追求整体人脸识别准确率的情况下，种族平等在很大程度上被掩盖了越来越多的事实表明，种族偏见确实降低了识别系统的公平性，非白种人的错误率通常比白种人高得多。为了鼓励公平性，我们引入了自适应保证金的想法，以根据大的保证金损失来学习不同种族的平衡性能。提出了一种基于强化学习的种族平衡网络（RL-RBN）我们将为非高加索人寻找最佳利润的过程制定为马尔可夫决策过程，并采用深度Q学习来这些FR算法的长期接受。以前的研究[50，54]表明，种族偏见来自数据和算法方面。不幸的是，在文献中，仍然没有足够的研究工作来研究人脸识别算法的公平性[38，39，13]，以及建立平衡的数据库[50]。通过以下方式了解座席选择适当余量策略种族感知训练数据集去偏算法近似Q值函数。在遗传算法的指导下，种族间特征离散度的偏度可以减小.此外，我们提供了两个种族意识的训练数据集，称为 BUPT-Globalface 和 BUPT-Balancedface数据集，可以用来从数据和算法两个方面研究种族偏见在RFW数据库上的大量实验表明，RL-RBN成功地减轻了种族偏见，学习到更平衡的性能。1. 介绍最近，随着深度卷积神经网络（CNN）的出现[26，43，46，19，20]，人脸识别（FR）[49，45，42]显著提高。然而，随着其越来越广泛的应用，其潜在的不公平性正在引起人们的警觉[8，5，1，2]。例如，根据[14]，对100个警察部门进行的长达一年的研究调查显示，非洲裔美国人更有可能被执法部门阻止正如《世界人权宣言》[7]所述，法律面前人人平等，并有权享受平等保护，不受任何歧视。显然，开发和部署公平公正的FR系统对于防止任何意外副作用并确保图1. 我们提供了两个种族意识训练数据集和一个去偏算法，以减少数据和算法方面的偏差人脸识别以及其他人工智能任务中偏见的主要驱动因素是训练数据。深度人脸识别网络通常在大规模训练数据集上进行训练，例如CASIA-WebFace [52]，VGGFace 2 [10]和MS-Celeb-1 M [17]，这些数据集通常通过抓取Google Images等网站构建这种数据收集方法可能会无意中产生编码性别，种族和文化偏见的数据。因此，在建立培训数据集在这项工作中，我们采取措施，以确保这些数据集是多样化的，并通过构建两个新的训练数据集，即不代表特定群体。BUPT-Globalface和BUPT- Balancedface数据集。一种是根据世界民族人口比例建立的，另一种是严格平衡民族样本数。另一个偏见的来源可以追溯到算法本身。最先进的（SOTA）人脸识别方法，如Sphereface [30]，Cosface[48]和Arcface [12]，在类之间应用裕度，以最大化训练数据的整体预测精度如果一组特定的面孔在训练数据中出现的频率高于其他人，则该方法将针对这些人进行优化，因为n引导反馈..非洲适应性差值高加索人的自适应边界9323这提高了具有相同偏差的测试数据集的准确性，例如，[21][27][29][29][29][29]此外，我们的实验表明，即使使用平衡的训练集，非高加索人的特征可分性也不如高加索人。为了解决这个问题，算法必须权衡不同人群的特定边缘要求，并产生更公平的识别性能。由于种族偏见是一个由许多潜在因素引起的复杂问题，包括但不限于数量，我们应用强化学习（RL）[34]来学习AutoM-L工具，为不同种族设置动态边界。R-L赋予智能体执行实验以更好地理解有偏学习过程的能力，使它们能够学习高级因果关系，从而在自适应边缘上实现独立于数据集的策略。提出了一种基于强化学习的竞赛平衡网络（RL- RBN）。首先，我们使用深度Q学习来训练智能体，通过最大化预期的回报总和来为非高加索人生成自适应的保证金策略。奖励是根据种族之间的类内/类间距离的偏斜度设计的。然后，我们在这种自适应的保证金政策的指导下训练平衡模型。最后，RL-RBN平衡了不同种族之间的类间和类内距离，从而实现了均衡的泛化能力。除了在我们的实验中显示的种族偏见，我们的方法也可以适用于消除其他人口统计学偏见，例如。性别和年龄。我们的贡献可以概括为三个方面。1）构建并发布了两个种族意识训练数据集1，用于减少种族偏见的研究。2)提出了一种新的去偏算法RL-RBN，用于学习自适应边缘以减轻不同种族之间的偏差。RL技术被成功地应用于学习一种自适应的边缘策略。3)对种族意识训练数据集和RFW [50]的广泛实验表明了我们的RL-RBN的有效性。结合平衡训练和我们的去偏算法，我们获得了跨种族的最公平的表现。2. 相关工作2.1. 面孔识别中的种族偏见一些研究[38，16，13，39，25]发现，非深度人脸识别算法继承了人类的种族偏见，并且在不同种族上表现不平等。 2002 年 NIST 人脸识别供应商测试（FRVT）被认为是第一项表明非深度FR算法存在种族偏见的研究[38]。Phillips等人[39]利用人脸识别供应商测试2006（FRVT 2006）的图像对白人和亚洲人进行交叉训练和匹配，并建议对不同种族进行训练和测试会导致严重的性能下降。1http://www.whdeng.cn/RFW/index.htmlKlare等人[25]从皮内拉斯县治安官办公室（PCSO）收集了白人、黑人和西班牙裔的面部照片，并得出结论，黑人群体更难被所有匹配者识别。然而，很少有人研究深层人脸识别中的种族偏见。最近，Wang etal.[50]贡献了一个名为Racial Faces in the Wild（RFW）数据库的测试数据集，他们验证了四个商业API和四个SOTA人脸识别算法的种族偏见，并提出了使用深度无监督域适应来减轻这种偏见的解决方案。但目前可用于研究种族偏见的训练数据集还存在空白2.2. 去偏算法在许多计算机视觉应用中，有一些工作试图将公平性引入网络并减轻数据偏差。这些分别被归类为不平衡训练[41，9，36，53]，属性抑制[5，33，37，32]和域适应[23，22，50，44]。通过以完全不受监督的方式学习潜在的潜在变量，去偏变分自动编码器（DB-VAE）[6]在训练时重新加权某些数据点的重要性。Calmon等人[9]通过将网络预测的条件概率约束为对于人口统计信息的任何两个值相似，将给定的数据集转换为公平的数据集。SensitiveNets [35]提出将敏感信息引入三重态损失。他们最小化敏感信息，同时保持积极和消极嵌入之间的距离。2.3. 深度强化学习模仿人类的决策过程，RL旨在使代理能够使用马尔可夫决策过程（MDP）根据其经验决定行为[28]。Mnih等人。[34]将RL学习与CNN相结合，弥合了高维感官输入和动作之间的鸿沟，从而在Atari Games中实现了人类水平的表现近年来，强化学习在计算机视觉中得到了成功的应用. Rao等人。[40]使用RL来丢弃混淆帧，并找到视频识别的注意焦点。Haque等人[18]利用RL来识别小的、有区别的区域，这些区域在个人识别中指示人类身份。Liu等人。[29]使用RL学习最佳标记以提高整体FR性能。在本文中，我们应用深度RL来解决FR中的竞争平衡问题。3. 种族意识培训数据集人脸识别偏见的一个主要驱动因素是训练数据。通常情况下，一些种族群体的代表性过高，而另一些则代表性不足。例如，东亚和印度仅占常用训练数据集的8%，尽管这些国家占世界为了消除这种来源，9324偏见和平等地代表不同地区的人，我们构建了两个种族意识的训练数据集，即。BUPT- Globalface和BUPT-Balancedface数据集。这两个数据集中的身份被分为4类，即高加索人，印度人，亚洲人和非洲人，根据他们的种族。如图2、BUPT-Globalface包含来自38 K名人的2 M图像，其种族分布与世界人口的真实分布大致相同。BUPT-Balancedface数据集包含来自28 K名人的130万张图像，每个种族大约有7 K个身份。百分之七十八百分之十四百分之五百分之三（a）现有训练数据集（b）BUPT-Globalface（c）BUPT-Balancedface图 2. 不同种族在常用训练数据集中的百分比， BUPT-Globalface和BUPT-Balancedface。其中θ ij是权重W i和特征x j之间的角度。xj∈ Rd表示第j个样本的深度特征，属于第y（j）类，Wi ∈Rd表示权值W∈Rd×n的第i列. N是批量大小，n是类的数量，sc是比例因子。虽然大幅度损失成功地提高了特征区分度，并在一系列人脸识别基准测试中获得了更好的性能，但Wang etal.[50]实验证明，他们仍然无法在统一的边际下获得不同种族的均衡代表。为了更好地理解，我们训练了两个ResNet-34[19]在Arcface [12]和CASIA-Webface上的Soft- max loss[52]的指导下建立模型，并在表1中给出了不同种族的详细角度统计。类内和类间角度在set-1和RFW上计算[50]。set-1包含从我们的BUPT-Globalface数据集中随机选择的每个种族的500个身份。类内角度是指特征和该特征值可以用公式表示为：1Ng1N gi=1|我我|xj∈Iiθxj，ci，其中Ng是i的个数与RFW [50]类似，我们选择不同种族的图像从MS-Celeb-1 M [3]在FreeBase名人的“国籍”致敬[15]和Face++ API的帮助下。然而，由于MS-Celeb-1 M的分布不平衡[3]，我们只能获得2K印度人和5 K亚洲人，i是第i个身份的所有- l个图像的集合，ci是第i个身份的特征中心，由嵌入的平均向量计算。类间角是指嵌入特征中心之间的最小角度的平均值，可以用公式表示不足以构建大规模数据集。我们知道如：Θ=1越南g最小θ. 在表1中，我们MS-Celeb-1 M仅从一个-除其他Ngi=1k=1：Ng，ki=ick，ci百万FreeBase名人榜[15]。因此，我们根据FreeBase名人列表通过Google下载亚洲人和印度人的剩余图像，然后以与其他FR训练数据集（如VGGface2 [10]和Megaface [24]）类似的方式自动和手动在获得足够的图像后，我们选择图像来构建我们的种族意识训练数据集，并在RFW中删除它们的重叠主题[50]。4. 我们的方法4.1. 调查和观察为了使学习到的特征具有潜在的可分离性并提高区分能力，提出了一些基于Softmax的类之间的裕度的方法。例如，Arcface [12]使用了一个附加的角边距m：，，发现非白种人不能获得良好的类内紧凑性和类间差异，特别是类间角。也就是说，即使在训练时对不同种族进行统一的保证金，非白种人在测试集损失函数高加索印度亚洲非洲Intra135.5536.0038.8337.29SoftmaxInter162.6750.8946.1754.26Intra233.8131.4932.0932.39Inter259.0950.1546.4148.42Intra136.7040.0042.7841.50Arcface [12]Inter167.7259.7355.3462.90Intra236.2234.8736.1536.18Inter265.7659.7256.4658.54表 1. 不同种族的角度统计（ [CASIA [52] ， ResNet34 ，loss*]）。“Intra 1”和“Intra 2”分别指set-1和RFW上的类内角度。“Inter1” and “Inter2” refer1ΣNesccos θy（j）j+m分别在集合-1和RFW上的类间角Larc=− N日志，Σj=1东、西、中 cos θy（j）j+m+ni=1，i/=y（j）esccosθij（一）考虑到非白种人的概括能力较差，我们应该特别注意这些困难的问题。Cosface [48]使用了一个附加的余弦余量m：，，有色面孔，因此更喜欢与他们保持适当的距离，以提高他们的泛化能力。因此，我们认为，Lcos=−1ΣN东、西、中 cos θy（j）j−m日志，，我们将自适应余量的概念引入到种族平衡中，Nj=1esccos θy（j）j−mΣni=1，iy（j）esccosθij（二）问题.高加索人的边缘保持不变，而最佳的边缘是自适应地选择每个颜色。百分之二十五百分之二十五1.3M图像百分之二十五百分之二十五印度人亚洲人非洲人百分之三十八18%2个月图像百分之十三百分之三十一+9325高加索印第安人亚洲非洲行动：={0，1，2}当前状态：={G，、个文件夹CNN除其他距离下一状态：={G，奖励：=Rt+1-Rt（R=-，}帧内距离- -译者注）为改变付出行动不同种族的边际离线样本{（、、，）}火车自适应差数损失（）下一页高加索人和非高加索人之间的类内/类间距离的偏倚（偏度）。每个组的当前状态={Ggroup，Margin，Bias}DQN、}：G为小种组，M为边际，B为间距偏度。剂除其他除其他除其他除其他种族感知训练数据集CNN由代理指导的自适应边际损失DeepQ-learning离线采样={G，图3.我们方法的一个例子离线采样：在训练DQN之前，我们改变每个种族组的边际以收集一些训练样本，即（st，at，rt，st+1）。（st，at，rt，st+1）的详细信息参见第4.2节。深度Q学习网络：利用这些样本，DQN被训练成近似Q值函数，并且奖励由种族之间的类间/类内距离的偏斜度确定然后根据Q值为Agent生成自适应的边缘策略自适应边缘：我们训练了一个种族平衡的网络，对于高加索人有一个固定的边缘，对于每个有色面孔有自适应的边缘，在智能体的指导下，每个训练步骤都会发生变化或种族，以便最小化种族之间的角度偏斜，并学习不同种族的平衡表现我们将公式中的固定裕度m替换为1和E-qn. 2通过比赛相关和训练步骤相关的参数mj（t），其中t表示训练的阶段事实上，不同的种族对边缘有不同的要求，并且在训练过程中要求可能会发生变化所提出的自适应裕度损失函数可以用公式表示如下：到下一个时间步并选择一个新动作。深度Q学习的目标是用策略π训练代理，以最大化预期的奖励总和。状态MDP 的状态s由三个分离的部分{G，M，B_inter}组成。G={0，1，2}代表种族组，即印度人（第0组）、亚洲人（第1组）和非洲人（第2组）。 M等于自适应裕度M. Binter是指第g个种族组与高加索人之间的类间距离的偏差（偏度），可用于-，，1ΣNesc cos θy(j)j +αj (t)计算如下：LRBN=−日志，，.gCau。Nj=1esccos θy（j）j+αj（t）Σni=1，iy（j）esccosθijBinter=. dinter-dinter.其中，αj（t）=.m，如果j ∈高加索人mj（t），否则（三）其中，dg1000克= Ng i=1Maxk=1：Ng，k/=icos（ck，ci）（四）类似的修改可以用于Cosface [48]。所以其中dgCauinter 是g的类间距离-th关键问题是为每个非高加索人组找到最优自适应边缘策略mj（t），以最小化高加索人和非高加索人之间的角度我们在这里将白人作为基准（锚），因为白人受试者在现有FR数据集中占压倒性优势根据不同的种族分布，我们的RL-RBN可以改变基准，用最具代表性的种族群体取代高加索人。4.2. 自适应边际策略学习在我们的方法中，如图所示。3，找到m j（t）的问题可以用公式表示为马尔可夫决策过程（MDP）[28]，基于此，我们使用深度Q学习来调整每次迭代的裕度。深度Q学习旨在使智能体能够使用MDP从其经验中决定行为在每个时间步t∈[1，T]，代理采取根据Q值从动作空间A中取出动作at由深度Q学习网络（DQN）估计的Q（st，a）其中状态ST作为输入。环境为这个动作给出一个奖励r（st，at），然后智能体用st+1更新它的状态。根据这个新的状态，代理人将进入-人种组和高加索人组。 Ng是属于第g个种族群的身份数，Ci是由嵌入的平均向量计算的第i个身份的特征中心。cos（·，·）是余弦距离函数。d Cau可以用与d g相同的方法计算. 我们假设不同的种族对利润有不同的需求，并且需求可能根据他们的B利益而变化。当偏度较大时，小种群体可能需要较大的边际来提高其泛化能力，反之亦然。因此，在设计状态s时，我们将G和B 都考虑在内。每个动作将根据种族组和当前偏度进行选择此外，为了使状态空间离散，我们将M和B映射到离散空间M和B，其中M ={m1，m2，.， m nM}且B={b1，b2，...， b nB}。行动上动作A={0，1，2}是裕度我们将三种行动定义为（动作0）、智能体在时间步 t采取的最优动作由at=argmax Q（st，a）公式化，其中一…+和d9326帧内除其他除其他除其他除其他.B= dg − dCau内部Q值Q（st，a）是采取行动a的累积回报。例如，在时间步t，智能体根据Q值和状态t = t选择采取动作{0，m2，b1}，则印度的边距将更新为m3=m2+m。奖励作为函数r（st，at）的奖励反映了主体所采取的行动相对于状态st的好坏程度。由于我们假设非白种人应该具有与白种人相同的泛化能力，并且它们之间的偏度应该最小化，因此我们使用偏度这些离线样本由样本CNN生成，如算法1所示。对于每个非高加索人组，我们通过动作at手动调整边缘，并使用新的边缘训练当前样本网络一个时期。在一个时期的训练之后，我们计算这个种族组的类内和类间距离，并获得下一个状态st+1和奖励rt。我们一直这样做，直到所有的状态都被遍历。然后，我们用这些样本训练DQN然后，根据训练后的DQN的输出生成自适应裕度策略Q值。之间的距离，以设计重新-病房高加索人和第g组之间的类内距离的偏差（偏度）可以用公式表示为：..内部内部内部算法1离线采样。输入：四个种族群体的不平衡数据。输出量：其中，dg1000克= Ng i=11|我我|Σxj∈Iicos（ xj，ci）（五）样品，即{（st，a t，r t，st+1）}，用于训练深度Q学习网络。1：对于所有组中的g，其中d g和d Cau是g的类内距离-th人种组和高加索人组。Ng是属于第g个种族组的身份数。i是第i个恒等式中所有图像的集合，ci是第i个恒等式的特征中心，由嵌入的均值向量计算得到。叮。而类间距离的偏度（skewness）可以通过等式n计算。4.当智能体采取行动调整第g个种族组的差距时，2：forainall actionsdo3：通过方程计算第g组的B t。4，得到当前状态st={G，Mt，Bt}.4：采取动作a来调整第g组的裕度。5：用第g组的最新边缘Mt+1训练样本网络一个历元;而其他组的边缘保持不变。6：计算Bt+1根据E-电话+1qn.4, 和获得更新状态s=动作at由下式计算：{G，M t+1，B t+1}.r（ st，at）=Rt+1− Rt（六）7：根据等式计算奖励rt。六、8：收集样本{（s t，a t，r t，s t+1）}。其中，R=−（ Binter+ Bintra）目标函数我们选择使用深度Q学习[34，51]来学习代理的最佳策略。利用具有10个单元的另一隐藏层的两层全连接网络来估计Q函数。每个完全连接的层后面都有一个ReLU激活函数。深度Q学习网络将状态作为输入，并产生所有可能动作的Q值。我们通过最小化以下损失函数来更新网络：9：结束10：如果st+1是一个还没有出现的新状态11：转到步骤2。12：如果结束13：结束识别网络。我们利用该策略来指导识别网络的训练过程。在每个时间步长t，由识别网络根据以下公式计算st：ΣLq=Est，atyt不.- Q st，atΣ 不ΣΣ2Σ.电话+1Σt+1tt等式4并发送给代理，然后经过培训的代理将采取措施调整每个非高加索人组的边际。然后，我们更新Eqn中的非高加索人的边缘。 3、并利用其优化识别网络，其中y=Est+1r+γ max Q sat+1得双曲余切值.|年代（七）一个时代。我们一直这样做，直到训练结束。5. 实验其中yt−Q（st，at）是时间差误差。yt是Q（st，at）的目标值。rt是重-受...监护采取由等式6计算的动作Δt，以及5.1. 实验设置数据集。因为现有的数据集没有种族意识γ maxQat+1st+1，at+1|st，at未来的回报是多少除了RFW [50]，我们使用我们的BUPT-全球脸和BUPT-目前的深度Q学习网络，st+1。为了训练DQN，我们提前收集了一些离线样本，即。{（s t，a t，r t，s t+1）}，作为馈送网络的输入。9327Balancedface数据集来训练我们的模型，并使用RFW[50]来公平地衡量不同种族的表现RFW [50]由四个测试子集组成，即高加索人，亚洲人，9328印第安人和非洲人。每个子集包含约10K张3K个人的图像，用于人脸验证。此外，为了准确地评估泛化能力，我们额外地构造了一个验证集来计算RL中的类内验证集包含每个种族 500 个身份，并且与 BUPT-Globalface、BUPT- Balancedface和RFW数据集没有重叠的受试者[50]。评价方案。验证性能通过准确度来衡量。我们利用四场比赛的平均准确率作为度量来评估深度模型的总体性能。采用标准差和偏误率作为公平性准则。标准差反映了不同种族准确度的离散程度。误差偏度是由不同误差率中最高误差率与最低误差率的比率计算的。最大误差g(a) 高斯模糊（b）高斯噪声图4.通过应用（a）高斯模糊或（b）高斯噪声而降级的图像的示例。第一列是原始图像。(a)高斯模糊（Softmax）（b）高斯噪声（Softmax）种族可以用公式表示为SER=G最小误差gG哪里g∈ {Caucasian，Indian，Asian，African}表示人种。实作详细数据。对于预处理，我们使用五个面部标志进行相似性变换，然后将面部裁剪并调整大小为112×112。RGB图像中的每个像素（[0，255]）通过减去127.5进行归一化，然后除以128。MxNet [11]用于实现自适应边际损失，TensorFlow [4]用于深度Q学习。我们使用ResNet 34[19]来训练识别C-NN和采样CNN。对于训练识别CNN的情况小训练数据集的批大小设置为256，大训练数据集的批大小设置为200一个. 我们将动量设为0.9，重量衰减设为5e−4。DQN的架构在第4.2节中提到。的AdamOptimizer 用于优化整个网络。学习率设为1e−4，折扣因子γ设为0.99。首先，我们收集训练样本{（st，at，rt，st+1）}用于深度Q学习。在RL-RBN（软）中，Cau-casian的边界被设置为0，类似于N-Softmax [47]，并且非高加索人的边缘从0到0.6不等，0.2其中，添加角余量类似于Arcface [12]使用;在RL-RBN（cos）和RL-RBN（arc）中，高加索人的界限被设置为0.15和0.3，非高加索人的界限在0.15至0.45之间变化，步长为0.1并且分别以0.1的步长从0.3变化到0.6。之后，我们将样本{（st，at，rt，st+1）}馈送到训练深度Q学习网络，然后生成自适应的保证金策略。最后，在该策略的指导下训练识别CNN。5.2. 种族偏见的原因一些论文[50，54，25]证实，即使经过均衡训练，非白种人的表现仍然不如白种人，有色皮肤的面孔天生难以识别。(c)高斯模糊（弧面）（d）高斯噪声（弧面）图5.在模糊和嘈杂的RFW上测试高加索人和非洲人的表现[50]。识别现有的算法。为了深入研究这一现象，我们通过模糊和噪声降低RFW [50]的图像，并观察这些图像退化对高加索人和非洲人表现要应用高斯模糊，高斯滤波器的sigma值为1.5核大小从1到10变化，步长为1（图4）。并且我们通过使用具有零均值和以5为步长从5变化到50的标准差的我们使用BUPT-Balancedface数据集在Softmax和Arcface loss的指导下训练了两个ResNet-34模型[12]高加索人和非洲人的准确性在图中给出5.我们可以看到，即使在均衡训练的情况下，非洲人和高加索人之间的成绩差距仍然存在。白种人和非洲人都被发现对图像模糊和噪声敏感。更重要的是，当模糊和噪声水平增加时，高加索人和非洲人之间的性能差距扩大。因此，我们得出结论，有色人种的脸更容易受到噪声和图像质量比白种人。这可能是为什么非白种人更难识别的原因之一。5.3. 我们的方法的实验模拟数据集上的结果。训练集上的数据偏差严重影响算法的公平性。为了验证我们的RL-RBN的有效性，我们训练我们的al-9329测试→培训方式↓高加索印度亚洲非洲Avg公平标准SER四二二N-Softmax [47]89.6787.9784.6884.1786.622.641.53RL-RBN（软）91.3590.7789.8790.1390.530.661.17五五五五N-Softmax [47]89.8888.5285.1383.4286.742.981.64333RL-RBN（软）90.3390.2388.9789.3789.730.671.22六、四、四、四N-Softmax [47]90.4388.3284.7583.3286.703.261.74333RL-RBN（软）90.1790.0287.6788.2789.031.251.257：1：1：1N-Softmax [47]90.6787.7784.3782.9786.443.461.83RL-RBN（软）90.6390.7387.7287.5389.151.771.35表2. RFW [50]上的验证准确度（%），采用不同的种族分布进行培训。我们用黑体字表示STD（越低越好）和偏误率（SER）（1是最好的），因为这是重要的公平性标准。(a) Softmax（b）RL-RBN（soft）（c）Cosface（d）RL-RBN（cos）（e）Arcface（f）RL-RBN（arc）图6.在所有RFW对上评价的（a）Softmax、（b）RL-RBN（soft）（c）Cosface [48]、（d）RL-RBN（cos）、（e）Arcface [12]和（f）RL-RBN（arc）的ROC曲线[50]。使用具有不同种族分布的训练集出租ms，并在RFW上对其进行评估[50]。我们从BUPT-Globalface数据集中随机选取图像来构建这些训练集。每个训练集包含12K名人，与CASIA-Webface数据库[52]具有相似的规模，并且与RFW数据集不重叠。我们使印度人、亚洲人和非洲人的人数简单地相同，并改变高加索人和非高加索人之间的比例，高加索人，即{4：6}，{5：5}，{6：4}，{7：3}。Norm-Softmax [47]，它基于Soft标准化权重和特征max与我们的RL-RBN进行比较，如表2所示从结果中，我们可以看到几个重要的观察。首先，它也表明现有算法中确实存在种族偏见。例如，当种族分布为4：2：2：2时，Norm-Softmax在白人测试子集上的准确率达到89.69%，但在非洲测试子集上的准确率急剧下降到84.17%。其次，定量验证了我们的观点，即每个种族的准确率与其在训练集中的数量正相关。例如，在Norm-Softmax中，增加高加索人- s的比例（从2/5增加到7/10）将其准确率从89.67%增加到90.67%。此外，随着种族差异的变化，我们观察到种族之间的公平性下降。第三，在采用R-L指导的自适应余量损失后，我们的RL-RBN（软）在不同的比赛中获得了比Norm-Softmax更平衡的性能。当种族分布变得更加不均匀时，即7：1：1：1，我们的方法仍然可以表现得更好，并将SER从1.83降低到1.35。BUPT-Globalface 数据集上的结果。在 BUPT-Globalface上进行培训，我们将RL-RBN与Softmax进行比较方法高加索印度亚洲非洲Avg公平标准SER[第42话]95.8092.7791.0390.4792.522.402.27Softmax95.6291.9790.8589.9892.102.482.29M-RBN（软）93.5094.5090.0693.4392.831.901.78RL-RBN（软）94.5395.0394.2094.0594.450.441.20[第48话]96.6394.6893.5092.1794.251.902.33M-RBN（cos）96.1595.7393.4394.7695.021.211.70RL-RBN（cos）96.0395.1594.5894.2795.010.771.45Arcface [12]97.3795.6894.5593.8795.371.532.33M-RBN（弧）97.0395.5894.4095.1895.551.101.89RL-RBN（arc）97.0895.6395.5794.8795.790.931.76表3.我们的RFW政策的验证准确性（%）[50]（[BUPT-Globalface，ResNet 34，损失 *]）。M-RBN是对不同的小种使用与其数量成反比的不同的固定边际的方法[48][49][49][49][49]对于Cosface [48]和Arcface [12]，缩放参数我们将结果显示在表3和图4中。6.首先，我们的RL-RBN（软）获得了比Softmax更完美的性能。它实现了约2.35%的增益的平均精度，和STD- es从2.48下降到0.44。第二，我们发现，大幅度的利润损失，即Cosface [48]和Arcface [12]，可以通过更多的分离类间在一定程度然而，种族偏见不能完全消除第三，我们的RL-RBN（cos）和RL-RBN（arc）可以找到每个种族组的最佳利润，并获得比Cosface和Arcface更平衡的性能实验结果表明，该算法在从有偏数据集中学习平衡特征方面具有很好的优越性.BUPT-Balancedface数据集上的结果我们也来-9330表4.我们的RFW政策的验证准确性（%）[50]（[BUPT-Balancedface，ResNet 34，loss*]）。使用Softmax、Cosface [48]和Arcface[12]在BUPT-平衡的脸上。结果示于表4. 通过平衡训练，Softmax，Cosface和Arcface确实获得了比有偏数据训练更平衡的性能。因此，对所有种族进行平等的培训可以在一定程度上减少种族偏见。这个结论与[50，54]是一致的。然而，即使进行了均衡训练，我们也看到非白种人的表现仍然不如白种人，因为一些特定的种族很难识别。当结合我们的去偏算法和平衡数据，我们可以获得最公平的性能。G1：印度人G2：亚洲人G3：非洲人0.30.40.50.60.30.40.50.60.30.40.50.6(a) RL-RBN（soft）（b）RL-RBN（arc）图8.非高加索人在BUPT-Balancedface上的RL-RBN（软）和RL-RBN（弧）训练中的边缘分布。当在 BUPT-Balancedface 数据集上训练时， RL-RBN（软）和RL-RBN（弧）中非高加索人的边缘分布。在智能体的引导下，亚洲人和非洲人的边缘确实比印度人大，特别是亚洲人，他们在使用Softmax或Arcface训练时最难识别。此外，与RL-RBN（软）相比，RL-RBN（arc）通常为非高加索人选择更大的边缘这是因为在我们的方法中，高加索人的表现被设置为锚点，而其他种族的表现被改善以接近锚点。在RL-RBN（软）中，高加索人的边界是s-小的，并固定为0，非高加索人的边界过大将导致再次失去平衡的性能。这一结果证明了我们的方法的鲁棒性和适应性。b1保证金B1 正++保证金B1 正++保证金与手动保证金相比我们还比较我们的B2 正+ +B3 +++B4 +++b2+b3+b4+b2+b3+b4+基于人工余量的RBN（M-RBN）方法M-RBN简单地为不同的种族设置不同的固定边界，与他们的样本数量成反比从图7.RL-RBN（arc）的自适应边缘策略来自于训练的代理。每个符号，即“o”、“+”、“-”指示基于当前状态s ={ G，M，B_inter }的动作a = { 0，1，2 }。M是映射到离散空间{0. 3，0。四，零。5，0。6}。B帧间映射到四个离散值b1b2b3b4。<<<适应性保证金政策。在我们的RL-RBN中，自适应余量策略由训练的代理给出，该代理可以输出具有状态s={G，M，Binter}的动作a={0，1，2}作为输入。在这里，我们说明了自适应的保证金政策，图中RL-RBN（弧形）7.第一次会议。从政策中，我们可以看到几个重要的观察。第一，亚洲和非洲集团与印度集团相比，有更大的可能性增加其利润率。这与我们的理论分析是一致的，我们更喜欢更严格的限制，更难以识别的种族根据我们的实验，亚洲人和非洲人与白人有更大的领域差异，即使在平衡训练下也表现得更差第二，B区间越大的国家越有可能增加边际，反之亦然。大的B_inter通常反映了高加索人和该种族组之间的不平衡性能，因此应该有更大的裕度来提高该组的泛化能力。利润的分配。在图8中，我们说明了dis-从表3可以看出，亚洲人的表现总是拖累M-RBN的公平性，我们的方法在公平性上优于M-RBN。这是因为种族偏见是一个复杂的问题，其中数字不仅是影响失衡准确性的事实虽然在BUPT- Globalface数据集中，亚洲人的数量远大于印度人和非洲人，但这一群体仍然需要更大的差距，因为即使经过均衡训练，这也是最难识别的种族。6. 结论在本文中，我们提供了两个种族意识的训练数据集，即。BUPT-全局面和BUPT-平衡面。然后，提出了一种基于强化学习的种族平衡它引入了马尔可夫决策过程，以自适应地找到非高加索人的最佳利润。对比实验证明了RL-RBN的有效性7. 致谢本工作得到国家自然科学基金部分资助。61871052和61573068。方法高加索印度亚洲非洲Avg公平标准SER[第42话]94.5893.1791.4891.6092.711.471.57Softmax94.1892.8291.2391.4292.411.381.51RL-RBN（软）94.3094.1393.8794.4594.280.201.08[第48话]95.1293.9392.9892.9393.741.031.45RL-RBN（cos）95.4795.1594.5295.2795.100.411.21Arcface [12]96.1894.6793.7293.9894.641.111.659331引用[1] 人脸识别系统准确吗？取决于你的种族。https://www.technologyreview.com/s/601786.[2] 面部识别是准确的，如果你是一个白人。https：//www.nytimes.com/2018/02/09/technology/识别种族人工intelligence.html。[3] Ms-celeb-1 m挑战3：人脸特征测试/万亿对。http://trillionpairs.deepglint.com/网站。[4] Mart´ın Abadi， Paul Barham ， Jianmin Chen ， ZhifengChen ， Andy Davis ， Jeffrey Dean ， Matthieu Devin ，Sanjay Ghe-mawat，Geoffrey Irving，Michael Isard，etal

下载后可阅读完整内容，剩余1页未读，立即下载