没有合适的资源?快使用搜索试试~ 我知道了~
Zhibo Wang†,‡, Xiaowei Dong†, , Henry Xue , Zhifei Zhang , Weifeng Chiu , Tao Wei♯, Kui Ren‡{weifeng.qwf, lenx.wei}@antgroup.com, kuiren@zju.edu.cn103790面向已部署深度模型的公平感知对抗扰动以减轻偏见0† 武汉大学网络科学与工程学院,中国 ‡浙江大学网络科学与技术学院,中国 � 蚂蚁集团,中国,�Adobe研究,美国0摘要0在人工智能(AI)系统中,优先考虑公平性尤为重要,特别是对于那些社会应用,例如招聘系统应该平等推荐来自不同人口统计群体的申请人,风险评估系统必须消除刑事司法中的种族主义。现有的努力致力于道德发展AI系统,已经利用数据科学来减轻训练集中的偏见,或将公平原则引入训练过程中。然而,对于已部署的AI系统,实际上可能不允许重新训练或调整。相比之下,我们提出了一种更灵活的方法,即公平感知对抗扰动(FAAP),它学习如何扰动输入数据以使已部署的模型在与公平相关的特征上失效,例如性别和种族。其主要优势在于FAAP不会修改模型的参数和结构。为了实现这一点,我们设计了一个鉴别器,根据来自已部署模型的潜在表示来区分与公平相关的属性。同时,我们训练了一个扰动生成器来对抗鉴别器,以便从扰动后的输入中无法提取到与公平相关的特征。详尽的实验评估证明了所提出的FAAP的有效性和优越性能。此外,FAAP还在现实世界的商业部署中进行了验证(无法访问模型参数),这显示了FAAP的可迁移性,预示着黑盒适应性的潜力。01. 引言0人工智能系统已广泛应用于许多高风险应用中,例如人脸识别,招聘等。0� Xiaowei Dong是通讯作者。0尽管某些现有的AI系统在处理个人时存在不公平的情况,例如种族、性别和国籍等受保护属性,但AI系统已广泛应用于许多高风险应用中,例如面部识别,招聘等。亚马逊意识到他们的自动招聘系统存在男性和女性候选人之间的偏差,即男性候选人被录用的概率较女性候选人高。再如,评估系统COM-PAS发现存在种族偏见。这种不公平已成为AI系统的一种微妙而普遍的特性,因此在不触及已部署的模型的情况下,减轻不公平是非常困难的。0已经提出了许多减轻不公平/偏见的方法,可以根据去偏应用的阶段分为三类,即预处理、内部处理和后处理。从预处理的角度来看,[8, 16, 17, 27,31]减轻了训练数据集中的偏见,从而减轻了模型训练过程中的偏见。对于内部处理方法,[1, 19,30]在学习过程中引入了与公平相关的惩罚,以训练出更公平的模型。这些方法需要重新训练或微调目标模型,但如果模型在没有访问其训练集的情况下部署,则这些方法不适用。[7]提出了一种增强方法,用于后处理已部署的深度学习模型,以生成一个在不同人群中具有相等准确性的新分类器。然而,[7]需要替换最终的分类器,并且不能确保统计和预测的平等性,即不同群体的个体在预测中得到平等对待。0据我们所知,现有的工作不适合在不改变深度模型的情况下改善推理阶段的公平性。因此,迫切需要提出一种实用的方法来缓解部署模型的不公平性,而不改变其参数和结构。由于深度模型往往学习到虚假的相关性,例如种族可能与犯罪风险相关,解决这个问题的关键在于防止部署模型从输入中提取与公平相关的信息。直观地说,我们唯一能修改的就是在部署模型的推理阶段修改输入数据,即扰动输入数据,使模型无法识别受保护属性。基于以上思想,我们提出了公平感知对抗扰动(FAAP),它学习扰动输入样本以使部署模型在公平相关特征上无法识别。如图1所示,部署模型无法区分公平相关特征(例如性别)和扰动后的输入图像。因此,预测结果将不与受保护属性相关。关键思想是扰动可以将样本重新映射到模型潜在空间中受保护属性的决策超平面上紧密分布,使其难以区分。为了实现这一点,我们训练一个生成器来生成对抗性扰动。在训练过程中,训练一个判别器来区分受保护属性和模型表示之间的关系,而生成器则学习欺骗判别器,从而生成能够隐藏受保护属性信息的公平感知扰动,并防止特征提取过程中提取受保护属性信息。广泛的实验评估证明了所提出的FAAP的卓越性能,并显示了在黑盒场景中缓解模型不公平性的潜力,即在没有访问其参数的情况下。总之,本文的主要贡献有三个方面:-103800[男性]不微笑0微笑检测0原始0图像0公平0感知0对抗性扰动0×0√0[未知]微笑0图1.微笑检测模型的示意图。由于模型的不公平性,原始图像被错误地识别为“男性不微笑”。FAAP生成的公平感知对抗扰动帮助输入图像隐藏受保护属性并获得公平对待。0受保护属性和目标标签之间的关系,例如种族可能与犯罪风险相关,缓解不公平的关键是打破这种相关性。由于我们假设不修改模型,实现这个目标的主要挑战是如何防止部署模型从输入中提取与公平相关的信息。直观地说,我们唯一能修改的就是在部署模型的推理阶段修改输入数据,即扰动输入数据,使模型无法识别受保护属性。基于以上思想,我们提出了公平感知对抗扰动(FAAP),它学习扰动输入样本以使部署模型在公平相关特征上无法识别。如图1所示,部署模型无法区分公平相关特征(例如性别)和扰动后的输入图像。因此,预测结果将不与受保护属性相关。关键思想是扰动可以将样本重新映射到模型潜在空间中受保护属性的决策超平面上紧密分布,使其难以区分。为了实现这一点,我们训练一个生成器来生成对抗性扰动。在训练过程中,训练一个判别器来区分受保护属性和模型表示之间的关系,而生成器则学习欺骗判别器,从而生成能够隐藏受保护属性信息的公平感知扰动,并防止特征提取过程中提取受保护属性信息。广泛的实验评估证明了所提出的FAAP的卓越性能,并显示了在黑盒场景中缓解模型不公平性的潜力,即在没有访问其参数的情况下。总之,本文的主要贡献有三个方面:0•我们首次尝试在不改变部署的深度模型的参数和结构的情况下缓解其不公平性。这将推动公平性研究朝着更实际的场景发展。0•我们提出了公平感知对抗扰动(FAAP),设计了一个判别器来区分公平相关属性和目标标签之间的关系。0基于部署模型的潜在表示,我们设计了一个判别器来识别与公平相关的属性和目标标签之间的关系。同时,通过对抗训练的方式训练一个生成器来扰动输入数据,以防止部署模型提取与公平相关的特征。这种设计有效地将公平相关/受保护属性与预测结果解耦。0•大量实验证明了所提出的FAAP的卓越性能。此外,对真实商业API的评估显示了FAAP的可转移性,这表明在黑盒场景中进一步探索我们的方法的潜力。02. 相关工作0本节概述了关于不公平性缓解的相关工作,可以根据目标阶段进行粗略划分,即预处理(训练前的数据预处理)、处理中(训练过程中的惩罚设计)和后处理(训练后的预测调整)。预处理方法[16, 17,31]旨在缓解训练数据集中的偏见,即更公平的训练集将训练出更公平的模型。已经提出了许多方法通过公平的数据表示转换或数据分布增强来去偏训练集。Quadrianto等人[16]使用数据到数据的转换来找到训练数据中不同性别群体的中间表示,从而模型不会学习到性别的倾向。Ramaswamy等人[17]生成配对的训练数据来平衡受保护属性,从而消除目标标签和受保护属性之间的虚假相关性。Zhang等人[31]提出生成对抗性示例来补充训练数据集,平衡不同受保护属性的数据分布。处理中方法[1, 18, 19, 29,30]将公平原则引入训练过程中,即通过特定设计的公平惩罚/约束或对抗机制来训练模型。Zafar等人[29]提出在不同影响约束下最大化准确性以改善机器学习中的公平性。Brian等人[1]和Zhang等人[30]通过最大化准确性同时最小化判别器预测受保护属性的能力,强制模型产生公平的输出。YujiRoh等人[18]提供了一个基于互信息的解释,用于改善不同影响和平等几率的现有对抗训练方法。Sarhan等人[19]对表示施加正交性和解缠约束,并通过最大化熵使表示对受保护信息不可知,然后下一个分类器可以根据学习到的表示进行公平预测。这一研究方向旨在通过明确改变训练过程来获得更公平的模型。与这一研究方向不同,我们的方法是在应用后阶段应用的。+1-1-1-1103810在训练过程之后,可以改善公平性而不改变已部署的模型。后处理方法[7,10]倾向于根据特定的公平性准则调整模型的预测。Lohia等人[10]提出了一种后处理算法,通过检测模型输出中的偏差并相应地编辑受保护属性来调整模型的预测,从而使模型在表格数据上满足个体和群体公平性准则。然而,这种方法需要在测试时更改受保护属性,这对于计算机视觉应用来说是困难的。Michael等人[7]提出了一种方法,可以对预训练的深度学习模型进行后处理,创建一个新的分类器,该分类器对具有不同受保护属性的人具有相等的准确性。然而,[7]需要替换最终的分类器,并且平等的子组准确性不能保证不同组的人有相等的获得有利预测的机会,例如不平等的误报率和漏报率。我们借鉴了这一研究方向的思想,但我们从数据方面改善公平性,而不是操纵模型或其预测。03. 准备工作03.1. 模型公平性0本文关注视觉分类模型,因为在这方面已经进行了大量的学术研究,并且广泛应用于工业。此外,对于具有不同受保护属性的人来说,实现平等对待是很重要的,例如国籍、性别和种族。因此,采用了人口统计学平等[28]和平等几率[4]来衡量模型的公平性。在一个二分类任务中,例如犯罪预测,假设目标标签y∈Y={-1,1},受保护属性z∈Z={-1,1},其中y=1表示有利类别(例如较低的犯罪倾向),z=1表示特权组(例如高加索人)。定义1(人口统计学平等)。如果z的值不会影响将样本分配到正类的情况,即模型的预测ˆy=1|z,则分类器满足人口统计学平等:0P(ˆy=1∣z=-1)=P(ˆy=1∣z=1) (1)0如果一个模型满足人口统计学平等,特权组和非特权组中的样本被预测为正的概率相同。定义2(平等几率)。如果z的值不会影响给定y的样本的正输出,即ˆy=1|z∣y,则分类器满足平等几率:0P(ˆy=1∣y,z=-1)=P(ˆy=1∣y,z=1),y={-1,1} (2)0平等的几率意味着正输出在给定目标标签的情况下与受保护属性无关。特权组和非特权组中的样本具有相同的误报率和漏报率。0性别超平面0目标标签0超平面0女性0男性0性别超平面0目标标签0超平面0添加对抗性0扰动0男性,+10男性,0女性,+10女性,0误报0图2.提出的公平感知对抗扰动(FAAP)的基本思想。左侧存在性别偏见,即女性的误报率远高于男性。在不调整已部署模型的决策超平面的情况下,FAAP扰动样本以使目标标签和性别在潜在空间中不相关。在右侧,扰动样本紧密分布在性别超平面上,同时保持目标标签超平面上的可区分性。03.2. 对抗样本0最近的研究表明,深度学习模型容易受到对抗样本的攻击[24]。给定一个分类模型C(x),对抗攻击的目标是找到一个小的扰动来生成一个对抗样本x',以误导分类器C。具体而言,有两种类型的对抗样本攻击。对于一个输入x和其对应的真实标签y,有针对性攻击会使得C(x')=y',其中y'≠y是攻击者指定的标签。相反,在非针对性攻击中,攻击者会使得分类模型的输出C(x')≠y。通常,扰动的l_p范数应小于ϵ,即∥x-x'∥_p≤ϵ。已经提出了许多方法来生成对抗样本,例如PGD[11]、CW[2]和基于GANs的方法[26]。04. 公平感知的对抗扰动0在本文中,我们提出了一种公平感知的对抗扰动(FAAP)来减轻深度模型中的不公平性。本节将概述所提出的FAAP,并详细介绍网络和损失函数的设计。最后,我们将进一步讨论FAAP的训练策略。04.1. FAAP概述0不公平性可能是由训练集中的偏见(例如,数据分布不均衡)和/或训练过程中的宽松约束引起的。所有这些都导致目标标签和受保护属性之间的虚假相关性,例如性别和种族。在数据集中,女性可能比男性有更多的正样本。如图2(左)所示,模型学习到了这种虚假性别相关性,因此目标标签的误报率在男性和女性之间变化显著。因此,减轻不公平性的关键是打破目标标签和受保护属性之间的虚假相关性。在本文中,我们提出了一种公平感知的对抗扰动(FAAP)来通过隐藏来减轻模型的不公平性。103820通过从特征提取过程中排除受保护属性的信息,使模型不会将预测与受保护属性相关联。基本思想是利用对抗扰动将原始样本重新映射到潜在空间中受保护属性的决策超平面附近的位置(例如,图中的性别超平面上的位置)。请注意,这些扰动样本在原始目标标签决策超平面上的可区分性应该得到保留,如图2(右)所示。通过这种方式,部署的模型在特征提取过程中无法区分扰动图像中的受保护属性。因此,受保护属性将与目标标签不相关。换句话说,模型将公平地对待具有不同受保护属性的样本。FAAP的流程在图3中概述,其中有两个可学习的组件:1)生成器,用于扰动样本以调整它们在潜在空间中的分布;2)判别器,用于区分受保护属性。假设部署的模型是一个分类模型,可以分为特征提取器(即从图像到潜在空间)和标签预测器(即从潜在空间到最终标签)。请注意,我们冻结了部署模型的参数。在训练过程中,判别器被训练为区分模型的表示中的受保护属性,而生成器则学习使判别器失效,从而合成减少潜在表示中受保护属性信息的公平感知扰动。04.2. 损失函数0在本部分,我们详细介绍上述FAAP的损失函数。如图3所示,我们假设一个分类模型,将其分为特征提取器g和标签预测器f。给定一个输入x,其真实标签为y,预测标签为ˆy =f(g(x))。生成器G基于输入x生成扰动,得到扰动后的输入ˆx= x + G(x),满足∥ˆx − x∥∞ ≤ϵ,判别器D应用于潜在表示ˆr =g(ˆx)以区分某个受保护属性z。判别器的损失函数:直观上,使用部署的模型,不公平性主要是由特征提取过程引起的,该过程倾向于将受保护属性与目标标签中的预测相关联,即从受保护属性到潜在表示中携带可区分的信息。因此,标签预测器将利用这种可区分的敏感信息来偏置其最终预测。基于上述假设,我们首先需要让判别器D在潜在表示中意识到受保护属性z,即完美地预测z。有了这样的意识,生成器G就能够对输入进行对抗性扰动,以隐藏潜在空间中的受保护属性。0��0��0��0��0�����0�����������0已部署模型0特征提取器0标签预测器0判别器0生成器0前向传播 反向传播0训练数据集0图3.提出的FAAP的概述,包括两个可学习的组件,即用于学习公平感知扰动的生成器和用于区分受保护属性的判别器。0表示。因此,判别器的损失可以表示为0LD = J(D(g(ˆx)),z), (3)0其中J(�,�)表示交叉熵,ˆx是扰动后的输入,z表示受保护属性的真实标签。生成器G的损失函数为:与此相反,生成器G的目标是使D失败,一个直观的解决方案是在扰动样本ˆx上最大化LD。然而,这将使潜在表示朝着受保护属性的相反方向推进,例如,女性变为男性。因此,我们进一步让D对扰动样本的表示进行随机猜测,增加扰动样本上受保护属性的熵。公平性损失可以写成0LfairG = -LD - αH(D(g(ˆx))), (4)0其中H(�)计算熵,α >0是一个相对较小的值,用于控制熵损失的正则化。除了鼓励公平感知扰动的LfairG之外,同时我们还需要保持目标标签上的模型性能。目标标签预测损失为0LTG = J(f(g(ˆx)),y). (5)0总的来说,在FAAP中,生成器G的总损失由LfairG和LTG组成,可以总结为以下内容0LG = LfairG + βLTG, (6)0其中β > 0平衡目标标签预测和公平性的性能。04.3. FAAP的训练0根据公式3和公式6,在FAAP的训练阶段中,生成器和判别器交替优化。生成器G与D进行最小最大博弈arg maxGminD J (D (ˆr),z) + αH (D (ˆr)) − βLTG,s.t. ˆr = g(ˆx) = g (x + G(x)),ˆxxϵ,(7)1http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html103830算法1 FAAP的训练0输入:已部署模型的特征提取器g和标签预测f,损失权重α和β,学习率ηD和ηG,批量大小n,最大迭代次数N和最大扰动幅度ϵ。训练图像x,真实标签y和受保护属性标签z。0输出:生成器G0初始化生成器G和判别器D。对于i = 1, �,N进行以下操作0获取一批n个输入xi和标签yi和zi获取扰动后的输入ˆxi = xi + G(xi)将ˆxi剪裁以满足∥ˆxi - xi∥∞ ≤ ϵ获取模型特征ˆri = g(ˆxi) 计算判别器损失0LD = 10n∑i=1J(D(ˆri),zi)0更新D ← D - ηD�DLD计算公平性损失0LfairG =-10n0n∑i=1[J(D(ˆri),zi) + αH(D(ˆri))]0计算目标标签预测损失0LTG =0n∑i=1J(f(ˆri),yi)0获取G的总损失,LG = LfairG + βLTG0更新 G ← G - ηG�GLG0其中D最大化预测受保护属性z的能力,而G试图最小化其能力。同时,G试图让f仍然能够识别扰动输入数据的正确目标标签。因此,FAAP的目标可以表述如下:0其中,D和G在优化过程中交替更新。请注意,在更新D时,将α设置为0,以便D专注于区分受保护属性。FAAP的更详细的训练算法可以在算法1中找到。05. 实验评估0在本节中,我们首先描述了我们的实验设置(第5.1节)。然后,我们定量(第5.2节)和定性(第5.3节)地评估了我们提出的FAAP在不同部署模型上的效果。最后,我们研究了FAAP生成的对抗扰动在现实世界商业系统上的可转移性(第5.4节)。05.1. 实验设置0数据集。我们在评估中采用了两个人脸数据集,即CelebA1和LFW2,它们具有常见的受保护属性,如性别。CelebA数据集包含202,599张图像,每张图像有40个属性,LFW数据集包含13,244张图像,每张图像有73个属性。我们将性别作为受保护属性,以衡量模型对目标标签的预测的公平性。在CelebA中,选择了Smiling、Attractive和BlondHair作为目标标签。类似地,在LFW中选择了Smiling、WavyHair和Young作为目标标签。我们随机将CelebA的原始训练集分为两个相等的部分,用于训练部署模型和我们的FAAP。对于LFW,我们随机划分为一个6k的训练集,一个3.6k的验证集和剩余部分作为测试集。为了方便起见,所有图像都被调整为224×224。训练细节。为了调查FAAP在去偏模型中的有效性,我们训练了三种类型的部署模型,即正常训练模型、公平训练模型和不公平训练模型。正常训练模型通过最小化目标标签上的损失进行正常训练。这种模型将学习训练数据集中的固有偏差,例如Smiling和Male之间的相关性。对于公平训练模型,我们采用对抗训练技术[30]来训练一个公平模型,该模型最大化分类器对目标标签的预测能力,同时最小化判别器对受保护属性的预测能力。这种模型比正常训练模型更具公平性。为了验证我们的方法对更不公平的模型的有效性,这些模型可能来自恶意操纵,例如数据毒化攻击[23]和恶意训练[22],我们采用两种方法来增加部署模型的不公平性。一种是翻转标签(表示为LF),例如随机翻转目标标签。另一种是在对抗公平训练中反转判别器的梯度(表示为RG)。这些操纵可以增强目标标签和性别之间的虚假相关性。对于所有部署模型,我们使用ResNet-18[5]作为基础架构。我们使用Adam优化器以学习率5e-4训练所有这些模型,每个批次大小为64,训练30个时期。训练完成后,我们固定部署模型的参数。FAAP中的生成器G与[26]具有相似的架构。判别器D连接到特征提取器的最后一个卷积层。为了减轻不公平性而不损害特定图像的视觉质量,我们将最大扰动幅度ϵ设置为0.05。评估指标。对于公平性评估,我们使用差异性02 http://vis-www.cs.umass.edu/lfw/,属性注释在[9]中提供103840使用人口统计学平等性差异(DP)和均衡化准确性差异(DEO)来评估模型的公平性。同时,还将报告预测目标标签的准确率(ACC)。DP计算每个性别接受率之间的绝对差异。较大的DP意味着特权组中的样本被预测为正面的机会比非特权组中的样本更高。理想情况下,DP等于零。相比之下,DEO计算每个性别的误报率和漏报率之间的绝对差异。较大的DEO意味着特权组中的样本具有更高的误报率和/或更低的漏报率。因此,DEO越低越好。05.2. 定量评估0表1(a)到1(c)展示了在CelebA数据集上嵌入提出的FAAP之前和之后的部署模型的定量结果。我们分别使用了三个不同的目标标签Smiling、Attractive和BlondHair以及受保护属性Male(Male中的“+1”表示男性,“-1”表示女性)进行评估。此外,对于每个目标标签,我们使用了三种不同的模型。如表1所示,正常训练模型存在性别偏见,例如,当目标标签为Attractive时,DP和DEO大于0.5。公平训练可以通过将对抗性公平技术纳入训练过程中获得更公平的模型。例如,如表1(c)所示,公平训练模型的DP(从0.5023降低到0.2745)和DEO(从0.5683降低到0.0724)比正常训练模型低得多,准确率略有下降(从82.43%降低到79.56%)。相反,不公平训练放大了性别偏见,这些模型(LF和RG)显示出更大的不公平性。例如,如表1(a)所示,DP和DEO增加到约0.25,而准确率相对较高(分别为91.48%、91.76%,而正常训练模型为92.61%)。我们在上述部署的模型上评估了我们的方法FAAP。毫不奇怪,FAAP可以提高部署模型的公平性并保持目标标签的预测准确性。从表1(a)到1(c)可以得出以下观察结果。(1)正常训练模型。对于正常训练模型,FAAP可以提高其公平性并保持目标标签的准确性。如表1(b)所示,我们的方法可以将DP和DEO分别提高0.2319和0.5062,准确率损失小于0.03。(2)公平训练模型。当将对抗公平训练技术应用于模型训练阶段时,我们的方法可以进一步提高这些模型的公平性,准确率略有下降,例如,如表1(c)所示,FAAP仍然可以提高公平性(DP和DEO分别减少0.0083和0.0544),准确率从94.41%降低到94.05%。(3)不公平训练模型。对于不公平训练模型,FAAP可以显著提高其公平性,准确率略有下降。0原始 only_T 我们的0(a)正常训练模型0原始 only_T 我们的0(b)公平训练模型0原始 only_T 我们的0(c)不公平训练模型(LF)0原始 only_T 我们的0(d)不公平训练模型(RG)0图4.在CelebA数据集中,当目标标签为Smiling时,三个不同模型的Grad-CAM结果。“orginial”表示原始数据,“onlyT”表示由仅在L T G上优化的 G 生成的扰动图像(不包含 L fairG),“ours”表示由在 L G 上优化的 G生成的考虑公平性的对抗性扰动生成的扰动图像。(最好以彩色查看)0例如,在表1(a)中,FAAP可以将DEO降低到约0.04,同时保持ACC在91%以上。(4)正常训练+FAAP与公平训练的比较。在训练阶段考虑模型的公平性是更好的选择。然而,在表1中我们可以看到,嵌入FAAP的部署的正常训练模型可以获得与公平训练模型相当的公平性能(例如,在某些情况下,FAAP在DP和DEO方面甚至更好),并且几乎具有相同的准确率(即在大多数情况下,ACC的差异小于0.3%)。对于一个部署的模型,我们的方法在训练过程之后起作用,而与公平训练相比,公平训练需要重新训练或微调模型。在LFW数据集上也可以观察到类似的现象,如表1(d)到1(f)所示。05.3. 定性评估0在这部分中,我们进一步提供了模型解释方法Grad-CAM[20]和T-SNE[25]的结果,以更好地说明我们方法的有效性。Grad-CAM是一种通过可视化输入数据中重要的预测区域来解释模型的方法[20]。我们在图4中可视化了一些原始被部署模型错误预测但经过扰动后成功识别的测试图像。对于每个部署的模型,我们提供了关于原始数据、在L T G上训练的 G生成的扰动图像(不包含 L fair G)以及在 L G 上优化的 G生成的扰动图像的解释。(1)正常训练模型。如图4(a)所示,对于正常训练模型,我们的对抗性扰动可以帮助模型集中在正确的区域(嘴巴)并做出正确的预测。103850微笑准确率↑ DP减小 DEO减小0正常训练92.61% 0.1748 0.07740正常训练+FAAP 92.46% 0.1426 0.03270公平训练92.55% 0.1275 0.03080公平训练+FAAP 92.49% 0.1326 0.02810不公平训练(LF)91.48% 0.2638 0.27370不公平训练(LF)+FAAP 91.87% 0.1268 0.03810不公平训练(RG)91.76% 0.2439 0.23060不公平训练(RG)+FAAP 91.78% 0.1321 0.03690(a) 当目标标签为微笑时,在CelebA上的结果0微笑准确率↑ DP减小 DEO减小0正常训练90.42% 0.3353 0.14720正常训练+FAAP 89.80% 0.2910 0.05340公平训练90.08% 0.2704 0.03180公平训练+FAAP 88.75% 0.2646 0.01360不公平训练(LF)89.23% 0.3678 0.23400不公平训练(LF)+FAAP 88.10% 0.3026 0.10760不公平训练(RG)90.14% 0.3674 0.22570不公平训练(RG)+FAAP 89.15% 0.2969 0.07820(d) 当目标标签为微笑时,在LFW上的结果0有吸引力准确率↑ DP减小 DEO减小0正常训练82.43% 0.5023 0.56830正常训练+FAAP 79.73% 0.2704 0.06210公平训练79.56% 0.2745 0.07240公平训练+FAAP 79.31% 0.2244 0.04340不公平训练(LF)81.06% 0.5566 0.77520不公平训练(LF)+FAAP 79.08% 0.2890 0.11790不公平训练(RG)82.24% 0.5547 0.72170不公平训练(RG)+FAAP 79.37% 0.2550 0.05390(b) 当目标标签为有吸引力时,在CelebA上的结果0卷发准确率↑ DP减小 DEO减小0正常训练78.69% 0.1707 0.15540正常训练+FAAP 78.04% 0.1241 0.06510公平训练77.98% 0.1337 0.08000公平训练+FAAP 77.67% 0.1094 0.05950不公平训练(LF)78.35% 0.2383 0.29190不公平训练(LF)+FAAP 77.19% 0.1765 0.17340不公平训练(RG)77.59% 0.2724 0.36920不公平训练(RG)+FAAP 77.10% 0.2128 0.25080(e) 当目标标签为卷发时,在LFW上的结果0金发准确率↑ DP减小 DEO减小0正常训练95.63% 0.1787 0.52990正常训练+FAAP 94.52% 0.1345 0.10130公平训练94.41% 0.1319 0.15870公平训练+FAAP 94.05% 0.1236 0.10430不公平训练(LF)95.41% 0.1733 0.67280不公平训练(LF)+FAAP 94.49% 0.1449 0.13210不公平训练(RG)95.66% 0.2041 0.62000不公平训练(RG)+FAAP 94.26% 0.1305 0.12090(c) 当目标标签为金发时,在CelebA上的结果0年轻准确率↑ DP减小 DEO减小0正常训练83.81% 0.3511 0.55160正常训练+FAAP 81.34% 0.2281 0.29140公平训练83.86% 0.2500 0.28700公平训练+FAAP 80.71% 0.1515 0.11410不公平训练(LF)83.04% 0.4813 0.81960不公平训练(LF)+FAAP 80.40% 0.2550 0.37860不公平训练(RG)83.72% 0.5002 0.83770不公平训练(RG)+FAAP 82.30% 0.1970 0.30480(f) 当目标标签为年轻时,在LFW上的结果0表1. 在CelebA(表1(a)到1(c))和LFW(表1(d)到1(f))上嵌入提出的FAAP之前和之后部署模型的结果。对于公平性准则DP和DEO,数值越低越公平。对于准确率ACC,数值越高越好。0tions。图中“onlyT”的红色区域与嘴巴的偏差很小。(2)公平训练模型。由于这种模型的性别偏见较小,如图4(b)所示,优化目标标签准确性的G可以获得与“ours”类似的热图。它们都可以帮助部署的模型集中在正确的区域。(3)不公平训练模型。不公平训练模型具有更大的性别倾向,因此我们可以看到“onlyT”中的扰动会使模型做出正确的预测,但会误导模型集中在无关的区域(例如图4(c)中的眼睛,图4(d)中的头发)。相比之下,我们的方法可以帮助模型集中在正确的区域并做出正确的预测。0T-SNE是一种将高维数据从低维视图可视化的方法。为了更好地证明我们的方法可以通过将图像重新映射到受保护属性决策超平面附近来隐藏图像中的敏感信息,同时在部署模型的潜在空间中保持与目标标签决策超平面的距离,我们利用T-SNE获得数据特征表示的低维嵌入。具体而言,我们提取特征0对这些图像进行带/不带对抗扰动的向量化,并使用T-SNE在二维图中可视化它们。(1)正常训练模型。从图5(a)和图5(b)可以看出,对于正常训练模型,微笑和吸引力分类的不同目标标签的样本在潜在空间中是线性可分的,而在扰动之前和之后的不同性别的样本是混合的。在图5(c)中,即使在目标标签为金发时,正常训练模型中样本(黄色和紫色点)的特征表示也被受保护属性超平面线性分离,但FAAP仍然可以在样本的潜在特征空间中有效隐藏这种敏感信息。(2)公平训练模型。对抗公平训练可以提高公平性,但可能会稍微分离具有不同保护属性的样本(如图5(a)和图5(b)中的第二列所示)。在这种情况下,我们的FAAP可以使这些样本变得更接近。(3)不公平训练模型。在不公平训练模型中,具有不同保护属性的原始图像的特征表示在“)(1)(2)(3)(4)(1)(2)(3)(4)(1)(2)(3)(4)-1)+1)-1)+1)To demonstrate the transferability of adversarial pertur-bation generated by FAAP, we evaluate them on commercialface analyze APIs. At first, we investigate model fairnessof these APIs in predicting “smiling”. We upload testingdataset (about 20k images) from CelebA dataset to toady’scommercial APIs, including Alibaba3 and Baidu4. For Al-ibaba’s face analyze API, it returns binary results in which“0” means “not smiling” and “1” means “smiling”.ForBaidu’s face analyze API, it returns three categories named“none”, “smile” and “laugh”. We assume “none” means notsmiling and others mean smiling. We find these APIs havesome extent of unfairness, i.e., DEO of them are about 0.1.Since this is a totally black-box scenario, we know nothingabout the models behind these APIs. We try to train the gen-erator with model ensemble techniques, taking the normaltraining model and the fair training model in Section 5.2 assurrogate models. Then we upload the perturbed images tothese APIs and record results.Table 2 shows the results of these face analyze APIs onoriginal and perturbed images. From Table 2(a), we cansee that FAAP improves DP by 0.0293 and decreases DEOto 0.0368 with only 0.0026 degradation in accuracy. Like-103860(a)微笑的T-SNE0(b)吸引力的T-SNE0(c)金发的T-SNE0(男性,0(男性,0(女性,0(女性,0图5.CelebA数据集上三种不同模型在微笑、吸引力和金发上的T-SNE结果。上排显示原始数据的结果,下排显示使用FAAP扰动的图像的结果。在每个子图中,第一列的特征表示来自正常训练模型,第二列来自公平训练模型,第三列来自LF模型,第四列来自RG模型。(最好以彩色查看)0受保护属性超平面上的样本((男性,-1)与(女性,-1),(男性,+1)与(女性,+1))几乎无法区分且混合,但它们在目标标签超平面上是可分的。05.4. FAAP的可转移性03 https://www.aliyun.com/ 4https://ai.baidu.com/0同样,表2(b)显示了对于百度,DP和DEO分别提高了0.0411和0.0648,而准确率降低了0.0289。这些结果表明了FAAP的可迁移性以及在黑盒场景中使用FAAP的潜力。0阿里巴巴的API ACC ↑ DP ↓ DEO ↓0原始图像 90.20% 0.1768 0.09520扰动后 89.94% 0.1475 0.03680(a) 阿里巴巴的人脸分析API结果0百度的API ACC ↑ DP ↓ DEO ↓0原始图像 90.47% 0.1817 0.10350扰动后 87.58% 0.1406 0.03870(b) 百度的人脸分析API结果0表2. 商业人脸分析API的性能。06. 结论0本文介绍了公平感知对抗扰动(FAAP)来减轻部署模型中的不公平性。更具体地说,FAAP学习扰动输入,而不像SOTA工作那样改变部署模型,以禁止部署模型识别与公平相关的特征。为了实现这一点,我们使用鉴别器来区分部署模型的潜在表示中的公平相关属性。同时,生成器通过对抗训练来欺骗鉴别器,从而合成能够隐藏受保护属性信息的公平感知扰动。大量实验证明,FAAP可以有效地减轻不公平性,例如,对于普通训练模型,DP和DEO分别提高了27.5%和66.1%,而平均准确率仅降低了1.5%。此外,对真实商业API的评估显示,在准确率下降不到1.7%的情况下,DP和DEO分别显著提高了19.5%和61.9%,这表明了所提出的FAAP在黑盒场景中的潜在用途。然而,黑盒探索是我们当前
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功