>|(x,y)−|.|.(三)证据在附录中。它有助于更高层次地理解CGL相对于vanilla PS的优势,尽管命题1并不完全等价于关于f(f,P)的不等式。在实践中,由于简单-因此,我们近似真实分布P(A=a X,Y)为:一个组分类器g,学习P(A=a X),而不是训练每个y的组分类器。正如我们在附录中的实验所报告的那样,我们的组分类器通过使用50%的组标记训练数据实现超过85%的组准确率来很好地逼近P(A=a X)我们还表明,将随机标签分配给给定数据点的分区XU,相当于忽略XU中数据点的DEO约束:第二个提案 假设X被划分为任意两个集合,XL和XU。设P(A| X,Y)是P(A)的修改版本|X,Y)如下:P(A=a|X=x,Y=y)P(A = a|Y = y),否则。5. 实验在本节中,我们将展示CGL在Fair-PG场景中的有效性。我们在三个基准数据集上使用各种基线公平训练方法评估CGL:UTKFace [44](敏感组是种族),CelebA [31](敏感组是性别)ProPub- lica COMPAS[23](敏感组是种族)和UCI Adult [14](敏感组是性别)数据集,其中COMPAS和Adult数据集是非视觉表格数据集。我们将CGL与MFD [24],FairHSIC [34]和重新加权[22]相结合。为了理解训练好的组分类器,我们对组分类器进行了广泛的分析。最后,我们通过在UTKFace数据集上利用额外的未标记组训练数据来展示CGL的强大经验贡献。与基线方法相比,我们的CGL在目标准确性和群体公平性方面有显著的5.1. 实验设置5.1.1数据集[44]第四十四话UTKFace是一个面部图像数据集,被广泛用作多类和多组基准。UTK-Face包含超过20 K带有注释的图像,例如年龄(范围从0到116),性别(男性和女性)和种族(我们将种族和年龄分别设置为敏感属性和目标标签。我们将目标年龄范围分为三类:0至19岁,20至40岁和40岁以上。[24]第10段。我们使用“白人”、“黑人”、“亚洲人”和“印度人”四个族裔群体测试集被构造为包含每个组和目标的相同数量的样本。[31]第三十一话CelebA包含大约20万张人脸图像,用40个二进制属性表示。正如以前的作品[24]和[36],我们选择“吸引力”和伦理问题的结果见附录。测试集的构造与UTKFace相同。[23]第二十三话我们还考虑了一个非视觉表格数据集,以显示CGL的多功能性,以其他方式。我们使用ProPublica COMPAS数据集,这是一个二进制分类任务,目标标签是10353准确度(%)女(男)女(男)|被告再次犯罪我们将种族设置为敏感属性,并使用与Bellamy等人相同的预处理。[4],因此它包括5,000个数据样本,二元组(此外,我们还提供了UCI成人的详细信息和结果群标记唯一随机标记8280787674伪标签CGL(我们的)40353025划痕完全注释的编组标签[14]附录中的数据集。100 80 50 25 10组标签比(%)100 80 50 25 10组标签比(%)5.1.2基地公平培训方法(a) MFD结果42.5我们采用三种最先进的处理方法,基于MMD的公平蒸馏 ( MFD ) [24] , FairHSIC[34] 和 标 签 偏 差 校 正(LBC)[22]用于CGL的基本公平训练方法。我们在附录中简要描述了每种方法。我们只考虑可扩展的公平培训80.077.575.072.570.0100 80 50 25 10组标签比(%)40.037.535.032.530.0100 80 50 25 10组标签比(%)基于深度学习的视觉应用的方法;注意组公平性的原始方法[26,41]不能是80应用于具有高维数据的视觉域,复杂模型(例如,DNN)。但我们强调,76我们的方法并不局限于这三种方法,(b) FairHSIC结果42.540.037.535.032.5它可以很容易地应用于任何公平的训练方法。100 80 50 25 10组标签比(%)100 80 50 25 10组标签比(%)5.1.3实现细节我们在附录中提供了实现细节,包括体系结构和优化器的细节,超参数搜索协议。型号选择。对于真实数据集上的公平性感知学习,准确性和公平性之间可能存在权衡(参见图6中的权衡示例)。为了公平的比较,我们应该选择最佳的超参数显示最好的一个标准,同时保持类似的性能为其他。因此,我们选择了显示最佳公平性标准的超参数,同时实现了UTKFace和CelebA数据集至少95%的普通训练模型准确性。我们将COMPAS数据集的下限设置为90%。如果不存在达到最小目标精度的超参数,则报告具有最佳精度的超参数。所有模型都是从最后一个训练时期中选择的。基线方法和评价指标。现有的用于组公平性的处理中方法不直接适用于我们的场景,即,当组标签没有被完全注释时。此外,如SEC所述。2、现有的SSL方法大多也不能直接应用于Fair- PG,因为不清楚它们在应用于预测无注释组标签时是否实现组公平性(参见附录中UPS [35]的结果,这是最先进的SSL方法之因此,我们采用三个简单的基线进行比较。仅分组标记策略丢弃未分组标记的样本,并且仅使用分组标记的样本进行训练。(c) LBC结果图3. 结果在UTKFace上。对于训练数据集中不同的组标签比率,我们展示了三种公平训练方法的组合,即“scratch”denotes the vanilla training without a fairness criteria and “fullyannotated group labels” denotes the fair-training methods usingthe 当组标记比率为100%时)。更高的准确度和更低的可接受性分别表示改进。我们还研究了两种组标签分配策略:随机标签策略将随机标签分配给所有未标记的组数据(从P(A Y=y)中提取),而伪标签策略完全信任组分类器预测。每种方法都是CGL的一种极端情况,分别设τ= 1和τ=0。我们注意到,基于命题2,“随机标签”在仅用组标记样本评估公平性损失部分时具有相同的效果,我们考虑了所有实验的三个评估指标,目标准确度,CARM和CARMA(见等式2)。(2)译注。结果是UTK-Face和COMPAS上四次不同运行和CelebA上两次不同运行的平均分数。附录中给出了平均值和标准差评分。5.2. 主要结果图3比较了在UTKFace数据集上MFD、FH和LBC与三种基线策略和CGL的组合的目标准确度和CWM,其中不同的组标记比率从100%(完全组注释)到10%。我们在图中显示了CelebA数据集上的类似结果其中组标记比选自100%至100%,准确度(%)准确度(%)女(男)747210354仅组标记随机标号伪标号擦除CGL(我们的)完全注释的编组标签女(男)女(男)女(男)女(男)群标记唯一随机标记伪标签CGL(我们的)划痕完全注释的编组标签90.087.585.082.580.077.5100 25 10 51组标签比(%)40302010100 25 10 5 1组标签比(%)66646260100 80 50 2510组标签比(%)201510100 80 50 25 10组标签比(%)(a)MFD结果90408530802075(a) MFD结果66206415626010100 25 10 5 1组标签比(%)100 25 10 5 1组标签比(%)100 80 50 25 10组标签比(%)100 80 50 25 10组标签比(%)(b) FairHSIC结果50787640743072207010(b) FairHSIC结果66206415626010100 25 10 5 1组标签比(%)100 25 10 5 1组标签比(%)100 80 50 25 10组标签比(%)100 80 50 25 10组标签比(%)(c) LBC结果图4. Celeba上的结果细节与图相同。3 .第三章。百分之一。请注意,我们对数据集选择不同的组标签比率,因为UTKFace是多类和多组数据集,而CelebA是二进制类和二进制组数据集。我们还强调,业绩比较-(c)LBC结果图5.COMPAS上的结果。 细节与图相同。3 .第三章。0.220.200.18三条基线之子和CGL主要关注CIPM是─0.160.14因为我们报告了每种方法在精度高于第2节中所述精度下限的模型中的最佳可预测性第5.1.3条。在图中,特别是,当组标记比率降低时,“随机标签”(绿线)策略很少损害准确性,因为它使用完整的目标标签进行训练,但它显示了可“伪标签”(蓝线)比其他基线表现得更好,但是分类器错误严重影响公平性表现,特别是UTKFace)。另一方面,CGL在大多数情况下表现出比其他基线更好的性能,最明显的是在UTKFace上,成功地处理了具有低置信度组预测的样本。我们还报告了非视觉表格数据集的结果,见图11。五、我们观察到类似的结果图。3和图4.第一章值得注意的是,在公平性方面,我们的方法通常比所有方法中的其他基线表现得更好我们指出0.630 0.635 0.640 0.645 0.650 0.655 0.660 0.665准确度(%)图6.COMPAS上的准确性-公平性权衡,10%的组标记训练集。 我们显示的准确性和CGL和“伪标签”与MFD相结合,MFD的不同的超参数获得。尽管CGL的精度略低于其他基线的精度,但这并不一定意味着这些方案的性能更好,因为它们必须牺牲更高的精度才能达到与CGL相似的精度为了澄清这一点,我们在图1中绘制了COMPAS上不同超参数的完整准确性-公平性权衡。六、我们清楚地观察到,CGL通过实现更好的帕累托权衡曲线来主导5.3. 群量词组分类器置信度。我们在图7中显示了UTK-Face上的组分类器的最高和最低置信度样本。如图所示,低置信度样本由于不同的照明、不同的方向和低质量而对人类来说是定性不确定的因此,我们基于置信度的阈值可以捕获数据集的固有不确定性。在附录中,我们提供了伪标签CGL(我们的)准确度(%)准确度(%)准确度(%)女(男)准确度(%)准确度(%)准确度(%)公平(M)女(男)10355≤≤白色黑色亚洲印度高低图7.UTKFace上的组分类器的高和低置信度样本。我们说明了前3名最高和最低的信心样本,分类器从每个组的UTKFace训练样本中预测正确答案表1. CGL对UTKFace和额外组的影响-未标记的训练数据集。准确性和公平性标准82.582.081.581.080.50.25 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0置信度阈值0.25 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0置信度阈值在UTKFace测试集上显示。对于然后,我们在伪标记的训练数据集(94,190张图像)上训练MFD图8.UTKFace的τ研究。对于不同τ的准确性和公平性(通过WMM)。τ0。25与“随机标记”相同置信度分数分布和不同组标签比率的组分类器准确度。阈值τ的研究 图8显示了通过改变UTKFace上的τ,使用10%组标记的训练集,CGL和MFD的准确度和可预测性。我们修正了超参数-使用图3中使用的试验,并报告两次不同试验的平均值。τ0的情况。25(因为有四个组)和τ= 1分别等价于“τ”表示通过我们的策略实现的τ的结果(算法1中的在这里,我们观察到存在一个最佳点的thresh-旧的,表现出更好的可扩展性和准确性比5.4. 使用额外的未标记组数据进行最后,我们展示了Fair-PG场景和我们的CGL对UTKFace数据集和一个额外的组-未标记数据集的影响。我们使用FairFace数据集[27]作为额外的数据集。FairFace包含108,501张具有平衡属性的面部图像。我们过滤掉种族,而不是“白人”,“黑人”,“亚洲人”和“印度人”。过滤后,我们有73,377个额外的样本。为了检查我们的公平PG问题,我们让额外的数据集只有目标标签(即,年龄),但不是组标签。选项卡. 图1显示了仅在UTKFace上训练的scratch和MFD的结果,以及在使用如上所述的FairFace数据集增强的UTKFace上训练的scratch和MFD+CGL的结果。有趣的是,MFDUTKFace仅显示更差的公平性( 平 均 值= 25。0)比UTKFace + FairFace上的划痕训练(WRM= 24. 0),这与低组标记方案的结果一致,仅UTKFace UTKFace + FairFace ScratchMFD Scratch MFD + CGL准确度(↑)80.29 83.46 81.1584.38公平性A(↓)20.17 16.67 15.6713.00公平性(↓)39.00 25.00 24.00 19.50(Fig.1)。我们实现了最先进的准确性(84.38%)和公平性(平均值= 19。5)通过使用额外的未标记组数据集成功地增强UTKFace。6. 结束语我们考虑了一个实际的学习场景,其中组标签被部分注释用于fariness-aware学习。我们已经观察到,当组标签的数量很小时,现有的公平训练方法甚至比划痕训练更差。我们提出了一个简单而有效的解决方案,可以很容易地应用于任何公平的训练方法,并证明了CGL在几个基准上改进了各种基线。我们相信,我们的方法可以显着降低成本,获得额外的组标签的所有训练样本,促进公平分类器的更快的发展。致谢这项工作得到了首尔国立大学新教师创业基金的部分 支持 ,NRF 中 期职 业研 究计 划[NRF-2021 R1 A2C2007884] , 韩 国 政 府 资 助 的 IITP 赠 款 [No.2019-0-01396,开发用于分析,检测,减轻AI模型和训练数据中的偏见的框架],[No.2021- 0-01343,人工智能研究生院计划(首尔国立大学)]、[No.2021-0-02068,ArtificialIntelligenceInnovationHub ( ArtificialIntelligence Insti- tute,Seoul National University)]和SNU-NAVER Hyper- scale AI Center。CGL(我们的)scratch完全注释的组标签40353025女(男)精度10356引用[1] Alekh Agarwal,Alina Beygelzimer,Miroslav Dud 'ık,John Langford和Hanna Wallach。公平分类的约简方法。在马赫国际会议上。学习. ,第60PMLR,2018。1[2] 阿迪蒂亚湾Menon Alex Lamy,Ziyuan Zhong和NakulVerma。噪声容忍公平分类。高级神经信息学。过程系统,第32卷,2019年。2[3] Wael Alghamdi,Shahab Aiddeh,Hao Wang,Flavio PCal- mon , Dennis Wei , and Karthikeyan NatesanRamamurthy.模型投影:公平机器学习的理论与应用。在IEEE Int. Sympo. Info.理论,第2711- 2716页。IEEE,2020年。2[4] Rachel KE Bellamy , Kuntal Dey , Michael Hind ,Samuel C Hoffman , Stephanie Houde , KalapartanKannan ,Pranay Lo- hia,Jacquelyn Martino, SameepMehta,Aleksandra Mo- jsilovic,et al. AI fairness 360:An extensible toolkit for detecting ,understanding, andamplifying unwanted algorithmic bias.arXiv预印本arXiv:1810.01943,2018。6[5] 大卫·贝特洛、尼古拉斯·卡利尼、伊金·D·库布克、亚历克斯·库-拉金、孙奇赫、张涵和科林·拉菲尔。Remix-match:具有分布对齐和增强锚定的半监督学习 在Int.Conf. 学习. 代表。,2019年。3[6] 大卫·贝特洛,尼古拉斯·卡里尼,伊恩·古德费罗,尼科 ·拉斯· 帕佩 诺,艾 维塔·奥利 弗,科 林· 拉菲 尔.Mixmatch:半监督学习的整体方法。在高级神经信息中。过程系统,2019年。3[7] 蒂姆·布伦南,威廉·迪特里希,还有贝亚特·埃雷特.评估指南针风险和需求评估系统的预测有效性。刑事司法和行为,36(1):21- 40,2009。1[8] Joy Buolamwini和Timnit Gebru。性别阴影:商业性别分类中的部门间准确性差异.公平、责任和透明度,第77-91页。PMLR,2018。1[9] Olivier Chapelle、Bernhard Scholkopf和Alexander Zien。半监督学习(chapelle,o例如,eds.; 2006)[书评]。IEEE Trans. Neural Networks , 20 ( 3 ) : 542-542 ,2009。3[10] Jiahao Chen , Nathan Kallus , Xiaojie Mao , GeoffrySvacha,and Madeleine Udell.无意识下的公平:评估受保护阶层未被观察时的差异。公平,问责制和透明度,第339-348页,2019年2[11] 亚历山德拉·乔尔德乔娃公平预测与不同的影响:一项研究的偏见,在累犯预测工具。Big Data,5(2):153-163,2017. 3[12] Ching-Yao Chuang和Youssef Mroueh。公平混淆:通过插值实现公平。在国际会议学习中。代表。,2021年。一、二[13] 埃利奥特·克里格、大卫·马德拉斯、约恩-亨里克·雅各布森、玛丽莎·韦斯、凯文·斯沃斯基、托妮安·皮塔西和理查德·泽梅尔。通过解缠进行合理的表征学习。在马赫国际会议上。学习. ,2019年。210357[14] Dheeru Dua,Casey Graff,等.机器学习存储库。http://archive.ics.uci.edu/ml,2017年。二、五、六[15] 辛西娅·德沃克,莫里茨·哈特,托尼娅·皮塔西,奥默·莱因戈尔德,理查德
下载后可阅读完整内容,剩余1页未读,立即下载
- 粉丝: 5
- 资源: 2万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍