没有合适的资源?快使用搜索试试~ 我知道了~
置信度约束的机器学习公平性:跨群体统计公平和个人保证的实证研究
足够公平:使用置信度约束1,2HumbertoR ive ro'nVal de's,1,2DuyPatrickTu,1,2KrishnaP. Gummadi,3Kush R.Varshney,4,2Adrian Weller,5,6Alex 'Sandy' Pentland1麻省理工学院,剑桥,美国2麻省理工学院-IBM沃森人工智能实验室,剑桥,美国3德国萨尔布吕肯马克斯·普朗克软件系统研究所4IBM研究院,美国约克镇高地5剑桥大学,英国剑桥6艾伦图灵研究所,英国伦敦摘要对数据驱动决策系统中歧视和偏见的日益关注导致了学术界和大众对算法公平性的兴趣之前关于机器学习公平性的工作主要集中在这样一种环境中,即对个人做出自信决定所需的所有信息(特征)都然而,在实践中,许多应用程序允许以特定于特征的成本获取进一步的信息。例如,当诊断患者时,医生开始时只有少数症状,但在做出最终决定之前通过获取额外信息来逐步改善诊断。我们表明,我们可以通过利用这种设置的自然启示来实现公平:决定何时停止获取更多功能并继续进行预测。首先,我们表明,通过设置一组置信度阈值停止,我们可以在任意组中获得相等的错误其次,我们将该框架扩展到一组特定于组的置信度阈值,其确保分类器实现平等的机会(平等的假阳性或假阴性率)。置信阈值通过在个人之间重新分配预算自然实现公平这导致了跨群体的统计公平,但也解决了当前统计公平方法无法为个人提供任何保证最后,使用两个公共数据集,我们证实了我们的方法的有效性,并调查的局限性。介绍最近关于基于机器学习的决策制定中的公平性的工作集中在预测模型上,这些模型在所有数据都可用或可以以很少的额外成本获取时做出决策。在这样的设置中,模型基于所有特征为每个个体做出分类决策然而,在实践中,有许多情况下,获得额外的功能会导致决策者的特定功能成本(Krishnapuram,Yu和Rao 2011)。考虑一个病人进入医院寻求诊断。通常情况下,医生开始诊断只有少数症状。从那里开始,患者通过例如测量生命体征或进行实验室测试进行渐进式询问。在每一步,如果没有足够的确定性,调查将继续进行。使用所有可能的医学测试一次获取所有功能是非常昂贵的,因此,在每个时间步,医生的任务是获取最有效地导致确定诊断的下一条信息。这种设置被称为预测时间主动特征值获取(AFA),在从信用评估到员工招聘、贫困和灾害制图以及广告的广泛背景下都是相关的(Gao和Koller 2011; Liu 等 人 2008; Shim , Hwang 和 Yang 2018;Krishnapuram,Yu和Rao 2011)。与此同时,机器学习社区提出了无数关于公平的定义(Verma and Rubin 2018),这些定义可以大致分为两类。(1)公平性的统计学定义侧重于平衡受保护人群亚组的分类错误,以实现相等的错误率(总体准确性相等)、 相等的假阳性率( 预测性相等)、相等的假阴性率(机会均等)或两者兼而有之(几率相等)。尽管这些概念很简单,很容易验证,但它们无法为受保护群体中的个人或亚群体(2)另一方面,个人的公平观念提供了个人层面的保证,而不是强制执行在群体中平均的某种数量的均等。例如,(Dwork et al. 2012)要求不幸的是,个人公平在实践中很难实施,而且往往与群体公平的概念不一致,这一事实阻碍了个人公平在实践中的应用。在这项工作中,我们证明,通过使用AFA的置信阈值,我们可以在群体和个人层面上的公平性保证。特别是,我们推导出一组AFA的停止标准,确保我们只对个人的结果进行分类,由于置信水平在所有分组中都是相同的,因此我们可以实现跨组和跨这些组中的个体的虽然我们实现公平的方法与早期的工作不同,但我们认为在许多情况下它更直观,因为它权衡了不平等(用于决策的特征集是个性化的,版权所有© 2020本文由其作者。在知识共享许可署名4.0国际(CC BY 4.0)下允许使用因此在个体之间不同)的公平性(每个因素以相等的置信度分类)。当决策者遇到来自其经验较少的子组的个体时,例如,因为该组在训练集中代表性不足,需要收集更多信息以做出具有类似置信水平的公平决策。此外,我们的方法对个人的隐私有着有趣的影响虽然从代表性不足的群体中要求更多信息似乎是不合理的,但事实上-与在进行预测之前需要收集所有特征的方法相反-我们的算法只获取尽可能小的特征集以达到理想的置信水平。因此,它自然遵循欧盟《通用数据保护条例》(GDPR)第5(1)(c)条所述的1我们的主要贡献是制定的信心阈值,我们提供实现相等的错误率,相等的假阳性率和相等的假阴性。实验上,我们证明了我们的框架是有效的使用两个公共数据集。相关工作预测时主动特征值获取AFA系统由三个部分组成:1)一个分类器,可以处理部分观察到的特征集,2)一个策略,用于根据已经收集的特征确定下一步选择哪个特征,以及3)一个停止标准,用于确定何时停止获取更多特征并进行最终预测。首先,分类器处理部分特征集有不同的方式。对于判别模型,特征填补是一种处理缺失数据的模型不可知方式,但也存在更有效的模型特定方法。对于我们在这项工作中考虑的表格数据集,我们发现使用随机森林的基于分布的插补的最佳性能,其中缺失值的可 能 分 配 按 比 例 加 权 ( Saar-Tsechansky 和Provost2007)。第二,为了确定接下来选择哪个特征,我们需要一种方法,该方法基于我们已经选择的特征来估计每个特征的成本效益。为了简单起见,并与AFA的大多数先前工作一致,我们使用一种启发式方法,最大化特征的预期效用,其中效用函数基于两个最可能的类的估 计 类 概 率 之 间 的 绝 对 差 的 预 期 增 加 ( Kanani 和Melville 2008)。然而,我们的框架是收购方法不可知的,适用于任何战略。最近的一种方法,高价值信息的高效动态发现(EDDI),使用部分变分自动编码器来表示已经获取的特征的部分特征集。然后,它计算当前表示和每个表示之间的互信息。第1页https://eur-lex.europa.eu/eli/reg/2016/679/2016-05-04可用的特征来选择使该信息最小化的特征2019年)。第三,为了确定何时停止选择额外的特征,大多数先前的工作假设每个个体的一些给定的特征预算,使得决策者的任务是在该萌芽中选择最具成本效益的特征(Krishnapuram,Yu和Rao 2011)。与我们最相似的工作开发了一个优化框架,用于为每个群体子组找到信息预算,以便AFA分类器在假阳性或假阴性率方面实现平价(Noriega-Campero et al. 2019)。值得注意的是,通过在优化过程中使用信息预算作为额外的自由度 , 他 们 表明 , 在 AFA 设 置 中 可 以实 现 几 个 统 计(组)的公平性概念。我们的工作是不同的,因为它提供了一个新的框架,以减轻群体和个人的不公平。最后,有一个更新的框架,在一个强化学习框架中联合考虑所有三个组件,其中代理商权衡了获取特征的成本与准确性(Shim,Hwang和Yang 2018)。基于观察到的特征的集合,代理决定选择未观察到的特征中的一个,或者停止并进行最终预测。(Bakker et al.2019)通过添加对抗性损失来扩展这个框架,以迫使代理获取只能预测标签而不能预测敏感属性的特征集。通过这种方式,他们保证了使用这些特征集的模型的群体公平性(人口统计学平价)。机器学习中的公平性最近关于机器学习公平性的工作主要集中在统计公平性上,通过匹配受保护子组的错误率(假阳性,假阴性或准确性)。当受保护的亚组之间的总分类误差相同时,实现了总体准确性相等(Berket al.2018年)。该指标仅在真正的阳性和阴性同样可取时才有用其次,当其中任何一个是可取的时,可以考虑相等的假阳性率(预测平等)和假阴性率(平等机会)(Hardtet al. 2016)。我们参考(Verma and Rubin 2018)以了解定义的概述。相比之下,个体公平性定义没有受保护子群的概念,而是制定了约束成对个体的约束(Dwork et al.2012; Joseph et al. 2016)。这两类定义各有优缺点。统计概念不向个人提供任何保证,而个人概念对部署有障碍,并且需要对商定的公平性度量进行强有力的假设。最近的两篇论文,(K earnsetal. 2017)和(He'bert-Johnsonet al. 2018),试图通过要求统计定义来结合虽然前景看好,但该方法已被证明难以实施,最终仍在-H1H2不T(i)继承了统计公平性在较小规模上的弱点2018年)。问题设置设(x(i),y(i))∈P是P中的个体i,由d维特征集和二元标号y(i)∈ {0,1}表示.在AFA设置中,我们从时间t=0的空集O0:=0开始按顺序获取特征。在以后的每个时间步t,我们从特征的集合S(i){1,. . . ,d}| O(i),并且ce rr ( h2 ) 。 类 似 地 , p_ reedictiveequalityr_equir_ esc_f_ p(h_1)=cfp(h1)和平等机会cfn(h1)=cfn(h2)。在实践中很难强制执行完全相等,因此我们研究违反这些约束的程度:|cfp,1−cfp,2|、|cfn,1−cfn,2|、|ce rr,1−ce rr,2|. 此外,对于概率分类器,这些公平性条件仅在以下情况下成立:校准分类器概率这在理论上和实验上都得到了证实2017年)。定义3. 如果P(x,y)≠Ga [y= 1],则对分类器Ha进行标定|ha(Ot)=p]= p.在成本c(i)下检查S(i)的值:t−1(i)cj。后在图1中,我们观察了一组校准的分类器,t tj∈St在每个新的获取步骤中,分类器将可以访问O(i):=S(i)<$O(i).我们不断获取功能两组G1和G2。对于每个组,校准分类器的集合h∈ H位于斜率为(1-µt)/µt的直线上,将原点的完美分类器与基本速率连接起来t t t−1直到时间T(i),当我们满足停止标准时。此时,我们将仅使用特征集对x(i)进行cfp+cfn=1线上的分类器(Pleissetal. 2017年)。完美的分类器总是分配正确的预测,而(一)T(i). 请注意,所选要素基本评级分类器没有预测能力,将基本利率分配给每个人。对于一个美国艺术家协会的班级来说-(一)T(i)将高度依赖于个人I。成本sifier,基本速率分类器表示之前向量c对于P中的每个个体都是相等的,并且可以表示不同类型的成本,例如货币成本或隐私成本。决策者为每个个体i获取唯一的特征集合O(i),其中特定特征集合被优化,以便平衡最终的期望质量。决定与功能的总成本。a n y个特征已被获取,其中a(n)=μa。1 11 −µ11 −µ公平在我们的总体P中,让我们假设我们有一组不相交的子群Ga,其中a∈ A,例如,它可以表示-200µ1µ21cfpβ00c fp(h1)cfp(h2)1cfp发送按种族或性别划分的分组一般来说,这些子组可以有不同的基本比率μa,它表示属于正类的概率μa=P[y=1 |A=a]。对于分类,我们为每个组Ga,ha训练单独的概率分类器:Rk→[0,1],预测个体具有二进制标记y=1的概率。在实践中,这些单独的分类器是从在P上训练的单个分类器中提取的,并且仅由于子组特定的校准而不同。分类器允许对部分特征集ha({xj}j∈Ot)进行分类.我们把它写为ha(Ot)。对于概率错误率以及测量差异,我们遵循在(Pleiss et al. 2017年):定义1. 分类算子ha的广义假阳性率为cfp(ha)=E(x,y )<$Ga[ha(OT)]|y=0]。 一般化的假阴性率为cfn(ha)=E(x,y)<$Ga[1−ha(OT)] |y = 1]。 广义误差率等价于L1损失cerr(ha)= E(x,y)<$Ga [|y − ha(OT)|]如果分类器将输出二元预测h∈{0,1}而不是概率,这些比率将简单地表示标准假阳性率,假阴性率,01的损失。类似地,我们对概率分类器使用了等精度、等机会和预测相等的广义概念:定义2.对于群G1和G2的一组概率分类器h1和h2的相等精度要求cerr(h1)=图1:左,我们观察到校准的概率分类器h1和h2的集合,G1为绿色,G2为蓝色。基本利率为µ1=0。4,μ2=0。65岁好的,我们观察到两个分类器h1和h2满足机会均等,目标广义假阴性率β。置信度阈值直觉上,停止标准应该选择为我们收集更多的个人和群体的特征,因为模型不太确定。 通过稍后停止,我们获得了更多的特征,具有更强的预测能力,并沿着图1中的斜坡向下移动,朝着原点的完美分类器移动。对于不同的公平性衡量标准,我们将得出一个置信阈值的上限和下限αu和αl。上阈值对应于预测y=1,置信度αu 而较低阈值对应于预测y=0,置信度为1−αl。我们通过顺序地添加特征来达到这些阈值,逐个 地,缓 慢地增加 我们的 分类器 的置信 度( ha(Ot)→1或ha(Ot)→0)。当概率满足其中一个阈值ha(Ot)≥αu或ha(OT)≤αl时,我们停止收集特征。在下面的框架中,我们做了三个关键的说明。首先,我们假设对于每个人,我们有足够的-cfn在OcfnOΣGaa T G aaT通过简单地添加更多的特征来达到任何阈值。在大多数真实世界的数据集中,即使收集了所有特征,也会有非零的分类错误,对于某些个体,我们将无法达到其中pu和pl是我们达到上阈值或下阈值的概率,在Ga上求平均值,pu+ pl= 1.当αl+ αu= 1时,置信阈值的解如下:阈值接近0或1,即使预算无限,1 1√1 1√特征获取为了解决这一问题,决策者可以选择更接近基本利率的阈值,也可以选择杠杆-αu=2+21−2βerrαl=2−21−2βerr(1)老化模型的能力,为每个个体选择一组独特的特征,并收集更多与当前难以分类的个体相关的特征。其次,我们假设停止后的概率是前-实际上,当我们越过阈值时,我们就停止了,从而发现p≥αu或p≤αl。当其中一组的过冲效应更强这可能导致不公平。最后,在整个工作中,我们将把校准约束视为精确保持在补充材料(SM)中,我们还提出了近似校准分类器的置信阈值。尽管依赖于这些假设,我们在实验部分表明,我们的框架减轻了现实世界数据集的差异。等误差率如果我们对每个个体逐一获取特征在达到这两个阈值中的任何一个之前,我们预期对每个个体都实现相等的误差。重要的是,这些阈值独立于子组标签a,并且因此将导致任何子组a∈ A的相等错误率,只要概率关于到子组A。假阳性或假阴性率当期望的公平性度量是相等的假阳性率(预测平等)或相等的假阴性率(机会平等)时,为相等的错误率得出的阈值将不足以满足要求,因为每个组都有不同的基本率μa。为了推导出一组新的阈值,我们首先从定义1重新公式化cfp,并遵循与相等错误率类似的推导我们将为每个子群导出一组停止准则确保满足相等的错误率(类似于先前工作中的整体准确性相等(Verma和Rubin 2018))。cfp(ha)=EGa∫1Σ Σha(OT)|y= 0我们首先重写定义1中的预期c错误我们=pP Ga[ha(OT)= p |y = 0] dp写Ex,y <$Ga 和Px,y ∈Ga作为EGAPGa当一切都明朗的时候0∫11−P[y = 1 |h(O)=p]从上下文来看。Σ Σ=pGaaTPG[ha(OT)=p]dpcerr(ha)= EGa |ha(OT)− y|一01 −PGa[y=1]∫1=pPΣh(OΣ)= p |y = 0PΣ Σy=0+使用PGaΣy= 1 |ha(OTΣ)=p=p和PGa[y=1]=µa,Gaa T0ΣGaΣ ΣΣ我们可以重写为∫(1−p)PGaha(OT)= p|y = 1PGa y=1dpcfp(ha)=11−µq1p(1−p)PGa[ha(OT)=p]dp现在我们应用贝叶斯规则来找到0cerr(ha)=2001年。pPGaΣ Σy= 0 |ha(OT)= p+(1−p)1=1−µa (EGa)Σha(OTΣ)−EGaΣha(OT)2分)0PGaΣ ΣΣy= 1 |ha(OT)= pP GaΣ Σha(OT)=pdp对假阴性率进行相同的步骤,我们发现取代PGaΣy= 0|ha(OTΣ)=p=1−p,cfn(ha)=1(Eh(O)−Eh(O)2)PGa y= 1 |ha(OT)= p=p结果(单位:2µa)∫1 .Σ ΣΣ我们定义了一个目标假阳性率βfpr来找到停止点-cerr(ha)=2p2−pPGa ha(OT)=pdp每个组的ping标准,使得cfp(OT)=βFPR为0Σ Σ ΣΣ所有组Ga.然后,我们找到一组停止标准,类比-= 2(EGaha(OT)−EGaha(OT)2)对于那些C呃,为了达到相同的错误率,我们希望确保cerr(ha(OT))in 预期 为 所有 个人,即,cerr(ha(O(i)=βerr,εa∈A.对于期望的βerr,我们可以11.αu=2+21−4βfpr(1−µa)(2)11.不通过确保相等,找到停止阈值αu和αlαl=2−21 −4β FPR (1−µa)(3)2(EGaha(OT)−EGaGa组中有明显差异。ha(OT)2)=βerr,对于每个indi-对于假阴性率,我们找到了一组类似但不同的目标假阴性率ββ误差 = 2(EGaΣha(OTΣ)−EGaΣha(OT)2分)1 1√FNR= 2pu(αu−α2)+2pl(αl−α2)αu=+1−4βfnrµa(4)u l2 2[2]这里,我们假设完美校准。关于ap-1 1√αl= − 1−4βfnrµa(5)近似校准可以在SM中找到。2 2C不JT请注意,一个组中的所有个体都将停止在相同的阈值。因此,我们的方法防止了组内不公平,这是其他统计公平方法经常引用的限制,忽略了敏感子组内的输出公平分配(G r gi c′-Hl acaetal. 2017;Kearns et al.2017年)。此外,现在每个组的阈值不同然而,当不公平仅仅是由组间方差的差异引起时,例如,不 同 样 本 容 量 |Ga| 或 者 由 于 组 条 件 特 征 方 差 Var(x|a),各组之间的基本费率将是相等的,从而即使在未知的子组之间也是公平的。实验我们证明了我们的框架的有效性和局限性在两个公共的真实世界的数据集。在本节中,我们的目标是最小化广义误差和广义FPR差异,而FNR的结果可以在SM中找到在每个实验中,我们选择不同的信息预算,该概率使用搜索所涉及的所有叶子的叶子纯度的加权平均。最后,将所有树的概率平均。所有的随机森林都是使用scikit-learn创建的,有64棵树和最大值。最多150个叶节点。此外,我们还创建了一个自定义函数-解释了缺失的特征值,我们会公开。其次,我们实现了一个特征获取策略,以估计下一个功能应选择基于当前的特征集Ot,同时平衡成本和提高精度。我们实现了一个贪婪的特征选择算法,该算法基于(Kanani and Melville 2008)。对于具有观察特征集Ot的个体,在特征收集过程的每次迭代中,算法搜索使当前预测特征集与当前预测特征集之间的差异最大化的特征j′∈/Ot。概率P和给定广告特征j'以成本cj被查询的预期概率,由下式给出j′=arg max 1P(x =v|O)j:j/∈Oj通过测试目标错误率β的不同值,err,βfp,v和βfn。反过来,这改变了上下配置,|P(y = 1 |Ot{xj= v})− P(y = 1 |Ot)|(六)证据阈值αu和αl。当阈值αl和αu分别被设置为更接近0和1,特征获取稍后停止,导致更高的平均预算使用。通过使用置信度阈值,更多的预算将自动地被分配。位于分类器通常具有其中P(xj= v |Ot)是从训练数据集估计的。最后,决策者通常不会根据目标信心进行推理,而是会有一个萌芽-gen花费在每个人的平均值上,b=信心不足,从而减少了差距。 我们基准1ni∈P(一)T(i)cj。每个特征的成本可以是每个实验的结果与平均分布我们称之为对于以下实验中的不同目标错误率βerr、βfn和βfp,我们首先计算使用“置信阈值”方法时消耗的平均通过这种方式,我们能够对决策者可能拥有的不同信息预算的差异进行我们使用受试者操作特征曲线(AUC)下的面积来衡量分类器的整体性能,以考虑不平衡的标签分布。执行除了基于置信度的停止标准之外,实现还需要另外两个元素:概率模型和特征获取策略。首先,我们需要一个模型来估计P(y| 0t)的任意特征子集。虽然使用生成式更容易实现这一点由于随机森林具有优越的预测性能(AUC),因此我们在随机森林中使用基于分布0。83使用墨西哥贫困数据集的完整功能,而0。79为朴素贝叶斯)。具体来说,我们首先使用完整的特征向量X.在预测时间,当算法遇到特征集合Ot中的值缺失的树节点时,它沿着两个分支朝向叶继续,同时基于缺失值的估计概率对然后我们计算不同,并且可以表示例如金钱或隐私成本。为了使结果更易于解释,我们选择每个特征cj=1的成本相同。所以budget<$b将只是一个平均数量的功能,可以在个人之间收集。更改这些成本以使其更真实,只会导致功能的不同顺序,不会进一步影响本节中的结果。假设在训练和测试时间之间不会有分布变化,我们通过改变置信阈值和观察在保持集上花费的预算来校准这个平均萌芽。数据集数据集概述如下: 给定 在 表 1.所有结果均使用随机的60%/20%/20%训练/验证/测试分割计算。墨西哥贫困数据集摘自2016年公开的墨西哥家庭调查,其中包含前措 辞 , 以 及 一 系 列 的 家 庭 特 征 ( Ibarrar a'net al.2017)。我们将发布经过处理的数据集。最后,我们使用来自UCI机器学习库(Lichman等人,2013年)的成人收入数据集,该数据集包括人口统计和职业属性,目标是对一个人的收入是否超过50,000美元进行分类实现相等的错误率我们的经验表明,我们的框架减轻了图2中墨西哥贫困数据集沿着一系列信息预算的误差差异。成人收入数据集的结果见图SM 1,j∈O数据集亚组1亚组0名称N个样本NfeatACCAUCµ标签1n1µ1标签0n0的µ0墨西哥贫困70,305182百分之七十八点七0.856百分之三十五点五城市百分之六十三点六百分之三十四点九农村百分之三十六点四百分之三十六点六成人收入49,00014百分之八十六点三0.911百分之二十三点九白色百分之八十五点四百分之二十五点四非白人百分之十四点六百分之十五点三表1:按受保护属性划分的数据集和子组概述准确度和AUC是使用完整特征集在数据集级别上计算的,而μ是数据集级别的基本速率P(y)。对于每个子群,我们计算相对个体数na和基本比率μa。0。060。040。02会议日期平等预算0 20 40 60 80100平均预算额b(%)1007550250CTa = 1CTa= 0EB0 20 40 60 80100平均预算(%)0。80。70。6会议日期同等预算所有功能0。020. 040. 06广义误差差异图2:墨西哥贫困数据集中城市和农村子组实现相等广义误差率的置信阈值在每个图中,通过扫描目标错误率βerr,改变分配给每个组的平均预算来生成曲线。左为置信阈值(蓝色)和等预算基准(红色)的残差差异中心,每组的平均预算与总平均预算。蓝虚线和蓝实线分别代表城市(a=1)和农村(a=0)分组的平均预算,红线代表使用基准方法计算的两个分组右:我们的方法的AUC与差异权衡的帕累托前沿,基准方法以及用于访问黑色中的所有特征的分类器SM。为了确保校准的概率,我们使用验证集将sigmoid函数拟合到分类器至关重要的是,我们在整个人群中进行校准,有效地忽略了潜在的群体,以表明我们可以在不明确考虑这些子群体的情况下减轻不公平。图2中最左边的面板显示了我们框架的有效性,但也显示了它的局限性。对于全范围的信息预算,我们的方法优于基准。 对于较小的信息预算,我们看到效果最强;对于每个个体来说,存在足够的相关特征以达到阈值,因此我们看到我们的方法强烈地减轻了不一致性,尽管在较小的预算下每个组的错误率较高。随着信息预算的增长,算法在达到置信度阈值之前耗尽所有相关特征的信息数量也在不断增加,置信度阈值限制了这是我们框架的有效性最终,当我们获取<$b=100%的所有特征时,视差自然接近基准的视差。中心面板显示了我们的框架如何通过将预算从城市子组(a=1)重新分配到农村子组(a=0)来减轻差距最后,在最右边的面板中,我们观察到我们的方法Pareto的性能差异权衡主导了基准测试。实现相等的假阳性或假阴性率接下来,我们展示了我们的框架在一系列信息预算中缓解了图3中墨西哥贫困数据集的该数据集中的FNR差异以及成人收入数据集的FPR差异的结果见SMM的图SM 2和图SM 3。我们现在可以访问敏感属性,从而分别校准每个组的概率,有效地为每个组创建单独的分类器。在图3的最左边的面板中,我们发现置信阈值方法帕累托的可靠性-预算权衡主导了平等预算基准的权衡。然而,对于非常小和大的预算,我们看到效果是有限的。最初,两人都在打...olds将接近0。而当没有特征被收集时,每个组的分类器以基本速率开始,导致立即停止。一旦阈值超过基本速率,特征采集开始,但作为最具预测性的将首先获取特征,这导致概率的过冲,违反了概率精确地停止在预期阈值的假设。随着预算的进一步增加,这一影响得到缓解,有效性得到提高。对于大的预算,我们看到了与之前在减轻误差差异时观察到的相同的效果;该算法在达到阈值之前耗尽了所有相关特征。最终,差距接近广义误差差异每组平均值 预算(%)曲线下面积0。050。040。030。020。010 20 40 60 80平均预算(%)10075502500 20 40 60 80平均预算(%)0。80。70。60。5Conf. Thr.平等预算所有特征0。020. 030. 040. 05广义FPR视差图3:在墨西哥贫困数据集中,城市和农村子群体实现平等的广义FPR率的置信阈值在每幅图中,通过扫描目标错误率βfpr生成曲线。左为置信阈值(蓝色)和等预算基准(红色)的残差广义FPR差异中心,每组的平均预算与平均总预算。蓝虚线和蓝实线分别代表城市(a=1)和农村(a=0)分组使用的平均预算,红线代表使用基准方法时两个分组的平均预算。对,我们的方法和基准方法的AUC差异权衡的帕累托前沿。黑色方块表示可以访问所有特征的分类器。当两种方法的所有特征都被收集时进行基准测试在中央面板中,我们观察到该方法如何通过将预算从城市组重新分配到农村组来减轻在最右边的面板中,我们观察到我们的方法Pareto沿着完整的AUC差异权衡主导了相等的预算基准结论与讨论我们介绍了一个框架,实现平等的错误率,平等的机会和预测平等的积极特征值采集设置。该框架将目标广义错误、假阴性或假阳性率与一组置信度阈值相关联,用于确定何时停止查询每个个体的特征。除了实现统计公平,我们的方法可以被解释为在个人和统计公平之间建立一个新的中间地带这在我们有一组置信度阈值的情况下是最明显的,该置信度阈值有效地导致每个个体的相等的预期错误率,从而导致在任意一组基础子组上的相等的总体错误率。然而,即使当我们的目标是使各组之间的假阳性或假阴性率相等,从而为每个组使用不同的阈值时,我们自然会为分类器面临最大不确定性的那些个体获取更多信息,从而导致受保护子组的每个成员的预期错误率相等。因此,我们的框架减轻了组内不公平或“公平不公正”,这通常被视为以前统计公平方法的强烈限制(Kearns et al. 2017年)。在两个公共数据集上,我们证明了我们的方法最小化了差异。特别是对于小预算,我们的框架工作强烈地减轻差异,而对于大预算,我们在达到置信阈值之前用尽相关特征。这个问题也代表了我们在这项工作中使用的数据集这两个数据集中的特征在我们的框架内,如何-通常,添加仅与少数个人相关的功能是很自然的,因为它们将仅被选择用于该组。因此,我们鼓励未来的工作,研究我们的框架的应用程序的数据集和设置,满足这一标准和工作,扩展我们的方法,以支持模型,促进部分功能集也在训练时间。最后,我们鼓励进一步的研究,调查在训练和预测时间对个人隐私的影响。一般来说,我们发现主动特征获取是实现“数据最小化”的自然框架;它只收集最小的特征集。然而,即使我们的方法减少了错误差异,它实际上可以创建隐私差异,因为对于每个个体,将收集不同的特征集。为了解决这个问题,一个自然的延伸是努力建立一个框架,全面权衡决策者的货币成本、决策主体的隐私成本和公平性。致谢作者要感谢IBM访问他们的计算资源,并感谢PrasannaSattigeri进行了有益的讨论。AW感谢达尔文学院的David MacKay Newton 研 究 奖 学 金 , EPSRC 资 助EP/N510129/1 TU/B/000074下的Alan Turing研究所以及通过CFI的Leverhulme信托基金的支持。引用Bak k e r,M. 一、 Tu,D. P.; 我是H. 的R.; 古马迪湾P.; 瓦 什 尼 湾 的 R.; Weller , A.; 和 Pentland , A. 2019.DADI:动态发现公平信息与对抗性再强化学习. arXiv预印本arXiv:1910.13983。Berk,R.;Heidari,H.;Jabbari,S.;Kearns,M.;还有罗斯A. 2018. 公平的刑事司法风险评估:最先进的社会学方法研究0049124118782533。会议日期平等预算CTa = 1CTa= 0EB广义FPR视差每组平均值预算(%)曲线下面积Chen,I.;Johansson,F.D.的; 和Sontag,D.2018年为什么我的分类器是在神经信息处理系统的进展,3539。Chouldechova,A.; Benavides-Prado,D.; Fialko,O.;和Vaithianathan,R. 2018.算法辅助决策在儿童虐待热线筛查决策中的案例研究。见公平、问责制和透明度会议,第134Dwork,C.; Hardt,M.; Pitassi,T.; Reingold,O.;泽梅尔R. 2012.通过意识实现公平。第三届理论计算机科学创新会议论文集,214-226。ACM。Gao,T.,和Koller,D. 2011.基于分类器值的主动分类。神经信息处理系统。G r gi c′-Hla c a,N.; Za f a r,M. B.人; Gummadi,K.; 和Welle r,A. 2017年。算法决策中的公平性、多样性和随机性第四届机器学习。Hardt,M.; Price,E.; Srebro,N.;等,2016年。监督学习中 的机会平 等。在神经 信息处理 系统的进 展,3315。H e'bert-Johnson,U'.; 金,M.; Reingold,O.; Roth-blum,G.2018.多重校准:对(计算可识别的)质量进行校准。1944-1953年,国际机器学习会议Ibarrar a'n , P.;Medel l'ın , N.;R eg alia , F.;Stampini ,M.; Par-odi,S.; Tejerina,L.; Cu ev a,P.;你好,M。2017年。有条件现金转账是如何运作的第8159号,美洲开发银行出版物(书籍)。美洲开发银行。Joseph,M.; Kearns,M.; Morgenstern,J. H.;和Roth,A.2016.学习中的公平性:经典与语境的禁令. 神经信息处理系统的进展,325-333。Kanani,P.,Melville,P. 2008.预测时间主动特征值获取,以实现经济高效的客户定位。神经信息处理系统进展(NIPS)Kearns,M.; Neel,S.; Roth,A.;和Wu,Z. S. 2017.预防公平不公正划分选区:子群体公平的审计和学习. arXiv.Krishnapuram,B.; Yu,S.;和Rao,R. B. 2011. 成本敏感的机器学习. Press.Larson,J.; Mattu,S.; Kirchner,L.;和Angwin,J. 2016.我们是如何分析康帕斯累犯算法的。9.第五届世界杯足球赛Lichman,M.,等,2013年。机器学习知识库。刘湖,澳-地P的; Yu,Y.;江,Y.;和Zhou,Z.-H. 2008年Tefe:一种有效的特征提取方法。数据挖掘,2008年。ICDM'08。第八届IEEE国际会议。美国电气与电子工程师协会。马,C.; Tjanatschek,S.; Palla,K.; 埃尔南·洛巴托,J. M.; Nowozin,S.;和Zhang,C.2019年。Eddi:高效的动态发现高价值的信息与部分可扩展性。国际机器学习会议,4234- 4243。Noriega-Campero,A.; Bakker,M.; Garcia-Bulle,B.;和Pentland,A. 2019.算法决策中的主动公平性。AAAI /ACM商业智能、伦理与社会。普拉特,J.C. 1999.支持向量机的概率输出以及与正则化 似 然 方 法 的 比 较 。 Advances in large marginclassifiers10(3):61-74.Pleiss,G.; Raghavan,M.;吴,F.; Kleinberg,J.; Wein-berger,K.Q. 2017年。关于公平和校准。神经信息处理系统的进展,5680Saar-Tsechansky,M.,和Provost,F. 2007.在应用分类模 型 时 处 理 Journal of Machine Learning Research8(Jul):1623-1657.Shim,H.;黄氏S. J.道:和Yang,E. 2018.联合主动特征获取和分类与可变大小集合编码。神经信息处理系统的进展,1368Speicher,T.;Heidari,H.;Grgic-Hlaca,N.;古马迪湾P的;Singla,A.; Weller,A.;和Zafar,M. B. 2018.量化算法不公平的统一方法:通过不平等指数测量个体群体不公平在第24届ACM SIGKDD国际知识发现会议上,数据挖掘,2239维尔玛,S.,Rubin,J. 2018.解释了公平的定义。2018年IEEE/ACM软件公平国际研讨会(FairWare),1-7。美国电气与电子工程师协会。Σ足够公平:使用置信度约束补充材料1,2HumbertoR ivero'nValde's,1,2DuyPatrickTu,1,2KrishnaP. Gummadi,3库什河Varshney,4,2Adrian Weller,5,6Alex 'Sandy'Pentland1麻省理工学院,剑桥,美国2麻省理工学院-IBM沃森人工智能实验室,剑桥,美国3德国萨尔布吕肯马克斯·普朗克软件系统研究所4IBM研究院,美国约克镇高地5剑桥大学,英国剑桥6艾伦图灵研究所,英国近似校准分类器的置信阈值本节介绍近似校准分类器的置信度阈值的推导该推导的部分内容首先,我们定义近似校准。定义4. 分类器ha相对于组Ga近似校准,如果2001年。. PΣy= 1 |h(O.)= pp。PΣ Σh(x)=pdp≤δ(七). (x,y)GaaT0.(x,y)GaCal其中Ot是在时间t的特征集,δcal是校准误差的界限分类器在以下情况下是完美校准的:δcal= 0。引理1. 如果对于群Ga,校准误差由δcal限定,则.2Ex,y GΣ Σha(OT)−Ex,y <$GaΣΣha(OT)2Σ−δcal ≤cerr(ha)≤2.Ex,yΣ Σha(OT)−Ex,y <$GaΣΣha(OT)2Σ+δcal(八)11−µa.Ex,yGaΣ Σha(OT)−Ex,y <$GaΣΣha(OT)2Σ−δcal ≤cfp(ha)≤11−µa.Ex,yΣ Σha(OT)−Ex,y <$GaΣΣha(OT)2Σ+δcal(九)1x,y Ga一Σ Σha(OT)−Ex,y <$GaΣΣha(OT)2Σ−δcal1≤
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功