没有合适的资源?快使用搜索试试~ 我知道了~
算法决策中的公平性感知:犯罪风险预测的案例研究
Algorithms trained over data about past decisions are increasinglyused to assist or replace human decision making in life-affectingscenarios, such as determining if an unemployed person should beeligible for a certain level of social welfare benefits [44] or decidingif a person should be let out on bail pending trial [5]. Given theirpotential impact on human lives, concerns have been raised aboutthe fairness of the decisions made by algorithms [1, 5, 7, 22].Concerns about algorithmic unfairness have led to much re-cent work on detecting and mitigating discrimination in decision-making scenarios. This work includes finding ways to operational-ize notions of direct and indirect discrimination and provide mech-anisms [17, 21, 32, 40, 47, 60–62] for non-discriminatory learning,as well as examining the feasibility of making non-discriminatorydecisions [12, 14, 24, 35].Existing studies of algorithmic fairness are largely normative(prescriptive) in nature, i.e., they begin by defining how fair deci-sions should (or ought to) be made, assuming that there is societalconsensus around what constitutes fair decision making [26]. Inthis paper, we pursue a complementary descriptive (comparative)approach towards fair decision making. Inspired by works in de-scriptive ethics [26], we conduct empirical studies in one specificcontext, to learn what people perceive as fair decision making, withthe goal of uncovering the moral reasoning behind their percep-tions. Later, we discuss how our findings can be leveraged to designfair decision-making algorithms.As perceptions of fairness are multi-dimensional and context-dependent, characterizing them presents a difficult challenge. In thiswork, we propose to understand how people make judgments aboutthe fairness of using individual features in decision making. Moreconcretely, we seek to measure and analyze how people wouldanswer the following question: Is it fair to use a feature (F ) ina given decision making scenario (S)?We center our investigation of fairness perceptions around theabove question for multiple reasons: First, people’s judgments aboutfairness of using features can be leveraged to learn fair algorithmicdecision making, as shown in our recent work [28, 29]. Second,9030算法决策中的公平人类感知:犯罪风险预测案例研究0Nina Grgić-HlačaMPI-SWS,萨尔兰大学nghlaca@mpi-sws.org0Elissa M. Redmiles �0马里兰大学eredmiles@cs.umd.edu0Krishna P. GummadiMPI-SWS,萨尔兰大学gummadi@mpi-sws.org0Adrian Weller †0剑桥大学,阿兰∙图灵研究所adrian.weller@eng.cam.ac.uk0摘要0随着算法在影响人类生活的重要决策中的越来越广泛应用,从社会福利分配到预测犯罪再犯风险,人们对算法决策的公平性提出了关切。以往关于算法公平性的研究主要规定了公平决策应该如何进行。相比之下,本文通过描述性调查用户对算法决策的公平性的感知和推理。本文的一个重要贡献是我们提出的框架,用于理解人们认为某些特征在算法中使用是公平还是不公平的原因。我们的框架确定了特征的八个属性,例如相关性、自愿性和可靠性,作为潜在的考虑因素,影响人们对决策算法中特征使用的道德判断。我们通过一系列基于情景的调查对576人进行了验证。我们发现,基于一个人对我们示例情景中特征的八个潜在属性的评估,我们可以准确地(>85%)预测该人是否认为使用该特征是公平的。我们的研究结果具有重要意义。从高层次上看,我们表明人们对不公平的关注是多维的,并认为未来的研究需要解决超越歧视的不公平问题。从低层次上看,我们发现人们的公平判断存在相当大的分歧。我们确定了分歧的根本原因,并提出了可能解决这些分歧的途径。0关键词0算法公平性;算法歧视;机器学习中的公平性;程序公平性;公平特征选择0� Elissa Redmiles承认获得国家科学基金会研究生研究奖学金,编号为DGE 1322106。†Adrian Weller承认获得达尔文学院David MacKayNewton研究员奖学金,艾伦∙图灵研究所根据EPSRC资助的EP/N510129/1 &TU/B/000074,以及Leverhulme信托通过CFI。0本论文以知识共享署名4.0国际许可证(CC BY4.0)发布。作者保留在个人和公司网站上传播作品的权利,并附上适当的归属。WWW2018,2018年4月23日至27日,法国里昂,© 2018IW3C2(国际万维网会议委员会),根据知识共享CC BY 4.0许可证发布。ACM ISBN978-1-4503-5639-8/18/04.. https://doi.org/10.1145/3178876.31861380ACM参考格式:Nina Grgić-Hlača,Elissa M. Redmiles,Krishna P.Gummadi和AdrianWeller。2018年。算法决策中的公平人类感知:犯罪风险预测案例研究。在WWW2018:2018年网络会议上,2018年4月23日至27日,法国里昂。ACM,纽约,纽约,美国,10页。https://doi.org/10.1145/3178876.318613801 引言0领域:Web和社会WWW 2018年4月23日至27日,法国里昂9040虽然“这个特征是否公平使用”这个问题直观且简单易懂,但人们的答案(正如我们的研究所示)可以被分析以揭示不同类型的公平考虑在他们的判断中的程度,例如给定特征是否自愿或导致结果。0我们的贡献。我们收集并分析了来自576人的公平判断的调查数据。我们要求调查参与者评估使用不同特征(这些特征是用于美国关于保释决策的司法决策的商业犯罪风险评估工具COM-PAS [5]的输入)的公平性。0为了模拟驱动参与者公平判断的因素,我们提出了一组八个特征的潜在属性,我们假设这些属性捕捉了影响人们公平判断的大部分考虑因素。我们的八个属性框架包括超出歧视的不公平关注,例如特征是否涉及隐私和是否自愿(见第2节)。当被要求评估使用不同输入特征对于COM-PAS进行保释决策的公平性时,我们的大多数受访者认为有一半的特征使用是不公平的。有趣的是,受访者在做出判断时考虑的潜在属性与歧视大多无关,突出了需要考虑其他不公平关注的必要性。不幸的是,我们还发现在受访者对使用一些特征的公平性的判断中缺乏明确的共识。我们的分析试图解释缺乏共识的原因,将人们的公平判断建模为一个两部分的决策过程:一部分与人们如何评估特征的潜在属性有关,另一部分与他们在给定特定潜在属性的情况下如何道德推理使用特征的公平性有关。我们发现,受访者公平判断中缺乏共识很大程度上归因于他们在估计潜在属性方面的分歧,特别是与因果推理有关的属性,例如特征是否导致结果或由敏感群体成员引起。然而,我们发现,如果给定一组潜在属性,受访者在做出公平判断时使用类似的道德推理。具体而言,我们能够学习一个简单的分类器,准确地预测受访者的公平判断,从而根据他们的潜在属性评估。0意义。我们的发现令人震惊,因为它们表明人们对公平性的判断差异可能不是源于他们在判断特征公平性时如何权衡不同潜在属性的固有主观道德推理的差异,而是源于他们对特征的潜在属性的看似客观评估的差异。因此,我们的发现指向了一个公平算法决策的未来,其中特征的潜在属性(例如,它是否导致结果)可能是通过大量数据客观确定的,而人们用于将潜在属性映射到公平性的道德推理可能是通过人们的输入(例如,通过调查收集)一致确定的。01COMPAS也可以用于刑事判决和假释决策,但我们在这里不探讨这些用途,因为它们涉及到其他相关因素,如考虑长期监禁在社会中的作用。02 判断特征使用公平性0心理决策理论中的许多研究提出人们使用启发式方法来评估情况并做出决策[2,18]。这些启发式方法可能因情况和人们对情境要素的了解水平而异,有助于将信息解析为更易管理和有意义的部分[27]。我们假设在确定特征是否公平用于决策情景时,人们依赖于对特征的某些潜在属性进行内隐或外显评估作为一种启发式方法。因此,我们对人们如何判断特征使用公平性的框架由两部分组成。在第一部分中,我们推测给定特征的八个潜在属性可能是人们判断使用该特征的公平性的潜在决定因素。在第二部分中,我们假设这些潜在属性在不同个体中的权重不同,当他们对特征的公平判断达成时。我们从社会经济政治道德科学、哲学和法律的现有文献中提取这些潜在属性,如下所述。I.可靠性。受法律要求的启发,任何可接受的证据都必须进行可靠评估[15,38],公平判断可能会受到可靠评估特征的潜力的影响。例如,作为对COMPAS累犯风险预测的输入特征,被告对犯罪的信念通过回答以下形式的问题进行评估:“你认为饥饿的人有权偷东西吗?”那些认为通过这样的问题无法可靠评估犯罪信念的人可能会认为使用该特征是不公平的。II.相关性。受法律要求的启发,任何可接受的证据都必须与案件相关[19,20],公平判断可能会受到特征与决策情景的相关性的影响。例如,作为对COMPAS累犯风险预测的输入特征,被告在学校的教育和行为通过回答以下形式的问题进行评估:“你在高中的平均成绩是多少?”那些认为学校表现与累犯风险评估无关的人可能会认为使用该特征是不公平的。III.隐私。受法律要求的启发,通过非法侵犯隐私(如未经授权的搜查或未经授权的窃听)获得的证据是不可接受的[20, 33,58],公平判断可能会受到特征是否依赖于涉及隐私的信息的影响。例如,作为对COMPAS累犯风险预测的输入特征,被告的青少年滥用药物史通过回答以下形式的问题进行评估:“你在青少年时期使用过海洛因、可卡因、破碎或冰毒吗?”那些认为青少年滥用药物是涉及隐私的信息的人可能会认为使用该特征是不公平的。IV.自愿性。受哲学上关于运气平等主义[4, 6,43]的争论启发,人们应该对他们自愿做出的选择(选择运气)负责,但不应因为他们未选择的环境(暴力运气)而受到惩罚,公平判断可能会受到个体对特征是否自愿的评估程度的影响,即是否是行使自己意愿的结果。例如,作为对COMPAS累犯风险预测的输入特征,被告的家庭犯罪史通过回答以下形式的问题进行评估:“你的父亲或0会议:Web and Society WWW 2018,2018年4月23-27日,法国里昂9050“你的母亲是否被逮捕过?”将家庭犯罪记录视为非自愿的人可能会认为使用该特征是不公平的。V.导致结果。受到公平性中应用因果推理的论证的启发,公平判断可能会受到特征是否可能导致(增加或减轻)个人参与风险行为的影响。例如,COMPAS再犯风险预测的一个输入特征是被告的当前指控,通过回答“你当前被指控的是轻罪、非暴力重罪还是暴力重罪?”的问题进行评估。认为被告的当前指控导致他再犯的人可能认为该特征是公平使用的。VI.导致恶性循环。受到避免犯罪和贫困恶性循环的论证的启发,公平判断可能会受到特征是否可能将人们困在日益危险行为的恶性循环中的影响。例如,COMPAS再犯风险预测的一个输入特征是被告的朋友的犯罪记录,通过回答“你有多少朋友曾被逮捕过?”的问题进行评估。认为朋友的犯罪记录可能会导致恶性循环(即有犯罪记录的朋友被判处更长的监禁期,从而增加有犯罪记录的朋友的数量)的人可能认为该特征是不公平使用的。VII.导致结果差异。受到反歧视法中要求不同敏感社会群体(如种族或性别)的人获得统计平等结果的不利影响学说的启发,公平判断可能会受到特征是否会导致受保护群体成员接受不利待遇的影响。例如,COMPAS再犯风险预测的一个输入特征是被告所居住的社区的安全性,通过回答“你所在的社区是否犯罪率高?”的问题进行评估。认为社区安全性可能会增加结果差异的人可能认为该特征是不公平使用的。VIII.由敏感群体成员引起。受到政治和经济科学中间接歧视概念的启发,其中社会群体的成员受到与其群体成员身份相关或由其群体成员身份引起的特征的隐性歧视 [7,13],公平判断可能会受到特征由其群体成员引起的程度的影响。例如,COMPAS再犯风险预测的一个输入特征是被告的朋友的犯罪记录,通过回答“你有多少朋友曾被逮捕过?”的问题进行评估。认为朋友的犯罪记录可能由人们的某些社会群体成员身份引起的人可能认为该特征是不公平使用的。观察1:我们的潜在属性的充分性和必要性。我们不声称我们上面列出的潜在属性列表是详尽无遗或完整的。也就是说,可能存在其他可能影响用户公平判断的属性。然而,正如我们在第3.1.2节中所展示的,这八个属性在很大程度上足以解释我们调查中用户的公平判断。具体而言,不到3%的受访用户报告在做出判断时使用了我们列表之外的属性;此外,对于这八个属性中的每一个,至少有15%的受访者0有27位用户报告称他们在公平判断中依赖它作为考虑因素。此外,当我们尝试仅基于他们对第5.2节中潜在属性的评估来预测用户的公平判断时,我们发现这八个属性不仅足以高准确度地进行预测,而且其中六个属性也具有统计学意义(即,必要)来预测公平判断。观察2:超越歧视的不公平。我们的潜在属性列表捕捉到了算法决策中超越歧视的多样化不公平关注,而歧视是现有算法公平性文献中的主要基础。事实上,我们在上述预测分析中发现的两个未被认为具有统计学意义的属性,即导致结果差异和由敏感群体成员引起,与特征可能导致歧视有关。因此,我们提出的框架捕捉到了许多以前在公平学习社区中受到很少关注但可能显著影响用户对算法决策公平性感知的不公平方面。03 方法论0为了收集人们对算法公平性和我们提出的潜在属性的判断,我们在2017年9月和10月进行了一系列在线调查。我们的方法经过了我们机构的伦理审查委员会的批准。03.1 调查设计0我们要求参与者在一个已经在现实世界中使用的具体情景中回答问题。03.1.1 情景。我们考虑了COMPAS(Correctional OffenderManagement Profiling for AlternativeSanctions)系统,该系统通过分析被告对大量问题的回答来预测犯罪风险。COMPAS已经在美国的各个司法管辖区被采用,用于协助司法领域的任务,包括保释、判决长度和假释决定等[5]。我们的调查从以下情景开始:“佛罗里达州布罗沃德县的法官们开始使用计算机程序来帮助他们决定哪些被告可以在审判前保释。他们使用的计算机程序会考虑到关于的信息。例如,计算机程序将考虑到被告对以下问题的回答:。”这些项目针对与COMPAS工具相关的十个特征进行了提问,详见表1。这些特征来自于COMPAS问卷中的各个类别,并且该特征的示例问题是从问卷中相应类别中提取的[50]。我们在两个试验调查和主要调查中使用这个情景,如下所述。03.1.2第一次试验调查:公平判断及其潜在原因。在第一次试验调查中,我们试图了解受访者是否认为上述情景是公平的,以及他们为什么认为它公平或不公平。我们要求人们根据一个7点李克特量表从“强烈不同意”到“强烈同意”评估情景是否公平。02有关特征的完整描述,请参见https://fate-computing.mpi-sws.org/procedural_fairness/0会议:Web和社会WWW 2018,2018年4月23日至27日,法国里昂00.20.40.60.89060预测特征示例问题01. 当前指控:您目前是否被指控犯有轻罪、非暴力重罪或暴力重罪?2. 犯罪记录:自身:您违反假释的次数有多少?3.药物滥用:您在少年时期使用过海洛因、可卡因、破碎的可卡因或冰毒吗?4. 就业和生活稳定性:您支付账单时是否经常遇到困难?5.个性:您是否有能力“巧言令色”地让人们按照您的意愿行事?6. 犯罪态度:您认为饥饿的人有权偷窃吗?7.社区安全:您所在社区是否犯罪率高?8. 犯罪记录:家人和朋友:您的朋友中有多少人曾被逮捕?9.社交生活和空闲时间的质量:您是否经常感到被排除在外?10. 教育和学校行为:您在高中的平均成绩是多少?0表1:我们调查中评估的十个特征及在情景中提供的示例问题。这些特征和问题来自于COMPAS问卷。0图1:在第一次试验调查中作为公平判断的理由属性。对于每个属性,图表显示使用该属性作为公平判断的回答百分比。请注意,可以使用多个属性作为单个判断的理由。0具体来说,我们问道:“请评估您对以下陈述的同意程度:使用关于的信息来确定一个人是否可以保释是公平的。”然后我们要求他们选择为什么认为公平或不公平的原因,提供八个潜在属性作为答案选项(如下所述,用于第二次试验调查),同时提供一个带有文本输入框的“其他”选项。将情景评为不公平(1-3分)的参与者只被问及为什么不公平,将情景评为公平(5-7分)的参与者只被问及为什么公平。将情景评为中立(4分)的参与者将被问及两个问题。对于表1中的每个特征,参与者都会被问及这组问题,特征的呈现顺序在受访者之间是随机的。研究结果表明,我们在第2节中提出的每个属性都被至少15%的受访者用来解释为什么他们认为使用特定特征是公平或不公平的(图1)。有趣的是,被最频繁用作公平判断解释的属性与歧视概念无关:相关性是最常用的属性,被74%的回答使用,其次是导致结果和可靠性,被超过40%的回答使用。此外,不到3%的受访者选择了“其他”选项来解释他们为什么认为情景公平或不公平。对于在“其他”类别中提供的回答,主题分析[9]显示了以下结果:0这些回答中的大多数仍然与我们提出的八个属性之一相对应。对于每个我们提出的属性的频繁选择以及“其他”回答的比例较低,表明我们不太可能遗漏一个重要的评估标准。03.1.3 Pilot Survey 2: Features的潜在属性。在Pilot survey2中,我们试图探索人们如何评估我们框架中Features的潜在属性。为了控制询问公平性对潜在属性评分的影响,我们在这里没有询问与公平性相关的问题,如第3.4节所述。我们呈现了情境,并要求人们在同样的7点李克特量表上评估Features的八个属性的价值。这些属性的描述如下:0I. 可靠性:可以可靠地评估有关的信息。II.相关性:有关的信息对于做出这个决定是相关的。III.隐私:有关的信息是私密的。IV.自愿性:一个人可以通过做出选择或决定来改变。V.导致结果:可能导致他们违反保释。VI.导致恶性循环:使用有关的信息做出这个决定可能导致恶性循环。VII.导致结果的不平等:使用有关的信息做出这个决定可能对某些受法律保护的人群产生负面影响(例如,基于种族、性别、年龄、宗教、国籍、残疾状况)。VIII.敏感群体成员引起的:可能是由他们属于受法律保护的群体(例如,种族、性别、年龄、宗教、国籍、残疾状况)引起的。0Features和潜在属性的呈现顺序在受访者之间是随机的。要点。由于在Pilot survey2中没有询问与公平性相关的问题,我们可以独立于公平性来检查潜在属性评估。这项调查的结果可以帮助我们了解询问潜在属性和公平性两者之间引入的偏见。为了量化这种偏见,我们将这项调查的结果与下面描述的包括潜在属性评分和公平性评分问题的Mainsurvey的结果进行比较。这个比较的细节在第3.4节中讨论。0Track: Web and Society WWW 2018,2018年4月23日至27日,法国里昂90703.1.4 Main Survey: Features的公平判断和潜在属性。在Mainsurvey中,我们试图评估人们对我们框架中提出的Features的潜在属性的判断是否与他们对Features的公平性的判断相关。在Mainsurvey中,我们询问了人们关于Features的公平性的问题,就像Pilotsurvey1中的第一个问题一样,以及关于他们对潜在属性的评估的问题,就像Pilot survey 2中的问题一样。与试验调查一样,在Mainsurvey中,这组公平性和潜在属性评估问题针对Table1中的每个十个Features进行了询问,Features和潜在属性的顺序在受访者之间是随机的。此外,我们随机确定公平性问题是在潜在属性问题之前还是之后提出的。03.1.5问卷的有效性。为了确保调查参与者能够有意义地解释我们的问题,我们使用认知访谈对问卷中的所有项目进行了预测试。认知访谈是一种调查方法学最佳实践,用于确保构建有效性和问卷准确性[49,59]。我们与五名具有不同人口统计学特征的参与者进行了认知访谈,他们是通过Prolific众包平台招募的,并根据参与者的反馈反复改进了我们的问卷,直到没有新的考虑因素出现为止。一旦我们对问卷的有效性感到满意,我们就收集了最终的样本进行分析。为了减轻顺序偏差的影响[52],我们对第3.1.2-3.1.4节中描述的问题的顺序进行了随机化。最后,我们包括了一个注意力检查问题,以确保参与者在认真回答问卷项目[36]。03.2 调查样本及其人口统计0主要调查样本由来自美国的196名亚马逊机械土耳其(AMT)高级工作者和380名具有人口普查代表性的美国受访者组成,使用调查招募公司Survey SamplingInternational(SSI)进行收集。我们在主要调查中从两个不同的平台上采样用户,因为我们担心用户回答的代表性和质量。众所周知,AMT用户提供的回答质量与调查小组受访者相当甚至更高[10,16]。然而,由于AMT注册者与普通人群之间的差异引入的选择偏差,AMT工作者在人口统计上并不代表美国人口[52]。另一方面,SSI和其他类似的采样公司使用各种不同的招募机制来减少选择偏差,并确保招募到具有人口统计代表性的样本。表2显示了我们的AMT和SSI调查样本的人口统计与2016年美国人口普查[57]进行比较。我们发现,与美国人口相比,我们的AMT受访者中女性较少(43%),高加索人较多(76%),受过高等教育的人较多(51%至少拥有学士学位),自由派较多(57%)。AMT人口中的教育偏差与以前的研究观察结果一致[31,45,53]。另一方面,我们的SSI受访者在性别(55%女性),教育(32%拥有学士学位或以上)和政治倾向(37%自由派)的人口统计上与美国人口相差不超过5%。虽然我们的SSI受访者中认为自己是高加索人的比例(71%)比美国人口高,但可能的解释是,由于我们的种族和民族问题不是多选项,受访者可能只选择了高加索人而没有选择高加索人和西班牙裔。0人口统计属性 AMT SSI 人口普查0男性 55% 44% 49% 女性 43% 55% 51%0非洲裔美国人 9% 12% 13% 亚洲人 3% 4% 6%高加索人 76% 71% 61% 西班牙裔 8% 11% 18% 其他2% 2% 4%0< 学士学位 47% 68% 70% 学士学位以上 51% 32%30%0自由派 57% 37% 33%* 保守派 17% 24% 29%* 温和派21% 33% 34%* 其他 5% 6% 4%*0表2:我们的AMT和SSI调查样本的人口统计与2016年美国人口普查[57]进行比较。带有*标记的数字是与Pew数据[48]进行政治倾向比较的。0在性别(55%女性)、教育(32%拥有学士学位或以上)和政治倾向(37%自由派)的人口统计方面,我们的SSI受访者与美国人口相差不超过5%。虽然我们的SSI受访者中认为自己是高加索人的比例(71%)比美国人口高,但可能的解释是,由于我们的种族和民族问题不是多选项,受访者可能只选择了高加索人而没有选择高加索人和西班牙裔。03.3 分析方法0在我们的分析中,我们使用Shannon熵[55]计算人们对公平性和潜在属性值的评级之间的共识。Shannon熵[3,23]和由Shannon熵衍生的度量[30,56]经常用于量化共识。我们计算Shannon熵在0到1之间进行归一化(NSE),并报告计算为1−NSE的共识值,因此完全共识对应于1,完全不一致对应于0。我们还通过构建一个基于其潜在属性值的特征是否被认为公平(完全、大部分、稍微、中立)或不公平(完全、大部分、稍微)的二元分类器来检验我们框架的预测能力。训练数据包括受访者对潜在属性的评估以及公平性的二元化评估。我们使用PythonScikit-learn包[46]实现带有L2正则化的逻辑回归模型进行训练。为了评估模型,我们将数据随机分成50%的训练集和50%的测试集,重复五次,并报告平均准确率和AUC。此外,我们随机选择其中一次运行,并分析其在整个数据上的误分类情况;其他运行结果也得到了类似的结果。03.4 讨论限制0与所有调查研究一样,自我报告偏见可能会影响数据。如3.1.5节所述,我们通过广泛的预测试和采用问题随机化的最佳实践来尽量减少这些自我报告偏见。如上所述,我们使用Pilot survey2来测量在同一调查中询问公平判断和潜在属性时引入的偏见量。我们计算了(i)Pilot survey2(对照组)的潜在属性评级的概率分布,其中我们没有询问公平性的问题。0Track: Web and Society WWW 2018, 2018年4月23日至27日,法国里昂Track: Web and SocietyWWW 2018, April 23-27, 2018, Lyon, France9080对特征进行评级的人数比例 共识0平均 不公平 公平 1 - NSE 特征公平性 1 2 3 1-3 4 5-7 5 6 7 7点 3点01. 当前费用 6.38 0.01 0.01 0.01 0.03 0.03 0.95 0.12 0.18 0.65 0.46 0.78 2. 犯罪历史:自身 6.37 0.02 0.01 0.01 0.03 0.03 0.940.08 0.22 0.64 0.45 0.75 3. 物质滥用 4.84 0.08 0.07 0.10 0.24 0.07 0.68 0.26 0.22 0.20 0.07 0.28 4. 就业稳定性 4.49 0.13 0.050.11 0.29 0.09 0.62 0.26 0.24 0.12 0.06 0.20 5. 个性 3.87 0.16 0.18 0.11 0.44 0.10 0.46 0.22 0.12 0.12 0.02 0.14 6. 犯罪态度 3.630.22 0.12 0.16 0.51 0.09 0.40 0.20 0.11 0.09 0.03 0.15 7. 居住区安全 3.14 0.28 0.21 0.15 0.64 0.07 0.30 0.12 0.10 0.08 0.06 0.258. 犯罪历史:家人和朋友 2.78 0.38 0.21 0.09 0.67 0.07 0.26 0.13 0.10 0.03 0.13 0.27 9. 社交生活质量和空闲时间质量 2.70 0.380.20 0.12 0.70 0.07 0.23 0.12 0.08 0.03 0.13 0.29 10. 教育和学校行为 2.70 0.34 0.22 0.14 0.71 0.08 0.21 0.13 0.06 0.03 0.12 0.290表3:对于AMT样本,人们对使用特征的公平性判断及其回应的共识。共识的报告值是根据回应的标准化香农熵(NSE)计算得出的。在7点列中,我们报告整个回应范围内的共识。在3点列中,我们报告将回应分为三个主要公平类别的共识:不公平(1-3),中立(4)和公平(5-7)。0我们首先比较了受访者对我们算法决策场景中使用不同特征的公平性的判断,然后探讨了他们在对任何给定特征的使用达成共识的程度。在整篇论文中,我们对两个数据集进行了分析:AMT高质量的主工人回应和SSI收集的少数民族偏见较少的回应。由于两个数据集都呈现出类似的趋势,我们详细描述了AMT的结果,并仅对两个样本之间的结果进行了简要比较3。在不同特征之间。我们发现,一些特征在平均情况下被认为比其他特征更公平使用。如表3所示,AMT受访者将“当前费用”和“犯罪历史”评为大多数公平使用的特征,平均评分接近6.4。另一方面,“教育和学校行为”,“社交生活质量”和“犯罪历史:家人和朋友”被评为有些不公平使用的特征。04 分析公平判断0我们首先比较了受访者对我们算法决策场景中使用不同特征的公平性的判断,然后探讨了他们在对任何给定特征的使用达成共识的程度。在整篇论文中,我们对两个数据集进行了分析:AMT高质量的主工人回应和SSI收集的少数民族偏见较少的回应。由于两个数据集都呈现出类似的趋势,我们详细描述了AMT的结果,并仅对两个样本之间的结果进行了简要比较3。在不同特征之间。我们发现,一些特征在平均情况下被认为比其他特征更公平使用。如表3所示,AMT受访者将“当前费用”和“犯罪历史”评为大多数公平使用的特征,平均评分接近6.4。另一方面,“教育和学校行为”,“社交生活质量”和“犯罪历史:家人和朋友”被评为有些不公平使用的特征。03 对于SSI数据集的完整结果,请参见https://fate-computing.mpi-sws.org/procedural_fairness/0平均评分接近2.7。其余特征的平均评分更为中立,介于稍不公平(评分3)和稍公平(评分5)之间。表3还显示,超过一半的受访者认为十个特征中的五个在这个决策情景中是不公平的(即给出了1到3之间的公平评分)。然而,由于这些特征没有直接涵盖被告的种族或性别等敏感群体成员信息,它们在风险预测中的使用不受反歧视法律的限制。因此,我们的研究结果表明,对算法决策的不公平关注远不止于对歧视的关注。不同用户之间的差异。接下来,我们分析与任何特征使用相关的公平判断在受访人群中的变化程度。经过仔细观察,我们注意到受访者只在十个特征中的两个特征上达成了高度共识。在表3中,我们观察到特征“当前指控”和“犯罪历史”达成了高度共识,分别有95%和94%的受访者认为在算法决策过程中使用这些特征是公平的。对于其他许多特征,受访者之间存在合理的共识,三分之二的受访者认为该特征要么不公平(给出1到3之间的评分),要么不公平(给出5到7之间的评分)。然而,对于“个性”和“犯罪态度”这两个特征,我们看到共识非常低,既没有“公平”也没有“不公平”获得超过51%的多数票。表3还显示了使用标准化香农熵(1-NSE)测量的不同特征的公平判断的共识。我们观察到,平均评分接近中立(评分4)的特征,如“个性”和“犯罪态度”,很少达成共识,受访者的判断分布在从1到7的整个评分范围内。令人惊讶的是,受访者对被评为最不公平使用的特征,如“教育和学校行为”,也表现出低共识。可能这些特征的使用与否的社会共识仍在发展中,不像针对种族或性别等特征的广泛共识已经在反歧视法律中得到明确规定。 0 0.25 0.5 0.75 1 0 0.25 0.5 0.75 19090当前指0犯罪历史身。0滥用物质。0稳定0个性0犯罪态0社区0犯罪历史:家和朋友。0社交0教育和学校。0共识。0特征。0可靠性。0相0隐私。0当前指0犯罪历史身。0滥用物质。0稳定0个性0犯罪态0社区0犯罪历史:家和朋友。0社交0教育和学校。0共识。0特征。0导致恶性循环。0由敏感性引起的差异。0图2:AMT样本中公平判断和潜在属性评估的共识。图表显示了公平性和潜在属性的共识值:[左侧]表现出较高共识度的属性,[右侧]表现出较低共识度的属性。0样本人群的影响。就平均公平性而言,AMT和SSI受访者对特征的排序相似。然而,我们注意到,SSI受访者对公平评分的一致性普遍较低于AMT受访者。可能的解释是,与AMT工作者相比,SSI受访者代表了更随机和多样化的普通人群子样本,因此报告了更广泛的意见范围。总结。我们的调查受访者中的大多数人认为COMPAS工具使用的一半特征在预测被告犯罪风险方面是不公平的。这些特征中没有直接涵盖种族或性别等敏感群体信息,突出了在算法公平性的现有研究中需要考虑超越歧视的不公平因素的需求,歧视是大多数现有工作中唯一的考虑因素。然而,我们的研究结果也表明,社会对这些其他不公平因素的共识可能远不如对歧视的共识发展成熟。05 分析公平推理0在本节中,我们探讨了在第4节中观察到的被调查者公平判断缺乏一致性的可能原因。为此,我们利用第2节中概述的八个潜在属性作为人们判断使用特征的公平性的启发基础。具体而言,我们首先研究人们如何评估不同特征的潜在属性,然后分析潜在属性评估如何映射到(即用于预测)公平判断。在此过程中,我们希望将公平判断的不一致归因于被调查者对潜在属性评估的不一致或被调查者在从潜在属性到公平判断的推理中的不一致。05.1 潜在属性评估0在图2中,我们比较了不同COMPAS输入特征的被调查者对八个属性评估的一致程度。总体上,我们观察到人们在至少一个或多个特征的所有潜在属性评估中存在不一致。然而,仔细观察发现了重要的差异。首先,与因果关系有关的大多数潜在属性的评估,即原因,存在争议。0恶
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功