没有合适的资源?快使用搜索试试~ 我知道了~
公平性评估和微调基准套件
+v:mala2277获取更多论文FairLex:法律文本处理Ilias Chalkalo<$Tommaso Pasini<$ShengZhang莱蒂齐亚·托马达·塞巴斯蒂安·菲利克斯·施韦默· 安德斯·索加德†丹麦哥本哈根大学计算机科学系丹麦哥本哈根大学法学院中华人民共和国国防科技大学摘要我们提出了一个由四个数据集组成的基准套件,用于评估预训练语言模型的公平性,以及用于对下游任务进行微调的技术。我们的基准涵盖四个司法管辖区(欧洲理事会、美国、瑞士和中国)、五种语言(英语、德语、法语、意大利语和中文)以及五个方面(性别、年龄、地区、语言和法律领域)的公平性。在我们的实验中,我们使用几种组健壮的微调技术来评估预训练的语言模型,并表明在许多情况下,表现组差异是充满活力的,而这些技术都不能保证公平性,也不能始终如一地减轻组差异。此外,我们对我们的结果进行了定量和定性分析,突出了在法律NLP中确定鲁棒性方法1介绍自然语言处理(NLP)的法律(Chalkaline和Kampas,2019; Aletras et al. ,2019; Zhong etal. ,2020; Chalkaline et al. 2022年)受到越来越多的关注。辅助技术可以加快法律研究或发现,大大帮助律师,法官和办事员。 它们还可以帮助法律学者研究判例法(Katz,2012;Coupette et al. ,2021年),改善法律对外行的访问,帮助社会学家和研究伦理学家揭露司法系统中的偏见(Angwin 等人,2016; Dressel和Farid,2018),甚至仔细审查决策本身(Bell et al. ,2021年)。就法律而言,平等和不歧视原则至关重要,尽管其定义在国际、区域和国内层面各不相同例如,欧盟的非歧视法禁止直接和间接歧视。直接歧视是指一个人受到的待遇低于通讯作者:ilias. di.ku.dk图1:被告州的群体差异(C.E.欧洲人权法院的法律领域(民法与刑法)和欧洲安全与合作论坛的法律领域(民法与刑法)其他人则会因性别、种族或民族血统、残疾、性取向、宗教或信仰和年龄而在类似情况下受到对待。[1]鉴于法律结果对个人的重要性,不能以牺牲公平为代价采用辅助技术来加快法律研究(Wachter et al. ,2021),也可能降低对我们法律制度的信任(Barfield,2020)。社会变革永远塑造着我们的法律体系。这一主题值得高度关注,因为从历史数据中学习的人工智能系统存在缺乏训练数据之外的可推广性的风险,更重要的是,在未来的决策中传输先前在数据中存在的偏见,从而指数级地增加其效果(Delacroix,2022)。历史法律数据并不代表所有群体在我们的社会中平等地存在,并往往反映我们的社会和法律机构中的当模型部署到生产环境中时,它们可能会加强这些偏差。例如,刑事司法已经经常受到种族偏见的强烈影响,无论是在美国还是在英国,有色人种都比其他人更有可能被捕并受到更严厉的惩罚31附录A对法律中的歧视和公平概念进行了深入分析。2https://tinyurl.com/4cse552t3https://tinyurl.com/hkff3zcbarXiv:2203.07228v1 [cs.CL] 2022年3月+v:mala2277获取更多论文近年来,NLP和机器学习文献引入了公平目标 , 通 常 来 自 罗 尔 斯 的 平 等 机 会 概 念(Rawls,1971),以评估模型对受保护的属性的歧视程度。其中一些依赖于资源分配的概念反映了这样一种想法,即如果群体在用于诱导我们模型的训练数据中得到平等的代表,那么他们就会得到公平的对待,或者如果每组执行相同数目的训练迭代。 这有时被称为公平的资源分配视角(Lundgard,2020)。相反 , 还 有 一 种 以 能 力 为 中 心 的 公 平 方 法(Anderson,1999;Robeyns,2009),其目标是为每个群体保留足够的资源以达到相似的绩效水平,这最终对个人在法律程序中的待遇至关重要我们采用以能力为中心的公平方法,并根据绩效平价定义公平(Hashimoto et al. ,2018)或同等风险(Donini et al. ,2018)。4性能差异(Hashimoto et al. ,2018年)是指总体表现高,但少数群体表现低的现象,这是由于最大限度地降低了样本(而不是群体)的风险。由于某些群体比其他群体从表现出性能差异的模型和技术中受益更多,这可能会扩大这些群体之间的差距。业绩差距违背了我们社会中所有群体享有公平和平等机会的理想因此,我们将公平分类器定义为在所有组中具有相似性能(相等风险)的分类器(Donini etal. ,2018)。总之,我们认为,在现代世界中,法律规定的(近似)平等要求我们的NLP技术在敏感属性上表现出(近似)相等的风险为了让每个人都能在法律下得到平等对待,无论种族、性别、国籍或其他特征如何,NLP辅助技术需要对这些属性(近似)不敏感我们认为在这项工作中有三种类型的属性:• 人口统计学:第一类包括所涉各方的人口统计学信息,例如,案件原告/被告的性别、性取向、国籍、年龄在这种情况下,我们的目标是减轻对特定[4]替代同等风险的主要方法是用同等几率来定义公平。平等机会公平并不能保证罗尔斯的公平,而且常常与法治相冲突组,例如,一个模型对女性被告的表现更差,或者对黑人被告有偏见我们可以进一步考虑涉及当事人法律地位的信息,例如,个人与公司,或私人与公众• 区域:第二类包括区域信息,例如负责案件的法院在这种情况下,我们的目标是减轻给定管辖区内不同地区之间的差距一种模式在特定地区法院产生或裁决的• 法律主题:第三类包括关于争议主题的法律主题信息。在这种情况下,我们的目标是减轻法律的不同主题(领域)之间的差距,例如,一种模式在某一特定法律领域,例如刑事案件中表现得更好。贡献我们推出了FairLex,这是一个多语言的公平基准,由四个法律数据集组成,涵盖四个司法管辖区(欧洲委员会、美利坚合众国、瑞士联邦和中华人民共和国)、五种语言(英语、德语、法语、意大利语我们发布了四个预先训练的基于transformer的语言模型,每个模型都是为我们的基准测试中的特定数据集(任务)量身定制的,可以用作基线模型(文本编码器)。我们进行实验,几组强大的算法,并提供了定量和定性分析我们的结果,突出了开放的挑战,在法律NLP的鲁棒性方法2相关工作公平机器学习从有偏数据中归纳出近似公平模型的文献正在迅速增长。参见Mehrabi et al.(2021); Makhlouf等人 (2021); Ding et al.(2021年)最近的调查。我们在如何定义公平性以及我们在下面的实验中比较的算法中依赖于这些文献如前所述,我们采用以能力为中心的 公 平 方 法 , 并 根 据 绩 效 平 价 定 义 公 平( Hashimoto et al. , 2018 ) 或 同 等 风 险(Donini et al. ,2018)。我们评估的公平性促进学习算法将在第4节中详细讨论。其中一些--群分布鲁棒优化(Sagawaet al. ,2020)和不变风险最小化(Arjovsky et al. ,2020年)-已经在仇恨言论的背景下进行了公平性的评估(Koh et al. ,2021年)。+v:mala2277获取更多论文在法律(计算)应用背景下研究公平机器学习的在一项经典研究中,Angwin等人(2016年)分析了美国用于假释风险评估(累犯预测 ) 的 替 代 制 裁 核 心 罪 犯 管 理 剖 析(COMPAS)系统该系统依赖于来自调查问卷和犯罪记录的137个特征。 Angwin等人研究发现,黑人被贴上高风险标签的可能性几乎是白人的两倍,揭示了系统中严重的种族偏见。该系统后来与Dressel和Farid(2018)的这些研究依赖于表格数据,不涉及文本处理(例如,编码情况事实或决定)。最近,Wang et al. (2021b)使用中国刑事案件数据集研究了法律判断的一致性。 他们评估了基于LSTM的模型在不同地区和性别之间的一致性,并报告了性别之间存在的严重公平差距。他们还发现,对于更严重的犯罪,公平 差 距 另 一 条 工 作 线 ( Rice et al. , 2019;Baker Gillis,2021; Gu-musel et al. ,2022)探讨了代表性偏见方面的种族和性别分析词的潜在表征训练的法律文本语料库。虽然我们同意代表性偏见可能会强化不幸的偏见,但这些偏见可能不会影响对个人(或群体)的治疗因此,我们专注于直接衡量下游应用程序的同等风险。以前的工作集中在特定情况下,语言或算法的分析,但公平-莱克斯旨在减轻偏差缓解模型或算法的开发和测试在法律领域。FairLex允许研究人员探索四个数据集的公平性,这些数据集涵盖四个国家(欧洲委员会、美利坚合众国、瑞士联邦和中华人民此外,我们还提供了具有竞争力的基线,包括预先训练的基于transformer的语言模型,适应于检查的数据集,以及对第4节中详细描述的四组鲁棒算法的性能进行深入检查。基准测试NLP已经受到旨在评估预训练语言性能的基准数据集的快速发展的关于不同目标的模型:一般自然语言理解(NLU)(Wanget al. ,2019 b,a),跨舌迁移(CLT)(Huet al. ,2020),甚至是生物医学领域的特定领域(Peng et al. ,2019),或法律(Chalkalineet al. ,2022)NLP任务。尽管它们的价值,最近的工作已经引起了对所谓的NLU基准的几个限制的批评(Paulladaetal. , 2020; Bowman and Dahl , 2021; Raji etal. ,2021年)。主要观点是:数据集开发不佳(自由放任)(例如,缺乏多样性,虚假的相关性),法律问题(例如,数据许可和个人信息泄漏),结构有效性(例如,不良的实验设置、不清楚的研究问题)、“一般”能力的问题我们相信,FairLex的发布,一个特定于领域(面向法律)的公平性评估基准套件,克服了(或至少减轻了)上述一些限制。我们在第1节中介绍了核心动机,而具体的(逐案)细节在第3节中描述。我们的基准是开放式的,不可避免地有几个局限性;我们在第7节和第8节中报告了已知的局限性和伦理考虑。尽管如此,我们相信这将有助于公平领域的关键研究。3基准数据集ECtHR欧洲人权法院(ECtHR)审理有关一国违反《欧洲人权公约》(ECHR)人权条款的指控 我们使用的数据集Chalkaline等人。(2021),其中包含来自欧洲人权法院公共数据库的11,000起案件。每个案件都与被违反的《欧洲人权公约》条款(如果有的话)相对应。这是一个多标签文本分类任务。鉴于案件的事实,目标是预测法院裁定(裁定)的被违反的《欧洲人权公约》条款这些案例按时间顺序分为训练(9 k,2001为了便于研究文本分类器的公平性,我们为每个案例记录了以下属性:(a)被告国,即据称违反《欧洲人权公约》的欧洲国家。每个案件的被告国是欧洲委员会47个成员国的一个子集;5为了得到统计支持,我们将被告国分组5https://www.coe.int/+v:mala2277获取更多论文≤≤数据集原始出版物分类任务班级数量属性属性类型人数欧洲人权(Chalkaline et al. ,2021年)法律判决预测:违反《欧洲人权公约》预测10+1被告国申请人性别申请人年龄223SCOTUS(Spaeth et al. ,2020年)法律主题分类:问题领域分类14受访者类型决策方向42FSCS(Niklaus et al. ,2021年)法律判决预测:案件核准预测2语言原产地法律区域366Cail(Wang et al. ,2021b)法律判断预测:犯罪严重程度预测6被告性别原籍区域27表1:FairLex数据集(ECtHR、SCOTUS、FSCS、CAIL)的主要特征我们报告检查的任务,类的数量,检查的属性和每个属性的组数(#N)。分为两部分:一方面是中东欧国家,另一方面是所有其他国家,如Eu-roVoc同义词词典所分类。申请人如果可能的话,我们从案件事实中提取申请人的出生年份,并将其案件分类为一个年龄组( 35, 64岁或以上);及(c)申请人的性别,从事实中提取,如果可能的话6SCOTUS美国最高法院(SCOTUS)是美利坚合众国的最高联邦法院,通常只审理下级法院未能充分解决的最具争议性或其他复杂的案件我们结合了来自SCOTUS意见的信息与最高法院数据库(SCDB)7(Spaethet al. ,2020)。SCDB提供元数据(例如,出版日期、决定、问题、决定方向等等)。我们考虑了现有的14个主题问题领域(例如,刑事诉讼,公民权利,经济活动等)。作为标签。这是一个单标签多类文档分类任务。鉴于法院的意见,目标是 预 测 问 题 领 域 , 其 重 点 是 争 议 的 主 题(dispute)。SCOTUS共包含9,262个病例,我们按时间顺序分为80%用于培训(7.4k,19461982从SCDB,我们还使用以下属性来研究公平性:(a)受访者类型,这是将受访者(被告)手动分类为五个类别(个人,公共实体,组织,设施和其他);以及(c)决定的方向,即,该决定是否被认为是自由的,或保守的,由SCDB提供6在附录B中,我们详细描述了所有数据集的属性提取和分组。7http://scdb.wustl.eduFSCS瑞士联邦最高法院(FSCS)是瑞士的最高上诉法院,与SCOTUS相似,该法院通常只审理最具争议性或其他复杂的案件,这些案件尚未得到下级法院的充分解决最高法院往往只关注先前判决的一小部分,在那里他们讨论下级 法 院 可 能 错 误 的 推 理 。 Swiss-Judgment-Predict数据集(Niklaus et al. ,2021年)包含了从2000年到2020年用三种语言之一(50K德语,31K法语,4K意大利语)编写的来自FSCS的超过85K的决定。该数据集为简化的二元(批准,解雇)分类任务提供标签。考虑到案件的事实,目标是预测原告的请求是否这些案例还按时间顺序分为训练集(59.7k,2000-2014)、开发集(8.2k,2015-2016)和测试集(17.4k,2017-2020)。原始数据集提供了三个额外的属性:(a)FSCS书面决定的语言,德语,法语或意大利语;(b)案件的法律领域(例如,(c)地区,表示案件起源于CAIL中国最高人民中国人工智能和法律挑战(CAIL)数据集(Xiaoet al. ,2018)是一个用于判决预测的中国法律NLP数据集,包含超过100万个犯罪案件。该数据集为刑法预测、罪名(犯罪类型)预测、刑期(期限)预测、刑罚预测等相关文章提供了标签。88原始数据集的发布一直是NLP社区中活跃辩论的主题( Leins et al. , 2020; Tsarapatsanis 和 Aletras , 2021;Bender,2021)。+v:mala2277获取更多论文NGI.L LLL好吧1 .一、最近,Wang et al. (2021)重新注释了近似的子集。10万例具有人口统计学属性的病例。具体而言,新数据集已注释:(a)申请人采样器,即,每组(NG)中包括相等数量的实例(样本)。大多数算法都建立在分组损失(Lg)的基础上,计算如下:L(g i)=1。L(x j)(5)7个省级行政区是案件判决。我们按时间顺序重新分割数据集NGIj=1分为培训(80 k,2013-2017)、开发(12 k,2017-2018)和测试(12 k,2018)集。在我们的研究中,我们重新构建了监禁期限预测,并检查了一个软版本,称为犯罪严重程度预测任务,一个多类分类任务,其中给定案件的事实,目标是预测所犯罪行的严重程度与监禁期限有关。我们用刑期长短来近似犯罪的严重程度 , 分 为 6 组 ( 0 , ≤12 , ≤36 , ≤60 ,≤120,>120个月)。4微调算法DRO组(Sagawa et al. ,2020),代表组分布鲁 棒 优 化 ( DRO ) 。 Group DRO 是 GroupUniform算法的扩展,其中,分组损失的权重与组训练性能成反比。总损失为:GDRO=wgi(gi),其中(6)i=1Gwg=(wgeL(gi))和W=wg(7)在实验中,我们的主要目标是找到一个hy-iWi我i=1风险R(h)最小的假设:h=arg minR(h)(1)h∈HR(h)=E(L(h(x),y))(2)其中y是目标(地面实况),h(x)=y是系统假设(模型与以前的研究类似,R(h)是所选损失函数()的期望。在这项工作中,我们研究了多标签文本分类(第3节),因此我们的目标是最小化L个类之间的二进制交叉熵损失:L=−ylogy−(1−y)log(1−y)(3)ERM(Vapnik,1992)代表经验风险最小化(Empirical Risk Minimization),是训练神经方法的最标准和损失计算如下:N其中G是组(标签)的数量,Lg是平均的组方式(标签方式)损失,Wg是组(标签)权重,Wg是在先前更新步骤中计算的组(标签)权重最初,重量质量在各组之间均匀V-REx(Krueger et al. ,2020),其代表风险外推,是又一个提出的组鲁棒优化算法。Krueger等人(2020)假设训练组之间的变化代表了后来在测试时遇到的变化,因此他们还考虑了组间损失的方差。在V-REx中,总损失计算如下:LREX= LERM+ λ η Var([Lg1,. . . ,LgG])(8)其中Var是分组损失之间的方差,λ是加权超参数标量。L ERM=.Li(四)Arjovskyet al. ,2020),代表在-i=1N其中N是一个批次中的实例(训练样本)的数量,i是每个实例的损失。除了ERM,我们还考虑一个代表性的群鲁棒微调算法的选择变量风险最小化,主要目的是惩罚跨组的多个训练虚拟估计量的方差,即,在对应于同一组的样本损失总额计算如下:其目的在于减轻关于给定属性(A)的性能差异,例如,申请人的性别或法院所在地区每个1GL=GL(gi)+λP(gi)λ(9)属性被分成G组,即,男性/女性的性别。所有的算法都依赖于一个平衡的组请参阅Arjovsky et al. (2020)定义组惩罚项(Pg)。i=1+v:mala2277获取更多论文对抗性去除(Elazar和Goldberg,2018)算法通 过 额外的 对 抗 性 分 类 器 ( Good-fellow etal. ,2014)。对抗分类器与主网络共享编码器,并被训练来预测实例的受保护属性(A)总损失因子在对抗的一个,从而惩罚模型时,它能够区分群体。总损失的计算公式为:LAR=LERM−λ<$LADV(10)LADV=L(gi,gi)(11)其中,gi是自适应分类器5实验装置模型由于我们对长文档分类感兴趣(每个文档多达6000个标记,参见附录E.1中的图2),我们使用了一个类似于Chalkalineet al.(2021)的基于分层BERT的模型分层模型首先通过预先训练的基于Transformer的模型对文本进行然后,段落表示被馈送到具有与第一层完全相同的规范的两层Transformer编码器(例如,隐藏单元、注意力头部的数量它使段落表示知道周围的段落。最后,该模型最大池上下文感知的段落表示计算文档级表示,并将其馈送到分类层。为了这项工作的目的,我们发布了四个特定领域的BERT模型,并在检查数据集的语料库上进行了持续的9我们训练了一个小型BERT模型,它有6个trans-former块,384个隐藏单元和12个注意力头。我们从公共MiniLMv2模型检查点热启动所有模型(Wang et al. ,2021a)使用RoBERTa的蒸馏版本(Liuet al. ,2019)的英文数据集(ECtHR,SCO- TUS)和从XLM-R中提取的数据集(Conneauet al. ,2020)为其余(三语FSCS和中国CAIL)。由于这些模型的尺寸有限我们可以在ECtHR和SCOTUS中有效使用多达4096个代币,在FSCS中有效使用多达2048个代币,9https://huggingface.co/coastalcph在24GB GPU卡中,每批最多可获得16个样本。为了完整性,我们还考虑使用最频繁的n元语法的TF-IDF分数的线性词袋(BoW)分类器(其中n=1, 2, 3)。数据存储库和代码我们发布了一个统一版本的拥抱脸数据集(Lhoest et al. ,2021年)。11在我 们 的 实 验 中 , 我 们 使 用 并 扩 展 了 WILD(Koh et al. ,2021)库。为了重现性和进一步探索新的组鲁棒方法,我们在Github上发布了我们的代码。12评估细节在实验中,我们计算每组的宏观F1分数(mF1i),排除未识别实例的组(如果有的话)。13我们报告了宏F1,以避免由于训练、开发和测试子集中的类别不平衡和倾斜的标签分布而对大多数类别产生偏见(Søgaardet al. ,2021年)。6结果在表2中,我们报告了所有数据集和属性的组性能(mF1),其中模型使用ERM算法进行训练我们观察到,不同属性的群体差异的强度有很大差异,但在许多情况下,群体差异是非常活跃的。例如,在欧洲人权法院,我们观察到两个被告州群体之间存在巨大的群体差异(21.5%的绝对差异),申请人的性别群体也存在类似差异(16.2%的在FSCS中,我们观察到语言差异,与法语和德语相比,用意大利语书写的在法律领域,表现差异甚至更大,与其他领域(约100万美元)相比,该模型在刑事(刑法)案件中表现最好10-20%)。我们还观察到关于法院区域的大量群体差异,例如,E.瑞士法院(66.8%)与联邦法院(56.4%)相比。这同样适用于CAIL,例如,北京法院判决 的 案 件 ( 66.8% ) 高 于 四 川 法 院(56.4%)。[10]这对于考虑分组损失的分组鲁棒算法尤为重要11https://huggingface.co/datasets/coastalcph/费尔莱克斯12https://github.com/coastalcph/fairlex13这组未查明的案件包括:其中所检查的属性的值是不可识别的(未知的)。详见附录B和E.2。+v:mala2277获取更多论文《欧洲人权公约》(违反《欧洲人权公约》预测)组MF1列车病例数量(%)(↑)LDKL(↓)WCI(↓)DefeN daNT STaTeApplIC aNT GeNdeRApplIC aNTAgeSCOTUS(问题领域分类)组MF1列车病例数量(%)(↑)LDKL(↓)WCI(↓)RespoN deNT TYpe公共实体77.42796(51%)0.070.04人74.91847人(34%)0.050.03组织81.1741人(13%)0.110.03设施80.7140人(3%)0.260.06DIRecTI oN自由76.23335(52%)0.040.08保守80.83146人(48%)0.050.17FSCS(病例批准预测)组MF1列车病例数量(%)(↑)LDKL(↓)WCI(↓)蓝鼓年代德国68.235458(60%)0.030.20法国70.621179(35%)0.030.19意大利65.23072人(5%)0.040.19Legal ARea组差异分析接下来,我们尝试基于数据分布来识别可能导致组间性能差异的一般(属性不可知)因素。我们确定了三个一般(属性不可知)因素:• 代表性不平等:并非所有组在训练集中的代表性相等。为了检验这一点,我们报告了每组的训练案例数。• 时间概念漂移:给定组的标签分布随时间变化,即,在训练和测试子集之间。为了检查这一方面,我们报告每组,培训和测试标签差异之间的KL差异。• 最差类别影响:标签(类别)之间的性能不相等,这可能会不成比例地影响各组之间的宏观平均性能为了检验这一点,我们报告了每组的最差类别影响(WCI)得分,计算如下:测试用例数量(最差类)WCI(i)=#测试用例(12)RegI oNR. 莱马尼克71.313436(27%)0.040.20苏黎世68.58788(18%)0.040.18E. 米泰兰69.88257(17%)0.080.16E. 瑞士73.65707人(12%)0.020.24N.W. 瑞士72.85655人(11%)0.030.19C. 瑞士69.54779人(10%)0.030.19提契诺68.32255人(6%)~0.000.17联邦63.91 308人(3%)~0.000.27犯罪严重性预测组MF1列车病例数量(%)(↑)LDKL(↓)WCI(↓)DefeNDNT GeNdeR REGIoN表2:第6节介绍的三个一般(属性不可知)交叉检验因素(表征不平等、时间概念漂移和最差类影响)的统计数据。我们强调最坏的情况,每个属性的最佳用黑体字表示,我们突出显示了各组中每个因素的最佳(危害较小)值报告的机构风险管理绩效(mF1)。在表2中,我们列出了所有属性的结果。我们观察到,只有在10个案例(属性)中的4个案例中,代表性较低的群体与其他群体相比表现最差。通常情况下,高KL发散(漂移)与低性能无关。换句话说,群体差异似乎不是由时间概念漂移驱动的。最后,在大多数情况下,最差类别的影响在各组之间相对均匀,但在这方面组不同的情况下,最差类别影响与3种情况中的2种情况下的错误相关14在欧洲人权法院中,考虑到跨被告国的表现,我们看到所有三个因素都在内部相互关联,即,表现最差的组被较少地表示,具有较高的时间漂移,并且在表现最差的类中具有更多的情况。考虑到其他属性的性能,情况并非如此。 对于斯科特来说,情况也并非如此。在FSCS中,考虑到语言和地域的属性,表征不平等似乎是导致群体差异的一个重要因素。这是不是法律领域的情况下,在那里最好的14《欧洲人权公约》在被告州的执行情况和《上海合作组织-土耳其贸易协定》在不同方向的执行情况,但《欧洲人权公约》在申请人年龄段的执行情况则不一样E.C. 欧洲70.27 224人(80%)0.170.07其余48.71 776人(20%)0.280.57男性54.44 187人(77%)0.170.18女性60.61 507人(23%)0.260.19≤65岁59.74279(68%)0.180.15>65岁56.51 130人(18%)0.320.26≤35岁46.2868人(14%)0.190.12公法56.915173(31%)~0.000.20刑法83.411795(25%)~0.000.20民法社会法66.470.811477(24%)97270.020.060.160.20男性60.373952(92%)0.030.01女性60.16048人(8%)0.080.03北京66.816588(21%)0.050.02辽宁56.713934(17%)0.050.02湖南59.512760(16%)0.050.02广东58.012278(15%)0.050.01四川56.411606(14%)0.060.02广西58.98674(11%)0.070.02浙江58.84160人(5%)0.070.02+v:mala2277获取更多论文≤≤欧洲人权法院(A1:被告国)(A2)组欧洲经济委员会剩余平均值男性55.835.154.4女性61.347.160.6≤3548.144.246.2≤6561.034.759.7FSCS(A1:法律领域)(A2)组公法 刑法平均法国57.482.470.6意大利56.269.465.2E. 瑞士55.987.073.6联邦54.572.863.9表3:交叉属性影响的结果。属性组配对的mF1得分(A1,A2)。代表的组是表现最差的组。换句话说,在这种情况下,还有其他原因导致性能差异;根据Niklaus等人(2021),一个潜在的因素是瑞士刑法中的判例更加统一和一致,并且异常判决很少,使任务更具可预测性。跨属性影响分析我们已经评估了不一定相互独立的属性之间的公平性因此,我们评估不同属性的性能差异相关的程度,即,属性如何相互作用,以及性能是否存在差异-在表3中,我们报告了上述交叉属性(A1,A2)配对的性能。除了欧洲人权法院的(年龄、被告州)交叉询问之外,我们观察到属性A2(表2)的组差异在合理影响者(即属性A1)的组之间因此,跨属性的影响并不能解释观察到的群体差异。我们认为,对结果的深入分析对于理解不同因素对结果的影响至关重要。如果我们“伪造”了一个理想的场景,在这个场景中平等代表。虽然受控的实验环境经常被用来检验特定的因素,但它可能会隐藏或部分减轻这些现象,从而产生对所检验模型公平性的误导结果。最后,我们评估了几个组鲁棒算法(第4节)的性能,这些算法可能会潜在地解决组差异。为了估计它们的性能,我们报告了各组间的平均宏F1(mF1)和各组间的组差异(GD),测量为组间标准差:v.,1.G属性A1的事件可以潜在地解释每-为另一个属性A2设置一个值。我们检查这两个属性的最高GD=Gi=1(mF1i− mF1)2(13)群体不平等:欧洲人权法院的被告国和家庭支助和服务处的法律领域对于由这两个属性(A1)诱导的bin,我们计算其他属性(A2)的mF1得分。在欧洲人权法院,大约。83%和81%的男性和女性申请人参与了针对欧洲共同体的案件。欧洲国家(表现最佳组)。同样,在各年龄组中,我们观察到对E. C.欧洲国家是:65岁和35岁分别为87%和在《家庭安全和社会保障法》中,与刑法有关的案件比例为:29%和41%的人用法语(表现最好的一组)和意大利语(表现最差的一组)写作。同样,接近。27%来源于E.瑞士(表现最好的组)和联邦(表现最差的组)的42%与公法有关。在这两个属性中,表现最差的群体涉及公法的案件增加了15%也就是说,一个属性A2(语言、地区)的群体差异也可以通过另一个属性A1(法律领域)的影响来解释。我们还报告了最差的小组表现(mF1W= min([mF11,mF12,. . . mF1G))。在表4中,我们报告了本文介绍的四个数据集上所有基线的结果。我们首先观察到,与相同设置中的基于转换的模型相比,使用ERM算法(每个数据集的顶行)训练的线性分类器的结果始终更差(平均和最差情况下的性能更低,组差异更高)换句话说,线性分类器具有较低的整体性能,同时相对于所应用的公平性定义(即,各组别的表现相同)。可以看出,使用ERM算法训练的基于变换器的模型,即,在不考虑有关群体及其分布的信息的情况下,在相同的球场上比用专门用于减轻偏差的方法训练的模型表现得更好(第4节),年龄损失0。17%仅以mF1和0。78%,以mF1W计。虽然,这些算法改善了文献中最坏情况下的性能,+v:mala2277获取更多论文《欧洲人权公约》(违反《欧洲人权公约》预测)SCOTUS(问题领域分类)算法被告国↑ mF1↓GD↑mF1 W申请人性别↑mF1↓GD↑mF1 W申请人年龄↑mF1↓GD↑mF1 W受访者类型↑mF1↓GD↑mF1 W方向↑mF1↓GD↑mF1 W基于TRANSFORMER-BASED类的类中的工作包基于TRANSFORMER-BASED类的类中的工作包表4:每个数据集属性的所有检查的组稳健算法的测试结果。我们报告了各组的平均表现(mF1)、组间差异(GD)和最差组表现(mF1W)。↑表示分数越高越好,而↓表示分数越低越好。当应用于受控的实验环境时,它们在更现实的设置中失败,其中属性和标签上的组是不平衡的,而组和标签分布也随时间变化。此外,我们无法确定一种算法在数据集和组中的表现优于其他算法,实际上结果非常混合,没有任何可识别的模式。7限制当前版本的FairLex只覆盖了一小部分法律应用程序、司法管辖区和受保护的属性。我们的基准是开放式的,不可避免地不能涵盖“整个( 法 律 ) 世 界 的 一 切 “ ( Raji et al. , 2021年),但尽管如此,我们相信,公布的资源将有助于公平领域的关键研究。我们的数据集中的一些受保护的属性是自动提取的,即,如果可能的话,通过正则表达式,或由作者手动聚类,例如ECtHR数据集中的被告国和SCO-TUS数据集中的应答者属性,来确定ECtHR数据集中的性别和年龄各种简化,例如性别的二进制化,在现实世界的应用中是不合适的。另 一 个 重 要 的 局 限 性 是 , 这 些 数 据 集(SCOTUS除外)中被视为基础事实的内容仅与法官因此,对于非平凡的案件来说,这种标签有些主观,其有效性仅与特定的法律框架有关我们当然不以任何方式认可所审查数据集的法律标准或8结论我们介绍了FairLex,这是一个多语言基准测试套件,用于在法律领域内开发和测试模型和偏差缓解算法此外,我们还提供了具有竞争力的基线,包括适用于所检查数据集的基于transformer的语言模型,以及四种组鲁棒算法(对抗性删除,Ranking,Group DRO和V-REx)的性能测试。虽然这些算法改善了文献中的最差情况性能,但当应用于受控实验环境时,它们在更现实的设置中失败,其中属性和标签之间的组是不平衡的,而组和标签分布也随时间变化。此外,我们无法确定一个算法在数据集和组中的表现优于其他算法。在未来的工作中,我们的目标是进一步扩展基准测试,使用更多的数据集,这些数据集可能会覆盖更敏感的属性。进一步分析群体差异背后的原因,例如,代表性偏见,系统性偏见,也是关键。ERM46.83.043.844.14.940.646.96.340.973.86.661.877.52.674.9ERM机构风险管理+一般事务53.254.48.35.544.948.957.557.83.13.354.454.554.156.05.95.646.248.775.175.24.03.970.870.978.177.11.61.376.676.0Adv-RG-DROV-REx53.855.053.854.65.85.25.76.347.949.848.148.354.656.353.854.63.21.92.32.051.555.052.553.248.952.654.855.06.16.24.44.540.644.349.549.856.974.573.473.84.73.34.83.853.171.668.268.241.077.178.178.20.81.72.71.140.375.475.477.1FSCS(病例批准预测)犯罪严重性预测算法语言↑mF1↓GD↑mF1 W法律领域↑mF1↓GD↑mF1 W↑mF1区域↓GD↑mF1W被告性别↑mF1↓GD↑mF1 W↑mF1区域↓GD↑mF1WERM55.56.246.854.49.740.956.85.046.633.50.732.831.75.025.5ERM67.82.165.069.49.656.969.72.963.960.20.660.159.33.556.4机构风险管理+一般事务66.43.561.767.19.355.567.93.062.359.40.759.158.23.155.9Adv-R62.65.159.065.612.450.067.43.261.553.31.352.153.52.550.8G-DRO70.50.669.957.55.652.667.74.260.259.21.357.958.93.755.7IRM68.31.966.767.89.555.868.73.063.256.41.555.758.03.154.9+v:mala2277获取更多论文道德声明数据集的社会影响这项工作的范围是提供一个评估框架以及广泛的实验,以进一步研究法律领域内的公平性。根据Angwin et al. (2016),Dresel和Farid(2018),以及Wang et al. (2021b),我们提供了一个多样化的基准,涵盖多个任务,司法管辖区和受保护(检查)的属性。我们基于预训练的基于transformer的语言模
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- AA4MM开源软件:多建模与模拟耦合工具介绍
- Swagger实时生成器的探索与应用
- Swagger UI:Trunkit API 文档生成与交互指南
- 粉红色留言表单网页模板,简洁美观的HTML模板下载
- OWIN中间件集成BioID OAuth 2.0客户端指南
- 响应式黑色博客CSS模板及前端源码介绍
- Eclipse下使用AVR Dragon调试Arduino Uno ATmega328P项目
- UrlPerf-开源:简明性能测试器
- ConEmuPack 190623:Windows下的Linux Terminator式分屏工具
- 安卓系统工具:易语言开发的卸载预装软件工具更新
- Node.js 示例库:概念证明、测试与演示
- Wi-Fi红外发射器:NodeMCU版Alexa控制与实时反馈
- 易语言实现高效大文件字符串替换方法
- MATLAB光学仿真分析:波的干涉现象深入研究
- stdError中间件:简化服务器错误处理的工具
- Ruby环境下的Dynamiq客户端使用指南
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功