公平感知分类中的自适应敏感权重调整

106 浏览量更新于2023-10-15 收藏 854KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

主题：Web与社会WWW 2018，2018年4月23日至27日，法853自适应敏感权重调整在公平感知分类中的应用摘要希腊塞萨洛尼基maniospas@iti.grEmmanouilKrasanakisCERTH-ITISymeonPapadopoulosCERTH-ITI，Thessaloniki，Greecepapadop@iti.grEleftherios Spyromitros-XioufisCERTH-ITI，塞萨洛尼基，希腊espyromi@iti.grYiannisKompatsiarisCERTH-ITI，Thessaloniki，Greeceikom@iti.gr假阴性率为25%因此，可以理解为什么法律由于数据驱动决策在各种部门和服务中的普遍部署，机器学习偏见和公平性最近成为关键问题。它经常被-猜测不公平的分类可以归因于训练数据中的偏差，但以前尝试“修复”训练数据的成功有限。为了克服数据修复方法中普遍存在的缺点，例如那些对训练样本进行加权的方法。敏感组（例如，性别，种族，财务状况）的基础上，他们的误分类错误，我们提出了一个过程，迭代地适应训练样本的权重与理论接地模型。该模型解决了不同类型的偏见，以更好地实现公平目标，例如准确性和不同的信息之间的权衡。契约消除或不同的虐待消除。我们表明，与以前的公平性感知方法相比，我们的方法在真实世界和合成数据集上实现了准确性和不公平性缓解CCS概念• ·计算方法学→成本敏感学习;·计算理论→助推;·应用计算→法律;ACM参考格式：Emmanouil Krasanakis、Eleftherios Spyromitros-Xioufis、SymeonPapadopou-los和Yiannis Kompatsiaris。2018.自适应敏感重加权以减轻公平感知分类中的偏差。在WWW 2018：2018年网络会议，2018年4月23日至27日，里昂，法国。ACM，New York，NY，USA，10页。https://doi.org/10.1145/3178876.31861331介绍随着机器学习系统当前被部署在影响人们生活的越来越多的服务中，公平性问题变得越来越重要。这种担心是有道理的，因为自动决策系统如果没有适当的约束，可能会对敏感群体例如，在犯罪累犯的ProPublica COMPAS数据集上训练逻辑回归分类器[33]会产生黑人和白人被告之间的差异，假阳性率为17%。本文在知识共享署名4.0国际（CC BY 4.0）许可下发布。作者保留在其个人和公司网站上以适当的归属方式传播作品的权利。WWW 2018，2018年4月23日©2018 IW3C2（国际万维网会议委员会），在知识共享CC BY 4.0许可下发布。ACM ISBN 978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.3186133已采取措施明确保护少数群体不受不同政策约束的权利[1]。公平性关注公式比较敏感和非敏感组之间的分类器的方面（见2.1小节）。选择的尺度往往取决于各自的法律环境，以及基本事实是否有偏见。例如，如果地面实况在历史上是无偏的，则最好减轻敏感组和非敏感组之间的误分类差异[44]。研究人员之前已经认识到，分类偏差通常是由数据而不是分类器引起的[13，31]。例如，Kamishima et al.[29]将不公平标记的来源分类为源于特征与敏感属性之间的相关性的偏见、由于训练算法的不充分收敛而导致的低估以及标记训练数据时（历史）人类偏见的负面遗产因此，经常有人认为，我们应该寻找从训练数据中消除偏见的方法（而不是限制训练过程），无论是通过按摩训练标签[24]还是根据估计的概率重新加权训练样本，它们属于敏感组[25]。基于从训练数据中去除偏差的方法通常无法与最先进的方法（例如：Zafar等人的基于协方差的模型[41，44]）。然而，我们认为，这不是由于固有的无法处理数据集，而是由于在以前的方法的方法缺陷在第2.4小节中，我们讨论了一些最常见的缺陷，例如预处理限制、启发式统计模型和无法证明所有类型的公平感知编辑的合理性。如果这些缺陷得到适当处理，我们希望数据集编辑方法的性能与最先进的方法相同，甚至更好，因为它们直接作用于偏差的来源而不是其结果。在本文中，我们提出了一个自适应敏感的重加权机制和权重估计模型，不遭受这些缺点。我们的方法假设存在对应于训练样本的（不可观察的）底层类别标签集合，如果预测，将产生相对于公平目标的无偏分类然后，它搜索样本权重，使原始数据集上的加权训练也向这些标签进行训练，而不显式地观察它们。为了获得这些权重，我们的方法采用了非线性概率推断模型，我们称之为CULEP，代表凸底层标签误差扰动。这个模型可以被训练成主题：Web与社会WWW 2018，2018年4月23日至27日，法854S∈{}S联系我们{∈S}{∈S}..Σ .ΣΣ分类误差与估计的标签接近期望的底层标签的概率有关。然后，我们使用它来推断训练权重的基础上分类器的输出和迭代重新训练这些新的权重的分类器。这种偏差缓解机制封装了公平性和分类器相关信息，因此允许更精确的随机分析。此外，它避免了标签编辑方法引起的问题，因为训练仍然是在原始标签上进行的。最后，在小节4.4中，我们解释了不同的CULEP参数可以帮助实现不同的公平性目标，例如获得准确性和各种公平性度量之间的指定权衡，例如小节2.2中概述的那些。我们的方法的新颖之处在于CULEP的能力，以帮助一个迭代的重新加权过程中认识到偏见的来源，并减少其影响，而不影响功能或标签。通过这种方式，分类模型在原始（可能有偏见的）数据集标签上进行训练1CULEP模型改进了先前的重新加权机制，其中考虑到估计所估计的标签和基础标签之间的合规性，并且可以用于减轻各种类型的不公平性。2背景在整个工作中，我们考虑二进制分类器，其为特征xi的样本i和标签yi0，1产生标签估计yi0，1。基于敏感的现实世界属性，例如性别、种族或财务状况，与其非敏感补充相比，某个样本组被识别为敏感的当y≡i，i的分布的统计特性不同的是yi，i′.公平意识分类方法试图减轻这种差异。敏感和非敏感组的用户类别P（yi = 1|i ∈ S）= P（y（i = 1|（2）例如，如果财务状况是定期存款预测的敏感属性[37]，则不同影响消除将确保低收入和高收入客户之间的积极预测部分相同。不同误分类消除反映了分类器在可靠的基础事实标签上实现相等的误分类率的能力（即不受数据集构建问题的影响，例如历史偏差）[41，44]。例如，如果种族是预测犯罪行为的敏感属性[33]，则完全不同的错误处理消除将确保白人和非白人被告之间的相同错误率。最近的工作[7，31]表明，除非分类器是100%准确的，否则不可能同时满足所有不同的误处理消除的概念更常用的是相等假阳性率（FPR）和相等假阴性率（FNR）的不同误治消除约束：P（yi≠yi|yi=1，i∈S）=P（y（i≠yi|yi=l，igS）（3a）P（yi≠yi|yi=0，i∈S）=P（y（i≠yi|yi=0，igS）（3b）2.2度量遵循早期的公平性感知方法，在这项工作中，我们使用准确性来测量分类器性能，即。正确分类样本的比例、使用p%规则的不同影响以及使用敏感和非敏感FPR和FNR之间的差异的不同误p%规则[2]是一种经验规则，不允许敏感组识别低于设定的百分比非敏感组识别：2.1不公平的类型如Zafar et al.[44]分类不公平往往是pRule= 最小Pyi=1|i∈ SPyi=1|ig SPyi=1|i g S（4）Pyi=1|i∈ S通过不同的治疗、不同的影响和不同的虐待的概念来表达。公平目标旨在消除这些类型的不公平。差异处理消除反映了训练的分类器对特征xi产生相同输出yi的能力，而P（yi|xi，i∈S）=P（y{i|（1）实际上，该公平性目标要求具有相似特征的样本被相似地分类。例如，如果性别是分类器的敏感属性，则在不同处理消除的原则下，具有其他相似特征的男性和女性应该被分配到同一类避免不同治疗的一个简单方法是避免使用敏感群体的信息进行分类。这避免了歧视或反向歧视[38]，但准确性成本有时可能过高[28]。差异影响消除反映了分类器实现统计奇偶性的能力[25，27，28]，即分配相同部分1学习训练权重在机器学习中几乎不是一个新概念，但通常学习权重是为了帮助提高弱学习者的准确性[40]，很少是为了满足其他训练目标[16，21，34]。该度量与Calders-Verwer度量[5]相关，该度量计算这两个百分比之间的差异。由于这两个度量共享相同的最佳点，因此我们更喜欢报告存在一组法律上下文的pRule。更具体地说，《员工选拔程序统一指南》要求至少80%的员工遵守规则[2]。为了测量不同的虐待，通常测量敏感组和非敏感组之间偏离设定目标的差异。与等式1中概述的常见不同的错误治疗消除条件一致3、我们采用以下不同的虐待措施：DFP R=P（y≡i≠yi|yi=1，i∈S）−P（y（i≠yi|yi=l，igS）（5a）DFNR=P（y≡i≠yi|yi=0，i∈S）−P（y{i≠yi|yi=0，igS）（5b）为了报告总体不同的不当治疗，我们将这两个指标合并为数量：|+的|D F NR|（5c）|(5c)2.3以前的工作旨在减少分类不公平性的工作可以分为以下方法：a）预处理训练数据，b）在公平性约束下训练，c）尝试主题：Web与社会WWW 2018，2018年4月23日至27日，法855联系我们（）−（）（）下一页（）（）基于训练数据预处理的方法旨在从训练数据中去除不同的影响，假设训练分类器的不同影响跟随训练数据的不同影响。这种方法包括通过改变由于偏差而被识别为错误标记的类别标签来按摩数据集[3，13，16，24关于按摩技术，必须注意的是，即使在偏见问题下，改变训练标签也可能导致法律影响[1]。在公平性约束下训练的方法选择不同的影响或虐待度量，并尝试通过编辑规则本身[4，44]（例如，通过插入适当的正则化项以实现公平性）或通过引入反映期望的优化目标的适当的线性规划约束[6，11，18，39，42最后，某些方法试图以满足公平性约束的方式编辑后验[9，10，12，20]。这种策略通常以某种形式的基于组的阈值为中心必须指出的是，这种系统需要有关敏感群体的信息才能作出适当的决定。虽然Hardt et al.[20]认为，可以通过远程获取敏感和非敏感群体之间的不同决策规则并在当地适用适当规则来缓解隐私问题，但在某些法律环境下，这种做法可能仍然不适用，因为它们引入了不同的待遇。2.4数据集编辑缺陷在本小节中，我们讨论了以前的数据集编辑公平感知机制中的三个常见缺点预处理的局限性数据集编辑方法通常通过定义训练数据中的偏差类型，然后尝试在统计上消除它们来制定。这个过程确实适合于减轻简单的数据集相关的偏见，但未能考虑到更复杂的不公平来源例如，可能存在较弱的特征相关性（例如，相关性不显著）。通过未观察到的特征的相关性链，这可能需要外部解释属性来识别[4]），其仅对敏感组的子集造成偏见此外，某些数据可能仅对某些类型的分类器造成偏差例如，线性分类器可能难以消除非线性类型的偏差。由于偏差是通过高度复杂的系统出现的，而这些系统往往表现出非线性行为，因此很难识别即使采用统计学上最优的方法来消除数据集偏差，也会引入逆偏差因此，统计模型通常达到保证正确但不一定完全处理训练偏差的最低条件。例如，通常的做法是假设鲁棒分类器的较高预测误差表明错误标记的数据[16]，但我们表明（参见子节4.2），这种-否则直观-假设丢弃了分类误差与敏感和非敏感组的错误标记不同在4.3小节中，我们提出了一个统计模型，该模型考虑了这些差异，并且可以进行训练以满足各种公平性目标。无法证明完全不同的不当治疗消除的合理性。不一致的误分类是一个新出现的公平性问题，其原因是难以在组间达到相似的误分类率，而不是直接的数据集偏差。由于我们不能将这种担忧归因于有偏见的数据，因此很难证明试图处理数据集的不同误治消除方法是合理的。此外，由于完全不同的误治不一定由完全不同的影响引起，因此构建相对于完全不同的影响无偏置的数据集不处理完全不同的误治。换句话说，迄今为止，数据集偏差和不同的虐待之间的关系仍然不清楚当试图开发以不同影响消除以外的目标编辑数据集标签的按摩方法时，这种损害更加明显;据作者所知，在标签编辑过程中不存在开发不同的虐待消除程序的明确（道德或法律）理由，因为它不能归因于任何先前提出的数据集偏差来源。例如，即使在Feldman等人的精心制定的部分数据集修复机制[13]，不可能在法律上证明进一步编辑标签以删除不同的不当处理是合理的，因为已经处理了与数据集相关的偏倚在这项工作中，我们试图通过重新加权方案绕过这些限制，从而发现样本权重，而不是编辑训练标签，以达到相同的目标。3自适应灵敏重加权3.1培养目标我们的分析是在二元概率分类器上进行的，它为样本i（具有特征 xi ）和每个类别标签 Y0 ， 1 产生概率估计PY=yi=1PY≠yi。这样的分类器将类别标签估计为：y=argmaxP（Y=y）=argminP（Y≠y）（6）它们通过简单的随机分析，并开发特定的消除策略，只使用训练数据。相反，它可能更多我Y∈{0，1}我我Y∈{0，1}在一些实施例中，所述方法提供信息以直接观察偏置对分类器的影响并且在训练时适当地遵循这一思路，在这项工作中，我们提出了一个自适应方案，它迭代地适应训练数据，直到相对于在此数据上训练的分类器启发式统计模型。数据集编辑方法的另一个缺点是引入了关于不公平性质的特别假设，最突出的一个是分类器偏差密切跟随训练数据的偏差。虽然两者之间经常存在高度相关性，但其他结构性困难可能导致偏差消除或为了便于理解，我们更倾向于参考估计的标签误差P（Y≠yi），因为对于良好校准的分类器，P（y（i≠yi）接近误分类误差P（i≠yi），这通常是学习过程的期望最小化目标。如前所述，这项工作假设不公平通常是由数据集中的倾斜组和标签分布引起的然而，可用的基础事实可能并不总是受到偏见的影响，而是由于其他原因而产生不同的误处理，例如敏感组与某些属性之间的相关性为了避免混淆，我们提出了一个共同的制定不同的公平目标的分类对于训练样本i，特征xi主题：Web与社会WWW 2018，2018年4月23日至27日，法856.（）下一页（）下一页.（）下一页（）下一页（）下一页wiP（yi≠yi）−P（yi≠yi）图1：概率分类器训练。我为了解决这些矛盾，我们建议为训练样本i选择权重wi，使数据标签上的加权训练等同于底层标签上的未加权训练。这样，我们可以专注于估计有助于实现所设计的公平性目标的权重，而换句话说，我们试图最小化观察标签上的加权误差以及加权观察标签和未加权底层标签之间的距离minwiPyi≠yiimin..ˆˆˆ ˆ ˜Σ2和类标签yi，存在底层（即，不可观察的）类标签y~i，其产生符合指定的公平性和准确性权衡的估计标签y（i）。在这种设置中，训练目标是双重的：a）使分类器产生准确的预测，即minimize Py（i≠yi and b）make分类器预测接近底层标签，即尽量减少为了简化的目的，在本文中，我们设置第二个迷你-在一些实施例中，将权重优化目标设定为0，并且尝试分析地导出权重wi，而不是利用基于梯度的方法朝向它们调谐，如根据等式（1）。7. 在未来的工作中，可以进行训练，以尽量减少基础和加权估计之间的差异，而不是分析计算，以使收敛更强大的噪音。minwP（y≠y）（7a）Py i ≠ y~i。②显然，同步训练有难度当数据标签和底层LA-我我我我ˆ ˆ贝尔不重合。训练数据标签可以通过图1所示的方案来1和训练对底层标签可以通过图1中所示的方案实现二、图2：直接在可观察的期望标签上训练这在道德上或法律上都是有问题的。此外，在某些法律环境下，估计底层标签并直接因此，不仅应该在原始数据标签上进行训练，还希望完全避免对底层标签的任何观察在这方面，图中所示的方案二是不够。2概率最大化等价于损失最小化：对于计算的损失LiwiP（y（i≠yi）=P（y（i≠y~i）i（7b）与以前处理数据集偏差的工作相反，我们假设Pyi≠y~i不能通过简单的样本或组特定依赖性来估计。相反，在第4节中，我们提出了一个模型，该模型除了知道样本i是否属于敏感组之外，还使用条件概率来基于Pyi≠yi做出更明智的估计。这样的模型允许分类器满足所有先前概述的目标，即在对适当加权的原始训练标签目标进行训练的同时估计底层标签。这在图1D中更3.第三章。图3：在不可观察的期望标签上训练这样的过程将培训计划的重点转移到了对于样本i，我们可以表示为Li∝P（y（i≠yi））。我们提供概率公式，覆盖概率估计模型可以训练因为它允许我们以理论上合理的方式推断条件关系P（yi≠yi）主题：Web与社会WWW 2018，2018年4月23日至27日，法857（）下一页（）（）（）下一页（）iiiC（）iiˆ ˜ˆ）然后适当地重新调整这些重量，重复这些步骤（|）≈（|）≈（）P yiyi而联系我们ˆˆj∈D.而不是自己去寻找潜在的标签与启发式定义标签编辑过程相比，这是一个实质性的改进3.2为什么未观察到底层标签？基本上，Eq中的训练目标7等同于在底层标签上训练分类器然而，如果我们仅使用Pyi≠yi来充分估计Pyi≠y~i，则我们可以仅使用原始训练标签yi来训练这些标签。以前的作品（例如Calders等人的原始按摩方法。[3]）尝试推断并直接利用底层标签。然而，我们避免这样做，因为不直接观察这些标签会产生三个显著的优势。首先，分类器不能被指责是在伪造的数据上训练这种做法在道德上或法律上都是有问题的，但作为标签编辑形式的“伪造”是出于好意。相反，分类器在标签y1上被训练用于帮助其实现其目标的权重，这是机器学习中广泛接受的其次，我们可以选择用于估计Pyi≠y〜i的模型这允许针对不能被表述为训练数据中的缺陷的目标进行训练。事实上，训练目标包括无偏的底层标签发现，而不是训练数据标签发现。由于所发现的底层标签不直接用于训练，因此我们可以选择概率估计模型，该概率估计模型针对除了简单的不同影响之外的目标进行训练，诸如不同的误治或公平性和准确性权衡。第三，不需要引入关于重新标记应该如何跨类和/或组分布的类似按摩的启发式。这样，底层标签分布变得比识别哪些样本标签有偏差更重要。这一属性很重要，因为数据与某些不公平概念之间的关系尚不清楚，但存在明确的定义标签分配是否遵循公平的概念3.3训练算法为了同时调整训练权重以及分类器训练，使用Eq.7，我们采用分类器不可知的迭代方法，其中我们首先基于均匀权重和假设只有在基础概率估计模型没有充分地对期望的基础标签进行建模时，自适应模型才不能收敛否则，只要估计器模型是凸的，局部性就被保持，并且因此更新过程最终应当收敛到最优权重的点或轨迹我们在6.1小节中通过实验证明了这种行为。最近的作品[17，44]偶尔会提出类似的迭代方法作为基线进行比较。然而，我们的工作不同之处在于，它采用了推断，而不是启发式模型来产生偏差相关的概率（见第4节）。4基础标签误差估计4.1动机在前一节要做到这一点，我们提出了一个模型，执行凸扰动的分类器误差参数化的原始和底层标签之间的偏差敏感和非敏感组样本。然后，该模型可以用于估计有助于实现各种公平性目标的权重在本节中，我们将解释为什么此过程优于更简单的基于误差的加权（例如以及为什么它可以朝着更常见的公平目标进行微调。4.2误差加权不充分先前对敏感性重新加权的尝试（例如[17，44]采用的基线）7a应该与分类器误差成比例。然而，通过求解Eq. 7b这导致：wi≈P（y（i≠yi）P（y（i≠y~i） ≈P2（y（i≠yi））此外，该假设忽略了源于匹配与匹配的分类器误差的差异。非匹配数据集和底层标签。贝叶斯规则产生：（直到收敛。该过程在算法1中指定。算法1自适应灵敏重新加权=P（yi≠yi|yi=y~i）P（yi=y~i）+P（yi≠yi|yi≠y~i）P（yi≠y~i）（八）函数权重（分类器C，数据D，敏感组S）因此，由于1、拟定条件wi←1i ∈ D√P（yi=yi）+P（yiyi）=wi，prev.←1+ϵ∀i∈ D2WJ只有在以下情况下才能始终为真在样本i=（xi，yi）∈D和权重iw得到P y 辛y。使用P（y（i≠yi）i∈D估计P（y（i≠ y~iP（yi≠yi|yi=y~i）≈P（yi≠yi|yi≠y~i）≈P（y（i≠yi）然而，上述条件不可能对每个数据集都成立，因为错误分类的数据集的任何序列都是错误的。wi，prev←wii∈Dwi←P（yi≠yi）/P（yi≠yi）i∈D（见第4节）逐渐变得独立于期望的底层标签（例如，逐渐变得无偏）收敛到矛盾的返回训练好的分类器C，{wi}˜ˆˆ˜ˆˆ2根据我们之前的公式，我们直接设置新的权重估计，而不是部分编辑现有的权重估计。我们这样做是根据P yi ≠yiyi = yiP yi ≠yiyi ≠ yipyi ≠yi≠Pyi ≠伊岛换句话说，先前提出的启发式不能总是成功地消除偏见。i ∈D（wi −wi，prev）使用主题：Web与社会WWW 2018，2018年4月23日至27日，法858.Σ..我我.Σ∈ [−]| （）下一页 |()–（±）SS.Σ→∞SS（SS）→（（）下一页P（yi≠ yi|yi≠ y~i）=LβiS||||SP（y（i≠yi）P（y（i≠yi））他们之间–.Σ4.3凸底层标签误差扰动（CULEP）模型在这项工作中，我们认识到，条件分类器的错误可以是不同的，当底层标签与原始标签相一致时，相比之下，当他们不这样做，如果分类器错误会被高估将上述公式代入Eq.7b我们得到：wiP（y（i≠yi）=P（y（i≠y~i））wiP=Lβi±P（yi≠yi）P（yi≠yi）qi与在原始标签和底层标签重合的情况下的估计相比，则在它们不重合的情况下将被低估换句关键词：+Lβi P通过前述命题获得的该凸底层标签误差扰动（CULEP）模型可以重写为：.P（yi≠yi|yi=y~i）−P（yi=yi）Σ。P（yi≠yi|yi≠y~i）−P（y（i≠yi）Σ<0wi=.αiLβi.P（yi≠yi）ΣΣ+（1−αi）Lβ.I.−P（yi≠yi）ΣΣ为了满足这一特性，我们提出了估计这些条件概率扰动分类器误差的训练样本。为此，我们将其与通过非递减βi=βS如果i∈SβS′ifigS≥0 αi=αS如果i∈SαS′ifigS[0，1]（十）凸函数pi）彡0，Lβ0）=1的扰动参数-terspi1，1，其Lipschitz常数与βi成正比。3不失一般性，我们将扰动参数建模为pi =Pyi≠yi，其中它们的符号取决于是否有条件概率被高估或低估。由于概率空间是连续的，因此在扰动期间是否高估或低估原始和潜在的标签重合应在整个训练样本中保持。采用上面的符号4可以写为：P（yi≠ yi|yi=y~i）=Lβ±P（yi≠ yi）P（yi≠ yi）对于qi的每个选择，，参数αi可以根据的符号计算为αi=qi或αi=1qi。因此，当调整Eq. 10，只搜索α i的值就足够了，而不是同时搜索q i的值和±的符号。4.4用CULEP模型实现公平在本小节中，我们讨论了CULEP模型如何允许我们选择方程中的参数10，以便我们可以朝着准确性、消除不同影响和消除不同误治目标进行培训因此，可以调整这些参数i.ˆΣ ˆ（见第5.4小节），以满足各种此类目标或权衡敏感组和非敏感组’可以遵循不同的错误分类偏差，这些偏差以不同的方式（例如：女性分类器误差的变异系数错误标记为雄性的可能与错误标记为雄性的不同组以产生不同的扰动：准确性目标。当所有训练权重相等时，实现了朝向分类模型的最大准确度的训练即wi=1iβS=βS′=0。DiS.分离我的Σt处理对象。Asαi→1我们得到wi→雄性）。因此，我们在这些之间选择不同的Lipschitz常数LβiP（yi≠yi），因此对错误分类的重要性更高βi= .βS如果i∈SΣ并因此对正确分类的样本给予更高的重要性因此，αi ∈ [0，1]之间插值正确βS′ifigS最后，条件概率估计需要有偏或不充分标记的概率这些概率在敏感组和非敏感组之间可能不同（例如，在敏感组和非敏感组之间）。数据集构造可能在男性之间是公正的，并且仅对女性有偏见），并且可能受到许多未知的社会和数据集相关参数的影响然而，只要这些参数在数据集创建期间保持近似恒定（例如，因为所有的数据都是在相同的时间段内从相同的区域收集的因此，数据错误标记将以固定的概率发生，这取决于样本是否属于敏感组，并且可以被建模为两个伯努利过程，一个用于具有平均值qS的敏感组样本，另一个用于非敏感组样本具有平均值qS′的样本：vs. 每个样本的分类不正确作为βi，这些权衡支配与相应样本有关的分类器训练基于这些观察结果，我们识别出两个关于DFPR和DFNR体征的不同治疗病例：a) DF PRDF N R>0，即假阳性和假阴性对于敏感组两者都被高估或两者都被低估在这种情况下，与非敏感组样本误分类相比，敏感组样本误分类更加重要，因为α，α′0，1。当（αS，αS′）→（1，0）时，情况正好相反。这意味着|和|D F N R|随着α i的值向1移动而减小|are reduced as values of αimove towards one这两个对跖点。足够大的β和/或β’可以以最小化这些度量中的任一个或它们之间的权衡的方式放大这种效应。b) DF PRDF N R0，即假阳性和假阴性不是<同时高估或低估敏感P（yi≠y~i）=qi=.qS如果i∈SΣ组在这种情况下，我们获得与DFPr和DF N R为（α S，α S′）→（0，0）或（α S，α S′）→（1，1）。类似地qS′ifigS3若函数的导数存在，则其Lipschitz常数与导数的上界一致。凸x函数，如expβip，在有界集上是Lipschitz连续的[22].4±表示正号或负号，表示相反的符号。到之前，对于足够大的β和/或β’，当αi朝向这两个对映点中的一个移动时，可以最小化DFPR和DFNR不同的影响目标。正发现对每个错误分类权重更高或更低更敏感样品而当αi→0时，我们得到wi→Lβi主题：Web与社会WWW 2018，2018年4月23日至27日，法859S SS S组因此，存在增加或减少正发现的参数α、α’因此，还存在使pRule最大化的足够大的β、β’。综上所述，我们可以看到，CULEP模型引入了四个自由度（每个参数一个），关于误分类率的正或负重要性以及敏感和非敏感组的重要程度因此，这些参数能够对准确性和减轻与误分类相关的量上的敏感和非敏感组差异（例如，不敏感组差异）有不同的重要性。不同的误治度量）或发现（例如，不同的影响度量）。5实验设置5.1数据集为了断言我们的方法的有效性，我们实验两个合成数据集遭受不同的虐待以前提出的扎法尔等人。[41]，以及三个著名的真实世界数据集：成人收入数据集[32]，来自UCI存储库的银行营销数据集 [37][35] 和犯罪累犯的 ProPublicaCOMPAS数据集[33]。遭受不同误治的两个合成数据集包括具有2个特征（二进制敏感标签和二进制分类标签）的10，000个样本。它们的特征通过二元正态分布获得，选择二元正态分布使得它们的敏感标签分别产生DF PRDF N R0和相反符号DF PRDF NR>0，用于逻辑回归分类器。<通过这种方式，我们可以探索我们的方法处理4.4小节中识别的两种不同的虐待案例的能力。在FPR和FNR之间具有相反的不同误治迹象的合成数据集，我们称之为SynthOpp，通过对以下分布进行2，500次采样来构建：xi，yi=1，igSN（[2，0]，[5，1; 1，5]）xi，yi=1，i∈SN（[2，3]，[5，1; 1，5]）xi，yi=0，igSN（[−1，−3]，[5，1; 1，5]）xi，yi=0，i∈SN（[−1，0]，[5，1; 1，5]）在FPR和FNR之间具有相同的不同误治迹象的合成数据集，我们称之为SynthSame，通过对以下分布进行采样构建，每个分布2，500次xi，yi=1，igSN（[1，2]，[5，2; 2，5]）xi，yi=1，i∈SN（[2，0]，[10，1; 1，4]）xi，yi=0，igSN（[0，−1]，[7，1; 1，7]）xi，yi=0，i∈SN（[−5，0]，[5，1; 1，5]）Adult数据集包括48，842个测试样本，具有14个特征和一个二进制标签，指示收入是否高于50K。对于这个数据集，我们认为性别是敏感特征。Bank数据集包括41，188个样本，其中包含20个特征和一个二进制标签，指示客户是否订阅了定期存款。对于该数据集，年龄小于25岁和大于60岁被认为是敏感的。我们选择了之前用于公平性实验的COMPAS数据集的一个子集[44]，该数据集包括6，150个样本，具有五个特征（年龄类别，性别，种族，先验计数和收费程度）和指示被告是否在两年内重新辩护的二进制标签种族被认为是敏感的属性，为了使其二元化，我们遵循早期的方法，只选择黑人和白人个体。必须注意的是，所选择的特征旨在促进与先前方法相当的公平性实验，而不是高预测准确性。5.2公平目标公平性感知分类器通常能够训练以实现对各种公平性度量的调节。同时，他们需要尽可能地保持基本分类模型的准确性（acc）否则，它们的产出可能会产生误导。当分类器以多个目标为目标时[19]，它可以采用线性标量化，其中在目标之间设置线性权衡，或约束单个目标的ε约束由于通常存在不同影响的法律界限（例如80%规则），但不适用于误处理，更容易将不同的影响表示为ε约束，将不同的误处理表示为线性标量化。然而，Miglierina et al.[36]从理论上说明了这两类目标之间的二元性。此外，更容易调整Eq. 10在一个线性比在一个受约束的空间。因此，我们选择通过为所有公平性目标设置线性标量化目标来放松训练特别是，成人和银行数据集通常被认为受到不同的影响，因此我们训练CULEP模型以消除不同的治疗，同时保持准确性：max（acc+pRule）另一方面，COMPAS和合成数据集被认为包含合理的基础事实，因此我们更加强调整体不同的误治消除，如前面在第2.2小节中所讨论的。对于我们的实验，我们认为准确性对每个公平性约束同等重要：最大值（2 acc − |DF PR|--|DFN R|）5.3验证对于成人和银行数据集实验，我们执行70：30随机分割，对于COMPAS和合成数据集实验，我们执行50：50随机数据分割以获得训练和测试数据。这些分裂是由以前的作品探索这些数据集，从而使我们的结果是跨方法的可比性在这两种情况下，我们使用训练集来调整算法1上的CULEP模型，然后在训练集上训练基础分类器我们只使用评估集来计算结果分类器的准确性和不同的影响以及误处理消除为了稳健性，我们再次遵循先前方法的验证方法，其重复该过程5次并报告实验中的平均测量值。我们采用没有正则化的逻辑回归作为我们选择的基本分类器。为了加快训练时间，我们通过除以它们的平均值来规范化真实世界数据集中的数值属性我们编码的名义属性使用一个热的计划，将它们转换为二进制数组。最后，CULEP条件概率被建模为高斯过程，这是一种流行的通用模型主题：Web与社会WWW 2018，2018年4月23日至27日，法8602∼·（/）N我我i，prev（例如：局部），避免不同的治疗可能仍然很重要在随机分析中，因为它经常出现在各种物理和理论系统中：Lβi（p）=exp（βip）5.4训练CULEP模型方程式中概述的CULEP模型10是非线性参数模型，因此调谐需要精确。此外，算法1可以表现出非平滑行为，因为不同数量的调整可以由不同的参数选择引起因此，为了优化CULEP参数，我们采用DIVIDED RECTangles（DIRECT）方法[14，15，23]，该方法保证在Lipschitz连续目标空间中产生全局最优解因为一个S，一个S′位于[0，1]中，作为概率或概率的补数能力，bS，bS′为非负常数，exp（βp当均方根编辑接近零时，算法1接近（局部）最优权重。另一方面，如果均方根编辑接近固定常数，则自适应方案以接近全局最优的局部不稳定方式在类似权重之间交替。因此，只要权重编辑接近固定值，我们就可以认为权重收敛到稳定状态。在图4中，我们可以看到权重编辑在所研究的数据集的非常少的迭代中收敛。然而，它们不会立即稳定，而是需要少量的重复来收敛到固定值。此外，我们可以看到，在权重收敛之后，与第一次迭代相比，目标函数产生了实质性的改进这些发现与我们的假设一致，即单步方法不足以完全发现适当的权重，并且应该进行更多的迭代对于较大的β，收敛到更高的变异系数，我们搜索21.4空间（aS，aS′，bS，bS′）∈ [0，1] × [0，3]2中的最优参数.1.81.2用算法1在训练集上的完整运行来评估参数的每个组合。5.5比较方法Zafar等人先前测试了各种公平意识方法，用于消除成人数据集上的不同影响[44]和消除COMPAS数据集上的不同虐待[41]。我们将我们的方法与他们报道的产量更高1.61.41.210.80.60.40.2012345678910个迭代10.80.60.40.20123456七个迭代8910个其余的结果这些在我们的实验中比较的方法是：ASR+CULEP。使用如本文通篇所述的CULEP模型的自适应敏感重新加权，其可用于减轻不同的影响和不当对待。我们的实现可以在线获得。5协方差Zafar等人提出的模型[41，44] em-利用协方差来近似线性规划约束，以减轻不同的影响[41]和误治[44]。组阈值。Hardt等人提出的模型[20]为消除不同的虐待。正则化器Kamishima等人提出的方法。[28]消除与偏见有关的不同影响。它遭受不同的处理，因为它考虑到样本在分类期间是否敏感。6结果6.1探索融合在本小节中，我们将探讨算法1向最优权重的收敛性以及对目标函数的影响通过这种方式，我们可以得到关于收敛速度的一般想法，以及在我们的计划中多次迭代的效果为了探索选择CULEP模型参数后的收敛性，我们在训练数据上测量了5.2小节中为每个数据集我们还测量了根均值算法1的每次迭代上的平方加权编辑图4：使用经训练的CULEP模型对算法1中的每次迭代的数据集进行客观和权重编辑，以重新估计潜在的标签误差（对于合成数据集避免了不同的处理）。ASR在收敛之前仅重新训练基本分类器几次（5）此外，DIRECT训练实现了精确估计到小数点后第五位（这在经验上是足够的）的四个CULEP参数在最多日志 2 - 3 - 0。000005 24=320个ASR评价因此，ASR+CULEP最多训练基础分类器320 5=1，600次。虽然这种计算成本对于更复杂的基础分类器可能是禁止的，但是它在没有进一步近似的情况下线性缩放，因此适合于更简单的分类器，例如逻辑回归。6.2不同虐待的结果我们的实验，不同的治疗，试图探讨消除不当时，不同的治疗是避免和不。在第一种情况下，我们在训练和验证数据集中不包括敏感组的信息，而在第二种情况下，我们这样做。必须注意，并非所有分类器和数据集都可以解释不同的治疗。例如，在COMPAS数据集中，去除敏感组特征，即种族，对于探索的数据集产生不充分的预测水平，而组阈值方法固有地需要关于敏感组的信息。虽然Hardt et al.[20]争论，1.（w −w）2可以在没有信息公开的情况下执行阈值处理其中N是训练样本的数量。5https://github.com/MKLab-ITI/adaptive-fairness在某些法律环境中。我们的ASR+CULEP模型与以前的模型进行了比较，基于其消除整体不同误治（即尽量减少|DF PR|和|DF N R|）.成人银行COMPASSynthOppSynthSame成人银行COMPASSynthOppSynthSame目的权重编辑····主题：Web与社会WWW 2018，2018年4月2

下载后可阅读完整内容，剩余1页未读，立即下载