没有合适的资源?快使用搜索试试~ 我知道了~
10410计算机视觉中的水平下降:公平深度分类器中的Pareto非有效性Dominik Zietlow1,2,†,,Michael Lohaus1,3,†,Guha Balakrishnan4,Mattha? usKleindessner1,Francesco Locatello1,Bernhard Scho? lk opf1,2,Chris Russell11AmazonW eb Services,Tubingen,2MPI-IS Tubingen,Germany,3Uni versity ofTubingen,Germany,4Rice Uni versity,USA摘要算法公平性通常是出于权衡的目的,在这种权衡中,整体性能会降低,以便提高对弱势群体的性能,否则算法将不太准确。与此相反,我们发现,将现有的公平性方法应用于计算机视觉,通过降低所有组中分类器的性能来提高公平性(其中表现最好的组的性能下降幅度更大)。将分类的偏差方差分解扩展到公平性,我们从理论上解释了为什么为低容量模型设计的公平性方法的主要部分不应该用于涉及高容量模型的设置中我们用广泛的实验支持证实了这一分析,这表明计算机视觉中使用的许多公平算法也会降低最弱势群体的性能基于这些见解,我们提出了一种自适应增强策略,独特的,所有的方法测试,提高性能的弱势群体。1. 介绍高容量神经分类器在大多数计算机视觉任务中实现了最先进的性能,通过整体测试集准确性进行评估。然而,研究人员一直在认真研究这些模型的不公平性。在这里,我们使用1这些准确性的差异可能会损害某些人群,因此,许多训练模型的策略,nity(DEO)[36]比较了各组的真阳性率。许多最近的计算机视觉公平性研究都是由最初针对低容量模型的公平性-准确性权衡所推动的[1,2,15,22,47,56,85],其中表现较好(通常较大)的群体的高准确性是以表现较差(通常较小)的群体的较低准确性为代价的。在这种情况下,可以通过降低表现最好的组的准确性并提高表现最差的组的准确性来提高公平性,参见图1中的模型A和B。我们重新审视了这种权衡,并表明当使用计算机视觉中流行的高容量神经分类器时,它并不成立(见图2)。相反,许多公平性方法降低了所有组上网络的准确性,对于性能更好的组,会发生更大的降低。这增加了公平性,但代价是产生一个性能较差的分类器(图1模型C)。通过降低富裕群体的表现来平衡公平的现象在法律和哲学中被称为leveling down,它受到了大量的批评[12,19,26,41,57]。我们所关注的行为甚至比典型的拉平更为极端如果公平性方法降低了所有组的性能,则它们在组准确性方面是帕累托无效的2例如,我们发现,对于通过DEO公平性度量正则化的CelebA [52]上的分类器,公平性的增加是以每个组(包括表现最差的组)的性能下降为代价的(见图2)。我们把这个问题两个问题:亚组之间的准确性的各种措施已经确定,[2,5,33,85]。通常,这种方法通过比较不同组之间的准确性相关比率来量化不公平性,例如均等机会差异。†在AWS实习期间完成的工作通讯作者zietld@amazon.de[1]在这项工作中,我们关注的是比较各组准确性的公平性指标。这与人口统计学平价[14,28]等衡量标准形成对比,人口统计学平价与每个群体的积极决策比例相2.关于公平的各种著作都利用了帕累托效率。它既被用来指权衡全局准确性与公平性的概念[76],也被用来指权衡每组准确性与公平性的概念。彼此[56]我们只提到第二种情况。10411一∈A联系我们联系我们最小集团帐户A B C最大集团核算最小集团核算我0.920.900.880.860.840 5 10 15DeoII929088868482800 5 10 15Deo图1. 帕累托曲线我们描述了大多数计算机视觉公平性研究所假设的典型权衡。分类器家族在其最佳和最差表现组上的准确率形成了帕累托曲线(灰色虚线)。点A和B是位于曲线上的最大有效配置; B更公平,组间的准确性差异更低(见右图)。C点与B点一样公平,但效率低下,因为它降低了两组的准确性。将基于准确性的公平性方法应用于深度网络往往会导致像C这样的低效配置高容量分类器几乎完美地拟合训练数据:公平社区中的大多数方法都是针对低维数据设计的,其中分类器无法很好地拟合来自多个不同分布的数据,即使是在训练数据上[1,2,15,22,36,47,56,85]。计算机视觉的情况并非如此,高维数据和高容量模型意味着接近零的训练误差是常见的[87]。因此,与完美分类器相一致的公平性概念在训练数据上得到了微不足道的满足。不幸的是,大多数现有的方法没有考虑到这一点,并对训练集实施公平性约束[2,10,22,24,25,27,44,47,53,56,61,82,85]。公平性评价方法不当:大多数介绍公平性方法的论文报告了准确性和公平性度量(如DEO)的组合,并将准确性降低和改进的公平性度量作为该方法成功权衡公平性与准确性的指标[2,65,66,81,82,85]。学习模型是否能更好地适用于更多不同的群体,这一关键问题因此,度量的选择可能掩盖分类器的系统性劣化,其中准确度在所有组中降低,而不仅仅是在高准确度组中。为了克服这些局限性,我们做出了三个贡献:1. 我们重新审视了将测试数据的公平性简单分解为训练误差(偏差)和泛化误差(方差)的偏差-方差权衡,并观察到在训练误差为零的情况下,任何公平性度量都必须由泛化误差主导因此,不使用保留数据进行公平性约束的方法不能适用于图2. 准确性-公平性权衡。我们在CelebA上训练了多个公平模型。受保护的属性是损失[61,83]。在(I)中,我们绘制整体准确性与公平性度量DEO(低即公平)的关系图。正如预期的那样,公平性的改善伴随着准确性的损失然而,这需要额外的费用;正如我们在(II)中看到的,最差组准确度也随着DEO的提高而降低。计算机视觉中常见的高容量分类器。2. 我们对现有的公平性方法进行了广泛的评估,结果表明,他们报告的公平性指标的改善伴随着所有组的表现更差。3. 为了证实我们的理论分析,即更好的泛化是提高最弱势群体绩效的关键,我们探索了数据增强与自适应采样相结合的使用。我们提出了一种新的基于GAN的增强,并表明它通过提高CelebA数据集上最弱势群体的准确性来提高公平性2. 相关工作公平的概念:我们专注于公平的概念,旨在平衡人口亚组之间的分类器错误,例如,通过匹配性别或不同种族群体的错误率。见[78]其他形式的公平的总结,[79]当这样的定义是不适当的。一种常见的公平性衡量标准是这需要分类器在每个子组上具有相等的真阳性率(TPR)。 我们使用重新-对于受保护的属性集,如race或gender,Y0、1引用数据的真实标签-点,且Y0,1的预测Y。F或两组a,a'对机会均等的侵犯是通过机会均等(DEO)定义为:|P(Y=1|Y=1,A=a)−P(Y=1|Y=1,A=a′)|.(一)0.5一0.0BC(效率低下)高颧骨嘴微微张开微笑精度最大集团会计精度最小集团帐户10412Σ−|∈FX → Y我们通过以下方式测量均衡赔率(DEOdds)的差异:|Y=y,A=a)−P(Y=1|Y=y,A=a′)|.|. (二)y最近感兴趣的另一个公平性概念是最小-最大公平性[22,55]。与EO(以及其他组公平性概念)相反,最小-最大公平性并不使组间的统计量相等,而是仅努力尽可能地减少具有最高错误的子组的分类错误。 形式上,最小-最大公平性方法优化最小最大P(Y≠YA=a)。(三)Y a∈A作为最小-最大公平性的度量,我们报告最小组准确性(即,1误差),并且类似地最小组TPR。注意,最小组TPR通过常数分类器Y=1平凡地最大化。虽然这些错误匹配公平性的许多变体3.所有措施的动机大致相同:以防止多数人的暴政,在多数人的暴政中,为了在较大的群体上实现更高的准确性而忽略了对较小群体的准确性。计算机视觉中的公平性:在基础工作[13]确定了面部分析系统在特定种族和性别人口统计数据上的系统性缺陷之后,算法公平性在计算机视觉界引起了越来越多的关注。已知图像数据集由于采样不平等而存在偏差[3,64,75],并且人脸数据集已被特别审查[6,45,49,50,58],因为在这些数据上训练的模型可能会在受法律保护的属性方面表现出系统性故障[46]。减轻数据集偏差的多种方法包括收集更多样化的示例[58],使用图像合成来补偿分布间隙[6,50,72,74,82]和重新定位[51]。最近,已经提出了一些方法来减轻基于深度学习的视觉模型的系统性偏差[18,30,34,40,44,51,65,66,80,81]。在计算机视觉之外,最常见的方法为损失函数添加额外的公平性度量[9,47,53,61,69,83],强制执行独立于受保护属性的公平表示[10,29,54,86],并增加训练数据以促进平衡[66]。这些研究中的大多数都假设了准确性-公平性的权衡,我们发现这可能导致深度神经网络的次优训练或误导性用于最小-最大公平性的主动采样:虽然[22,55]的方法通过重新加权和重新训练来实现最小-最大公平性,但[ 1 ]的最新方法使用[3]作为起点,[79]确定了17个基于准确性的措施,包括最小-最大公平性。自适应采样和标准SGD更新以最小化(3)的可微代理。这使得后一种方法很容易适用于深度神经网络训练。3. 低容量和高容量分类器本节概述了在计算机视觉中常见的高容量分类器中执行公平性特别是,我们专注于基于准确性的公平性概念,旨在匹配各组的准确性。正如Wachter et al.[79],任何基于准确度的公平性度量4由具有零误差的分类器平凡地满足。然而,由于公平性文献中使用的典型数据集(参见[2,43,85]的一系列示例)是低维的,并且具有大量的标签波动性(参见第3.1节),因此即使在训练数据上,也不会出现零误差的分类器训练一个低容量的分类器与准确性为基础的公平性约束的训练集是一种常见的方法。在训练误差仍然很高的情况下,即使仅对训练数据实施公平性约束,这种方法也可以保持有效。当在计算机视觉数据集上强制执行基于深度学习的分类器这样的数据集在经验上是可粉碎的[77]。即使训练集中的图像被随机重新标记,也可以在训练集上学习零误差的分类器[87]。在这样的场景中,基于准确性的公平性定义在训练集上被在下面的小节中,我们将正式定义训练公平性和保持数据公平性之间的差距,并讨论其对计算机视觉的影响。3.1. 分类的偏差-方差分解在统计学中,通常将误差分解为三个项:不可约的标签噪声N,表示回归量拟合数据集的偏差B,以及表示推广到新数据时引起的额外误差的方差V标准分解是围绕平方损失[31]进行形式化的,扩展到零-一损失[48]并推广到任意损失[23]。我们建立在后一个公式的基础上,我们以一种浓缩的方式进行总结-更多细节见[23] 我们认为学习f的任务其中f(x)应该是输入点x的标签y的良好预测。预测的质量由损失函数L:Y × Y →R来衡量。输入x的最佳预测为y(x)=a rgminy′Ey|x[L(y,y′)],模型f在x上的期望损失是Ey|x[L(y,f(x))].条件期望对应的事实是,4 Wachter等人。将这些基于准确性的度量称为偏置保持公平性度量。10413通常,标记y是输入x的非确定性函数。我们基于训练集Dn={(x1,y1),. -是的-是的,(xn,yn)},并且为了消除依赖于Dn,我们考虑ED,y|x[L(y,f(x))]作为3.2.1低容量分类器的公平性对于低容量模型,方差受噪声和偏差的强烈支配[37]。即NG+BG<$VG期望损失nf在x后者是利息的数量并且公平性违反可以近似为我们想把它们分解成偏差方差和噪声我们将x上的主预测ym(x)定义为ym(x)=a rgminy′EDn[L(f(x),y′)].这允许定义固有噪声N(x)(特定数据点的标签不一致引起的预期误差)、偏差B(x)(系统模型不完善引起的误差)和方差V(x)(与主预测的误差差异):B(x)=L(y∈(x),ym(x)),(4)V(x)=EDn[L(ym(x),f(x))],(5)N(x)= Ey|x[L(y,y<$(x))].(六)如[23]所示,对于某些损失函数L(包括但不限于平方,零一损失和假阴性率5),我们可以分解Efair|NA+BA−NB−BB|.(十四)重要的是,NG+BG可以直接从每组训练集估计,因此在训练时匹配不同组之间损失的方法可能在这里起作用。事实上,许多方法[2,36,85]通过明确平衡训练集上的错误来强制公平性,在合理的假设下,这些公平性约束将很好地推广到看不见的数据。工作[25]通过最小化训练集上的不公平性和泛化误差的上限的组合来解决这个问题然而,在实践中,大多数方法是有效的,没有考虑泛化误差。3.2.2高容量分类器相比之下,对于计算机视觉中的分类任务,典型的行为非常不同。虽然人类对图像数据的标记通常是一个嘈杂的过程[59],但大多数错误x :=EDn,y|X[L(y,f(x))](7)的计算机视觉数据集不对标签噪声进行建模,并且通常每个数据点只收集一个标签[52],或者=c1(x)N(x)+B(x)+c2(x)V(x)(8)对c1(x),c2(x)∈R.3.2. 预期公平违规我们做了一个简化的假设,即我们只想在A和B两个组上强制执行错误奇偶校验。如果我们为这两个群定义记号,我们用G代替A或B.我们稍微偏离[23],因为我们考虑在两个组上训练的分类器的每组误差,而不是分类器两组情况E公平的预期公平违反可以定义为:E公平=|Ex∈A[err x]−Ex∈B[err x]|.(9)辅助定义BG=Ex∈G[B(X)],(10)VG=Ex∈G[c2(x)V(X)],(11)NG=Ex∈G[c1(x)N(X)],(12)违反公平性可以被重新表述为E辉r=|NA+BA+VA−(NB+BB+VB)|.(十三)10414F对收集到的标签进行去噪处理[21],并仅使用每个数据点最常见的标签作为真实的数据点。6因此,当我们将数据集采集视为一个随机过程时,每个数据点只能分配一个标签,等式(6),它衡量了标签之间不一致引起的预期损失,为零。这一点是我们论点的关键;在为各个数据点收集多个不一致的标签的情况下,有可能在不使用保留数据的情况下改进这些形式的公平性。对于一个训练收敛的计算机视觉分类器,在固定的数据集上,偏倚项也消失[84]。在这里,数据是高维的,并且模型基本上具有任意高的容量。因此,完美的分类器,它具有零误差并预测每个数据点的地面真实标签,在于。因此,VGBG0,以及公平的-泛化误差是主导性的Efair|VA−VB|,(15)即,公平性违反主要由方差的差确定。其他人也做了相关的观察,例如,[82]强调了在重新加权样本时数据增强的重要性,以防止梯度变为零。然而,即使有增强,训练集的误差仍然远低于保持数据的误差,方差仍然占主导地位。5.使用0 - 1损失可以考虑偏差方差去DEOdds的组成,而假阴性率允许我们考虑DEO。6即,给定两次被标记为猫、一次被标记为狗的图像,该图像被简单地视为被标记为猫。10415−考虑到这一点,毫不奇怪,这些用于在训练集上强制公平性的方法在计算机视觉中并不流行,相反,研究通常集中在统计学上,例如重新加权样本[51],在数据子集上训练多个分类器,并对它们进行平均[70,71]或数据增强[50]。对于如此广泛的方法,不可能对它们进行正式分析,尽管它们不使用保留的验证数据来估计泛化误差,但它们都成功地权衡了准确性与广泛的公平性度量。3.2.3重新思考计算机视觉我们已经证明,如果不计算保留数据的公平性度量,就不可能预测测试集上然而,绝大多数方法并没有做到这一点,正如第5节所展示的,它们仍然根据标准度量(如均等化几率或均等机会)不断改善公平性。这怎么可能?答案之一在于均衡机会(1)和几率(2)因此,可以通过降低所有组的性能来增加公平性,而不是通过将错误从一个组重新平衡到另一个组来增加公平性。根据经验,我们发现这正是实践中发生的情况:DEO和DEOdds的改善伴随着所有组的准确性下降,而不是从一个组到另一个组的准确性重新平衡(见图2,4)。虽然不可能在不使用保留数据的情况下预测未见过数据的每组误差,但通过将噪声注入梯度(可能发生在正则化方法[61,83]中),使用不适当的合成示例扩充数据集(可能发生在[66]中),或者通过一系列动机良好、听起来很明智的策略,包括尽早停止。鉴于这个问题,在评估基于准确性的模型公平性时,我们建议选择一个公平性度量,该度量明确要求提高对离散组的性能。在我们的实验中,我们测量表现 最 差 的 一 组 的 准 确 性 , 即 , 最 小 - 最 大 公 平 性(三)、另一个自然的选择是表现最差的组的真阳性率,但这很容易被具有高假阳性率的分类器所操纵。4. 利用综合数据提高弱势群体的准确性在上一节中,我们介绍了根据表现最差的组的准确性来评估公平性的重要性。接下来,我们考虑如何使用这种洞察力,以及(15)中的结果,以便在模型训练期间更好地融入公平性。表达式(15)示出了高容量模型中的公平性违反由以下因素主导:偏差方差分解的方差。因此,在不降低所有组的性能的情况下提高公平性的一种方法是降低最差组的方差众所周知,并且经过实验验证[11],方差通常随着训练集的大小和多样性的增加而减小给定一个固定的数据集,数据增强是实现这一目标的唯一方法。考虑到这些见解,我们提出了一个自适应增强策略,增加了分类任务中表现最差的组的样本的多样性我们必须用我们的方法解决三个技术挑战。如何:(i)决定哪些组需要增强(ii)在分布数据中生成高保真度,以及(iii)可靠地将增强数据置于受保护组上并自动提供目标标签。我们通过以下方式应对这些挑战:(i)使用保留数据部署自适应采样策略以优先考虑表现最差的组,(ii)使用可逆GAN架构和潜在空间遍历来编辑图像,以及(iii)提出g-SMOTE,这是合成少数过采样技术(SMOTE)的推广[16],它通过遍历GAN潜在空间产生新的标记训练图像。4.1. 自适应采样在每次训练迭代中,我们从两个数据集中的一个中随机抽取一批样本:原始训练数据集和扩展训练数据集。扩展训练集等于初始化时的原始训练集。在每次迭代之后,我们使用保留的评估数据集确定性能最差的组,从该组中增加一个随机批次(使用下一节中的g-SMOTE),并将其添加到扩展集。这种方法受到过去研究[67,68]的启发,这些研究在部分增强数据上训练时评估泛化。我们从原始数据集中选择一个概率为λ的批次(从扩展数据集中选择1λ参数λ允许我们在训练集中保持一定比例的原始数据,防止扩展的训练集成为主要的增强数据。请注意,这比简单地平衡每组中的元素数量要复杂得多。泛化能力的差异可能源于群体规模的严重不平衡,也可能源于任何一个群体的特征,这些特征使得泛化在本质上更加困难。4.2. 广义SMOTE:g-SMOTE给定来自原始数据集的图像,我们需要一个过程来生成新的合成图像以及属性标签。为了实现这一点,我们将SMOTE [16]与现代GAN的丰富的代表性和生成能力相SMOTE是一种简单的采样策略,用于克服不平衡数据,该策略基于数据点和随机数据点之间的线性特征插值,104162:X → Y∈联系我们−0∗011我我算法1自适应采样1:输入:超参数λ∈[0,1]Train数据集DTrain={(x0,y0),(x1,y1),. -是的-是的},xi∈X,yi∈Y评估数据集DEval ={(xe,ye),(xe,ye),. - 是的- 是的 },xe ∈ X,ye ∈ YClassifierc:(parameterized byclassifier)初始化:DAug:=D Train3:对于i = 1,. - 是的- 是的 ,n个训练步骤4:以第i个概率λ,均匀采样(xi,yi)∈DTrain,否则采样(xi,yi)8月日5:根据学习目标更新学习目标6:根据学习目标和DEval确定最弱组,并从该组中增加对应的xAug,yAug7:DAugDAug(xAug,yAug)8:结束它的k个最近邻居的集合它启发了许多其他方法[17,35,38,88]。现代可逆GAN archi-结构[24,27,32,63]允许将图像我们建议在GAN潜在空间中使用SMOTE来生成新的多样化合成图像以及属性标签。我们提出了一种广义的SMOTE(g-SMOTE),它将经典的SMOTE策略--数据点和m个最近邻数据点中的随机点之间的线性插值--扩展到由m个最近邻中的k个最近邻形成的k维单纯形内的均匀采样,以提高数据的给定一个数据点及其m个具有相同目标属性的最近邻居,我们随机选择k个跨越k维单形的邻居。1或更小,多维GAN潜在空间。在这个单纯形中,我们在潜在空间中均匀采样点,并使用GAN生成器来渲染它们的图像。我们的关键假设是,单形覆盖了潜在空间中的标签一致体积,即,来自该区域的每个图像共享相同的目标标签。算法S2描述了数据增强过程,图S2说明了插值机制,图3显示了k=3的真实示例。有关改变k的影响以及SMOTE和g-SMOTE的比较,请参见补充资料。5. 实验我们发现,在计算机视觉中的公平性的各种方法降低了最差的组的性能,尽管报告提高了公平性,而相比之下,我们的方法提高了性能。因此,我们尽可能严格遵循现有的实验方案。我们在CelebA上显示结果,其中所有方法都报告工作,我们使用现有代码,并将每个方法与其相应的不公平基线进行比较。我们证明:与不公平的基线相比,计算机视觉中常见的公平方法会因此,我们评估方法,图3.示例g-SMOTE增强,其中k=3。给定一个数据点(绿色)和两个相邻数据点(橙色),GAN潜在空间中的线性插值会产生不同的图像。选择最近的邻居来共享目标属性(我们给所有插值图像相同的属性标签值。他们在准确性和TPR上的最小-最大性能。使用g-SMOTE的自适应去偏置提高了最小-最大性能。实验结果见第5.1节和图4。自适应去偏置的好处是强调训练数据的子集时,因为GAN允许有效的无监督数据增强。使用g-SMOTE的自适应去偏置与多个受保护属性的横截面组一起工作。实验结果见第5.2节。我们展示了我们的方法适用于由性别和目标属性二进制组的叉积定义的四个组。g-SMOTE产生更好的数据多样性比流行的增强策略。参见第5.3节。当结合g-SMOTE增强与流行的增强方法,如随机翻转,作物,旋转和Ran- dAugment,我们总是观察到精度的提高5.1. 基于现有方法的最小-最大公平性评价及自适应去偏我们的实验设置遵循[66]和[82],详细信息见附录D。我们比较了提高公平性的方法,包括过采样,域区分训练[70,71],域独立模型[82],对抗方法[4],正则化[61,83],公平混合[20]和基于GAN的离线数据集去偏[66]。我们在图4中总结了结果。有些方法使用单个多任务模型(注释为),有些方法使用多个单任务模型。请注意,FairMixup使用更高的分辨率(256 px)和更低的容量模型(ResNet18),这导致了基本上不同的线路性能增加不太准确的组的精度的唯一方法是g-SMOTE,10417方法[82]第82话:一个人的世界域盘。[70,82]域索引。[82]Uniconf.高级[4]基线单任务[66] GAN去偏置[66]正则化[61,83]g-SMOTE+自适应采样[我们的] g-SMOTE [我们的][20]第二十届中国国际纺织品展览会设置多任务单任务FairMixup0FairMixup2正则化4Uniconf.Adv.域10独立0体重1020GAN去偏置30域Disc.20g-SMOTE10g-SMOTE +自适应采样05[4]美国[八十二][70、82][我们的]图4. CelebA数据集上的公平性方法。 我们报告的平均得分超过13个标签[66],称为性别独立。 左:相对于无约束分类器的最小组准确度差异的变化。只有我们的方法g-SMOTE和自适应g-SMOTE提高准确性的表现最差的群体。All other methods lowerthe accuracy. 右上角:将准确性变化分解为总体变化、最佳表现组的变化和最差变化。中间右:真阳性率(TPR)变化的分解。Despite DEO being defined in terms of TPR, all but one of the fairness method decrease the TPR.请注意,我们基于g-SMOTE的方法以降低TPR为代价提高了准确性。右下角:DEO和DEOdds的图。这些标准的公平性衡量标准相互密切相关,一个标准的高分对应着另一个标准的高分然而,它们不能预测任何组的TPR或准确性的改善标有 * 的方法基于[82]的代码库,训练一个模型用于多任务分类。其他方法实现单任务分类模型。94.594.093.593.090.586.588 89 90 91最小集团帐户这个案子了使用没有自适应采样的g-SMOTE,我们发现可以提高所有组的性能,与自适应采样相比,最小组准确度仅略有下降,参见表1。我们报道了最小的。表S2中每个属性的组准确度。5.2. 多组自适应g-SMOTE是平凡地可扩展到多个保护组。我们比较了两个受保护组("男性"/非"男性")和四个受保护组的自适应g-SMOTE采样与常规g-SMOTE增强图5.公平性方法和未修改的分类器的比较,显示了表现较好和较差的群体之间的权衡行为。结果平均超过13个标签与性别- der独立的质量。阴影矩形表示帕累托无效区域,在这些区域中,两组都没有获得比未修改模型更好的性能。请注意,FairMixup使用更小的模型和更高的分辨率。我们的方法是唯一能在相关基线上改善最差组表现的方法。并且没有自适应采样。基线降低了两个受保护组的准确性。对于离线去偏方法,我们使用了自己的实现和与g-SMOTE方法相同的GAN模型。第3.1节中提出的论点表明,对于高容量模型,通过自适应采样平衡数据集不如通过生成多样化的合成数据来提高泛化能力重要。经验上,我们发现这是组(选择32个目标标签,使得四个受保护基团中的每一个具有至少0。数据点总数的3%。这一比较导致了三个有趣的发现:(1)2保护组基线自适应g-SMOTEg-SMOTE10k火车图片Acc.分钟组89岁。4189岁。5789岁。58acc.八十五68八十五93八十五91Deo23岁18二十五00二十四岁65DEOdds三十三岁。63三十五51三十四64表1.CelebA上的采样策略我们报告了32个标签的平均值受保护的属性是显示的模型具有最高的最小值。训练期间的准确性。g-SMOTE增强与自适应采样相结合,产生显着改善最小-最大公平性时,对四组。(2)性能提高-精度最小组acc.最大组acc.TPR最小组TPR最大组TPRDeoDEOdds最大集团会计4321 0最小组acc.FairMixup[20个]正则化[61,83]Uniconf.高级 *域加权 *GA索引 *[八十二]N去偏置[第六十六话]域光盘 *g-SMOTEg-SMOTE +[我们的]自适应采样104184保护组基线自适应g-SMOTEg-SMOTE10k火车图片Acc.分钟组八十五6584. 91八十五16acc.62. 16六十四3663岁54Deo19号。41十三岁2519号。12DEOdds28岁2219号。82二十七岁75160k火车图片Acc.分钟组87岁37八十五7787岁27acc.61岁7468岁0661岁84Deo21岁9912个。2721岁91DEOdds三十8919号。2931岁24表2. CelebA上的不同采样策略。报告的是超过32个标签的平均值。受保护的属性是显示的模型具有最高的最小值。训练期间的准确性。DEO和DEOdds仅针对属性“male”进行评估当部署在完整的训练集上时,这种情况甚至更加明显(参见表2的下半部分)。(3)利用目标属性作为附加的受保护属性来优化最小最大公平性实质上改进了基于精度的公平性概念,诸如DEO。5.3. 与其他增强方法的我们将g-SMOTE增强与各种现有的增强方法相结合 , 如 随 机 裁 剪 , 随 机 旋 转 , 随 机 翻 转 和RandAugment。对于现有的增强方法中的每一种,g-SMOTE增强提高了准确度。这表明GAN生成的数据分集产生了至少部分正交于以其他方式实现的改进的泛化增益结果报告于表3中。无垫块兰德作物兰德·罗特随机翻转RandAugment无g-SMOTE89岁。1589岁。5689岁。6689岁。78九十17使用g-SMOTE89岁。6389岁。8589岁。7589岁。86九十33表3.在有和没有AdaptiveSMOTE采样的情况下,CelebA上常见增强的最小组准确度。我们使用最小值最大的模型报告了标签[66]的平均得分,称为性别独立。训练期间的准确性。6. 讨论大多数公平性方法研究报告改进了DEO和DEOdds的公平性测量,尽管降低了最不利群体的准确性和TPR率。尽管如此,我们已经证明,通过有针对性地生成合成数据,可以改善弱势群体的表现。对于这些高容量模型的简单情况(表1),其中受保护组对应于性别,没有明显的权衡,也不需要针对特定组进行自适应采样。相反,我们可以统一生成样本并提高每个人的性能。在我们想要对应于受保护属性和真实标签的组合的组的高准确性的情况下(例如,接受否定决定的男性)在这里,自适应采样在最小组准确性方面给出了实质性的改进,并且改进了公平性测量。根据我们的理论分析和实验发现,我们为从业者提出两个关键建议(1) 使用最差表现组的误差评价模型:如果基于准确性的公平性概念适用于给定的场景,即,特定组由于高错误率而处于不利地位,比错误率差更好的公平性度量是表现最差组的错误如果速率足够低,则该方法可以安全地部署,否则不能。(2) 为表现最差的群体收集更多数据:我们已经证明,阻碍计算机视觉公平性的关键问题是无法很好地概括。然而,在标准化的基准测试和固定的训练集之外,可以通过收集更多的数据来提高泛化能力。这导致了一种直接的方法,其中一个迭代地评估保留的数据,并收集关于表现最差的组的额外数据这等价于[1]的算法1,并且在某些约束下保证在所有组上最小化最坏误差其他作品[13]呼吁更多样化的数据集,但将其作为最小-最大问题来处理,告诉我们如何增长数据集,以及为什么多样性即使在训练和评估数据之间存在差异时也能提高性能局限性:第3节中的分析只适用于完美分类器所满足的基于准确性的公平性概念。在没有保留数据的情况下,可以在最大准确分类器上强制执行其他公平性概念,例如人口统计学均等。此外,存在各种各样的机器学习场景,其中基于准确性的公平性是不合适的[79]。结论:从这项工作中得到的信息不应该是基于准确性的公平概念在计算机视觉中不起作用,而是如果我们测量和优化正确的东西,它们就可以发挥作用。我们在第3节中的分析清楚地表明,对不可见数据的公平性主要是一个泛化问题因此,在最弱势群体中提高性能的三个有希望的方向在于超参数优化(HO),网络架构搜索和数据增强,其中HO已经用于公平性[42,62,76]。我们已经证明,数据增强可以提高最弱势群体的绩效,但使用这些其他技术来提高最差群体的绩效是未来工作的一个有希望的方向。致谢CR是牛津互联网学院新兴技术治理(GET)研究项目的成员。他感谢GET和值得信赖的AI审计项目的成员进行了知情的讨论,帮助形成了这项工作。10419引用[1] JacobAbernethy , PranjalAwasthi , Matt häusKleindess-ner,Jamie Morgenstern,Chris Russell,and Jie Zhang.主动采样以实现最小-最大公平性。arXiv预印本arXiv:2006.06879,2021。一二三八[2] Alekh Agarwal,Alina Beygelzimer,Miroslav Dud 'ık,John Langford和Hanna Wallach。公平分类的约简方法。在2018年的国际机器学习会议(ICML)上。一、二、三、四[3] Vitor Albiero , KrishnaprixKS , Kushal Vangara , KaiZhang,Michael C King,and Kevin W Bowyer.人脸识别准确率的性别不平等分析在IEEE/CVF计算机视觉研讨会应用冬季会议,2020年。3[4] Mohsan Alvi , Andrew Zisserman , and ChristofferNellaker. 视而不见:从深度神经网络嵌入中显式去除偏差和在欧洲计算机视觉会议(ECCV)-研讨会,计算机科学讲义第11129卷,第556572. Springer,2019年。6[5] PranjalAwasthi,Ale xBeutel,Mattha? usKleindes sner,JamieMorgenstern,and Xuechi Wang.不确定和不完全信息下机器学习模型ACM公平、问责和透明度会议,2021年。1[6] Guha Balakrishnan , Yuanjun Xiong , Wei Xia , andPietro Perona.面向人脸分析算法中偏见的因果基准测试。基于深度学习的人脸分析,第327-359页。斯普林格,2021年。三、六[7] 梭伦·巴罗卡斯、莫里茨·哈特和阿尔温德·纳拉亚南。公平与机器学习fairmlbook.org,2019年。网址://www.fairmlbook.org网站。1[8] Richard Berk,Hoda Heidari,Shahin Jabbari,MichaelKearns,and Aaron Roth.刑事司法风险评估的公平性:最先进的技术。社会学方法&研究,2018年。1[9] Alex Beutel,Jilin Chen,Tulsee Doshi,Hai Qian,LiWei,Yi Wu,Lukasz Heldt,Zhe Zhao,Lichan Hong,Ed H. Chi和Criminal Goodrow。通过成对比较的推荐排名的公平性。在ACM知识发现和数据挖掘国际会议(KDD),2019年。3[10] Alex Beutel,Jilin Chen ,Zhe Zhao ,and Ed HuaihsinChi.数据决策和理论含义时,对抗学习公平表示。CoRR,abs/1707.00075,2017年。二、三[11] 达米恩·布莱恩和杰弗里·韦伯分类学习中数据集大小对偏差和方差的影响。《第四届澳大利亚知识获取研讨会论文集》,第117-128页,1999年。5[12] 坎贝尔·布朗放弃降水平。经济学与哲学,19(1):111,2003。1[13] Joy Buolamwini和Timnit Gebru。性别色调:商业性别分类的跨部门准确性差异。在2018年的公平,问责和跨性别会议上三、八[14] 图恩·考尔德斯和西科·韦尔三种朴素贝叶斯方法用于无歧视分类。数据挖掘和知识发现,21(2):277-292,2010年。1[15] Flavio Calmon 、Dennis Wei、Bhanukiran Vinzamuri、Karthikeyan Natesan Ramamurthy和Kush R Varshney。优化 预 处 理 以 防 止 歧 视 。 在 神 经 信 息 处 理 系 统(NeurIPS),2017年。一、二[16] Nitesh V Chawla,Kevin W Bowyer,Lawrence O Hall,and W Philip Kegelmeyer. Smote:合成少数过采样技术。人工智能研究杂志,16:321-357,2002。5[17] 尼特什五世放大图片创作者:John W.Hall,and KevinW.鲍耶Smoteboost:提高少数类在boosting中的预测。在NadaL a vra c、Drag anGambe r ge r、Lju pcoTodor ovski和HendrikBloc k eel
下载后可阅读完整内容,剩余1页未读,立即下载
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功