算法模型解释方法的危险性及对模型公平性的影响

8 浏览量更新于2023-12-04 收藏 1.69MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

你Botty Dimanov，1Umang Bhatt，1Mateja Jamnik，1Adrian Weller1，21剑桥大学，英国2英国伦敦艾伦图灵研究所botty. cl.cam.ac.uk，usb20@cam.ac.uk，mateja. cl.cam.ac.uk，aw665@cam.ac.uk摘要算法系统的透明度已经被讨论为最终用户和监管机构对机器学习模型建立适当信任的一种方式。一种流行的方法，LIME（Ribeiro，Singh和Guestrin 2016），甚至表明模型解释可以回答“我为什么要相信你？”这个问题在这里，我们展示了一种简单的方法，用于修改预先训练的模型，以操纵许多流行的特征重要性解释方法的输出，而准确性几乎没有变化，从而证明了信任这种解释方法的危险。我们展示了这种解释攻击如何1介绍透明度或可解释性领域已经成为帮助我们理解机器学习模型内部工作原理的一种方式。一个动机是确保公平性，作为“公平、负责和透明”研究议程的一部分公平性在许多应用领域都是一个关键的问题，包括在银行业中选择候选人或批准贷款。一种流行的透明性方法为给定的输入提供特征重要性或显著性分数。这些分数显示了输入的每个特征对算法由于在实践中，这些局部显着性方法是评估模型可信度的最常用方法（Bhatt et al. 2019），因此通常建议使用这些方法来检查模型的公平性，如下所示。我们观察模型的输出是否如果对敏感属性的依赖性很高，那么模型似乎是不公平的。在本文中，我们表明，敏感特征不能可靠地揭示关于模型公平性的任何信息。我们解释了这种情况是如何发生的，并提供了一个有启发性的例子，证明一个模型可以在一系列流行的公平性措施中具有任意高水平的不公平性，即使看起来对相关敏感特征的依赖性为零。我们引入一种实用的方法来修改现有的模型，以便根据解释方法降低敏感特征的表观重要性我们的经验表明，降级的功能可以发生在模型的准确性几乎没有变化，而模型的不公平性仍然可以保持很高。我们的观察引起了组织或监管机构的严重关注，他们希望依靠特征重要性解释性方法来验证模型的公平性。我们在这里专注于深度学习模型，但我们的想法自然扩展到其他模型类。2相关工作关于对抗性示例的文献迅速增长（ Szegedy etal.2013），其考虑如何通过扰动数据点来欺骗分类一旦模型经过良好的训练，就可以获取一个正确分类的数据点，并对其进行微小的更改，这样预训练的模型现在就可以以高置信度对该点进行错误分类。后来人们发现，许多解释方法对于数据点的微小变化是脆弱的，即使分类不受影响（Adebayo et al.2018; Kindermans et al. 2019; Alvarez-Melis and Jaakkola2018）。研究表明，可以对数据输入产生微小的对抗性扰动，从而使分类保持不变，但返回的解释非常不同（Ghorbani、Abid和Zou，2019年）。这是根据学习函数的几何形状进行分析的在这项工作中，我们不干扰数据。相反，我们修改了模型，以操纵常见的显着性方法的解释特别是，我们的目标是修改模型，以便对于任何给定的数据点，多种简化方法不会显示敏感特征的重要性- 即使事实上它是。最近，一些作品探讨了类似的想法。Pappii et al.（2019）研究了基于注意力的方法是如何被愚弄的。Jain和Wallace（2019）表明，Heo，Joo和Moon（2019）考虑修改视觉模型，以便解释版权所有© 2020本文由其作者。在知识共享许可署名4.0国际（CC BY 4.0）下允许使用。控制在Slack等人（2019）采用了一种我们相信，我们是第一个关注与流行的解释方法有关的模型的公平性的人我们在第3节中描述了修改模型以隐藏不公平的方法我们在第4节中展示了尽管不依赖于敏感特征，但不公平性如何可能非常高。在第5节中，我们经验性地表明，我们的方法对模型的准确性有轻微的影响，同时能够欺骗许多流行的解释方法： 1 。第二部分（ Simonyan ， Vedaldi 和Zisserman 2013），2。Gra-输入×输入（Shrikumar etal. 2016），3.综合梯度（Sundararajan，Taly和Yan2017），4。SHAP（Lund- berg and Lee 2017），5.石灰（Ribeiro，Singh和Guestrin 2016）和6。引导反向传播（Springenberg et al. 2014）。我们的方法在训练过程中引入了一个解释损失项。这类似于（Kiritoshi，Tanno和Izumitani 2019），他们提出了一个损失函数，对学习的函数梯度实施L1相反，我们惩罚相对于指定目标特征的梯度，以降低其重要性得分gorical（例如男性或女性），作为标准，这里我们编码为数值并将变量视为连续变量。3.2制剂假设我们已经训练了一个模型fθ，其性能可以接受，但目标特征解释过高我们想找到一个修改的分类器fθ+δ，具有以下性质：1. 模型相似性：新模型具有相似的性能吉尔吉，fθ+δ（x（i））<$fθ（x（i））.2. 低目标特征属性：目标特征j的重要性（例如，性别或种族），如所选择的解释方法g所给出的，显著吉尔吉，|g（fθ+δ，x（i））j|≪|g（fθ，x（i））j|.3.3对抗模型解释攻击为了操作特征重要性解释，我们初始化一个预训练的模型，然后通过使用额外的惩罚项（解释损失）进行优化来修改它，该惩罚项由超参数α加权，该超参数α在所有n个训练点上进行归一化（完整批次）：'α....L= L+.. J.L.np、（1）3方法我们的方法用修改的损失目标函数微调现有模型：对原始损失，我们添加一个“解释损失”项，这是原始损失相对于所选目标特征的梯度。我们的攻击方法实现了三个目标：1。我们得到了一个模型，具有较低的局部敏感性所选择的功能，但几乎没有损失的准确性;2。低灵敏度一般化到看不见的测试点;和3.低特征敏感性导致低attribu- tion的目标功能，在所有六个功能的重要性解释方法，我们实验。3.1符号我们考虑可微函数f：X<$→Y，它将具有n个样本和m个特征（属性）的X<$Rn×m中的输入矩阵映射到Y<$Rn×d中的输出矩阵，其中每行是d个输出类上softmax概率虽然我们的方法适用于任意d，但在本文中，我们关注d= 2对应于“好”和“坏”输出类（例如，贷款或不贷款）。我们将x（i）写为具有m个特征列的输入向量行i，并且将X：，j写为整个特征j列向量。为了可读性，我们允许处理不同数量的点n，并且可以将f（x）写为在一个输入点x上求值的函数。我们将g写为局部特征解释函数，该局部特征解释函数以模型f和输入兴趣点x作为输入，并返回特征重要性得分g（f，x）∈Rm，其中g（f，x）j是重要性。其中，j是我们希望模型使用的目标特征的索引，并且是原始交叉熵损失相对于整个特征列向量的梯度向量。我们应用 Lp范数。1我们定义了一个新的目标，该目标在训练点上相对于目标特征的低导数进行正则化，并得到修改后的分类器fθ+δ。我们在算法1中概述了该过程，其中我们一致地使用τ=100，因为这对于跨运行的收敛是足够的在所有实验中，我们使用α= 3。我们将在5.4节讨论α的变化我们澄清了我们的解释损失方法与最近的方法（Heo，Joo和Moon 2019）之间的差异。虽然他们的方法在softmax输出之前从logits层中获取一个正确标签元素的梯度，但我们获取交叉熵损失的梯度。取损失的梯度，而不仅仅是正确的标签元素，包含了关于其他类的额外信息，有可能提高解释方法和测试点的泛化能力。3.4公平性指标在本文中，我们强调的解释方法并不能可靠地揭示模型的公平性。一个关键的问题是，这个模型实际上是否公平。我们使用文献中的标准定义（Hardt、Price和Srebro 2016; Beutel等人，2017）对此进行了探索，评估了以下三个公平性指标学习修改后的模型。我们考虑模型预测特征xj对于模型的预测f（x）。我们考虑神经网络函数fθ参数化为θ。虽然一些输入功能是cate-1我们使用p= 1，因为它导致快速收敛和良好的结果。算法1学习具有隐藏的不公平性的修改模型输入：原始分类器fθ，目标特征矩阵X∈Rn×m，对应的目标y∈Rd，和迭代次数τ。初始化δ=0对于t∈[0，τ]迭代，计算关于fθ+δ的交叉熵损失L计算解释损失. - 是的. .... ΣΣαp 我的天. 我的天. 我的天=×L.. ，。 . ，。. . ，。 .n. X1岛. X2岛. XN岛计算总损失L′=L+α×λ（公式1）使用Adam更新模型参数，其中包含<$θL′端输出：改进的分类器fθ+δ对于基于敏感特征的两个主要子组，将子组定义为特权或非特权跟随（Bellamy等人，2018）（例如，性别男性或女性）。1. 人口统计学奇偶性（DP）：两组的预测阳性率应相同。2. 机会均等（EQ）：两组的真阳性率（TPR）应相同。3. 等精度（EA）：两组的分类器精度应该相同。请注意，通常不可能同时满足许多公平概念（Kleinberg 2018）。4.不公平能有多极端，但仍然被隐藏？在这里，我们考虑一个模型可能有多不公平令人担忧的是，也许令人惊讶的是，我们表明，事实上，一个模型可以是非常不公平的方面的功能，但似乎没有敏感性的功能。考虑图1所示的情况。每个数据点都有两个特征：连续x1和二进制x2。设x2是一个敏感的特征，例如性别，由点的形状给出每个点的真实标签y由其颜色表示：红色表示好，蓝色表示坏。黑色曲线表示模型如果大于0.5，则输出1，否则输出0;这通过背景颜色中的淡蓝色/红色边界显示。此外，假设模型在x2的方向上不变化（因此特别是梯度为0）。显示了五个数据点。该模型只犯了一个分类错误（蓝色圆圈表示y=0，但y= 1）。然而，该模型对于第3.4节中描述的所有三个度量的敏感特征是非常不公平的。最大程度地违反了平等机会：对于女性-男性圆圈，0/1 = 0%值得点得到好（蓝色）结果;对于男性方块，2/2 = 100%值得点图1：本例说明了一个与目标特征无关但极不公平的函数，显示softmax预测标签y与输入特征x1相反，而输入特征x1不是目标特征。显示的每个形状都是一个数据点。颜色表示真实标签，即，蓝色表示y= 1，红色表示y= 0。形状显示目标功能：让正方形为男性，圆形为女性。黑色曲线显示了从特征到估计输出标签y的函数映射。假设该函数在不同性别之间保持不变蓝色圆圈在红色区域，而它应该在蓝色区域（见第4节）。最好用彩色看得到好的结果（蓝色）。相等精度也是最大的违反：对于女性圆圈，0/1 = 0%点是准确的（蓝色圆圈应放置在蓝色区域）;对于男性方块，4/4 = 100%点是准确的（正确地，蓝色方块在蓝色区域，红色方块在红色区域）。最后，考虑人口统计学均等（DP）：对于女性圈，0/1 = 0%获得良好结果;对于男性圈，2/4 = 50%获得良好结果。观察到，如果我们继续在已经显示的数据点附近添加更多的蓝色正方形数据点，那么女性比例保持不变，而男性比例趋于1，因此我们可以获得任意高水平的DP不公平性。备注。另一种方式来看待我们的例子是，我们有一个模型，通过构造忽略了敏感特征x2。这有时被认为是通过不透明的过程不透明的一种形式（Chenetal.2019;Gr gic′-Hlacaetal. 2018）。众所周知，即使模型不能访问敏感特征，它仍然可能对它不公平-这可能会让人想知道我们的方法与简单地删除目标特征有何不同不同之处在于，我们的方法试图学习一个函数，该函数在训练点处相对于敏感特征具有非常低的导数-我们通过比较modi来探索这一点原订x_i常数0.900.850.800.750.700.650.60型号55.1实验装置数据集我们对UCI机器学习库（Dua和Graff 2017）中具有敏感特征的三个数据集进行了实验（成人（Adult）- 年龄0.55图2：修改后的模型、使用目标特征x2保持恒定训练的模型观察到跨数据集和目标特征，我们的方法实现了与原始模型相当的准确性，并且显著高于常数模型的准确性，这表明修改后的模型不仅仅忽略了目标特征。结果是对具有5个隐藏层的模型的10次初始化的平均值。最好用彩色看。使用我们的方法学习的fied模型与敏感特征保持不变的模型准确度结果如图2所示，说明我们的方法达到了更高的准确度（更多结果见附录A）。此外，参见图7中的部分相关性图。图3：α∈[10−5，10−5]在将我们的解释攻击应用于成人数据集和性别目标特征时对模型相似性和低目标特征归因指标（y轴）的影响：（顶部）每个样本的平均解释损失（实验1）。（中间）敏感属性重要性排序分布的平均值和（底部）两个模型预测之间的百分比差异请注意，最佳α值位于范围[10−1，101]内。5个结果在这里，我们报告和讨论应用我们的对抗模型解释攻击的实证结果模型对于每个数据集，我们训练0-5个隐藏层多层感知器（MLP），每层100个单元，用逐层L2范数惩罚进行调节，加权0.03，最多1,000个时期，提前停止，耐心100个时期，10次随机初始化。我们使用L2-norm正则化，因为我们希望有尽可能多的参数激活，以便有更多的方向进行操作。根据经验验证了罚分0.03，以获得最佳验证准确度。我们使用张量流（Abadi et al.2016）进行原始优化与亚当（Tieleman和Hinton 2012），0.01和0.005的全局学习率衰减在每次更新和完整的批量梯度下降。我们进行了超参数优化，以确定与L2和L∞范数相比，L1范数和α= 3的优化在不同设置的模型相似性和低目标特征属性度量特征归因方法我们评估了六种流行的方法，较大的特征归因方法：敏感性分析梯度（Simonyan、Vedaldi和Zisserman 2013）（梯度）、变量×输入（ Shrikumar 等人， 2016 ）（ GI ）、综合变量（Sundararajan、Taly和Yan 2017）（IG）、Shapley值预期变量的近似（ Lund- berg 和 Lee 2017 ）（SHAP）、局部可解释模型-不可知解释（Ribeiro、Singh和Guestrin 2016）（LIME）和引导反向传播（Springenberg等人，2014）（GB）。我们使用训练数据隐藏不公平性，并报告对训练数据和测试集的评估，这些测试集既不用于训练原始模型，也不用于修改后的模型。公平性对于公平性评估，我们使用 IBM AIF 360Toolkit（Bellamy et al.2018年），我们将每个敏感特征按以下方式二进制化：性别：男性-特权，女性-无特权;年龄：25×特权，25 ×无特权;种族：白人-特权，非白人-无特权;婚姻状况：单身-特权，非单身-无特权。<5.2评价标准当3.2节中的两个性质都满足时，我们认为隐藏过程是成功的。我们通过三个指标来衡量修改后的模型和原始模型之间的模型相似性：• 损失差异：所有测试点上两个模型的分类交叉熵损失（L）的平均值之间的差异。精度成年成人性别成年人种库龄银行婚姻罗盘年龄罗盘赛性罗盘德国时代德国性别图4：性别作为原始（左）和修改后（右）模型的成人测试集的敏感特征的重要性排名直方图。每个直方图表示由指定的特征重要性方法分配的测试集的排名较高的排名数字（更靠右）表示较小的特征重要性。观察到修改后的模型已经成功地改变了所有解释方法的排名。• Acc. diff.：两种模型的准确性存在差异。• 不匹配（%）：两个模型的输出差异，通过数据点的百分比测量，其中两个模型的预测不同。测量隐藏过程对特征重要性的影响更为复杂。我们希望避免攻击的病态情况，缩小所有特征的重要性并诱导随机分类器。因此，我们引入了四个指标的解释相异性的基础上的相对重要性排名的功能。图4显示了相对特征重要性的排序直方图我们展示了一个初始模型具有低目标特征梯度的情况，表明即使在这种情况下，攻击也是成功的。一个有效的攻击会使分布从左向右移动。我们使用五个指标来衡量这种转变的攻击敏感性：• Top k：敏感特征接收到的排名为k或以上的数据点的数量。• 模式转换：显示模式之间的差异（平均值）。#班次）。• 均值偏移：均值之间的差异。• 最高等级：敏感特征在所有数据点中获得的最高等级。• 最高排名数据点（HRD）：敏感特征获得最高排名的数据点数量。这与Top k相同，其中k=最高排名。5.3低目标特征属性图4说明了三个要点。首先，out方法显著降低了目标特征的相对重要性，有效地使其成为所有特征中最不重要的。第二，攻击转移到六个不同的解释方法。第三，攻击概括了看不见的、隐藏的测试数据点。可转移性表1和表2说明了解释攻击在解释方法之间的转移。该攻击转移到其他基于梯度的解释方法，并显着降低了其他6种解释方法的重要性（重复输入，集成重复输入，引导反向传播，LIME，SHAP）。注意，在表1中，在GI、IG、GB和LIME的成人数据集和性别目标特征的情况下，解释攻击已经将目标特征重要性从数千个数据点的顶级特征中移走，表明即使目标特征具有高相对重要性，攻击也有效。概括攻击测试点的概括是值得注意的，因为我们可能会期望决策边界会在训练点周围局部扰动，只影响它们的解释，而不会对测试点产生重大变化，特别是如果在特征空间中很远。我们将在5.6节中研究这一假设。X梯度 * 输入3.713.09.34.29211.5047.2120.44.2714.51.24485.03.263.20.0梯度5.813.07.26.55412.6026.0483.07.6410.432.21984.70.10.00.0导向支撑6.913.06.15.59512.5906.9952.37.8684.00.02904.20.00.00.0集成电路4.112.88.73.90311.4437.5400.44.7690.03.64510.55.338.70.0石灰4.012.88.84.37310.5736.2000.92.514.30.04029.128.61.20.0SHAP3.712.99.24.49912.0277.5280.46.0111.50.13821.10.1106.30.0表1：针对Adult Gender Train上的六种解释方法的对抗性解释攻击之后的模型相似性和低目标特征归因的评估（“0”是原始模型，“M”是修改的模型）。请注意，在我们的攻击之后，敏感特征的众数和均值对于几乎所有的数据点，敏感特征移出了前五个最重要的特征。结果平均超过10个随机初始化的5个隐藏层模型。0.150.100.050.00−0.05-0.10图5：评估我们的解释攻击对不公平性的影响（修改模型的有符号不公平性和原始模型的有符号不公平性）。我们展示了4个数据集的三个公平性度量及其敏感特征，平均超过6个模型复杂度（隐藏层的数量）和10个随机初始化。我们没有发现一致的影响模式，但同等准确度（EA）似乎变化最小。此外，表2证实了该攻击在数据集和特征之间具有普遍性，因为它能够显著改变4个数据集上总共10个特征的重要性排名分布。该表表明，模型相似性和低目标特征属性的测试值相似或更低。5.4超参数研究我们观察到，与L2和L∞范数相比，L1范数收敛得稍微快一些，并且在不同设置下的模型相似性和低目标特征度量方面都稍微好一些这些结果背后的直觉来自于把Lp解释为解释的正则化器。L1范数的反向传播梯度是常数，与范数目标特征的解释说明（|L|）与magni-i、j比0大得多和更接近0的研究都被同样地平均化，导致稀疏的解释。另一方面，L2-范数的反向传播梯度与范数这导致了平滑的，但不是必要的稀疏解释。对于L∞范数，对具有相对较小值的解释的影响甚至更加明显，其中反向传播的梯度仅对于最高解释值是非零的。因此，使用L∞范数的训练类似于单样本梯度下降，并导致收敛速度明显较慢。此外，我们观察到，解释损失范数的选择与解释惩罚项α的值强烈耦合。所有三个范数都收敛到具有适当α的非常相似的构型。由于L2-范数过分强调极高的值，它需要一个较低的α.这与L∞范数相反，它反映了单个例子的损失，并且需要比L1范数高几个数量级的α图3显示了对抗性解释攻击的学习动态随解释惩罚项α而变化。在一个极端，惩罚项α对应于解释损失中不明显的变化（第一个子图），而在另一个极端，灾难性的变化导致一个恒定的模型，它忽略了所有的特征，并大大改变了模型的预测（第三个子图）。在最佳范围（α∈[10−1，101]）内，我们可以显著地最小化解释损失，同时保持模型预测的不相似性相对较低。对于所有实验，我们设置α= 3学习算法我们尝试了各种参数学习方法，并观察到学习算法的选择可能会产生显着差异。与常规训练类似，自适应学习率算法可以获得更好的结果。香草-SGD优化是无变化EQ差异DP差异EA差异模式（O）Less Unfair（M）更多模式（P）#）班次平均值（O）平均值（P）均值差异最高级别（O）最高级别（P）人力资源开发O（O）人力资源开发O（P）前5名（O）前5名（P）顶部-1（O）前1名（P）数据集特征火车站（10−2）测试（10−2）列车接入测试访问串不匹配（%）测试不匹配（%）成人年龄9.79±3.619.82±3.59-2.76 1. 03-3.07 1. 16 10.88±1.6710.72±1.66性别11.03±3.3611.11±3.38-2.43 0. 86-2.71 0. 94 10.37±2.4410.29±2.49种族10.1±2.7510.18±2.76-2.47 0. 85-2.78 0. 910.24±1.3110.37±1.35银行年龄12.79±4.1213.39±4.17-1.81 0. 35-2.23 0. 47.35±0.737.5±0.75婚姻12.5±5.2612.96±5.46-1.73 0. 34-2.27 0. 47.25±0.717.43±0.7Compas 年龄4.0±1.694.34±1.82-2.23 0. 66-3.2 0. 9119.83±1.6818.96±1.6种族3.4±1.93.62±1.97-1.54 0. 75-2.7 0. 8718.85±2.4818.38±2.82性3.01±1.533.2±1.59-1.9 0. 83-2.78 0. 99 19.46±2.8518.39±3.02德国年龄1.77±1.341.82±1.43-7.38 6. 38-5.83 6. 618.59±10.3317.72±10.25性别2.21±1.312.24±1.38-6.07 3. 27-4.21 4. 01 17.14±4.8415.88±4.87表2：四个训练和测试数据集以及六个特征的模型相似性和低目标特征属性度量的总结我们发现，训练集和测试集的解释损失（explanation loss）都很低。此外，在训练集和测试集上，原始模型和修改后模型之间的准确度（Acc）和失配点百分比（Mismatch（%））的变化也是相似的。这些结果表明，我们的攻击是成功的概括在看不见的测试点。图6：5个隐藏层模型的特定初始化的3个指标的不公平性：平等机会，人口均等和平等准确性。红线表示修改后的模型变得更加不公平，即，它（三角形）远离0。蓝线表示修改后的模型变得不那么不公平，即，它（三角形）移近0。我们没有找到一致的模式。在某种程度上，修改后的模型在机会均等和人口均等方面的不公平性往往更高，并且并不总是表现得与删除该功能（由十字架表示）相似。相同的准确性（两个模型之间的子组）受我们的攻击影响最小更有可能收敛到预测标签分布的常数分类器它还需要定制的学习率调度例程，类似于（Smith 2018），其中学习率是根据衰减损失动态采用的。在所有实验中，我们使用亚当（Tieleman和Hinton 2012）。5.5公平性评价图6示出了一个示例，其中我们的方法可以以这样的方式隐藏敏感特征，即修改后的模型使用局部敏感性消除技术看起来是公平的，但实际上根据多个公平性度量可能变得或多或少不公平。低局部敏感性可导致决策边界不受敏感特征值的影响而变化，如图1所示我们在5.6节中研究了对抗性解释攻击对决策边界的影响我们在模型复杂性和不同的初始化之间进行了进一步的实验。图5显示，对抗性解释攻击并没有产生一致的影响尽管该特征的明显攻击导致产生的模型具有不可预测的不公平行为，对于某些特征变得更不公平，对于其他特征变得更不公平，或者保持与原始模型相对相似的公平性水平。不公平性的不可预测性强烈反对仅仅依靠透明度来验证模型的公平性。然而，在大多数情况下，公平性度量在以下意义上类似地受到影响：如果模型之一根据一个度量变得更不公平，则大多数剩余度量相应地变化。攻击后公平性度量的不一致行为的一种可能解释是存在混淆因素。虽然特征的解释重要性可能较低，但模型可能已经学会依赖于其他特征，这些特征可用于推断目标特征（例如，有些人-另一种可能性是，对抗性解释攻击导致一个模型：a）有效地保持图7：部分依赖图显示了预测输出如何根据敏感特征而变化。显示的结果是针对5个隐藏层模型的。最好用彩色看相同的模型，但忽略导数，使其局部对特征不敏感;或者b）完全忽略特征。我们在第4节中讨论了支持a）而不是b）的证据。此外，图6显示了我们修改后的模型的不公平性与简单忽略目标特征的模型不匹配。图8：原始（左）和修改后的（右）分类器之间的决策边界的比较，在2D简化输入空间中对成人资本收益（最重要的特征）进行攻击后。红色和绿色背景分别表示消极和积极的预测。请注意，下端区域中的边界略有修改，数据点很少。圆圈表示训练和测试集中每个点的2D投影，而它们的颜色表示真实标签。5.6决策边界：模型真正改变了多少我们调查的程度，修改后的模型已经改变了两种方式。首先，我们在原始模型和修改模型的2DPCA投影空间中可视化决策边界（见图8）。其次，我们通过偏相关图（Friedman2001）测量敏感特征对不同模型的影响，该图绘制了f（xi）与xi 的关系，其中f（xi）是对xi的响应，其他属性取平均值。尽管在解释上发生了重大变化，但Ta中显示的少量不匹配如图8所示，表2与决策界限的小变化相结合，表明模型总体上没有显著变化然而，图7显示了模型可以相对于目标属性进行显著的更改6结论和未来的工作我们证明，许多流行的解释方法在现实世界中使用的设置是不能可靠地表明，一个模型是否公平。我们提供了一个直观的解释来说明这是如何发生的。我们介绍了一种修改现有模型的方法，并展示了其在降低六种解释方法中关键敏感特征的特征重要性和四个数据集中看不见的测试点方面的经验成功，同时对模型准确性几乎没有影响。我们的工作引起了那些希望依靠这种解释方法来衡量或执行公平标准的人的关注例如，一个经过训练的贷款评分系统可能对性别等敏感特征不公平。然而，模型的参数可能会以这样的方式修改，即特征重要性解释可能错误地如果要使用透明的方法，我们主张严格的鲁棒性测试，以了解和控制它们可以被操纵的程度。在今后的工作中有许多有趣的问题需要探讨。如何改进解释攻击（例如，探索它的性能，如果以自然的方式扩展到用于多个目标变量），以及如何很好地防御它？人们可以进一步探索攻击如何与数据集、模型类、解释方法以及模型的表示能力和数据集的复杂性之间的差异确认AW感谢达尔文学院的David MacKay Newton研究奖学金、EPSRC基金EP/N510129/1 TU/B/000074下的Alan Turing研究所以及Leverhulme Trust通过Leverhulme Centre for the Futureof Intel- ligence（CFI）提供的支持。UB感谢CFI的支持。BD感谢EPSRC奖#1778323和Dmitry Kazhdan对深入讨论的支持。引用Abadi，M.; Barham，P.;陈杰;陈志; Davis ，A.; Dean，J.;Devin，M.; Ghemawat，S.; Irving，G.; Isard，M.;等，2016年。 Tensorflow ：一个大规模机器学习系统。第 12 届USENIX操作系统设计与实现研讨会，265Adebayo，J.;Gilmer，J.;Muelly，M.;古德费洛岛Hardt，M.;和Kim，B. 2018.对显著性图进行健全性检查。神经信息处理系统，9505Alvarez-Melis，D.，和Jaakkola，T. S. 2018.用自解释神经网络实现鲁棒的可解释性第32届神经信息处理系统国际会议论文集，7786-7795。柯兰联合公司贝拉米河K. E.的; Dey，K.; Hind，M.; Hoffman，S. C.的;Houde，S.; Kannan，K.; Lohia，P.; Martino，J.; Mehta，S.;Mojsilovic ， A.; Na- gar ， S.; Ramamurthy ， K. N. 的 ;Richards，J.; Saha，D.; Sattigeri，P.; Singh，M.;瓦什尼湾的R.;和Zhang，Y. 2018. AI Fairness 360：一个可扩展的工具包，用于检测，理解和减轻不必要的算法偏见。Beutel，A.;陈杰;赵，Z.;和Chi，E. H. 2017.对抗性学习公平表征时的数据决策和理论含义。CoRRabs/1707.00075。Bhatt，U.; Xiang，A.;夏尔马，S.; Weller，A.; Taly，A.;贾，Y.; Ghosh，J.; Puri，R.; J. M. F.地;和Eckersley，P. 2019。部署中的可解释机器学习。arXiv预印本arXiv：1909.06342。陈杰; Kallus，N.; Mao，X.; Svacha，G.;和Udell，M. 2019.不知情下的公平：评估受保护阶层未被观察时的差异。在会议记录的公平性，问责制和透明度，339-348。ACM。Diakopoulos ， N.; Friedler ， S.; Arenas ， M.; Barocas ， S.;Hay ， M.; Howe ， B.; Jagadish ， H. 五、 Unsworth ， K.;Sahuguet，A.; Venkata- subramanian，S.; Wilson，C.; Yu，C.;和Zevenbergen，B. 2018.负责算法的原则。Dombrowski ， A. K. 的 ; Alber ， M.; 安德斯角 J. 道：Ackermann，M.; Mller，K.-的R.; Kessel，P. 2019.可以操纵几何图形，几何图形是罪魁祸首。Dua，D.，Graff，C. 2017. UCI机器学习库。弗里德曼，J.H. 2001.贪婪函数逼近：梯度推进机。统计年鉴1189-1232。Ghorbani，A.; Abid，A.;和Zou，J. 2019。神经网络的解释是脆弱的。AAAI。G r gi c′-Hla ca，N.; Za f a r，M. B.人; 古马迪湾 P.; 和Weller，A. 2018.超越算法决策中的分配公平性：程序公平学习的特征选择。第32届AAAI人工智能。Hardt，M.; Price，E.;和Srebro，N. 2016.监督学习中的机会均等。神经信息处理系统进展（ Advances in NeuralInformation Processing Systems，NeurIPS）许，J.; Joo，S.; Moon，T. 2019.通过对抗性模型操作愚弄神经网络解释。In Wallach，H.; Larochelle，H.; Begelzime r，A.; dAlch e′-Buc，F.; Fox，E.; 和Gar-nett，R.，编辑，神经信息处理系统进展32岁Curran Associates，Inc.2921-2932。Jain，S.，和Wallace，B. C. 2019. 注意力不等于回避。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长论文和短论文），3543Kindermans，P.- J.道： Hoo ke r，S.; Adebayo，J.; Albe r，M.;嘘，K. T.; D？hne，S.; Erhan，D.; 和Kim，B. 2019年。显着性方法的可靠性可解释的人工智能：解释，解释和可视化深度学习。斯普林格。267-280。Kiritoshi，K.; Tanno，R.;和Izumitani，T. 2019.属性图降噪的L1- 范数梯度惩罚。 IEEE 计算机视觉与模式识别会议（CVPR）Kleinberg ， J. 2018. 算法公平性的内在权衡。 ACMSIGMETRICS Performance Evaluation Review，第46卷，第40-40页。ACM。Larson，J.; Angwin，J.; Kirchner，L.;和Mattu，S. 2019.我们是如何分析COMPAS累犯算法的。Lundberg，S. M.，和Lee，S.- I. 2017.解释模式预测的统一方法. 神经信息处理系统进展，4765Pinghui，D.; Gupta，M.; Dhingra，B.; Neubig，G.;和Lipton，Z. C. 2019.学会用基于注意力的解释来欺骗。里贝罗，M。T.;辛格，S.;和Guestrin，C.2016.为什么要我相信你？：解释任何分类器的预测。第 22 届 ACMSIGKDD知识发现和数据挖掘国际会议，1135ACM。Shrikumar，A.;Greenside，P.;Shcherbina，A.;和昆达杰，A.2016.不仅仅是一个黑盒子：通过传播激活差异来学习重要特征。arXiv预印本arXiv：1605.01713。Simonyan，K.; Vedaldi，A.;和Zisserman，A. 2013.深层卷积网络：可视化图像分类模型和显着图.arXiv预印本arXiv：1312.6034。Slack，D.; Hilgard，S.; Jia，E.;辛格，S.;和Lakkaraju，H.2019.我们怎么能骗过LIME和SHAP呢？对事后解释方法的攻击。arXiv预印本arXiv：1911.02508。史密斯湖，澳-地N. 2018.神经网络超参数的纪律方法：第1部分 - 学习率，批量大小，动量和权重衰减。CoRRabs/1803.09820。Speicher ， T.;Heidari ， H.;Grgic-Hlaca ， N.; 古马迪湾 P 的 ;Singla，A.; Weller，A.;和Zafar，M.B. 2018年量化算法不公平的统一方法：通过不平等指数测量个体群体不公平。第24届ACM SIGKDD国际知识发现数据挖掘集，2239-2248。ACM。Springenberg，J. T.; Dosovitskiy，A.; Brox，T.;和Riedmiller，M. 2014.追求简单：全卷积网络。arXiv预印本 arXiv ：1412.6806。Sundararajan，M.; Taly，A.;和Yan，Q. 2017.深度网络的公理属性。国际机器学习会议（ICML）Szegedy，C.;扎伦巴，W.; Sutskever，I.;布鲁纳，J.; Erhan，D.;古德费洛岛和Fergus，R.2013年。神经网络的有趣特性arXiv预印本arXiv：1312.6199。Tieleman，T.，和Hinton，G. 2012.课程6.5-rmsprop：机器学习的神经网络多伦多大学，技术报告。Weller，A. 2019.透明度：动机和挑战。在可解释的人工智能：解释，

下载后可阅读完整内容，剩余1页未读，立即下载