FATForensics：Python工具箱用于机器学习算法的公平性、问责制和透明度分析

19 浏览量更新于2024-01-25 收藏 697KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

软件影响14（2022）100406原始软件出版物FAT Forensics：用于算法公平性、问责制和透明度的Python工具箱KacperSokola，b，RaulSantos-Rodrigueza，PeterFlachaa英国布里斯托尔大学智能系统实验室b澳大利亚RMIT大学ARC自动决策与社会卓越中心A R T I C L E I N F O关键词：公平问责制透明度Python软件A B标准今天，由机器学习算法驱动的人工智能系统可以对我们的日常生活做出重要的、有时具有法律约束力的决定。然而，在许多情况下，这些系统及其行动既没有受到管制，也没有得到认证。为了帮助对抗这种算法可能造成的潜在危害，我们开发了一个开源工具箱，可以分析选定的公平性，问责制机器学习过程的透明度方面：数据（及其特征），模型和预测，允许自动客观地向相关利益相关者报告。在本文中，我们描述了这个Python包的设计，范围，使用和影响，它是在3-Clause BSD开源许可证下发布的。代码元数据当前代码版本0.1.1用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2022-97可再生胶囊的永久链接https://codeocean.com/capsule/8437308/tree/v1法律代码许可证3条款BSD许可证（新BSD）使用git的代码版本控制系统使用Python的软件代码语言、工具和服务编译要求，操作环境依赖性https://fat-forensics.org/getting_started/install_deps_os.html#installation-instructions如果可用开发人员文档/手册链接https：//fat-forensics.org/问题支持电子邮件https://fat-forensics.org/#communication1. FATForensics的数据公正性、问责制和透明度开源软件是可重复研究的支柱，特别是在人工智能（AI）和机器学习（ML）中，改变随机数生成器的种子可能会导致最先进的解决方案成为一个低于标准的预测系统。尽管有许多努力来确保出版物伴随着代码，但AI和ML领域都在与可重复性危机作斗争[1]。解决这一问题的一个方法是促进在开放源码许可证下出版用于科学实验或将其作为发布过程的一部分[2]。尽管它们很重要，但实现通常被视为研究的副产品，并且经常在基于它们的发现发表后被放弃。我们称这种现象为纸制品，即，代码的主要目的是看到一个文件的出版，而不是实现任何特定的概念与彻底的软件工程实践。这种态度导致独立的软件包由于缺乏文档、测试、使用示例和（出版后）维护而通常难以使用，因此影响了它们的覆盖范围、可用性以及更广泛的科学可重复性。本文中的代码（和数据）已由Code Ocean认证为可复制：（https://codeocean.com/）。更多关于生殖器的信息徽章倡议可在https://www.elsevier.com/physical-sciences-and-engineering/computer-science/journals上查阅。*通讯作者：英国布里斯托尔大学智能系统实验室电子邮件地址：K. bristol.ac.uk，Kacper. rmit.edu.au（K.Sokol），enrsr@bristol.ac.uk（R. Santos-Rodriguez），Peter. bristol.ac.uk（P.Flach）。https://doi.org/10.1016/j.simpa.2022.100406接收日期：2022年7月12日;接受日期：2022年8月2日2665-9638/©2022作者。由Elsevier B.V.出版。这是一篇开放获取的文章，使用CC BY许可证（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表软件影响杂志首页：www.journals.elsevier.com/software-impactsK. 索科尔河Santos-Rodriguez和P.Flach软件影响14（2022）1004062表1FAT Forensics最新版本-版本0.1.1 -中实现的FAT功能公平性问责制透明度数据特征系统偏差● 亚群体代表性● 抽样偏差● 数据密度● 数据描述● 汇总统计量基于群体的公平模型基于组性能度量● 系统性性能偏倚● 全球替代品（bLIMEy）● 部分依赖● 子模块化Pick预测<$反事实公平性<$预测置信度<$模型不可知的反事实● 本地代理人（bLIMEy）● LIME（bLIMEy实现）● 个人条件期望调查结果。这种状况对AI来说尤其成问题， ML研究具有快节奏的环境，缺乏标准和广泛的社会影响。机器学习系统普遍存在的可靠性问题激发了一系列框架来评估和记录它们，并通过标准化机制报告它们的质量，鲁棒性和其他（技术）属性。例如，研究人员提出了一些方法来处理数据集[3，4];自动决策系统[5];通过应用程序编程接口（API）提供的预测模型[6];排名算法[7]; AIML可解释性方法[8];以及收集，处理和共享用户数据的应用程序的隐私方面[9]，以确保其高质量，透明度，可靠性和问责制。这些努力值得称赞，但它们可能要求作者详细了解所调查的系统，范围有限，或受制于时间和劳动密集型的创作过程，所有这些都可能阻碍其吸收或者减缓ML的研发周期。此外，自我报告--以及缺乏外部审计--意味着它们的某些方面可能是主观的，因此歪曲了基础系统的真实行为，无论是有意还是无意的。另一方面，认证创造了对外部机构的需求，这对于所有以某种方式影响人类的ML系统来说似乎很难实现为了帮助解决AI &ML公平性，问责制和透明度（FAT）领域的这些缺点，我们设计并开发了一个名为FAT Forensics的开源Python软件包[10]-表1列出了其最新版本（版本0.1.1）中分发的算法。它的目的是作为一个可互操作的框架来实现，测试和部署FAT社区提出的新算法，以及促进他们的评估和比较对国家的最先进的方法，因此民主化访问这些技术。该工具箱能够分析数据驱动的预测过程的所有方面– 数据（原始数据及其特征）、模型和预测-视图脂肪的方面。软件的通用接口层（在第2节中描述）使其足够灵活，可以支持学者和从业者的典型工作流程，并支持两种操作模式作为原型设计、探索性分析、（数字或视觉）报告和仪表板以及FAT属性的检查、监控和评估。此外，该软件包由全面和初学者友好的文档支持，其中包括教程，示例，操作手册和用户指南。第二节（Section2）我们介绍我们的软件并描述其架构。接下来，我们将介绍一些可能的用例和在共享屋顶下使用各种FAT算法的好处（第3节）。最后，我们概述了我们的一揽子计划迄今为止的影响，并讨论了鉴于我们的贡献，FAT Forensics的预期长期效益（第4节）。虽然这篇论文的重点是我们软件的广泛优势，但补充出版物[10]提供了其高级概述，实现细节以及与相关软件包的比较。2. 设计和建筑AI ML技术的系统评估和比较是许多不同社区的一个活跃研究领域。在成熟的研究领域，如监督学习，我们可以观察到向普遍接受的（预测）性能指标和评估软件的收敛;它们的实现通常构成相关软件包的基本部分，尽管如此，许多此类指标与底层预测算法的独立性允许专用于计算它们的独立软件，例如， PyCM[11]. 在对比，相对年轻领域 –例如算法公平性、问责制（稳健性、安全性、安全隐私）和透明度（可解释性）-通常缺乏这种类型的评估策略和软件解决方案，使它们成为一个受欢迎的补充，有可能简化研究。为了应对这些挑战，我们开发了一个开源Python框架，用于评估、比较和部署FAT算法。我们选择Python是因为它在不同的AI ML研究社区中的流行程度和整体的简单性。我们选择了对NumPy和SciPy的最小（必需）依赖，以便于在各种设置中轻松部署。对Mat-plotlib、scikit-learn、Pillow和scikit-image的可选依赖性允许访问基本的可视化、ML算法和图像操作（可解释性功能所需）。该工具箱托管在GitHub上，以促进社区贡献，并在3-ClauseBSD许可证下发布，以开放其商业应用。为了鼓励长期的可持续性，它已经根据最佳软件工程实践开发，例如：单元和集成测试;高代码覆盖率;持续集成;功能和模块级技术API文档;以任务为中心的代码示例;叙述驱动的教程;面向问题的操作指南;以及全面的用户指南。该工具箱在一个连贯的API下实现了许多流行的FAT算法（还有更多），在FAT工具中重用了许多功能组件，并使社区可以随时访问它们。最初的开发重点是表格数据和成熟的预测模型（scikit-learn [12]），随后将是能够处理感官数据（图像文本）和神经网络（TensorFlow [13] PyTorch [14]）的技术。此外，我们设想，相关的软件包已经在FAT社区突出，并坚持最佳软件工程实践，可以'它们很容易获得，并避免重新实施。包括在FAT取证算法的设计和工程，以支持两个主要的应用领域。研究模式的特点是“数据输入-可视化输出”，设想工具箱被加载到交互式Python会话中（例如，一台笔记本电脑），以支持探索性分析、原型设计、开发、评估和测试。此模式适用于研究人员，他们可以使用它来提出新的公平性指标，将其与现有解决方案进行比较，或检查新的预测系统或数据集（无需设置专用软件工程工作流程）。为FAT Forensics贡献这些尖端技术的实现K. 索科尔河Santos-Rodriguez和P.Flach软件影响14（2022）1004063将反过来使该软件包对数据驱动系统的监控和审计（第二个预期的应用领域）具有吸引力。更具体地说，以“数据输入-数据输出”为特征的部署模式此模式适用于ML从业者，他们（通过访问低级API）可以使用它来监视或评估数据驱动系统;在软件工程中使用持续集成以确保代码的高质量的情况下，我们的工具箱可以用于评估ML管道中任何组件的FAT。其发展和部署。FAT软件的相当一部分是为了支持研究输出而开发的，这通常会导致多余的依赖关系，数据集，预测模型和（交互式）可视化与代码库一起分发，这些代码库本身可以通过非标准API访问。为了缓解这些问题，FATForensics将核心FAT功能从其可能的呈现方式扩展到用户和实验特定资源。通过对这些算法的操作设置进行最小假设来实现软件基础设施的这种抽象，因此促进了关键FAT功能的公共接口层，仅关注数据、模型、预测和用户[10]。在这个范围内，预测模型被假设为一个普通的 Python 对象，具有fit ， predict 和可选的predict_proba方法，它提供了与scikit-learn [12]TensorFlow，PyTorch甚至是托管在互联网上并通过Web API访问的类似地第假设数据集是一个二维NumPy数组：经典数组或结构化数组，后者支持（基于字符串的）分类属性。由于可视化是我们的第一个应用程序模式（研究）的重要组成部分，该软件提供了基本的绘图功能，只有在安装了可选的Matplotlib依赖项时才能启用。除了宽松的输入要求，所有的技术纳入包被分割成可互操作的算法构建块，可以很容易地重复使用，甚至跨越FAT边界，以创建新的功能-这种原子级分解的多功能性在下面的部分中演示。有关软件技术方面的更多详细信息，请参见FAT法医技术文件[10]。3. 用例我们提出了三个不同的用例来演示该软件如何为此，我们采用了UCI人口普查收入（成人）数据集[15]，该数据集在算法公平性和透明度研究中很受欢迎下面的数据分析是研究模式的代表，并受到FATForensics文档1中包含的教程的启发;它可以用专用的Excel笔记本复制。2为了演示部署模式，我们提供了一个基于Plotly Dash的仪表板，它有助于使用FATForensics作为后端对同一数据集进行交互式分析。3 .第三章。第1https://fat-forensics.org/tutorials/index.html2https://github.com/fat-forensics/resources/blob/master/fat_forensics_overview/FAT_Forensics.ipynb3 https://fatf.herokuapp.com/ （来源代码可用网址：https：//github。com/fat-forensics/fatf-dashboard/.）功能分组。FATForen-sics的核心构建块之一是要分区的函数集合数据基于对 (sets的）唯一值和数值属性的基于阈值的分箱。这种算法概念-结合任何标准（预测）的性能指标，从预测和真实的标签-促进了大量的FAT工作流程。各种不同的基于组的（成对的）公平性标准，不限于在包中实现的那些，可以以这种方式通过对受保护的特征（可以用于区别对待的属性，例如，性别），使我们能够调查基于群体不知情，平等机会，平等准确性或人口统计学均等指标等的预测模型的不同影响[16]。因为他们中的一些人是相互不兼容的[17]，将他们并排比较可能是有益的。例如，当考虑到同样的准确性和人口均等时，亚洲太平洋岛民（Asi-Pac-Isl）和其他群体受到公平差距的影响;根据人口均等，其他和白人亚群体也受到不公平待遇;而平等机会并没有表现出任何差异影响的迹象，如图所示。1.一、分组功能还可以帮助以类似的方式评估数据和模型的责任。例如，给定数据集中各亚群之间的样本量差异可能导致系统性偏倚在这样的（受保护的）组上的所得模型的预测性能中，因为它可能对于代表不足的个体表现不佳。在测量准确度和真阴性率时，基于人种特征分割成人时可以观察到这种效应。正如所料，前者（图）。2（a））提供了相同的结果，以组为基础的公平性分析在相同的准确性（图。1（a）;后者（图）。2（b）），另一方面，揭示了四个亚群体对表现出显着的性能差异，与其他影响最大的分歧，从所有其他组除了美洲印第安人爱斯基摩人（阿美族-印第安人-爱斯基摩人）。分区对于透明度分析也很有用;例如，在建模之前，可以为数据集生成汇总统计数据，例如基于（受保护的）特征的子群体之间的标签分布，以揭示任何类别不平衡。在此背景下研究种族属性（数据密度。感兴趣的数据点所在区域的密度估计（基于训练数据的分布）可以被视为其预测置信度的代理[18]，从而有助于判断其可靠性和鲁棒性，因为密集区域应该提供更准确的建模。为此，FAT Forensics实现了一个定制的基于邻居的密度估计器-例如，我们根据Adult的前1000个实例估计其密度，并选择四个数据点-两个来自密集区域，两个前两个得到的密度分数为0，并被正确预测为≤50 K;后两个被分配的密度分数为1，其中一个预测正确，另一个被错误分类为≤50K。经过仔细检查，该数据点具有相对较高的fnlwgt特征值（第99.99百分位数）（1，226，583），这是其高密度评分和不正确预测的线索（有关更多详细信息，请参见上述Queryter笔记本除了在预测中产生信任，密度估计可以帮助评估范例解释的质量并计算现实的反事实[19]，这可以用作透明度工具和个人公平机制（通过受保护的属性）。从稀疏区域中寻找反事实可能会产生基于不太可能发生在真实世界中的实例的解释。生活，例如，让一个人活到两百岁解释从稀疏区域获取的上述错误分类的数据点提供了诸如以下的解释：（i）将资本增益从0提高到25，000预测>50 K（具有1个密度分数的稀疏区域）;以及（ii）增加资本增益。K. 索科尔河Santos-Rodriguez和P.Flach软件影响14（2022）1004064Fig. 1. 成人数据集种族特征的成对组公平性。红色（1）表示对给定的一对子群体的不同影响，绿色（0）表示他们受到虐待。图二、成年人种族特征的基于成对组的表现差异。红色(1) 显示了不同的性能和绿色（0）可比的处理。从0到4000的资本损失和从1，226，583到430，985的减小的fnlwgt预测>50K（具有0.02密度分数的密集区域）。而(i) 规定了一项合理的行动，但保留了《无产阶级和轻工业工人权利公约》异常高的价值，使之不太可能;（ii），另一方面，降低了该属性的值-因此将反事实置于密集区域-并表明即使4000的资本损失被归类为>50K这是可能的，投下了对前一个功能异常高的原始价值更多的怀疑。最后，在这个实例中找不到以受保护的属性为条件的反事实，这表明它的预测是公平的（再次，请参阅前面提到的Alberyter Notebook了解更多细节）。替代模块化。替代解释器是一种流行的可解释性技术，其在选定的邻域中拟合透明模型，以近似和解释所述区域中潜在黑盒的预测行为[20- 22 ]。鉴于其高度模块化，FAT Forensics通过bLIMEy元算法4实现其核心构建块-由可解释的表示组成，数据采样和解释生成步骤组成-允许用户轻松构建适合手头问题的定制代理，从而大大提高了结果解释的质量和可信度[ 22，23 ]。例如，表格数据的可解释表示可以通过基于四分位数的离散化或从决策树中提取的特征空间分区来构建（后者更忠实[24]）;数据可以通过高斯或混合[25]采样来增强（后者提供了多样性和局部样本[22]）;并且可以使用线性模型或决策树来生成解释（前者仅限于特征影响，而后者提供了各种各样的见解，如规则和反事实[23，24，26]）。这样的代理解释器可以是本地的– 或全局-当样本覆盖整个数据空间时。具体地说，考虑图2所示的两个局部代理。4，其中基于树的解释器[24，26]能够更好地近似接近所选实例的决策边界。第https://fat-forensics.org/how_to/transparency/tabular-surrogates.html4. 影响概述虽然软件是AI ML研究进展的主要驱动力之一&，但其质量往往缺乏。FAT Forensics通过促进FAT工具的开发、评估、比较和部署，在算法公平性、问责制和透明度方面提供了一种可能的解决方案。在FAT算法的实现之间共享公共功能基础是这种综合包的许多优点之一。其多功能性以及对研究和部署操作模式的支持使其对学术界和工业界成员具有吸引力，特别是因为它支持对整个预测管道的FAT方面进行调查：数据，模型和预测。这反过来应该鼓励社区采用该软件并在这里贡献他们的新颖算法和错误修复（而不是将它们作为独立代码发布），从而在一个强大和可持续的环境中将它们暴露给更广泛的受众，增强该领域研究的可重复性并将包导向现实世界的用例。通过从零开始在模块化水平上开发FAT工具，FAT Forensics确保了它们的健壮性和责任性，此外还可以避免任何错误，否则可能会引入下游。例如，LIME [21]-由Microsoft的Interpret[27]和Oracle的Skater[28]库“包装”-在其解释的局部性和一致性方面存在已知问题[22，29]，这无意中影响了这两个包。因此，我们希望并期待在FATForensics的初始开发过程中遵循的所有软件工程最佳实践（并保持发扬）都有助于我们创建一个易于扩展和贡献的可持续包，长期服务于社区。此外，软件包的模块化设计有助于进行尖端研究。迄今为止，FAT Forensics中可用的代理解释器的实施使我们能够仔细研究其功能和故障模式，从而得出新的发现，理论和透明度工具。bLIMEy-替代元算法-就是一个很好的例子;它的诞生受到了识别独立算法模块的启发，其进一步的研究表明了表格数据局部采样的重要性和决策树作为替代模型的有效性[ 22，23 ]。这种解释器的一个特定实现-LIMEtree -基于多输出回归树，并通过提供不同类型的忠实，一致，可定制和多类解释来改进代理的许多缺点，包括反事实[ 26 ]。替代构建块的不同实现也有助于我们分析可解释表示的作用和参数化，并提高其鲁棒性-它们将预测模型使用的低级数据表示转换为人类可理解的解释概念，并且是替代的支柱[ 24 ]。FATForensics也是ML可解释性实践会议教程的基础[30]，以及许多讲座，暑期学校课程，教育活动和学习资源。5https://events.fat-forensics.org/K. 索科尔河Santos-Rodriguez和P.Flach软件影响14（2022）1004065图3.第三章。成人数据集中种族特征的每个唯一值的收入分布。见图4。（a）线性（LIME类）和（b）基于树的本地代理的例子，没有可解释的表示（实现直接可视化），使用bLIMEy框架为Two Moons数据集构建。竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作确认这项工作是由泰利斯财政支持，是泰利斯和布里斯托尔大学之间的合作研究协议的结果KS和PF部分得到了TAILOR（通过整合学习，优化和推理实现可信赖的人工智能）的支持，该项目由欧盟地平线2020研究和创新计划资助，GA编号为952215。此外，KS还得到了ARC自动决策与社会卓越中心的支持，该中心由澳大利亚政府通过澳大利亚研究委员会资助（项目编号CE 200100005）; RSR得到了UKRI图灵AI奖学金EP/V024817/1的支持。作者还想感谢学生软件工程师的贡献：亚历山大赫本，拉斐尔Poyiadzi和马修克利福德。引用[1]M. Hutson，Artificial intelligence faces reproducibility crisis，Science（ISSN：0036-8075）359（6377）（2018）725http://dx.doi.org/10.1126/science.359.6377。七二五[2]S. Sonnenburg ， M.L. Braun ， C.S. 翁， S 。本吉奥湖博图湾霍姆斯， Y 。LeCun，K.- R.穆勒角，澳-地Pereira，C.E.拉斯穆森湾拉奇湾Schölkopf，A.斯莫拉山口 Vincent ， J. 韦斯顿河，巴西 - 地 Williamson， The need for opensource software in machinelearning，J。马赫学习. Res. 8（Oct）（2007）2443[3] T. Gebru，J. 摩根斯坦湾Vecchione，J.W.Vaughan，H.沃勒克，H。多梅三世K. Crawford，Datasheets for datasets，in：第五届机器学习公平性，问责制和透明度研讨会（FAT/ML 2018），第35届国际机器学习会议，ICML 2018，瑞典斯德哥尔摩，2018，arXiv：1803.09010。[4]S. Holland，A. Hosny，S. Newman，J. Joseph，K. Chmielinski，数据集营养标签：推动更高数据质量标准的框架，数据保护和隐私，第12卷：数据保护和民主12（2020）1。[5]D. Reisman，J. Schultz，K.克劳福德，M。Whittaker，政治影响评估：公共机构问责的实用框架，2018年，AI现在研究所。[6]M. Arnold，R.K.Bellamy，M.Hind，S.Houde，S.梅塔A.莫伊西洛维奇河奈尔，K.N. Ramamurthy，A.奥尔泰亚努湾Piorkowski，D.Reimer，J. Richards，J. 蔡，K.R. Varshney，FactSheets：通过供应商的符合性声明增加对 AI服务的信任(ISSN：0018-8646）63（4/5）（2019）6：1http://dx.doi.org/10.1147/JRD.2019.2942288[7]K. Yang，J. Stoyanovich，A.阿苏德湾Howe，H. Jagadish，G. Miklau，排名的营养标签，在：2018年国际会议论文集关于数据管理，ACM，2018年，pp。1773-1776年。[8]K. Sokol，P. Flach，可解释性事实说明书：可解释方法的系统评估框架，2020年会议论文集关于公平，问责制和透明度，2020年，pp。56比67[9] P.G. Kelley ， J. Bresee ， L.F. Cranor ， R.W. Reeder ， A nutrition label forprivacy ， in ： Proceedings of the5th Symposium on Usable Privacy andSecurity，ACM，2009，p. 四、[10] K.索科尔A.赫本河 Poyiadzi，M. 克利福德河 Santos-Rodriguez，P. Flach，FATForensics ： A Python toolbox for implementing and deploying fairness ，accountability and transparency algorithms in predictive systems，J.Open SourceSoftw. 5（49）（2020）1904，http://dx.doi.org/10.21105/joss.01904。[11] S. 哈格吉， M 。 Jasemi ， S. Hessabi ， A. Zolanvari ， PyCM ： Multiclassconfusion matrix library in Python，J.Open Source Softw.3（25）（2018）729，http：//dx.doi.org/10.21105/joss.00729网站。[12] F.佩德雷戈萨湾瓦罗科格拉福，V.米歇尔，B.蒂里翁岛，澳-地格里塞尔，M。作者声明：R.放大图片作者：王伟帕索斯角，澳-地库那波，M。布鲁赫，M。Perrot，E.Duchesnay，scikit-learn：Python中的机器学习，J. 马赫学习.Res. 12（2011）2825[13] M. Abadi，P. Barham，J. Chen，Z. Chen，中国山核桃A. Davis，J.Dean，M.Devin ， S. 盖马瓦特湾欧文， M 。 Isard ，M.Kudlur ， J. 莱文贝格河Monga，S.穆尔，丹吉默里湾，澳-地作者：Steiner，P. Tucker，V. Vasudevan，P. Warden，M.Wicke ， Y. Yu ， X. Zheng ， TensorFlow ： A system for large-scale machinelearning ， in ： 12th USENIXSymposium on Operating Systems Design andImplementation，OSDI 16，2016，pp. 265-283。[14] A. 帕斯克河格罗斯，F。Massa，A.Lerer，J. Bradbury，G. Chanan，T.基林，Z.林，N. 吉梅尔辛湖Antiga，A.Desmaison，A.Kopf，E.杨，Z.DeVito，M.赖森，A. Tejani，S. 奇拉姆库尔蒂湾施泰纳湖，澳-地 Fang，J. Bai，S. Chintala，PyTorch：一个命令式风格的高性能深度学习库，在：H。沃勒克，H。拉罗谢勒A.贝盖尔齐默，F. d' Alché-Buc，E.福克斯河，巴西-地Garnett（Eds.），进展K. 索科尔河Santos-Rodriguez和P.Flach软件影响14（2022）1004066在神经信息处理系统，第32卷，Curran Associates，Inc.，2019年，页8026-8037[15] R.科哈维湾Becker，Census income data set，1996，URL https://archive.ics.uci.edu/ml/datasets/Census+Income.K. 索科尔河Santos-Rodriguez和P.Flach软件影响14（2022）1004067[16] M. Hardt，E.普赖斯，N。 Srebro，监督学习中的机会平等，在：第30届神经信息处理系统国际会议论文集，NIPS'16，Curran Associates Inc.，USA，ISBN：978-1-5108-3881-9，2016，pp. 3323-3331。[17] T. Miconi，“公平”的不可能性[18] M. Perello-Nieto，E.S. Telmo De Menezes Filho，M. Kull，P. Flach，背景检查：构建更可靠和通用分类器的一般技术，在：2016 IEEE第16届数据挖掘国际会议，ICDM，IEEE，2016，pp. 1143-1148。[19] R. Poyiadzi，K.索科尔河Santos-Rodriguez，T. De Bie，P. Flach，FACE：可行和可操作的反事实解释，在：AAAI/ACM人工智能，伦理和社会会议记录，2020年，pp. 344-350[20] M. 克雷文， J.W. Shavlik ， Extracting tree-structured representations oftrainednetworks ， in ： Advances in Neural Information Processing Systems ，1996，pp. 24 -30[21] M.T.里贝罗河，巴西-地辛格角，澳-地Guestrin，“我为什么要相信你？”：解释任何分类器的预测，在： Proceedingsofthe22ndACMSIGKDDInternationalConference on Knowledge Discovery and Data Mining ， SanFrancisco，CA，USA，August 13-17，2016，pp. 1135-1144.[22] K.索科尔A.赫本河Santos-Rodriguez，P. Flach，bLIMEy：超越LIME的替代预测解释，在：2019年以人为中心的机器学习研讨会（HCML 2019），第33届神经信息处理系统会议， NeurIPS 2019 ，加拿大温哥华， 2019 年， arXiv ：1910.13016。[23] K. Sokol ， Towards intelligible and robust surrogate explainers ： A decisiontreeperspective（Ph.D.论文），布里斯托尔大学，2021年。[24] K.Sokol ， P.Flach ， Towardsfaithfulandmeaningfulinterpretablerepresentations，2020，arXiv：2008.07007。[25] H. Zhang，M.西塞，Y.N. Dauphin，D. Lopez-Paz，mixup：Beyond empirical riskminimization ， in ： International Conference on Learning Representations ，2018，URL https://openreview.net/forum? id=r1Ddp1-Rb。[26] K. Sokol，P. Flach，LIMEtree：基于本地代理多输出回归树的交互式可定制解释，2020，arXiv：2005.01427。[27] H. Nori，S. Jenkins，P. Koch，R. Caruana，InterpretML：机器学习可解释性的统一框架，2019，arXiv：1909.09223。[28] A. 放大图片作者：Kramer，P. Choudhary，Silversurfer84，B.V. Dyke，A.Thai，N.帕苏马蒂，G. Lemaitre，D.汤普森湾Cook，Apricienceinc/Skater：1.1.2，2018，http：//dx.doi.org/10.5281/zenodo.1423046，Zenodo.[29] T. Laugel，X. Renard，M. J. Lesot，C. Marsala，M. Detyniecki，在事后可解释性中定义代理的位置， ICML 2018 ，斯德哥尔摩，瑞典， 2018 ， arXiv ：1806.07498，[30] K.索科尔A.赫本河Santos-Rodriguez，P. Flach，什么以及如何实现机器学习透明度：使用可互操作的算法组件构建定制的可解释性工具，在欧洲会议上的实践教程关于机器学习和数据库中知识发现的原理和实践，ECML-PKDD，比利时根特，2020年，URL https://events.fat-forensics。org/2020_ecml-pkdd.

下载后可阅读完整内容，剩余1页未读，立即下载