AI隐私工具包：数据保护和合规的开源解决方案

40 浏览量更新于2024-01-25 收藏 887KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

软件X 22（2023）101352原始软件出版物AI隐私工具包Abigail Goldsteen1，Ola Saadi1，Ron Shmelkin1，Shlomit Shachor，Natalia Razinkov以色列海法大学海法校区IBM研究院ar t i cl e i nf o文章历史记录：2022年12月14日收到收到修订版，2023年2月12日接受，2023年保留字：机器学习人工智能隐私合规开源可信AIa b st ra ct分析个人数据以推动业务的需要，以及保护数据主体隐私的要求，造成了一种众所周知的紧张关系。GDPR和CCPA等数据保护法规对个人数据的收集和处理规定了严格的限制和义务。这些也与机器学习模型相关，机器学习模型可用于获取有关其训练集的个人信息。开源的AI隐私工具包旨在帮助组织驾驭这一具有挑战性的领域，构建更值得信赖的AI解决方案，并提供保护隐私和帮助确保AI模型合规的版权所有2023作者。由爱思唯尔公司出版这是CC BY-NC-ND下的开放获取文章许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）。代码元数据当前代码版本v0.1.0用于此代码版本的代码/存储库的永久链接https://github.com/ElsevierSoftwareX/SOFTX-D-22-00422可复制胶囊的永久链接法律代码许可证MIT许可证使用Git的代码版本控制系统使用Python的软件代码语言、工具和服务编译要求、操作环境和依赖关系Python 3.7及更高版本，依赖关系列在requirements.txt中如果可用，请链接到开发人员文档/手册https://ai-privacy-toolkit.readthedocs.io/en/latest/问题支持电子邮件abigailt@il.ibm.com1. 动机和意义《欧盟一般数据保护条例》（GDPR）2、《加州消费者保护法》（CCPA）及取代该条例的《加州隐私权法》（CPRA）3已就个人数据的处理订明多项限制。世界上其他国家也在制定类似的法律和条例。如今，许多数据处理任务都涉及机器学习（ML）。近年来，已经开发了可以从训练模型推断敏感信息的攻击。这包括成员推断攻击、模型反转攻击和属性推断*通讯作者。电子邮件地址：abigailt@il.ibm.com（Abigail Goldsteen）、olah99@gmail.com（Ola Saadi）、shmelkin. gmail.comshlomiti@il.ibm.com（Ron Shmelkin）、www.example.com（Shlomit Shachor）、natali@il.ibm.com（Natalia Razinkov）。1 以前是。攻击由此得出的结论是，在某些情况下，机器学习模型应被视为个人信息，因此应遵守GDPR和类似法律4[1]。遵守这些法规可能是一项复杂而昂贵的任务，尤其是在机器学习模型方面。先进的机器学习算法，如深度神经网络，往往会消耗大量数据进行预测或分类。此外，这些ai-privacy-toolkit [2]是一个开源软件项目，旨在解决与个人数据训练的人工智能（AI）模型的隐私和兼容性相关的不同挑战它是一套更大的工具和项目的一部分，这些工具和项目包括ML模型中的其他隐私方面（例如构建模型2 https://ec.europa.eu/info/law/law-topic/data-protection/data-protection-欧_恩3 https://www.caprivacy.org/annotated-cpra-text-with-ccpa-changes/4 https://www.europarl.europa.eu/RegData/etudes/STUD/2020/641530/EPRS_STU（2020）641530_EN.pdfhttps://doi.org/10.1016/j.softx.2023.1013522352-7110/©2023作者。由爱思唯尔公司出版。这是一篇开放获取的文章，使用CC BY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表SoftwareX期刊主页：www.elsevier.com/locate/softxAbigail Goldsteen，Ola Saadi，Ron Shmelkin等.软件X 22（2023）1013522具有差分隐私保证5和推理攻击实现6），以及附加的可信AI维度，例如可解释性、偏差、鲁棒性等。该工具包旨在供模型开发人员（数据科学家）使用，作为其现有ML管道的一部分。它被实现为一个Python 库，可以与不同的 ML 框架（如 scikit-learn 、 PyTorch 和Keras）一起使用。ai-privacy-toolkit目前包含两个模块：匿名化模块[3]包含用于匿名化ML模型训练数据的方法，因此当模型在匿名数据上重新训练时，它也将被视为匿名的这可能有助于免除该模型在数据保护法规（如 GDPR 和CCPA）中规定的不同义务和限制。它还可以确保参与训练集的特定个人的个人信息不会被重新识别。最小化模块[4]包含遵守GDPR和CCPR中ML模型的数据最小化原则的方法它使我们能够减少使用机器学习模型进行预测所需的个人数据量，同时使模型能够做出准确的预测。这是通过移除或泛化某些输入特征来实现的。即使无法进行归纳，也希望各组织能够证明它们收集的数据对于特定目的是必要的这些解决方案可以让组织创建道德和隐私保护的人工智能解决方案，为组织内的研究开辟新的机会，在这些研究被认为不可能的地方，并为人工智能项目的跨组织合作创造机会。根据Gartner的说法，7这是为模型训练解锁高达50%的个人数据和将行业协作提高高达70%的关键一步。大多数与保护ML训练数据隐私相关的工作，包括具有差异隐私的训练模型，通常需要对学习算法本身进行更改，因为它们将扰动纳入模型训练过程[5，6]。这导致了多种解决方案和库这在采用许多不同ML模型的组织中非常难以采用。此外，这些解决方案不适用于学习过程由独立于拥有（并且想要匿名化）私有数据的组织的第三方执行的场景。模型匿名化和数据最小化技术都可以在外部应用于训练过程，并且它们接收已经训练过的模型作为输入。其他相关技术计划在未来添加到工具包中，例如支持ML模型的“擦除权”或“被遗忘权”（也称为“机器非学习”）。机器非学习可以包括精确和近似方法，这取决于模型的类型以及它是否已经被训练或当前创建（以便可以应用特殊的训练过程来帮助稍后忘记样本）。同样重要的是，要有适当的非学习评估方法，以确保样本确实被删除，或者将它们对模型的影响降至最低。另一个我们可以向工具包中添加新资产的领域AI模型的隐私风险评估那里是针对特定攻击的几种现有工具包或开源实现。8 然而，这些都是分散的，它们的使用5 https://github.com/IBM/differential-privacy-library6 https://github.com/Trusted-AI/adversarial-robustness-toolbox需要高水平的专业知识。我们计划创建一个端到端的风险评估工具，自动化调用单个攻击的大部分复杂性，并总结不同攻击和指标的结果[7]。一个相对新兴的领域是生成用于模型训练的合成数据集。然而，简单地从现有的私有数据集生成数据集并不授予任何隐私保证，因为新的数据集可能与先前的数据集非常相似，并且可以从其推断出关于原始数据的敏感信息。因此，在这些场景中，为了提供强大的隐私保证，可以将差分隐私纳入数据合成过程[8，9]。这种具有隐私保证的合成数据集是否会保留足够的有用信息来支持模型训练，还有待观察。然而，我们认为这样的解决方案是对ai-privacy-toolkit中实现的解决方案的补充，甚至可能在未来包含在工具包中。该工具包内可能开发的另一个领域据我们所知，目前还没有商业解决方案可用于数据最小化或从ML模型中被遗忘的权利，尽管关于后一个主题的研究越来越多。92. 软件描述在本节中，我们将更详细地描述该工具包及其不同的模块。2.1. 软件构架如前所述，该工具包分为多个模块，每个模块都处理AI模型的隐私或合规措施的不同方面。所有模块共享一组公共的实用程序类和方法。这些包括数据集和模型的通用包装器，以便用户可以将不同的模块应用于他们当前使用的任何类型的模型和/或数据集。例如，数据集可以以NumPy数组、Pandas DataFrames、PyTorch张量等形式提供。模型可以属于不同的ML框架，如scikit-learn、PyTorch、Keras等。通用包装器使模块能够一次性实现，并能够使用相同的通用代码应用于模型和数据的不同组合。2.2. 软件功能匿名化模块包含用于对ML模型训练数据进行匿名化的方法。该功能基于k-匿名构造[10]，该构造将k个或更多个样本分组在一起，并以使其可识别的方式对其进行概括。泛化仅应用于可组合使用的属性这些属性被称为准标识符（QI）。对匿名数据的学习通常会导致准确性的显著下降。然而，这里采用的方法是为匿名化ML训练集而设计的，并且以由现有模型指导的方式执行匿名化，以便在匿名化数据集上重新训练后对模型准确性的影响最小化。这使我们能够实现比非定制方法更好的效用，特别是在k值较高和有大量准标识符的情况下，这使得匿名机器学习成为许多企业的可行选择。7 https://www.gartner.com/en/documents/39929228 https://github.com/Trusted-AI/adversarial-robustness-toolbox9https://github.com/jjbrophy47/machine_unlearning··Abigail Goldsteen，Ola Saadi，Ron Shmelkin等.软件X 22（2023）1013523Fig. 1. 完成匿名化过程。这种剪裁是通过训练一个代理模型来实现的，该代理模型通过知识蒸馏来学习原始模型的决策边界，并使用代理模型对模型行为相似的这些组是将k-匿名应用于数据集的基础在这个实现中采用的代理模型是一个单变量决策树。决策树是在原始模型的训练数据上训练的，使用原始模型的预测作为标签。我们将树的每个叶节点所需的最小样本数设置为k，然后使用树的叶子作为泛化的基础。映射到每个叶的训练样本构成被概括为相同值的记录组。由于每个叶子节点包含来自训练集的至少k个样本，并且我们以相同的方式概括所有这些样本，因此它们将彼此无法区分，从而满足k-匿名性。一旦确定了组，则必须将特定组中的每个样本映射到相同的代表值由于我们希望能够重新训练ML模型，匿名数据集，我们需要将每个组映射到一组数字特征，模型可以在这些特征上进行训练。我们选择将每个组映射到与原始特征相同的域中的具体代表点使匿名化记录与原始数据共享相同的域，可以直接在任何新收集的测试数据上使用模型，而不必应用匿名化过程所规定的任何特殊重新编码。换句话说，ML生命周期的其余部分可以保持不变。将每个叶中的数据点映射到代表值有几种选择。我们选择使用落在聚类中的实际值作为该聚类的代表点我们选择使用最接近聚类中值的点，在该集群中具有多数标签的点。也可以分别从每个范围/组中选择实际值。最后，在匿名数据集上重新训练模型。图1描述了完整的匿名化过程。有关该方法的更多细节和结果，请参见[3]，这些结果显示了其对不同推理攻击的有效性。最小化模块包含用于减少使用机器学习模型执行预测所需的个人数据量的方法。它还接收一个经过训练的ML模型作为输入，并使用它来指导泛化过程。同样，我们的目标是使用模型的预测来指导创建相似记录组，作为泛化过程的基础，以生成针对模型定制的泛化。与匿名化模块相反，这里的泛化应用于模型的运行时（推理时间）数据，而不是训练数据。此外，仅应用不损害模型准确性（或在给定阈值内）的泛化。因此，也提供了所需的（目标）精度。这可以等于目标模型该过程的结果是输入特征的泛化。某些特征可能会被完全抑制，而其他特征可能会被泛化。该过程不涉及重新训练目标模型或对其进行任何更改最小化过程需要在标记有模型预测的数据集上训练泛化器模型，并应用迭代过程来提高泛化或模型的准确性，在这里，我们还采用单变量决策树作为泛化模型，因为树在每个内部节点上创建的分裂可以用作确定广义范围的基础。我们使用树的叶子节点作为我们的相似输入组，并基于通向每个叶子的树路径上的决策来创建泛化（到达特定叶子不需要的特征可以接收任何值）。由于目标是在不损害模型准确性的情况下找到最佳泛化每个叶仅包含在目标模型中生成相同预测的输入然后，我们通过组合来自树的内部节点的每个特征的所有分裂值来获得初始泛化集在获得初始的广义特征集之后，我们将这些广义特征应用于测试数据，并检查目标模型在其上的准确性。基于测量的相对准确性，决定是否继续该过程。Abigail Goldsteen，Ola Saadi，Ron Shmelkin等.软件X 22（2023）1013524图二. 完成最小化过程。如果达到准确度阈值，则使用直接从泛化器模型如果达到的准确率高于阈值，我们采用一个步骤，以提高推广。这是通过迭代地修剪决策树来完成的，即，从叶子到树中更高的节点。如果达到的准确度低于阈值，我们采用一个步骤，旨在提高准确度，通过删除的泛化功能。这意味着被移除的特征将保持不变，而不是泛化它图 2描述了完整的数据最小化过程。一旦确定了广义特征集，就有几种方法来收集新数据进行推理。第一种选择是直接使用从泛化器模型派生的特性范围，例如，当从表单中的用户收集数据时。使用这种方法，数据被收集的用户永远不会泄露他们的确切数据，只有相关的范围。另一种选择是采用最小化过程，该最小化过程将原始数据点映射到广义数据点，这取决于数据点所属的聚类。这种转换可以在收集数据的端点运行，并在将原始数据发送到分析之前立即泛化最小化模块被实现为scikit-learn Transformer，以便它可以直接嵌入到scikit-learn管道中。10然而，它也接受来自其他框架的模型工程.有关方法和结果的更多详细信息，请参见[4]，这些结果表明，在某些情况下，输入数据泛化是可能的，而模型精度不会下降。我们目前正在增加一个额外的，免费的数据最小化的基础上使用的可解释性方法的实施过程。3. 说明性实例3.1. 数据最小化让我们假设一个独立的贷款公司，甚至银行内部的一个独立组织，希望推销一种新的低息贷款，并以有能力偿还的个人为他们训练了一个机器学习模型，根据几个人口统计和财务特征来预测一个人是否会拖欠贷款。他们使用决策树分类器，准确率高达94%。现在，该公司需要开始从新的潜在客户那里收集数据，例如，根据调查，同时遵守GDPR他们使用了ai隐私工具包中的数据最小化模块当运行该工具时，他们发现可以概括两个输入特征：年收入和债务收入比。对于年收入，该算法确定可以在32个数值范围内收集信息，而不是精确的连续值。债务收入比有29个区间。即使在应用这些概括之后，该模型也达到了93.3%的准确率，这接近于该模型的原始准确率，并且完全可以用于贷款营销。现在，当从潜在客户收集这些敏感的财务信息时，客户可以使用范围而不是确切的数字来提供更一般的信息。这可以让他们对自己的隐私得到解决更有信心，并帮助组织遵守GDPR这个例子可以用Loan数据集来演示，这是2015年LendingClub贷款数据的摘录。在预处理之后，这个数据集有43个特征和421，095行，如图11所示。3 .第三章。为了使用数据最小化模块，必须定义模型此外，可以提供可以将分类特征变换成可以馈送到决策树模型中的数字特征的编码器。如果未提供编码器，则将创建默认编码器。这个准备阶段可以在图1中出现的代码片段中看到。四、要将最小化应用于模型，必须实例化GeneralizeToRepresentative类，为其提供模型，分类特征列表，要最小化的特征列表以及可选的编码器。它还可以提供模型的目标相对精度（在应用泛化之后）。如果未提供，则使用默认值0.998相对精度。这意味着泛化器将努力实现模型原始精度的99.8%。测试数据集应分为两部分，一部分用于训练泛化器，另一部分用于验证结果。并且应该计算模型对泛化器训练数据的预测。泛化器训练数据和模型对该数据的预测必须提供给GeneralizeToRepresentative类的fit（）方法以训练泛化器模型。数据可以作为numpy数组或pandas数组，或者在通用数据包装器类ArrayDataset中提供。在提供numpy数组的情况下，还可以提供功能名称的列表。最后，transform（）方法可以被调用以将学习到的泛化应用于保持验证集，并且可以评估模型在泛化数据上的准确性。所有这些步骤都出现在图1的代码中。五、要了解有关此示例的更多信息，请查看我们的附带视频。10https://scikit-learn.org/stable/modules/compose.html#pipelinehttps://www.lendingclub.com/info/download-data.actionAbigail Goldsteen，Ola Saadi，Ron Shmelkin等.软件X 22（2023）1013525图三. 贷款数据集。图四、用于准备最小化所需信息的代码。3.2. 模型匿名化图五. 用于执行最小化的代码。用于训练模型的训练数据，以及模型让我们举一个例子，创建个人的模型-向银行客户提供金融产品的标准化建议。该模型基于各种个人数据进行训练，包括人口统计和财务信息。但是，如果此模型将与第三方共享，或者如果银行不希望将其定义为包含个人数据，则可能希望确保其不包含可能通过各种方法从模型中提取在这种情况下，银行该团队首先在原始训练数据上训练ML模型。然后他们提供匿名化工具，标识符和所请求的隐私参数k（k值越高，隐私越好）。他们运行该工具并返回一个新的匿名版本的训练数据集。然后，他们在匿名数据上重新训练模型。现在，团队可以检查新模型的准确性，并决定其准确性水平是否可接受。对于用于营销的模型，准确性的小幅降低可能是可接受的。4. 影响ai-privacy-toolkit相对较新（大约一年前发布）。在写这篇文章的时候，它有49颗星，18个叉，7个。Abigail Goldsteen，Ola Saadi，Ron Shmelkin等.软件X 22（2023）1013526GitHub上的手表描述工具包中实现的技术的两篇论文共有11篇引文。其中一篇论文是关于人工智能系统审计和风险管理技术的调查论文，其中有30篇引文。此外，该工具包正在用于早期检测黑色素瘤的实际应用中[11]。这些模块中的每一个都是人工智能隐私新方法的首次实现。它们可能会促进更多类似的方法和工具来解决这些具有挑战性的问题。随着人工智能法规的成熟以及围绕其违规行为的案例法的出现，我们预计更多的组织将在其人工智能基础设施中实施和嵌入此类工具和流程。5. 结论我们提出了一个新颖的开源工具包，用于与AI模型的隐私和合规性相关的工具和技术。目前的实现只是一个开始，因为我们希望在未来添加新的模块和技术我们还希望从多个组织和学术机构招募更多的贡献者竞合利益作者声明以下经济利益/个人关系可能被视为潜在的竞争利益：Abigail Goldsteen报告H2020提供了经济支持Abigail Goldsteen拥有国际商业机器公司的专利#US11281728。Abigail Gold-steen拥有国际商业机器公司的专利 #US20220253554A1 。 AbigailGoldsteen拥有国际商业机器公司的专利#US20210042629A1。数据可用性数据将根据要求提供。确认这项工作得到了iToBoS项目资助的支持由欧盟附录A. 补充数据与本文相关的补充材料可以在https://doi.org/10.1016/j.softx.2023.101352上找到。引用[1]放大图片作者：Kazim E，Denny DMT，Koshiyama A.人工智能审计和影响评估：根据英国信息专员办公室的说法。AI Ethics 2021;1（3）：301-10.http://dx.doi.org/10.1007/s43681-021-00039-2网站。[2][10]李国忠，李国忠，李国忠. Ai-privacy- toolkit：与AI模型的隐私和合规性相关的工具和技术的工具包。2022，（版本0.1.0）[计算机软件]。IBM，https://github.com/IBM/ai-privacy-toolkit。[3][10]李文辉，李文辉，李文辉.分析机器学习模型。在：数据隐私管理，加密货币和区块链技术（CBT 2021）。计算机科学讲义，13140，Cham：Springer;2022，http://dx.doi.org/10。1007/978-3-030-93944-1_8。[4][10]李文辉，李文辉，李文辉.在机器学习模型中实现数据最小AI Ethics2021;2：477-91. http://dx.doi.org/10.1007/s43681-021-00095-8网站。[5]AbadiM，Chu A，Goodfellow I，McMahan HB，Mironov I，Talwar K，Zhang L.深度学习与差分隐私ACM SIGSAC计算机和通信安全会议论文集。2016，p. 308比18[6]杨文，杨文，杨文，杨文，杨文.从私有训练数据进行深度学习的半监督知识转移。In：ICLR. 2017年。[7]张晓刚，王晓刚，王晓刚. AI模型隐私风险评估的端到端框架第15届ACM系统与存储国际会议论文集。New York，NY，USA：Association for ComputingMachinery;2022，p.142.http://dx.doi.org/10的网站。1145/3534056.3534998。[8]Aynthos S，Brown W，Kearns M，Kenthapadi K，Melis L，Roth A，SivaAA. 通过自适应投影释放不同的私有查询。在：第38届机器学习国际会议的开幕式上，PMLR，第139卷。^P. 457比67[9]张忠，王涛，霍诺里奥J，李宁，巴克斯M，何S，陈军，张勇。PrivSyn：差异化私有数据合成。在：USENIX安全研讨会. 2021年[10]斯威尼湖 K-匿名：一种保护隐私的模式。内部- 不确定性，模糊性和基于知识的系统的期刊2002;10：557-70。[11] 李伟杰，李伟杰，李伟杰.人工智能隐私技术在医疗领域的应用。在：挑战可信赖的人工智能和对健康的附加值。 IOS Press; 2022 ， p. 121-2.http://dx.doi.org/10.3233/shti220410网站。

下载后可阅读完整内容，剩余1页未读，立即下载