机器学习模型监测挑战与方法分类：应对ML市场失去价值的挑战

100 浏览量更新于2023-12-07 收藏 816KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

数据科学与管理5（2022）105研究文章监测机器学习模型：挑战和方法的分类TimSchroder*，Michael Schulz计算机科学系，Nordakademie Hochschule der Wirtschaft，Van-der-Smissen-Straße 9，Hamburg，22767，GermanyA R T I C L E I N F O关键词：机器学习监控操作分类A B S T R A C T基于机器学习的软件的重要性正在迅速增长，但原型的潜力可能无法在操作中实现。该研究确定了生产过程中机器学习应用程序验证和确认的六类挑战。随后，对监测作为缓解这些挑战的可能解决方案进行了分析。捕获相关数据和模型指标可能会在早期阶段发现问题，从而可以采取有针对性的对策。本研究提出了一种目前在科学文献中讨论的方法和指标的分类，并将这些类别与实践中的案例研究进行了比较。1. 介绍从经济角度来看，基于机器学习（ML）的软件的重要性正在稳步增长（Cam et al.，2019; Daven-port和Ronanki，2018; Schubmehl等人， 2020年）。最近，基于ML的产品，特别是那些构建在来自Linux的预先设计的组件上的产品，如TensorFlow 1或PyTorch 2，提供了以相对较少的努力为不同用例构建强大而准确的预测系统的可能性。然而，各种研究表明，许多ML项目在测试阶段之后就没有进展了（Jones等人，2019年）。然而，ML的进步已经导致人们越来越关注将这些组件集成到更多的软件系统中，这仍然是一个争论的话题，组织在使用ML时如何调整他们的开发过程（Amershi等人， 2019; Breck等人， 2017; Klaise等人， 2020; Sculley等人， 2015年）。如果模型选择和培训没有得到仔细监控，项目可能会在市场上失去价值，组织可能不仅会损失金钱，还会失去声誉（例如，微软的Twitter机器人Tay否认了大屠杀（Wolf等人，2017）或亚马逊使用的招聘工具显示出对女性的偏见（Kodiyan，2019））。与传统软件系统相比，ML模型在操作上的差异通常被强调为项目实现的障碍（Amershi等人，2019年）。在文献中，基于ML的系统是charac-具体如下：同行评议由Xi交通大学负责* 通讯作者。电子邮件地址：timXschroeder@gmail. com（T. Schroder）.1https：//www.tensor tensorow.org/。2https://pytorch.org/。https://doi.org/10.1016/j.dsm.2022.07.004他们的行为是动态的，因为他们是，根据定义，学习（斯卡利等人，2015年）。通常难以理解，被认为是黑盒子（Miller，2018）。在环境变化方面脆弱（Ovadia等人， 2019年）。很少适用于（只是稍微）修改的上下文（Tan等人， 2018年）。这些特性可能导致系统在从受控测试环境释放并投入运行时表现出意外（Amershi等人， 2019; Klaise等人， 2020; McMahan等人， 2013;Sculley等人，2015年）。目前关于这一主题的研究解决了维护方面的挑战（Sculley等人，2015）、测试（Breck等人，2017; Kanewala和Bieman，2018）和标准化部署（Vartak和Madden，2018; Zaharia等人， 2018年）的ML模型。此外，Field报告了基于ML的系统的操作（Amershi等人，2019）以及用于开发和维护这些模型的元软件系统（Baylor等人， 2017;R′eetal.， #20199;已出版。这项研究旨在为协调机器智能与其操作员和整个社会的目标的总体问题的一部分提供答案特别是，这项工作涉及在操作过程中学习系统的验证和确认（V V）这项研究旨在帮助确保学习系统在使用过程中满足特定的产品要求（ IEEE ，1990），并满足其用户的需求（Pham，2006）。因此，在此讨论以下两个研究问题（RQ）RQ1：目前在操作ML模型时，与V V相关的挑战是什么？接收日期：2022年1月19日;接收日期：2022年7月6日;接受日期：2022年7月13日2022年8月2日在线发布2666-7649/©2022 Xi'an Jiaotong University.出版社：Elsevier B.V.代表科爱通信有限公司公司这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表数据科学与管理杂志主页：www.keaipublishing.com/en/journals/data-science-and-management●●●●T. Schr€oder，M.Schulz数据科学与管理5（2022）105106¼¼þRQ2：ML模型的哪些部分可以被监控，以什么形式？本研究的范围仅限于使用监督学习的模型，因为这是近年来实践和科学考虑中最流行的方法（见第3节）。第二节简要介绍了相关概念和定义。在第3节中，讨论了一个系统的文献综述，以收集、分类和提出ML模型（RQ 1）操作期间V V中的挑战和问题第4节重点介绍了作为解决这些问题的一种手段的监测，提供了文献中发现的方法的分类清单（RQ2）。总的来说，这项工作旨在记录当前关于监测运行中的监督ML模型的研究状况，将其与现实世界的案例进行比较，并为进一步的研究和实际应用提供基础和动力2. 定义在本节中，详细介绍了本文件的范围，并提供了与本研究相关的概念的定义。电气和电子工程师协会（IEEE）是全球最大的技术专业人员协会，与计算机科学界密切相关，其定义在此特别予以考虑。2.1. 机器学习模型（MLM）基于监督学习的MLM3表示一个统计模型m，该模型旨在通过使用数据的归纳过程来学习一般函数关系 f （ Hüllermeier 和 Waegeman ，2020）。我们考虑向量形式的输入变量X（X1，X2，...，X p）（也称为特征）和输出变量Y（也称为因变量或标签）（Murphy等人，2007;Zhang等人，2019年）。然后，MLM假设X和Y之间的关系为Y f（X）ε的形式，其中ε作为误差项（Hastie等人， 2009年）。2.2. 机器学习系统为了清楚地区分独立的MLM及其与相关软件组件的交互，本文进一步介绍了术语MLS。根据IEEE，我们将系统定义为一组组件的集合，这些组件被组织起来以实现一组定义的功能方面。MLS由作为一个组件的MLM（IEEE，1990）与其他软件组件组合而成。这些附加组件可以是用于数据准备、供应或监控的模块2.3. 验证在软件开发的背景下，验证是指在开发阶段结束时测试组件是否符合该阶段开始时施加的要求（IEEE，1990）。Pham（2006）将验证描述为开发和确保某些产品要求的过程。这个术语的另一种可能的解释是形式和数学证明，以证明软件组件或系统的正确性（IEEE，1990）。在本研究中，我们使用更广泛的验证术语，包括但不限于形式证明。非形式化的验证方法可以分为以下两种方法：（i）静态方法，在没有执行的情况下检查系统（审查过程，控制流程分析和静态代码分析），以及（ii）动态方法，在环境影响变化下调查系统行为（Gardiner，1999）。2.4. 验证在文献中存在着对术语验证的各种定义。Balzert（2009）提到，确认应被视为测试所设计软件对其预期用途的适用性。IEEE将确认描述为在所有开发阶段结束时进行的系统评估，以验证是否符合产品要求（IEEE，1990）。Pham（2006）将验证描述为一个过程，其目标是确保所考虑的组件满足其各自客户的需求。基于这些解释，我们将验证定义为回答产品是否足以满足预期用例的问题在这里，重点不是功能需求，而是组件是否满足其用户和提供产品的一方的实际需求。这个术语必须与模型验证的方法区分开来，后者在数据科学项目中很常见。2.5. 监测监视器是指与组件同时运行并监视、记录、分析或验证其活动的软件或硬件（IEEE，1990）。在软件工程的背景下，我们对术语监控遵循类似的定义，该定义首先由Kitchenham和Walker（1989）建立。在这里，监控被描述为一个过程，涉及端到端的提取，分析和解释的指标下观察的对象。它强调对收集的指标的解释这通常包括以下三个子步骤：（i）识别异常值，（ii）确定可能的原因，（iii）可能的纠正措施（Kitchenham和Walker，1989）。换句话说，监察的目的是找出潜在的质量问题，并建议应对措施。参照所提出的验证定义，这可以被描述为非形式和动态验证。因此，本工作将监控视为一组活动，这些活动有助于通过监控来保证某些系统属性度量和自动化测试。2.6. 区分监测和测试这里提出的监测定义需要与测试的概念区分开来，这在精神上是相似在文献中，测试被认为是一组活动，其目的是揭示软件的现有行为和所需行为之间的差异（Zhang等人，2019年）。这里，监控被称为测试的子集在操作期间基于新的输入或模型的激励变量的变化连续执行的测试也被认为是监控。相反，在部署之前进行的或一次性执行的任何类型的测试都是测试的一部分，而不是监视。这就提出了一个问题，为什么与传统的软件开发相比，考虑对运行中的MLM重复执行测试是很重要的，即使它们在部署之前已经通过这种努力是合理的，因为可能依赖于基于ML的组件，并将在第3节中说明。3. 机器学习模型操作中的挑战本节概述了目前在使用传销的挑战，重点是VV。3在本研究过程中，传销有时也被称为更好阅读的模式。这两个术语应被视为可互换的。4在数据科学项目中，验证是指当将训练模型应用于训练阶段保留的数据集时，评估模型泛化能力的过程（Alpaydin，2020）。T. Schr€oder，M.Schulz数据科学与管理5（2022）1051076¼ACM数字图书馆，EBSCOhost，IEEE Xplore，Wiley Online Library和Google Scholar的文献研究。该搜索的目的是识别所有相关问题领域，而不是识别所有合适的文章。研究范围进一步限于使用监督学习的模型，因为这是近年来实践和科学考虑中最流行的方法（ Jordan 和Mitchell，2015; Zhang等人， 2019年）。在Zhang et al. （2019）关于监测基于ML的系统，在审查的144篇论文中，只有4篇表2MLM运作过程中V V面临的挑战分类商品分类描述高维数据或模型状态的高维性带来的挑战数据分布模型稳健性与改变典型情境处理无监督学习或强化学习。由于这项工作所概述的方法依赖于相关文献作为基础，因此这里只能深入考虑监督学习。在检索过程中，包括ML、数据挖掘和人工智能在内的术语用于反映当代文献中ML术语的广泛定义。共识别出45篇相关科学论文和书籍。这些出版物大致可分为三种系统相互依存通信测试设计和有效性与依赖其他组织和与其他组织整合有关的挑战系统模型结果的可解释性和可靠性方面的挑战界定测试及其固有有效性方面的挑战类别，如表1所示。根据几个标准选择文献，以尽可能完整和可区分除了引用等关键信息外，还包括各种行业和用例为确保代表研究的当前状态主要考虑了2017年以后的数据这一规则的一些例外情况存在，以提供历史背景（克拉克等人， 2014; Spanfelner 等人， 2012 ）或引入较旧的理论概念（Clarke et al.， 2012; Morgenthaler等人， 2012; Murphy等人，2007年; Schlimmer和Granger，1986年）。表1中未列出本节中引用的用于解释或背景但未专门处理挑战的其他文献。已确定的挑战被分为六个不同的集群。表2概述了这些群组，下文将对其进行更详细的解释这里的目的是提供一个全面的收集，但没有错误的分类的问题记录科学的日期。在本研究的整个范围内，我们假设使用了通用软件工程最佳实践，例如非ML代码组件的单元测试，版本控制系统和持续集成（CI）基础设施这项工作的重点是挑战和实践，特别是相关的V V在传销的运作3.1. 高维有充分的证据表明，高维度是传销运作中的一个这是关于数据表达的（ Amershi 等人， 2019; Arpteg 等人， 2018; L 'Heureu x等人，2017）以及模型状态空间的可能大小（Borg et al.，2018; Clark等人，2014; Tripathi等人， 2020年）。3.1.1. 高维数据在数据的上下文中，高维度是指大量的观察、特征或来源（L'Heureu x等人， 2017年）。这个主题和新出现的问题，如增加的计算工作已经被深入讨论（Barocas和Selbst，2016; L'Heureux等人， 2017年）。本节将仅限于传销操作的后果，在V V，这主要是间接的。高维数据通常会对以下章节中提出的其他挑战产生负面影响，使确保数据质量变得更加困难的努力表1列出了经审查的关于多层次传销运作中的挑战的出版物类别描述计数检查不完整或不正确的值所需的时间随着数据集的数量和大小而增加，并且分析变得更加计算密集（Breck等人，2019年）。此外，由于合并来自异质源的数据所需的额外处理步骤，错误的可能性增加（Sculley等人，2015年）。3.1.2. 高维模型状态空间状态空间描述了一个特定模型可能的所有可能状态，这是由Borg等人描述的。（2018年）。它通常随着参数的增加而指数增长，这被称为状态空间爆炸（Clark等人，2014年）。形式模型验证的方法通常基于状态空间的（经济）可计算性（Clarke等人， 2012年）。如果不能满足这一假设，则构成使用这些方法的禁止性标准（Ashmore等人，2019年）。3.2. 数据集移位统计模型通常在数据分布是静态的假设下使用，即，它们在训练数据和生产数据之间不改变（Quionero-Canadian等人， 2009年）。然而，在文献中存在具有随时间定性或定量地改变的输入数据流的用例的各种示例（Arpteg等人， 2018; Paleyes等人，2020; Sculley等人，2015年）。如果违反了上述假设，则必须相应地考虑这一点（Quionero-Canadian等人， 2009年）。本节讨论了与数据中的这种变化有关的挑战和问题，也称为数据集移位（DS）（Quionero-Canadian et al.， 2009年）。DS可以通过考虑分布函数P来形式化。我们分别用x和y表示训练时的输入数据和标签。 x0和y0用于声明操作期间收集的新数据集的观测值和相关标签。然后，DS可以被定义为训练数据和生产数据的分布不同的情况（Quionero-Ca nP.etal.， 2009年），即，P（x，y）P（x0，y0）5（Moreno-Torres等人， 2012年）。DS的相关类型包括协变量偏移、先验概率偏移和概念偏移（Bartlett等人， 2000; Chilaka-pati，2019;Herrera，2011; Moreno-Torres等人， 2012; Quionero-Canadian等人，2009; Webb等人， 2016年）。DS可能由于环境的自然变化及其对数据的影响而出现，或者可能由第三方操纵处理系统而故意引起（Schelter等人，2018年a）。文献中最常引用的三种情况是样本选择偏差、非平稳环境和数据中毒（Breck等人，元研究研究，其中以前的工作对问题的传销业务进行评估，比较，或总结。10[5]在这里和下面的所有例子中，这两个分布都是理论上的。从一个或多个ML 11学习的在商业或研究背景下的项目进行了总结。针对特定问题的研究，专门针对MLM 24中分析操作及其表征或解决方案。卡利从来没有期望在形式上是平等的，而只是略有不同因此，正确但不太直观的公式是d（P（x，y），P（x0，y0））<ε，其中d是测量两个分布之间距离的函数，例如Kullback Leibler散度（Kullback和Leibler，1951），ε是允许偏差。T. Schr€oder，M.Schulz数据科学与管理5（2022）105108-6¼2019; Cramer ， 1940; Heckman ， 1979; Jagielski 等人， 2018;Japkowicz和 Stephen， 2002; Ovadia 等人， 2019; Paleyes等人，2020; Stoica等人， 2017; Tripathi等人， 2020年）。3.3. 鲁棒建模鲁棒性定义为组件在存在无效输入或具有挑战性的环境条件下继续正确运行的程度（Borg等人， 2018; Farquhar和Gal，2019; IEEE，1990）。对于统计模型，可以区分对（错误）输入数据的稳健性和修改后的配置。3.3.1. 对输入数据在过去的几年里，攻击方为了获得输入数据的错误分类而创建的对抗样本的概念一直受到极大的关注。例如，攻击者可能试图操纵自动驾驶汽车的图像数据，使其无法识别行人。在这种情况下，MLM将被表征为对输入数据的（潜在轻微的）修改不鲁棒（Adler等人， 2016年）。有效应对这些攻击的方法很少。Kumar等人（2020）指出，大多数传销运营商无法检测到攻击，因此无法对攻击做出响应。随着基于ML的系统在我们生活中的使用和影响越来越多，由于修改数据而导致的错误决策构成了重大风险（Adler等人，2016; Borg等人， 2018; Huang等人，2017年）。然而，输入数据不需要由外部方操纵以造成伤害（Tripathi等人，2020年）。此外，多层模型通常对错误或不完整的数据不鲁棒。例如，不满足隐式提出的要求的数值特征a可能潜在地导致程序崩溃或行为不端（Breck等人， 2019年）。这里可能的情况包括：（i）当模型计算除以a时，无法验证0对所有条目都成立，或者（ii）a的缺失值导致预测明显变差3.3.2. 对修改配置的Sculley et al.（2015）研究了模型配置和使用特征的相互影响。为了总结他们的发现，我们考虑使用特征x1，x2，...，xn的MLM。在大多数建模方法中，当任何特征xi被调整时，剩余的n1个特征的权重类似地，先前选择的超参数可能不再是最优的。相反，改变超参数也可能导致相对特征相关性的差异。改变一切改变一切（英语：ChangingML组件3.4. 系统相互依赖在经典软件工程中，管理外部库和软件组件形式的依赖关系被认为是复杂性和错误倾向的重要因素（Morgenthaler et al.，2012年）。可能有人认为，由于对数据的额外依赖，多层膜甚至更容易受到这些问题的影响（Polyzotis等人， 2017）和模型相互作用（Schelter等人，2018 a;Sculley等人， 2015年）。3.4.1. 数据依赖性Amershi等人（2019）认为，尽管传统软件会随着时间的推移而变化，但这通常是通过操作员的行为单向发生的。相比之下，多层模型遵循面向数据的范式，可以适应数据的变化，从而受到外部因素的影响。作为一个整体，对ETL（E X tract，Transform，Load）管道的依赖通常被认为是持续质量保证的障碍。它们不仅需要在测试中考虑更多的组件，而且通常在功能和编程语言上与模型有很大的不同（Boehm等人，2019;Polyzotis等人，2017年）。Breck等人（2019）强调了这个问题的相关性，因为数据组件中的错误可能会导致直接影响模型的质量并使任何算法优势无效。同时，对内部和外部数据源的依赖性通常更难检测和适当处理（Sculley et al.， 2015年）。一个可能的原因是缺乏支持数据依赖性管理的工具（ Boehm等人， 2019;Polyzotis等人， 2017年），特别是与传统软件工程中的流行程度相比（Amershi等人，2019; McMahan等人， 2013年）。3.4.2. 多层级管理机制之间的冲突具有高内聚性和低耦合性的组件的模块化设计和封装通常有助于软件系统的可维护性和质量（Balzert，2009）。在根据这些原则建立的体系结构中，模块相互通信以重用和捆绑逻辑。然而，在对多层膜适用这些准则时，出现了问题当一个模型的输出决定另一个模型的输入时，就会出现模型依赖性（Sculley et al.， 2015年）。我们考虑一个模型A，它解决了一个任意的问题。模型B被指示根据A的输出处理相关问题。这被认为是容易出错的，因为前述CACE原理现在跨越多个模型（Sculley等人，2015年）。A的任何变化都可能对B的性能产生影响。这也被称为非单调误差传播的作者。在这一点上，不能再保证一个组件（在这种情况下为A）的改进不会导致其他组件（例如B）或整个系统的性能下降（Amershi等人， 2019; Sculley等人， 2015年）。如果没有明确声明B对A的依赖性，这方面的问题会加剧，这种情况在软件工程中也称为可见性债务（Morgenthaler et al.， 2012年）。3.5. 结果通信许多 ML 方法被称为黑框（ Borg 等人，2018 年 ; Salay 和Czarnecki，2018年），以表示只有外部行为可见的组件，而内部结构和决策过程是未知的，或者可能不使用相关知识（Peled等人，1999年）。决策过程中这种透明度的缺乏使得MLS的所有维护方面从错误分析到解释系统的决策变得复杂（Borg等人， 2018年; Salay和Czarnecki，2018年）。将MLM的输出转换为应用领域的可理解解释的能力可能是模型选择的关键因素，并且在这方面可能甚至超过性能度量（Hansson等人， 2016; Klaise等人， 2020; Paleyes等人，2020; Vartak等人，2016年）。在软件工程中，解释过程通常基于将大型复杂组件分解为较小且可管理的子集（Balzert，2009）。对于大多数ML方法，特别是深度神经网络（DNN）;然而，很难隔离功能部分并对其进行语义理解（Arpteg etal.， 2018年）。虽然理论上执行此操作所需的所有信息都可以以源代码的形式获得，但当前的权重矩阵和超参数，人类可理解概念的解释目前最好通过近似方法来执行（Bengio，2012; Bhatt等人， 2020年）。此外，通过故意用DNN的组合替换模块化组件，已经实现了图像和语音识别等领域的重大进步（Touvron等人， 2020; Vaswani等人， 2017年）。实质上，透明度已经被交易为准确性（Arpteg等人，2018年）。目前，尚不清楚是否有可能在保持最佳准确性的同时进行更透明的建模。 Glorot和Bengio（2010）认为，如果模型是不可约的，那么对它的解释一定和模型本身一样复杂。假设模型的知识表示是最优的，因此模型是真正不可约的，还有待证实。因此，预测性能和透明度仍然是相互矛盾的目标。预测不确定性的评估。在研究和商业领域，T. Schr€oder，M.Schulz数据科学与管理5（2022）105109对给定计划、想法或预测的信心评估通常是其沟通的关键部分（Gass和Joel，1981）。虽然多层模型可以在其预测中实现高水平的准确性，但是它们通常没有被设计成正确地陈述其预测不确定性（Ovadia等人， 2019年），这是指传销的概率估计，给定的预测是不正确的。Hüllermeier和Waegeman（2020）说明了模型不确定性的可靠表示是一个关键属性来评估其结果。只有当风险能够正确地表3审查的关于传销监测的出版物清单类别描述计数荟萃研究：对先前关于ML监测的工作进行评价、比较或总结的研究。文献报道，其中监测方法从一个或15个更多的ML项目在商业或研究背景下进行了总结。评估后，是否可以启动干预措施，或者是否可以完全阻止系统做出影响深远的决定（Ovadia等人， 2019年）。这方面的相关性在使用中变得特别明显具体问题分析专门研究传销业务中的一种监控方法49具有高错误成本的情况，例如自动驾驶汽车（Bojarski等人， 2016）或基于图像识别的医学诊断（Esteva等人， 2017年）。3.6. 测试设计和有效性在软件工程中，测试及其在部署之前的执行一直是V&V的重要组成部分&（Voas和Miller，1995; Zhu等人， 1997年）。然而，在文献中有争议地讨论了该过程到MLM的可转移性（Breck等人， 2017年; Zhang等人，2019年）。3.6.1. 测试设计2007年，Murphy et al. （2007）描述了当没有可靠的来源来定义期望的行为时，测试特别困难。换句话说，当不知道正确答案y时，很难检查程序是否正确这被称为oracle问题（Barr等人，2015年）。发生这种情况的一个示例是ML辅助的产品推荐。在这里，不知道对任何特定客户最好的建议是什么，直到为时已晚或可能永远不会。此外，在第3.4节中已经解释过，MLS的组成部分很少能够单独考虑可能的错误会对其他软件组件产生反馈影响。因此，测试转移到集成或系统级别，其中必须同时考虑训练数据、建模方法和其他组件（Zhang etal.，2019年）。当ML算法包含非确定性元素并且再现性有限时，这种努力进一步复杂化（Murphy等人， 2007年）的报告。3.6.2. ML检测的有效性即使不考虑设计测试的挑战，它们在ML背景下的基本有效性也是有争议的。 Sculley等人（2015）认为，单元和集成测试预部署不足以确保MLS的属性。尽管在部署之前对模型质量进行任何验证原则上都被认为是有帮助的，但许多研究都认为它只提供了关于操作质量的不足信息（Klaise等人， 2020; Paleyes等人， 2020; Zhang等人，2019年）。MLM的适应性与不断变化的环境条件相结合（见第3.2节）经常被引用为原因之一由于固有的不可预测性，在部署前的测试中无法保证真实世界的条件（Paleyes等人， 2020; Sculley等人， 2015年）。即使是出于测试目的而使用模拟，也总是基于其各自开发人员的假设（Paleyes等人，2020年）。近年来出现的一种替代方法是，随着模型的变化，应通过监控持续观察、分析和检查其配置和输入数据（Klaise等人，2020; Schelter等人，2018 a; Sculley等人，2015年）。4. 监控机器学习模型在本节中，监测将作为第3节中提出的挑战的潜在（部分）解决方案进行讨论。首先，本节介绍了科学文献中讨论的监测方法的分类。方法与第3节所述相同。该分类法是基于66篇出版物的表3的结构类似于上一节中的表1，提供了所选文献的概述很少有关于传销监控方法的元研究被发现。因此，本节着重于从经验报告和针对具体问题的研究中收集、总结和分类个别方法实践中的案例研究被用来验证调查结果。对于这些案件的搜索，主要使用了人工情报事件数据库6（AIID）。该数据库由报告的智能系统故障的集合组成（McGregor，2020）。此外，还使用了互联网搜索引擎来完成搜索。分析了在使用MLM期间发生上述问题的案例研究，并有足够的证据表明缺乏本可以避免事件的适当监控我们没有包括这样的情况，(1) 系统故障不是由MLM引起的，例如，因为机器人的机械部件出了故障(2) MLM系统产生了有问题的结果，但这些是模型的开发者和用户的意图，例如，deepfakes的误导性和误导性使用(3) 在生产使用中未发生系统故障，例如，在展示或发射前测试期间。总共有94个与我们的研究相关的案例研究使用这种方法进行了识别这一大量的宣传和报道的案件突出了监控传销的重要性。在评估不同的集群配置后，我们发现指标的主题和焦点是分类的最自然维度。因此，这里提出的分类法区分了监控数据和监控模型，以及技术和非技术方面（见图1）。①的人。技术方法被认为在测量和目标值方面有明确的定义（例如，更好的准确性），而非技术方法取决于特定于用例的解释及其操作员和用户的需求（例如，伦理考量）。4.1. 数据监测检查数据是否符合特定标准在文献中在术语数据验证下进行了讨论（Breck等人， 2019年）。数据验证中的挑战既不是新的，也不是ML独有的（Breck等人， 2019），因此，这里也介绍了相关领域（如数据库系统）的合适方法。持续检查数据的质量、格式和分布被认为是操作MLM的重要部分（ Amershi 等人， 2019; Arpteg 等人， 2018; Borg 等人， 2018;Polyzotis等人， 2017; Schelter等人，2018 b; Sculley等人， 2015年）。然而，迄今为止，并未发现MLM输入数据可以或应该考虑的方面的总体分类这项工作旨在提供这样一个概览。关于《文献，并将已确定的类别与来自实践系统的文献研究使用6https://incidentdatabase.ai。T. Schr€oder，M.Schulz数据科学与管理5（2022）1051102¼[Fig. 1. 传销监控方法分类个体观测的有效性与那些涉及跨批次数据的有效性的有效性是不同的。此外，还考虑了经济和监管方面的问题。4.1.1. 基于观察的效度基于观测的数据有效性考虑单个观测x Dt，其中Dt是在MLM操作期间收集的数据集如果D t用于进一步的训练，例如在持续学习期间，则应验证Dt之外的观测数据质量（Breck等人， 2019年）。在形式上，我们要求：8x 2Dt;c 2CO：cx（1）其中CO是每个观察预期满足的一组谓词Schelter等人（2018 b）描述了这些谓词通常检查的三个维度：● 完整性：观察的所有相关特征均已填写。● 一致性：观察遵循其特征之间的关系所施加的约束。例如，如果D t包含来自在线商店的服装项目，则具有类别毛衣的条目可能仅允许用于尺寸的值M、L和XL，而毛衣仅以这些尺寸出售。正确性：观察在句法和语义方面是正确的。在这里，语法正确性描述了正确数据类型中表示的值，而语义正确性指的是特征值和真实世界表示的相等性。在服装项目示例中，对于鞋子，所有数值在语法上都是正确的，但只有9（美国尺码）在语义上有效，因为它对应于给定运动鞋的实际尺码。确保遵守这些规则的方法并不完全用于监测。它们也可以在训练阶段的数据准备期间在开始生产使用之前使用 Hynes等人（2017）提出了Data Linter，这是一种用于自动检查数据集的工具，可以检测三种类型的数据错误。这些包括：（i）不正确/不准确的特征数据类型，（ii）不合理的极值和缩放错误，以及（iii）包装错误，如重复或空值。Krishnan等人（2017）采用了与BoostClean类似的方法，其中可以基于可定制的规则自动检测典型域值的违规行为。为了促进这种框架的适应，一些研究调查了自动生成这样的约束。例如，Ernst等人（2007）研究了在非结构化数据集中自动搜索不变性以及基于它们生成模式。Schelter等人（2018 b）讨论了亚马逊的一种软件工具，它可以根据任何给定的数据集自动创建一系列测试在这里，考虑列名和典型的命名约定来推断数据类型。 Google 的 ML 平台TensorFlow E x tended（TFX）也使用基于模式的数据监控，其中约束最初是自动生成的（Breck et al.， 2019年）。4.1.2. 跨批效度注意，用于训练的所有数据不是同时收集的相反，数据可以随着时间的推移分批收集生产数据跨批次有效性并不孤立地考虑单个观测值;而是将整个批次Dt与先前处理的批次D1，.，D t-1进行比较然后我们要求，8c 2CB：cDt（2）其中CB表示Dt相对于其他批次应满足的另一组谓词。这样的谓词可以检查DS。我们可以定义一个条件c（Dt）d（Dt，Di）ε，它要求Dt和任何先前数据集Di之间的协变量位移（通过应用距离函数d测量）小于阈值ε。

下载后可阅读完整内容，剩余1页未读，立即下载