多目标规则挖掘系统简化领域专家反馈：一个行业合作的例子

60 浏览量更新于2024-01-22 收藏 1.96MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

专家系统与应用：X 8（2020）100040GIMO：一个多目标的规则挖掘系统，以简化领域专家Tobias Bauma，Mr. J.， Steffen Herboldb， Kurt SchneideraaFG Software Engineering，Leibniz Universität Hannover，Hannover，GermanybSWE，Universität Göttingen，Göttingen，GermanyAr ticlei n f o ab st ract文章历史记录：收到2019年2020年7月27日修订2020年8月17日接受2020年8月19日网上发售保留字：规则挖掘Human-in-the-loop多目标机盖可解释的人工智能从软件仓库中提取的数据被广泛用于软件工程研究，例如，预测源代码中的缺陷。在我们这个领域的研究中，作为一个行业合作伙伴，我们注意到传统的数据挖掘方法在分类问题上的几个缺点：（1）领域专家的接受是至关重要的，领域专家可以提供有价值的输入，但很难使用这种反馈。(2)评估模型的质量不是计算AUC或准确性的问题。相反，有多个不同重要性的目标，难以量化权衡。此外，在我们的例子中，模型的性能不能在每个实例的级别上进行评估，因为它与集合覆盖问题共享一些方面。为了克服这些问题，我们采取了一种整体的方法，并开发了一个规则挖掘系统，该系统简化了领域专家的迭代反馈，并可以结合特定领域的评估需求。该系统的核心部分是一个新的多目标任意时刻规则挖掘算法。该算法是基于GRASP-PR元启发式，但扩展了它与其他几种方法的想法。我们成功地将该系统应用于工业环境中。在当前的文章中，我们专注于算法的描述和系统的概念。我们提供系统的实现。© 2020作者由Elsevier Ltd.发布。这是一个CCBY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）1. 介绍决策支持系统是支持企业专家进行决策的重要工具.理解系统的决策对于许多实际应用至关重要首先，理解对于领域专家接受决策支持系统通常是重要的（Bose Mahapatra，2001）。此外，由于法律和法规的要求，它往往是必要的。例如，德国政府最近澄清，保险公司决策支持的黑匣子系统将不符合现有法规（德国政府，2018年）。在最近的一个研究项目中，我们需要一个决策支持系统来帮助我们理解如何使用数据挖掘来使代码审查更加有效（Baum，Herbold，Schneider，2018 a）。因为我们希望与领域专家一起工作，并为他们的决策提供见解，所以模型的可理解性是我们工作的关键因素然而，我们发现，目前∗通讯作者。电子邮件地址： tobias. inf.uni-hannover.de （ T. Baum ）， goettingen.de （ S 。Herbold），kurt. inf.uni-hannover.de（K. Schneider）。数据挖掘的方法不适合这样一个直接结合领域专家的研究项目：• 一些挖掘方法创建了领域专家根本无法分析的不透明模型。某些类型的模型（例如，支持向量机或神经网络）几乎总是难以理解的，而对于其他（例如，决策规则或决策树）可理解性取决于复杂性（Barredo Arrieta等人，2020; Dam，Tran，&Ghose，2018）。• 通常很难将领域专家的反馈映射到挖掘算法所需• 一种类型的人类投入涉及错误分类的成本。许多方法根本不对成本敏感，或者需要在开始时指定成本矩阵。在现实中，问题是成本敏感的，但确切的成本矩阵往往是未知的.此外，在算法中，成本通常被假设为对于每个输入彼此独立。然而，成本往往取决于彼此，例如，由于协同效应。• 大多数方法只允许在开始时输入并创建一个单一的模型作为这样一个运行的结果。这限制了领域专家可以提供反馈的时间点。https://doi.org/10.1016/j.eswax.2020.1000402590-1885/© 2020作者。出版社：Elsevier Ltd这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）可在ScienceDirect上获得目录列表专家系统与应用：X期刊主页：www.elsevier.com/locate/eswax2T. Baum，S.Herbold和K.施耐德/专家系统与应用：X 8（2020）100040• 知识发现过程包括多个阶段（ Mariscal ， Marban ，&Fernandez，2010），包括数据的清理，特征的选择甚至创建，以及结果的解释。一些系统，如Weka （Witten ，Frank，Hall，2011），结合了对许多这些步骤的支持，但在一般情况下并没有针对特定应用程序进行优化。我们的用例的另一个方面是，在一些实例之间存在很强的关系。我们的目标是通过向评审者展示更少的代码来减少代码评审过程中的工作量，这样他们在评审过程中仍然会编写相同的注释。由于多个源代码片段可能导致相同的注释，因此代码片段组与审阅者的注释之间存在很强的关系。这种关系是不支持目前的方法挖掘可解释的模型。在这篇文章中，我们提出了GIMO，一种新的数据挖掘方法，创建决策规则，并解决了上面讨论的限制。GIMO的设计基于这样一种信念：目前，从数据中提取知识的最有前途的方法是让人类和计算机作为一个团队工作（Ankerst，2002;Holzinger，2016）。计算机可以迅速地筛选大量的数据而不分散注意力。人类领域专家可以提供不容易从数据中获得的输入，例如，在特定情况下或在相应的情况下。像每个设计过程一样，这种团队合作受益于迭代：人类可以从计算机中看到初步结果，并根据结果提供重点或新的见解本文的贡献是GIMO系统的采矿决策规则，有助于克服上述限制，由于以下特点：• 多目标优化，即，该系统可以为减少误报、减少漏报等目标找到具有不同权衡的规则，还可以找到考虑实例之间关系或估计模型可理解性的自定义成本函数。这就避免了在开始时指定成本矩阵• 交互式反馈，即，用户可以交互式地探索数据和结果以及提供反馈以指导决策规则的生成。• 迭代设计，即，用户的反馈被集成到挖掘过程中，并且可以迭代地细化。这也包括撤销先前决定的可能性• 任何时候，即，用户可以在任何时候探索数据和当前结果并与系统交互。用户很少需要等待系统，系统也不需要等待用户。• 面向领域专家反馈，即，用户可以提供反馈，而不需要将其转换成不透明的调谐参数或理解数据挖掘算法。根据Barredo Arrieta等人（2020）的分类法，创建的模型总是“算法透明”的，系统的目标是尽可能地找到“可模拟”的模型。在接下来的两个部分中，我们提供了有关推动我们工作的应用领域和相关研究的背景信息。然后，我们继续形式化决策支持系统必须满足的需求，以解决此类数据挖掘问题（第4节）。我们继续描述GIMO规则挖掘算法（第5节），并提供在工业案例研究中应用我们的系统的结果（第6节）。最后，我们将在第7节讨论未来的工作。附录A中总结了所用的数学符号。本文重点介绍GIMO支持完整数据最小化的其他功能Fig. 1. 示例来说明应用领域和本文中使用的许多术语。在一份扩展报告中讨论了这一过程（Baum，Herbold，Schneider，2018 b）。2. 动机我们在本文中提出的数据挖掘系统的动机源于我们对代码审查的软件工程研究。代码审查是一种软件质量保证技术，其中代码或代码更改由一个或多个开发人员手动检查（Baum，Liskin，Niklas，Schneider，2016）。以其现代的基于变化的形式，它们被广泛用于工业实践中（ Baum ， Leßmann ，&Schneider ， 2017; Rigby ， Cleary ， Painchaud ， Storey ，&German，2012）。在我们的环境中，开发围绕着描述编程任务的“票证”：一个开发人员编写一些代码，并将相应的票证标记为“就绪以供审查'时，完成与编程。然后另一个开发人员检查属于此票证的代码更改。当评审员发现一个缺陷或其他需要讨论的问题时，她通常会创建一个“评审备注”，并将其传达给代码的作者。图1以图形方式说明了这一点。在我们对代码审查的研究中，我们感兴趣的是找到不会导致审查备注的代码变更。然后这些一些审查注释背后的潜在问题可以在代码的几个部分中表现出来，并且可以检查其中一个以注意到它。T. Baum，S.Herbold和K.施耐德/专家系统与应用：X 8（2020）1000403在一个中型软件公司的案例研究中，我们从软件存储库中提取了哪些代码更改部分导致哪些注释的数据（Baum等人，2018年a）。然后，使用本文中描述的规则挖掘系统来获得表征不需要审查的变更部分3. 相关工作下面，我们将讨论相关的工作。通过我们的系统，我们的目标是支持整个数据挖掘过程。 Mariscal等人（2010）对各种数据挖掘和知识发现过程模型进行了调查。这些模型中的大多数都承认这个过程是迭代的和交互的。与此相一致，2002年SIGKDD小组的小组成员认为人类和计算机之间的合作对数据挖掘是有益的（Ankerst，2002）。Holzinger（2016）讨论了健康信息学中的交互式机器学习。例如， Hellerstein 等人（ 1999 ）， Zhao ， Yao 和 Yan （ 2007 ）以及 Mühlbacher ，Linhardt，Möller和Piringer（2018）采用多目标方法研究了交互式数据挖掘。Mühlbacher的TreePOD系统强调决策树的二维Pareto前沿的可视化探索。有些方法将大部分的构建工作都交给了用户（Ankerst，Ester，&Kriegel，2000; Han& Cercone，2002）。与我们的方法更相似的是&“基于约束的数据挖掘”（Han，Lakshmanan，Ng，1999），其中用户使用“规则约束”限制关联规则的搜索空间，并使用“兴趣约束”引导搜索。在目前的研究中，我们假设简单的模型和模型-特征较少的元素更容易理解（Huysmans，De- jaeger，Mues，Vanthienen，Baesens，2011）。这些并不是影响可理解性的唯一因素（ Fürnkranz ， Klieu ， &Paulheim ， 2018; Pazzani ，2000）。 Dam等人（2018）指出，对于软件分析，可解释性与准确性同样重要。Freitas（2014）建议将可理解性作为多目标方法中的一个目标。我们创建透明机器学习模型的方法属于可解释人工智能（XAI）的更大领域（Barredo Arrieta等人，2020年）。基于规则的系统在XAI的最新应用中形成了重要部分，有时在规则表示上存在差异，例如基于关联规则的时间规则（Anguita-Ruiz，Segura-Delgado，Alcalá，Aguilera，Alcalá-Fdez，2020）或模糊逻辑信念规则库（Sachan，Yang，Xu，Benavides，Li，2020）。XAI领域的其他研究人员使用两步过程：首先，学习黑盒模型，并将此模型转换为可理解的模型（ Johansson ， Niklasson ， &König ， 2004; Moeyerdom ， deFortuny，Dejaeger，Baesens，&Martens，2015; Zhang，Li，&Cui，2005）。还有一种方法是根据请求为模型对特定实例的决策创建解释（Dam等人，2018; Ribeiro，Singh，&Guestrin，2016; Tan，Tan，Dara，&Mayeux，2015）。然而，由于相关风险，这些对事后可解释性的尝试并非没有批评（Rudin，2018）。我们使用多目标GRASP-PR的变体（Martí，Campos，Rescue ， &Duarte ， 2015; Rescue& Ribeiro ， 2016 ），以及Ishida，De Carvalho，Pozo，Goldbarg，and Gold-barg（2008）;Ishida ， Pozo ， Goldbarg ， andGoldbarg （ 2009 ），ReynoldsandDe la Iglesia（2009）以及Pavanelli，Arns Steiner，Góes，Pavanelli，and Costa（2014），都取得了可喜的成果。这些先前的研究与我们的研究在特定的元启发式运算符和各种其他细节上不同，并且没有考虑领域专家的反馈。许多其他研究使用多目标进化算法进行数据挖掘（Dehuri& Mall，2006;Dehuri，Patnaik，Ghosh，&Mall，2008; Kaya，2010）。在这篇文章中不可能全面讨论关于这个主题的大量文献。早期的研究是由 De Jong 、 Spears 和 Gor don （ 1993 年）以及 Janikow（1993年）完成的，随后的研究，例如：Eggermont，Eiben，and van Hemert（1999），Fidelis，Lopes，and Fre-i tas（2 000），Berna rdó-MansillaandHo（2 0 0 5），andBaykasogluandÖzbakir （ 2007 ） .Kwedlo 和 Kretowski（2001）在他们的方法中明确讨论了成本敏感性。Freitas（2003）调查了进化算法在数据挖掘中的在我们的系统中的规则生成是从标准的规则挖掘算法（Breiman，2001; Cohen，1995; Fürnkranz&Klieg r，2 01 5;L avrac，Fürnk ranz，&Gam be rger，2 010）。用启发式搜索对给定的候选项进行优化。Ryan和Rayward-Smith（1998）使用了类似的方法，他们将C4.5和遗传编程杂交以提高可扩展性。Grosan and Abraham（2007）对进化算法的混合算法进行了更深入的研究。我们的方法的另一个缺点是多目标优化的&&“射击”过程（Benson Sayin，1997; Wagner，Behrand，Naujoks，2007）。进一步的启发是ROCCER&在ROC空间中构建凸包的方法（Prati Flach，2005）。我们将我们的挖掘方法应用于软件工程中的预测。在过去的二十年里，缺陷预测和数据挖掘在软件工程中的其他应用已经成为一个广阔的研究领域。文献调查（Hall，Beecham，Bowes ， Gray ， &Counsell ， 2012; Hosseini ， Turhan ，&Gunarathna，2018; Radjen-ovi c′ ，Hericko，Torkar，&ivkovi c，201 3）为这一领域提供了一个参考。4. 问题陈述现在我们将更抽象地描述采矿问题。考虑一个问题，如上面介绍的评论评论预测问题，其中动作（例如，注意评论评论）可以由若干实例引起/触发。一个实例可以是一个、多个或没有动作的原因。检查或以其他方式处理一个潜在的原因需要花费精力，目标是在仍然触发动作的同时最小化总的精力。我们希望通过预测选择哪些实例来花费精力来解决这个问题。图2说明了这种情况。实例I2是动作A1和A2的原因。其他足够的，但次优的实例组合，使得A1和A2的原因都被识别，将是I1和I3，以及I1和I4。我们称之为识别-将一个实例作为一个动作的原因是一个积极的预测，而不将一个实例识别为一个原因是一个消极的预测。正如我们的例子所示，可能存在多个实例组合，其中识别将导致相同的操作。此外，我们假设负责这些操作的领域专家希望了解预测背后的推理，而不是简单地接受预测为真。如果领域专家理解预测的原因，但不同意，他们应该能够修改预测模型。因此，我们要解决的问题具有以下性质：• 最小化积极预测的数量（即，预测的情况），同时仍然覆盖（几乎）所有的动作。• 说明操作和实例之间的关系• 该模型是可理解的，并可由领域专家修改。我们的问题是一个二元分类问题。有许多方法可以描述对象分类的假设，例如，通过支持向量机，神经网络，回归函数，如逻辑回归，和规则。在这些方法中，规则的优点在于它们易于被人类解释和修改。在这篇文章中，我们关注的是以析取范式（DNF）编写的布尔表达式描述的规则，即，C1级。..P2P（ 1）其中Ck = ck，1。. . 其中k = 1，. . . ，p是原子条件下的合取。每一个布尔表达式也可以被描述为4T. Baum，S.Herbold和K.施耐德/专家系统与应用：X 8（2020）100040--图二、标准分类与集合覆盖分类。就像DNF一样。通过布尔表达式描述决策规则的另一种流行方式是决策树（Witten等人，2011年）。决策树具有与DNF相同的表达能力虽然人类在评估特定数据点时使用决策树更容易（Huysmans等人， 2011），我们假设DNF更适合理解：在一个无序的连接集合中，每个连接都可以被视为一个独立的知识块。相比之下，决策树中的节点必须考虑到所有先前的节点进行解释，并且只有在到达叶节点时才知道类。此外，在决策树中对合取词进行编码的方式中存在高冗余，这导致在详细理解它们所花费的努力中的开销。对于具有标签Y的特征空间F上的给定训练集X，使得X ={x1，. . . ，xm}<$F = Rn1 × Zn2和Y ={y1，. . . ，y m} ∈{0， 1}m，规则挖掘算法试图找到一个DNF，该DNF假设实例xi∈X的逻辑规则，其形式为xi，j≤A（仅对于j≤n1，即，数值特征），xi ， j≥A（j≤n1）， xi ， j=A，或xi ， j/=A（对于常数A∈R）。因此，这样的规则挖掘算法确定一个hy-假设h：F→{0，1}（2）使得h是特征空间F上的原子条件的DNF。学习DNF的问题是搜索空间很大。因此，需要一种搜索产生良好结果的DNF的策略。最流行的规则挖掘算法之一RIPPER算法（Cohen，1995）。该算法首先贪婪地创建规则：通过使用信息增益作为特征选择的标准来添加特征上的新原子条件，直到没有负面示例被覆盖。这个过程会导致过于复杂的DNF过度拟合数据。为了对抗过拟合，DNF被修剪，使得比率tp−fp被优化。这t p+fp算法有效地搜索好的合取词，肯定和否定的例子对于用例同样重要。虽然可以使用RIPPER解决我们的问题，但有几个限制可能会降低预测任务的性能。我们将在下面的章节中讨论RIPPER的这些局限性，并使用这些局限性来概述解决我们问题的算法的更详细要求。我们注意到，当我们讨论RIPPER的问题时，其他方法的问题，例如，基于决策树学习（C4.5，PART，CART）的方法类似。DNF的缺点是它们可能是低效的，即，需要复杂的规则来描述简单的概念。基于直觉，在这种情况下，表达相反的概念可能更容易，我们使用了两个公式的组合：一个用于描述应该被覆盖的元素的规则，另一个用于应该被排除的元素（C）. . C不包括）. . 其他汽车零部件（3）对于这种与正常DNF的差异，我们使用术语规则来重新定义。这一点，在下面。此外，我们使用术语规则作为模型中单个连词C4.1. 多目标规则学习对于特定领域的用例，存在与假阳性预测和假阴性预测相关的成本。这些成本可以在成本函数cost（h，X，Y）中建模，该成本函数使用标记数据来估计成本。对于本文的其余部分，我们假设不失一般性，成本函数应最小化。因此，学习算法应该优化成本函数，即，mincost（h，X，Y）.（四）H通常，用例可能具有多个竞争成本目标，例如，最小化上市时间和最小化开发成本。这导致形式为min（cost1（h，X，Y），. . . ，cost o（h，X，Y））（5）H通常，没有一个解对所有的成本函数都是最优的。因此，我们考虑帕累托最优解，也就是说，不受其他解支配的解。一个解h优于另一个解hr，如果cost（h，X，Y）≤cost（hr，X，Y），对于所有cost∈{cost1，.，cost 0}，并且存在至少一个成本函数cost ∈ cost1，. ，cost 0，使得cost（h，X，Y）

下载后可阅读完整内容，剩余1页未读，立即下载