mlr3shiny-最先进的机器学习Web应用程序

102 浏览量更新于2024-01-25 收藏 904KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

软件X 20（2022）101246原始软件出版物mlr 3shiny-最先进的机器学习变得简单劳伦斯·M Tetzlaffa，Zhao，Gero SzepannekbaJheronimus数据科学学院，荷兰德国施特拉尔松德应用科学大学ar t i cl e i nf o文章历史记录：2021年9月30日收到收到修订版2022年10月4日接受2022年保留字：机器学习图形用户界面研究软件工程师a b st ra ctmlr3shiny提供了一个简单易用且用户友好的Web应用程序，将图形用户界面与最先进的机器学习功能相结合，以使不太熟悉机器学习和编程的研究人员能够将这种方法应用于他们的领域，并积累机器学习实践的经验版权所有©2022作者。由爱思唯尔公司出版这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）中找到。代码元数据当前代码版本v0.3此代码版本使用的代码/存储库的永久链接https://github.com/ElsevierSoftwareX/SOFTX-D-21-00186法律代码许可证BSD-2-clause使用git的代码版本控制系统软件代码语言、工具和服务使用r、html、css编译要求，操作环境依赖性Linux，Microsoft Windows，类Unix，r问题支持电子邮件laurens. outlook.de软件元数据当前软件版本0.3.0该版本可执行文件的永久链接https://github.com/LamaTe/mlr3shiny/commit/abe268073354620c280258adca8f8dac9c09f284法律软件许可证BSD-2条款计算平台/操作系统Linux，Microsoft Windows，类Unix安装要求依赖关系r支持电子邮件问题laurens. outlook.de1. 介绍近年来，现代机器学习算法（ML）的应用在许多不同的研究领域取得了进展。在[1]中给出了这种研究的一个例子，其中已经进行了不同机器学习算法的系统超参数调整，以规避信贷申请风险评分的不平衡类的问题。除了研究界，机器学习的使用也进入了许多行业，因为开源软件解决方案是免费提供的。*通讯作者。电子邮件地址：outlook.de（Laurens M. Tetzlaff）。https://doi.org/10.1016/j.softx.2022.101246尽管框架很容易获得，但它们先进且高度可参数化的功能可能会迅速压倒机器学习领域大量缺乏经验的新手。此外，对适当的研究标准和可重复性的要求导致了研究软件工程师的作用[2]，但在研究小组中几乎没有。出于这个原因，R软件包mlr3shiny已经被开发成一个简单易用的，用户友好的Web应用程序，将图形用户界面（GUI）与最先进的机器学习功能相结合，使不太熟悉机器学习和编程的研究人员能够在其领域使用这种方法，并收集机器学习2352-7110/©2022作者。由Elsevier B.V.出版。这是一篇开放获取的文章，使用CC BY许可证（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表SoftwareX期刊主页：www.elsevier.com/locate/softx劳伦斯·M泰兹拉夫和杰罗·塞潘内克软件X 20（2022）1012462Fig. 1. MLR3中的ML工作流实践读者可以使用示例性的在线版本来研究mlr3shiny应用程序。12. 软件框架2.1. 软件构架该框架基于最强大的最先进的机器学习框架之一mlr 3[3]，mlr[4]的演变可以追溯到2010年[5]，并基于统计编程语言R [6]。用户界面使用shiny[7]设计。所实现的机器学习工作流是基于mlr3给出的架构。该过程的概述如图所示。1.一、由此产生的应用程序使用户能够以快速的方式设置机器学习工作流程，同时熟悉机器学习过程的基本步骤。因此，可以以易于使用的点击方式引用和应用现代最先进的ML功能，从而使用户免于编码。同时，确保所进行的实验通过种子可重现。2.2. 软件功能应用程序的布局在视觉上引导其用户按时间顺序通过如上所述图 2演示了应用程序的GUI。应用程序的有序选项卡表示mlr3shiny的核心功能，其中每个选项卡对应于工作流程的不同步骤。最初，在过程的第一步中，必须指定有关数据和算法的信息：1. 数据导入。2. 创建一个监督学习任务，将数据与所需的Meta信息（如目标变量和要执行的任务类型（回归或分类））相结合。3. 选择所需的学习器（算法）集，用于ML实验。目前支持的是线性和逻辑回归，决策树[8]，随机森林[9]，支持向量机[10]和xgboost [11]。1 https://bit.ly/mlr3shiny每个学习者都可以参数化。与其他基于GUI的ML框架（如Rattle [12]）相比，可以定义使用不同超参数的同一学习者类的几个实例来比较它们的性能。接下来的三个选项卡对应于工作流图中的不同分支4. 通常，指定的学习者中的单个学习者在保持样本上进行训练和评估，保持样本是数据的随机选择部分。图2描绘了用于分类任务的建模过程的该步骤。通过经过训练的模型可以进一步应用于训练数据和保持数据（预测），并根据一些性能指标对两个数据集进行进一步评估（评分）。大量的度量分别可用于回归和分类任务，例如精度、召回率、灵敏度、特异性、ROC-AUC评分、F1评分、均方根误差、均方误差等。.这可以在考虑不同的精确度-召回率权衡时有所帮助。此外，阈值调整可以提高灵敏度和特异性等指标，因为这是医疗诊断工具（如测试或covid-19 4C死亡率评分）中的常见做法[13]。5. 可以对几个学习器进行基准测试，即，在使用相同的训练和测试分割以及先前提到的跨所有选定算法的响应策略之一时，对simulations进行评估，并且相对于彼此进行比较。一个选定的性能指标。因此，基准测试确保评估算法的性能基于完全相同的数据子集，从而允许进行比较。6. 最后，可以应用模型来预测新数据。为了获得最佳性能，首先在迄今为止使用的整个数据上重新训练学习者是有意义的，而前两个步骤则用于评估模型及其参数并评估其预测性能。7. 最终的模型可以通过应用可解释的机器学习技术来解释[14，15]。目前，支持参考不同损失函数和部分依赖图的特征重要性计算，这两者都是这使得从业者能够在做出预测时调查不同特征的影响。劳伦斯·M泰兹拉夫和杰罗·塞潘内克软件X 20（2022）1012463=+图二. mlr3shiny GUI的屏幕截图。作为一个重要的功能，可以保存结果以供进一步用途：基准结果，整个数据的最终重新训练模型，或新数据的预测。为了防止新用户犯下容易的错误并提供方向，默认输入值和示例在当前实践之后给出[16]。此外，在步骤6中的最终再训练之后，可以返回为模型开发生成的底层R代码。这允许扩展功能，甚至超出那些在mlr3shiny中可用的功能。因此，与R世界之外的其他可视化数据挖掘工具（如Weka [17]或Orange [18]）相比，mlr3shiny不仅支持可视化分析和工作流程，还有助于将用户连接到编程语言本身，在这种情况下是R。因此，编程初学者或R的新手可以直接访问代码副本，并可以从中构思或学习。3. 说明性示例作为一个可重复的例子，两个分类模型在著名的虹膜数据[19]上进行了描述，并使用十倍交叉验证的分类误差进行了验证。请注意，R版本3.6.0 因此使用R版本> 3。推荐6.0可以通过以下方式在R中启动应用程序mlr3shiny：：launchMlr3Shiny（）由于GUI设计为以点击方式工作，下面的步骤沿着应用程序的选项卡进行描述，参见图2。相应菜单、选项卡和按钮的名称以粗体显示。1. 虹膜数据作为演示任务与软件包一起提供，因此可以跳过导入数据的第一步。2. 通过选择数据后端，必须选择虹膜数据。3. 学习者1可以被选择为例如随机森林，并且经由点击Go按钮而被例示。在右边，出现了所选学习者的元信息。对于分类任务，预测类型可以选择为响应（=预测类）或概率（=类的预测后验概率），在我们的示例中，概率是响应通过添加学习器，可以选择并实例化竞争学习器：例如，选择决策树。学习器参数的默认值（ min- split 、 cp 和maxdepth）可以改变，例如，通过将复杂性参数cp从0.01设置为 0.005 以创建更深的树，并通过点击 ChangeParameters确认改变。4. 现在，可以通过选择新的学习者来选择单个学习者。例如，选择学习者2，即决策树。此外，作为基本工作流程，对保留数据的评估可以更改为使用重新采样，例如，通过选择重新采样策略交叉验证并将重新采样参数设置设置为10次迭代以获得10倍CV。单击“执行恢复”后，所有观测的预测将显示在窗口的右侧。要测量聚合性能，可以选择分类错误（classif.ce），并通过Score计算验证数据的性能，并显示在窗口的左下角。比较一下，这里是0.067。可以通过导出恢复结果导出结果以供进一步使用。5. 用户可以选择要包括在基准测试中的学习者，以及选择一个重新验证策略（这里是交叉验证）和开始基准测试。在指定恢复参数设置（例如10次迭代）后，可以运行基准测试同样，可以在Measure Aggregated Performance中选择classif.ce，并通过单击Score来计算验证率：rpart决策树的最低误差为0.0667。同样，可以通过导出基准结果导出结果以供进一步使用。6. 使用所有可用的数据来构建最终模型是有意义的。因此，在Apply the best learner on new data（在新数据上应用最佳学习器）下，可以选择一个学习器（这里是Learner 2，决策树），并通过Train Learner对整个数据进行训练。生成的模型可以导出为R对象，供Export learner按钮进一步使用。最后，与第1步类似，可以从.csv、.txt或.xlsx通过导入新数据集。通过预测目标，训练好的模型可以应用于新数据，然后可以导出结果以供进一步使用。由于没有新的未标记虹膜数据可用，因此该步骤不是示例的一部分。劳伦斯·M泰兹拉夫和杰罗·塞潘内克软件X 20（2022）1012464图三. mlr3shiny任务选项卡的屏幕截图。对于任何选项卡，窗口右上角的问号都会列出选项卡的说明和功能。4. 为例下文介绍了一个简要的案例研究，说明如何应用该软件来寻找合适的信用风险评分模型。为此，公开可用的德国信用数据由UCI机器学习基准存储库[20]提供。该研究使用GitHub的最新版本0.3.0进行描述。2数据已经包含在mlr3shiny中，因此选择用于本案例研究，以便读者可以模拟不同的建模步骤。因此，我们可以排除第一个面板，1。数据，而是直接在2.任务选项卡，参见图2中的浅蓝色菜单栏。在2.任务选项卡，可以进一步处理机器学习任务。因此，选择bad作为目标变量的正类，并且取消选择分期付款率、积分数和总统住所，请参见图3.第三章。在第二步中，在3. Learner选项卡：决策树和随机森林。它们没有被进一步配置，然而，通过使用所提供的功能来改变超参数是可能的两种学习器的预测准确性在5.基准测试选项卡，使用保持恢复策略和（默认）恢复参数设置，训练数据分数为0.667。对于性能基准，选择两个聚合性能的测量值：真阳性率（TPR/召回/灵敏度）和真阴性率（TNR/特异性）。虽然第一个度量反映了模型拒绝的不良（违约）信用的百分比结果表明，随机森林模型在这两个指标上都优于决策树，因此是优选的。尽管如此，与超过90%的高特异性相比为了解决这个问题，可以通过恢复到3来创建两个额外的随机森林学习器。2 https://github.com/LamaTe/mlr3shiny学员选项卡。在添加学习器、选择“随机森林”并点击“Go”（点击确定可以忽略警告）之后，学习器参数中的阈值参数将降低到0.45或0.4在对基准选项卡中左上方窗格中标记的三个不同的随机森林学习器进行第二次基准测试之后，结果表明，对于降低的分类阈值0.45，TPR（召回率）可以提高13%（从0.47到0.6），而同时TNR（特异性）从0.901降低到0.854。阈值进一步降低至0.4，TPR再提高1%至0.61，但同时，TNR降低至低于0.8的值，见图1。四、案例研究说明了如何选择和优化模型，适当的性能指标。当同时考虑几种措施时，必须对不同措施之间的权衡做出妥协。最终的模型选择应该考虑到特定上下文或业务情况下对模型性能的特定需求。注意，对于这个简单的用例，只调优了阈值参数。有关算法特定参数的更多信息，应用程序建议用户参阅相应的文档。5. 影响在[1]中给出了在信用风险建模背景下改进的研究结果的示例，其中使用针对不同算法和数据集的超参数调整和MLR来获得评分模型的预测能力的大幅增加。虽然在这种情况下，研究人员熟悉机器学习基准实验的工作流程以及R编程，但所提出的mlr3shiny框架使这些技术可以免费提供给来自不同领域的更广泛的研究人员。6. 结论和今后的工作mlr3shiny提供了一个简单易用且用户友好的Web应用程序，将图形用户界面（GUI）与最先进的ML功能相结合。整个应用程序是劳伦斯·M泰兹拉夫和杰罗·塞潘内克软件X 20（2022）1012465见图4。 mlr3shiny Benchmark选项卡的屏幕截图。以这样一种方式设计，即该领域的新用户也可以独立地进行机器学习实验。所有步骤都附有一个帮助页面（右上角有问号），该页面提供了方法的简要概述以及每个步骤的功能。我们相信，这一应用程序有助于更多的研究人员熟悉机器学习领域，同时也不精通编程，从而有助于改善许多领域的研究活动。这个包也可以提供一个有价值的工具，用于教授介绍性的ML课程，例如在施特拉尔松德应用科学大学（德国）。软件包的其他功能，如更大范围的算法和解释性AI，正在不断增加。竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作数据可用性数据作为应用程序的一部分提供。代码在指定的GitHub存储库中可用。致谢我们非常感谢Michel Lang和mlr3开发团队对应用程序的设计和架构进行了有益的讨论和反馈。我们还想感谢 RabeaAschenbruck的建设性建议，感谢施特拉尔松德应用科学大学提供了促成这一发展的创造性环境，感谢应用计算机科学研究所为开放获取出版物提供资金引用[1] Bischl Bernd，Kühn Tobias，Szepannek Gero.信用评分中分类算法的类不平衡校正。In：Luebbecke M，Koster A，Letmathe P，Madlener R，Preis B，WaltherG ， editors. 或者 2014 年。 Springer;2016 ， p.S.37-43.http://dx.doi.org/10.1007/978-3-319-28697-6_6网站。[2] Seibold Heidi ， Charlton Alethea ， Boulesteix Anne-Laure ， HoffmannSabine. 统计学家卷起袖子！有一场危机需要解决 2020 年，http://dx.doi.org/10.31222/osf.io/frta7，MetaArXiv。[3] Lang Michel，Binder Martin，Richter Jakob，Schratz Patrick，PfistererFlorian，Coors Stefan，et al. mlr3：A modern object-oriented machinelearningframeworkinr.JOpenSourceSoftw2019.http://dx.doi.org/10.21105/joss的网站。01903。[4] Bischl Bernd ， Lang Michel ， Kotthoff Lars ， Schiffner Julia ， RichterJakob，Studerus Erich，et al. Mlr：Machine learning in R. J Mach LearnRes 2016;17（170）：1http://jmlr.org/papers/v17/15-066.html[5]Szepannek Gero，Gruhne Matthias，Bischl Bernd，Krey Sebastian，Harc-zos Tamas，Klefenz Frank，et al. Perceptually based phoneme recognitionin popular music.在：H.洛卡雷克-容格角各位，编辑。分类是研究的工具。Studies in Classification ， Data Analysis ， and Knowledge Organization ，Heidelberg ： Springer; 2010 ， p. 367-77. http://dx.doi.org/10 的网站。1007/978-3-642-10745-0_83。[6]RCore团队。R：A language and environment for statistical computing，Rfoundation for statistical computing ，维也纳，奥地利 . 2020 年，https://www.R-project.org/。[7]张温斯顿，程乔，阿莱尔JJ，谢一辉，麦克弗森乔纳森。Shiny：R的Web应用程序框架。2019年。[8]Therneau Terry，Atkinson Elizabeth J.，《使用rpart例程进行递归分区的介绍》。61.第61章大结局[9] 赖特马文，齐格勒安德烈亚斯。Ranger：一个在C++和R中为高维数据快速实现的随机森林 .JStatSoftw2017;77 （ 1 ）： 1-17.http://dx.doi.org/10.18637/jss.v077.i01网站。[10]张志忠林志仁 LIBSVM ：一个支持向量机的库。 2019 年，http://www.csie.ntu.edu.tw/cjlin/papers/libsvm.ps.gz。[11]XGBoost：一个可扩展的树提升系统。第22届ACM SIGKDD知识发现和数据挖掘国际会议论文集（785-794）。New York，NY，USA：ACM; 2016.[12]威廉姆斯·格雷厄姆。Rattle：一个用于R的数据挖掘GUI。R J 2009;1（2）：45-55. http://dx.doi.org/10.32614/RJ-2009-016网站。[13] Knight Stephen，Ho Antonia，Pius Riinu，Buchan Iain，Carson Gail，Drake Thomas，et al.使用isaric WHO临床表征方案对因Covid-19入院的患者进行风险分层： 4C 死亡率评分的开发和验证。第 370 章 .http://dx.doi.org/10.1136/bmj.m3339网站。[14]莫尔纳·克里斯托夫，比施尔·贝恩德，卡索基奥·朱塞佩。iml：一个用于可解释机器学习的R包。J Open Source Softw 2018;3.网址：//dx.doi.org/10.21105/joss.00786网站。[15] BückerMichael ， SzepannekGero ， GosiewskaAlicja ， BiecekPrzemyslaw.信用评分中机器学习模型的透明度、可解释性和可解释性J.操作员Res.Soc.2022;73：70-90.http://dx.doi.org/10.1080/01605682.2021.1922098.劳伦斯·M泰兹拉夫和杰罗·塞潘内克软件X 20（2022）1012466[16]里克特·雅各布。Mlrhyperopt ParConfigs. 2020年，http://mlrhyperopt.jakob-r。de/parados.[17]Demsar J，Curk T，Erjavec A，Gorup C，Hocevar T，Milutinovic M，MozinaM ，Polajnar M，Toplak M，Staric A，Stajdohar M，Umek L，Zagar L，Zbontar J，Zitnik MZupan B. Orange：Python中的数据挖掘工具箱。 J MachLearnRes2013;14（Aug）：2349-53.[18]放大图片作者：Frank Eibe，Hall Mark A，Witten Ian H. WEKA工作台。数据挖掘在线附录：实用机器学习工具和技术。第四版。Morgan Kaufmann; 2016.[19]安德森·埃德加。加斯佩半岛的鸢尾花。Bullet Am Iris Soc1935;59：2-5.[20]杜阿·迪鲁格拉夫·迪鲁 UCI机器学习库。 2019年，http：//archive.ics.uci.edu/ml网站。

下载后可阅读完整内容，剩余1页未读，立即下载