MARS分类器评估方法的实现及其可视化

133 浏览量更新于2024-01-25 收藏 687KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

软件影响12（2022）100259原始软件出版物评估分类器排他性的MARS度量和MARS图的实现：二元分类器预测Namrata Malia，Felipe Restrepob，Alan Abrahamsc，Peter Racthamd，a美国弗吉尼亚理工大学计算机科学系b美国弗吉尼亚理工大学工业与系统工程系c美国弗吉尼亚理工大学商业信息技术系d泰国曼谷法政大学管理信息系统系A R T I C L E I N F O保留字：分类器性能评估分类器选择优化A B标准传统上，性能指标，如准确率，精度，召回率，F分数和ROC曲线/曲线下面积（AUC）值已被用于评估和理解二元分类器的能力。然而，现代高性能分类器模型通常具有与传统分类器模型相当的分类性能。传统的度量。我们提出了一种新的方法-MARS分类器评估方法-评估分类器的排他性，使用MARS ShineThrough和MARS遮挡分数。具体来说，MARS方法生动地说明了分类器在多大程度上发现了其他分类器错过的不同目标类观察结果。在本文中，我们描述了软件工件用于计算MARS指标的比较独特性和MARS图表的可视化这些计算。代码元数据当前代码版本V1用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2021-191可复制胶囊的永久链接https://codeocean.com/capsule/9121761/tree/v1法律代码许可证MIT许可证使用的代码版本控制系统使用的软件代码语言、工具和服务Python 3.7.9、Pandas 1.1.3、Plotly 5.4.0编译要求、操作环境和依赖关系无如果可用，请链接到开发人员文档/手册https://github.com/NamrataMali26/MARS-charts/blob/main/documenation.docx支持电子邮件以解决问题mars_classifier_evaluation@vt.edu1. 介绍传统的二元分类性能度量通过从分类器的混淆矩阵导出性能度量来定量地评估分类器例如，准确度（被定义为所有预测中正确预测的百分比）利用所有四个混淆矩阵条目（真阳性、假阳性、真阴性、假阴性）来估计整体模型性能。同样，精确度和召回率得分[2]，提供了有关分类器即使是标准的基于阈值的分类器评估方法，例如受试者操作特征（ROC）和�� 因此，传统的二元分类性能指标只能解释和量化本文中的代码（和数据）已由Code Ocean认证为可复制：（https://codeocean.com/）。更多关于生殖器的信息徽章倡议可在https://www.elsevier.com/physical-sciences-and-engineering/computer-science/journals上查阅。∗ 通讯作者。电子邮件地址：namratam@vt.edu（N. Mali），feliper@vt.edu（F. Restrepo），abra@vt.edu（A. Abrahams），peter@tbs.tu.ac.th（P.Ractham）。https://doi.org/10.1016/j.simpa.2022.100259接收日期：2021年12月18日;接收日期：2022年1月31日;接受日期：2022年2月11日2665-9638/©2022作者。由Elsevier B.V.出版。这是一篇开放获取的文章，使用CC BY许可证（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表软件影响杂志首页：www.journals.elsevier.com/software-impactsN. Mali，F.Restrepo，A.Abrahams等人软件影响12（2022）1002592|从分类器-数据”-交互的观点来分析模型行为，并且不能评估分类器的特定预测的相对唯一性。评估分类器预测的相对唯一性的能力我们提出的软件工件利用新的MARS指标来评估和可视化模型性能，作为模型专门捕获其他分类器未发现的唯一真阳性结果（MARSShineThrough评分）的能力的函数2. 概述和功能2.1. 概述该软件工件旨在接收由四个维度（列）组成的逗号分隔值文件（.csv）1. Instance_ID：分配给数据集中每个观测/实例的唯一标识符。2. 分类器：识别用于特定预测的分类器的文本（字符串），例如，“随机森林”、“逻辑回归”等。3. Pred_Label：与分类器的预测类值（格式为0或1）相匹配4. True_Label：返回到观测利用这些维度，所提出的工件然后计算每个分类器(1) MARS ShineThrough：仅由所考虑的分类器发现的唯一真阳性相对于唯一真阳性总数的比例（即，如果由任何分类器发现，则仅对每个目标类观察计数一次）。可以计算单个和组合（两个）模型的MARS ShineThrough评分。通过合并两个分类器的预测来计算组合得分a. 接口描述函数格式：def ShineThrough（input_csv_classifier_results ， input_num_classifiers; output_txt_ST_metrics，output_png_ST_chart）将包含分类器结果的.csv文件作为输入，格式如第2.1节所述，以及使用的分类器数量。输出包含 MARSShineThrough 分数的文本文件和包含 MARSShineThrough图表的.png文件命令行格式：pythonmars_shinethrough.pyshinethroughyour_classifier_results.csv将包含分类器结果的.csv文件作为输入，格式如第2.1节所述。输出包含MARS ShineThrough分数的文本文件和包含MARS ShineThrough图表的.png文件GUI格式：https://mars-classifier-evaluation.herokuapp.com一个易于使用的图形界面，用户可以填写一个网络表单，上传他们的数据集或格式化的数据（包含分类器标签）文件，并生成MARS图表和指标。请注意，如果用户选择上传数据集而不是格式化的分类器结果文件，则必须从预定分类器列表（决策树、随机森林、逻辑回归、SVM、朴素贝叶斯）。要进一步自定义分类器选择或使用深度学习方法，请使用csv_generator.py桌面版本（在GitHub和CodeOcean中提供）或提供您自己的格式化.csv文件，其中包含所需的分类器及其预测和真实类标签。(2) MARS阻塞：被至少一个其他分类器正确标记的唯一假阴性（仅被当前分类器错过）相对于在所有分类器中发现的唯一真阳性总数的分类器如果由任何分类器发现，则仅对每个目标类观测计数一次）。与MARS ShineThrough评分一样，该软件还可以通过合并分类器的预测来计算两个分类器组合的组合MARS遮挡评分a. 接口描述：函数格式：def阻塞（input_csv_classifier_ results，input_num_classifiers;output_txt_OC_metrics，output_png_OC_chart）将包含分类器结果的.csv文件作为输入，格式如第2.1节所述，以及使用的分类器数量。输出包含MARS阻塞评分的文本文件和包含MARS阻塞图表的.png文件命令行格式：pythonmars_occlusion.pyocclusionyour_classifier_results.csv将包含分类器结果的.csv文件作为输入，格式如第2.1节所述。输出包含MARS阻塞评分的文本文件和包含MARS阻塞图表的.png文件。GUI格式：https://mars-classifier-evaluation.herokuapp.com一个易于使用的图形界面（见图）。 1）用户可以填写Web表单以上传其数据集或格式化数据（包含分类器标签）文件并生成MARS图表和度量。请注意，如果用户选择上传他们的数据集而不是格式化的分类器结果文件，他们将不得不从预定的分类器列表（决策树，随机森林，逻辑回归，SVM，朴素贝叶斯）中进行选择。要自定义分类器选择或使用深度学习方法，请使用csv_generator.py桌面版本（在GitHub和CodeOcean中提供）或提供您自己的for- matted.csv文件，其中包含所需的分类器及其预测和真实类标签。计算的分数以类似于表1和表2的方式显示，其中每个条目（表格单元格）由两个不同的分数组成。每个表格单元格中左边（第一个）的值表示纵轴分类器的单独得分，而每个表格单元中的右侧（第二）值显示组合得分，即，合并两个分类器 (x-和y轴）预测。例如，参考表1中的说明性粗体单元格（靠近右上方）（粗体仅突出显示我们在这里所指的单元格）：在该说明性示例中，用于CNN和支持向量机（SVM）分类器的MARS ShineThrough矩阵条目（表单元格）• 所有分类器中总真阳性的2%（=0.02）是仅由在X轴上命名的分类器（CNN）识别的真阳性观察结果，因此仅限于该CNN分类器（对于该单个分类器，唯一• 在所有分类器中识别的总真阳性观察结果中，有2%（=0.02）是仅由在X轴和X轴上命名的两个分类器（CNN和SVM组合）发现的真阳性观察结果，因此仅限于N. Mali，F.Restrepo，A.Abrahams等人软件影响12（2022）1002593|||||||||||||||||||||||||美国有线电视新闻网-0 . 0 2 |0.060.02 |0.020.02 |0.040.02 |0.02个单位CNN-0 . 1 5 |0.020.15 |0.120.15 |0.040.15|零点一二Fig. 1. 图形用户界面布局。表1MARS通过矩阵进行分类器评估。x轴CNN决策树逻辑回归随机森林SVMy轴表2决策树0.060.03 0.030.12 0.03零点零三逻辑回归0.00.2 0.00.030.02 0.00.0随机森林0.020.04 0.020.12 0.020.020.02个单位支持向量机0.0 |0.020.0 |0.030.0 |0.00.0 |0.02-用于分类器评估的MARS遮挡矩阵。x轴CNN决策树日志。回归随机森林SVMy轴决策树0.020.04 0.160.04 0.160.04个单位Log. 回归0.160.12 0.160.040.06 0.160.16个单位随机森林0.100.04 0.100.04 0.100.06零点零六支持向量机0.17 |0.120.17 |0.040.17 |0.160.17 |0.06-这两个分类器没有被任何其他分类器发现（发现）（对于两个分类器的组合：CNN和SVM，唯一类似地，参考表2中的说明性粗体单元格（靠近右上方）（同样，粗体仅突出显示我们在此引用的单元格）：MARS闭塞矩阵条目（表单元格）为“0.15 0.12” 在该说明性示例中，对于CNN和支持向量机（SVM）分类器，• 所有分类器的总真阳性观察结果的15%（=0.15）是由在X轴上命名的分类器（CNN）进行的假阳性观察结果（目标类项目遗漏），但被至少一个其他分类器正确地发现（即，被该个体分类器CNN唯一• 所有分类器中12%（=0.12）的总真阳性观察结果是由两个分类器命名的假阳性观察结果（目标类项目缺失），这两个分类器分别位于轴和轴上（CNN��和SVM组合），但是被至少一个其它分类器正确地找到（发现）（即，被两个分类器的组合唯一然后，软件工件利用排他性真阳性和假阴性计数来生成MARS图表，该图表允许对所考虑的每个分类器的单个和组合的ShineThrough（发现的排他性真阳性）和遮挡分数（排他性错过的目标类观察结果）进行可视化，其中：(1) MARS ShineThrough图表：• X轴和Y轴表示正在比较的分类器• 橙色圆圈对应于x轴和y轴上的一对分类器，并表示由两个分类器的组合专门• 黄色圆圈表示由在X轴上命名的分类器专门发现的真阳性的总数，即，个人ShineThrough• 每个圆的半径表示排他性观察的分类器计数。请注意，每个气泡的面积没有可解释的意义，因为它不与半径成线性比例：气泡之间的差异反映在半径的差异上，而不是面积。(2) MARS闭塞图表：• X轴和Y轴表示正在比较的分类器• 红色圆圈对应于x轴和y轴上的分类器对，并且表示由任何剩余分类器正确标记但由所考虑的分类器的组合错误标记的假阴性（即，在x轴和y轴上命名的分类器• 橙色圆圈表示由在X轴上命名的分类器标记的假阴性（即，在y轴上被分类器遗漏的目标类中的观测值），其被任何剩余的分类器正确地标记，即，个体闭塞。N. Mali，F.Restrepo，A.Abrahams等人软件影响12（2022）1002594图二. MARSShineThrough Chart，比较分类器1 - 4和成对分类器组合专门发现的目标类观测值的计数（由气泡半径表示）。图三. MARS遮挡图，比较分类器101- 4和成对分类器组合完全遗漏的目标类观测值的计数（由气泡半径表示）。• 每个气泡的半径表示独占观察的计数。与ShineThrough图表类似，圆圈的面积没有可解释的意义。圆之间的差异反映在半径的差异上，而不是面积。例如图图2（MARS ShineThrough Chart样本），决策树（行标题）和随机森林（列标题）交叉处的黄色气泡，表示决策树发现了一些其他分类器没有发现的目标类观测。橙色气泡位于决策树（行标题）和随机森林（列标题）的交叉点，表明决策树（行标题）和随机森林（列标题）一起（当它们的积极预测被组合时）发现了许多其他分类器没有发现的独特目标类观察结果在图3（MARS遮挡图样本）中，在CNN（行标题）和随机森林（列标题）的交叉处，靠近右上角，表明CNN错过了许多其他分类器成功发现的目标类观测。在同一位置的红色小气泡表明，正预测被组合）、CNN（行标题）和随机森林（列标题）已经错过了非常少的其他分类器成功发现的独特目标类观察。2.2. 功能对于上述任务，我们提供了一个软件包，该软件包：1. 计算单个和组合的ShineThrough分数。2. 计算单个和组合的阻塞分数。3. 允许通过定制的MARS图表可视化ShineThrough和Occlusion建议的工件是使用Python编程语言实现的，利用Pandas [6]和Plotly[7]包，并分为三个文件：1. ipynb：实现ShineThrough分数并生成ShineThrough图表。2. Occlusion.ipynb：实现阻塞评分并生成阻塞图表。N. Mali，F.Restrepo，A.Abrahams等人软件影响12（2022）1002595表3分类器传统的MARS和MARS。分类器精度精度召回ST（MARS）OCC（MARS）美国有线电视新闻网0.75 0.79 0.76 0.02 0.15决策树0.77 0.79 0.780.030.16Logistic回归0.75 0.78 0.77 0.0 0.16随机森林0.80 0.83 0.800.00.1SVM 0.76 0.77 0.78 0.02 0.173. 实验：此文件包含一个Readme.txt文档，该文档是下节中使用的样本数据集。Readme.txt文档中有与输入数据所需结构相关的详细说明，还提供了所用术语的简要说明。3. 影响我们使用公开的该数据集由1，599个观察结果组成，每个观察结果都被标记为“好”或“坏”，并使用75：25的训练集与测试集比率进行分割。五种不同的分类器，即CNN，决策树，逻辑回归，随机森林和SVM，利用上述分割进行了训练和测试。测试集的结果显示在上面，图 2和3以及表1- 3中。1在表3中，单元格被加粗以指示哪个分类器（分类器是行标题）对于每个指标（指标是列标题）具有最佳得分。对于“准确度”、“精确度”、“召回率”和“透光度”（ST），值越高越好。对于闭塞（OCC），低值更好。参考表3，我们看到传统的指标（表3：第2-4列），虽然在所有分类器中几乎相同，但似乎表明随机森林是我们应用程序的绝对优越分类器，因为它具有最高的准确度、精确度和查全率值（略高）。然而，MARS ShineThrough（ST）和MARS闭塞（OCC）指标（表3：第5列和第6列）以及MARS图表（图10）显示，二、（图3）提供进一步的见解。表 1 和图 2 揭示了当决策树（其具有 0.03 （最高）的单独ShineThrough分数）与随机森林组合时，所得到的集成具有0.12的组合ShineThrough分数，远远优于任何其他分类器的单独和组合分数。关于个体闭塞评分，随机森林的评分最低，为0.1（最佳）。然而，与上面类似，表1和图2。图2（遮挡）显示，当遮挡分数为0.16（第二高）的决策树与CNN（0.15）组合时，所得分类器的组合遮挡分数为0.02，是任何单个或成对分类器中最低（最佳）的。因此，MARS分数似乎表明，决策树，这将被丢弃，根据传统的措施，作为一个强大的使能器时，与其他分类器相结合，增加他们的ShineThrough分数和降低他们的遮挡分数。就像我们可以快速识别强分类器组合，MARS分数和图表，我们也可以找到相反的，即，弱分类器组合不会产生比单个分类器更好的结果。例如，表1和图2表明决策树和SVM的组合非常弱，因为组合的ShineThrough得分（0.03）与决策树分类器本身的得分（0.03）相同。因此，结合两个分类器（决策树和SVM）的积极预测并没有比单独使用决策树总之，虽然传统的性能指标通过定量解释真实和真实的分类器来衡量单个分类器的能力，1请注意，分类器性能是使用默认的超参数设置进行评估的，没有进行调整见图4。数据集格式化指南。图五. 模型文本文件格式示例。假阳性率、MARS分数和图表通过定量地示出有多少真阳性观察被分类器或分类器的组合唯一地发现（发现）来测量分类器能力。因此，所提出的软件工件提供了关于个体和集体分类器行为的不可用的洞察力。竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作致谢这项研究得到了美国弗吉尼亚理工大学数据决策科学（D DS）和美国弗吉尼亚理工大学社会、文化和环境研究所（ISCE）附录MARS软件代码包含一个可选的csv_generator函数，允许用户上传数据集，并从可用的七个选项中选择多达五种机器学习算法（逻辑回归，支持向量机，随机森林，决策树，卷积神经网络，自定义）。该功能可训练算法、测试算法并输出一个.csv文件，以备在MARS ShineThrough和MARS Occlusion功能中使用。用户还可以将其自己的.csv 文件（格式如第 2.1 节开头所述）直接上传至 MARSShineThrough和MARS Occlusion功能。要使用csv_generator，请执行以下步骤：1. 设置数据集的格式，使类标签列称为“class_label”。确保其余列都属于训练数据。训练数据列的名称并不重要;图4中使用了ra_dius_mean和texture_mean作为训练数据列的任意示例。您可以使用替代列名和任意数量的列作为训练数据列。将数据集保存为2. 保存名为“models.txt”的.txt文件。（见图中的示例。5）在与csv_generator函数相同的目录中。文件应包含以下分类器选项中最多5个的列表：a. 美国有线电视新闻网-CNNb. 决策树-DTc. Logistic回归-LRd. 朴素贝叶斯-NBe. 随机森林-RFN. Mali，F.Restrepo，A.Abrahams等人软件影响12（2022）1002596图六、 . csv文件输出示例。f. 支持向量机 SVMg. 自定义2、自定义NN、自定义CNN。模型应该用逗号分隔，并且类型应该与上面a.-f中所在Dash之后3. 运行以下命令行调用以生成.csv文件（保存在与数据集和模型文件相同的目录中）：pythonyour_folder_name/csv_generator/csv_generator.py。执行此命令后，分类器输出结果将以.csv格式保存（参见图中的示例）。6）。引用[1]D.奇科湾Jurman，马修斯相关系数（MCC）优于F1得分和二进制分类评估准确性的优势，BMCGenomics 21（1）（2020）1-13。[2]DMW权力，评估：从精确度，召回率和F-措施，ROC，信息，标记和相关性，Int.J.马赫。学习. 2（1）（2011）37-63。[3]J.A. Hanley，B.J. McNeil，受试者工作特征（ROC）曲线下面积的含义和用途。放射学143（1982）29-36，http：//dx. doi.org/10.1148/radiology.143.1.7063747网站。[4]A.P. Bradley，使用ROC曲线下面积评估机器学习算法，模式识别。30（1997）1145-1159，http：//dx. doi.org/10.1016/S0031-3203（96）00142-2.[5]T.斋藤，M。在不平衡数据集上评估二进制分类器时，精确度-召回图比ROC图信息量更大。PLoSOne10（2015）e0118432，http://dx.doi.org/10.1371/journal.pone.0118432。[6]pandas 开发团队 pandas-dev/pandas ： Pandas. 泽诺多得双曲正切值 .doi.org/10.5281/zenodo.3509134网站。[7]Plotly技术股份有限公司、协同数据科学、PlotlyTechnologies Inc.https://plot.ly网站。[8]P. Cortez ， A. Cerdeira ， F. Almeida ， T. Matos ， J. Reis ， Modeling winepreferences bydata mining from physicochemical properties ， Decis. 47 （ 4 ）（2009）547-553。2用户一次最多可以提供五种自定义算法进行评估，例如： Custom1 、Custom2、CustomNN1、CustomCNN2、CustomCNN1。如果用户提供可选的自定义函数，则用户还必须提供包含单个自定义（）函数的custom.py文件，该函数返回为 model.fit 方法准备的模型对象。例如，如果用户选择CustomNN1，则对应的.py文件必须命名为customNN1.py，并且其中的函数必须定义为customNN1由于在线执行上传的python代码的安全问题，我们的GUI（Web界面）csv_generator不支持自定义分类器。希望自定义分类器的用户必须下载我们的软件并从他们的计算机上执行csv_generator.py

下载后可阅读完整内容，剩余1页未读，立即下载