沙特国王大学学报：软件类别风险预测模型的研究及优化阈值技术

96 浏览量更新于2024-01-17 收藏 1.12MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报判别软件Navneet KaurKaur，Hardeep Singh印度阿姆利则Guru Nanak Dev大学计算机科学系阿提奇莱因福奥文章历史记录：收到2020年2021年3月3日修订2021年3月6日接受2021年3月17日网上发售保留字：经验验证面向对象度量A B S T R A C T为了确定软件系统中的高风险类别，研究人员经常转向统计和计算智能模型，而不是更容易通过阈值执行的二进制分类。在后一种情况下，只有阈值的知识可以帮助开发人员和测试人员识别风险倾向的类。目前的研究旨在确定二分法，熟练区分故障和非故障类的软件系统。为此，该研究考察了七种阈值技术，即，优势比、Cohen's kappa、特异性和灵敏度的最大总和、一致性概率、Alves排名、可接受风险水平的值以及标准差加平均值，以确定哪些识别软件度量的最佳阈值。任何阈值技术的二分功效取决于软件措施，其最佳值有待确定。本研究利用广泛采用的面向对象的度量，Chidamber和Kemerer度量套件。进一步比较了这些技术的区分结果，从实验结果中得出的观察结果显示，一致性概率和最大灵敏度和特异性之和达到了最佳性能，而比值比的性能明显低于性能最好的方法。版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍基于统计和机器学习的预测模型在软件工程领域中经常被探索，因为它们能够根据风险对类进行分层，并根据类的需要分配测试工作和资源（Badri et al.，2015年）。尽管预测模型具有有效分类故障和非故障类别的优点，但在实际的实际环境中应用预测模型是罕见的，因为这涉及定期构建模型的开销（Shatnawi等人， 2010年）。基于阈值概念的二值分类过程比重复的建模过程简单，因为在前一种情况下，测试人员可以通过检查类的度量值是否超过*通讯作者。电子邮件地址：navneetsandhu02@gmail.com（N.Kaur），hardeep.dcse@gndu.ac.in（H. Singh）。沙特国王大学负责同行审查计算阈值（Shatnawi等人，2010年）。因此，仅仅是阈值的知识就可以帮助测试人员将他们的资源集中在所需的类上。在软件行业中引入门限结构可以更好地优化测试资源。在测试资源有限的情况下，整个注意力只能集中在故障概率非常高的最高优先级类别上（Malhotra和Bansal，2015）。在实际环境中引入阈值概念的主要挑战是确定编码特征的最佳阈值，例如耦合，大小，内聚性和复杂性，这些特征能够准确地区分错误和非错误组（Boucher和Badri，2018）。在与流行病学、文本检索和特征选择相关的研究中已经应用了各种统计，其中通过最大化或最小化所选择的统计来恢复最佳点（Mendling等人，2012; Schapire等人，1998; Zou等人，2016年）。例如，选择具有最大Youden指数的点https://doi.org/10.1016/j.jksuci.2021.03.0031319-1578/©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comN. Kaur和H. 辛格沙特国王大学学报6340对现有文献的回顾表明，在基于阈值的故障和非故障类别的区分领域中存在相对较低的工作（与通过机器学习算法进行预测相比）。虽然有大量的方法可以识别一个二分法熟练地分离两个群体，但它是强制性的，以统计验证这些现有的方法在故障预测领域之前，它们包括在实际环境中。本文研究了七种阈值技术对软件度量最佳阈值的识别能力。图1包含了当前研究所遵循的阈值计算过程的可视化。最优阈值是指能够以最小误差区分软件系统的故障类和非故障类的特定阈值。通过在故障预测背景下利用kappa、比值比和协调概率（CP）方法产生的阈值来验证它们的潜在适用性。此外，本研究的作者还重新检查了Alves等级、最大灵敏度和特异性之和（maxsum）、标准差加平均值（SDM）、可接受风险水平值（VARL）技术在基于故障的分类中的适用性（注：本文对偏态和正态分布数据集进行了SDM方法的实验，并分别给出了实验结果）。在先前的研究中，已经对这些测量值的预测效率进行了测试，但是，出于两个原因，需要重新调查这些统计数据。首先，分类器的性能可能随着其应用的环境而变化。因此，为了概括以前研究的结果，对不同数据集（具有不同特征）的上述技术进行评估是必不可少的。为了实现这一目标，本研究选择了二十个软件系统来验证统计能力。其次，需要比较可用统计量的故障预测效率，以确定其中最佳的。本研究选择弗里德曼和Nemenyi测试比较所考虑的所有技术的区分能力。必须指出的是，CP方法是maxsum方法的一个变体。虽然，这两种统计量都利用灵敏度和特异性指数来确定受试者工作特征（ROC）曲线上的最佳点，但是，从它们中恢复的最佳点可能不相同。整个实验的目的是解决以下问题研究问题RQ1：在故障预测领域中，是否可以使用流行的统计方法，比值比和科恩卡帕，以获得区分故障和非故障类的阈值效率RQ2：可以使用VARL、CP、maxsum和Alves Rankings方法来导出最佳阈值吗？RQ3：SDM方法能否为偏斜和正态分布的故障数据集产生潜在的阈值？RQ4：在上述阈值技术中，哪一种显示出最好的区分结果？为了做到这一点，本文的结构安排如下。第二是相关的工作。第3节包括进行本研究所用的方法。第4节包含实验期间第五是对有效性的威胁，最后一部分是结论，并对未来的工作提出了建议。2. 相关工作大量的研究已经探索了不同的机器学习（ML）算法（Alshayeb和Li，2003; Elish，2014;Zhou等人，2010），以确定它们预测在维护阶段中具有高故障发生机会的类别的能力。另一个标准，利用阈值的概念，从非故障类故障分离，也是可用的。本节仅总结了迄今为止所做的工作，旨在识别用于故障倾向预测的软件度量的阈值McCabe和Nejmeh根据他们的经验推导出复杂性度量的固定阈值（McCabe，1994; Nejmeh，1988）。但是，这种固定阈值的思想似乎并没有产生有效的结果，软件系统持有鲜明的charac-teriism。固定阈值的这种限制导致了利用统计方法来获得最佳值的想法的出现。在研究中采用标准差和平均值统计（ Erni 和 Lewerentz ，1996）来找到阈值下限和上限，这进一步有助于识别需要重建的程序的关键点。提出了另一种方法来找到方法级度量的阈值，然后测试所获得的值预测易出错类的能力（Alves，2010）。VARL是一种被广泛采用的统计方法，用于基于故障状态的软件类判别（Bender，1999）。Shatnawi测试了VARL技术在识别Eclipse-2.0的有效阈值方面的潜力，然后测试了导出的阈值同一软件的后续版本（Shatnawi，2010）。该研究报告称，CBO、RFC和WMC获得的阈值具有足够的准确性。在同一项研究中，还在其他软件系统上测试了VARL，即，Mozilla和Rhino，但在这些软件系统中，该技术未能提供Fig. 1. 阈值识别过程的框架。N. Kaur和H. 辛格沙特国王大学学报6341表1用于实验的软件系统列表。Sr. 没有数据集班级数错误类Sr. 没有数据集班级数错误类D1Log4j-1.2205百分之九十二D2Lucene-2.4340百分之五十九D3Poi-3.0442百分之六十三D4Xalan-2.7909百分之九十八D5Xerces-1.4588百分之七十四D6Antlr4479百分之四D7BroadleafCommerce1593百分之十九D8JUnit731百分之五D9Hazelcast2418百分之八D10MapDB331百分之十二D11McMMO175百分之二十九D12Netty1143百分之二十四D13OrientDB1847百分之十五D14Oryx533百分之十四D15锡兰日偏食1610百分之四D16Elasticsearch4741百分之十D17Eclipse PDE UI1497百分之十四D18Eclipse JDT核心997百分之二十一D19分点框架324百分之四十D20Mylyn1862百分之十三有效阈值。在研究（Malhotra和Bansal，2015）中，对KC 1、Ivy和JEdit应用VARL方法，以找到CK指标的最佳值。作者利用计算出的阈值将选定的数据集转换为二进制形式，然后在转换后的数据集上应用ML算法。ML技术产生了更好的分类性能在转换数据集的情况下。同样，在研究中（Arar和Ayan，2016; Singh和Kahlon，2014），通过应用通过VARL恢复的阈值获得了可接受的结果。Shatnawi等人（2010）首次在故障预测领域引入了ROC曲线的概念，用于基于阈值的软件类分离。作者选择特异性和敏感性之和最大的点12个面向对象（OO）的指标的阈值被发现有利于组类的基础上的严重性的故障，但未能分类的Eclipse类到故障和非故障组。在另一项研究中（Catal等人，2011），作者使用ROC方法，但认为产生最大曲线下面积的点为最佳点。在研究中（Ferreira等人，2012），作者提出了另一种阈值技术，遵循拟合数据的概念不同的概率分布。在另一项研究（Shatnawi，2015）中，作者在偏态和正态分布数据集上测试了SDM（最初在（Erni和Lewerentz，1996）中提出）的能力，并在后一种情况下获得了更好的结果。在研究（Boucher和Badri，2018）中，作者比较了三种阈值技术的预测效率，即，ROC曲线、Alves Rankings和VARL。结果表明，ROC曲线结合Alves秩次法的预测效果更好.相比之下，为VARL确定的阈值在一半以上的情况下无效。在研究（Kaur andSingh，2020）中，作者通过计算20个OO指标的阈值，比较了ROC曲线和Alves Rankings的区分能力，发现在RFC、NPM、CAMP、CAM和AMC指标的情况下，ROC曲线的分类能力显著优于Alves方法。本研究的作者也研究了阈值技术的区分强度，但本研究与上述研究有本质上的不同，因为它比其他相关研究涉及更广泛的技术3. 实验框架本节定义了实验研究的设置3.1. 数据集本研究在公开可用的数据集上进行了实验（Boetticher等人，2007;Ferenc，2016; D 'Ambros等人，2010年）。表1描述了用于实验的软件系统列表。为了使门限技术的检测更加更严格地说，评估过程是在不同的软件上进行的，每个软件都具有不同的外部特征。首先，本研究所选的系统属于不同的组织。其次，所选系统在类的数量方面也有所不同，其中Log4j-1.2和McMMO包含少量的类，而Hazelcast和Elastic- search包含大量的类。3.2. 因变量和自变量在这项研究中，捕获有关软件的结构属性的信息的措施被认为是独立的变量，而故障状态被认为是因变量，即。有缺陷的和无缺陷的选择的OO度量是-研究人员建议，除了内聚度量之外，所有度量的值都应较低，以使软件易于管理且无错误（Beranic 和Hericko ，2000）。3.3. 阈值技术阈值技术是使用软件测量数据来确定最佳截止点的数学方程，该最佳截止点将数据集分成两个类别，阳性和阴性（Herbold等人，2011年）。二进制分类器的鉴别强度完全取决于阈值，即，如果该值低于或高于适当的点，则错误预测的数量将很高。图2包含了识别技术的可视化。在图中，故障类通过“1 0”表示符号和非故障通过“0 0”表示。软件类别的区分可以使用监督或非监督分类技术来实现为了通过监督算法分离软件类，故障信息的可用性是强制性的，而非监督技术可以在不使用过去的故障数据的情况下产生阈值。在所选监督算法（除VARL）的情况下，产生所选统计量的最大值的度量指标被认为是最佳值。统计结果，如真阳性（TP）、真阴性（TN）、假阳性（FP）和假阴性（FN），取决于临界值的选择。这些指标的值进一步有助于确定敏感性和特异性统计的结果。基本上，灵敏度统计量测量阈值在正确地将故障情况分类为故障时的预测能力，而特异性测量分类器N. Kaur和H. 辛格沙特国王大学学报6342没有缺点在本小节中，我们将解释为当前研究选择的每种阈值技术。提出比值比方法作为诊断性能的单一指标，因为它具有在单一测量中覆盖灵敏度和特异性两者的能力（Glas等人，2003年）。在故障预测领域，比值比表示如果类别有错误，则预测有错误的几率与如果类别无错误，则预测有错误的几率的比率。科恩卡帕已被引入作为统计方法，以量化两个观察员之间的一致性强度（科恩，1960年）。像比值比一样，kappa也将两个统计量的功能纳入单一度量中。一个有效的分类器必须具有高度的预测和实际结果之间的协议。kappa的最大值可以是1，这是期望值，表示预期变量和观察变量之间的完全一致，而0表示不一致。这两种方法在流行病学、文本检索和特征选择等领域中，用于确定最佳阈值，也是一种非常流行的方法。ROC曲线是一种广泛使用的统计技术，用于两个目的-验证开发的模型的分类准确性和识别最佳阈值。ROC曲线的一般结构如图3所示。ROC曲线中连接点（0，0）和（1，1）的对角线显示没有分类能力，因为在这种情况下，TP和FP的数量相同。一个最佳的ROC曲线，可以准确地分类组与最小的错误是更符合左上角。存在不同的方法来找到ROC曲线上的最佳点，在这项研究中，我们研究了CP和maxsum方法的分类能力，将类分为故障和非故障组。CP已被证明是识别最佳阈值点的有效方法（Liu，2012; Unal，2017）。在该方法中，图二. 所考虑的阈值技术的可视化。图3.第三章。ROC曲线的一般结构左侧ROC曲线上的阈值N. Kaur和H. 辛格沙特国王大学学报6343J特异性和灵敏度的乘积产生最大值的点被认为是最佳截止值。产生的截止点形成一个矩形，如图3所示（左ROC曲线），其中高度代表灵敏度，宽度代表特异性。基本上，形成最大化区域的直角的点被选择为最佳截止点。另一个广泛使用的寻找最佳阈值的标准是选择特异性和灵敏度之和最大化的点。通过这种技术确定的点是Youden指数方法的值最大化的点（Kaivanto，2008）。此时，到对角线的垂直距离最大化（如图3，右ROC曲线）。在研究（Erni和Lewerentz，1996）中，SDM方法用于确定最佳阈值。该统计量的设计目的不是为了检测故障类别，但后来在另一项研究中（Shatnawi，2015）用于故障预测目的。Shatnawi指出，故障预测实验中使用的数据集遵循偏态分布（Shatnawi，2015）。SDM统计量在偏斜数据集上的直接应用将带来可能对分类过程产生负面影响为了处理所述问题，扭曲的数据集被转换成一个正常的dis-通过在XY平面上绘制累积线图来导出阈值，其中X轴表示度量值，Y轴表示权重比。而度量值在选择特定的重量比作为阈值，并且应该非常仔细地选择该重量比3.4. 阈值结果本节介绍了用于评估和比较阈值技术的鉴别强度的定量特征。3.4.1. 业绩评价措施选择适当的措施是必要的，以提供一个适当的洞察到所提出的技术的性能。在目前的研究中考虑的大多数软件系统具有很强的不平衡分布的结果变量，其中非故障类的对于不平衡故障数据集，G-均值，即几何平均值（在Eq.（1）是经常使用的措施。这种方法的价值应该很高。使用对数函数的贡献形式。改造后的G-平均值：¼psensitvityωspecificityð1Þ通过使用SDM方法计算阈值此外，为了将检索到的阈值应用于遵循偏态分布的训练数据集，检索到的值通过指数函数变回原始形式。我们重新检查了这种方法，以简要了解其预测性能。在流行病学研究领域引入了VARL方法，用于确定探讨糖化血红蛋白与糖尿病肾病发生之间关系的阈值（Shatnawi，2015）。通过该技术确定阈值需要实施逻辑回归模型，因为其斜率（b）和Y截距系数（a）是成功执行VARL统计的必要元素。此外，VARL这个风险水平基本上表明了在测量值低于截止点的类别中错误分类的可能性，假设阈值在风险水平0.015处计算，则对低于VARL的值进行的分类具有15%的错误分类可能性。先前研究该技术的研究显示了其不同的预测行为，如在研究中（Malhotra和Bansal，2015; Singh和Kahlon，2014），VARL显示出良好的分类准确性，而在研究中（Boucher 和Badri ， 2018;Hussain等人，2016），同样的方法是产生荒谬的值作为大多数软件系统的最佳截止点。上述研究的结果揭示了进一步研究VARL方法的预测性能的必要性因此，为了适应--本研究旨在重新审视基于所获得的G均值测量值，将每种阈值技术进一步分类为表2所示的六个类别之一。为了构建最有活力和最成功的训练模型，本研究利用了10交叉验证的概念，这是一种有效的方法来获得预测误差的近无偏估计3.4.2. 阈值技术根据为了比较分类器或所提出的技术，存在多种比较算法，其中的每一种都属于参数或非参数比较技术。Demsar建议在数据不服从正态分布时以及在多个数据集上比较两个以上分类器时应用Fried-man检验（Demšar，2006）。Friedman检验中的零假设是所有分类器的性能相似，但差异不显著;备择假设是至少存在两个分类器的性能存在显著差异。该测试将秩集以升序分别分配给每个数据集的所有方法，然后计算所有方法的平均秩（Friedman，1940）。如果所有方法的计算平均秩相同，则接受零假设设Rj表示方法j的平均秩，ds表示数据集的数量，K表示方法的数量，ri表示秩对于数据集i上的分类器j，检验统计量可以计算为：212ds“XkKK12#不同的软件系统。Alves（Alves，2010）提出了另一种能够通过选择度量值作为覆盖源代码大小的足够百分比的适当点来识别阈值的方法通过AlvesRankings的阈值识别过程vFkk1表2j-4ð2Þ需要执行几个步骤才能获得最终值。第一步是提取软件度量的度量值，这些度量值将作为Alves分类器的输入，比如RFC，基于G均值的分类。G-mean分类以及重量测量，班级的大小，即，儿子下一步是计算重量低于0.5没有好的分类为0.5和0.6分类不佳通过将对应于每个类的权重除以软件系统的总大小来第三步是实体聚合，在此，将具有所选度量（RFC）的相似值的类的权重比相加。在最后一步，在0.6和0.7为0.8和0.9平均分类优秀分类为0.70.8大于0.9可接受的分类N. Kaur和H. 辛格沙特国王大学学报6344DSDSFRj¼1Xrj1/1算法1：通过以下步骤计算最佳值所选技术该测试是根据v2分布的，具有k-1自由度，多姆如果计算的统计量的值足够大，则零假设将被拒绝。对于这种情况，Demser建议应用事后Nemenyi检验来确定具有显著性能差异的方法。它检查所有可能的方法对的等级之间的差异，如果该差异超过临界差异（CD）的值，则该差异被认为是显著的，临界差异（CD）可以按以下方式计算1. 具有软件度量X={X1，X2，X3，. . . .. . .....Xn}，n是为阈值计算选择的度量的数量。2. 每个软件类ie S被分配给两个组Y之一(i)e{故障，非故障}3. 将数据（即X）划分为K个时隙。4. 对于K（j），j =1 k //执行K交叉验证，这里k为105. testset = slot（j）// testing setCD¼qa;1;KrK112dsð3Þ6. trainset = data-testset //训练集7. 选择软件指标（例如X1，来自车列），这里， qa;1;K 的值是基于学生化范围统计量的值（ Nemenyi ，1963）。4. 结果本节包含实验期间发现的详细结果。4.1. 基于单变量logistic回归任何阈值的预测性能高度依赖于关于结构性质的测量数据与二元结果之间的关联程度。当关联强度较低时，所选择的二元分类技术将表现出较大的误分率。因此，在阈值识别过程开始之前，必须验证相依变量和自变量之间是否存在显著相关性。分析OO度量作为故障倾向性指标的有效性的最常用方法之一是单变量Logistic回归（ULR）。它们在不同领域受欢迎的主要原因是它们能够巧妙地处理因变量具有二分特征的情况。本研究计算了p值，该值基本上概括了变量之间关联的显著性。如果软件度量和故障倾向之间的关联的p值低于0.05.结果显示，在大量系统中，测量DIT、NOC和LCOM的p值大于0.05。只有在至少15个软件系统中发现重要的措施才被选为阈值识别技术的输入。并且，基于结果，得出的结论是，WMC，CBO，RFC，ESTA，和NPM是一个统计上显着的预测，并可以用于阈值识别过程。4.2. 基于所考虑的阈值技术的本节包含由上一节中讨论的每种选定阈值技术给出的截止值。算法1中给出了用于通过所选技术计算最优值的步骤。基于Cohen kappa技术的阈值结果：应用kappa技术后获得的阈值见表3。与其他软件系统的阈值相比，在Antlr 4的情况下，WMC和矩阵的阈值同样，在Ceylon-ide-eclipse和Eclipse JDT 核心中，WMC的kappa测量值相对高于其他系统。基于比值比技术的阈值结果：比值比的实验结果（如图）计算最佳阈值并将数据放入数组中，即，X_train//通过cohenkappa或比值比或maxsum或CP方法8. 对X_train的度量值进行排序，并将其放入一个集合中，即，X_sort。(Note：X_train可能包含重复的度量值，但X_sort集只包含X_train的不同值）9. 对于X_sort（t），t = 1m do // m表示数字X_sort中的非重复值10. 计算混淆矩阵的FP、TP、FN和TN指数。11. 使用图2中给出的公式计算Cohen kappa（或比值比或最大和或CP）。12. 在集合X_sort中选择阈值t作为最佳值，该值产生所选统计量的最大值。//通过VARL方法13. a，b=逻辑回归（X_train）14. 使用图2中给出的公式通过VARL计算最佳阈值。//通过Alves Rankings方法15. 提取度量并将其放入数组，即loc_train。另外，考虑X_train数组。16. for loc_train（i），i =1 length（loc_train）do //length(loc_train）是软件17. 计算软件系统的总大小，即，总18. 对于loc_train（i），i = 1.. . . .. . .. length（loc_train）do// to calculate weight ratio19. 重量比= loc_train（i）/总重量20. 添加具有相似度量（X_train）值的类的权重比。21. 计算weight_ratio的累计和，即cum_weight22. 选择对应于cum_weight 20的度量值作为最佳阈值。//通过SDM方法识别阈值（在倾斜数据集上）23. 平均值=平均值（X_train）24. std_dev =标准偏差（X_train）25. optimal_threshold = Mean + std_dev//通过SDM方法识别阈值（在正常分布的数据集上）26. 通过对数函数将X_train（原为偏斜形式）转换为正态分布形式，并放入X_logtrain27. 平均值=平均值（X_logtrain）28. std_dev = stdeviation（X_logtrain）29. 阈值=平均值+标准差30. optimal_threshold = exponential（threshold）我N. Kaur和H. 辛格沙特国王大学学报表63456345阈值由Cohen kappa、比值比和VARL技术获得。数据集Cohen Kappa比值比VARLWMCCBORFCLOCNPMWMC CBORFCLOCNPMWMCCBO RFCLOCNPMD12461529 536152––––D25515107325 14521016––––D395179551 5160––––D43353203 39671––––D530916336 0433835––––D6921139421164 732116267 171408D715676361 44180100 4584D87410925130 23110175 850445D93311251481984 419730146106 135010D10339292871133 183132244 1834512D1111396723 35252––––D1218612441377 2674513–1 2––D131717488216125 4912559796 12258D141871514231 1525281135 12100–D15735372771690 22602633223 121306D162513281093459 64155068 13293D172318681311173 411878135238 501073D1867177731913141 5121035655205 29810D1996282621 281919––––D2021149413112116 2518229538126 30562表3中的wn）显示，从该技术检索的阈值与Cohen kappa的阈值显著不同，因为在大多数软件系统中，该技术产生的阈值非常高。此外，与其他系统相比， Hazelcast 、 Orientdb 、 Ceylon-ide- eclipse 、Elasticsearch、Eclipse JDT core和Mylyn的比值比计算的截止值非常高，因此，大多数类将被归类为无故障，这似乎并不真实。基于VARL技术的阈值结果：以前研究VARL技术在故障预测领域的有效性的研究推荐了较低的P指数值，因为其高值会增加软件属性值低于计算阈值的类中的误分类机会。因此，通常考虑为特定软件系统的所有度量给出有效阈值的最低概率指数来计算阈值。但是，没有这样的固定标准存在，以确定上限的P，因此，不同的研究者选择不同的值作为上限。该研究的作者（Shatnawi，2010）检索了有效值，直到概率为0.10，而在研究中（Boucher和Badri，2018; Malhotra和Bansal，2015; Singh和Kahlon，2014），分别检查了值，直到0.125、0.15和0.15。在本研究中，我们还选择0.15作为概率指数的上限。使用VARL获得的阈值结果如表3所示。在实验过程中，Log4j、Lucene、Poi-3.0、Xalan、Xerces、McMMO和Equinox框架没有识别出有效阈值。类似地，在Netty的情况下，VARL未能为WMC、WPM和NPM产生有效的阈值。为所有软件系统选择的概率指数在0.035和0.15之间。例如，在Antlr的情况下，产生所有测量的有效截止值的最低概率指数为0.035，而在Antlr的情况下，Junit的最低可观P指数为0.05。基于maxsum和CP的阈值结果：表4列出了应用CP方法检索到的用户。ROC曲线法得到的临界值在一定程度上是一致的，但与Kappa和比值比阈值比较，差异很大。ROC技术的阈值之间的差异大多是高的情况下，测量。在某些情况下，这些值以非常小的裕度不同，例如，在Log4j中，WMC和CBO产生的阈值为maxsum是2和5，并且在CP的情况下，相同度量的值是3和4。基于Alves排名的阈值结果：表4包含应用Alves方法检索到的阈值。在该方法中，选择适当的权重比是强制性的，因为将选择与该比率对应的度量值作为最佳截止点。Alves等人根据权重比为70%、80%和90%时得出的指标阈值对类别进行了分类具有以下度量值的类70%的阈值被归入低风险类别。将度量值范围在70 - 80%阈值之间的类别归类为中等风险类别，将80 - 90%范围内的类别归类为高风险类别，将度量值大于90%阈值的类别归类为极高风险类别。在本研究中，为了确定合适的权重比百分位数，比较了在权重比10%、20%、高达100%时获得的阈值的预测结果，并且将提供呈现总体最佳分类结果的阈值的比率视为合适的权重比百分位数。结果表明，在比率20%时得出的阈值产生了总体最佳结果，因此，选择与该比率对应的度量值作为最佳阈值。基于SDM在偏斜和正态分布数据集上的应用的阈值结果：由SDM方法产生的阈值在表5中描绘。从该表中可以推断出，与在正常数据集上SDM的情况下获取的值相比，在偏斜数据上应用SDM获得的阈值另一方面，对于正态分布的数据集获得的值从一些其他技术仍然是高的，但是与偏斜数据集上的SDM相比相当低，这些低值将积极地影响分类过程的最终结果。4.3. 基于分类技术本节提供了对所考虑的二分法技术中的哪一种正确地识别了最佳阈值的经验检验，并提供了在所考虑的软件系统集的实验期间图附录中的4显示了所有研究系统上所有阈值技术的每个指标的G均值分布。N. Kaur和H. 辛格沙特国王大学学报表63466346使用maxsum、CP和Alves Rankings方法计算阈值。数据集最大和一致性概率阿尔维斯排名（20%）WMCCBORFCLOCNPMWMC CBORFCLOCNPMWMCCBO RFCLOCNPMD125371523 41677263 201572D2551510655 515106584 202783D395179579 51795795 262407D43356713 3538131 144252D53372634 1726484 223043D623720781623 72010116103 121257D7140759514 3763591 8664D83431013 4327322 4272D91272059188 71159663 9493D109495339 491144161 182419D111131262211 312622132 9812D12351034133 510341372 9763D1314223651014 6136510155 191019D145483616 4837361 7452D159457429 45742111 8852D165877685 8962863 10624D172284682522 840815167 35772D18401275165840 12701328479 631784D1986162728 6283023110 541213D201763466312 627553133 27663表5应用SDM方法获得的阈值。偏态数据集上的数据集SDM正态分布数据集WMCCBORFCLOCNPMWMCCBORFCLOCNPMD117.4316.2143.19379.319.8914.30812.9543.55354.019.69D222.9620.2449.84697.5113.6116.7317.8141.03479.912.66D32525.6159.9266221.2222.215.3250.67486.1519.39D425.7427.7364.531197.9822.3117.6520.9650.58821.2314.42D520.1314.6641.85760.5815.1217.3511.6032.96286.6614.31D638.1011.725.5823127.4920.079.5518.20137.5121.78D735.7510.6332.39205.120.3221.548.0320.69134.313.54D89.856.6013.1887.2321.036.327.028.6438.7810.25D925.8812.1427.7168.6422.8515.3810.6919.7283.3116.65D10113.577.032.89980.1126.1423.646.8820.66190.4115.68D1147.710.3237.15217.5923.8931.859.4223.18167.428.62D1230.3410.6532.63271.2322.6816.3510.8120.07115.8918.88D1359.0816.3848.52360.3134.8428.2812.9430.24169.4621.06D1418.637.1218.11133.778.4714.427.6216.5595.469.3D1545.405.7420.76252.3110.3219.355.2013.65106.098.02D1633.6416.2131.70256.9519.0416.6814.3223.54117.0314.55D1753.3621.95108.92222.7810.3839.7517.8479.69167.0510.15D18192.0329.17252.65750.2121.6384.3920.50113.95330.8414.35D1990.4619.67169.99341.3012.0752.3917.9391.49210.8710.89D2046.7421.2495.27319.3513.7427.6014.2354.89133.6110.81tems.基于性能评估参数的结果，估计了每个度量阈值对所有软件系统所具有的总体区分力。表6-8包含所有软件系统上每个阈值技术的综合判别性能。如表2所述，区分能力进一步分为五个级别。在表6-8中，第一列（I）表示相应度量阈值未显示分类能力的软件系统数量。列II、III、IV和V示出了度量阈值获得差的、平均的、可接受的和优秀的分类能力的软件系统的计数。此外，根据这些识别级别的分类强度为它们分配不同的权重，即，平均分配为1，可接受分配为2，优秀分配为3。这种加权方法有助于识别具有最佳故障预测能力的测度。比值比分类器的性能评估：通过比值比进行二元分类的性能结果显示在图五.该图包含所有20个软件系统的G均值结果。在Log4j软件系统的情况下，除了RFC之外的所有度量都获得了显示出一定区分能力的阈值。此外，对于Broadleaf、Hazel、Orientdb、Elastic-search和Mylyn的任何可用度量，都没有恢复适当的阈值。在Lucene和Oryx的情况下，只有单个测量显示了分类能力，但这也未能做出积极贡献，因为它们的预测性能非常低。通过在所有软件系统上使用比值比分类器获得的每个度量阈值产生的总体预测性能如表6所示。从表中可以看出，度量阈值在超过一半的软件系统中无法显示任何分类能力。此外，在优势比能够实现分类的软件系统中，分类不佳的软件系统所占的百分比非常高。权值聚合结果表明，量化耦合特征的测度是故障类别定位的最佳指标N. Kaur和H. 辛格沙特国王大学学报6347表6比值比、kappa和VARL技术的综合判别能力结果Cohen kappa VARL比值比我IIIIIIVV夏天我IIIIIIVV总和我II IIIIVV总和WMC1142219 25571229–3–14CBO10323214 157522382 91–11RFC1261–14 247612281 92–13NPM12–61111 4483117105 41–6LOC1026111167612292 72–11表7关于Maxsum、CP和Alves技术的综

下载后可阅读完整内容，剩余1页未读，立即下载