没有合适的资源?快使用搜索试试~ 我知道了~
首页二值分类阈值技术在软件风险评估中的比较研究
"这篇研究论文主要探讨了软件风险分类中阈值技术的比较,重点关注了如何使用二进制分类来简化软件系统的风险评估。研究者Navneet Kaur Kaur和Hardeep Singh从印度阿姆利则Guru Nanak Dev大学计算机科学系进行了这项工作,他们在沙特国王大学学报上发表此研究成果。论文涵盖了多种阈值技术,包括优势比、Cohen's kappa、特异性和灵敏度的最大总和、一致性概率、Alves排名、可接受风险水平的值以及标准差加平均值,以确定哪种方法在识别面向对象度量的最佳阈值方面最有效。" 本文首先指出,尽管基于统计和机器学习的预测模型在软件工程中用于风险分层和测试资源分配,但实际应用中存在构建模型的复杂性和成本问题。因此,阈值技术成为一种更简洁且实用的替代方案,因为它允许测试人员通过简单的度量值比较来识别可能有风险的类别。 研究中使用了广泛认可的Chidamber和Kemerer度量套件作为面向对象的度量标准。经过比较,发现一致性概率和最大灵敏度与特异性之和在这项研究中表现出最佳性能,而优势比的表现则相对较弱。这些发现强调了选择合适阈值技术对于准确识别软件风险的重要性。 此外,论文还讨论了阈值技术在减少测试工作量和优化资源分配方面的潜力,这对于软件开发团队来说至关重要。通过阈值确定的二值分类方法,可以更有效地定位可能存在问题的代码段,从而提高软件质量并减少后期维护成本。 这篇论文为软件风险管理和测试策略提供了一个有价值的视角,它强调了阈值技术在简化复杂度量分析和决策过程中的作用。通过对比不同阈值技术的效能,研究有助于软件工程师和测试人员更好地理解和应用这些工具,以提升软件开发的效率和可靠性。
资源详情
资源推荐
N. Kaur
和
H.
辛格
沙特国王大学学报
6341
表
1
用于实验的软件系统列表。
Sr.
没
有
数据集
班级数
错误类
Sr.
没有
数据集
班级数
错误类
D1
Log4j-1.2
205
百分之九十二
D2
Lucene-2.4
340
百分之五十九
D3
Poi-3.0
442
百分之六十三
D4
Xalan-2.7
909
百分之九十八
D5
Xerces-1.4
588
百分之七十四
D6
Antlr4
479
百分之四
D7
BroadleafCommerce
1593
百分之十九
D8
JUnit
731
百分之五
D9
Hazelcast
2418
百分之八
D10
MapDB
331
百分之十二
D11
McMMO
175
百分之二十九
D12
Netty
1143
百分之二十四
D13
OrientDB
1847
百分之十五
D14
Oryx
533
百分之十四
D15
锡兰日偏食
1610
百分之四
D16
Elasticsearch
4741
百分之十
D17
Eclipse PDE UI
1497
百分之十四
D18
Eclipse JDT
核心
997
百分之二十一
D19
分点框架
324
百分之四十
D20
Mylyn
1862
百分之十三
有效阈值。在研究(Malhotra和Bansal,2015)中,对KC 1、Ivy和
JEdit应用VARL方法,以找到CK指标的最佳值。作者利用计算出的阈
值将选定的数据集转换为二进制形式,然后在转换后的数据集上应用
ML算法。ML技术产生了更好的分类性能 在转换数据集的情况下。同
样,在研究中(Arar和Ayan,2016; Singh和Kahlon,2014),通过
应用通过VARL恢复的阈值获得了可接受的结果。
Shatnawi
等人(
2010
)首次在故障预测领域引入了
ROC
曲线的概
念,用于基于阈值的软件类分离。作者选择特异性和敏感性之和最大
的点
12
个面向对象(
OO
)的指标的阈值被发现有利于组类的基础上
的严重性的故障,但未能分类的
Eclipse
类到故障和非故障组。在另
一项研究中(
Catal
等人,
2011
),作者使用
ROC
方法,但认为产
生最大曲线下面积的点为最佳点。
在研究中(Ferreira等人,2012),作者提出了另一种阈值技术,
遵循拟合数据的概念 不同的概率分布。在另一项研究(Shatnawi,
2015) 中 , 作 者 在偏 态和正态 分 布 数 据 集上 测试了SDM(最初在
(Erni和Lewerentz,1996)中提出)的能力,并在后一种情况下获得
了更好的结果。在研究(Boucher和Badri,2018)中,作者比较了三
种阈值技术的预测效率,即,ROC曲线、Alves Rankings和VARL。结
果表明, ROC曲线结合Alves秩次法的预测效 果更好.相比之下,为
VARL确 定 的 阈 值 在 一 半 以上 的 情 况 下 无 效 。 在 研 究 ( Kaur and
Singh,2020)中,作者通过计算20个OO指标的阈值,比较了ROC曲
线和Alves Rankings的区分能力,发现
在
RFC、NPM、CAMP、CAM和
AMC指标的情况下,ROC曲线的分类能力显著优于Alves方法。本研究
的作者也研究了阈值技术的区分强度,但本研究与上述研究有本质上的
不同,因为它比其他相关研究涉及更广泛的技术
3.
实验框架
本节定义了实验研究的设置
3.1.
数据集
本研究在公开可用的数据集上进行了实验(Boetticher等人,2007;
Ferenc,2016; D 'Ambros等人,2010年)。表1描述了用于实验的软
件系统列表。为了使门限技术的检测更加
更严格地说,评估过程是在不同的软件上进行的,每个软件都具有不同
的外部特征。首先,本研究所选的系统属于不同的组织。其次,所选系
统在类的数量方面也有所不同,其中Log4j-1.2和McMMO包含少量的
类,而Hazelcast和Elastic- search包含大量的类。
3.2.
因变量和自变量
在这项研究中,捕获有关软件的结构属性的信息的措施被认为是
独立的变量,而故障状态被认为是因变量,即。有缺陷的和无缺陷的
选择的
OO
度量是
-
研究人员建议,除了内聚度量之外,所有度量的值
都 应 较 低 , 以 使 软 件 易 于 管 理 且 无 错 误 (
Beranic
和
Hericko
,
2000
)。
3.3.
阈值技术
阈值技术是使用软件测量数据来确定最佳截止点的数学方程,该最
佳截止点将数据集分成两个类别,阳性和阴性(Herbold等人,2011
年)。二进制分类器的鉴别强度完全取决于阈值,即,如果该值低于或
高于适当的点,则错误预测的数量将很高。图2包含了识别技术的可视
化。在图中,故障类通过“1 0
”
表示 符号
和
非故障
通过“0 0”表示
。
软
件
类别
的
区分可以使用监督或非监督分类技术
来
实现
为了通过监督算法
分离软件类,故障信息的可用性是强制性的,而非监督技术可以在不使
用过去的故障数据的情况下产生阈值。在所选监督算法(除VARL)的
情况下,产生所选统计量的最大值的度量指标被认为是最佳值。统计结
果 , 如 真 阳性 ( TP ) 、真 阴 性 ( TN) 、 假 阳 性 ( FP) 和 假 阴 性
(FN),取决于临界值的选择。这些指标的值进一步有助于确定敏感
性和特异性统计的结果。基本上,灵敏度统计量测量阈值在正确地将故
障情况分类为故障时的预测能力,而特异性测量分类器
剩余14页未读,继续阅读
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Lombok 快速入门与注解详解
- SpringSecurity实战:声明式安全控制框架解析
- XML基础教程:从数据传输到存储解析
- Matlab实现图像空间平移与镜像变换示例
- Python流程控制与运算符详解
- Python基础:类型转换与循环语句
- 辰科CD-6024-4控制器说明书:LED亮度调节与触发功能解析
- AE particular插件全面解析:英汉对照与关键参数
- Shell脚本实践:创建tar包、字符串累加与简易运算器
- TMS320F28335:浮点处理器与ADC详解
- 互联网基础与结构解析:从ARPANET到多层次ISP
- Redhat系统中构建与Windows共享的Samba服务器实战
- microPython编程指南:从入门到实践
- 数据结构实验:顺序构建并遍历链表
- NVIDIA TX2系统安装与恢复指南
- C语言实现贪吃蛇游戏基础代码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功