没有合适的资源?快使用搜索试试~ 我知道了~
首页回归算法优化软件缺陷预测:梯度Boosting与贝叶斯岭算法的表现
回归算法优化软件缺陷预测:梯度Boosting与贝叶斯岭算法的表现
需积分: 0 0 下载量 48 浏览量
更新于2024-08-05
收藏 2.15MB PDF 举报
本文探讨了回归算法在软件缺陷个数预测模型性能评估中的重要性,尤其是在处理软件缺陷数据集中常见的不平衡问题。传统的评估方法可能并未充分考虑这种不平衡性,导致对于回归模型的评价指标选择不合适。为此,作者付忠旺等人提出了使用平均缺陷百分比作为评价标准,以更全面地衡量模型的性能。 研究者们基于PROMISE提供的六个开源软件缺陷数据集,对包括梯度Boosting回归、贝叶斯岭回归在内的10种回归算法进行了深入的分析。实验结果显示,不同的回归算法对软件缺陷个数预测模型的性能有着显著影响。具体来说,梯度Boosting回归和贝叶斯岭回归算法在这项任务上表现更为出色,它们能够更准确地预测软件模块中潜在的缺陷数量。 通过对回归算法的比较,研究发现,选择合适的回归算法对于提高软件缺陷预测模型的准确性和稳健性至关重要。数据不平衡性是软件工程领域的一个普遍挑战,因此,优化回归算法的使用可以显著提升软件缺陷早期检测和预防的能力,从而降低软件开发成本和维护时间。 此外,论文还提供了关于回归算法在软件缺陷预测中的潜在应用和未来研究方向的见解,例如,如何进一步优化这些算法以适应更复杂的软件项目特性,或者开发针对特定类型的缺陷(如严重性不同)的定制预测模型。 关键词:软件缺陷个数预测、数据不平衡、回归算法。这项研究的结果对于软件质量管理和软件工程实践具有实际价值,也为相关领域的研究者提供了实用的参考依据。
资源详情
资源推荐
收稿日
期
: 2017-08-07;
修回日期
: 2017-09-22;
录用日期
: 2017-10-18。
作者简介
:
付忠旺
( 1993—) ,
男
,
山东聊城人
,
硕士研究生
,
主要研究方向
:
数据挖掘
、
软件工程
;
肖蓉
( 1980—) ,
女
,
湖北宜昌人
,
讲师
,
博
士研究生
,
主要研究方向
:
软件工程
;
余啸
( 1994—) ,
男
,
湖北汉川人
,
博士研究生
,
主要研究方向
:
软件工程
、
深度学习
;
谷懿
( 1996—) ,
男
,
云南大理人
,
主要研究方向
:
机器学习
。
文章编号
: 1001-9081( 2018) 03-0824-05 DOI: 10. 11772 /j. issn. 1001-9081. 2017081935
回
归算法对软件缺陷个数预测模型性能的影响
付
忠旺
1,2,3
,
肖 蓉
1,2
,
余 啸
2
*
,
谷 懿
1
( 1.
湖北大学 计算机
与信息工程学院
,
武汉
430062; 2.
软件工程国家重点实验室
(
武汉大学
) ,
武汉
430072;
3.
湖北省教育信息化工程技术研究中心
,
武汉
430062)
( *
通信作者电子邮箱
xiaoyu-whu@ yahoo. com)
摘 要
:
针
对已有研究在评价软件缺陷个数预测模型性能时没有考虑到软件缺陷数据集存在数据不平衡的问题
而采用了评估回归模型的不合适的评价指标的问题
,
提出以平均缺陷百分比作为评价指标
,
讨论不同回归算法对软
件缺陷个数预测模型性能的影响程度
。
利用
PROMISE
提供的
6
个开源数据集
,
分析了
10
个回归算法对软件缺陷个
数预测模 型预测结果的影响以及各种回归算法之间的差异
。
研究结果表明
:
使用不同的回归算法建立的软件缺陷个
数预测模型具有不同的预测效果
,
其中梯度
Boosting
回归算法和贝叶斯岭回归算法预测效 果更好
。
关键词
:
软件缺陷个数预测
;
数据不平衡
;
回归算法
中图分类号
: TP181
文献标志码
: A
Impact of regression algorithms on performance of defect number prediction model
FU Zhongwang
1,2,3
, XIAO Rong
1,2
, YU Xiao
2
*
, GU Yi
1
( 1. School of Computer Science and Information Engineering, Hubei University, Wuhan Hubei 430062, China;
2. State Key Laboratory of Software Engineering ( Wuhan University) , Wuhan Hubei 430072, China;
3. Educational Informationalization Engineering Research Center of HuBei Province, Wuhan Hubei 430062, China)
Abstract: Focusing on the issue that the existing studies do not consider the imbalanced data distribution problem in
defect datasets and employ improper performance measures to evaluate the performance of regression models for predicting the
number of defects, the impact of different regression algorithms on models for predicting the number of defects were explored
by using Fault-Percentile-Average ( FPA) as the performance measure. Experiments were conducted on six datasets from
PROMISE repository to analyze the impact on the models and the difference of ten regression algorithms for predicting the
number of defects. The results show that the forecast results of models for predicting the number of defects built by different
regression algorithms are various, and gradient boosting regression algorithm and Bayesian ridge regression algorithm can
achieve better performance as a whole.
Key words: defect number prediction; imbalanced data distribution; regression algorithm
0
引
言
软
件缺陷预测指的是通过从历史软件数据中学习出缺陷
预测的模 型
,
然后对新的软件模块进行预测
,
预测其是否有缺
陷
。
如果预测该软件模块有缺陷则对该软件模块分配更多的
软件测试人员
,
这样可以合理地分配测试资源
。
研究者已经
提出了很多软件缺陷预测的方法
[1 - 3]
:
陈翔等
[4]
总结了国内
外
在该研究领域取得的主要成果
,
但这些研究者提出的软件
缺陷预测方法都是基于分类模型
,
即预测软件模块是否有缺
陷
;
文献
[5 - 6]
指出
,
如果采用回归方法预测一个软件模块
存在多少个缺陷时
,
可以优先测试缺陷个数多的模块
,
这样能
够更好地分配测试资源
。
举例来说
,
假如一个软件公司开发了一个包含有
100
个
软件模块的新项目
。
由于项目交付时间提前
,
测试人员有限
,
在项目交付之前只能测试
20
个软件模块
。
因此
,
测试人员首
先基于软件仓库中的历史软件模块数据建立了一个软件缺陷
预测模型或者软件缺陷个数预测模型
;
然后利用预测模型预
测这
100
个软件模块是否有缺陷或有多少个缺陷
。
假设缺陷
预测模型 预测这
100
个软件模块中
30
个软件模块有缺陷
,
由
于在项目交付之前测试人员只能测试
20
个软件模块
,
因此测
试人员不清楚应该测试这
30
个被预测为有缺陷的软件模块
中的哪
20
个软件模块
;
但如果根据软件缺陷个数预测模型的
预测结果
,
测试人员能够基于这
100
个软件模块的缺陷个数
的预测值对这
100
个软件模块进行降序排序
,
优先测试前
20
个软件模块
,
即优先具有更多缺陷的软件模块
,
因此
,
预测软
件缺陷个数相比单纯的预测软件模块是否有缺陷更利于优化
软件测试资源的分配
[7]
。
目前在软
件缺陷个数预测方面已有大量研究
。Rathore
等
[8]
探究了
决策树回归算法在本项目缺陷个数预测模型和
跨项目缺陷个数预测模型的预测性能
,
实验结果表明在采用
绝对误差和相对误差作为评估指标时
,
决策树回归算法有很
好的预测性能
。Wang
等
[9]
提出了利用历史数
据构造缺陷状
态转换模型
,
然后利用马尔可夫链预测将来每种状态下的缺
陷个数
。Afzal
等
[10]
提出了利用基因编
程算法来预测缺陷个
Journal of Computer Applications
计算机应用
,2018,38( 3) : 824 - 828,858
ISSN 1001-9081
CODEN JYIIDU
2018-03-10
http: / /www. joca. cn
下载后可阅读完整内容,剩余5页未读,立即下载
章满莫
- 粉丝: 35
- 资源: 316
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- WebLogic集群配置与管理实战指南
- AIX5.3上安装Weblogic 9.2详细步骤
- 面向对象编程模拟试题详解与解析
- Flex+FMS2.0中文教程:开发流媒体应用的实践指南
- PID调节深入解析:从入门到精通
- 数字水印技术:保护版权的新防线
- 8位数码管显示24小时制数字电子钟程序设计
- Mhdd免费版详细使用教程:硬盘检测与坏道屏蔽
- 操作系统期末复习指南:进程、线程与系统调用详解
- Cognos8性能优化指南:软件参数与报表设计调优
- Cognos8开发入门:从Transformer到ReportStudio
- Cisco 6509交换机配置全面指南
- C#入门:XML基础教程与实例解析
- Matlab振动分析详解:从单自由度到6自由度模型
- Eclipse JDT中的ASTParser详解与核心类介绍
- Java程序员必备资源网站大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功