Boosting代价敏感软件缺陷预测：一种新的方法

需积分: 0 22 浏览量更新于2024-08-05 收藏 682KB PDF 举报

"基于Boosting的代价敏感软件缺陷预测方法" 本文主要探讨了一种基于Boosting的代价敏感软件缺陷预测方法，旨在解决软件开发过程中的缺陷预测问题，尤其是在小样本数据集上的应用。Boosting是一种集成学习技术，通过组合多个弱学习器形成一个强学习器，从而提高预测的准确性。在软件缺陷预测中，传统的Boosting方法可能会遭遇“维数灾难”现象，即随着特征数量的增加，样本空间的复杂度急剧上升，导致学习效果下降。为了解决这一问题，作者提出了随机属性子集选择方法。这种方法通过选取特征子集来降低数据维度，有助于减少过拟合的风险，同时保持模型的预测能力。此外，软件缺陷预测对漏报（未检测出的缺陷）和误报（错误标记为缺陷的正常代码）的惩罚程度不同。考虑到这一特性，作者在属性选择阶段引入了代价敏感算法。代价敏感学习关注不同错误类型的代价差异，可以调整模型以优化特定的代价函数，如降低漏报率而接受一定程度的误报率增加。在实际应用中，该方法采用了多个基本的k-NN（K近邻）预测器作为弱学习器。k-NN是一种简单但有效的监督学习算法，通过找到最近的k个邻居来预测目标变量。通过对每个抽样集的不同数据实例赋予相应的权重，根据代价最小原则确定最优的k值和属性子集，构建了一个自适应的集成k-NN强学习器。这个学习器会根据数据实例的代价敏感权重进行更新，以优化预测性能。实验部分，作者使用NASA数据集进行了验证。结果显示，在小样本情况下，基于Boosting的代价敏感软件缺陷预测方法能够显著降低漏报率，尽管误报率有所增加，但总体性能优于传统的Boosting集成预测方法。这表明该方法在处理软件缺陷预测时，能更好地平衡漏报和误报之间的关系，提供更优的预测效果。关键词: 软件缺陷预测、Boosting、代价敏感、随机属性选择、集成k-NN 中图法分类号: TP311 文献标识码: A DOI: 10.11896/j.is.10.11896/j.is.201708.001 总结来说，本文提出的基于Boosting的代价敏感软件缺陷预测方法结合了降维技术、代价敏感学习和集成学习，尤其适合处理小样本数据集，能有效降低漏报率，提高软件质量保证的效率。

第

４４

卷

第

８

期

２０１７

年

８

月

计算机科学

ＣＯＭＰＵＴＥＲ

ＳＣＩＥＮＣＥ

Ｖｏｌ．４４Ｎｏ．８

Ａｕ

ｇ

．２０１７

到稿日期

：

２０１６

－

０７

－

２７

返修日期

：

２０１６

－

１０

－

２１

本文受十三五重点基础科研项目

（

ＪＣＫＹ２０１６２０６Ｂ００１

），

江苏省六大人才高峰项目

（

ＸＸＲＪ

－

００４

），

软件新技术与产业化协同创新中心资助

。

杨

杰

（

１９９０－

），

男

，

硕士生

，

主要研究方向为系统建模与仿真

，

Ｅ

－

ｍａｉｌ

：

６０４９５７６０８

＠

ｑｑ

．ｃｏｍ

；

燕雪峰

（

１９７５－

），

男

，

博士

，

教授

，

主要研究方向为

软件工程方法论

、

系统建模与仿真等

；

张德平

（

１９７３－

），

男

，

博士

，

讲师

，

主要研究方向为软件测试与软件可靠性建模

。

基于

Ｂｏｏｓｔｉｎ

ｇ

的代价敏感软件缺陷预测方法

杨

杰

燕雪峰

张德平

（

南京航空航天大学计算机科学与技术学院

南京

２１１１０６

）

摘

要

Ｂｏｏｓｔｉｎ

ｇ

重抽样是常用的扩充小样本数据集的方法

，

首先针对抽样过程中存在的维数灾难现象

，

提出随机属

性子集选择方法以进行降维处理

；

进而针对软件缺陷预测对于漏报与误报的惩罚因子不同的特点

，

在属性选择过程中

添加代价敏感算法

。

以多个基本

ｋ

－

ＮＮ

预测器为弱学习器

，

以代价最小为属性删除原则

，

得到当前抽样集的

ｋ

值与属

性子集的预测器集合

，

采用代价敏感的权重更新机制对抽样过程中的不同数据实例赋予相应权值

，

由所有预测器集合

构成自适应的集成

ｋ

－

ＮＮ

强学习器并建立软件缺陷预测模型

。

基于

ＮＡＳＡ

数据集的实验结果表明

，

在小样本情况下

，

基于

Ｂｏｏｓｔｉｎ

ｇ

的代价敏感软件缺陷预测方法预测的漏报率有较大程度降低

，

误报率有一定程度增加

，

整体性能优于

原来的

Ｂｏｏｓｔｉｎ

ｇ

集成预测方法

。

关键词

软件缺陷预测

，

Ｂｏｏｓｔｉｎ

ｇ

，

代价敏感

，

随机属性选择

，

集成

ｋ

－

ＮＮ

中图法分类号

ＴＰ３１１

文献标识码

Ａ

ＤＯＩ

１０．１１８９６

／

ｊ

．ｉｓｓｎ．１００２

－

１３７Ｘ．２０１７．０８．０３１

Ｃｏｓｔ

－

ｓｅｎｓｉｔｉｖｅ

Ｓｏｆｔｗａｒｅ

Ｄｅｆｅｃｔ

Ｐｒｅｄｉｃｔｉｏｎ

Ｍｅｔｈｏｄ

Ｂａｓｅｄ

ｏｎ

Ｂｏｏｓｔｉｎ

ｇ

ＹＡＮＧ

Ｊｉｅ

ＹＡＮ

Ｘｕｅ

－

ｆｅｎ

ｇ

ＺＨＡＮＧ

Ｄｅ

－

ｐ

ｉｎ

ｇ

（

Ｃｏｌｌｅ

ｇ

ｅ

ｏｆ

Ｃｏｍ

ｐ

ｕｔｅｒ

Ｓｃｉｅｎｃｅ

ａｎｄ

Ｔｅｃｈｎｏｌｏ

ｇｙ

，

Ｎａｎ

ｊ

ｉｎ

ｇ

Ｕｎｉｖｅｒｓｉｔ

ｙ

ｏｆ

Ａｅｒｏｎａｕｔｉｃｓ

ａｎｄ

Ａｓｔｒｏｎａｕｔｉｃｓ

，

Ｎａｎ

ｊ

ｉｎ

ｇ

２１１１０６

，

Ｃｈｉｎａ

）

Ａｂｓｔｒａｃｔ

Ｂｏｏｓｔｉｎ

ｇ

ｒｅｓａｍ

ｐ

ｌｉｎ

ｇ

ｉｓ

ａ

ｃｏｍｍｏｎ

ｍｅｔｈｏｄ

ｔｏ

ｅｘ

ｐ

ａｎｄ

ｄａｔａ

ｓｅｔｓ

ｆｏｒ

ｓｍａｌｌ

ｓａｍ

ｐ

ｌｅｓ．Ｆｉｒｓｔｌ

ｙ

，

ａｉｍｉｎ

ｇ

ａｔ

ｄｉｍｅｎｓｉｏｎ

ｄｉｓａｓｔｅｒ

ｐ

ｈｅｎｏｍｅｎｏｎ

ｄｕｒｉｎ

ｇ

ｒｅｓａｍ

ｐ

ｌｉｎ

ｇ

ｐ

ｒｏｃｅｓｓ

，

ａ

ｒａｎｄｏｍｌ

ｙ

ｆｅａｔｕｒｅ

ｓｅｌｅｃｔｉｏｎ

ｍｅｔｈｏｄ

ｉｓ

ｕｓｅｄ

ｔｏ

ｒｅｄｕｃｅ

ｔｈｅ

ｄｉｍｅｎｓｉｏｎｓ．

Ｉｎ

ａｄｄｉｔｉｏｎ

，

ｃｏｎｓｉｄｅｒｉｎ

ｇ

ｔｈｅ

ｃｈａｒａｃｔｅｒｉｓｔｉｃ

ｔｈａｔ

ｓｏｆｔｗａｒｅ

ｄｅｆｅｃｔ

ｐ

ｒｅｄｉｃｔｉｏｎ

’

ｓ

ｐ

ｅｎａｌｔｉｅｓ

ｆｏｒ

ｍｉｓｓｉｎ

ｇ

ｏｆ

ｔｒｕｅ

ｐ

ｏｓｉｔｉｖｅｓ

ａｎｄ

ｔｈｅ

ｗｒｏｎ

ｇ

ｌ

ｙ

ｒｅ

ｐ

ｏｒｔｅｄ

ｏｆ

ｎｅ

ｇ

ａｔｉｖｅｓ

ａｒｅ

ｄｉｆｆｅｒｅｎｔ

，

ｃｏｓｔ

－

ｓｅｎｓｉｔｉｖｅ

ａｌ

ｇ

ｏｒｉｔｈｍ

ｉｓ

ａｄｄｅｄ

ｉｎ

ｆｅａｔｕｒｅ

ｓｅｌｅｃｔｉｏｎ

ｐ

ｒｏｃｅｓｓ．Ｏｎ

ｔｈｅ

ｂａｓｉｓ

ｏｆ

ｍｕｌｔｉ

－

ｎｏｒｍａｌ

ｋ

－

ＮＮ

ｗｅａｋ

ｌｅａｒｎｉｎ

ｇ

，

ｔａｋｉｎ

ｇ

ｍｉｎｉｍｕｍ

ｃｏｓｔｓ

ａｓ

ｔｈｅ

ｐ

ｒｉｎｃｉ

ｐ

ｌｅ

，

ｐ

ｒｅｄｉｔｏｒ

ｗｈｉｃｈ

ｃｏｎｓｉｓｔｓ

ｏｆ

ｋ

ｖａｌｕｅ

ａｎｄ

ａｔｔｒｉ

－

ｂｕｔｅｓ

ｓｕｂｓｅｔ

ｏｆ

ｔｈｅ

ｃｕｒｒｅｎｔ

ｓａｍ

ｐ

ｌｉｎ

ｇ

ｓｅｔ

ｉｓ

ｇ

ｅｔ

，

ｃｏｓｔ

－

ｓｅｎｓｉｔｉｖｅ

ｔｈｅｏｒ

ｙ

ｉｓ

ｉｍ

ｐ

ｏｒｔｅｄ

ｔｏ

ｕ

ｐ

ｄａｔｅ

ｗｅｉ

ｇ

ｈｔ

ｖｅｃｔｏｒ

ｄｕｒｉｎ

ｇ

Ｂｏｏｓｔｉｎ

ｇ

ｒｅｓａｍ

ｐ

ｌｉｎ

ｇ

ｐ

ｒｏｃｅｓｓ

，

ａｎｄ

ｄｉｆｆｅｒｅｎｔ

ｉｎｓｔａｎｃｅｓ

ａｒｅ

ｇ

ｉｖｅｎ

ｃｏｒｒｅｓ

ｐ

ｏｎｄｉｎ

ｇ

ｗｅｉ

ｇ

ｈｔｓ．Ａｎ

ａｄａ

ｐ

ｔｉｖｅ

ｅｎｓｅｍｂｌｅ

ｋ

－

ＮＮ

ｌｅａｒｎｉｎ

ｇ

ｉｓ

ｃｏｎｓｔｒｕｃｔｅｄ

ｕｓｉｎ

ｇ

ａｌｌ

ｔｈｅ

ｐ

ｒｅｄｉｃｔｏｒｓ

，

ａｎｄ

ａ

ｓｏｆｔｗａｒｅ

ｄｅｆｅｃｔ

ｐ

ｒｅｄｉｃｔｉｏｎ

ｍｏｄｅｌ

ｉｓ

ｅｓｔａｂｌｉｓｈｅｄ．Ｔｈｅ

ｒｅｓｕｌｔｓ

ｕｓｉｎ

ｇ

ＮＡＳＡ

’

ｓ

ｄａｔａ

ｓｅｔｓ

ｓｈｏｗ

ｔｈａｔ

ｕｎｄｅｒ

ｔｈｅ

ｃｏｎｄｉｔｉｏｎ

ｏｆ

ｓｍａｌｌ

ｓａｍ

ｐ

ｌｅｓ

，

ｗｉｔｈ

ｔｈｉｓ

ｍｏｄｅｌ

，

ｍｉｓｓｉｎ

ｇ

ｏｆ

ｔｒｕｅ

ｐ

ｏｓｉｔｉｖｅ

ｒａｔｅ

ｒｅｄｕｃｅｓ

ｌａｒ

ｇ

ｅｌ

ｙ

ａｎｄ

ｔｈｅ

ｗｒｏｎ

ｇ

ｌ

ｙ

ｒｅ

ｐ

ｏｒｔｅｄ

ｏｆ

ｎｅ

ｇ

ａｔｉｖｅ

ｒａｔｅ

ｉｎｃｒｅａｓｅｓ

ｔｏ

ｓｏｍｅ

ｅｘｔｅｎｔ．Ｏｎ

ｔｈｅ

ｗｈｏｌｅ

，

ｃｏｍ

ｐ

ａｒｅｄ

ｗｉｔｈ

ｔｈｅ

ｏｒｉ

ｇ

ｅｎ

ｂｏｏｓｔｉｎ

ｇ

－

ｂａｓｅｄ

ｌｅａｒｎｉｎ

ｇ

，

ｔｈｅ

ｍｅｔｈｏｄ

ｏｆ

ｃｏｓｔ

－

ｓｅｎｓｉｔｉｖｅ

ｓｏｆｔｗａｒｅ

ｄｅｆｅｃｔ

ｐ

ｒｅｄｉｃｔｉｏｎ

ｂａｓｅｄ

ｏｎ

ｂｏｏｓｔｉｎ

ｇ

ｒｅａｔｌ

ｙ

ｉｍ

ｐ

ｒｏｖｅｓ

ｔｈｅ

ｐ

ｒｅｄｉｃｔｉｏｎ

ｅｆｆｅｃｔ．

Ｋｅ

ｙ

ｗｏｒｄｓ

Ｓｏｆｔｗａｒｅ

ｄｅｆｅｃｔ

ｐ

ｒｅｄｉｃｔｉｏｎ

，

Ｂｏｏｓｔｉｎ

ｇ

，

Ｃｏｓｔ

－

ｓｅｎｓｉｔｉｖｅ

，

Ｒａｎｄｏｍｌ

ｙ

ｆｅａｔｕｒｅ

ｓｅｌｅｃｔｉｏｎ

，

Ｅｎｓｅｍｂｌｅ

ｋ

－

ＮＮ

１

引言

随着软件技术的发展与软件产业的应用

，

软件的可信性

受到普遍关注

，

软件缺陷预测技术是可信性研究领域中的热

点问题之一

［

１

］

。

合理预测软件缺陷可以有效地帮助测试者快

速定位并弥补软件缺陷

，

从而达到显著减少软件开发成本和

提高软件可信性的效果

。

一般而言

，

软件缺陷预测技术可分为静态和动态两种类

型

［

２

］

，

静态预测主要是指根据缺陷相关的度量数据对缺陷的

数量或分布进行预测

；

而动态预测则是基于缺陷或者失效产

生的时间对系统缺陷随时间的分布进行预测

［

３

］

。

机器学习是

静态预测技术领域中常用的缺陷预测方法

，

经典的学习方法

包括朴素贝叶斯

（

Ｎａｉｖｅ

Ｂａ

ｙ

ｅｓｉａｎ

，

ＮＢ

）

［

４

］

、

支持向量机

（

Ｓｕ

ｐ

－

ｐ

ｏｒｔ

Ｖｅｃｔｏｒ

Ｍａｃｈｉｎｅ

，

ＳＶＭ

）

［

５

］

、

决策树

、

ＢＰ

神经网络

、

随机森

林等

；

近年来

，

随着软件工程在诸多领域中的应用

，

建立在上

述学习算法之上的跨项目软件缺陷预测成为了研究热点

，

基

于迁移学习的软件缺陷预测方法

［

６

］

也因此被提出

。

由于大部

分经典学习算法对于被测数据有严格的限制

，

将其应用于软

件缺陷预测取得的效果并不理想

，

因此国内外学者对其进行

了一系列的改进

，

如文献

［

７

］

利用条件概率查找出属性间的依

下载后可阅读完整内容，剩余5页未读，立即下载

王者丶君临天下

粉丝: 21

Boosting代价敏感软件缺陷预测：一种新的方法

基于Boosting的集成k_NN软件缺陷预测方法_何亮1

ImVoteNet_Boosting_3D_Object_Detection_in_Point_Cloud.pdf

boosting算法描述.zip_7J4_boosting MATLAB_boosting算法_matlab_matlab b

OCD--code.zip_boosting BP_ocd matlab_变压器_神经网络集成_集成学习matlab

基于Boosting-PLS回归的页岩总含气量预测方法

基于Boosting算法的人脸识别方法研究

电信设备-一种基于Boosting分类算法的信息检索方法.zip

Boosting方法的理论研究_高尉_高尉南京大学_机器学习_drinksgo_Boosting方法的理论研究_高尉_学习理论_

机器学习预测软件可靠性_strongergng_机器学习_可靠性软件_预测_

基于SVM支持向量机算法的降水量预测模型代码_SVM_SVM预测_blues1l_基于SVM支持向量机对降水量的预测_降水、_源

最新资源