欠抽样与集成决策树提升软件缺陷预测精度

需积分: 9 0 下载量 136 浏览量 更新于2024-08-12 收藏 427KB PDF 举报
本文主要探讨了"结合欠抽样与集成的软件缺陷预测"这一主题,针对软件开发过程中常见的问题——类不平衡数据,提出了创新的预测模型。软件缺陷预测对于提高测试效率和保证软件质量至关重要,而传统的预测方法在处理类不平衡数据时可能会导致预测性能下降,特别是误报率(False Positive Rate, FP)较高。 研究者李勇首先认识到类不平衡数据的问题,即数据集中正负样本数量严重不均衡,这可能导致预测模型倾向于预测占多数的类别,从而降低对少数类别的敏感性。为了解决这个问题,他采用了欠抽样策略。欠抽样是指从多数类中选择部分样本,使得各类别样本的数量趋于平衡,这样可以避免过拟合并提高少数类的代表性。 接着,作者借鉴了Bagging(Bootstrap Aggregating)集成学习的思想,通过随机抽样训练多个决策树子分类器。Bagging是一种并行化的学习方法,通过构建多个独立且有差异的模型,最终通过投票或平均等方式整合,以增强预测的稳定性和准确性。 在训练过程中,每个决策树模型都是基于重新平衡后的数据集,这样可以减少模型对多数类的过度依赖。当所有子分类器训练完成后,依据少数服从多数的原则,对新的测试样本进行预测,即将各个子分类器的预测结果汇总,形成集成模型。 为了验证模型的有效性,研究者利用NASA公开的软件缺陷预测数据集进行了仿真实验。实验结果显示,与传统的预测方法相比,结合欠抽样与集成的模型在保持预报率(Precision, P)的同时,显著降低了误报率(False Positive Rate, PF),提升了综合评价指标,包括召回率(Recall)、F1分数等。这意味着提出的模型在识别潜在缺陷方面更为精确,减少了无效测试的成本,并提高了软件质量保证的效率。 这篇论文提出了一个有效的软件缺陷预测模型,特别适用于处理类不平衡数据,它通过欠抽样技术和集成学习策略,提高了软件缺陷检测的准确性和稳定性,为软件测试和质量控制提供了新的方法。