HFS：提升软件缺陷预测模型性能的混合特征选择方法

需积分: 25 193 浏览量更新于2024-09-08 1 收藏 992KB PDF 举报

"这篇论文提出了一种名为HFS的混合特征选择方法，旨在优化软件缺陷预测过程中的特征选择。HFS方法通过两阶段策略去除无关和冗余特征，以提高预测模型的性能。首先，利用特征子集评估器来消除无关特征和冗余特征，然后借助特征排序评估器进一步剔除剩余的无关特征。实证研究表明，HFS方法在多个实际开发项目的数据集上，对比NONE、CFS和CAR三种传统方法，表现出更好的性能。特别是在使用决策树作为分类器的情况下，HFS能选择出规模更小但更有效的特征子集，从而提高预测准确性和模型效率。该研究得到了国家自然科学基金等多个项目的资助，并由几位研究人员共同完成，他们的主要研究方向集中在软件缺陷预测领域。" 在软件质量保障的过程中，软件缺陷预测是至关重要的一步，它可以帮助开发者提前识别并修复潜在的错误，从而提高软件的可靠性。然而，大量的特征（度量元）可能导致数据集中包含很多冗余或无关特征，这会降低预测模型的精度。HFS（Hybrid Feature Selection）方法应运而生，它是一种针对软件缺陷预测的特征选择策略。 HFS方法分为两个阶段。第一阶段，特征子集评估器被用来评估每个特征对预测目标的重要性，通过比较和分析，删除那些对预测结果影响不大的无关特征和与其他特征高度相关的冗余特征。这一阶段旨在减少特征集合中的噪声和重复性，以提升模型的简洁性和解释性。第二阶段，特征排序评估器进一步对剩余特征进行分析，依据特征与目标变量的相关性进行排序，去除那些仍然被认为是无关的特征。这一阶段的目标是精简特征集，确保每个保留下来的特征都能为模型提供独特的信息，增强模型的预测能力。实证研究部分，研究人员使用了多种实际开发项目的数据集，并对比了HFS方法与NONE（无特征选择）、CFS（基于相关性的特征选择）和CAR（基于卡方检验的特征选择）等传统方法。实验结果显示，HFS在大多数情况下能产生更小的特征子集，并且在决策树、支持向量机和最近邻等不同类型的分类器上，特别是在决策树分类器下，HFS的预测性能有显著提升。这项研究的意义在于，它提供了一种有效减少特征复杂性的工具，对于构建高效、准确的软件缺陷预测模型具有实际应用价值。同时，HFS方法的提出也为软件质量保障领域的研究提供了新的思路和技术支持。

展开