MICHAC:基于最大信息系数和层次聚类的特征选择在缺陷预测中的应用

需积分: 40 2 下载量 126 浏览量 更新于2024-08-26 收藏 271KB PDF 举报
"MICHAC是一种基于最大信息系数和分层聚类的特征选择方法,用于软件缺陷预测。该方法旨在通过筛选和去除不相关及冗余特征,提高缺陷预测的准确性。MICHAC由两阶段组成:首先使用最大信息系数评估特征的相关性,然后通过分层聚类对特征进行聚类并选择代表性特征。通过在11个NASA项目和4个开源AEEEM项目上的实验,MICHAC展示出有效的特征选择能力,并在精度、召回率、F度量和AUC等指标上进行了评估。" MICHAC(Maximal Information Coefficient with Hierarchical Agglomerative Clustering for Defect Prediction)是针对软件缺陷预测问题提出的一种新方法。缺陷预测是软件工程中的关键任务,它依赖于从历史缺陷数据中提取的多种特征,如代码复杂性、变更频率等。然而,这些特征可能存在不相关或冗余的问题,影响预测模型的性能。 MICHAC的运作机制分为两个主要步骤。第一步,利用最大信息系数(Maximal Information Coefficient, MIC),这是一种衡量两个变量间关系强度的统计量,对所有候选特征进行排序。MIC能够检测非线性和复杂的关联,因此能有效地识别出与缺陷相关性强的特征,而将不相关的特征排除。 第二步,MICHAC采用分层聚类(Hierarchical Agglomerative Clustering, HAC)对特征进行聚类。这种方法自底向上地组合相似的特征,形成一个层次结构。通过这种方式,可以识别出特征之间的冗余,每个聚类中选取一个代表性的特征,从而去除冗余,保留最能反映软件缺陷模式的特征集合。 为了验证MICHAC的有效性,研究人员在11个NASA项目和4个开源AEEEM项目的数据集上进行了实验。他们使用了四种不同的分类器(未在摘要中具体指明),并评估了四种性能指标:精度、召回率、F1量度和曲线下面积(AUC)。通过对这些指标的分析,MICHAC与其他五种现有的特征选择方法进行了对比,结果表明MICHAC在特征选择方面表现出色,有助于提升软件缺陷预测的准确性和效率。 总结来说,MICHAC是一个创新的特征选择框架,它结合了最大信息系数的关联分析能力和分层聚类的特征聚合能力,为软件缺陷预测提供了更高效、更准确的特征预处理方法。通过减少不相关和冗余特征,MICHAC可以优化模型性能,从而提高软件的可靠性评估。这对于软件开发团队而言,具有重要的实践意义,能够帮助他们在早期发现并修复潜在的软件缺陷,降低维护成本。