信息增益与特征频率结合的软件特征选择方法

需积分: 9 0 下载量 15 浏览量 更新于2024-08-10 收藏 594KB PDF 举报
"基于信息增益的软件特征技术 (2014年) 是一篇由李菲菲和周清雷合著的论文,该研究受到国家自然科学基金资助。论文主要探讨了如何利用信息增益来改进软件特征的选择方法,旨在提取更有效的特征。作者指出传统的k-gram方法存在局限,可能导致特征分布不均衡的问题。为了解决这个问题,他们提出了一个基于信息增益的改进算法,引入特征频率的概念,以增强特征选择的准确性和稳定性。 信息增益是一种在特征选择中常用的评估标准,它衡量的是一个特征对于目标变量(如分类或预测结果)的不确定性减少程度。在软件特征技术中,信息增益可以帮助识别那些能最好地区分不同软件类别或状态的特征。然而,单纯依赖信息增益可能会忽略特征碎片的词频,即某些频繁出现但并不重要的特征可能会被过度重视,导致特征分布不均匀。 论文中,作者通过结合特征频率,对信息增益进行修正,旨在更公平地考虑每个特征的重要性。这种方法可以防止因忽视特征频率而导致的误选,并有望提高软件特征提取的性能。实验结果显示,这种基于信息增益并考虑特征频率的方法表现出良好的可信性和鲁棒性,与现有方法相比具有显著优势。 关键词涉及特征提取、特征选择、信息增益以及特征频率,表明这篇论文关注的是在软件工程领域如何优化特征表示和选择的过程,这对于提升软件分析、故障检测、性能优化等任务的效率具有重要意义。论文的分类号和文章编号表明其属于计算机科学和技术领域的研究成果,而DOI(数字对象标识符)则提供了在线获取该论文的途径。 这篇2014年的研究工作为软件特征技术提供了一个创新的视角,通过改进信息增益策略,提高了特征选择的质量,对于后续的软件工程研究和实践具有参考价值。"
2024-10-26 上传