改进型GA-SMOTE算法提升不平衡数据集分类性能

需积分: 37 11 下载量 66 浏览量 更新于2024-08-22 5 收藏 453KB PDF 举报
本文主要探讨了"面向不平衡数据集的改进型SMOTE算法"(Improved SMOTE Algorithm for Imbalanced Datasets),由王超学、张涛和马春森在2014年发表于《计算机科学与探索》期刊。SMOTE是一种广泛用于解决机器学习中类别不平衡问题的合成少数类过采样技术。然而,原始的SMOTE算法在合成少数类样本时存在一些局限性,比如可能导致过拟合或新样本生成的质量不稳定。 作者们针对这些问题,提出了一个改进的算法GA-SMOTE,即遗传算法辅助的SMOTE。他们将遗传算法中的关键元素——选择算子、交叉算子和变异算子——融入SMOTE中。选择算子使得少数类样本的选择更具策略性,有助于避免过度采样导致的问题。交叉和变异算子则用来控制合成样本的质量,确保生成的新样本既多样又符合实际分布。 通过引入遗传算法,GA-SMOTE能够生成更加稳健且代表性的少数类样本,这对于提高不平衡数据集上分类模型的性能至关重要。作者们选择将改进后的算法与支持向量机(SVM)相结合,因为SVM对于小型和噪声数据集有良好的表现。实验结果显示,在UCI数据集上的应用,GA-SMOTE在新样本的整体合成效果上表现出色,显示出它在处理不平衡数据分类任务中的优越性。 此外,论文详细介绍了作者们的联系方式,包括电子邮件地址、通讯地址以及研究机构的联系信息,以便于读者进一步交流和获取更多研究细节。这篇论文为解决机器学习中的不平衡数据问题提供了一个创新且实用的方法,对提高分类任务的性能具有重要意义。