使用阈值SMOTE和属性袋ging处理不平衡数据集

0 下载量 180 浏览量 更新于2024-08-27 1 收藏 791KB PDF 举报
"这篇研究论文探讨了如何应用阈值SMOTE算法与属性集成(Attribute Bagging)来处理不平衡数据集的问题。作者提出了三种基于超网络的模型:集成成本敏感超网络(EN-CS-HN)、集成成本敏感超网络与欠采样(EN-CS-HN-UND)以及集成成本敏感超网络与合成少数类过采样技术(EN-CS-HN-SMOTE),以解决传统机器学习算法在处理类别不平衡问题时的偏差问题。通过在十个不平衡数据集上的实验,验证了这些方法的有效性。" 在实际的机器学习任务中,不平衡数据集是一个常见的挑战。不平衡数据指的是不同类别的样本数量差距悬殊,比如在一个二分类问题中,正类样本远远少于负类样本。这种情况会导致模型在训练过程中偏向于预测数量多的类别,即多数类,从而忽视少数类,降低了模型的预测准确性和泛化能力。 超网络是一种受到生物分子网络启发的概率图形模型,它能发现多个属性之间的高阶关联。然而,像许多传统的机器学习算法一样,超网络在处理不平衡数据集时也会倾向于多数类,从而对少数类的预测效果不佳。 针对这个问题,该论文提出了一种新的方法,即结合阈值SMOTE(Threshold SMOTE)算法和属性集成(Attribute Bagging)。阈值SMOTE是SMOTE(Synthetic Minority Over-sampling Technique)的一种变体,通过创建合成样本来增加少数类样本的数量,同时避免过拟合。属性集成则是一种策略,通过随机选取部分特征来构建子集,每个子集上训练一个模型,最后将这些模型集成,以提高模型的稳定性和泛化能力。 论文中提出的三种超网络模型都考虑了成本敏感学习(Cost-Sensitive Learning)的概念,这意味着模型在训练时会根据错误分类不同类别的代价来调整权重,以减轻对少数类的忽视。EN-CS-HN引入了成本敏感机制;EN-CS-HN-UND结合了欠采样,减少多数类样本以平衡数据分布;EN-CS-HN-SMOTE则采用SMOTE过采样来增强少数类样本。 通过在十个不平衡数据集上进行实验,这三种方法的性能得到了评估。实验结果表明,这些模型在保持整体分类性能的同时,显著提升了对少数类的识别能力,验证了所提方法的有效性。这对于实际应用中的不平衡数据集问题具有重要的理论和实践意义。