基于错分的混合采样非平衡数据集分类算法

需积分: 32 2 下载量 77 浏览量 更新于2024-09-10 收藏 1.05MB PDF 举报
"这篇论文研究了非平衡数据集分类的问题,提出了一种基于错分的混合采样算法,旨在解决传统过采样方法可能导致决策域缩小和噪声点增多的挑战。该算法结合了SVM(支持向量机)作为元分类器和AdaBoost算法进行迭代,针对每次被错分的样本点,依据其空间近邻关系,采用不同的处理策略。对于噪声样本,直接删除;对于危险样本,减少其近邻中的正类样本;对于安全样本,则利用SMOTE(Synthetic Minority Over-sampling Technique)算法合成新样本。通过在真实数据集上的实验,该方法相较于SMOTE-SVM和AdaBoost-SVM-OBMS算法,显示出了提高负类分类准确率的效果。" 这篇研究论文探讨了非平衡数据集分类的难题,即当过采样用于增加少数类样本时,可能会导致决策边界收缩以及噪声样本的增加。为了解决这个问题,研究者提出了一种创新的混合采样策略,该策略基于样本的错分情况。在算法设计中,他们利用支持向量机(SVM)作为基础分类器,结合AdaBoost的迭代框架,对错分的样本进行精细化处理。 首先,对于被错误分类为多数类的噪声样本,算法会直接将其删除,以避免这些不准确的样本对模型训练的干扰。其次,对于那些位于决策边界附近的“危险”样本,算法会减少它们近邻中的正类样本,这有助于扩大决策区域,减少误分类的可能性。最后,对于远离决策边界的“安全”样本,研究者应用SMOTE算法来合成新的少数类样本,这些合成样本将被添加到训练集中,以增强模型对少数类的识别能力。 实验部分,该论文对比了提出的混合采样算法与两种常见的处理非平衡数据集的方法:SMOTE-SVM(SMOTE过采样后用SVM训练)和AdaBoost-SVM-OBMS(基于AdaBoost和One-Class Borderline Sampling的SVM)。实验结果显示,所提出的混合采样策略在提升负类(少数类)的分类准确率方面表现出显著优势。 这篇论文的研究成果对于处理现实世界中的非平衡数据集问题具有重要的理论和实践价值,特别是在数据挖掘和机器学习领域。它提供了一种有效且有针对性的策略,能够在不增加噪声或过度收缩决策域的情况下,优化非平衡数据集的分类性能。