基于错分的混合采样非平衡数据集分类算法
需积分: 32 141 浏览量
更新于2024-09-10
收藏 1.05MB PDF 举报
"这篇论文研究了非平衡数据集分类的问题,提出了一种基于错分的混合采样算法,旨在解决传统过采样方法可能导致决策域缩小和噪声点增多的挑战。该算法结合了SVM(支持向量机)作为元分类器和AdaBoost算法进行迭代,针对每次被错分的样本点,依据其空间近邻关系,采用不同的处理策略。对于噪声样本,直接删除;对于危险样本,减少其近邻中的正类样本;对于安全样本,则利用SMOTE(Synthetic Minority Over-sampling Technique)算法合成新样本。通过在真实数据集上的实验,该方法相较于SMOTE-SVM和AdaBoost-SVM-OBMS算法,显示出了提高负类分类准确率的效果。"
这篇研究论文探讨了非平衡数据集分类的难题,即当过采样用于增加少数类样本时,可能会导致决策边界收缩以及噪声样本的增加。为了解决这个问题,研究者提出了一种创新的混合采样策略,该策略基于样本的错分情况。在算法设计中,他们利用支持向量机(SVM)作为基础分类器,结合AdaBoost的迭代框架,对错分的样本进行精细化处理。
首先,对于被错误分类为多数类的噪声样本,算法会直接将其删除,以避免这些不准确的样本对模型训练的干扰。其次,对于那些位于决策边界附近的“危险”样本,算法会减少它们近邻中的正类样本,这有助于扩大决策区域,减少误分类的可能性。最后,对于远离决策边界的“安全”样本,研究者应用SMOTE算法来合成新的少数类样本,这些合成样本将被添加到训练集中,以增强模型对少数类的识别能力。
实验部分,该论文对比了提出的混合采样算法与两种常见的处理非平衡数据集的方法:SMOTE-SVM(SMOTE过采样后用SVM训练)和AdaBoost-SVM-OBMS(基于AdaBoost和One-Class Borderline Sampling的SVM)。实验结果显示,所提出的混合采样策略在提升负类(少数类)的分类准确率方面表现出显著优势。
这篇论文的研究成果对于处理现实世界中的非平衡数据集问题具有重要的理论和实践价值,特别是在数据挖掘和机器学习领域。它提供了一种有效且有针对性的策略,能够在不增加噪声或过度收缩决策域的情况下,优化非平衡数据集的分类性能。
2019-08-22 上传
2019-07-22 上传
2019-09-12 上传
2019-07-22 上传
2019-07-22 上传
2019-07-22 上传
2019-09-11 上传
weixin_39840387
- 粉丝: 789
- 资源: 3万+
最新资源
- JDK 17 Linux版本压缩包解压与安装指南
- C++/Qt飞行模拟器教员控制台系统源码发布
- TensorFlow深度学习实践:CNN在MNIST数据集上的应用
- 鸿蒙驱动HCIA资料整理-培训教材与开发者指南
- 凯撒Java版SaaS OA协同办公软件v2.0特性解析
- AutoCAD二次开发中文指南下载 - C#编程深入解析
- C语言冒泡排序算法实现详解
- Pointofix截屏:轻松实现高效截图体验
- Matlab实现SVM数据分类与预测教程
- 基于JSP+SQL的网站流量统计管理系统设计与实现
- C语言实现删除字符中重复项的方法与技巧
- e-sqlcipher.dll动态链接库的作用与应用
- 浙江工业大学自考网站开发与继续教育官网模板设计
- STM32 103C8T6 OLED 显示程序实现指南
- 高效压缩技术:删除重复字符压缩包
- JSP+SQL智能交通管理系统:违章处理与交通效率提升