改进的ODR+BSMOTE方法提升不均衡数据SVM分类

34 浏览量更新于2024-08-31 1 收藏 241KB PDF 举报

本文主要探讨了在处理不均衡数据集时改进支持向量机(SVM)算法的有效方法。传统的SVM在面对数据分布严重偏斜，即多数类样本数量远大于少数类样本的情况时，其分类性能往往不尽人意。为了提升SVM在不均衡数据集上的表现，研究者提出了一个基于逐级优化递减欠采样(ODR)和边界人工少数类过采样(Boundary-SMOTE)相结合的新型算法。逐级优化递减欠采样算法的核心在于首先识别并剔除样本集中大量的冗余和噪声数据，这些数据在不均衡情况下可能对模型的学习造成干扰。通过减少样本量，算法试图保持数据的代表性，确保关键特征和信息得以保留。这种方法旨在减少对多数类的过度关注，从而重新平衡数据集，使得少数类样本在训练过程中得到更多关注。另一方面，边界人工少数类过采样策略（如BSMOTE）则用于增加少数类样本的数量，特别是在决策边界附近，这样可以增强模型对少数类的敏感性，提高分类的精确度。这两种策略的结合，既解决了数据不均衡问题，又提高了SVM在少数类分类中的性能。实验结果证实了这种新型算法的有效性。它不仅显著提升了SVM在处理不均衡数据时对少数类的识别能力，同时也提高了整体的分类准确性和鲁棒性。因此，对于实际应用中的不平衡数据集，如文本分类、图像识别等领域，这种基于ODR和BSMOTE的SVM分类算法具有重要的实用价值和理论意义。本文提出了一种创新的策略，通过优化数据采样过程和增强少数类样本处理，来改善SVM在处理不均衡数据集时的表现，为解决实际问题提供了有力的工具和技术支持。在未来的研究中，这将有助于进一步探索和优化不平衡数据学习的策略，推动机器学习领域的发展。

第 26 卷第 10 期

Vol. 26 No. 10

控制与决策

Control and Decision

2011 年 10 月

Oct. 2011

基于 ODR 和 BSMOTE 结合的不均衡数据 SVM 分类算法

文章编号: 1001-0920 (2011) 10-1535-07

陶新民, 童智靖, 刘玉, 付丹丹

(哈尔滨工程大学信息与通信工程学院，哈尔滨 150001)

摘要: 针对传统的支持向量机 (SVM) 算法在数据不均衡的情况下分类效果不理想的缺陷, 为了提高 SVM 算法在

不均衡数据集下的分类性能, 提出一种新型的逐级优化递减欠采样算法. 该算法去除样本中大量重叠的冗余和噪声

样本, 使得在减少数据的同时保留更多的有用信息, 并且与边界人工少数类过采样算法相结合实现训练样本数据集

的均衡. 实验表明, 该算法不但能有效提高 SVM 算法在不均衡数据中少数类的分类性能, 而且总体分类性能也有所

提高.

关键词: 不均衡数据；支持向量机算法；边界人工少数类过采样算法；逐级优化递减

中图分类号: TP18 文献标识码: A

SVM classiﬁer for unbalanced data based on combination of ODR and

BSMOTE

TAO Xin-min, TONG Zhi-jing, LIU Yu, FU Dan-dan

(College of Information and Communication Engineering，Harbin Engineering University，Harbin 150001，China.

Correspondent：TAO Xin-min，E-mail：taoxinmin@hrbeu.edu.cn)

Abstract: The classiﬁcation result of classical support vector machine(SVM) algorithm in the case of unbalanced data

set is not satisfactory. In order to improve the SVM algorithm’s classiﬁcation performance under unbalanced data set,

a novel under-sampling algorithm based on optimization of decreasing reduction(ODR) is presented. The algorithm is

applied to under-sample the majority class instances for removal of a large number of overlapping samples of redundant

and noise samples, which consequently makes reservations for the majority class instances with more useful information,

and the ODR under-sampling algorithm is combined with border synthetic minority over-sample technique(BSMOTE) to

achieve a balanced training sample data set. The experimental results show that the proposed method can not only improve

classiﬁcation performance of SVM in the minority class data, but also increase the overall classiﬁcation performance.

Key words: unbalanced data；support vector machine；BSMOTE；optimization of decreasing reduction

1 引引引言言言

支持向量机 (SVM) 是以统计学习理论为基础的

一种新型机器学习方法

[1]

. 它克服了神经网络和传统

分类器过学习、局部极值点和维数灾难等诸多缺点,

具备较强的泛化能力, 目前已成为机器学习领域的一

个新的研究热点.

由于 SVM 方法属于有监督分类算法, 需要数目

相同的不同类别样本进行训练才能获得较好的泛化

能力. 但是, 现实生活中的很多数据样本均是不均衡

的, 例如商业欺诈

[2]

、疾病诊断

[3]

、文本分类

[4]

等数据

集. 针对不均衡数据集进行分类时, 各个类别的样本

数目存在较大的差异, 导致不同类别的样本对于训练

算法提供的信息不对称, 使得利用 SVM 算法处理不

均衡数据时

[5]

, 训练后得到的分类面会向少数类样本

偏移, 从而使 SVM 过度拟合多数类样本点而低估了

少数类样本点, 导致算法错分率增大. 因此, 如何实现

SVM 算法在不均衡数据下的正确分类便成为众多学

者关注的重点.

目前, 提高不均衡数据下 SVM 算法性能的研究

主要集中在算法层面和数据层面. 算法层面的方法是

指对分类算法本身进行操作, 即修改已有的分类算法

或者提出新的算法. 对于已有的算法, 通过调节不同

收稿日期: 2010-05-27；修回日期: 2010-07-26.

基金项目: 国家自然科学基金项目(61074076)；中国博士后科学基金项目(20090450119)；中国博士点新教师基金项目

(20092304120017)；黑龙江省博士后基金项目(LBH-Z08227).

作者简介: 陶新民(1973−), 男, 副教授, 从事智能信号处理、智能计算等研究；童智靖(1986−), 男, 硕士生, 从事模式识

别的研究.

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38631599

粉丝: 9
资源: 943

改进的ODR+BSMOTE方法提升不均衡数据SVM分类

SMOTE结合SVM算法matlab实现

基于ODR和BSMOTE结合的不均衡数据SVM分类算法

ODR-DabMod:ODR-DabMod是DAB（数字音频广播）调制器，是ODR-mmbTools的一部分

MATLAB例程：从DOR_VOR文件生成ODR数据记录

MATLAB源码：DOR_VOR转ODR数据处理及视觉应用

STM32F103VET6 GPIO_IDR数据寄存器和GPIO_ODR数据寄存器

ODR和IDR寄存器的使用

STM32的端口输出数据寄存器ODR

stm32f103的ODR和IDR

CRL和ODR是什么意思

最新资源