基于样本特性的新型过采样SVM分类算法研究

24 浏览量更新于2024-08-29 收藏 626KB PDF 举报

基于不平衡数据样本特性的新型过采样SVM分类算法本文介绍了一种基于样本特性的新型过采样方式，旨在解决传统采样方式的准确率和鲁棒性不够明显的问题。该方法首先对原始数据集进行距离带的划分，然后提出一种改进的基于样本特性的自适应变邻域Smote算法，在每个距离带的少数类样本中进行新样本的合成。最后利用SVM分类器进行实验验证，结果表明：在6类不平衡数据集中，应用新型过采样SVM算法，相比已有的采样方式，少(多)数类样本的分类准确率均有明显提高，且算法具有更强的鲁棒性。在数据挖掘和机器学习领域中，不平衡数据集是指正负类样本之间存在明显差异的数据集，例如Pima-Indians数据集。这种不平衡数据集会导致传统采样方式的准确率和鲁棒性不够明显，欠采样容易丢失重要的样本信息，而过采样容易引入冗杂信息。因此，提出一种基于样本特性的新型过采样方式，以提高分类准确率和鲁棒性。该方法的主要步骤包括： 1. 对原始数据集进行距离带的划分，划分出不同的距离带。 2. 在每个距离带的少数类样本中进行新样本的合成，使用改进的基于样本特性的自适应变邻域Smote算法。 3. 将新合成的样本与原始样本结合，构成新的数据集。 4. 使用SVM分类器对新的数据集进行分类，评估分类准确率和鲁棒性。实验结果表明，基于样本特性的新型过采样SVM算法在6类不平衡数据集中比已有的采样方式具有更高的分类准确率和鲁棒性。该方法可以广泛应用于不平衡数据集的分类问题中，提高分类模型的准确率和鲁棒性。该方法的优点包括： 1. 提高分类准确率：基于样本特性的新型过采样方式可以提高少数类样本的分类准确率，减少分类错误。 2. 提高鲁棒性：该方法可以提高分类模型的鲁棒性，减少过拟合和欠拟合的可能性。 3. 广泛应用：该方法可以广泛应用于不平衡数据集的分类问题中，提高分类模型的准确率和鲁棒性。本文提出了一种基于样本特性的新型过采样方式，旨在解决传统采样方式的准确率和鲁棒性不够明显的问题。实验结果表明，基于样本特性的新型过采样SVM算法可以提高分类准确率和鲁棒性，具有广泛的应用前景。

第 33卷第 9期控制与决策 Vol.33 No.9

2018年 9月 Control and Decision Sep. 2018

文章编号: 1001-0920(2018)09-1549-10 DOI: 10.13195/j.kzyjc.2017.0649

基于不平衡数据样本特性的新型过采样SVM分类算法

黄海松

†

, 魏建安, 康佩栋

(贵州大学现代制造技术教育部重点实验室，贵阳 550025)

摘要: 针对传统采样方式准确率与鲁棒性不够明显, 欠采样容易丢失重要的样本信息, 而过采样容易引入冗杂

信息等问题, 以UCI公共数据集中的不平衡数据集 Pima-Indians为例, 综合考虑数据集正负类样本的类间距离、类

内距离与不平衡度之间的关系, 提出一种基于样本特性的新型过采样方式. 首先对原始数据集进行距离带的划

分, 然后提出一种改进的基于样本特性的自适应变邻域 Smote 算法, 在每个距离带的少数类样本中进行新样本的

合成, 并将此方式推广到 UCI 数据集中其他 5 种不平衡数据集. 最后利用 SVM 分类器进行实验验证的结果表明:

在6 类不平衡数据集中, 应用新型过采样SVM算法,相比已有的采样方式,少(多)数类样本的分类准确率均有明显

提高,且算法具有更强的鲁棒性.

关键词: 数据集不平衡；样本距离；ANBSC-Smote过采样；数据集重构；支持向量机

中图分类号: TP273 文献标志码: A

New over-sampling SVM classiﬁcation algorithm based on unbalanced

data sample characteristics

HUANG Hai-song

†

, WEI Jian-an, KANG Pei-dong

(Key Laboratory of Advanced Manufacturing Technology of Ministry of Education，Guizhou University，Guiyang 550025，

China)

Abstract: Aiming at the problem that the accuracy and robustness of the traditional sampling methods are not obvious,

under-sampling is easy to lose important sample information, and oversampling is easy to introduce redundant information,

the Pima-Indians dataset in the UCI common unbalanced datasets is taken as an example to consider the relationship

between the distance within classes, the distance within classes and the imbalance, therefore, a new type oversampling

method based on sample characteristics is presented. Firstly, the algorithm divides the original data set into some distance

belts. Then an improved adaptive neighborhood neighborhood(Smote) algorithm based on sample characteristics is

proposed to synthesize new samples in each class with several samples, and is extended to other ﬁve unbalanced data sets

of UCI dataset. Finally, experiments are conducted using the traditional SVM classiﬁer, and the results show that, in the

six categories of unbalanced data sets, compared with the existing sampling method, the proposed algorithm improves

the classiﬁcation accuracy of the minority or majority class samples, and has stronger robustness.

Keywords: unbalanced datasets；sample distance；ANBSC-Smote oversampling；datasets reconstuction；SVM

0 引言

大数据时代, 随着数据的爆炸式增长, 信息量成

指数累增,这些数据集包括平衡数据集和不平衡数据

集. 而在现实生产生活中, 更多且更具研究意义的是

那些不平衡数据集

[1-2]

, 其分类研究也是近些年的研

究热点, 例如信用卡欺诈、医疗诊断、机械故障诊断

等

[3-7]

目前, 可以从以下两个方面解决不平衡数据的

分类问题: 1)在数据层面上, 利用欠 (过) 采样方式或

者内插的方式进行数据的重构, 使数据集达到平衡;

2)在算法层面上,通过改进分类器算法以提高对少数

类数据的识别,比如引入代价函数、集成学习、单类学

收稿日期: 2017-05-25；修回日期: 2017-09-29.

基金项目: 贵州工业攻关重点项目 (黔科合 GZ 字 [2015]3009)；贵州省自然科学基金项目(黔科合J字[2015]2043)；贵

州省重大专项项目 (黔科合 JZ 字[2014]2001)；贵州省教育厅项目(黔教合协同创新字 [2015]02)；贵州大

学研究生创新基金项目(研理工2017037).

责任编委: 阳春华.

作者简介: 黄海松 (1977−), 女, 教授, 从事智能制造、制造业信息化等研究；魏建安(1992−), 男, 硕士生, 从事智能

制造、机器学习的研究.

†

通讯作者. E-mail: 1046534381@qq.com

下载后可阅读完整内容，剩余9页未读，立即下载

weixin_38684633

粉丝: 5

基于样本特性的新型过采样SVM分类算法研究

SVM分类算法C代码

4.SVM分类算法_分类算法_SVM_

基于ODR和BSMOTE结合的不均衡数据SVM分类算法

基于深度集成学习的类极度不均衡数据信用欺诈检测算法.pdf

基于数据挖掘的孤岛检测整定阈值优化.pdf

提升不均衡数据SVM分类：随机下采样与SMOTE结合策略

改进的ODR+BSMOTE方法提升不均衡数据SVM分类

麻雀算法优化SVM分类器性能研究

HB_SMOTE：一种改进的非平衡数据SVM训练方法

【处理不均衡数据】：如何在SVM支持向量机中处理不均衡数据

最新资源