第
31
卷第
5
期
2013
年
9
月
佛山科学技术学院学报(自然科学版)
lournal of Foshan University (Natural Science
Ed
ition)
文章编号
:1008-0171(2013)05-0022-05
改进随机子空间与决策树相结合的
不平衡数据分类方法
胡小生
〈佛山科学技术学院电子与信息工程学院,广东佛山
528000)
Vo
l.
31
No. 5
Sep.
2013
摘要:提出一种改进随机子空间与
C4.5
决策树算法相结合的分类算法。以
C4.5
算法构建决策树作为集成学
习的基分类器,每次迭代初始,将
SMOTE
采样技术与随机子空间方法相结合,生成在特征空间和数据分布上
差异明显的合成样例,为基分类器提供多样化的平衡训练数据集,采用绝大多数投票方法进行最终决策的融合
输出。实验结果表明,该方法对少数类和多数类均具有较高的识别率。
关键词
z
不平衡数据分类;随机子空间方法;决策树;集成学习
中图分类号
:TP18
文献标志码
:A
近年来,不平衡数据分类问题成为机器学习和数据挖掘领域的研究热点。不平衡数据集中的某些类
数量远远大于其他类别的数量,其中类别数量多的为多数类(通常称为负类)
,类别数量少的为少数类
(通常称为正类)。在医疗诊断、人侵检测以及欺诈检测等领域广泛存在着不平衡数据集,在处理过程中,
少数类的识别准确率更为重要,有较高的错分代价,而传统的分类算法假定数据集具有平衡类分布或者
相等的错分代价,为保证分类总体精度,通常将少数类划分到多数类来保证整体的分类准确率
f11
,导致
给出不能令人满意的实际分类效果。
目前,不平衡数据分类问题的解决策略分为两类:一类基于数据层面,通过改变训练集样本分布,降
低不平衡程度;另外一类是基于算法层面,根据算法在面对不平衡数据时的缺陷,适当地修改算法使之
适应不平衡分类问题,或者是提出新的算法,使之能够解决不平衡问题。基于数据层面方法是对数据进
行重采样[叫,包括过采样[2-4
J
和欠采样白,
7]
,其中一种成熟的方法是采用少数类样本合成重采样技术
(synthetic minority over sampling technique ,
SMOTE)
将不平衡数据通过插值来改变数据分布。基于
算法层面方法针对的是分类算法,而不是数据集,代价敏感学习
(cost-sensitive
learning
,
CSL)
、核方法、
主动学习以及单类别学习等方法是处理不平衡数据集的常见方法胁
10J
。
集成学习通过使用一系列学习器进行学习,然后通过某种规则将各个学习结果进行整合,从而获得
比单个学习器更好的学习效果,研究表明,当子分类器具有一定正确率并且具有差异性时,使用集成学
习可以显著提高学习系统的泛化性能口口。
本文提出一种改进随机子空间方法
(random
subspace method
,
RSM)
[1
2J
与
C4.5
决策树算法相结
合的方法并应用于不平衡数据分类。首先,将随机子空间方法与
SMOTE
采样方法相结合改变训练数
据分布,再通过
C4.5
算法以集成学习方式得到最终决策模型。对于训练数据,首先每次随机选择一些
特征属性,再利用
SMOTE
方法在选定的特征属性范围内对少数类进行扩充,处理后的数据与初始训
收稿日期
:2013-03-29
基金项目
z
佛山市科技发展专项资金项目
(2011AA10006
1)
;佛山市产学研专项资金项目
(2012HC100272)
;佛山市教育
局智能评价指标体系研究项目
(DX20120220)
作者简介:胡小生
0978
少,男,湖北黄冈人,佛山科学技术学院讲师,高级工程师。