混合算法提升不平衡数据分类精度：RBF神经网络与随机森林集成

需积分: 5 36 浏览量更新于2024-08-08 收藏 468KB PDF 举报

"这篇论文是2011年发表在《控制理论与应用》上的，由韩敏和朱新荣撰写，主要探讨了不平衡数据分类的问题。他们提出了一种混合算法，结合了径向基函数神经网络（RBFNN）和随机森林（Random Forest），以解决传统分类算法在处理不平衡数据时小类别样本分类精度低的挑战。" 正文: 不平衡数据分类是机器学习领域的一个重要问题，当数据集中某一类别样本数量远小于其他类别时，传统的分类算法如逻辑回归、决策树等往往倾向于预测数量较多的类别，导致小类别的识别效果较差。为了解决这一问题，论文提出了一个混合算法，该算法旨在提高中度和高度不平衡数据的分类精度。首先，论文中提到的混合算法通过随机插值的方式在小类样本之间生成新的数据点，以平衡数据集的分布。这种方法有助于减少类别偏斜，使得训练过程更加关注于小类别样本。接着，通过受试者特征曲线(Receiver Operating Characteristic，ROC曲线)在95%置信度下的面积来选择和去除冗余特征。ROC曲线是衡量分类器性能的重要工具，其面积越大，表示分类器的性能越好。这种方法确保了模型在减少特征冗余的同时，保持了对关键特征的敏感性。接下来，论文引入了Bagging（Bootstrap Aggregating）技术对输入数据进行扰动，以增加模型的多样性。Bagging是一种集成学习方法，通过从原始数据集中抽样构建多个子数据集，然后训练多个基分类器。这里，作者选择了RBF神经网络作为随机森林中的基分类器，RBF神经网络因其快速收敛和良好的非线性拟合能力而被广泛应用。最后，通过随机森林的集成策略，即多数投票法，对各基分类器的决策进行融合和输出。随机森林中的每个决策树都会对样本进行分类，最终的分类结果由所有决策树的投票决定，大多数票的类别作为最终分类。实验部分，该算法被应用于UCI（University of California, Irvine）机器学习库中的数据集，使用G均值（Geometric Mean）和ROC曲线下的面积作为评估指标。实验结果证明了该混合算法在处理不平衡数据时，能显著提高分类精度，尤其对于中度和高度不平衡的数据集。关键词：不平衡数据、随机森林、径向基函数神经网络、受试者特征曲线。这篇论文提出的混合算法为处理不平衡数据提供了一个有效的方法，通过结合不同的技术如随机插值、特征选择、Bagging和随机森林，提高了对小类别样本的识别能力，对实际应用中的不平衡数据分类问题具有重要的指导意义。

第 28 卷第 10 期

2011 年 10 月

控制理论与应用

Control Theory & Applications

Vol. 28 No. 10

Oct. 2011

不不不平平平衡衡衡数数数据据据分分分类类类的的的混混混合合合算算算法法法

文文文章章章编编编号号号: 1000−8152(2011)10−1485−05

韩敏, 朱新荣

(大连理工大学电子信息与电气工程学部, 辽宁大连 116024)

摘要: 针对传统分类算法处理不平衡数据时, 小类的分类精度过低问题, 提出一种径向基函数神经网络和随机

森林集成的混合分类算法. 在小类样本之间用随机插值方式平衡数据集的分布, 利用受试者特征曲线在置信度

为95%下的面积为标准去除冗余特征; 之后对输入数据用Bagging技术进行扰动, 并以径向基函数神经网络作为随

机森林中的基分类器, 采用绝大多数投票方法进行决策的融合和输出. 将该算法应用于UCI数据, 以G均值和受试者

特征曲线下的面积为评判标准, 结果表明该方法能够有效地提高中度和高度不平衡数据的分类精度.

关键词: 不平衡数据; 随机森林; 径向基函数神经网络; 受试者特征曲线

中图分类号: TP751 文献标识码: A

Hybrid algorithm for classiﬁcation of unbalanced datasets

HAN Min, ZHU Xin-rong

(Faculty of Electronic Information and Electrical Engineering, Dalian University of Technology, Dalian Liaoning 116024, China)

Abstract: A novel hybrid algorithm of radial basis function neural network(RBFNN) integrated with the random forest

algorithm is proposed to improve the poor classiﬁcation result produced by traditional algorithm in classifying minor class

of unbalanced datasets. Firstly, random interpolations are inserted between adjacent data in the minor dataset to balance

the data distribution. Receiver operator characteristics(ROC) with degree of conﬁdence less than 95% are considered the

redundant characteristic and are deleted. The input data are perturbed by the Bagging technique. Radial Basis Function

Neural Network is employed to be the basic classiﬁer in the random forest. The fusion of decisions and the outputs are

determined by the vast majority of votes. This method is applied to UCI dataset. The precision of G-mean and the area

under the ROC demonstrate the improvement of the accuracy in the classiﬁcations of medium-size unbalanced and large-

size unbalance class data sets.

Key words: imbalanced data; random forest; radial basis function neural network(RBFNN); receiver operator charac-

teristics(ROC)

1 引引引言言言(Introduction)

不平衡分类问题是指数据样本中某些类的数量

远远少于其他类时的分类研究. 虽然现有的分类研

究可以取得较好的分类效果, 但是它们的缺陷在于

假设训练的数据集是平衡的, 这一假设往往是不成

立的. 在现实应用领域中存在不平衡数据集的情

况大致有以下几种: 医疗诊断、信息检索、文本分

类、石油泄漏

[1∼3]

等, 在这些情况的处理过程中少数

类识别的准确率更为重要. 传统的分类方法为保证

分类总体精度, 通常将小类通过阈值或规则选择误

分到大类中来保证整体的分类准确率

[4]

, 从而导致

少数类问题的研究和解决遇到重重困难.

鉴于不平衡分类研究的重要性, 国内外学者进

行了大量的研究, 主要有以下4个方面: 1) 对已有的

分类器通过改变分类阈值进行相关改进. 例如采用

模糊规则对已有的智能算法和决策树算法规则的

修改

[5]

或是在传统的分类算法基础上引入代价敏

感因子进行改进

[6]

等; 2) 设计新的适应不平衡数据

的分类方法, 例如采用新的向上采样方法或者向上

向下结合的采样方法对少类数据的处理

[7]

; 3) 设计

新的分类器性能评价准则, 通常是通过引入混淆矩

阵, 比较其中的查全率, F 值等来进行

[8]

; 4) 改变数

据的分布, 常见的有随机向上采样, 随机向下采样或

者是更加智能的采样方法, 其中最成熟的方法是采

用少类样本合成重采样技术(synthetic minority over-

sampling technique, SMOTE) 将不平衡数据通过插值

来改变数据的分布情况

[9]

从而影响分类效果.

本文提出的基于随机森林 (random forest,

RF)

[10]

和径向基函数的混合算法应用于不平衡数

据, 利用SMOTE对少类数据进行扩充, 用受试者特

征曲线下面积进行特征冗余度的去除之后再用于分

类操作, 以G平均值, 受试者特征曲线下面积来评价

收稿日期: 2010−06−25; 收修改稿日期: 2010−11−02.

基金项目: 国家自然科学基金资助项目(61074096); 国家科技支撑计划资助项目(2006BAB14B05); 国家重点基础研究资助项目(2006CB

403405).

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38607088

粉丝: 5
资源: 921

混合算法提升不平衡数据分类精度：RBF神经网络与随机森林集成

粒子对与极值优化混合算法提升基因聚类精度

混合算法反演晴空地表BRDF与反照率研究

随机数据取样优化FASTICA算法：效率与效果的平衡

一种结合 HARQ的 MIMO-O FDM自适应传输方案 (2011年)

粒子群优化算法改进方法的研究.pdf

cloudvisor-sosp2011

石油生产设定点优化模型与混合求解算法

混合QoS聚类服务组合算法：CHQoS_WSCA

优化QoS的协作OFDMA系统无线资源分配算法研究

多目标优化算法在化工过程设计中的环境减负与PCA应用

最新资源