混合算法提升不平衡数据分类精度:RBF神经网络与随机森林集成

需积分: 5 0 下载量 36 浏览量 更新于2024-08-08 收藏 468KB PDF 举报
"这篇论文是2011年发表在《控制理论与应用》上的,由韩敏和朱新荣撰写,主要探讨了不平衡数据分类的问题。他们提出了一种混合算法,结合了径向基函数神经网络(RBFNN)和随机森林(Random Forest),以解决传统分类算法在处理不平衡数据时小类别样本分类精度低的挑战。" 正文: 不平衡数据分类是机器学习领域的一个重要问题,当数据集中某一类别样本数量远小于其他类别时,传统的分类算法如逻辑回归、决策树等往往倾向于预测数量较多的类别,导致小类别的识别效果较差。为了解决这一问题,论文提出了一个混合算法,该算法旨在提高中度和高度不平衡数据的分类精度。 首先,论文中提到的混合算法通过随机插值的方式在小类样本之间生成新的数据点,以平衡数据集的分布。这种方法有助于减少类别偏斜,使得训练过程更加关注于小类别样本。 接着,通过受试者特征曲线(Receiver Operating Characteristic,ROC曲线)在95%置信度下的面积来选择和去除冗余特征。ROC曲线是衡量分类器性能的重要工具,其面积越大,表示分类器的性能越好。这种方法确保了模型在减少特征冗余的同时,保持了对关键特征的敏感性。 接下来,论文引入了Bagging(Bootstrap Aggregating)技术对输入数据进行扰动,以增加模型的多样性。Bagging是一种集成学习方法,通过从原始数据集中抽样构建多个子数据集,然后训练多个基分类器。这里,作者选择了RBF神经网络作为随机森林中的基分类器,RBF神经网络因其快速收敛和良好的非线性拟合能力而被广泛应用。 最后,通过随机森林的集成策略,即多数投票法,对各基分类器的决策进行融合和输出。随机森林中的每个决策树都会对样本进行分类,最终的分类结果由所有决策树的投票决定,大多数票的类别作为最终分类。 实验部分,该算法被应用于UCI(University of California, Irvine)机器学习库中的数据集,使用G均值(Geometric Mean)和ROC曲线下的面积作为评估指标。实验结果证明了该混合算法在处理不平衡数据时,能显著提高分类精度,尤其对于中度和高度不平衡的数据集。 关键词:不平衡数据、随机森林、径向基函数神经网络、受试者特征曲线。 这篇论文提出的混合算法为处理不平衡数据提供了一个有效的方法,通过结合不同的技术如随机插值、特征选择、Bagging和随机森林,提高了对小类别样本的识别能力,对实际应用中的不平衡数据分类问题具有重要的指导意义。