MWMOTE-RF:基于过采样和随机森林的信用评估新方法

需积分: 19 0 下载量 42 浏览量 更新于2024-09-06 收藏 1.79MB PDF 举报
"这篇论文探讨了一种新的信用评估方法,结合了带多数类权重的少数类过采样技术(MWMOTE)和随机森林(RF),旨在解决信用评估中不均衡数据集的问题,以提高分类器的性能。" 本文介绍了一个针对信用评估问题的解决方案,特别是面对数据集中类别分布严重不均衡的情况。在信贷行业中,如信用卡违约或汽车贷款违约的预测,往往存在大量的正常样本(多数类)和少量的违约样本(少数类)。这种不平衡的数据分布会导致传统分类器倾向于预测多数类,从而忽视少数类的重要性。 作者提出的方法分为两步:首先,采用MWMOTE(Majority Weighted Minority Over-Sampling Technique)技术对少数类样本进行过采样。过采样是解决类别不平衡问题的一种策略,通过复制或生成少数类样本,使得各类别的样本数量接近,从而提高模型对少数类别的识别能力。MWMOTE在此基础上考虑了多数类的权重,确保在增加少数类样本的同时不忽视多数类的信息。 其次,利用预处理后得到的相对平衡数据集,应用随机森林算法进行分类预测。随机森林是一种集成学习方法,通过构建多个决策树并取其平均结果来提高预测准确性和防止过拟合。在不均衡数据集上,随机森林通常能表现出较好的鲁棒性。 实验部分,作者使用了UCI机器学习库中的德国信用卡数据集和一家公司的汽车违约贷款数据集,以受试者工作特征曲线下的面积(AUC)作为评估标准。结果显示,MWMOTE-RF方法相比于单独使用随机森林或朴素贝叶斯,AUC值有显著提升,分别提高了18%和20%,表明该方法能有效提升分类性能。 此外,MWMOTE-RF方法对比其他过采样技术如SMOTE(Synthetic Minority Over-Sampling Technique)和ADASYN(Adaptive Synthetic Sampling),也显示出优越性,AUC值分别提升了1.47%和2.34%,进一步证明了新方法的有效性。 这篇论文提出的MWMOTE-RF方法为处理信贷领域的不均衡数据集提供了一种有效途径,通过结合过采样和随机森林,可以改善分类器对少数类样本的识别能力,从而提高信用评估的准确性。这种方法对于优化机器学习模型在实际信用风险评估中的应用具有重要的实践意义。