Lasso-Logistic个人信用违约预测模型研究
需积分: 0 136 浏览量
更新于2024-06-30
1
收藏 265KB DOCX 举报
"这篇文档是关于‘东证期货杯’全国大学生统计建模大赛的一份参赛作品,由中南财经政法大学的团队完成,利用Lasso-Logistic方法构建个人信用违约预测模型。团队在处理数据时采用了众数插补法来填补人口特征的缺失值,通过聚类分析和分层抽样平衡样本。模型建立后,通过对比Lasso-Logistic模型与BP神经网络模型,显示Lasso-Logistic模型在加入欺诈记录变量后,不仅提高了预测准确率,而且具有更好的外推性。"
文章内容深入探讨了个人信用违约预测的关键步骤和方法。首先,研究者构建了一个包含人口特征、资产负债状况、信用历史和信用行为四个维度的个人信用评估指标体系,总计27个指标。在数据预处理阶段,针对数据的缺失问题,采用了众数插补法,这是一种常见的填充缺失值的技术,适用于数值型且分布相对稳定的变量。
接下来,为了平衡违约和非违约样本,研究者运用了聚类分析来理解样本间的相似性,然后采用分层抽样策略确保各类别的样本数量均衡,这有助于减少模型的偏差并提高模型的泛化能力。抽样后的样本集共包含3750个样本,其中80%用作训练集,剩余20%用于测试模型的性能。
模型构建部分,研究团队选择了Lasso-Logistic回归,这是一种结合了Lasso正则化和逻辑回归的模型,Lasso正则化通过限制模型参数的大小,可以实现变量选择和模型简化,有助于防止过拟合。同时,他们还构建了BP(Back Propagation)神经网络模型作为对比,BP神经网络在处理复杂非线性关系时表现出色。
通过对比两个模型的预测效果,发现Lasso-Logistic模型在加入欺诈记录变量后,预测准确率显著提升,分别在训练集和测试集上达到了79.47%和75.33%。相比之下,BP神经网络虽然在训练集上的预测准确率为86.17%,但在测试集上的表现(73.37%)略逊一筹,表明Lasso-Logistic模型在样本外的预测性能更优,具备更好的泛化能力。
总结来说,这篇论文展示了如何利用Lasso-Logistic模型进行个人信用违约预测,强调了数据预处理、样本平衡以及欺诈记录变量在模型优化中的重要性,对于理解和改进个人信用评估系统提供了有价值的见解。
2019-09-23 上传
2018-09-13 上传
2022-06-03 上传
2024-04-16 上传
2024-02-03 上传
点击了解资源详情
点击了解资源详情
点击了解资源详情
章满莫
- 粉丝: 35
- 资源: 316
最新资源
- Python库 | python-gitlab-0.14.tar.gz
- bmed-4460-6460:生物图像分析课程的源代码(BMED 44606460)
- rpgit-system:rpgit系统
- ListBox.zip源码Labview个人项目资料程序资源下载
- sympathetic-synth:交感合成器系统Mk1
- launch-extension-context-data-tools:提供操作和一些工具,使您可以使用contextData变量进行跟踪
- Look4:基于MVI,附近连接API和Hilt的约会应用
- TWB:TWB 网络应用程序
- fps沙箱
- Python库 | python-ftx-0.1.0.tar.gz
- GenGen:通用的世代系统
- 感言
- lunchlady:一个基于NodeJS的愚蠢,简单的无后端CMS
- 资源fastjson-get-post.zip
- sssnap-api:已弃用 - 用于 sssnap 的 REST JSON API
- Excel模板开票申请单模板.zip