Lasso-Logistic个人信用违约预测模型研究

需积分: 0 5 下载量 136 浏览量 更新于2024-06-30 1 收藏 265KB DOCX 举报
"这篇文档是关于‘东证期货杯’全国大学生统计建模大赛的一份参赛作品,由中南财经政法大学的团队完成,利用Lasso-Logistic方法构建个人信用违约预测模型。团队在处理数据时采用了众数插补法来填补人口特征的缺失值,通过聚类分析和分层抽样平衡样本。模型建立后,通过对比Lasso-Logistic模型与BP神经网络模型,显示Lasso-Logistic模型在加入欺诈记录变量后,不仅提高了预测准确率,而且具有更好的外推性。" 文章内容深入探讨了个人信用违约预测的关键步骤和方法。首先,研究者构建了一个包含人口特征、资产负债状况、信用历史和信用行为四个维度的个人信用评估指标体系,总计27个指标。在数据预处理阶段,针对数据的缺失问题,采用了众数插补法,这是一种常见的填充缺失值的技术,适用于数值型且分布相对稳定的变量。 接下来,为了平衡违约和非违约样本,研究者运用了聚类分析来理解样本间的相似性,然后采用分层抽样策略确保各类别的样本数量均衡,这有助于减少模型的偏差并提高模型的泛化能力。抽样后的样本集共包含3750个样本,其中80%用作训练集,剩余20%用于测试模型的性能。 模型构建部分,研究团队选择了Lasso-Logistic回归,这是一种结合了Lasso正则化和逻辑回归的模型,Lasso正则化通过限制模型参数的大小,可以实现变量选择和模型简化,有助于防止过拟合。同时,他们还构建了BP(Back Propagation)神经网络模型作为对比,BP神经网络在处理复杂非线性关系时表现出色。 通过对比两个模型的预测效果,发现Lasso-Logistic模型在加入欺诈记录变量后,预测准确率显著提升,分别在训练集和测试集上达到了79.47%和75.33%。相比之下,BP神经网络虽然在训练集上的预测准确率为86.17%,但在测试集上的表现(73.37%)略逊一筹,表明Lasso-Logistic模型在样本外的预测性能更优,具备更好的泛化能力。 总结来说,这篇论文展示了如何利用Lasso-Logistic模型进行个人信用违约预测,强调了数据预处理、样本平衡以及欺诈记录变量在模型优化中的重要性,对于理解和改进个人信用评估系统提供了有价值的见解。