违约用户风险预测:大吉大利今晚吃鸡团队方案

需积分: 0 0 下载量 72 浏览量 更新于2024-08-05 收藏 1MB PDF 举报
"违约用户风险预测+大吉大利今晚吃鸡+方案说明1" 在这个项目中,"大吉大利今晚吃鸡"团队参与了"马上AI全球挑战者大赛",目标是预测违约用户的概率,从而在金融风控领域应用人工智能技术。他们主要关注了数据预处理、特征工程和模型设计三个关键步骤。 在数据预处理阶段,团队针对高缺失率的特征进行了处理。如果某个用户属性的值为空,他们将其转化为0/1特征,统计每个样本中为0的特征数量,即缺失特征的数量,并除以用户信息表的总维度,以此计算出用户信息的缺失率,作为评估用户资料完整度的新特征。 在特征工程方面,团队从不同的数据表中逐一添加特征,观察哪些表中的特征对模型性能影响较大。他们从用户出生日期字段中提取年龄,处理了多种格式的数据,包括将"90后"等模糊信息标准化为1990年的出生日期。同时,他们注意到"BANK"表中的银行名称字段包含中英文混合,创建了一个字典来统一替换英文为中文,减少了银行类别的多样性,便于后续分析。此外,他们还识别出疑似用户多次贷款的现象,通过分析订单和地址信息,计算了用户的贷款次数,作为新的特征。 在模型构建上,团队采用了多种策略,包括单个模型、加权融合、stacking以及随机扰动。经过线上测试,加权融合模型在比赛中表现最佳。 特征工程的其他方面还包括从AUTH_INFO表中提取有价值的信息。例如,身份证的第一位数字可以指示地区,认证时间的年、月、日、星期被转化为模型可用的变量。同时,对于无法直接使用的身份证信息,团队转换为是否存在身份证信息的二元特征。 这个项目展示了在处理复杂金融数据集时,如何有效地进行数据清洗、特征构建以及模型选择,以提高违约风险预测的准确性。通过精细的特征工程和模型融合策略,团队成功地应对了高缺失率和异构数据的挑战,为金融风控提供了有价值的解决方案。