一、根据人行征信,搭建一套人行特征库,要求: 1、枚举特征的类型,可以有多层分类 2、每类特征中,写2-5个指标的中英文名,对其中的1个写伪代码指标逻辑和sql逻辑 二、选择在用的特征自己写sql取出指标值,和特征出参进行比对 三、特征衍生有哪些方法,谈谈自己的想法
时间: 2023-04-04 21:03:34 浏览: 258
我可以回答这个问题。人行特征库的类型可以分为个人基本信息、信用信息、财务信息、行为信息等。其中,个人基本信息包括姓名、身份证号、性别、年龄等;信用信息包括信用卡额度、逾期次数、欠款金额等;财务信息包括收入、支出、负债等;行为信息包括消费习惯、社交圈等。
以信用信息为例,其中的指标可以包括信用卡额度、逾期次数、欠款金额等。其中,逾期次数的伪代码指标逻辑可以是:
if (逾期次数 > 0) {
return 1;
} else {
return 0;
}
对应的SQL逻辑可以是:
SELECT COUNT(*) FROM credit_info WHERE overdue_times > 0;
在选择在用的特征自己写SQL取出指标值时,可以使用类似以下的SQL语句:
SELECT credit_limit, overdue_times, debt_amount FROM credit_info WHERE user_id = '123456';
然后将取出的指标值与特征出参进行比对,以判断该用户的信用情况。
特征衍生的方法有很多,可以使用聚类、主成分分析、决策树等方法进行特征提取和降维。我的想法是,可以使用深度学习中的自编码器进行特征提取,将原始特征映射到一个低维空间中,从而提高特征的表达能力和分类效果。
阅读全文