信用评分模型解析：WOE、IV与ROC

需积分: 32 109 浏览量更新于2024-09-08 收藏 97KB DOCX 举报

"信用评分是金融机构评估个人或企业信用风险的一种方法，常见于信用卡审批、贷款发放等场景。本文将探讨信用评分模型的关键概念，包括IV（Information Value）、WOE（Weight of Evidence）以及ROC（Receiver Operating Characteristic）曲线。这些工具在构建评分卡和决策过程中起着至关重要的作用。 WOE（Weight of Evidence）是一种衡量分类变量对目标变量影响的统计量，通常用于逻辑回归模型。WOE值基于观测到的好坏样本比例与期望的好坏样本比例之间的对数差。公式为WOE = ln(odds)，其中odds表示好坏样本的比例。如果一个变量的WOE值为正，意味着该变量的当前取值对应的风险低于平均风险；若为负，则表示高于平均风险。WOE值越高，表示该分组的风险越低，但要注意，这仅在“好”属性作为分子时成立。 IV（Information Value）信息价值是评估分类变量预测能力的指标，它是所有类别WOE值的加权和。IV值越大，表明该变量对目标变量的区分度越高。通常，选择IV值大于0.1的变量进入模型。然而，过高（如超过0.5）可能意味着模型过度拟合，即过预测变量的重要性。 ROC曲线是评估二分类模型性能的重要工具，它描绘了真阳性率（True Positive Rate）与假阳性率（False Positive Rate）的关系。AUC（Area Under the Curve）是ROC曲线下的面积，表示模型分类的准确性。AUC值越接近1，模型的辨别力越强。在信贷审批中，高AUC值的模型能更准确地区分优质和高风险客户。在信用评分模型的开发过程中，通常会使用历史数据（已知结果的申请者）来训练模型，然后将模型应用于所有新申请者。然而，需要注意的是，训练样本往往只包含被接受的贷款申请，这意味着模型可能无法很好地预测被拒绝的申请者，这被称为样本偏差。因此，模型需经过适当的验证和调整，以确保在不同人群中表现一致。信用评分模型通过IV、WOE和ROC等工具，帮助金融机构量化风险，做出更明智的信贷决策。理解并正确运用这些工具，对于优化风险管理策略至关重要。"

公式

woe=ln(odds)，beita 为回归系数，altha 为截距，n 为变量个数，offset 为偏移

量（视风险偏好而定），比例因子 factor。



总评分。或去掉负号。



Logistic Regression with Weight of Evidence



比例因子和偏移量为：

令好坏比为 50，对应的评分为 600；在些基础上评分值增加 20 分，e.g.

600 = log(50) * factor +

oset

620 = log(100) * factor +

oset

Factor = 20 / log(2)

Oset = 600 – factor *

log(50)



WoE

Weight of Evidence 证据权重

其中，，odds 为好坏比，即 WOE=ln(odds)

e.g.

ID 是自变量，有 A1/A2/A3 三个取值；因变量有 1 和 0 两种取值，相对应的是

样本数量（如 Y=1|ID=A1 的样本数是 10）。当自变量取值 Ai 时，编码为相应

的 WOEi。



Odds = 1, WoE = 0; Odds > 1, Pgood > Pbad, WoE > 0.

WoE 值越高，说明这个分组的风险机率越低。（前提：good attribute 作分

子。WoE 可少于零）

Information Value 信息价值

相当于自变量 WOE 值的一个加权求和，其值的大小决定了自变量对于目标变

下载后可阅读完整内容，剩余3页未读，立即下载

shangruge

粉丝: 0

信用评分模型解析：WOE、IV与ROC

最新资源