机器学习特征工程：详解WOE编码原理、计算及实战应用

版权申诉

184 浏览量更新于2024-08-08 收藏 508KB DOCX 举报

在机器学习的数据科学领域中，特征工程是一项关键任务，特别是在处理离散变量时。WOE编码（Weight of Evidence）是一种特殊的编码方法，用于有监督的学习场景，其目标是将离散的、非数值化的特征转化为可以被模型理解和处理的连续变量。WOE编码的核心思想是通过衡量某个特征值对于预测结果的影响，即类别集中度的改变来赋予每个取值一个权重分数。 (1) 定义与工作原理： WOE本质上是对每个特征值进行排序，根据它在预测目标变量（如坏账率）中的分布情况计算权重。公式通常表示为：WOE = ln((Bad Rate for Group A / Bad Rate for Overall Population))，其中，Bad Rate是指特定组别中的负面事件发生率。WOE值越大，说明该特征值对于区分两类（例如，好客户与坏客户）的贡献越大。 (2) 案例理解：通过实例，我们可以直观地看到WOE如何作用。例如，如果一个分箱中的坏客户比例远高于总体比例，那么这个分箱的WOE值就会较高，因为这表明该分箱的特征值对于预测坏账具有更强的指示力。 (3) 技术深度思考： - WOE编码解决了数值型变量不能直接输入逻辑回归等模型的问题，通过非线性转换将其映射到近似线性空间，使模型更容易理解和优化。 - 评分卡模型中，WOE编码简化了业务人员对风险评估的理解和实施，他们可以根据模型提供的评分直接计算客户的信用风险。 (4) 选择理由：采用WOE编码的原因在于它能够将类别型变量转化为逻辑回归所需的数值型输入，同时保持了特征之间的线性关系，从而提高模型的预测性能。 (5) 优势分析： - 提升模型准确性：WOE编码针对逻辑回归这类模型的特性进行了优化，有助于提升模型在处理离散变量时的预测能力。 - 易于理解和应用：评分卡形式直观，使得业务人员能够方便地评估客户风险，无需深入理解复杂的模型细节。 - 反映变量贡献：通过WOE值，可以分析每个特征值对于风险预测的具体影响。 - 可分析相关性：编码后的连续变量便于进行进一步的统计分析和特征选择。 WOE编码在机器学习的特征工程中扮演着重要的角色，尤其是在评分卡模型中，它的优势在于将复杂性降低，使得非专业人士也能有效地应用到实际业务中，提高了模型的实用性和解释性。

DataScience：机器学习中特征工程之 WOE 编码(离散变

量编码/有监督)的简介、计算过程、案例应用之详细攻略

WOE 编码—离散变量编码(有监督性的编码)

在建模前，我们需要把原始的值转化成 WOE 值才能使得模型效果好。

提出问题怎样对字段的每个分段进行评分呢？这个评分是怎么来的？

解决方案 WOE 编码，

将预测概率值转化为评分，

利用变量相关性分析和变量的系数符号保证每个分箱评分的合理性。

分箱之后我们便得到了一系列的离散变量，下面需要对变量进行编码，将离散变量转

化为连续变量。WOE 编码是评分卡模型常用的编码方式。

(1)、什么是 WOE 编码

WOE 称为证据权重(weight of evidence)，是一种有监督的编码方式，将预测类别的集

中度的属性作为编码的数值。

WOE 公式定义：

WOE 公

式定义

案例 1

对于自变量第 $i$ 箱的 WOE 值为

公式中的 log 函数的底一般取为 e，即为 ln。

Pi1 是第 i 箱中坏客户占所有坏客户比例，Pi0 是第 i 箱中好客户占所有好客户比

例；

#Bi 是第 i 箱中的坏客户人数，#BT 是所有坏客户人数；

#Gi 是第 i 箱中的好客户人数，#GT 是所有好客户人数；

对以上公式做一个简单变换，可以得到：

变换以后可以看出，WOE 也可以理解为当前分箱中坏客户和好客户的比

值，和所有样本中这个比值的差异 (也就是我们随机的坏客户和好客户的比

下载后可阅读完整内容，剩余6页未读，立即下载

一个处女座的程序猿

粉丝: 126w+
资源: 59

机器学习特征工程：详解WOE编码原理、计算及实战应用

互联网金融信用风险：机器学习驱动的Logistic回归与GBDT模型应用

评分卡模型搭建：SEMMA流程与IV/WOE关键步骤

行为评分卡模型：特征构造与应用

python自动分箱,计算woe,iv的实例代码

在ggplot2中实现WOE分析与ROC曲线绘制

拍拍贷贷款预测比赛：信用评分卡知识的应用

股票和医疗欺诈检测：综合异常检测项目分析

数据分箱在机器学习中的重要性与实际应用

Python数据分箱中的缺失值处理方法

在信用评分卡模型中，WOE编码如何应用于特征工程，并通过非线性转线性提高预测性能？

最新资源