首页ｓｍｏｔｅｅｎｎ流程图

ｓｍｏｔｅｅｎｎ流程图

时间: 2024-08-14 20:05:19 浏览: 117

Credit_Risk_Analysis:使用scikit学习和不平衡学习的信用风险分析

Credit_Risk_Analysis 项目概况应用机器学习解决现实挑战：信用卡风险。项目任务信用风险是固有的不平衡分类问题，因为优质贷款容易超过风险贷款。信用卡公司必须评估新的客户信贷申请，以评估申请人的信贷风险。该项目的目标是建立一个分类模型，该模型可以预测申请人是喜欢低信用风险还是高信用风险。信用卡公司可以使用此信息来确定是否应批准申请人。我们将采用不同的技术来训练和评估具有不平衡类的模型，并使用重采样来评估模型。然后，我们将评估这些模型的性能，并就是否应将其用于预测信用风险提出书面建议。技术成果交付品1：使用重采样模型预测信用风险交付品2：使用SMOTEENN算法预测信用风险交付品3：使用集成分类器预测信用风险结果根据三个不同的标准，描述所有六个机器学习模型的平衡精度得分以及精度和召回得分。准确性得分-衡量模型正确标记所有预测的可能性的度量。

SMOTE (Synthetic Minority Over-sampling Technique) 是一种常用的机器学习数据增强方法，用于处理类别不平衡的数据集。它通过生成新的合成样本来增加少数类（如正例）的数量，以改善模型对这类样本的学习能力。SMOTE流程图通常包含以下几个步骤： 1. **识别少数类样本**：首先，算法会从原始数据集中找出属于少数类的样本。 2. **邻域选择**：对于每个少数类样本，它会选择k个最接近它的邻居（通常是基于特征相似度计算的）。 3. **合成新样本**：然后，从选定的邻居中随机选择一个，并沿着它们之间的连线方向按照一定的比例（通常是1:k）创建一个新的合成点。 4. **替换或添加到训练集**：这个新的合成样本会被添加到训练集中，替换掉原有的少数类样本，或作为额外样本加入，以提高少数类的代表性。 5. **迭代过程**：如果有更多需要平衡的少数类，这个过程会在整个少数类样本上重复。

阅读全文