2023 DCIC欺诈风险识别：Top1策略解析

需积分: 0 110 浏览量更新于2024-08-03 收藏 1.41MB PDF 举报

"2023 DCIC欺诈风险识别 Top1方案！这是一份关于kaggle竞赛的数据分析和解决方案，由ZLab数据实验室的作者橘子味盐汽水分享。该竞赛的目标是利用金融科技和大数据，构建涉赌涉诈账户识别模型，以提升风险监测能力。数据集包括涉赌涉诈黑名单、白名单以及交易流水，特点是小样本问题并包含干扰数据。解决方案主要围绕f1-score优化，采用0.5阈值进行预测，并进行了数据探索，发现正负样本比例、异常交易（如红冲交易）特征、交易金额分布和交易时间模式等关键信息。" 本文将深入解析2023年DCIC欺诈风险识别竞赛的冠军方案，该方案由kaggle竞赛的参与者橘子味盐汽水提供，他与M1stic合作，在比赛中取得了显著成绩。首先，赛题的核心任务是建立一个模型，能够准确识别出涉赌涉诈的账户，这需要参赛者利用金融科技和大数据手段，对给定的涉赌涉诈黑名单、白名单以及交易数据进行深度分析。数据集的特性是小样本问题，这意味着模型需要在有限的样本中学习到足够的特征以进行有效分类。此外，数据集还包括干扰数据，这增加了模型训练的复杂性。在评估模型性能时，采用的是f1-score指标，由于最终结果需要二分类（0/1），因此阈值选择至关重要。方案中提到，经过多次尝试，发现在0.5的阈值下，模型表现最佳，这可能是因为0.5可以平衡模型的精确度和召回率。在数据探索阶段，作者注意到正负样本比例为1:3，即正样本远少于负样本，这对模型训练提出了挑战，需要处理类别不平衡的问题。通过对交易金额的分析，发现正样本的交易金额通常集中在中等水平，这可能是一个重要的区分特征。同时，异常交易如红冲交易的存在，提示了需要考虑交易的异常行为模式。交易时间的分布显示，正样本交易多发生在月初和月末，以及特定的时间段，这可能与赌博活动的周期性有关，是构建模型时需要考虑的另一个重要因素。这份方案成功的关键在于深入理解数据特性，合理设定评价指标，以及在阈值选择上的精细化调整。通过对数据的深入挖掘和特征工程，模型能够捕捉到与欺诈行为相关的模式，从而实现高精度的风险识别。这对于实际的金融风控系统有着重要的参考价值，不仅可以应用于竞赛，也可以帮助金融机构提高反欺诈能力。

h your local

cv（也有很多选手使用控制1的个数），后期在融合的时候其实难点是概率

融合后阈值的选取，在这里我们就尝试的比较大胆，直接使用0.5来作为阈

值，同时也尝试了控制1的个数和其它阈值，A榜提交发现阈值使用0.5分数

最好，最终提交b榜也是融合后使用0.5作为阈值。

数据探索

标签分布与异常交易数据

赛题所给数据正负样本比为1:3(数据说明明确给出的比例)正样本300条、负

样本900条。

剩余12页未读，继续阅读

白话机器学习

粉丝: 1w+
资源: 7671

2023 DCIC欺诈风险识别：Top1策略解析

2024DCIC光伏发电出力预测_2024DCIC-Photovoltaic.zip

这个是DCIC厦门市巡游车与网约车运营特征对比分析项目-DCIC-Taxi.zip

DCIC22数字中国22-牛只图像分割竞赛第四名方案.zip

DCIC-2021

2020DCIC-创新大赛大数据赛道.zip

detect_steel_number:DCIC 钢筋数量AI识别 baseline 0.98+

天池DCIC船只轨迹数据挖掘比赛算法阶段Rank3解决方案：.zip

2022年数字中国创新大赛 (DCIC 2022) 卫星应用赛题-海上船舶智能检测算法源码+项目说明（第三名解决方案）.zip

PyPI 官网下载 | dcicutils-0.4.3-py3-none-any.whl

DCIC22牛只图像分割竞赛获奖方案详解

最新资源