TalkingData广告追踪欺诈检测挑战：186维特征详解与分析

需积分: 0 119 浏览量更新于2024-08-05 1 收藏 636KB PDF 举报

在Kaggle的TalkingData AdTracking Fraud Detection Challenge中，竞赛的目标是预测用户在点击应用广告后下载应用的概率，通过AUC作为评估指标。该挑战涉及大量数据处理和特征工程，参赛者构建了一个复杂的186维特征方案来提高模型性能。 1. **问题描述**: 竞赛的核心任务是识别广告点击行为中的欺诈，即判断哪些用户的点击是真实下载行为，哪些可能是虚假点击。AUC（Area Under the Curve）被用来衡量模型在不同阈值下的准确度，强调了模型对整个连续概率估计范围的综合性能。 2. **数据字段介绍**: - **ip**: 用户点击的ID地址，用于追踪和分析。 - **app**: App_ID，表示应用的唯一标识。 - **device**: 设备型号，如苹果6、苹果7等，有助于识别不同设备的行为模式。 - **os**: 用户手机的操作系统版本ID，反映用户设备的兼容性和偏好。 - **channel**: 广告发布的移动平台，可能影响用户接触广告的渠道。 - **click_time**: 点击发生的时间，包括日期、时间和分钟。 - **attributed_time**: 若用户下载，这是下载时间，缺失值表示未下载。 - **is_attributed**: 标签，0表示未下载，1表示已下载，是目标变量。 3. **数据分析**: - 数据量统计：训练集有184,903,891条记录，测试集有57,537,506条，呈现出严重的不平衡，正负样本比例约为1:403.7，这要求模型对少数类别的识别能力很强。 - 时间特征：时间相关的特征，如点击和下载时间差、时间戳的统计特性（如unique计数），以及与广告发布时间关联的分析，对于检测欺诈行为至关重要。 4. **第四名模型特征**: - **统计特征**: 12+3+5维，包括基础的数字、类别和计数特征。 - **累积特征**: 2+1+1维，涉及连续性变量的累加或累积值。 - **时间差特征**: 2+1维，考虑了点击与下载之间的时间间隔。 - **时间unique计数**: 1+1+8维，关注特定时间区间内的独特行为。 - **方差特征**: 1维，衡量数据的波动性。 - **common_ip特征**: 1维，共享IP地址可能暗示关联性。 - **ratio特征**: 24维，可能基于某些比率的计算，如点击率、下载率等。 - **count、sum和自定义log特征**: 3*41维，包含了计数、总和和对数值的特征，用于捕捉不同维度的复杂关系。 5. **特征重要度**: 对于模型性能至关重要的特征被详细列出和分析，帮助理解哪些特征在预测下载行为时贡献最大。 6. **Top1-Top3特征**: 竞赛中的获胜者分享了他们发现最具影响力的前几个特征，这些特征可能是区分真实下载和欺诈点击的关键。 7. **参考资料**: 提供了比赛的背景、数据来源及可能参考的研究方法和工具，以便其他参与者进一步深入研究和优化自己的模型。综上，这个特征方案展示了参赛者如何通过多维度的统计、时间序列和用户行为分析来解决广告欺诈检测问题，以及如何在实际比赛中利用大量特征进行有效建模。

- 1 -

1. 问题描述

预测用户在点击 app 广告后下载 app 的概率。以 AUC 作为评判标准。

2. 数据字段介绍

字段

字段说明

点击 ID 地址；

app

App_ID；

device

 设备（苹果 6，苹果 7，华为 mate7 等）；

用户手机 OS 版本 ID；

channel

移动广告发布平台；

click_time

点击时间，天&时&分；

attributed_time

若用户下载了 app, 这就是下载时间；

is_attributed

是否下载，0 或 1；

3. 数据分析

3.1 数据量统计

Train_data

Test_data

包含：6-9 号数据；

包含：9-10 号数据；

数据量：184,903,891

数据量：57,537,506

正负样本：456846 : 184447045 = 1 : 403.7

NAN

Train_date

Train_data

数据量占比

2017-11-06

9,308,568

5.03427%

2017-11-07

59,633,310

32.251%

2017-11-08

62,945,075

34.042%

2017-11-09

53,016,937

28.6727%

Test_date

Test_data

数据量占比

2017-11-09

9,802,613

17.0369%

2017-11-10

47,734,892

82.9631%

4. 第四名模型

采用 11.07 和 11.08 两天的数据作为训练集，在 11.09 的 4:00-14:00 数据上进行验证预测；

最后以 11.07-11.09 三天的数据作为训练集，再次训练来预测 11.10 的数据。

（1）model1: lightgbm；

（2）model2: 网络模型；

（3）stacking(model1, model2)

剩余12页未读，继续阅读

KerstinTongxi

粉丝: 26
资源: 277

TalkingData广告追踪欺诈检测挑战：186维特征详解与分析

Python-TalkingDataAdTracking欺诈检测挑战

Kaggle：TalkingData AdTracking Fraud Detection Challenge特征方案总结1

talkingdata-adtracking-fraud-detection:我的TalkingData AdTracking欺诈检测挑战解决方案（https

kaggle-talkingData:Kaggle TalkingData AdTracking欺诈检测挑战第48个解决方案

kaggle:Kaggle 主办的 Otto Group Challenge 的附加文件

kaggle:关于kaggle补偿的一些解决方案

kaggle：kaggle

kaggle:Kaggle ProjectsComps

kaggle：kaggle挑战

kaggle:kaggle 代码

最新资源