TalkingData 挑战：广告欺诈检测特征工程总结

需积分: 0 96 浏览量更新于2024-08-04 收藏 244KB DOCX 举报

"Kaggle上的 TalkingData AdTracking Fraud Detection Challenge 挑战赛是关于预测用户点击广告后下载应用的概率，以AUC作为主要评估指标。该挑战涉及对大量数据进行分析和建模，包括使用LightGBM和网络模型。特征工程在模型构建中扮演了关键角色，包括统计特征、时间差特征和统计累积特征等。" 在这个挑战中，参赛者需要预测的是用户点击广告后是否最终会下载应用。数据字段包括`click_time`、`is_attributed`等多个字段，其中`is_attributed`表示下载行为的发生。数据预处理和特征工程是提高模型性能的关键步骤。首先，数据量统计显示，模型的训练和验证使用了特定时间段的数据，例如11.07至11.09日的部分数据。模型构建包括基于LightGBM的`model1`和一个网络模型`model2`，并通过堆叠方法（stacking）结合这两个模型。在特征工程方面，特征可以分为几大类： 1. **统计特征**（20维）：包括基于`click_time`字段计算的点击次数，以及根据day/hour/min字段的分组统计。此外，还有基于设备（device）和操作系统（os）的组合特征`machine`，并计算其占比。 2. **统计累积特征**（4维）：这部分特征考虑了时间顺序的影响。按照`click_time`字段升序和降序统计累积特征，例如按day/hour分组进行累计计数。 3. **点击时间差特征**（time-delta）：这部分未提供详细维度，但通常可能涉及到计算连续点击事件之间的时差，以了解用户的行为模式。模型构建中，`model2`是一个网络模型，具体结构没有详述，但其特征维度为186维，其中包括上述统计特征、统计累积特征等。这个挑战赛强调了对用户行为数据的深入理解和特征提取的重要性，尤其是在时间序列分析和用户行为模式识别方面。通过组合多种模型和精心设计的特征，参赛者能够提高预测下载概率的准确性。

- 1 -

1. 问题描述

预测用户在点击 app 广告后下载 app 的概率。以 AUC 作为评判标准。

2. 数据字段介绍

字段

字段说明

点击 ID 地址；

app

App_ID；

device

� 设备（苹果 6，苹果 7，华为 mate7 等）；

用户手机 OS 版本 ID；

channel

移动广告发布平台；

click_time

点击时间，天&时&分；

attributed_time

若用户下载了 app, 这就是下载时间；

is_attributed

是否下载，0 或 1；

3. 数据分析

3.1 数据量统计

Train_data

Test_data

包含：6-9 号数据；

包含：9-10 号数据；

数据量：184,903,891

数据量：57,537,506

正负样本：456846 : 184447045 = 1 : 403.7

NAN

Train_date

Train_data

数据量占比

2017-11-06

9,308,568

5.03427%

2017-11-07

59,633,310

32.251%

2017-11-08

62,945,075

34.042%

2017-11-09

53,016,937

28.6727%

Test_date

Test_data

数据量占比

2017-11-09

9,802,613

17.0369%

2017-11-10

47,734,892

82.9631%

4. 第四名模型

采用 11.07 和 11.08 两天的数据作为训练集，在 11.09 的 4:00-14:00 数据上进行验证预测；

最后以 11.07-11.09 三天的数据作为训练集，再次训练来预测 11.10 的数据。

（1）model1: lightgbm；

（2）model2: 网络模型；

（3）stacking(model1, model2)

剩余12页未读，继续阅读

WaiyuetFung

粉丝: 589
资源: 316

TalkingData 挑战：广告欺诈检测特征工程总结

Python-TalkingDataAdTracking欺诈检测挑战

kaggle：TalkingData AdTracking Fraud Detection Challenge特征方案总结1

talkingdata-adtracking-fraud-detection:我的TalkingData AdTracking欺诈检测挑战解决方案（https

kaggle-talkingData:Kaggle TalkingData AdTracking欺诈检测挑战第48个解决方案

kaggle:Kaggle 主办的 Otto Group Challenge 的附加文件

kaggle:关于kaggle补偿的一些解决方案

kaggle：kaggle

kaggle:Kaggle ProjectsComps

kaggle:kaggle 代码

Kaggle:Kaggle转录

最新资源