TalkingData 挑战:广告欺诈检测特征工程总结

需积分: 0 1 下载量 96 浏览量 更新于2024-08-04 收藏 244KB DOCX 举报
"Kaggle上的 TalkingData AdTracking Fraud Detection Challenge 挑战赛是关于预测用户点击广告后下载应用的概率,以AUC作为主要评估指标。该挑战涉及对大量数据进行分析和建模,包括使用LightGBM和网络模型。特征工程在模型构建中扮演了关键角色,包括统计特征、时间差特征和统计累积特征等。" 在这个挑战中,参赛者需要预测的是用户点击广告后是否最终会下载应用。数据字段包括`click_time`、`is_attributed`等多个字段,其中`is_attributed`表示下载行为的发生。数据预处理和特征工程是提高模型性能的关键步骤。 首先,数据量统计显示,模型的训练和验证使用了特定时间段的数据,例如11.07至11.09日的部分数据。模型构建包括基于LightGBM的`model1`和一个网络模型`model2`,并通过堆叠方法(stacking)结合这两个模型。 在特征工程方面,特征可以分为几大类: 1. **统计特征**(20维):包括基于`click_time`字段计算的点击次数,以及根据day/hour/min字段的分组统计。此外,还有基于设备(device)和操作系统(os)的组合特征`machine`,并计算其占比。 2. **统计累积特征**(4维):这部分特征考虑了时间顺序的影响。按照`click_time`字段升序和降序统计累积特征,例如按day/hour分组进行累计计数。 3. **点击时间差特征**(time-delta):这部分未提供详细维度,但通常可能涉及到计算连续点击事件之间的时差,以了解用户的行为模式。 模型构建中,`model2`是一个网络模型,具体结构没有详述,但其特征维度为186维,其中包括上述统计特征、统计累积特征等。 这个挑战赛强调了对用户行为数据的深入理解和特征提取的重要性,尤其是在时间序列分析和用户行为模式识别方面。通过组合多种模型和精心设计的特征,参赛者能够提高预测下载概率的准确性。