数据挖掘比赛实战与策略分享

5星 · 超过95%的资源需积分: 50 69 浏览量更新于2024-07-20 8 收藏 825KB PDF 举报

数据挖掘比赛经验分享在本文中，作者BRYAN回顾了他在2016年参加的一些数据挖掘竞赛经历，包括但不限于：阿里移动推荐（分类任务）、蚂蚁金服资金流动预测（时序分解回归）、新浪微博互动预测（分类-规则）、淘宝穿衣搭配推荐（分类与规则）等，以及DataCastle微额借款人品预测、Kesci风控算法等。作者强调，每个比赛都有其特定的要求，没有通用的“套路”，需要根据实际问题进行针对性分析。在数据预处理阶段，作者提到了关键步骤，如处理缺失值（通过删除或填充来保持信息完整性）、规范化不规范数据、识别并删除异常数据，同时进行数据集划分（训练集、验证集和测试集），以及样本的构造，包括特征、键和标签的准备。特征工程是提升模型性能的关键，涉及构建业务逻辑特征、多项式组合、特征变换（如排序、归一化等）、时间窗口特征、避免特征间错误交互、确保尺度一致性、防止特征泄露和使用离散化与连续化方法。作者还介绍了GBDT与LR的融合策略，其中GBDT负责发现区分性和组合特征，而LR则直接使用GBDT的路径作为输入，简化了特征工程的过程。特征选择方面，作者提到了过滤法、包装法、嵌入法和压缩法，以及利用信息增益、基尼系数和 Relief 方法进行最优特征子集选择。这些方法虽然能提高模型性能，但计算复杂度较高。针对不同的模型设计，作者列举了适用于分类问题的LR和SVM（注意核函数和归一化），以及决策树模型（如随机森林、梯度提升机和XGBoost）、神经网络（BP、CNN和RNN）。对于回归问题，LR、SVR（线性核）、随机森林、GBDT和XGBOOST被用来解决。在处理不平衡数据时，作者提到了代价敏感性方法，以及过采样（如SMOTE）和欠采样策略。这篇文章提供了丰富的数据挖掘竞赛经验和实用的特征工程、模型选择及处理不平衡数据的方法，对于学习者来说，无论是参赛还是提升数据分析能力都有着实际指导价值。

特征工程

• 按业务逻辑构建特征

• 交叉特征（多项式组合）

• 变换特征（排序，归一，规范，平滑，log，sigmoid，tanh）

• 基于时间窗滑动的特征

• 避免特征穿越

• 尺度一致(比如时间段长度一致)

• 特征无意间利用到label导致过拟合

• 连续特征离散化

• 离散特征连续化(独热编码，向量化)

剩余22页未读，继续阅读

Bryan__

粉丝: 2484
资源: 3

数据挖掘比赛实战与策略分享

随身云数据挖掘竞赛解题思路ppt

开放学术数据挖掘大赛测试数据集

aliyun-tianchi-datamining-heartbeatclassification:数据挖掘-心跳信号分类

数据挖掘比赛.zip

数据挖掘比赛入门_2015

数据挖掘比赛：天猫用户日志.zip

数据挖掘比赛入门：天猫案例详解

数据挖掘比赛入门详解：天猫用户品牌偏好预测

数据挖掘类比赛常用算法模型（含源码及使用案例）

2022年数据挖掘泰迪杯比赛A题代码.zip

最新资源