双非大三学生时序赛冠军经验：数据处理与策略揭秘

需积分: 0 163 浏览量更新于2024-08-03 1 收藏 293KB PDF 举报

"该PDF文档分享的是一个双非大三学生在Kaggle竞赛中的冠军经验。作者针对一个时序赛题，探讨了三种主要的数据处理思路：1) 时序特征构建，即按照时间顺序对L1-L6字段进行操作；2) 暴力特征衍生，试图通过增加复杂特征来提升模型性能；3) 统计特征构造，通过计算L1-L6的统计值如均值、标准差和中位数。作者首先发现，由于对L1-L6的实际含义理解不足，原始时序特征构建（思路1）在实际尝试中因数据质量问题导致分数波动大，且效果不佳。接着，尝试通过衍生大量特征（思路2），但即使筛选出重要特征后，效果仍然不理想。经过反思，作者认为可能存在维度问题。进入第三种策略，即统计特征（思路3），作者构建了一些基本的统计指标，如均值、标准差等，这显著降低了线下的MSE（均方误差），使其降至60多。然而，线上分数的提升相对较小，反映出过度拟合的风险。为了减少换榜时分数的剧烈波动，作者决定避免细致的模型参数调整，并采用模型融合的方法。在整个过程中，作者的代码实现了统计特征的创建，通过删除那些提升不明显且重要性较低的特征。具体代码展示了如何利用pandas的groupby函数和方法列表（如'mean'、'std'、'median'）来计算每个组别的统计特性。这份经验分享着重于如何在面对时序赛题时，通过合理的特征工程和模型策略来应对数据挑战，特别是对于特征理解和选择的重要性，以及如何平衡模型复杂性和泛化能力，以取得良好的比赛成绩。"

双非大三，时序赛冠军经验分享！

大致看了一下数据发现：该赛题的连续性特征只有六个，分别为变压器的外部

负载值的六个值（简称：L1-L6）。

由于对 L1-

L6具体含义不清晰，没办法对这其进行业务理解构造业务特征。于是，有以下

3个对数据处理的思路：

 思路1：对字段6：time按照时间顺序进行排序，然后对

L1-L6

构造时序特征；

 思路2：对L1-L6进行

暴力特征衍生

；

 思路3：对字段2-字段6进行groupby操作，再对L1-

L6进行agg操作，计算出L1-L6的统计值。

思路复现

在对以上思路进行复现的时候发现：赛题虽然是时序回归任务，但可能是数据

质量的问题，发现思路1和思路2可行性较低。

复现思路1：

下载后可阅读完整内容，剩余5页未读，立即下载

白话机器学习

粉丝: 1w+
资源: 7672

双非大三学生时序赛冠军经验：数据处理与策略揭秘

大三计算机系学生暑假社会实践报告-.pdf

北邮大三计算机网络实践实验四报告基本交换机使用及VLAN配置-.pdf

大三毕业了,感伤啊!.docx

《人工智能》--2023年春复旦大学大三下人工智能课程大炼丹炉.zip

2013年专转本试卷语文-大三.pdf

北邮大三下第4次数据库实验报告--mysql.pdf

汇丰银行-全球-能源设备与服务业-全球油田服务：适应60年代的生活-2019.9.11-32页.pdf

422分-我的考研经验分享.pdf

2021大学生求职趋势洞察-校果&猎聘校园-2021.12-43页.pdf

大三实习总结范文-10页.pdf

最新资源