基于深度学习与集成学习的短期降雨预测研究

5星 · 超过95%的资源 需积分: 50 74 下载量 137 浏览量 更新于2024-07-16 12 收藏 17.85MB PDF 举报
"这篇文档是2017年全国大学生统计建模大赛本科生组的一篇优秀论文,主要探讨了短期降雨预测模型的构建,结合了集成学习和深度学习的方法。研究团队来自西南财经大学,成员包括关鹏洲、王梦毫、李倩。他们基于阿里巴巴天池平台的多普勒雷达图数据集进行分析,旨在解决短期降雨预测问题。" 在论文中,作者首先对数据进行了预处理,处理了缺失值,并进行了探索性数据分析,以理解目标变量的分布规律和不同条件下雷达图与降雨的相关性。他们提出两种特征选取方法:缩略图和统计量,并使用了多种基础模型,如回归树、最近邻回归、支持向量回归和贝叶斯岭回归,进行训练和预测。结果显示,使用缩略图特征的模型在整体上优于其他。 随后,作者对比了随机森林、GBDT (梯度提升决策树)、XGBoost等集成学习模型的预测效果,发现GBDT在预测中的表现最佳,其RMSE(均方根误差)为14.23。在此基础上,他们提出了基于GBDT特征选择的改进AdaBoost模型和基于多个强回归器组合的stacking回归模型,进一步降低了RMSE得分。 针对目标变量的双峰偏态分布特性,论文提出了分类后再回归和深度学习的策略。通过矩阵的同步旋转变换增加样本量,然后使用Python3.5的Mxnet深度学习框架,构建Inception卷积神经网络。Inception模型首先进行分类,然后对每个类别进行回归预测,最终取平均输出。这种方法在初步调参后,在线上评测中得到的RMSE分数为14.264。 论文最后提出了批量处理全数据集的优化思路,为未来的模型改进和实施提供了方向。关键词包括短期降雨预测、多普勒雷达图、特征提取、传统机器学习模型、集成学习、双峰偏态分布和Inception卷积神经网络。 这篇论文展示了如何综合运用统计学、机器学习和深度学习技术来解决实际的降雨预测问题,为气象学研究和预测模型的构建提供了新的视角和方法。通过深度学习的引入,提高了模型的预测精度,显示了数据科学在应对复杂问题上的潜力。