美赛O奖论文:深度解析ARIMA-LSTM预测与单词难度评估

版权申诉
0 下载量 12 浏览量 更新于2024-06-15 收藏 1.29MB PDF 举报
"2023年美国大学生数学竞赛(C题)的获奖论文探讨了一项涉及预测世界游戏中的单词猜测行为的挑战。该研究主要关注四个关键任务: 1. 预测报告数量:利用ARIMA模型和LSTM模型的组合(ARIMA-LSTM),论文团队分析了数据中的线性和非线性趋势,最终预测了2023年3月1日的报告结果范围为[9614, 43109]。通过对音节数和熵等单词属性的Spearman相关系数分析,研究了它们与玩家表现的关系。 2. 预测得分分布:在任务2中,通过堆叠模型(包括Ridge回归、Lasso回归和XGBoost、LightGBM),研究者提高了预测结果的拟合度至83.77%,并确定了“EERIE”在困难模式下的预期分布。 3. 单词难度评估:对于任务3,团队通过PCA和GMM对7个单词属性(如熵、字母数和频率)进行分析,将单词分为困难、中等和容易三类。模型的准确率为67%,并揭示了每个难度级别单词的独特属性。 4. 数据分析与可视化:论文提供了数据可视化,观察到报告数量与玩家尝试困难模式比例、尝试次数分布以及字母位置频率等特征之间的关系,这些发现有助于理解玩家策略。 此外,研究还进行了敏感性分析,探讨了样本变化对模型性能的影响,并对模型的优点和局限性进行了总结。论文结尾部分,作者向《纽约时报》编辑展示了研究成果的应用潜力和对未来数学竞赛的启示。 这篇论文不仅提供了实用的统计分析方法,还揭示了数学在解决实际问题中的应用,为参赛者和教育工作者提供了有价值的参考信息。"