美赛O奖论文：深度解析ARIMA-LSTM预测与单词难度评估

版权申诉

PDF格式 | 1.29MB | 更新于2024-06-14 | 3 浏览量 | 举报

"2023年美国大学生数学竞赛(C题)的获奖论文探讨了一项涉及预测世界游戏中的单词猜测行为的挑战。该研究主要关注四个关键任务： 1. 预测报告数量：利用ARIMA模型和LSTM模型的组合（ARIMA-LSTM），论文团队分析了数据中的线性和非线性趋势，最终预测了2023年3月1日的报告结果范围为[9614, 43109]。通过对音节数和熵等单词属性的Spearman相关系数分析，研究了它们与玩家表现的关系。 2. 预测得分分布：在任务2中，通过堆叠模型（包括Ridge回归、Lasso回归和XGBoost、LightGBM），研究者提高了预测结果的拟合度至83.77%，并确定了“EERIE”在困难模式下的预期分布。 3. 单词难度评估：对于任务3，团队通过PCA和GMM对7个单词属性（如熵、字母数和频率）进行分析，将单词分为困难、中等和容易三类。模型的准确率为67%，并揭示了每个难度级别单词的独特属性。 4. 数据分析与可视化：论文提供了数据可视化，观察到报告数量与玩家尝试困难模式比例、尝试次数分布以及字母位置频率等特征之间的关系，这些发现有助于理解玩家策略。此外，研究还进行了敏感性分析，探讨了样本变化对模型性能的影响，并对模型的优点和局限性进行了总结。论文结尾部分，作者向《纽约时报》编辑展示了研究成果的应用潜力和对未来数学竞赛的启示。这篇论文不仅提供了实用的统计分析方法，还揭示了数学在解决实际问题中的应用，为参赛者和教育工作者提供了有价值的参考信息。"

展开

假

设

用

户

在

上

报

告

的

分

数

是

真

实

可

靠

的

。

如果用户在 Twitter 上报告他们的分数为假，那么仅使用给定日期的给定单词的属性

可

能

很

难

预

测

数

据

集

中

报

告

结

果

的

分

布

。

假

设

扰

动

项

遵

循

独

立

的

正

态

分

布

。

符

号

和

定

义

表 1:符号

数

据

预

处

理

由

于

我

们

只

能

使

用

官

方

数

据

集

，

并

且

给

定

的

数据是通过挖掘 Twitter 获得的，因此存在数据异常的可能性，因此我们在构建模型之前

对

这

部

分

数

据

进

行

了

预

处

理

。

Fill:

我们将

Number of reporting results

中的异常值替换为前后数据的平均值。

拒

绝

我

们

删

除

报

告

结

果

的

分

布

总

和

偏

离

100%

的

整

个

数

据

。

我们删除包含多个不等于

的字母的整个单词，包括

“clen”

和

“tash”

。

任

务

区

间

预

测

和

相

关

分

析

对

报

告

结

果

数

量

的

预

测

4.1.1 自回归综合移动平均模型

由于数据是时间序列，数据量较小，在考虑了各种预测模型后，我们首先选择了

ARIMA 模型来预测报告结果的数量。

4.1.2 构建预测模型

步骤 1。序列平滑(确定参数 d

在

ARIMA (p, d, q)

模型中，

为自回归项，

为自回归项

;MA

为移动平均，

为移

动平均项的个数，d 为时间序列平稳时产生的差异的个数。该模型是基于通过d阶差分将

非平稳级数rt转换为平稳级数rt的原理。然后以rt为因变量，以rt的滞后项和随机误差

项在和

的滞后项作为自变量进行回归。为了便于写作，后者以

序列表示报告结果的数

量。

)

下载后可阅读完整内容，剩余22页未读，立即下载

身份认证购VIP最低享 7 折!

30元优惠券

阿拉伯梳子

粉丝: 2886

美赛O奖论文：深度解析ARIMA-LSTM预测与单词难度评估

2023美赛O奖：C题论文翻译（9）.pdf

2023美赛O奖：C题论文翻译（4）.pdf

2023美赛O奖：C题论文翻译（2）.pdf

2018美赛O奖论文C题合集.pdf

2018美赛O奖论文C题-C82150-解密.pdf

美赛练习2：2020C题.zip

2018美赛O奖论文C题-C78577-Sustainable Energy Assessment-解密.pdf

2018美赛O奖论文D题-D80386-解密.pdf

2020美赛C题O奖2002116论文（中文版）.pdf

2023美赛O奖：C题论文翻译（5）.pdf

最新资源