微型 RTS 第四次实验报告:QLearning 改进与优化的探讨

需积分: 0 1 下载量 194 浏览量 更新于2024-03-22 收藏 1.46MB DOCX 举报
MicroRts 第四次实验报告 前言:在最后几周的工作中,我们针对上一次实验中提出的问题进行了深入的优化和改进。首先,我们对Qlearning的核心reward函数进行了重新设计,重新定义reward的获取方式,以提高AI的学习效率和表现。其次,我们调整了学习和决策的时间间隔,并完善了基础AI,以优化整体的游戏体验。尽管新版AI还未经过充分训练和Q矩阵未收敛,暂时无法打败旧版AI,但我们在本次实验报告中将详细介绍我们对QLearning算法的改进,并给出部分实验结果的分析。 PART I 对 QLearning 的改进 一、改进了reward的获取方式 正如我们在第三次实验报告中所提到的,Qlearning算法的核心在于reward的获取。事实上,reward也是强化学习算法的主要特征,而我们之前的AI存在的主要问题之一就是reward获取方式过于僵化和不够合理。因此,新版AI的核心优化方向之一即是对reward的获取方式进行改进。我们的改进思路如下: 首先,我们参考了QLearning算法的相关文献和研究成果,借鉴了一些优秀的reward获取方式。在此基础上,我们重新设计了AI的reward机制,使其更加灵活和智能化。通过引入更多的游戏状态和动态信息,我们实现了对reward的实时分析和动态调整,以更加准确地反映AI在游戏中的操作效果和表现。 其次,我们结合了实际游戏场景和AI的运行逻辑,优化了reward的计算方式。我们考虑到游戏中的各种因素和变量,如资源获取、单位建造、敌军进攻等,通过合理设定reward的权重和计算方式,使AI能够更加全面地评估游戏局势和自身行动,从而做出更加明智的决策和策略。 最后,我们对新的reward获取方式进行了实际测试和验证,并与旧版AI进行了对比实验。实验结果表明,经过改进后的AI在reward获取方面表现出更加优秀的性能和效果,能够更好地适应游戏环境和变化,为AI的学习和决策提供了更加精准的指导和奖励。 通过以上改进,我们对QLearning算法的reward获取方式进行了有效优化,为AI的整体表现和学习效果奠定了坚实的基础。 结语:在本次实验中,我们针对QLearning算法的核心问题进行了深入的优化和改进,特别是在reward获取方面取得了显著的进展。我们相信通过不懈的努力和持续的探索,我们的AI系统将在未来的比赛和应用中展现出更加优秀的表现和成绩。感谢您的关注和支持!