快速ε-最优离散追踪学习自动机:大型行动领域的新方法

0 下载量 136 浏览量 更新于2024-08-27 收藏 1.12MB PDF 举报
"这篇研究论文是关于快速且Epsilon最优的离散追踪学习自动机,发表在2015年10月的IEEE Transactions on Cybernetics期刊上,由Jun Qi Zhang, Cheng Wang和Meng Chu Zhou (IEEE Fellow)共同撰写。" 在强化学习领域,学习自动机(Learning Automata, LA)是一种强大的工具。离散追踪学习自动机(Discretized Pursuit Learning Automata, DPLA)是其中最为流行的一种。DPLA在每个迭代周期内包含三个基本阶段:1) 选择下一个动作;2) 找到最优估计动作;3) 更新状态概率。然而,当动作的数量非常大时,学习过程会变得极其缓慢,因为每个迭代中需要进行太多更新,主要来自第一阶段的动作选择和第三阶段的状态概率更新。 针对这个问题,论文提出了一种新的快速离散追踪学习自动机,保证了ε-最优性。这种方法的关键在于,它将第一阶段的动作选择和第三阶段的状态概率更新的计算复杂度独立于动作的数量,从而大大减少了计算量。这使得新方法在处理大量动作的情况下,仍能保持高效运行。 此外,尽管具有较低的计算复杂度,这种新型学习自动机在静态环境中的收敛速度比传统方法更快。这一改进对于那些需要高效强化学习的大型规模、动作导向的应用场景来说,具有显著的促进作用。论文的贡献在于提供了一种优化策略,使得DPLA能够在保持性能的同时,适应更复杂的决策问题,扩展了LA在大规模行动领域的应用潜力。