模糊小脑模型:一种状态自动划分的强化学习值函数拟合新方法

需积分: 9 0 下载量 181 浏览量 更新于2024-08-11 收藏 1.28MB PDF 举报
"一种状态自动划分的模糊小脑模型关节控制器值函数拟合方法 (2011年)" 本文是2011年发表在《控制理论与应用》期刊上的一篇工程技术论文,由闵华清、曾嘉安、罗荣华和朱金辉共同撰写。研究主要针对强化学习(Reinforcement Learning, RL)中值函数拟合的问题,特别是在庞大状态空间(无论是离散还是连续)中寻找最优策略的挑战。 强化学习是一种机器学习方法,通过与环境的交互学习最佳行为策略。在RL中,值函数是评估每个状态下行动价值的关键,它需要被准确地拟合以便找到最佳策略。然而,传统的函数拟合器结构通常是静态的,不具有自适应性,这限制了其在复杂环境中的表现。 为了解决这个问题,作者提出了一个新颖的模糊小脑模型关节控制器(Fuzzy Cerebellar Model Arithmetic Controller, FCMAC)值函数拟合方法。这个方法利用了Bellman误差的变化趋势来动态地进行状态自动划分。Bellman误差是衡量当前策略与最优策略之间差距的一个指标,通过分析其变化,可以有效地识别状态空间中的关键区域,从而进行更精细化的划分。 文章探讨了两种不同的状态划分机制,这些机制有助于优化函数拟合器的结构,使其能够适应不断变化的学习过程。通过汽车爬坡问题和机器人足球仿真平台的应用实例,实验结果验证了该算法在拟合值函数方面的有效性,并证明了使用这种函数拟合器的智能体能够在强化学习中执行高效的策略。 关键词涵盖了强化学习的核心概念,包括值函数、状态自动划分以及模糊小脑模型控制器。中图分类号将这篇论文归类于计算机科学与技术的范畴,文献标识码A则表示它是一篇原创性的学术研究。 这篇文章提出了一种创新的模糊小脑模型关节控制器,它具备自适应的状态划分能力,对于强化学习中的值函数拟合提供了更灵活和高效的方法,这对于解决具有大量状态的复杂问题具有重要意义。