Model-free控制详解：采样优化策略求解未知/大规模MDP问题

下载需积分: 0 | PDF格式 | 1.83MB | 更新于2024-08-05 | 28 浏览量 | 举报

在强化学习的高级阶段，"Model-free控制1"探讨了如何通过算法解决实际问题中的控制问题。控制问题的核心在于从给定的马尔可夫决策过程(MDP)中找到最优策略和价值函数，这与预测问题有所不同，后者仅关注基于策略的价值函数估算。 Model-free控制方法主要针对两类实际挑战：当MDP模型未知但可以通过环境采样获取数据时，或者模型已知但因问题规模过大无法高效计算时。这类控制方法无需提前知道MDP的具体形式，而是通过在线学习不断迭代优化策略。在控制策略上，区分了同轨策略（On-policy）和异轨策略（Off-policy）。On-policy学习中，智能体使用当前策略进行采样，然后基于这些经验优化策略，以期望达到最优。这种方法依赖于现有策略，因此被称为同轨。相比之下，Off-policy学习允许智能体使用与当前策略不同的策略进行采样，如使用专家策略。这种策略改进不会完全基于现有的策略，从而带来更广泛的学习范围，但可能导致策略和价值函数的更新不直接对应。同轨蒙特卡洛控制（On-policy Monte Carlo Control）是GPI（广义策略迭代）的一个实例，这是一种通用框架，它允许策略评估和策略改进这两个过程协同工作，即使它们的执行粒度不同。GPI假设评估和改进过程稳定后，策略和价值函数将达到稳定状态，即最优状态。总结来说，Model-free控制的关键在于通过不断试错和优化策略，利用采样数据，无论是在已知或未知MDP模型的场景下，目标都是找到适应环境的最佳行为策略。这两种策略学习方式提供了丰富的工具箱，使得强化学习能够在实际应用中解决复杂的决策问题。

即使这样，至少还存在一个问题，即当我们每次都使用贪婪算法来改善策略的时候，将很有可能由于没

有足够的采样经验而导致产生一个并不是最优的策略，我们需要不时的尝试一些新的行为，这就是探索

（Exploration）。

探索的例子

如上图，在你面前有两扇门，考虑如下的行为、奖励并使用贪婪算法改善策略：

你打开左侧门得到奖励为0：

剩余13页未读，继续阅读

身份认证购VIP最低享 7 折!

30元优惠券

高工-老罗

粉丝: 27

Model-free控制详解：采样优化策略求解未知/大规模MDP问题

,,无模型预测控制（model-free predictive control）+ESO ,核心关键词：无模型预测控制（model-free predictive control）; ESO; 预测控

无模型预测控制优化技术与ESO系统的协同运用策略探讨,无模型预测控制（model-free predictive control）+ESO ,核心关键词：无模型预测控制（model-free pred

Model-Free-Control-Reinforcement-Learning

Model-free adaptive process contro

无模型预测控制（model-free predictive control）+ESO

电机控制算法无差电流预测控制顶刊复现 Model-Free Predictive Current Control of PMSM Drives Based on Extended State Obs

Model-Free Predictive H∞ Control for Grid-Connected Solar Power Generation Systems

强化学习笔记(4)无模型控制Model-Free Control(On-policy learning, off-policy learning, GLIE, Sarsa, Q-learning)

model-free-algorithms:TF1.x中的TD3，SAC，IQN，Rainbow，PPO，Ape-X等

Neural-network-based robust optimal control of uncertain nonlinear systems using model-free policy iteration algorithm

最新资源