首页on policy 和 off

on policy 和 off

时间: 2023-09-23 13:02:12 浏览: 215

on-policy

MAPPO Chao Yu *，Akash Velu *，Eugene Vinitsky，Yu Wang，Alexandre Bayen和Yi Wu。网站：：该存储库实现MAPPO，它是PPO的多代理变体。该存储库中的实现用于“合作多代理游戏中MAPPO的惊人有效性”（）。该存储库很大程度上基于。支持的环境： 1.用法所有核心代码都位于onpolicy文件夹中。 Algorithms /子文件夹包含MAPPO的特定于算法的代码。 envs /子文件夹包含MPE，SMAC和Hanabi的环境包装器实现。执行培训部署和策略更新的代码包含在运行器/文件夹中-每个环境都有一个运行器。可以在scripts /文件夹中找到用于使用默认超参数进行训练的可执行脚本。这些文件以以下方式命名：train_algo_environment.sh。在每个文件中，可以

-policy 是强化学习中的两种策略评估方式。On-policy 意味着使用当前策略进行采样，然后评估该策略的表现并更新该策略。Off-policy 意味着使用另一个策略进行采样，然后评估和更新另一个策略。通常，On-policy 更适用于在线学习，而 Off-policy 更适用于离线学习和重要性采样。

阅读全文