on-policy
MAPPO Chao Yu *,Akash Velu *,Eugene Vinitsky,Yu Wang,Alexandre Bayen和Yi Wu。 网站: : 该存储库实现MAPPO,它是PPO的多代理变体。 该存储库中的实现用于“合作多代理游戏中MAPPO的惊人有效性”( )。 该存储库很大程度上基于 。 支持的环境: 1.用法 所有核心代码都位于onpolicy文件夹中。 Algorithms /子文件夹包含MAPPO的特定于算法的代码。 envs /子文件夹包含MPE,SMAC和Hanabi的环境包装器实现。 执行培训部署和策略更新的代码包含在运行器/文件夹中-每个环境都有一个运行器。 可以在scripts /文件夹中找到用于使用默认超参数进行训练的可执行脚本。 这些文件以以下方式命名:train_algo_environment.sh。 在每个文件中,可以