MADPPG环境配置
时间: 2023-10-08 08:05:07 浏览: 34
MADDPG(Multi-Agent Deep Deterministic Policy Gradient)环境的配置是在一个二维平面上,包含森林、食物、地标和智能体。其中,森林是非刚体、不可移动的实体,食物是刚体、不可移动的实体,地标是刚体、不可移动的实体。智能体分为捕食者和猎物两类,捕食者包括4个相互合作的实体,猎物包括2个依靠环境靠近食物的实体。捕食者的最大速度默认为1,加速度为3,阻尼速度为0.25;猎物的最大速度默认为1.3,加速度为4,阻尼速度为0.25。
在该环境中,捕食者的任务是通过阻拦猎物靠近食物来获取奖励,捕食者之间相互合作。猎物的任务是在捕食者的围捕下,依靠森林和障碍物,力求靠近食物。进入森林后,智能体的位置坐标对敌方不可见,除非它们位于同一个森林中。而地标则充当障碍物的角色。
MADPPG环境中的观测包括捕食者和猎物的速度、位置以及与其他实体的相对位置。对于捕食者来说,还包括是否处于森林中和交流信息。对于猎物来说,除了上述观测,还包括是否处于森林中。