首页MADPPG环境配置

MADPPG环境配置

时间: 2023-10-08 08:05:07 浏览: 34

MADDPG（Multi-Agent Deep Deterministic Policy Gradient）环境的配置是在一个二维平面上，包含森林、食物、地标和智能体。其中，森林是非刚体、不可移动的实体，食物是刚体、不可移动的实体，地标是刚体、不可移动的实体。智能体分为捕食者和猎物两类，捕食者包括4个相互合作的实体，猎物包括2个依靠环境靠近食物的实体。捕食者的最大速度默认为1，加速度为3，阻尼速度为0.25；猎物的最大速度默认为1.3，加速度为4，阻尼速度为0.25。在该环境中，捕食者的任务是通过阻拦猎物靠近食物来获取奖励，捕食者之间相互合作。猎物的任务是在捕食者的围捕下，依靠森林和障碍物，力求靠近食物。进入森林后，智能体的位置坐标对敌方不可见，除非它们位于同一个森林中。而地标则充当障碍物的角色。 MADPPG环境中的观测包括捕食者和猎物的速度、位置以及与其他实体的相对位置。对于捕食者来说，还包括是否处于森林中和交流信息。对于猎物来说，除了上述观测，还包括是否处于森林中。