多智能体编队actor-critic pytorch代码

时间: 2023-10-11 15:08:41 浏览: 48
以下是一个简单的多智能体编队actor-critic算法的PyTorch实现代码。该代码演示了如何使用actor-critic算法来训练多个智能体以形成编队。该代码使用一个简单的环境,该环境包含一个目标点和多个智能体,智能体的任务是在不碰撞的情况下尽可能接近目标点。 ```python import torch import torch.nn as nn import torch.optim as optim import torch.nn.functional as F import numpy as np import random # 定义一个智能体类 class Agent: def __init__(self, state_size, action_size, agent_id, num_agents): self.state_size = state_size self.action_size = action_size self.agent_id = agent_id self.num_agents = num_agents # 定义actor网络和critic网络 self.actor = Actor(state_size, action_size) self.critic = Critic(state_size) # 定义优化器 self.actor_optimizer = optim.Adam(self.actor.parameters(), lr=0.001) self.critic_optimizer = optim.Adam(self.critic.parameters(), lr=0.001) # 定义经验回放缓冲区 self.memory = ReplayBuffer(action_size) def act(self, state): state = torch.from_numpy(state).float().unsqueeze(0) action_probs = F.softmax(self.actor(state), dim=1) action_probs = action_probs.detach().numpy().squeeze() action = np.random.choice(self.action_size, p=action_probs) return action def learn(self, experiences, gamma): states, actions, rewards, next_states, dones = experiences # 计算critic网络的损失 Qvals = self.critic(states) Qvals_next = self.critic(next_states) Qval = Qvals.gather(1, actions) Qval_next = rewards + gamma * Qvals_next.max(1)[0].unsqueeze(1) * (1 - dones) critic_loss = F.mse_loss(Qval, Qval_next.detach()) # 更新critic网络 self.critic_optimizer.zero_grad() critic_loss.backward() self.critic_optimizer.step() # 计算actor网络的损失 probs = F.softmax(self.actor(states), dim=1) log_probs = torch.log(probs.gather(1, actions)) Qvals = self.critic(states) advantages = Qvals.detach() - Qvals.mean() actor_loss = -(log_probs * advantages).mean() # 更新actor网络 self.actor_optimizer.zero_grad() actor_loss.backward() self.actor_optimizer.step() # 定义一个actor网络 class Actor(nn.Module): def __init__(self, state_size, action_size): super(Actor, self).__init__() self.fc1 = nn.Linear(state_size, 32) self.fc2 = nn.Linear(32, 64) self.fc3 = nn.Linear(64, action_size) def forward(self, state): x = F.relu(self.fc1(state)) x = F.relu(self.fc2(x)) x = self.fc3(x) return x # 定义一个critic网络 class Critic(nn.Module): def __init__(self, state_size): super(Critic, self).__init__() self.fc1 = nn.Linear(state_size, 32) self.fc2 = nn.Linear(32, 64) self.fc3 = nn.Linear(64, 1) def forward(self, state): x = F.relu(self.fc1(state)) x = F.relu(self.fc2(x)) x = self.fc3(x) return x # 定义一个经验回放缓冲区 class ReplayBuffer: def __init__(self, action_size, buffer_size=10000, batch_size=128): self.action_size = action_size self.buffer_size = buffer_size self.batch_size = batch_size self.memory = [] self.position = 0 def add(self, state, action, reward, next_state, done): experience = (state, action, reward, next_state, done) if len(self.memory) < self.buffer_size: self.memory.append(None) self.memory[self.position] = experience self.position = (self.position + 1) % self.buffer_size def sample(self): experiences = random.sample(self.memory, k=self.batch_size) states = torch.from_numpy(np.vstack([e[0] for e in experiences if e is not None])).float() actions = torch.from_numpy(np.vstack([e[1] for e in experiences if e is not None])).long() rewards = torch.from_numpy(np.vstack([e[2] for e in experiences if e is not None])).float() next_states = torch.from_numpy(np.vstack([e[3] for e in experiences if e is not None])).float() dones = torch.from_numpy(np.vstack([e[4] for e in experiences if e is not None]).astype(np.uint8)).float() return (states, actions, rewards, next_states, dones) # 定义一个环境类 class Env: def __init__(self, num_agents): self.num_agents = num_agents self.state_size = 4 self.action_size = 2 self.target_pos = np.array([0.0, 0.0]) self.agent_pos = np.random.uniform(-1, 1, size=(self.num_agents, 2)) def reset(self): self.target_pos = np.array([0.0, 0.0]) self.agent_pos = np.random.uniform(-1, 1, size=(self.num_agents, 2)) obs = np.hstack([self.agent_pos, self.target_pos]) return obs def step(self, actions): actions = np.clip(actions, -1, 1) self.agent_pos += actions self.agent_pos = np.clip(self.agent_pos, -1, 1) obs = np.hstack([self.agent_pos, self.target_pos]) rewards = np.zeros(self.num_agents) for i in range(self.num_agents): dist = np.linalg.norm(self.agent_pos[i] - self.target_pos) if dist < 0.1: rewards[i] = 1 dones = np.zeros(self.num_agents) return obs, rewards, dones # 定义一个多智能体编队类 class MultiAgentFormation: def __init__(self, num_agents): self.env = Env(num_agents) self.num_agents = num_agents self.state_size = self.env.state_size * self.num_agents self.action_size = self.env.action_size self.gamma = 0.99 self.agents = [Agent(self.env.state_size, self.env.action_size, i, self.num_agents) for i in range(self.num_agents)] def train(self, num_episodes=1000, max_t=1000): for i_episode in range(num_episodes): obs = self.env.reset() for t in range(max_t): actions = [] for i in range(self.num_agents): action = self.agents[i].act(obs[i]) actions.append(action) next_obs, rewards, dones = self.env.step(actions) for i in range(self.num_agents): self.agents[i].memory.add(obs[i], actions[i], rewards[i], next_obs[i], dones[i]) obs = next_obs if len(self.agents[0].memory) > self.agents[0].memory.batch_size: for agent in self.agents: experiences = agent.memory.sample() agent.learn(experiences, self.gamma) if np.any(dones): break # 测试 ma = MultiAgentFormation(num_agents=3) ma.train() ```

相关推荐

最新推荐

recommend-type

grpcio-1.47.0-cp310-cp310-linux_armv7l.whl

Python库是一组预先编写的代码模块,旨在帮助开发者实现特定的编程任务,无需从零开始编写代码。这些库可以包括各种功能,如数学运算、文件操作、数据分析和网络编程等。Python社区提供了大量的第三方库,如NumPy、Pandas和Requests,极大地丰富了Python的应用领域,从数据科学到Web开发。Python库的丰富性是Python成为最受欢迎的编程语言之一的关键原因之一。这些库不仅为初学者提供了快速入门的途径,而且为经验丰富的开发者提供了强大的工具,以高效率、高质量地完成复杂任务。例如,Matplotlib和Seaborn库在数据可视化领域内非常受欢迎,它们提供了广泛的工具和技术,可以创建高度定制化的图表和图形,帮助数据科学家和分析师在数据探索和结果展示中更有效地传达信息。
recommend-type

小程序项目源码-美容预约小程序.zip

小程序项目源码-美容预约小程序小程序项目源码-美容预约小程序小程序项目源码-美容预约小程序小程序项目源码-美容预约小程序小程序项目源码-美容预约小程序小程序项目源码-美容预约小程序小程序项目源码-美容预约小程序小程序项目源码-美容预约小程序v
recommend-type

MobaXterm 工具

MobaXterm 工具
recommend-type

zigbee-cluster-library-specification

最新的zigbee-cluster-library-specification说明文档。
recommend-type

管理建模和仿真的文件

管理Boualem Benatallah引用此版本:布阿利姆·贝纳塔拉。管理建模和仿真。约瑟夫-傅立叶大学-格勒诺布尔第一大学,1996年。法语。NNT:电话:00345357HAL ID:电话:00345357https://theses.hal.science/tel-003453572008年12月9日提交HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire
recommend-type

MATLAB取整函数与Web开发的作用:round、fix、floor、ceil在Web开发中的应用

![MATLAB取整函数与Web开发的作用:round、fix、floor、ceil在Web开发中的应用](https://img-blog.csdnimg.cn/2020050917173284.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2thbmdqaWVsZWFybmluZw==,size_16,color_FFFFFF,t_70) # 1. MATLAB取整函数概述** MATLAB取整函数是一组强大的工具,用于对数值进行
recommend-type

我想做python的算法工程师,我应该学什么?学习的顺序是什么?网上有什么推荐的免费课程吗?回答具体精确一点不要太笼统

对于想要成为 Python 算法工程师的人来说,他们应该先从掌握 Python 的基础语法开始,然后学习数据结构和算法,并且要深入了解 Python 中的一些科学计算和数据处理库,比如 NumPy、Pandas 等。 学习的顺序可以是先学习基础语法和编程技巧,然后再学习数据结构和算法相关的知识,最后深入了解数据处理和科学计算相关的库。 对于免费课程的推荐,我建议你可以先去 Coursera、edX、Udacity 等网站上寻找相关课程,这些网站上有很多优质的 Python 编程和算法课程,你可以根据自己的需求和学习进度进行选择。此外,还可以考虑一些在线编程网站,如 HackerRank、L
recommend-type

JSBSim Reference Manual

JSBSim参考手册,其中包含JSBSim简介,JSBSim配置文件xml的编写语法,编程手册以及一些应用实例等。其中有部分内容还没有写完,估计有生之年很难看到完整版了,但是内容还是很有参考价值的。
recommend-type

"互动学习:行动中的多样性与论文攻读经历"

多样性她- 事实上SCI NCES你的时间表ECOLEDO C Tora SC和NCESPOUR l’Ingén学习互动,互动学习以行动为中心的强化学习学会互动,互动学习,以行动为中心的强化学习计算机科学博士论文于2021年9月28日在Villeneuve d'Asq公开支持马修·瑟林评审团主席法布里斯·勒菲弗尔阿维尼翁大学教授论文指导奥利维尔·皮耶昆谷歌研究教授:智囊团论文联合主任菲利普·普雷教授,大学。里尔/CRISTAL/因里亚报告员奥利维耶·西格德索邦大学报告员卢多维奇·德诺耶教授,Facebook /索邦大学审查员越南圣迈IMT Atlantic高级讲师邀请弗洛里安·斯特鲁布博士,Deepmind对于那些及时看到自己错误的人...3谢谢你首先,我要感谢我的两位博士生导师Olivier和Philippe。奥利维尔,"站在巨人的肩膀上"这句话对你来说完全有意义了。从科学上讲,你知道在这篇论文的(许多)错误中,你是我可以依
recommend-type

MATLAB取整函数与数据分析的应用:round、fix、floor、ceil在数据分析中的应用

![MATLAB取整函数与数据分析的应用:round、fix、floor、ceil在数据分析中的应用](https://img-blog.csdnimg.cn/img_convert/a12c695f8b68033fc45008ede036b653.png) # 1. MATLAB取整函数概述 MATLAB提供了一系列取整函数,用于对数值进行四舍五入或截断操作。这些函数包括: - `round`:四舍五入到最接近的整数 - `floor`:向下取整到最小的整数 - `ceil`:向上取整到最大的整数 - `fix`:截断小数部分,返回整数部分 这些函数在数据分析、可视化和特定领域(如金融