写一段深度强化学习代码
时间: 2023-03-13 21:01:38 浏览: 171
深度强化学习求解作业车间调度问题的python实现
5星 · 资源好评率100%
深度强化学习代码示例:import numpy as np# 设置环境
env = Environment() # 初始化Q表
Q = np.zeros([env.observation_space, env.action_space])# 设置learning rate
lr = 0.8# 设置折扣因子
gamma = 0.95# 设置训练次数
num_episodes = 2000# 训练
for i in range(num_episodes):
# 初始化状态
s = env.reset()
# 初始化done标志
done = False
# 设置步数
step_counter = 0
while not done:
# 选择动作
a = np.argmax(Q[s,:] + np.random.randn(1, env.action_space)*(1./(i+1)))
# 获取下一个状态
s1, r, done, info = env.step(a)
# 更新Q表
Q[s,a] = Q[s,a] + lr*(r + gamma*np.max(Q[s1,:]) - Q[s,a])
s = s1
step_counter += 1
print("Episode finished after {} steps".format(step_counter))
阅读全文