stable_baselines3在训练时显示出智能体所有获得的奖励值
时间: 2023-06-23 21:09:11 浏览: 162
PyPI 官网下载 | stable_baselines3-1.0rc1-py3-none-any.whl
5星 · 资源好评率100%
要显示智能体在训练过程中获得的所有奖励值,你可以使用Stable Baselines3的`Monitor`类。`Monitor`类提供了一种简单的方法来记录每个episode的奖励值、步数和其他统计数据。以下是一个简单的示例代码,展示了如何使用`Monitor`类:
```python
import gym
from stable_baselines3 import A2C
from stable_baselines3.common.monitor import Monitor
# Create an environment
env = gym.make('CartPole-v1')
# Wrap the environment with the Monitor class
env = Monitor(env, "./logs")
# Create an A2C agent
model = A2C('MlpPolicy', env, verbose=1)
# Train the agent
model.learn(total_timesteps=10000)
# Close the environment
env.close()
```
在这个例子中,我们使用了`CartPole-v1`环境来训练一个A2C智能体,并将每个episode的统计数据记录到了`./logs`目录下。你可以使用`tensorboard --logdir ./logs`来查看这些统计数据。在tensorboard中,你可以看到每个episode的奖励值、步数和其他统计数据。
阅读全文