You are calling 'step()' even though this environment has already returned done = True. You should always call 'reset()' once you receive 'done = True' -- any further steps are undefined behavior.
时间: 2023-06-27 20:02:51 浏览: 319
八年级上册Unit 9 Can you come to my party练习题及答案13.doc
这个错误通常是由于在环境已经结束(`done=True`)的情况下继续调用 `step()` 方法导致的。在这种情况下,应该先调用 `reset()` 方法来重置环境,然后再开始新的一轮交互。
例如,在 OpenAI Gym 中,可以采用以下方式避免这个错误:
```python
env.reset()
done = False
while not done:
action = policy(observation)
observation, reward, done, info = env.step(action)
env.close()
```
在这个示例中,我们在每次交互之前检查是否已经完成,并在完成后调用 `reset()` 方法。
阅读全文