首页line 9, in <module> next_state, reward, done, info = env.step(action)

line 9, in <module> next_state, reward, done, info = env.step(action)

时间: 2024-01-25 20:02:54 浏览: 127

mm_reward_qrcode_1581698008679.png

这个错误通常是由于你的代码中在调用 `env.step(action)` 时返回的元素个数不等于左侧变量的个数所导致的。在 Gym 中，`env.step(action)` 方法返回一个包含四个元素的元组，分别是下一步的状态 `next_state`、当前步的奖励 `reward`、游戏是否结束 `done` 和一个包含额外信息的字典 `info`。因此，你需要确保左侧变量的个数等于四，例如： ``` next_state, reward, done, info = env.step(action) ``` 如果你不需要使用 `info`，你可以使用下划线 `_` 来代替左侧变量，例如： ``` next_state, reward, done, _ = env.step(action) ``` 希望这些信息能够帮到你！

阅读全文

最新推荐

红外遥控报警器原理及应用详解下载

关系数据表示学习

关系数据卢多维奇·多斯桑托斯引用此版本：卢多维奇·多斯桑托斯。关系数据的表示学习机器学习[cs.LG]。皮埃尔和玛丽·居里大学-巴黎第六大学，2017年。英语。NNT：2017PA066480。电话：01803188HAL ID：电话：01803188https://theses.hal.science/tel-01803188提交日期：2018年HAL是一个多学科的开放存取档案馆，用于存放和传播科学研究论文，无论它们是否被公开。论文可以来自法国或国外的教学和研究机构，也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaireUNIVERSITY PIERRE和 MARIE CURIE计算机科学、电信和电子学博士学院（巴黎）巴黎6号计算机科学实验室D八角形T HESIS关系数据表示学习作者：Ludovic DOS SAntos主管：Patrick GALLINARI联合主管：本杰明·P·伊沃瓦斯基为满足计算机科学博士学位的要求而提交的论文评审团成员：先生蒂埃里·A·退休记者先生尤尼斯·B·恩

line 9, in <module> next_state, reward, done, info = env.step(action)

相关推荐

PyPI 官网下载 | gym_super_mario_bros-3.0.4.tar.gz

mm_reward_qrcode_1581698008679.rar

success_times = 0 for i in range(10000): state = env.reset() done = False while not done: #action = random.randint(0,3) action = np.argmax(q_table[state,:]) new_state,reward,done,info= env.step(action) state = new_state if reward == 1: success_times += 1 print(success_times)

next_state, reward, done, _ = env.step(action)这段代码问题在哪里

next_state, reward, done, _ = env.step(action) ValueError: too many values to unpack (expected 4)

最新推荐

Aspose资源包：转PDF无水印学习工具

管理建模和仿真的文件

【R语言高性能计算秘诀】：代码优化，提升分析效率的专家级方法

在构建视频会议系统时，如何通过H.323协议实现音视频流的高效传输，并确保通信的稳定性？

Go语言控制台输入输出操作教程

"互动学习：行动中的多样性与论文攻读经历"

【R语言机器学习新手起步】：caret包带你进入预测建模的世界

在选择PL2303和CP2102/CP2103 USB转串口芯片时，应如何考虑和比较它们的数据格式和波特率支持能力？

红外遥控报警器原理及应用详解下载

关系数据表示学习