while not stop_agent_event.is_set(): num_eps += 1 # Reset environment and experience buffer state = self.env_wrapper.reset() state = self.env_wrapper.normalise_state(state) self.exp_buffer.clear() num_steps = 0 episode_reward = 0 ep_done = False

这段代码是一个循环，用于执行agent在环境中外界交互的过程。具体来说，它会不断进行以下几个步骤： 1. 增加当前episode数的计数器（num_eps）； 2. 重置环境状态和经验缓存（exp_buffer）； 3. 对环境状态进行归一化处理（normalise_state）； 4. 重置当前episode的步数计数器（num_steps）、回报计数器（episode_reward）和结束标志（ep_done）； 5. 进入循环体，执行agent与环境的交互过程，直到本episode结束或者外部事件触发终止。这段代码是强化学习中常见的基本循环体结构，用于训练agent从环境中学习最优策略。

def run(self, PER_memory, gaussian_noise, run_agent_event, stop_agent_event): self.exp_buffer = deque() self.sess.run(self.update_op) if train_params.LOG_DIR is not None: self.sess.run(self.init_reward_var) run_agent_event.set() num_eps = 0 while not stop_agent_event.is_set(): num_eps += 1 state = self.env_wrapper.reset() state = self.env_wrapper.normalise_state(state) self.exp_buffer.clear() num_steps = 0 episode_reward = 0 ep_done = False

这段代码看起来像是一个深度强化学习算法的训练过程。其中，PER_memory是一个经验回放缓存，gaussian_noise是高斯噪声，run_agent_event和stop_agent_event是事件对象，用于控制训练的开始和停止。接下来，算法初始化了经验缓存和一些变量，然后进入主循环。在主循环中，算法执行以下步骤： 1. 重置环境状态； 2. 对状态进行归一化处理； 3. 清空经验缓存； 4. 计算当前状态的值函数； 5. 使用ε-greedy策略选择动作； 6. 执行动作并观察奖励和新状态； 7. 对新状态进行归一化处理； 8. 将经验加入经验缓存； 9. 更新值函数； 10. 计算回放优先级； 11. 从经验缓存中抽取样本进行训练； 12. 累积奖励； 13. 判断是否达到终止条件； 14. 如果达到终止条件，输出训练结果并结束。这里的具体算法可能因为代码不完整而无法确定，但大致思路应该是这样的。

阅读全文

while not stop_agent_event.is_set(): num_eps += 1 # Reset environment and experience buffer state = self.env_wrapper.reset() state = self.env_wrapper.normalise_state(state) self.exp_buffer.clear() num_steps = 0 episode_reward = 0 ep_done = False

相关推荐

Select()系统调用及 文件描述符集fd_set的应用.rar_fd_set_select fd_select sock

STM32F103_WS2812B灯带pwm+dma方式驱动控制程序软件源码.zip

DayPilot_Pro_for_JavaScript_v2019.3.3903_(01_Jul_2019).rar

os.set_terminal_size:Python调整大小终端示例

Android_Learning_Notes_Part 1.pdf

LDAP_Java_API_使用指南.rar

dw1000_ic_reach161_document.pdf

lua-5.3.4_Win64_bin.zip

r40_tinav2.1_最终验证通过_使用CB-S来验证OV5640有横条纹fpscamera+SPI2.0成功_20171114_1443没有外层目录.7z

8188eu_sc3817r_sina33服务器验证通过_带rtl8188eu的驱动程序_20170619_1108没有外层目录.7z

11g_plsql_user_guide_and_reference.pdf

stm32cubeMx：双通道ADC+串口打印

xmlpull_1_0_5_all.zip

kxml2-2.3.0.jar_和_xmlpull_1_1_3_4c.jar

Operating_Systems_From_0_to_1.pdf

Oak3D_v_0_5_4.js

SystemC_2011_New_Features.pdf

全志A80平台固定以太网的MAC地址ethernet_a80_merrii_20151203_1607.7z

最新推荐

go 生成基于 graphql 服务器库.zip

基于JAVA+SpringBoot+Vue+MySQL的社区物资交易互助平台 源码+数据库+论文(高分毕业设计).zip

WordPress作为新闻管理面板的实现指南

管理建模和仿真的文件

函数与模块化编程宝典：J750编程高效之路

用C语言求有4个圆塔，圆心分别为（2，2)，(2，-2)，(-2，2)，(-2，-2)圆半径为1， 这4个塔的高度为10m 塔以外无建筑物接输入任意点的坐标 求该点的建筑高度（塔外的高度为零)的程序

NPC_Generator：使用Ruby打造的游戏角色生成器

"互动学习：行动中的多样性与论文攻读经历"

流程控制与循环结构详解：J750编程逻辑构建指南

python实现生成一个窗口，其窗口题目为“二冷配水模型模型”，窗口中包含八个输入栏，三个按钮，每个按钮点击后会产生一个不同的页面

Select()系统调用及文件描述符集fd_set的应用.rar_fd_set_select fd_select sock

基于JAVA+SpringBoot+Vue+MySQL的社区物资交易互助平台源码+数据库+论文(高分毕业设计).zip

用C语言求有4个圆塔，圆心分别为（2，2)，(2，-2)，(-2，2)，(-2，-2)圆半径为1，这4个塔的高度为10m 塔以外无建筑物接输入任意点的坐标求该点的建筑高度（塔外的高度为零)的程序