深度预测模型在强化学习中的探索激励

需积分: 46 33 下载量 27 浏览量 更新于2024-08-09 收藏 1.12MB PDF 举报
"利用深度预测模型来激励探索-2018年度中国科技核心(统计源)期刊目录" 本文探讨了深度强化学习(DRL)中如何有效地激励代理的探索与利用。传统的深度强化学习方法通常采用贪婪-ε策略来平衡探索与利用,但这种方法在面对复杂的决策任务时显得不足。文章特别关注了在大规模状态空间中DRL任务的探索问题,指出常规的探索策略如汤普森采样、玻尔兹曼探索和贝叶斯探索奖励等在这些任务中效率较低。 Stadie等人提出了一种创新的解决方案,即利用深度预测模型来评估状态的新颖度,以此分配探索奖励。他们构建了一个自动编码器,将高维度输入状态转化为低维度特征表示,然后通过一个3层全连接网络的预测模型预测下一状态的特征。预测模型输出与编码状态特征之间的均方误差被用来衡量状态的新颖度。误差项越大,表示状态的新颖度越高,需要更多的探索奖励。这种新颖度函数被加入到奖励函数中,以鼓励策略去探索不熟悉的状态,从而提高学习速度和在复杂任务中的性能。 另一方面,Osband等人提出了引导型深度Q网络(bootstrapped DQN),通过使用多个并行的分流网络来随机化值函数,扩大对状态空间的探索范围。这种方法尤其适用于大规模状态空间的DRL问题,通过临时扩展探索范围,能够有效提升学习效果。 本文是深度强化学习的综述,涵盖了强化学习的基本概念以及如何通过深度学习提升其决策能力。研究还涉及了分层深度强化学习、多任务迁移深度强化学习、多智能体深度强化学习以及基于记忆与推理的深度强化学习等前沿方向。这些研究进一步推动了深度强化学习在各种任务中的应用,特别是在需要处理高维度输入和复杂决策的情境下。同时,也强调了深度强化学习在未来的发展趋势,尤其是在解决实际问题中的潜力。