Decision transformer
时间: 2023-08-13 08:04:47 浏览: 326
transformer
Decision Transformer是一个将强化学习问题转化为条件序列建模的体系结构。它利用了Transformer体系结构的简单性和可伸缩性,以及语言建模方面的相关经验,如GPT-x和BERT。与传统的强化学习方法不同,Decision Transformer通过利用随机屏蔽Transformer输出来确定最优操作。通过将自回归模型设置在期望的回报、过去的状态和行动上,Decision Transformer模型可以生成实现期望回报的未来行动。尽管简单,Decision Transformer在Atari、OpenAI Gym和Key-to-Door任务上的性能与或超过了最先进的强化学习基线模型。[1]
Decision Transformer的网络结构可以看作是Transformer的Decoder部分的修改,主要使用了masked multi-head self-attention。它是一种纯监督学习方法,用于解决离线强化学习问题。与传统的马尔科夫决策过程(MDP)不同,Decision Transformer在训练时可以获取非常长期的信息,不再满足马尔科夫性。[2][3]
阅读全文