不满足马尔可夫性的强化学习应该称为啥
时间: 2024-08-15 15:04:38 浏览: 100
强化学习入门-马尔可夫过程.pdf
如果强化学习问题不满足马尔可夫性质(Markovianity),意味着当前的状态和决策仅依赖于过去的信息,而不受未来状态的影响,这种情况下我们通常会称其为 **非马尔可夫决策过程** (Non-Markov Decision Process, NMDP) 或 **记忆模型** (Memory-based Model)。在非马尔可夫强化学习中,决策者需要考虑更长的历史序列来制定策略,这使得问题更为复杂,往往需要更高级的算法,比如部分可观测马尔可夫决策过程(POMDPs)等来处理。
阅读全文