独立学习视角下的多智能体协作决策方法

需积分: 9 109 浏览量更新于2024-08-12 收藏 277KB PDF 举报

"基于独立学习的多智能体协作决策 (2002年)，由李晓萌、杨煌普和许晓鸣在《控制与决策》2002年1月刊发表，探讨了在多智能体系统中，当信息不完全时如何进行有效的协作决策。文章提出了一种新的方法，即在智能体独立学习的基础上实现协作决策，并通过网格对策的仿真验证了该方法的可行性。关键词包括多智能体强化学习、独立学习和Markov协作决策过程。" 正文: 多智能体系统是由多个相互作用和协作的智能体组成的复杂系统，这些智能体通过学习和决策来共同完成任务。在传统的联合学习模式中，智能体之间共享信息并协同行动，但这种方法在信息不完备的情况下效率会大打折扣。本文作者针对这一问题，提出了基于独立学习的多智能体协作决策方法。独立学习是指每个智能体根据自己的经验和环境反馈独立地更新策略，无需依赖其他智能体的信息。在这种情况下，每个智能体可以视为一个单独的学习实体，它通过与环境的交互来优化自身的决策过程。然而，独立学习可能会导致智能体之间的合作不足，因为它忽视了智能体间的相互作用。为了克服这个问题，作者引入了一种新的多智能体协作决策方法，该方法结合了独立学习的优点，同时考虑了智能体之间的协作需求。尽管每个智能体仍然独立学习，但在决策过程中，它们会考虑到其他智能体的存在和可能的行为，从而形成一种协作性的决策策略。文章以网格对策为例进行仿真，网格对策是一种常用于模拟多智能体互动的模型，其中智能体在网格环境中移动并作出决策，目标是在有限步数内达到特定目标或最大化累积奖励。通过对比实验，作者证明了提出的独立学习为基础的协作决策方法在信息不完备条件下能够有效提高多智能体系统的整体性能。该研究对多智能体强化学习领域的贡献在于提供了一种新的思路，即使在信息不完全的情况下，也能实现有效的协作。这种方法对于那些无法获取完整环境信息或者与其他智能体交流受限的场景尤其有应用价值，如分布式系统、机器人团队任务分配以及网络中的多节点决策等。这篇论文展示了如何在多智能体系统中，通过独立学习的方式实现协作决策，从而解决了传统联合学习方法在信息不完备情况下的局限性。这种创新的方法不仅丰富了多智能体学习的理论框架，也为实际应用提供了有价值的参考。

第

卷第

期

l. 17

No.l

控制与决策

2002

年

月

Jan.

2002

Control

and

Decision

立'编号:

1001-0920(2002)01-0029-04

基于独立学习的多

能体协作决策

李晓萌，杨煌普，许晓鸣

〈上海交通大学自动化研究所，上海

200030)

摘

要:联合学习模式是实现多智能体协作决策的有效方法，但是当智能体信息不完备时，这一方法难

以适用。为此，在智能体独立学习的基础上提出一种多智能体协作决策方法。以网格对策为例，仿真证明

了这一方法的有效性.

关键词

多智能体强化学习

独立学习，

Markov

协作决策过程

中图分类号:

文献标识码

Multiagent cooperative decision making

based on independent learning

Xiao-meng

YANG

Yu-pu

Xiao-ming

(Institute

Automation

Shanghai

Jiaotong

University

Shanghai

200030 ,

China)

Abstract:

though

joint

learning

efficient

method

implement

multiagent

cooperative decision,

is unsuccessful

when

agent

has

imperfect

information.

The

method

agents'

independent

learning

which

acts

the

base

multiagent

cooperative decision is

put

forward.

The

experiment

grid

games

shows

the

efficiency.

Key

wor

也:

multiagant

reinforcement

learnning

, independent learning,

Markov

cooprative decision

cess

言

关于多智能体强化学习的研究，近年来引起人

们广泛的兴趣。

Littman

基于零和对策提出了达到

平衡点的学习算法[口。

和

Wellman

给出了在非

零和对策基础上的算法，并证明了这种算法的收敛

性[气上述两种算法的共同特点是智能体采用联合

行动，且都具有彼此间的完备信息(对策结构、状态

转移概率、奖赏函数)

Claus

和

Bout

i1i

研究了协

作的多智能体决策过程时，比较了智能体独立学习

和联合学习的差别，但无法保证这两种学习收敛到

收稿日期:

2000-11-07;

修回日期:

2000

喃

04-28

平衡点，对此他们给出一些加强联合学习的建议。另

外，

Wolpert

等为每个智能体建立了各自的奖赏画

数[飞但该方法使学习过程的分析复杂化，并增加了

计算代价。基于智能体强化学习的应用包括以网络

节点为智能体的网络路由方法[气电梯群控阳和电

网调度[飞这些应用所采用的学习算法均是各自独

立的，没有考虑通过协调来优化系统的整体性能。

本文针对信息不完备的情况，提出在各智能体

独立学习的基础上建立协调策略，以实现协作决策

过程的收敛;并以网格对策进行仿真研究，以证明协

作者简介

李晓葫

0975

一)

，男，四川绵阳人，博士生，从事分布式智能控制、机器学习等研究，许晓鸣

0957

一)

，男，上海人，

副校长，教授，博士生导师，从事复杂系统的智能控制等研究.

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38604951

粉丝: 4
资源: 893

独立学习视角下的多智能体协作决策方法

强化学习的地–空异构多智能体协作覆盖研究

多智能体协作决策机制.pptx

独立学习基础下的多智能体协作决策方法

论文研究-基于信息融合的多智能体协作方法的研究与应用.pdf

一种高效率的多智能体协作学习通信机制.pdf

论文研究-一种基于GPGP的多智能体协同框架.pdf

强化学习的地-空异构多智能体协作覆盖研究.pdf

GameGPT: 多智能体协作框架用于游戏开发

多智能体协作动态路况信息服务系统研究 (2010年)

黑板模型驱动的多智能体协作学习系统研究

最新资源