没有合适的资源?快使用搜索试试~ 我知道了~
多智能体团队学习中的合作优势与RL代理模型
+v:mala2277获取更多论文探索团队在多智能体学习中的优势David Radke1分,Kate Larson1分 TimBrecht11大卫河滑铁卢大学Cheriton计算机科学学院{dtradke,kate.larson,brecht} @ uwaterloo.ca摘要对于需要合作的问题,许多多智能体系统在单个智能体之间或在整个群体中实现解决方案,以实现共同的目标。多智能体团队在冲突中进行了初步研究;然而,组织心理学(OP)强调了人类群体中团队学习如何协调和合作的好处在本文中,我们提出了一个新的多智能体团队模型的激励学习(RL)代理的OP和早期工作的团队在人工智能。我们验证了我们的模型,使用复杂的社会困境,是流行的,在最近的多智能体RL,并发现代理分为团队开发合作的亲社会的政策,尽管激励不合作。此外,与所有代理人的利益一致时相比,代理人能够更好地协调和学习团队中的紧急角色,并获得更高的回报。1介绍在动物和人类的行为中观察到,团队合作的能力可以放大一个群体的能力,超越个人的能力。组织心理学(OP)和生物学已经做了广泛的研究,研究如何“团队的团队”与一个共同的总体目标增加了所有组成团队和个人的集体努力[ Zaccaro et al. ,2020]。最近,人们越来越关注将合作研究作为人工智能(AI)和多智能体系统(MAS)发展的核心[Dafoeet al. ,2021]。我们建议,适应一个类似的团队结构,在OP的人工智能代理人口作为一个中间地带之间的集中和分散的协调和合作系统,可以有利于代理在团队的背景下,多智能体强化学习(MARL)在竞争激烈的两队零和设置中取得了令人印象深刻的结果,例如夺旗[Jaderbergetal. ,2019]、捉迷藏[Bakeret al. ,2019]和Robot Soc-cer(RoboCup)[Kitanoet al. ,1997年]。然而,当代理人联系作者部署到现实世界中,它们将面临非零和的问题[Baker,2020]。因此,有必要探索混合动机域中的合作,例如顺序社会困境(SSD)[Leiboet al. ,2017]。随着人们对探索混合动机领域以及研究群体规模和结构对系统稳定性 的 影 响 越 来 越 感 兴 趣 [Nisioti and Moulin-Frier ,2020],我们的目标是对团队进行建模,并了解他们对MARL智能体学习能力的好处受OP中的组结构和人工智能文献中用于任务完成的团队早期模型的启发,我们提出了一个多智能体团队的通用模型,并在社会困境的背景下对其进行了验证。有充分的证据表明,个体RL代理在社会困境中无法学习合作,而具有共同兴趣的代理则更成功[Anas-tassacosetal. ,2020;Baker等人,2019]。我们的团队模型位于这两个极端之间,其中队友由共同利益约束,但非队友之间存在混合动机。我们表明,在几个游戏中,团队提高代理人如何学习和制定亲社会的政策。这项工作作出了以下贡献:• 我们定义了一个模型的团队的灵感来自早期的工作,多智能体系统和组织心理学。• 我们讨论了我们的模型在不同环境条件下的博弈理论激励的社会困境的背景下的理论后果• 通过广泛的实证评估,我们展示了我们的团队模型如何帮助代理人发展全球有益的亲社会行为,尽管短期激励缺陷。因此,这些团队中的代理在复杂域中获得比所有代理的兴趣一致时更高的奖励,并且与共同兴趣场景相比,自主学习更有效的角色组合。2相关工作探索智能体如何通过团队合作协调其行为(通常用于任务完成领域)的历史由来已久。Pollack的早期工作正式定义了一个智能体扩展PollackarXiv:2205.02328v1 [cs.AI] 2022年5月+v:mala2277获取更多论文≤›→不×›→× ×›→××× ×›→∈T{|⊆∪∩∅∀}G TΣ联系我们⟩∈∈GΣ人类团队合作的心理模型,并将联合行动建模为非加性[Grosz和Kraus,1996]。Tambe在开发STEAM时使用了类似于SharedPlans的任务分配结构,STEAM是一种通用的团队模型,其中任务可以由更大系统中的代理子团队完成[Tambe,1997]。人口中的子团队的想法对AI来说是新颖的;然而,由于代理能力有限,SharedPlans和STEAM仍然无法最 近与 MAS 团 队的 合 作 集中 在 特设 团 队[Mackeetal. ,2021],竞争中的团队[Ryuet al. ,2021],或协调问题[Jaqueset al. ,2019]。当不参加比赛时,人工智能团队通常被设计为实现共同目标,并因其无视OP中的重大发现而受到批评[Andrejczuket al. ,2016]。我们评估我们的团队模型在其他环境中,团队没有直接竞争,复杂的混合动机的社会困境,探索如何结构的启发OP可以适应MAS。研究社会困境以及代理人或人如何克服它们一直是博弈论,经济学,心理学和最近人工智能的研究主题。 促进与MARL代理在社会困境中的合作通常依赖于人口之间的奖励共享[McKeeet al. ,2020]或仅具有不确定性的代理的子集[Baker,2020]。我们将文献大致分为促进合作的集中式和分散式方法。集中系统在文献中采取了各种形式,从集中训练以更好地协调,其中Ai是agenti的动作空间。R=R1. . . R N是所有代理的联合奖励空间,其中R i是代理i的奖励函数,定义为R i:SA SR,在初始状态下采取行动并导致下一个状态的实数奖励P:S A表示将状态和联合动作以一定概率映射到下一个状态的转移函数,γ表示折扣因子,使得0γ1。代理i表示所有代理的策略空间,代理i的策略表示为πi:SAi,它指定代理在观察状态下应该采取的动作。1我们的团队模型由一个随机博弈的团队,其中是将代理群体划分为不相交的团队,=T iT iN、T=N,T iT j=i,j.团队结构定义了团队的组成,例如每个团队中的团队和座席与多智能体团队的最初基础一致[Tambe ,1997;Grosz 和Sidner ,1988],我们将智能体团队定义为通过共同兴趣绑定在一起 与最近的MARL工作相一致,我们通过奖励分享来模拟共同利益,假设代理人同等地重视奖励[McKeeet al. ,2020; Hughes等人,2018]。我们为团队中的代理定义了一个新的奖励函数TR i:S一S所以我的奖励这取决于他们自己和队友的行为。可以实现任何函数来定义TRi。在我们的分析和实验中,我们用途:在测试时[Kraemer和Banerjee,2016]明确提供对另一个代理的内部状态的访问TRi =j∈TiRj(S,A,S′),(1)|T i|Sycara,2021]。 虽然集中式系统效率高,虽然趋同是可靠的,但假定能够接触到所有代理人往往是不安全的,而且它们容易受到外部变化的影响。受人类合作和进化博弈论的假设出现的启发,促进合作的分散系统主要在个体代理层面上实现。 给予代理人惩罚和制裁他人以应对特定行为的能力已被证明可以促进 MARL 中 的 合 作 [Anastassacoset al. , 2021;Leibo 等人,2017]。在这项工作中,我们通过构建一个受人类团队,SharedPlans和STEAM启发的多智能体团队的一般模型来调整OP到AI的研究结果,以分析团队对MARL代理如何学习的好处。我们将一群MARL代理分成不直接竞争的团队,并展示了团队如何像他们与人类一样,改进RL代理如何在具有挑战性的领域中共同进化和学习。我们的工作定位在集中式系统和分散式系统之间。虽然我们的团队模型不假设任何形式的集中控制,但团队结构本身为代理提供了一种更好的协调方式。3一种多智能体团队我们将基本环境建模为随机博弈=N,S,AiN,RiN,P,γ,γ。N是我们所有从经验中在线学习的智能体的集合,S是状态空间,团队成员平等分享他们的奖励,以与过去的工作保持一致[Wanget al. ,2019;Baker等人,2019]。代理从他们使用RL的个人经验中学习正如许多MARL问题中的标准一样,智能体被训练为独立地最大化自己的奖励。特别地,在时间t,每个代理i选择某个动作ai,它们一起形成联合动作at。根据转换函数P,该动作导致从状态st到状态st+1的转换,并为每个代理i提供奖励Ri,t(st,at,st+1)。代理人寻求最大化他们的折扣未来奖励之和,Vi=∞t=0γtRi,t. 我们的模型用TRi代替Ri,侦察-计算学习问题,使代理必须同时-努力学习什么样的个人行为能最大化团队4社会困境社会困境是指个体短期激励与长期集体利益之间的紧张关系,在所有的代理人都喜欢合作均衡的好处;然而,自利行为的短期利益超过了合作行为的短期利益。对于我们的分析,我们认为跨期的社会困境与积极的规定定义为合作时,进行了明确的成本[休斯等人。,2018]。我们实现了我们的模型的团队在它的囚犯的困境(IPD)[ Rapoport,1974 ]和游戏领域的游戏[ Vinitsky等人。,2019]。可被所有智能体观察到,其中si是观察到的单个状态代理i。 A = A1×。. . × A N是联合作用空间,[1]我们也可以考虑随机策略。+v:mala2277获取更多论文−−−∈−∈- -−∈ T|||||不|||4.1环境1:重复的囚徒在一次性囚徒困境中E(D,σT)=νσji(b-c)+(1ν)σ2B.(三)彼此我们假设存在成本(c)和收益(b)我们决定了在何种条件下特工i-当b > c >0时,如果一个代理人合作,它会产生成本c。如果两个探员合作,他们也都-当E(C,σ T)≥ E(D,σ T)时,合作是有动机的。替代品Efit,每个人都获得了b c的奖励。如果一个代理人合作,但其他的缺陷,那么我们假设合作的代理人产生成本c,但背叛的代理人获得收益b(例如,窃取合作者的贡献)。如果双方都不合作,既没有收益也没有成本,导致双方的回报为零。当两个代理人都背叛时,得到唯一的纳什均衡,表示为(D,D)。联合合作并不形成均衡,因为如果一个行动者合作,另一个行动者严格来说最好背叛并接受b,而不是b c。在IPD中,这个游戏被反复玩,它增加了一个时间组件,并允许代理随着时间的推移学习策略。而不是只有两个代理人,我们的工作与人口的代理人分为团队先验。在每一个时间步,代理随机与另一个代理配对,一个对手,可能是也可能不是队友。代理通过数字信号si被告知他们的对手属于哪个团队,尽管不共享附加的身份信息。代理人必须决定是与对方合作还是背叛对方。他们互动的回报是团队奖励,TRi,基于他们自己和其他队友的互动。代理更新其策略(即,学习)使用他们的直接观察si,他们选择了什么行动ai,以及他们的团队奖励TRi。由于只有对手的团队信息是共享的,团队Ti上所有智能体的策略最终会影响智能体如何学习扮演Ti中的任何成员。均衡分析我们有兴趣了解团队的引入如何有助于或阻碍合作。作为解决这个问题的第一步,我们调查的影响,团队的舞台游戏的IPD。为了与标准IPD进行清晰的比较,我们采用了一种事前方法,即代理人知道他们即将发生的互动以及其他团队的存在,但不知道他们的对手的实际团队成员。更多详细信息,请参见附录A2。假设一对智能体i、j已被选择在IPD的某个迭代中进行交互,并且智能体i知道j将以概率ν成为队友,并且以概率(1ν)成为非队友。令σ Ti=(σ ji,1σ ji)表示当j Ti 时j 的策略 剖面, 其中σ ji 是合作 的概率(C)。同样地,设σ Tj=(σ jj,1σ jj)为j的策略剖面,当j T j,任何其他团队。如果代理人i决定合作,它的期望效用,服从代理人j根据等式2和3,这简化为:2cν≥b+c,(4)而不管σTi或σTj。因为b> c>0,所以这个约束是有意义的。满足方程4将阶段博弈的纳什均衡从(D,D)转移到(C,C)。这意味着存在团队可以支持合作激励的情况,但这些情况并不普遍。我们的实验更详细地探索了这一点。4.2环境2:马尔可夫博弈[Vinitsky et al. ,2019]是一个时间和空间扩展的马尔可夫博弈,代表了一个社会困境。这域允许我们检查团队的好处generalize到更复杂的环境,因为代理必须通过运动和决策行动,而不是选择一个明确的合作行动,像在IPD学习合作政策。主动提供是由代理人选择的行动,没有相关的环境奖励,是必要的代理人实现任何奖励。附录B.2中的图6显示了EJB环境,并提供了有关环境参数的更多详细信息。 在每个时间步,智能体从9个动作中选择:5个移动(上、下、左、右或停留),2个转向(左或右),以及一个清理或惩罚光束。地图的一半包含含水层或河流,另一半包含苹果或甜菜。垃圾在每个时间步都以一定的概率堆积在河流中,必须由代理人进行清理一旦达到清洁度阈值,苹果就会在果园中产卵,与河流的整体清洁度成代理人收到奖励+1消费苹果通过移动到他们的顶部。这个两难问题存在于需要花时间清理河流以产生新苹果的代理人中,并且没有获得任何外部奖励,而只是呆在果园里享受另一个人的劳动成果代理人有留在果园的动机,但是如果所有代理人都尝试这种搭便车的政策,没有苹果生长,没有人得到任何奖励。一个成功的团体将在免费搭车的诱惑与清洁河流的公共义务之间取得平衡。5实证评价在本节中,我们将介绍使用MARL代理在这两种环境中进行实验的设置和结果。虽然我们的团队模型不需要它,但我们假设对于所有E(C,σT)=ν(b-c)(σji+1)+(1 ν)(σ2b−c)。( 二)T i,T j,Ti=Ti(即,给定一个团队模型,团队的规模相同这避免了在团队显著不同的情况下代理交互可能出现的复杂性如果代理人i决定背叛,它的预期效用,服从代理人j2https://cs.uwaterloo.ca/http://www.example.com大小,并在我们的领域保持一致不同规模的交互机制和团队将留待未来的工作。我们使用符号/ Ti来表示团队的总数和每个团队的大小例如,1/NJJJJ+v:mala2277获取更多论文联系我们×−联系我们|不|||b+c−联系我们联系我们联系我们图1:IPD:上图显示了当N = 30时,具有三种不同成本效益比的MARL实验的归一化平均群体奖励,置信区间为95%。 下图显示了等式4的激励行为,其中正(或零)是合作,负是激励的背叛动化。团队结构被标记为/ Ti,并以完全共同的兴趣(1/30)和完全混合的动机(30/1)作为书签。当b5,10时,除了个人主义情况(30/1)之外的每个团队结构都获得了大约1/30的回报,而不需要在群体中有完全的共同利益。表示一个团队的N个代理(完全共同利益)和N/1表示N个团队的一个代理(完全混合动机)。当然,许多情况可能介于这两个极端之间。由于完全混合动机的代理人作为独立代理人工作(即,没有团队),它作为一个基准,我们可以比较团队结构的表现。5.1IPD评价在IPD中,每个实验持续1. 0 106集,其中N= 30个代理使用深度Q学习进行学习[Mnihet al. ,2015]。一个情节是由一组智能体交互定义的,其中每个智能体与另一个智能体配对,并扮演囚徒困境的一个实例。代理配对是在每个团队中使用均匀随机分布的,因此代理无法明确修改他们与谁交互,这显示为在没有额外基础设施的情况下出现合作的挑战性场景[Anastassacoset al. ,2020]。每个实验重复五次。在附录B.1中,我们证明了这种配置如何确保每个代理具有相同数量的预期交互来学习。附录B.1.3提供了进一步的实施细节。奖励在我们的第一组实验中,我们探索团队结构支持合作的程度我们将成本(c)固定为1,收益(b)为2、5或10。为了在代理收敛到策略之后捕获代理的优先级,图1的顶部图显示了使用MARL代理的最后25%的事件的归一化平均全局回报。我们在区间[0c,0 +b]中对每个实验的平均全局奖励进行归一化,并计算95%置信区间以比较不同的成本和收益比。展示3代码:https://github.com/Dtradke/TeamsIPD图2:IPD:5/6团队组成,显示当c = 1和b 2,5时,对队友和非队友的合作百分比。当利益更大时,尽管有背叛的动机,代理人还是会对非队友制定亲社会的政策。每个实验的相应激励,我们包括底部曲线图,其显示通过修改的方程4计算的动作激励,ν2c。 图中的每一条都与上面的实验相对应,因此正(或零)条代表合作被激励,负条代表背叛。成本效益比按效益最高(左)至效益最低(右)排列。通过公式4,团队结构在图1中的18个场景中的13个(72%)中呈现出代理人的背叛倾向(不包括1/30和30/1)。我们的研究结果表明,团队总是比个体代理获得更多的奖励(30/1);然而,这种奖励取决于成本和收益比。当b= 2时,实验结果表明,平均人口奖励a对下图中各情景的激励都有跟随趋势。我们在图1中的主要发现是,当收益增加时,MARL代理如何实现高平均人口奖励,尽管有激励缺陷,如底部图所示。当b为5,10时,除了个人主义的30/1方案,即使存在混合动机的环境,每个团队结构也能获得与1/30基本相同的回报。在这些实验中,12个实验中有7个(58%)是叛逃行为,如果代理人真的学会了叛逃,那么这些实验将产生较低的全球奖励。相反,我们观察到代理开发的社会政策,实现高回报,在每一个场景与团队的多个代理时B5,10。为了分析在促进背叛的环境条件下获得多高的回报,我们研究了代理人政策在进化生物学中,已经发现在各个层面上促进合作取决于合作回报的大小[Schnellet al. ,2021]。不同类型的合作,或合作水平,尚未明确探讨在MARL。我们在IPD环境中确定了两个合作级别:与队友和非队友。图2显示了5/6团队结构中,当b2,5时,随着时间的推移,合作行动的百分比。通过等式4,代理人在两种情况下都有背叛的动机。X轴表示时间,Y轴表示智能体合作行为的百分比(2,000集的图2中的两个图都显示,无论b如何,智能体都会立即学会与队友合作。当b= 2时,智能体背叛非队友;然而,当b= 5时,智能体学会与队友和非队友合作。我们观察到类似的行为,+v:mala2277获取更多论文××联系我们图3:每个团队结构的平均群体奖励6/1代表个体主义主体,1/6代表所有主体有共同利益。2/3和3/2团队结构都比1/6和6/1团队结构获得更多的奖励。团队结构(不包括30/1)五十 也就是说,尽管有背叛的动机,但虽然其他工作需要对代理行为进行强有力的假设来促进合作,但我们的结果表明,团队允许代理在系统的多个级别上学习紧急合作约定。5.2评价在 2010 年 , 类 似 于 以 前 的 工 作 [ 休 斯 等 人 。 ,2018;McKeeet al. ,2020; Jaqueset al. ,2019],我们用N= 6个代理进行实验。我们的代理使用近端策略优化(PPO)[Schulmanet al. ,2017] RL算法用于1. 6 108环境时间步(每集为1,000时间步)。代理的可观察性仅限于15 15 RGB窗口。队友共享相同的颜色,并在每个环境时间步优化TRi- culated。每个实验重复八次试验。更多详情见附录B.2。奖励图3显示了每个场景的平均群体奖励已经预先证明,实现最多群体奖励的设置是当代理人是利他主义的并且为整 个 群 体 的 集 体 奖 励 进 行 优 化 时 [Wanget al. ,2019;McKeeet al. ,2020],类似于我们的1/6配置。然而,团队引入了一个新的动态环境,我们发现2/3和3/2团队结构都实现了高于1/6的回报,尽管所有代理人的利益不一致。正如预期的那样,6/1方案未能实现显著的回报,因为代理人屈服于搭便车的激励[McKeeet al. ,2020]已经表明,仅评估系统的平均奖励掩盖了其他动态,例如代理之间的高水平奖励不平等。平等重要的是要考虑团队如何获得更高奖励的过程以及对群体平等的潜在副作用,例如在代理之间分配的奖励。我们将人口奖励平等建模为逆基尼指数,类似于过去的工作[McKeeet al. ,2020年],计算如下:图4:95%置信区间下每个团队结构的逆基尼指数(平等)。值越大,代表越平等。2/3和3/2团队结构都具有很高的平等性,尽管所有代理人的利益并不一致。其中RN是平均群体奖励。图4显示了我们的相等结果,其中值越大表示越相等。根据定义,1/6场景总是1,因为只有一个团队。尽管获得了高回报,2/3和3/2团队结构也实现了高平等,并且总是比6/1更平等成功的合作依赖于代理人协调,形成一个有效的联合政策,而不是简单地选择一个明确的合作行动(如在IPD)。为了进一步理解团队结构如何在保持高度平等的同时实现最高回报,我们分析了代理人分工虽然智能体一直在学习分工,但同一编号的智能体并不总是在我们实验的不同试验中学习相同的行为,这使得聚合多个试验变得困难。因此,图5示出了在我们评估的一个试验中每种试剂的平均采摘苹果(顶部)和清洁本试验中的行为代表了每个团队结构最常见的劳动分工。在每个图中,同一团队中的代理以相同颜色的不同阴影表示。y轴表示收集的苹果数量或采取的清洁行动,x轴表示时间。代理很少惩罚,因此我们从我们的分析中省略它。在1/6配置中(图5,左),两个代理学习主要摘苹果,而四个代理清理河流。虽然这代表了1/6最常见的劳动分工,但我们确实观察到两个试验,其中三个智能体学习采摘苹果,三个智能体学习清洁河流。这些策略实现了较高的平均报酬,但不是最佳的分工,并且始终比2/3和3/2团队结构实现更少的报酬。当分析2/3和3/2的团队结构时(图5,中间的列),智能体倾向于将自己分成四个苹果采摘者和两个河流清洁者。这种分工在我们的评估中始终获得最高奖励。3/2团队结构倾向于更快地学习这种划分,尽管平均而言,两种配置最终获得的回报基本相同,如图3所示。6/1的独立代理商未能显著清洁河流,因此很少有苹果生长,导致ΣN ΣN−|Ri−Rj|低回报。在图5所示的示例等式= 1i=0j=0,(5)2 |N |2R N免费搭乘一种河流清洁剂的劳动力。总之,我们的研究结果显示了团队中的智能体如何构建,+v:mala2277获取更多论文图5:APPLE(上图)和CLEANING BEAM(下图)的平均数量,分别对应于不同团队结构中的6个智能体团队通过自主学习团队中的角色,在人群中学习更好的任务专业化。这允许2/3和3/2团队结构中的种群保持河流清洁,而大多数代理收集产卵的苹果。这导致2/3和3/2在团队之间实现高人口奖励6讨论和今后的工作在多个领域中,我们已经证明,我们的团队模型对代理人如何学习制定亲社会政策和协调他们的行为有重大影响。在IPD中,我们展示了团队如何允许代理立即识别并与他们的队友合作,这可能类似于人类行为中的亲属选择[Muthukrishna,2017]。有趣的是,我们发现强化学习智能体发展了一种亲社会的约定,并将这种合作行为适应于非队友,即使背叛具有更大的期望值。这种行为可能与人类不同水平的合作具有可比性,类似于从仅亲属 选 择 到 与 其 他 群 体 直 接 互 惠 的 概 念 的 合 作 增 加[Muthukrishna,2017]。虽然以前认为优化来自所有代理的信号可以获得最高的回报[Wanget al. ,2019; McKeeet al. ,2020],我们的结果表明,代理优化的人口只有一个子集(即,一个团队)获得更高的奖励。代理商在代理商中的专业化在[McKeeet al. ,2020]。在这项工作中,特殊化被视为一个负面的结果,导致高度的劳动不平等。然而,团队的背景应该改变任务专门化在MARL中的看法。在关于团队形成和联盟结构生成的文献中,团队通常被明确地构建以填补必要的角色[An-drejczuket al. ,2016]。我们认为任务专业化的代理自主学习这些角色,只有反馈他们的团队这加强了我们的假设,即团队可以帮助改进MARL代理如何学习协调,并且可能对新兴的组织或社区特别感兴趣。但是,团队之间可能会出现一些副作用。虽然我们的3/2团队结构在2015年获得了高回报,但不平等程度高于2/3。为了实现四个采摘者/两个清洁者的劳动分工,一个团队(图5中的T1(红色))必须免费乘坐其他两个团队的劳动在实践中,尽管短期稳定,但如果轻微的不平等从长期来看不利于其福利,则系统应考虑潜在的副作用。此外,当我们探索人工智能代理的团队时,团队也可能由人类或人工智能和人类的混合群体组成。探索替代性团队奖励函数可能会导致有趣的结果和未来的研究,特别是在混合团队的背景下。我们看到许多有趣的开放式问题与多智能体团队。例如,构建更丰富的奖励结构的个人优化各种类型的目标[Radkeetal. ,2022]。关于合作水平,探讨规模不等的团队和低水平合作(即,裙带关系或贿赂)破坏全球进步的问题可能令人感兴趣。我们的模型被构造成可以很容易地允许代理之间的额外的基础设施的适应。因此,长期问题包括分析沟通、谈判、信任和制裁等特征如何影响我们的模型并引入新的挑战。我们希望这项工作将重振多智能体团队与RL代理的研究,以进一步了解组织心理学和AI的发现如何相互补充。确认本 研 究 由 加 拿 大 自 然 科 学 和 工 程 研 究 委 员 会(NSERC)、安大略省研究生奖学金、Cheriton奖学金和滑铁卢大学校长研究生奖学金资助我们还要感谢JesseHoey 、 RobinCohen 、 AlexiOrchard 、 SriramSubramanian、Valerie Platsko和Kanav Mehra对本书早期草稿的反馈和有益讨论。引用[Anastassacos et al. ,2020] N. Anastassacos,S.海尔斯,和M. 穆索莱西合作伙伴的选择对于Coop的出现+v:mala2277获取更多论文在多智能体系统中使用强化学习。在AAAI,2020年。[Anastassacos et al. , 2021] N.阿 纳 斯 塔 萨 科 斯 ,J·加西亚,S. Hailes和M.穆索莱西合作和声誉动态与强化学习。在AAMAS,2021年。[Andrejczuk et al. , 2016] E. 安 德 烈 丘 克 Rodriguez-Aguilar和C.西拉多智能体团队:贡献与研究机会。多代理系统和协议技术,2016年。[Baker et al. ,2019] B.贝克岛Kanitscheider,T. 马尔科夫,Y. Wu,G.鲍威尔湾麦格鲁和我莫达奇多代理自动课程中的紧急工具使用。2019年,在ICLR[Baker,2020] B.贝克随机不确定社会偏好下的涌现互惠与团队形成。NeurIPS,2020年。[Dafoe et al. ,2021] A. Dafoe,Y. 巴赫拉赫湾哈德菲尔德,E. Horvitz,K. Larson和T. Graepel合作人工智能:机器必须学会寻找共同点。自然,2021年。[Deka和Sycara,2021] A. Deka和K.西卡拉人工智能竞争团队中异质策略的自然出现在2021年的群智能国际会议上[Grosz and Kraus,1996] B. Grosz和S.克劳斯复杂群体行动的协作计划。第内特尔,1996年。[Grosz和Sidner,1988] B. Grosz和C. L.西德纳讨论计划。技术报告,BBN实验室,1988年。[Hughes et al. ,2018] E.休斯,J. Z。Leibo,M. 菲利普斯,K. Tuyls,E. A. 你是一个叫阿·古兹曼的人。 卡斯塔-恩贝达岛邓宁,T. Zhu,K. R. 麦基河 Koster,H. 罗夫,以及T. Graepel不平等厌恶改善了跨时社会困境中的合作。在NeurIPS,2018年。[Jaderberg et al. ,2019] M. Jaderberg,W.恰尔内茨基岛敦宁湖Marris,G. L ev e r,A. Casta nBacheda ,C.Beattie , N. C. Rabinowitz , A. S. Morcos , A.Ruderman,N. 索内拉特,T. 格林湖,澳-地Deason,J.Z. 雷波D.Silver,D.哈萨比斯,K. Kavukcuoglu和T. Graepel基于群体再强化学习的3d多人游戏中人类水平的表现。Science,364:859[Jaquesetal. , 2019]N. Jacques , A. Lazaridou , E.Hughes,C. Gülc ehre,P. A. Ort eg a,D. Strouse,J. Z.Leibo和N. D. 弗雷塔斯社会影响作为多智能体深度强化学习的内在动机。2019年,在ICML[Kitano et al. ,1997] H. Kitano,M. Asada,Y. 国吉,I. Noda和E.大泽Robocup:机器人世界杯。1997年《特工[Kraemer and Banerjee,2016] L. Kraemer和B.班纳吉多智能体强化学习作为去中心化规划的预演。神经计算,190:82[Leibo et al. ,2017] J.雷波,诉赞巴迪,M. 兰托特,J. Marecki和T. Graepel序列社会困境中的多智能体强化学习。AAMAS,2017年。+v:mala2277获取更多论文[Macke et al. ,2021] W.马克河Mirsky和P.史东. 在特别的团队工作中,沟通对计划的预期价值。在AAAI-21,2021中。[McKee et al. ,2020] K.R.麦基岛根普湾麦克威廉姆斯,E.A. 你是阿奎兹-古兹曼。休斯 和J。Z. 雷波混合动机再学习中的社会多样性和社会偏好AAMAS,2020年。[Mnih等人,,2015] V. Mnih,K. 卡武克库奥卢D. 西尔弗A. A. Rusu,J. Veness,M. G. 贝勒马尔A. 格雷夫斯,M. A.里德米勒,A.菲杰兰湾奥斯特洛夫斯基,S。彼得森,C.贝蒂,A.萨迪克岛安东诺格鲁H。金,D. Ku-maran,D.维尔斯特拉,S。Legg和D.哈萨比斯通过深度强化学习实现人类水平的控制Nature,518:529[Muthukrishna,2017] M.穆图克里希纳腐败、合作与亲社会制度的演变。Evo- nomics,2017.[Nisioti 和 Moulin-Frier , 2020] E. Nisioti 和 C. Moulin-Frier。 将 人 工 智 能 建 立 在 人 类 行 为 的 起 源 上 。ArXiv,abs/2012.08564,2020。[Pollack,1990] M. E.波拉克计划是一种复杂的心理状态.《沟通的意图》,1990年。[Radke et al. ,2022] D.Radke,K.Larson和T.布莱希特信念在多主体学习中的重要性。自适应和学习代理研讨会在AAMAS,2022年。[Rapoport,1974] A.拉波波特囚徒困境-回忆与观察。博弈论作为冲突解决的,第17-34页。斯普林格,1974年。[Ryu et al. ,2021] H.柳,H. Shin和J. Park。多智能体强化学习的合作和竞争偏见。在AAMAS,2021年。[Schnell et al. ,2021] E.施内尔河Schimmelpfennig,以及M. 穆图克里希纳雄鹿的大小决定了合作的程度。bioRxiv,2021年。[Schulman et al. ,2017] J.Schulman,F.Wolski,P.达里瓦尔A. Radford 和 O. 克 里 莫 夫 邻 近 策 略 优 化 算 法 。CoRR,abs/1707.06347,2017。[Tambe,1997] M.坦比灵活的团队合作。J. Artif.内特尔Res. ,7:83[Vinitsky et al. ,2019] E.维尼茨基,N.雅克,J.雷波,A.卡斯泰纳达和E.休斯序贯社会困境游戏的开源实现。https://github.com/eugenevinitsky/sequentialsocialdilemma games/issues/182,2019.[Wang et al. ,2019] J. X. Wang,中国山核桃E.休斯角,澳-地 费尔南多,W. M. Czarnecki,E. A. Du e'n Gizez-Guzm a'n和J. Z.雷波利他行为的内在动机的进化。在AAMAS-19,第683-692页[Zaccaro et al. ,2020] S. J. Zaccaro,S. Dubrow,E. M.Torres和L.坎贝尔多团队系统:不同形式的综合审查和比较。组织心理学和组织行为年度,2020年。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功