基于次优演示的贝叶斯团队模仿学习器

46 浏览量更新于2024-02-04 收藏 883KB PDF 举报

模仿学习

实验结果

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文1{1}|}基于次优演示Sangwon Seo和 Vaibhav V. 温海尔卡尔莱斯大学{sangwon.seo，vaibhav.unhelkar} @ rice.edu摘要我们提出了贝叶斯团队模仿学习器（BTIL），模仿学习算法来模拟在马尔可夫域中执行顺序任务的团队行为。与现有的多智能体模仿学习技术相比，BTIL显式地建模和推断团队成员的时变心理状态，从而能够从次优团队合作的演示中学习分散的团队策略。此外，为了允许从小数据集进行样本和标签有效的策略学习，BTIL采用贝叶斯观点，并且能够从半监督演示中学习。我们展示和基准测试的合成多智能体任务，以及一个新的数据集的人类智能体团队合作的BTIL的性能。我们的实验表明，尽管团队成员的心理状态（随时间变化和潜在的不一致）对他们的行为有影响，但BTIL可以成功地从演示中学习团队策略1介绍团队合作是人类事业成功的关键。随着人工智能越来越多地成为人类生活的一部分，因此，他们也被期望对人类团队进行推理并做出贡献。同时，团队合作是高度追求完美的。成功的人类团队采用各种训练技术来提高协调和团队合作[Tannenbaum和Salas，2020]。类似地，由于需要启用和增强人类-代理协作，在开发用于训练人工代理以支持人类团队的计算技术方面的工作越来越多。，2016]。这些技术建立在各种人工智能范式之上，例如不确定性下的规划、约束学习和模仿学习。在这项工作中，我们认为模仿学习的范式[Argalletal. ，2009; Osaet al. [2018 - 03 - 28]其中，本文是2022年国际人工智能联合会议（IJCAI）上接受的同名论文从演示中学习，（与强化学习相反）因此可以学习团队合作的策略，而不需要不安全的探索。通过提供受现实世界团队合作考虑启发的新型多智能体模仿学习技术，这项工作旨在使智能体能够在顺序任务中建模，评估和改善人-人和人- AI团队合作。从数学上讲，模仿学习技术试图学习一个单主体行为策略（π），这是一个随机函数，它编码了在特定于任务的上下文中选择动作（a），由演示者提供的（s，a）-元组的数据集。通常，情境特征和动作（a）被假设为使用传感器完全可观察和测量。模仿学习已经被扩展到通过寻求学习一组行为策略πii=1：n来建模多智能体系统，一个策略对应于多智能体系统的团队合作示范[乐等人， 2017;Bhattacharyyaet al. ， 2019;Songet al. ，2018;Linet al. ，2019]。我们提供了一个简短的调查，相关的多智能体模仿学习（ MAIL ）技术在 Ap-pennsylvania A。MAIL是一个新兴的研究领域，现有的研究要么关注于多智能体系统的博弈均衡学习策略，要么假设智能体的能力具有同质性，要么将最优合作行为的数据作为训练输入。然而，与现有技术中考虑的大多数环境相反，在实践中观察到的团队合作[Salaset al. ，2018;Seoet al. ，2021]通常在三个关键方面不同：（1）它可能不对应于博弈论均衡，（2）由于它依赖于潜在的绩效塑造因素（例如团队成员的心理模型），它可能是次优的，以及（3）它可能涉及具有不同能力的团队成员。在现实世界中观察到的团队合作的这三个因素的通知，在第二节。3.3，我们为协作任务提供了MAIL的替代问题形式。特别地，我们认为团队成员的行为（π i）是决定团队成员行为的重要因素不仅取决于上下文特征，（随时间变化的）心理模型（xi）与团队合作有关。由于心智模型不能被轻易地感知，并且手动注释它们是资源密集型的，因此它们被建模为模仿学习者部分可观察此外，在团队中-在心理模型不一致的情况下（即，团队成员没有保持共同的理解），可用于学习的演示可能是次优的。arXiv：2205.02959v1 [cs.AI] 2022年5月+v：mala2277获取更多论文2图1：Movers域。人类机器人队需要把箱子移到旗子上。当且仅当两个智能体都拿起盒子并沿着相同的方向移动时，每个盒子才可以移动。因此，增加了挑战，在我们的问题制定中，模仿学习者还需要推断团队演示的哪些部分是（次）最优的，并在动态状态（s，x）的部分可观测性下执行学习。针对这个问题，我们提出了贝叶斯团队模仿学习器（BTIL，简称“bee-tul”），这是一种模仿学习算法，可以从最优和次优演示中学习分散的团队策略。为了有效地学习团队策略，BTIL明确地对每个团队成员的时变心理状态（xi）进行建模，并共同学习他们的转换。位置模型（Tx）。为了实现样品和标签高效的聚合，冰冷的学习，BTIL利用贝叶斯的角度来看，是因为能够从对精神状态的部分监督中学习我们对两个现有的技术[Pomerleau，1991年;宋等。，2018]。在我们的评估中，我们强调了收集团队演示的挑战，通过收集一个新的数据集的人-代理团队合作的设置，其中（a）的标签的心理模型只有部分可用，（b）演示的数量相对于任务的状态空间的大小是小的我们的实验表明，BTIL可以从次优团队合作的小型半监督数据集中学习团队策略，并在相关指标上超过基线。运行示例为了帮助描述我们的方法，我们使用图1所示的协作场景作为运行示例。在这个场景中，由Alice和Rob组成的两人团队的任务是在最短的时间内将所有盒子一起移动到旗帜上在每个时间步，每个代理可以选择在四个基本方向中的任何一个方向上移动，尝试拿起或放下一个盒子，或者不执行任何操作。由于每个箱子都很重，单靠一个代理人是抬不起来的。为了有效地将所有盒子移动到目标位置，团队需要协调下一个要拾取的盒子以及移动盒子的路径因此，在这种情况下，相关的潜在状态（x）对应于团队(i.e.、其中一个框或标志），而可观察状态（s）对应于代理和盒子的位置。在任务执行过程中，团队成员例如，Alice可能以左上方的盒子为目标，而Rob以左下方的盒子为目标，从而展示了次优的团队合作。此外，为了改善协作，团队成员可以或可以在任务过程中的任何时候都不要根据其他队友的行为来选择改变他们的目标。因此，如前所述，团队合作的演示可能不符合博弈论均衡，并且由于依赖于部分可观察的动态心理模型，可能是次优模仿学习者的目标是学习团队的心理模型依赖的政策，给出这些（潜在的次优）部分可观察的团队合作示范。2相关工作我们的工作涉及以下三个子领域的模仿学习：多智能体模仿学习，学习次优的演示，学习部分可观察的演示。在这里，我们总结了这些子领域的研究，并将其与我们的方法相关联。关于MAIL技术的更详细的讨论，请参阅附录A多智能体模仿学习（MAIL）尽管存在多个MAIL算法，但是现有技术中考虑的问题设置与本文中考虑的问题设置不同。重申SEC。1，先前的MAIL技术要么学习对应于多智能体系统的博弈论均衡的行为[Songet al. ，2018;Linet al. ， 2019] ，假设代理人的能力同质[ Bhattacharyya et al. ，2019]，或者不考虑潜在的表现塑造因素（如心理模型或认知状态）。对潜在状态进行建模的AP方法假设潜在状态在成员之间共享[Wanget al. ，2021;Ivanovicet al. ，2018]或时不变[Leet al. ，2017]。相比之下，受现实世界的团队合作考虑的启发，我们寻求开发MAIL算法，既认识到个人和动态变化的潜在状态的每个成员，并能够学习多代理政策从不同层次的监督的潜在状态。在过去的十年里，具有遮挡或缺失特征的模仿学习也受到了越来越多的关注。这些技术，而不是直接有效的多智能体设置，丁在这项工作中考虑，通知我们的工作。[Torabietal. ，2018;Sun和Ma，2019]考虑从可能不包括演示者动作的数据的演示中学习代理策略。类似地，[Choi and Kim，2011;Gangwaniet al. ，2020]通过利用置信状态允许状态的不完全规范。[Unhelkar和Shah，2019]明确地对代理精神状态），其可以在一个事件内动态地改变。虽然与我们的工作有关，但这些技术只考虑单代理任务，而不对多个代理之间的交互进行建模。[Bogert和Doshi，2018]提供了一种从部分可观察的演示中进行多机器人逆强化学习的方法。与我们的方法相反，他们的工作并没有模拟代理人+v：mala2277获取更多论文3|=（n，S，A，T，R，γ）×→∈×···∈|××→∈→∈|∈×× × ×→|∈××→从次优演示中学习虽然经典的模仿学习假设演示是由表现最优的专家生成的，但一些方法承认演示在实践中可能是次优的。例如，假设大多数演示是最优的，[Choietal. ，2019;Zhenget al. ，2014]关注对次优离群值具有鲁棒性的模仿学习。与此同时， [Brownet al. ，2019;Chenet al. ，2020;Zhanget al. ，2021年]的目标是纳入来自专业水平未知的演示者的演示，以克服缺乏专家演示的挑战。[Yanget al. ，2021]利用潜在的动作表示，同时从潜在的次优演示中学习最优策略。虽然与我们的方法有关，这些解决方案的模仿学习从次优演示既不考虑演示者的心理状态，也没有多智能体任务。相比之下，我们的目标是开发一种方法，可以从部分可观察和次优的演示中学习随机多智能体策略。3问题公式化为了形式化从次优和部分可观察的演示中学习团队策略的问题，我们首先提供了团队任务和团队成员行为的模型3.1任务模型由于我们专注于学习面向任务的团队策略，我们需要一个模型来表示团队任务。借鉴多智能体系统的先前研究[Oliehoek和Amato，2016]，我们建立在多智能体马尔可夫决策过程（MMDP）的框架上来描述感兴趣的任务。MMDP是一个顺序协作任务模型，MMDP的解决方案是一组n个分散的代理策略π1：n，其中πi是第i个代理的策略。在运行的示例中，这对应于Alice和Rob的策略。在数学上，πi（ai s）是第i个智能体由于每个智能体都具有完整的状态可观测性，理论上，MMDP可以在任务开始之前由团队使用MDP求解器[Puterman，1990]如果每个团队成员都遵循这一最佳策略-忠实地保证了MMDP任务中团队成员之间在任务执行过程中的协调3.2Agent模型然而，在实践中，很少观察到团队成员之间的完美协调，包括在代理具有任务状态的完全或接近完全可观察性以及团队目标的完全知识的任务中（例如，手术室中的医疗保健团队，或棒球或足球运动员团队这种不完善的协调的潜在原因例如，由于无法计算联合策略、缺乏事先协调、执行不完善以及不同的个人偏好，可能会出现不完善的协调。为了设计一个能够有效恢复团队策略的模仿学习算法，必须明确考虑这些不完美和次优团队的潜在原因因此，为了对实践中观察到的团队合作进行建模，我们为每个团队成员的（潜在次优）行为提供了一个潜在变量模型我们的模型扩展了Agent Markov模型（AMM），该模型明确地对单个Agent行为的潜在状态进行建模[ Unhelkar和Shah，2019 ]，以模拟团队合作。特别地，我们将每个团队成员的行为建模为元组（Xi，bxi，T xi，π i），其中• xi∈Xi表示影响第i由元组M任务表示。得双曲余切值.代理这些可能包括心理• n是索引为1的代理i的数量：n;• 表示任务状态的集合;• ai Ai，是第i个代理可用的动作集合ai• A=iAi是联合动作的集合，其中a=[a1，，ann]表示联合行动;• Ts（s′s，a）：S A S[0，1]表示状态转移概率，即，组代理在状态s中执行动作a之后，下一个任务状态为s'的概率• R（s，a）：S一R是团队在执行动作A之后接收状态S。• γ是贴现因子。MMDP模型假设所有智能体都有一个共同的目标，每个智能体对任务状态和奖励都具有完全的可观测性。n个代理人的集合（我们统称为团队）的共同目标是最大化他们的预期累积折扣奖励E[tγt R（st，at）]。在在这项工作中，我们专注于可以建模为MMDP，其中状态集合S和动作集合A是有限的。几个现实世界的任务可以使用MMDP建模例如，在运行示例中描述的场景可以被描述为MMDP，其中n=2，S对任务相关特征（即，代理和盒子位置）进行建模，并且A对代理可用的动作进行建模。模型，如果存在多个最佳策略，或对不同任务组件的偏好，则打破平局的方法。• bxi（xi）Xi[0，1]表示任务开始时潜在状态的概率分布。• T xi（x′is，x i，a，s′）SX iA SX i[0，1]表示潜在状态的转移模型。• π i（a i s，xi）S X i A i[0，1]表示团队决策者的策略，每个成员的决策ai以其决策因子（s，xi）为条件的概率分布。参考运行的示例，Alice和Rob的行为不仅取决于任务上下文（MMDP状态），还取决于他们对下一个目标位置的潜在偏好对于每个团队成员，代理模型有助于建模这种潜在偏好（如x i X i），他们的潜在状态依赖策略（如πi），以及他们的潜在偏好的估计（通过bxi和T xi）。虽然上述模型是表达性的，并且可以代表各种团队行为（例如，次优策略，基于过去行为的潜在偏好的演化），我们假设转换动态Tx是计算易处理性的马尔可夫。从符号上讲，我们将整个团队的最优X=×iXi，Tx={Tx1，···，Txn}，π=[π1，···，πn].整个团队的潜在状态表示为x=[x1，···，xn]。+v：mala2277获取更多论文4·|∼|m=1i，sx这是部分可观察和资源密集型的，一m=1SXA我针对这种特殊情况导出的解决方案，（q）=q（π） q（{x}m>l）=状态xi和策略πi。在这种特殊情况下，潜在状态xi在任务执行期间不改变，并且因此在没有上标的情况下表示。任务状态st+1的动态性依赖于MMDP模型Ts（st，at）。为了完成生成过程，模型加法-包括潜在状态和策略的先验（图2中未示出）。在没有任何额外领域知识的情况下，我们假设该策略是作为分类分布给出的。因此，我们将策略的先验定义为其共轭先验，即狄利克雷分布：πi，sx<$Dir（uπ），其中uπ=（uπ，· · ·，uπ）是超参数。同样，我们作为-1|一|图2：2-agent团队行为的动态贝叶斯网络，使用板符号描述时不变的潜在状态。3.3问题陈述说明了马克思主义经典邮件设置，目标是学习假设潜态是从均匀分布中提取的，除非给出额外的信息：xiUni（X）。给出了半监督示例（τ1 ：d，χ1 ：l），策略可以通过最大化后验来学习：p（π|τ1：d，χ1：l）。带有监督的策略学习（l=d）对于x的标签可用于整个数据集的情况，我们可以从一组团队合作示范1τ中获得团队策略。直接计算策略的后验分布为：（s0：h，a0：h），其中h表示演示长度。然而，在我们的环境中，团队行为还受到以下因素的影响： .p（πi，sx|τ1:d ，χ1：1）=Dir（wi，sx（1）团队成员潜在状态的轨迹其中，W=uπ+l1（s′，x，a′）。有记号的。因此，我们专注于团队策略的半监督学习，其中x标签仅适用于演示的一个子集。形式上，我们的问题对应于学习团队策略π，给定MMDP任务模型（n，S，A，T，R，γ），半监督的策略学习（l d）当la-潜在状态的特征仅部分可用，类似的特征p（τ1：d，χ1：lπ）不能容易地计算，因为它取决于未知变量，即数据的子集对于其潜在状态x个标签不可用：{xm}m>l。一组d个可观测的演示，τ1：d. {m}d，因此，在计算中计算后验分布和标签=τm=1我们以一种自然的方式，探索近似的范式，.x对于证明的子集l（≤d），贝叶斯计算。我们注意到计算位置-χ1：1={Xm}l. 对于我们的运行示例，通过精确推断（即，蛮力）是棘手的对应于恢复两个智能体团队（Alice和Rob）的行为策略，给定智能体和盒子位置τ1：d的d个可观察轨迹以及每个智能体对于轨迹的子集的优选目标位置的标签4解决方案：静态潜在状态为了便于说明，我们首先推导出团队成员不变的情况下他们在任务执行过程中的潜在心理模型（x）;数学-因为我们的问题是高维的受先前单代理建模工作的启发[Johnson和Willsky，2014;Unhelkar和Shah，2019]，我们利用平均场变分推理（MFVI）[Beal，2003]并推导出用于建模团队策略的MFVI算法。在MFVI中，团队策略的后验近似为最大化证据下限（ELBO）的变分分布q（π）。对于我们的问题，ELBO对应于：maticall y，Tx=.1（x=x′）。在下一节中，我们将建立在L.Elogp（π，{xm}m>l，data）SEC的问题3.3. 我们注意到，尽管静态潜在状态的简化，学习者需要在局部条件下进行推理。最优化问题arg maxq的解对应于局部的迭代计算L（q），学习团队策略的状态可观察性生成模型为了能够从少量的演示中学习策略，我们使用贝叶斯方法q（x）和全局q（π）变分分布直到收敛：q（π i，sx）=Dir.（3）并提供一个团队行为的生成模型生成模型，如图所示。2对于一个双代理团队，X1的t 1stst+1X2的t 2h步d个样本π1π2i，sxa（s'，a'）∈τmi，mQM+v：mala2277获取更多论文5E'=u+Eq（xn（s，x ，a）. （5）sxai，m）我，基于当前任务状态st，她的心理状态在时间步骤tEq'（A）[lnA]，以及q（xi，m=x）=（1/Z）expτklnπi，sxa（4）创建团队演示的过程。每个代理（在-其中，Z=<$x'∈Xexp[<$τlnπ<$i，sx'a]是划分函数。由下标表示）选择它的动作，tπi（·|st，xi），- 是的Σ1表示法：我们用上标表示时间步长。子脚本被重载，并且基于上下文，用于表示第i个代理、第m个演示、任务状态s、代理π i，sxaπak=1i，m1t tiτm行动;行动最后，为了便于记谱，我们用1abc（a′，b′，c′）表示为1（a′=a，b′=b，c′=c）。给定后验q（π），策略被简单地估计为最大后验概率（MAP）估计：π=argmaxπq（π）。W运算符A表示expM+v：mala2277获取更多论文6ML1：nM|Eq=u+Eq（x）i，m我ni，m我我Σ算法1贝叶斯团队模仿学习器（BTIL）输入：τ1：d，χ1：l参数：uπ，uTx，N，Ts1：初始化wπ，wTx，i=1：n我我2：初始化所有未标记状态q（{x0：h}m>l）的后验3：当（q）收敛4：更新变分参数wπTx1：n5：对于所有τm做6：计算前向F和后向B消息7：更新所有未标记状态q（{x0：h}m>l）8：结束9：结束时10点整：计算策略后验q（π）Dir（wπ）11：returnarg maxπ我q（π）图3：2-agent团队行为的动态贝叶斯网络，使用板符号描述时变潜在状态。Alg. 1提供了BTIL的伪代码，其将后验分布p（Tx，πτ1 ：d，χ1 ：l）近似为独立的变分分布q（π）q（Tx），哪里q（π i）=Dir（w π）和q（Tx）= Dir（w Tx）。的估计我我我5解决方案：动态潜在状态与上述特殊情况相反，在实践中，通过迭代更新变分参数wπ，wTx（第4行）来改进后验分布。类似于等式5时，将变分参数更新为：D每个成员wTx=uTx+ΔE1'（xt：t+1，at，st：t+1）执行任务。因此，接下来，我们扩展了静态潜在状态的解决方案，以解决一般问题的SEC。三点三与前一节类似，我们首先提供一个通用的-我，jkass' km=1dq（x）tjkassi i提出了一种基于MFVI的策略MAP估计方法。πi，sxaπ一m= 1t1sxa（st，xt，at）（7）一般情况下，团队行为的生成过程还需要对团队成员心理模型的时间演化进行如图所示，3、我们扩充了图3的生成模型。 2包括每个代理需要估计未标记状态q（x）的后验分布来计算等式中的期望。7. 该局部变分分布如下给出：q（x0：h）exp（E [ln p（x i，data |T x，b x，π i，T s]）.t +1 tt t电话+1=p（x0：h，τ|T˜ ，πθ，T，b）/Z（八）动力学：Txi=P（xi|s，xi，a，s）的。一般来说，如何i，mi，mxiisxii，m心智模型演变可能不是先验已知的，因此需要先验分布的规范。与策略先验类似，我们利用Dirichlet分布作为潜在状态转移模型的先验，即Txi，sxas'sxas。计算Eq. 8以易于处理的方式，我们定义了以下前向-后向消息。这些消息以递归方式计算（第6行），如下所示：F（t，j，···，j）Dir（uT，···，uT），其中u T是超参数。两个T x1n1和|X|x.tt0：t0：tπ共同影响团队行为的半监督演示的可能性，p（τ1：d，χ1：l|T x，π），其中=P（x1=j1，···，xn=jn，sΣ（a）Y.ΣTx指定下一个潜在状态xt+1的分布，π是作用量at的函数。由于这种依赖性，要使用MFVI恢复团队策略，我们需要一种方法来计算=k1，···，knF（t−1，k1，···，kn）Tsi=1Txi π˜i它们的联合后p（Tx，π|τ1：d，χ1：l）。B（t，j1，···，jn）t+1：ht+1：h不不0：t0：t贝叶斯团队模仿学习器（BTIL）类似于秒4、我们对整体问题的解决方案--简称为=P（s）得双曲余切值. |x1=j1，···，xn =j n，sn（a）BTIL-然而，与前一节相比，变分分布还包括潜在的后验分布。=l1，···，lnB（t+1，l1，···，ln）TsTx1Xt 1xt+11π1的t 1Stst+1π2的t 2Xt 2xt+12Tx2h步d个样本得双曲余切值.W.+v：mala2277获取更多论文7Y所需的局部概率（第7行）如下：niY=1.Txiπistate dynamicsTx. BTIL算法建立在MFVI的基础上，并通过最大化以下ELBO得到：F（0，j1，···，jn）=<$bxiπ<$i，B（h，j1，···，jn）=1i=1好吧π，Tx，{x0：h}m>l，dataMXMM>L为了便于标记，省略了下标m给定L（q）：= Eq日志q（π）q（T）q（{x0：h}）（六）前向消息F和后向消息B，BTIL计算+v：mala2277获取更多论文8Y.<$q（x，x）<$F·Tπ<$·T·Bxiss| |×我1n我我q（xt）<$F·Bq（xt）=q（xt，···，xt）x−i6.2基线和基线由于我们的问题设置的新功能，据我们所知，现有的算法不容易适用我们的问题的一般版本。现有的MAIL解决方案要么不模拟心理状态，要么假设它们是t t+1我我q（xt，xt+1）=<$q（xt，xt+1）x−i在所有团队成员之间保持一致，或者将他们建模为时间，变量。因此，我们根据问题的特殊情况对我们的方法进行基准在我们的实验设计中，我们将问题分为四个设置，基于两个标准：（a）是否潜在状态Tx的过渡模型前向和后向消息传递子程序的时间复杂度为O（hX2n）.给定第10行中的收敛后验q（π），团队策略被估计为MAP估计（第11行）。6实验我们使用两个域来评估BTIL，Movers和BTL，是已知的先验或不，以及（b）是否潜在的状态是完全贴上标签或没有。我们应用行为克隆（BC）和MAGAIL作为基线，用于设置完整的标签和已知的转换模型T x[Pomerleau，1991;Songet al. ，2018]。BC和MA-GAIL 的实现类似于 [Ho 和 Ermon ， 2016;Songet al. ，2018]，但适于处理离散的其中包括现实世界团队合作的上述特征和挑战这些领域建立在[Oliehoekand Amato，2016]的合作推箱任务的基础上，包括明确的潜在偏好，并允许团队成员的心理模型（错误）对齐的机会补充材料中包含了这些领域中协作任务执行的视频演示。由于心智模型的潜在性，人类团队成员的潜在状态的标签无法在没有显著的人工努力和注释的情况下此外，现有的多智能体数据集，据我们所知，没有记录在每个时间步的协作任务的金属模型。因此，为了进行拟议的实验并计算相关指标，我们为每个领域创建了两个新的数据集：一个是合成生成的，另一个是通过人类受试者实验收集的。states.对于标签仅部分可用的设置，我们不能应用现有算法;相反，我们比较了我们方法的监督（BTIL-Sup）和半监督（BTIL-Semi）版本的性能。附录D中提供了BTIL和基线的实施详情。我们评估我们的方法的能力，有效地学习团队的政策，使用加权詹森-香农分歧（JS Div。）之间的真实和学习的政策。与[UnhelkarandShah，2019]一样，政策分歧度量由训练集中观察到的状态（s，x）的相对计数加权策略学习性能只能在具有合成数据的实验中计算因此，我们还比较了去-使用学习的策略对未标记的潜在状态进行编码特别地，我们利用归一化的汉明距离（Ham-1），ming）之间的解码的x0：h和真x0：h序列，我，我，我，6.1域Movers本域实现了Sec. 在一个77格的世界里。 Alice和Rob的两名成员团队负责将箱子搬运到目标位置（旗帜）。箱子不能由一个代理人单独拾取;因此，为了有效，成功地完成任务，智能体应该协调他们的潜在偏好，选择下一个盒子。每个盒子可以位于其原始位置，由两个代理持有，也可以位于目标位置。如运行示例中所述，代理可以在每个步骤中执行六个操作之一在这个域中，有38988个可观察的状态和5个可能的状态。心理状态（对应于三个盒子拾取位置，地点和两个落客点），影响每个团队成员此域的配置与Movers相似，但环境中放置的垃圾袋较轻，而不是较重的箱子。垃圾袋只能由一个智能体拾取;因此，为了有效地完成这项任务，每个智能体应尽可能携带不同的垃圾袋。每个垃圾袋可以在其原始位置，由其中一个代理持有，或被丢弃在目标位置。在这个域中，总共有超过450000个状态影响代理决策原始行为和潜在偏好每个代理可用的域与Movers域相同潜在状态作为解码度量。为了解码团队成员的潜在状态，如附录B所述，我们扩展了[ Seo etal. ，2021]。最后，为了更好地了解这些高度非线性指标的最坏情况值，我们使用了随机基线，它将团队策略建模为均匀分布。6.3合成数据我们首先介绍了合成数据集的结果，总结在表1中。这些实验在两种情况下评估BTIL：具有和不具有Tx的先验知识。我们在附录E中提供了其他结果。多智能体协作的数据第一个数据集是通过模拟两个人工智能体之间的协作而合成生成的。对于每个域，我们实现马尔可夫任务模型Ts，指定地面实况策略πi，和团队成员T xi的转换。为了达到代理策略，我们指定与每个潜在状态相关联的奖励，uti-texture值迭代来计算Q值，并使用Q值上的softmax运算来导出随机策略πi通过首先将初始潜在状态xi分配给每个团队成员，然后迭代地（a）sam，将团队成员的行动应用于（·|s，xi），（b）对第n个状态s′∈T（·|s，a），以及（c）对所述n个Xt进行采样。+v：mala2277获取更多论文9∼·|表1：多智能体团队合作的合成数据的结果平均超过五个学习试验。搬家公司爱丽丝·罗布Tx不含Tx0.32± 0.02 0.15± 0.01 0.31± 0.03 0.15± 0.010.06±0.010.22±0.03±0.020.17± 0.03BTIL-Sup0.30±0.01 0.07±0.00 0.27±0.01 0.07±0.00 0.09±0.02 0.20±0.01 0.04±0.01 0.19±0.00BTIL-Semi0.15±0.02 0.05±0.00 0.16±0.020.05±0.000.09± 0.020.07±0.010.04± 0.010.04±0.00随机0.72± 0.00 0.14± 0.00 0.77± 0.00 0.14± 0.00 0.78± 0.00 0.32± 0.00 0.82± 0.00 0.36± 0.00BTIL-Sup0.31±0.01 0.07±0.00 0.35±0.01 0.07±0.00 0.54±0.01 0.20±0.01 0.48±0.03 0.19±0.00BTIL-Semi0.30±0.01 0.04±0.00 0.33±0.01 0.04±0.00 0.42±0.01 0.05±0.00 0.36±0.01 0.04±0.00tent状态x′iT xi（x i，s，a，s′），直到达到任务终止标准或200个时间步。对于每个域，我们生成200个用于培训的演示和100个用于评估的演示。次优培训演示的比例(i.e.、其中团队成员BTIL在完全监督的设置中优于基线表1的前四行提供了20个标记的结果。BTIL有效地利用无监督演示来改进团队策略学习。最后，我们比较了BTIL在半监督下的性能，即，一般设置的SEC。3.3. 对于这些试验（表示为BTIL- Sup），我们提供了算法额外的180个演示，没有潜在状态标签的情况（d=200，l=20）。比较性能的BTIL-Sup和BTIL-Semi，我们观察im-政策学习绩效的改进，突出强调示范（d=l=20）和Tx作为输入。为此设置关于TheMoversBTIL能够有效利用可用的无监督数据。这种能力在实践中尤为重要，在这种情况下，域，我们观察到，监督ver-我们的算法（BTIL-Sup）比基线学习更准确的团队策略。其他基线（BC，MAGAIL）的表现并不比随机基线好。在2010年，我们的算法在策略学习度量（JSDiv. ）.尽管训练集很小，但BTIL可以通过有效地利用x标签和Tx的知识来学习具有低JS分歧的团队策略。在解码度量（Hamming）方面，BC在DCT域中表现出比BTIL更好的结果。我们认为，这一趋势的出现是由于两个原因的结合。首先，Movers域需要相对于P2P域更紧密的协调。在Movers中，队友必须同意下一个选择哪个对象以实现协调，而在Movers中，他们只需要确保他们下一个不会选择相同的对象。其次，解码度量（Hamming）仅在状态空间的子集上评估学习性能（即，测试集中遇到的状态）;而JS Div. 评估整个状态空间的学习性能，因此是泛化能力的更好指标。这就解释了为什么即使在MIMO中，BC也仅在解码度量上优于BTIL。在需要更紧密协调的Movers域中，BC在这两个指标中表现不佳。BTIL能够学习团队策略，而无需事先了解Tx。如表1的底部所示， BTIL 可以保持其策略学习性能（ JSDiv. ），即使Tx未知。这些结果表明，BTIL是能够学习Tx连同π和（π，Tx）的联合学习是必不可少的模仿学习的团队策略。不出意外的是，当解码算法-Rithm利用了学习的Tx，潜在状态解码性能相对于已知的Tx情况下降。选择（s，a）元组的数据可以比到达精神状态的标签显著地更少在附录E中报告的AD实验中，进一步研究了训练集大小和半定量的影响监督对学习性能的影响，我们观察到解码性能随着更多的标记数据而增强，并且当标记的训练集小时，半监督提供了最大的益处。6.4人类-人工智能团队合作的数据结果综合生成的数据虽然在验证策略学习性能方面很有用，但无法捕捉人类和人类代理团队所表现出的行为变化因此，为了在更现实的环境中对我们的方法进行基准测试，我们通过伦理委员会批准的人类受试者在人类-代理团队合作的新数据集上评估我们的算法33名参与者（16名女性，17名男性，平均年龄：26岁）进行实验。7± 5。3年），谁被招募在赖斯大学。数据收集程序为了收集这个人类-AI团队合作的新数据集，我们设计了一个基于Web的界面，如图4所示。通过这个基于网络的界面，参与者与AI队友一起完成两个领域（移动者和移动者）的任务。人类参与者扮演爱丽丝的角色，而人工智能队友扮演罗布的角色，罗布被描绘成一个机器人化身。当实验开始时，参与者被要求完成一个简短的人口统计调查。此外，在参与者执行任何任务之前，为他们提供了互动教程，以使他们熟悉任务和界面。在完成互动教程后，实验包括9个部分：4个关于搬家公司的部分，主要和5个任务的能力。对于每个域，前两个设置算法汉明JS分区汉明JS分区汉明JS分区汉明JS分区与随机BCMAGAIL0.29± 0.000.30± 0.030.14±0.000.21±0.020.29± 0.000.31± 0.030.14±0.000.24±0.010.18± 0.000.16± 0.030.32±0.000.29±0.020.18± 0.000.17± 0.050.36±0.000.38±0.04+v：mala2277获取更多论文10图4：为收集人类-智能体团队合作的数据而设计和使用的用户界面。另请参阅用户界面视频演示的相关资料。会议被用作实践会议。这些练习课程旨在让参与者进一步熟悉用户界面。通过教程和练习，每个参与者都被要求与根据AI策略行为的机器人化身合作完成任务。AI策略的生成类似于合成实验，即通过指定与每个心理模型相关联的奖励，运行值迭代，并在Q值上采用softmax函数。对于每个任务，参与者一般来说，收集参与者的心理状态的地面真值是具有挑战性的;在这些实验中，我们通过Ap-附录C中详细描述的目的地选择界面来实现这一点。通过鼓励他们通过提供的说明尽快完成任务，并通过显示通过这个实验，我们收集了66个移动轨迹和99个移动轨迹，其中每个时间步都被标记。平均轨迹长度（以时间步长计）在Movers域中为68.1，而在Molders域中为40.1。次优演示的比例（如附录C中定义）分别为17%和7%，，分别。表2：人类-智能体团队合作数据的状态解码性能（汉明距离）平均超过五次学习试验。0.14± 0.020.20± 0.02 0.42± 0.02用多智能体团队合作的数据观察到的BTIL的性能转化为人类智能体团队合作的学习策略。在我们的实验中，我们使用三分之二的轨迹进行训练，其余的用于评估。由于我们无法确定人类的真实策略，因此在这些实验中仅使用状态解码度量。此外，正如实践中的情况一样，心理模型动力学也是不可用的;因此，Tx需要由我们的al-aim学习，并且MAGAIL基线不能应用。表2总结了使用通过BTIL的变体学习的π和Tx计算的解码性能BTIL的所有变体都提供相同数量的（s，a）-演示，但不同x标签的数量即使有少量的超级-视觉，显著优于随机基线。结合用合成数据计算的结果，这些实验提供了BTIL从最优和次优团队合作的小型半监督数据集学习团队策略7总结发言我们提供了BTIL，贝叶斯方法来学习团队政策，从次优团队合作的示范。在大多数协作场景中，由于团队成员的变化、团队策略的调整以及标记潜在状态的需要，收集团队的大型标记数据集是具有挑战性的。受实践中观察到的团队工作的这些和其他方面的启发，BTIL包括多个期望的特征，包括（a）从半监督数据的小集合中学习的能力，（b）团队成员的心理模型和模型对齐的显式建模，以及（c）联合推断团队策略、潜在状态动态和潜在状态的能力。我们确认了我们的算法在两个新的团队合作数据集上学习团队策略的能力，其中包括人类-AI团队合作。我们的工作还提供了未来工作的几种途径，包括考虑协作任务的能力，其中任务状态本身可能是部分可观察的，并考虑沟通行动。致谢我们感谢匿名评论者的详细和建设性的反馈。SangwonSeo通过合作协议号W 911 NF-20-2-0214得到了陆军研究办公室的部分支持。本文件中包含的观点和结论是作者的观点和结论，不应被解释为代表陆军研究办公室或美国政府的官方美国政府被授权为政府目的复制和分发重印本，尽管此处有任何版权注释。阿尔戈里特监督移动器清理随机BTIL-SupBTIL半导体BTIL半导体N/A百分百百分之五十百分之二十0.72± 0.000.16± 0.020.77± 0.030.30± 0.020.35± 0.03+v：mala2277获取更多论文111nA多智能体模仿

下载后可阅读完整内容，剩余1页未读，立即下载