贝叶斯团队模仿学习器：从次优演示中学习协同策略

67 浏览量更新于2024-06-16 收藏 883KB PDF 举报

"这篇论文提出了一种名为贝叶斯团队模仿学习器（BTIL）的新算法，该算法致力于模仿在马尔可夫决策过程中执行序列任务的团队行为。BTIL的特点在于它能建模和推断团队成员的时变心理状态，从而能够从次优的团队合作演示中学习分散的团队策略。它采用了贝叶斯方法，允许在小数据集和半监督演示情况下进行高效的学习。论文通过一系列合成多智能体任务和新的人类智能体团队合作数据集的实验，验证了BTIL在处理时间变化和潜在不一致的心理状态影响下，依然能成功学习团队策略的能力。" BTIL算法的核心在于解决团队模仿学习中的关键挑战，即如何理解并复制团队中个体间的协调和合作模式。在传统的模仿学习中，通常假设单一的行为策略可以捕捉演示者的全部行为，但在多智能体环境中，每个团队成员可能有自己的决策过程，这需要更复杂的模型来解析。论文指出，团队合作对于人类和人工智能的成功至关重要。随着AI在人类生活中的角色日益增加，它们也需要具备理解和参与人类团队合作的能力。模仿学习作为一种无须危险探索的学习方式，特别适合学习团队合作策略。BTIL的独特之处在于它将注意力转向了团队成员的心理状态，这些状态可能随时间和环境变化，而且可能不一致，这对团队行为产生重要影响。 BTIL采用了贝叶斯框架，这使得它能够在数据稀少的情况下进行样本和标签有效的学习，适应了实际应用中可能出现的小规模数据集。此外，它还能处理半监督学习情况，即不是所有团队成员的演示都可用或完全理解。这增强了算法的灵活性和实用性。实验部分，BTIL在合成任务和实际的人类团队合作数据集上展示了其性能。结果显示，即使在考虑了团队成员心理状态变化和不一致性的情况下，BTIL仍能有效地学习和复制团队策略。这表明BTIL有望成为一种强大的工具，促进人-人和人-AI团队合作的建模、评估和提升。 "基于次优演示的贝叶斯团队模仿学习器"为多智能体模仿学习领域提供了一个新的视角，通过考虑个体的心理状态变化，增强了团队策略学习的准确性和适应性。这一研究为未来的人工智能应用于复杂团队环境提供了理论和技术支持。

+v：mala2277获取更多论

文

（n

，

γ）

×→

∈

···

∈

| ×× →

∈→

∈

| ∈ × × × × →

| ∈ × × →

从次优演示中学习虽然经典的模仿学习假设演示是由表

现最优的专家生成的，但一些方法承认演示在实践中可

能是次优的。例如，假设大多数演示是最优的，

[

Choiet

al. ，2019;Zhenget al. ，2014

]

关注对次优离群值具有鲁

棒性的模仿学习。与此同时，

[

Brownet al. ，

2019;Chenet al. ，2020;Zhanget al. ，2021年

]的

目标是纳

入来自专业水平未知的演示者的演示，以克服缺乏专家

演示的挑战。

[

Yanget al. ，2021

]

利用潜在的动作表示，

同时从潜在的次优演示中学习最优策略。虽然与我们的

方法有关，这些解决方案的模仿学习从次优演示既不考

虑演示者的心理状态，也没有多智能体任务。相比之

下，我们的目标是开发一种方法，可以从部分可观察和

次优的演示中学习随机多智能体策略。

问题公式化

为了形式化从次优和部分可观察的演示中学习团队策略

的问题，我们首先提供了团队任务和团队成员行为的模

型

3.1

任务模型

由于我们专注于学习面向任务的团队策略，我们需要一

个模型来表示团队任务。借鉴多智能体系统的先前研究

[

Oliehoek和Amato，2016

]

，我们建立在多智能体马尔可

夫决策过程（MMDP）的框架上来描述感兴趣的任务。

MMDP是一个顺序协作任务模型，

MMDP的解决方案是一组n个分散的代理策略π

：

，

其中π

是第i

个

代理的策略。在运行的示例中，这对应

于Alice和Rob的策略。在数学上，π

（a

s）是第i个智

能体由于每个智能体都具有完整的状态可观测性，理论

上，MMDP可以在任务开始之前由团队使用MDP求解器

[

Puterman，1990

]

如果每个团队成员都遵循这一最佳策

略-

忠实地保证了MMDP任务中团队成员之间在任务执行过

程中的协调

3.2

Agent

模型

然而，在实践中，很少观察到团队成员之间的完美协

调，包括在代理具有任务状态的完全或接近完全可观察

性以及团队目标的完全知识的任务中（例如，手术室中

的医疗保健团队，或棒球或足球运动员团队这种不完善

的协调的潜在原因例如，由于无法计算联合策略、缺乏

事先协调、执行不完善以及不同的个人偏好，可能会出

现不完善的协调。为了设计一个能够有效恢复团队策略

的模仿学习算法，必须明确考虑这些不完美和次优团队

的潜在原因

因此，为了对实践中观察到的团队合作进行建模，

我们为每个团队成员的（潜在次优）行为提供了一个

潜在变量模型我们的模型扩展了

Agent

Markov 模型

（AMM），该模型明确地对单个Agent行为的潜在状态

进行建模

[ Unhelkar

和

Shah

，

2019 ]

，以模拟团队合作。特

别地，我们将每个团队成员

的行为建模为元组（Xi，b

xi，T xi，π i），

其中

•

∈

表示

影响第

由元组M

任务

表示

。

得双曲

余切值.

代理这些可能包括心理

•

n是索引为1的代理i的数量：n;

•

表示任务状态的集合;

•

，是第

个代理可用的动作集合

•

是联合动作的集合，其中a

，

]

表示联合行动;

•

Ts（s

′

，

a）：S A S[0

，

1]表示状态转移概率，即，

组代理在状态s中执行动作a之后，下一个任务状态为

的概率

•

R（s

，

a）：S

一

是团队

在执行动作A之后接收状态S。

•

γ是贴现因子。

MMDP模型假设所有智能体都有一个共同的目标，每

个智能体对任务状态和奖励都具有完全的可观测性。n

个代理人的集合（我们统称为

团队

）的共同目标是最大

化他们的预期累积折扣奖励E[

R（s

，

）]。在

在这项工作中，我们专注于可以建模为

MMDP，其中状态集合S和动作集合A是有限的。几个

现实世界的任务可以使用MMDP建模例如，在运行示例

中描述的场景可以被描述为MMDP，其中n

，S对任务

相关特征（即，代理和盒子位置）进行建模，并且A对

代理可用的动作进行建模。

模型，如果存在多个最佳策略，或对不同任务组件的

偏好，则打破平局的方法。

•

（

）

[

，

]

表示

任务开始时潜在状态

的

概率分布

。

•

（

′

，

′

）

A S

，

1]表示

潜在状态的转移模型。

•

（

，

）

S X

，

表示团队决策

者

的策

略，每个成员的决策

以其决策因子（

，

）为条

件的概率分布。

参考运行的示例，

Alice

和

Rob

的行为不仅取决于任务

上下文（

MMDP

状态），还取决于他们对下一个目标

位置的潜在偏好对于每个团队成员，代理模型有助于

建模这种潜在偏好（如

），他们的潜在状态依

赖策略

（如

），以及他们

的

潜在偏好

的估计

（通过

和

）。虽然上述模型是表达性的，并且可以代表

各种团队行为（例如，次优策略，基于过去行为的潜

在偏好的演化），我们假设转换动态

是计算

易处理

性的马尔可夫。从符号上讲，我们将

整个团队的

最优

iXi

，

{

，

···

，

}

，π

，

···

，

]

整个

团队的潜在状态表示为x=[

，

···

，

]。

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

贝叶斯团队模仿学习器：从次优演示中学习协同策略

基于hadoop的朴素贝叶斯分类器

基于最小风险的贝叶斯分类器

基于MATLAB的贝叶斯分类器

朴素贝叶斯分类器和基于最小错误率的贝叶斯分类器

基于RSS发布使用贝叶斯分类器实现目标定位

基于最大熵原理的贝叶斯评定

基于sklearn的朴素贝叶斯

定义一个基于贝叶斯分类器的分类器

基于贝叶斯机器学习文本情感分析评估

基于最小风险的贝叶斯分类

最新资源