CoMON任务。在协作多ON(CoMON)中,事件涉及
两个异构代理A
0
和A
N
。
O
是一个无实体的oracle,它不
能 在 环 境 中 导 航 。然 而 ,A
/O
可 以 访 问 环 境 状 态的
oracle
AN
是实施的导航器,其导航环境并与环境交互。
N
执行multiON [64]任务。为了优化团队的(共享)奖
励,两个智能体必须合作。为此,A·
O
和A·
N
通过经由
有限带宽信道进行通信来协作地执行任务。
探员观察。A
〇
可以访问场景的固定的自顶向下视图以
及A
N
将场景离散化并表示为oracle映射M,即3D张量。
前两个维度对应于自顶向下视图的水平轴和垂直轴,
第
三个维度包含每个单元格
M
[
i
,
j
]
中的语义信息:
•
占用
:位置
[
i
,
j
]
是否是自由空间(
即
,可导
航)、被占用或在场景边界之外。
•
目标对象
:表示哪个目标
对象位于
[
i
,
j
]
或
“
无对
象
”
指示符的分类变量。
A
N
的观察结果与multiON [64]一致在时间步长t处,
A
N
的观测值包括:
•
RGBD:自我中心的视觉和深度框架。
•
Object:表示当前目标对象为独热向量g
t
的
分类变
量。
•
前一个动作
:在前一个时间步的
agent
动作,作
为
一个热向量a
t-
1
。
特工行动空间。在每个时间步,A
O
和A
N
都
向彼此发
送消息。在通信回合之后
,
N
另外采取环境动作。动作
空间由四个动作组成:
向前,
向左,
向右
,
找到
。向前走
代理转发
0
。
25
米,每圈
30
◦
。
任务设计备选方案。 我们注意到还有其他
与独立挑战定位问题的强耦合(
即
,通过从AN的角度
的自我中心观察来确定
AN
由于存在基于自我中心视觉
数据的定位的丰富文献(
例如
,参见Fuentes-Pacheco等
人。[28]对于一项调查),我们考虑了这一方面,允许
更深入地关注对紧急沟通的解释
4.
Agent
模型
我们提供了一个概述,我们的代理模型描述的通信
机制,代理网络体系结构,奖励结构和实施细节。
4.1.
通信机制
我们研究两种类型的通信机制:非结构化[25,46]
和结构化[33,34]。它们的关键区别在于非结构化机制
通过实值向量实现自由形式的通信,而结构化通信机
制通过强加的消息结构具有归纳图2说明了这两种类型
的通信。每一轮通信都涉及两个代理同步地向彼此发
送消息。接收代理使用消息来细化其内部表示(
即
,
信念)。相同的体系结构用于两个代理和每个通信回
合。
非结构化通信(U-Comm)。代理通信实值向量消息。
为了发送消息,信念通过线性层传递以产生发送的消
息。在接收侧,接收到的消息与信念连接,并通过两
个完全连接的层,并通过信念跳过连接,以获得细化
的信念。
结 构 化 通 信 ( S-Comm ) 。 该 代 理 具 有
K
个
命 令
w1
,
. . .
,
w
,
K
,被实现为
可学习的嵌入。请注意,
两轮的嵌入和两个代理不同,并且是单独学习的。
所
发送的消息是概率
P1
,
. . .
,
p
K
(其中
A
N
.例如,可以将目标序列信息给予A
0
。这将对应于调
度操作员与出租车司机通信然而,这将导致大多数信
息与A
/O
集中,并且消除了A
/O
和A/
N
之间频繁双向通
信的需要。另一种设置将向A/O隐藏A
/N
我们的初步研
究包括在这种情况下的实验,没有给A
O
关于
A我们根
据经验观察到,这是一个很难学习的问题,代理商未
能获得有意义的任务表现或沟通策略。我们推测这可
能部分是由于
能力是通过将置信度传递通过线性层、随后是softmax
层来获得的。在接收侧,代理通过使用概率作为权重
线性组合其词嵌入来解码这些传入消息概率,
即
,它
计算
K
p
l
w
l
. 类似于先前的机制,该解码的消息与信
念相关联,并且通过两个完全连接的层并跳过连接以
获得细化的信念。在早期的实验中,我们尝试使用离
散令牌而不是加权和。为了使模型可区分,我们使用
了Gumbel-Softmax技巧,但发现代理无法成功训练。
我们假设这是由于高维输入空间和数值不稳定性