没有合适的资源?快使用搜索试试~ 我知道了~
异构代理的通信机制及其应用研究
15953异构协作具身Agent3*Ritz Carlton酒店,莫斯科-马上预订;3* 莫斯科四季酒店酒店,莫斯科-马上预订; 3 *Ritz Carlton酒店,莫斯科-马上预订; 长11西蒙弗雷泽大学2IIT坎普尔3UIUChttps://shivanshpatel35.github.io/comon摘要近年来,体现AI代理之间的通信受到越来越多的关注。尽管它的使用,它仍然是不清楚的,是否学会沟通是interpretable和接地在知觉。为了研究通信的紧急形式的基础,我们首先介绍了协作多对象导航任务在此任务中,“oracle代理”以映射的形式具有详细的它与一个“导航代理”进行通信要成功完成这项任务,有效的沟通是必不可少的。因此,CoMON用作研究异质代理之间的不同通信机制的基础,即具有不同能力和角色的代理我们研究了两种常见的沟通机制,nisms和分析他们的沟通模式,通过自我中心和空间的镜头。我们发现,紧急通信可以接地代理的意见和空间结构的三维环境。1. 介绍近年来,学习在3D环境中感知,行动和通信的嵌入式AI代理的研究已经变得流行[3,6,9]。多个代理之间的协作也受到越来越多的关注。因此,人们对研究提高协作代理有效性的通信机制重新产生了兴趣[42]。通信的一个关键目标是传递信息。因此,为了分析通信,通常研究协作任务,其中代理具有异构能力或对信息的不对称访问[10,40]。异构代理设置还对应于真实场景,例如引导送货司机到我们家*表示SP、SW和UJ的相等贡献通信机制消息图1.我们提出了一种协作多对象导航任务(CoMON),其中oracle代理A0与导航代理AN通信。oracle Α0拥有全局地图,并且导航器ΑΝ需要感知和导航3D环境以找到目标对象的序列,同时避免碰撞。通过这项任务,我们研究了结构化和非结构化的通信机制对导航性能的影响,以及基于自我中心感知的消息的出现。就因为一个电话然而,关于紧急通信的先前工作已经采用了简化的设置,如参考游戏[5,43]或在2D环境中通信的代理[10]。涉及3D环境中沟通的工作集中在沟通是否可以通过解决任务的合作来提高绩效[32尽管有丰富的文献研究涌现通信,但还没有对现实3D环境中的涌现通信进行系统的分析和解释。在本文中,我们专注于通过自我中心和空间扎根分析来解释紧急通信为此,我们定义了协作多对象导航任务(CoMON),其扩展了最近提出的多对象导航(MultiON)任务[64]。CoMON任务需要一对代理-具有地图形式的环境的特权知识的oracle,以及可以感知和导航环境的导航员-彼此通信,以便导航员找到并到达目标对象的序列(见图1)。该任务的主要作用是研究视觉逼真的3D环境中异构代理之间RGBD目标意见序列带有目标和15954我们对两类通信机制进行了严格的比较和解释:非结构化和结构化通信。第一种通常在非视觉RL设置中采用[25,46],并且对应于Foerster等人的DIAL的 后者通过施加离散的消息结构引入了归纳偏差,并已被Embodied AI社区采用[33,34]。我们发现:1)结构化通信比非结构化通信具有更高的导航性能; 2)使用结构化通信的代理接近匹配“oracle”通信的成功率,但效率较低; 3)类似于“我正在寻找红色目标”的可解释消息出现在两种通信机制中; 4)这两种沟通机制都会导致自我中心的信息出现,比如“目标就在你面前”和“目标就在你身后”。2. 相关工作我们的工作涉及多个代理之间的合作与协调[14,24,27,31,41,44,45,47,51,54,55,67]。我们讨论了相关的工作,紧急通信,合作体现人工智能,体现导航任务。紧急通讯。通过模拟来理解通信的出现有着悠久的历史。Batali [5]通过将简单的短语编码成一系列需要由另一个代理解码的字符来Steels [60]研究了一个类似的机器人实验,这些机器人必须生成一个共享的词汇才能在猜谜游戏中表现出色。福斯特等人[26]表明RL代理可以学习成功的通信协议。福斯特等人[25]然后表明,代理可以学习相互发送的消息形式的通信协议当允许代理进行通信时,出现了有趣的通信模式[11,13,29,30,37,43,49,52,53,61]。最近,Lazaridou et al.[43]显示了自然语言在指称游戏中的出现Das等人。[20]提出了两个静态异构代理之间的合作图像猜测游戏,其中代理通过自然语言进行通信。Mordatch和Abbeel [53]研究了多智能体群体中接地组合语言的出现。对于紧急沟通方法的调查,我们建议读者参阅Lazaridou和Baroni[42]。我们的工作在精神上与Kottur等人相似。[40],因为我们研究和分析了紧急通信模式以及它们所传达的信息。与上述研究和其他涌现交流研究不同,我们对使用离散符号时是否出现组合语言不太感兴趣,而是对两个主体之间是否存在对信息的一致解释,以及它们是否对应于可用的视觉信息。Kajic '等[36]研究智能体如何开发可解释的在网格世界导航环境中的通信机制和可视化代理策略的条件下的消息。我们有一个类似的重点,但我们研究在现实的3D环境中的连续通信。协作的嵌入式AI任务。虽然单个代理的具体任务已被深入研究,有合作体现代理的工作较少Das等人[21]开发一种目标多代理通信体系结构,其中代理选择与其他代理中的哪一个通信。Jain等人[33]引入家具提升任务,其中两个代理必须导航到家具项目。这些代理必须协调以满足用于提升重型家具的空间约束。后续工作研究了家具移动任务,其中代理重新定位解除家具项目[34,35]。然而,代理是同质的,没有地图表示在这些现有的工作进行了研究。Iqbal和Sha [32]通过引入手工制作的内在奖励来激励代理人探索“新”状态来在这里,代理不显式地彼此通信。我们的工作重点是研究一系列的通信机制异构代理在视觉上逼真的室内三维环境。Embodied AI中的导航任务 能够在复杂的视觉3D环境中导航的代理[2,4,12,15,19,19,19]。22,38,39,65,68,69]已经被广泛研究。安德森等[3]将具体导航任务分为点目标导航(PointNav)、对象 目 标 导 航 ( Object-Nav ) 和 房 间 目 标 导 航(RoomNav)。与这项工作相关的是,ObjectNav代理被赋予目标提示,例如对象类别标签或目标对象的图像[7,16长视野导航任务是最可靠的vant to our work [8,23,63,66,72].基于地图的导航方法已经在多对象导航(multiON)上进行了基准测试,即:导航到目标对象的有序序列[64]。由于我们研究通信涉及基于地图的内存,我们扩展multiON的协作设置。3. 任务在这里,我们描述了协作multiON(CoMON)任务,代理观察和动作空间,并讨论了代理之间共享信息的替代方案。后台任务(multiON)。在多个ON [64]的情节中,智能体必须导航到放置在环境中的目标对象G的有序序列。代理通过在距目标的阈值距离内执行FOUND动作来G中的对象从k个唯一类别的集合中采样。如果座席在未接近当前目标的情况下调用FOUND,或者如果超出了分配的时间预算,则发作失败。我们使用m-ON来表示具有m个连续目标的情节。15955}{Σl=1ΣCoMON任务。在协作多ON(CoMON)中,事件涉及两个异构代理A0和AN。O是一个无实体的oracle,它不能在环境中导航。然而,A/O可以访问环境状态的oracleAN是实施的导航器,其导航环境并与环境交互。N执行multiON [64]任务。为了优化团队的(共享)奖励,两个智能体必须合作。为此,A·O和A·N通过经由有限带宽信道进行通信来协作地执行任务。探员观察。A〇可以访问场景的固定的自顶向下视图以及AN将场景离散化并表示为oracle映射M,即3D张量。前两个维度对应于自顶向下视图的水平轴和垂直轴,第三个维度包含每个单元格M[i,j]中的语义信息:• 占用:位置[i,j]是否是自由空间(即,可导航)、被占用或在场景边界之外。• 目标对象:表示哪个目标对象位于[i,j]或“无对象”指示符的分类变量。AN的观察结果与multiON [64]一致在时间步长t处,AN的观测值包括:• RGBD:自我中心的视觉和深度框架。• Object:表示当前目标对象为独热向量gt的分类变量。• 前一个动作:在前一个时间步的agent动作,作为一个热向量at-1。特工行动空间。在每个时间步,A O和A N都向彼此发送消息。在通信回合之后,N另外采取环境动作。动作空间由四个动作组成:向前,向左,向右,找到。向前走代理转发0。25米,每圈30◦。任务设计备选方案。我们注意到还有其他与独立挑战定位问题的强耦合(即,通过从AN的角度的自我中心观察来确定AN由于存在基于自我中心视觉数据的定位的丰富文献(例如,参见Fuentes-Pacheco等人。[28]对于一项调查),我们考虑了这一方面,允许更深入地关注对紧急沟通的解释4. Agent模型我们提供了一个概述,我们的代理模型描述的通信机制,代理网络体系结构,奖励结构和实施细节。4.1. 通信机制我们研究两种类型的通信机制:非结构化[25,46]和结构化[33,34]。它们的关键区别在于非结构化机制通过实值向量实现自由形式的通信,而结构化通信机制通过强加的消息结构具有归纳图2说明了这两种类型的通信。每一轮通信都涉及两个代理同步地向彼此发送消息。接收代理使用消息来细化其内部表示(即,信念)。相同的体系结构用于两个代理和每个通信回合。非结构化通信(U-Comm)。代理通信实值向量消息。为了发送消息,信念通过线性层传递以产生发送的消息。在接收侧,接收到的消息与信念连接,并通过两个完全连接的层,并通过信念跳过连接,以获得细化的信念。结 构 化 通 信 ( S-Comm ) 。 该 代 理 具 有 K 个 命 令w1,. . . ,w, K,被实现为可学习的嵌入。请注意,两轮的嵌入和两个代理不同,并且是单独学习的。所发送的消息是概率P1,. . . ,pK(其中选择如何在AO和Kl=1 pl= 1)。 这些问题-AN.例如,可以将目标序列信息给予A0。这将对应于调度操作员与出租车司机通信然而,这将导致大多数信息与A/O集中,并且消除了A/O和A/N之间频繁双向通信的需要。另一种设置将向A/O隐藏A/N我们的初步研究包括在这种情况下的实验,没有给AO关于A我们根据经验观察到,这是一个很难学习的问题,代理商未能获得有意义的任务表现或沟通策略。我们推测这可能部分是由于能力是通过将置信度传递通过线性层、随后是softmax层来获得的。在接收侧,代理通过使用概率作为权重线性组合其词嵌入来解码这些传入消息概率,即,它计算Kpl wl. 类似于先前的机制,该解码的消息与信念相关联,并且通过两个完全连接的层并跳过连接以获得细化的信念。在早期的实验中,我们尝试使用离散令牌而不是加权和。为了使模型可区分,我们使用了Gumbel-Softmax技巧,但发现代理无法成功训练。我们假设这是由于高维输入空间和数值不稳定性15956线性线性U-Comm消息精炼的信念跳过连接信仰线性和...线性S-Comm学习嵌入消息精炼的信念信念跳跃连接Linear Softmaxk=1不--×个×个信仰信仰发送接收图2. 非结构化(U-Comm)和结构化(S-Comm)通信机制的发送和接收分支的架构。在发送分支上,代理通过传递用于U-Comm的线性层以及通过传递用于S-Comm的线性层和softmax层来创建消息。在用于U-Comm的接收分支上,消息与信念级联,并通过线性层和跳过连接以获得细化的信念。对于S-Comm,消息首先通过线性组合词嵌入w k,同时使用概率p k作为权重(ΣKp k w k)。为每个代理和轮学习嵌入。Gumbel-Softmax的[56]。4.2. Agent网络体系结构图3示出了网络架构。我们适应了TBONE架构,该架构已被证明是成功的多智能体具体任务[33,34]。为了便于阅读,我们去掉了表示时间步长的下标tAO编码4.3. 奖励结构我们使用集中式训练和分散式执行范式[24,47,50,59,62]来建模我们的多智能体设置。在这个范例中,一个中心评论家估计所有代理人的价值函数V(s)测试期间的执行是分散的,每个代理都采取独立的行动。使用导航器(AN)奖励来训练代理:通过存储两个16维可学习嵌入映射1[达到子目标]r目标+r更接近+r时间惩罚,其中1[达到子目标]对于在t t的占用和目标对象类别信息不目标每个网格位置。由于A0可以访问AN这隐式地将A N的 位置 和方 向编 码 到E中 ,然 后 通过CNN 和 线性 层来 获 得A O的 初始信念AN将其RGBD观测o通过CNN和线性层以获得观测嵌入v〇。它还将对象类别g和前一个动作at-1通过单独的嵌入层,以分别获得实值目标嵌入vg和动作嵌入va。v0和vg被连接以获得AN的初始信念AO和AN都要经过两轮通信(详见第4.1节),以分别获得它们的最终信念bO和bN。AN连接其最终信念bN与先前的动作嵌入va,并将其通过GRU以获得状态向量s。Jain et al.[33,34]中,我们使用参与者-批评者架构,其中状态向量s通过:i)参与者头部,以估计动作空间上的分布;以及ii)评价头,其输出估计状态的效用的值。bO未被使用,因此被丢弃。是在时间步t,r找到目标的二元指示符是找到目标的奖励,r更近是前一个和当前时间步之间到目标的测地距离的减小,并且r时间惩罚是每个时间步的惩罚。4.4. 实现细节根据Wani et al. [64],我们将r目标设置为3,将r时间惩罚设置为0。01.我们使用PPO [58]进行训练,使用16个并行线程,每个PPO更新有4个小批和2个epoch。代理被训练,直到在工作线程上累积50M步地图M的维度为300- 300,并且每个单元对应于0。8米0. 8米的补丁在地面上。更多详情请参见补充资料。5. 实验在这里,我们描述的实验设置,我们通过研究这两种通信机制。5.1. Agent模型所有代理模型都共享第2节中解释的基本体系结构。4.第一章对于消融,每种型号的调整如下(详见补充):......15957先前动作地图编码器Oracle地图(全局框架)精炼的信念位置&取向甲骨文地图(自我中心框图像编码器政策RGBD观察结果嵌入精炼的信念GRU嵌入信仰值通信机制(见图2)当前目标对象信仰图3. 总体代理模型是一种架构。 AO和AN处理它们的相应iv e输入以获得初始信念bO和bN,其编码代理关于当前观察的信念。这些由通信信道细化为最终信念b0和bN。信念bN与先前的动作连接,并通过GRU传递到行动者和批评者头部,以获得策略和价值函数估计。NoCom[64]是没有代理AO的模型。这代表P进展(%)PPL(%)导航器ANOracle. 因此,它表示1-开2-开3-开1对2对3对当代理之间发送的消息被OracleMap89 80 70 74 64 52随机多项式概率向量 这提供了以下结构化通信的下限。U-Comm代表了一种使用非结构化通信的模型4.1.S-Comm表示使用结构化通信的模型,如在第4.1.OracleMap[64]将AO和AN组合到单个代理中。实际上,该代理可以访问地图,并且它必须在环境中导航而不需要通信。因此,它设置了性能的上限。5.2. 数据集我们使用基于AI栖息地模拟器[57]的multiON数据集[64]该数据集包含具有代理起始位置、方向和目标位置的情节。 有八个目标对象具有相同的圆柱形状但不同的颜色。剧集由Matter-port 3D [15]场景生成。我们遵循标准的基于场景的Matterport 3D训练/验证/测试分割与由Wani等人建立的情节。[64]第一章。每个场景包含50,000集火车分裂和12,500集验证和测试分裂。我们为3-ON(3个连续目标)训练模型,并对1-ON,2-ON,3-ON,4-ON和5-ON进行评估。表1. 在1-ON、2-ON和3-ON任务上评估的不同通信机制的任务性能度量。Rand S-Comm和S-Comm的词汇量为2。为了公平比较,Rand U-Comm和U-Comm都具有相同的两个元素的消息长度。随机基线表现不佳,并且接近NoCom(即 U-Comm和S-Comm通信机制的性能都要好得多,并且接近OracleMap,其中S-Comm通常更成功(更高的PROGRESS)和更高效(更高的PPL),特别是当任务变得更具挑战性时。3-ON中所有型号的P ROGRESS方差均小于2%。5.3. 定量评价我们采用Wani等人中使用的四个指标。[64]第一章。 S UC-CESS:发作成功率;SPL:通过路径长度加权的成功;PPL:按路径长度加权的进度。我们在表1中总结了我们的实验结果。我们报告了1,000次val发作的PROGRESS和PPL。正如预期的那样,OracleMap在所有代理模型中具有最高的性能,与 NoCom 相 比 具 有 显 著 的 增 益 。 Rand U-Comm 和Rand S-Comm的性能接近NoCom,这表明学习的消息确实包含有用的信息演员评论家Rand U-Comm表示使用非结构化COM的模型NoCom563926352616当代理之间发送的消息被兰德U-Comm594028362818高斯随机向量这提供了兰德S-Comm503124332416非结构化通信。U-Comm877763605139Rand S-Comm表示使用结构化com的模型。S-Comm85807067595015958第一元件二元件转转AOtoAforrounddN转的m14N→Ow.r.t.目标对象类别(x轴)。的数据从跨越1,000个验证事件的每个步骤中收集曲线图。 看来AN发送不同的消息两个不同的物体。 为了验证这一假设,我们对m1和目标对象之间的1个我们拟合线性m1上的0个探针[1]N→O−1个−2黄色白色黑色绿色蓝色青色红色粉红色不需要对目标对象进行分类。线性探测器使用线性分类器将输入数据映射到输出,并使用交叉熵损失进行训练。我们使用与图4相同的数据进行该分析。我们将数据以3:1的比例拆分为train和val,并训练探测器来预测目标目标对象颜色图4.m1的第一个和第二个元素的值消息带m1的N→O 作为输入。探头实现了根据U-Comm中的目标对象颜色绘制。N→Oval分割的准确度为69.7%,支持我们的假设在x轴上,m1的分布目标对象颜色值位于即M1N→O 传递目标对象颜色。th ththN→Oth是什么在m2中告诉A?这是第二次-y轴。箱形图显示0、25、50、75和100个四分位数O NO→N在去除异常值之后。请注意,AN针对不同颜色的对象发送不同的消息。按平均消息值对颜色的排序看起来尊重色调相似性(例如,红色和粉色靠得很近,而黄色和白色离得很远)。AO送给AN的圣人。我们假设AO使用它来传达目标相对于rt的相对位置。AN.这类似于人类说“你要求的目标就在你面前”图5显示了这两种情况M2元素O→N 中的当前对象目标信息.我们观察到S-Comm比U-Comm表现更好。随着任务难度的增加,差异更加明显。1-ON的PPL降低了10.44%,2-ON的PPL降低了13.5%,3-ON的PPL降低了22%。这表明强加的通信结构有助于更有效地学习当发送消息时,由环境步骤处的AN(自我中心帧)的位置和取向定义的空间参考帧。在图中,代理面向上,并且视场由红线标记当目标在AN前面时,AO发送较小的值为第1个e-沟通策略。NoCom和OracleMap是m2的第2个元素的元素和更高的值O→N. 我们与Wani et al.[64]但是我们训练的是5000万步而不是4000万步。为了测试泛化,我们还对观察到紧急通信表现出角模式。为了量化这一观察结果,我们再次拟合线性probes. 给定m2,我们预测球门ob的角度4-ON(S-CommPROGRESS为63%vs. U-Comm41%)和5-ON(S-CommPROGRESS为52%vs.U-Comm26%)。这喷射w.r.t.一O NN自从情节表明S-Comm代理能够更好地泛化到更困难的任务(更多详细信息请参见补充)。是关于y轴对称的,我们从航向方向取角度的绝对值,并将角度 分成4 个仓 : [0◦ , 45◦ ) , [45◦ , 90◦ ) ,[90◦,135◦),[135◦,6. 通信分析180◦)。给定m2O→N,我们的探测器必须预测垃圾箱在这里,我们解释了紧急沟通之间目标位置将属于哪一个。我们观察到的分类准确率为58%(与机会准确率探员们 我们用符号m圆. 因此的25%),为我们的假设提供了支持,即m2M1O→N 表示发送方→接收方发送的消息传达了目标的自我中心的相对位置O→N一个. 在每个步骤中,在A O和A N之间发送四个消息。代理商:m1,m1,m2,和m2. 我们之间-根据他们各自的观察,我们可以pretm1O→N mN→OO→NN→O[48]第48话:他们的表现是积极的N→O和2在论文的主体部分,对O→NM1的解释在补充。我们不-与他们的观察或行动有关的消息)。Pret2O→N关于To这是MNO因为它被用来提炼信念b OB O没有在任何地方使用。对于U-Comm,我们解释长度为2的消息,而对于S-Comm,我们解释大小为2和3的词汇表(参见词汇表大小为3的补充)。6.1. U-Comm解释6.2. S-Comm解释在该通信机制中,在代理之间交换的消息由相对于命令w1和w2的概率p1和p2组成。在图7中,我们绘制了消息m1的p1分布和m2对是什么告诉一个在M1? 这是第一条信息所有val集发作(注意p= 1N→OO→NN ON→O2-p1,因此可以AN发送给AO。我们假设,它是用来沟通的目标对象的颜色。这是直观的,因为AO需要知道AN必须导航到的目标。这类似于人类询问“绿色对象目标位于何处?“图4显示了这两个元素的分布从p 1的分布推断)。 我们观察到,对于大小为2的词汇表,大多数概率接近于0或1。 基于该观察,对于词汇大小2,我们将概率分为三类<:2),∆2(0.2≤p1≤0。8),或∆3(p1>0. (八)。在这里,我们只值315959inter-15960O→NO→N第一元素第二元素20 30 20100−10个20-20- 10 0 1020自我中心x坐标150-15-30-45−60100−10个20-20- 10 0 1020自我中心x坐标1680−8-16−24图5. 以自我为中心的可视化U-Comm通信符号m2. 这两个图可视化了第一个和第二个的值消息的元素绘制w.r.t.目标物体的相对坐标。导航器代理AN面向+y轴,并且其视场用红线标记。左边的图对应于消息的第一维度,而右边的图对应于第二维度。每个维度的值由色调指示我们观察到,较高的值的第一维对应于“更远的后面”,而较高的值的第二维聚类“接近和前面”的对于词汇量大小为2的pret,并将词汇量大小为3的解释推迟到补充。1-ON。 我们观察到A O传递∆1,∆2或∆3取决于当前目标对象的位置在m1中AN告诉AO什么? 我们再次假设关于AN为了验证这个观察,我们训练一个随机的的使用M1N→O森林分类器来预测通信符号NN→O来传达它必须达到的目标A中当前目标的(x,y)坐标’s导航到。由于有八个目标类别,AN需要传达哪一个是当前目标。我们观察到,当目标对象是红色、白色或白色时,AN发送∆1黑色,否则发送∆2。来量化相关性在通信符号和当前目标之间我们训练随机森林分类器,其预测给定对象类别的通信符号。在这里,我们使用随机森林分类器而不是线性探测器来更好地处理在N参考框架。我们观察到所有三个类别∆1,∆2和∆ 3的准确率约为89%,具有高精度和召回率。∆3(详见补充资料)。拥有更大的词汇量3AO可以发送更多关于当前目标的位置(见附录)。在这两种情况下,我们观察到大多数符号与AN的视场内的区域(用红色描绘)相因此,AO在通信中使用的比例较高的m2O→N 解释如图6所示。 注意为了带宽以向AN传送当前的位置。如果目标在AN的视野中,则将其发送到目标或许,它更先进--解释U-Comm,我们使用消息预测目标类别或目标方向等属性。相比之下,为了解释S-Comm,我们使用属性来预测通信符号在这两种情况下,我们预测一个离散的变量,如对象类别或目标方向在U-Comm和通信符号在S-Comm。这里使用的分类器是使用来自所有验证事件的数据进行训练的。数据被分成训练集和测试集,我们的分类器在测试集上达到了几乎100%的准确率(见补充)。在m2中,AO告诉AN什么? 与U-Comm类似当目标在前面时,目标位置的精确信息对于AN如果目标在视野内,AO根据当前目标与AN这里,由A0和AN发送的消息也取决于它们的观察。因此,它们都表现出正信号传导。A N的 行 为 受 m 2 的 影 响 吗 ? 如果接收到的消息 影 响 代 理 策 略 , 则 代 理 表 现 出 积 极 的 倾 听[ 48 ]。表2报告了每种的百分比A利用m2O→N对S-Comm中的通信符号所采取的操作(具有OO→N以传达目标位置。图-图6示出了当消息被发送时,由A/O发送的符号相对于当前对象目标在A/N的自我中心框架中的相对位置(类似于图5)。在1000个验证事件中累积积分词汇量2)。我们观察到AN在接收∆3时从不调用FOUND。 这是直观的,因为当目标远远领先于A N时,Δ3被传达。 我们还观察到,当A N接收到Δ3时,它更有可能向前移动自我中心y坐标自我中心y坐标----15961∆1∆2∆3自我中心y坐标自我中心y坐标自我中心y坐标二十二十十五十五十十五五五五0 0 0 0-5-5-5-5−10个−10个−10个−10个-15-15-15-15-20-20-15−10个-5 0 5 10 1520自我中心x坐标-20-20-15−10个-5 0 5 10 1520自我中心x坐标-20-20-15−10个-5 0 5 10 1520自我中心x坐标-20-20-15−10个-5 0 5 10 15 20自我中心x坐标图6. S-Comm通信符号m2的自我中心可视化。 图中显示了当前目标对象来自ANO→NO通过S-Comm词汇量为2。领航员特工(AN)面向+y轴,并且其视场用红线标记。 在所有验证事件中累积数据点,并且我们绘制双变量密度分布的等值线。 每个数据点是具有(x,y)坐标的消息,所述(x,y)坐标是从当发送消息时在AN的自我中心参考系中的当前目标对象的坐标确定的。 前三个图用于每个通信符号,最右边的图组合了所有符号。 注意每个符号是如何代表以自我为中心组织在主体周围的不同区域的:Δ1捕获“后面而不可见”,Δ 2主要对应于“靠近,在前面”,Δ 3是“更远的前面”。0的情况。70的情况。60的情况。5交换的消息的部分保持不变,但是AN如何基于接收到的消息而动作是不同的。我们在评估时进行了两个实验来研究这种情况。1)AO发送随机消息时,目标0的情况。40的情况。30的情况。20的情况。10的情况。00的情况。00。2040608个1. 0∆1∆2∆3N→OO→NM1M2自我中心y坐标15962NO→NNN对AN可见。我们发现这并没有改变AN的整体性能。2)我们在场景中插入一个不正确的目标,同时保持AOPROGRESS和PPL指标分别下降至29%和7%我们的结论是,当目标是可见的,一个N忽略来自一个O的消息,并依赖于其感知导航。图7. 概率权重p1消息m1→0和m2f或S-Comm. Thevocab u-7. 结论lary由两个单词w1和w2组成。 因为p1 + p2 = 1,所以这里只画p1。 F或m1→O,概率集中在p1=0和p1=1。 F或m1→0 时,分布比较均匀,在p1= 0和p1= 1时概率较高。前、后、 左、右∆10.8 43.9 24.7 30.6∆20.3 52.2 28.7 18.8∆30.0 63.4 18.9 17.7表2. 在接收到每个S-Comm通信符号(词汇大小2)时由AN采取的动作的分布。每行中的值报告接收到该符号时所采取 的所 有 操 作的 百 分比 。 注 意, ∆3 导 致高 百 分 比的FORWARD动作,而没有FOUND动作。 这在传送Δ3时目标位置相对于ΔN的空间分布方面是直观的,如图6所示。与∆1或∆2相比。这也是直观的,因为当目标遥遥领先时,AN更有可能向前移动当目标在A N的视野中时会发生什么?分布-我们提出了协作多对象导航任务(CoMON)研究异质代理之间的学习通信的基础。使用这个任务,我们研究了两个家庭的通信机制(结构化和非结构化的通信)之间的heterogeneous代理。我们通过自我中心和空间接地透镜分析了紧急通信模式。我们发现出现了可解释的感知特定信息,如“我在寻找X”和自我中心指令,如“看后面”和“目标就在前面”我们相信CoMON任务,以及我们提出的代理之间的通信的解释框架,将有助于系统地研究具体的AI导航代理的接地通信。致谢我们感谢匿名评论者的建议和反馈。这项工作部分由加拿大CIFAR AI主席,加拿大研究主席和NSERC发现资助,部分由WestGrid和Compute Canada提供的支 持 。 这 项 工 作 部 分 由 NSF 在 Grant #1718221 ,2008387,2045586下支持。15963引用[1] Guillaume Alain和Yoshua Bengio使用线性分类器探针理解中间层。arXiv预印本arXiv:1610.01644,2016。六个[2] Phil Ammirato,Patrick Poirson,Eunbyung Park,JanaKosˇeck a´,andAl e xanderCBe r g. 用于开发和基准测试主动视觉的数据集在ICRA,2017年。二个[3] PeterAnderson , AngelChang , DevendraSinghChaplot,Alexey Dosovitskiy,Saurabh Gupta,VladlenKoltun , Jana Kosecka , Jitendra Malik , RoozbehMottaghi,Manolis Savva,and Amir R Zamir.嵌入式导航代理的评价。arXiv预印本arXiv:1807.06757,2018。一、二[4] Iro Armeni , Sasha Sax , Amir R Zamir , and SilvioSavarese.用于室内场景理解的联合2D-3D语义数据。arXiv预印本arXiv:1702.01105,2017。二个[5] 约翰·巴塔利语法出现的计算模拟《语言的进化》,1998年。一、二[6] Dhruv Batra、Angel X Chang、Sonia Chernova、AndrewJ Davison、Jia Deng、Vladlen Koltun、Sergey Levine、Jitendra Malik 、 Igor Mordatch 、 Roozbeh Mottaghi 、Manolis Savva和Hao Su。重排:对嵌入式AI的挑战。arXiv预印本arXiv:2011.01975,2020。一个[7] Dhruv Batra、Aaron Gokaslan、Aniruddha Kembhavi、Olek-sandr Maksymets 、 Roozbeh Mottaghi 、 ManolisSavva 、 Alexander Toshev 和 Erik Wijmans 。 重 新 访 问ObjectNav:对实体化的代理人导航到对象的评价。arXiv预印本arXiv:2006.13171,2020。二个[8] Edward Beeching 、 Christian Wolf 、 Jilles Dibangoye 和Olivier Simonin 。 EgoMap : Projective Mapping andStructive- tured egocentric memory for deep RL.在ECML-PKDD中,2020年。二个[9] Yonatan Bisk 、 Ari Holtzman 、 Jesse Thomason 、 JacobAndreas、Yoshua Bengio、Joyce Chai、Mirella Lapata、AngelikiLazari-dou 、 JonathanMay 、 AleksandrNisnevich、Nicolas Pinto和Joseph Turian。经验是语言的基础。在EMNLP,2020。一个[10] Ben Bogin,Mor Geva,and Jonathan Berant. 在一个具有一致性发言者的互动世界中出现通信。在NeurIPS的紧急通信研讨会上,2018年。一个[11] Jeshua Bratman、Michael Shvartsman、Richard L Lewis和Satinder Singh。一种新的方法来探索语言的出现,作为 有 限 的 最 佳 控 制 , 在 面 对 环 境 和 认 知 的 限 制 。InICCM,2010. 二个[12] Simon Brodeur 、 Ethan Perez 、 Ankesh Anand 、 FlorianGolemo、Luca Celotti、Florian Strub、Jean Rouat、HugoLarochelle和Aaron Courville。家庭:家庭多模式环境。arXiv预印本arXiv:1711.11017,2017。二个[13] Kalesha Bullard,Franziska Meier,Douwe Kiela,JoellePineau,and Jakob Foerster.探索具身多智能体群体中的零 触 发 紧 急 通 信 。 Deep RL Workshop at NeurIPS ,2020。二个[14] 卢西恩·布索纽罗伯特·巴布斯卡和巴特·德·舒特。多智能体强化学习的综合研究。SMC,2008年。二个[15] Angel Chang,Angela Dai,Thomas Funkhouser,MaciejHal- ber , Matthias Niessner , Manolis Savva , ShuranSong,Andy15964Zeng,and Yinda Zhang.Matterport 3D:从RGB学习室内环境中的三维数据。在3DV,2017年。二、五[16] Matthew Chang,Arjun Gupta,and Saurabh Gupta.通过观看youtube视频进行语义视觉导航。在NeurIPS,2020年。二个[17] Devendra Singh Chaplot , Dhiraj Gandhi , AbhinavGupta,and Ruslan Salakhutdinov.使用面向目标的语义探索的对象目标导航。在NeurIPS,2020年。[18] Devendra Singh Chaplot , Ruslan Salakhutdinov ,Abhinav Gupta,and Saurabh Gupta.用于视觉导航的神经拓扑SLAM。在CVPR,2020年。二个[19] Changan Chen,Unnat Jain,Carl Schissler,Sebastia Vi-cenc Amengual Gari , Ziad Al-Halah , Vamsi KrishnaIthapu,Philip Robinson,and Kristen Grauman.声音空间:三维环境中的视听导航。在ECCV,2020年。二个[20] 阿布舍克达斯,萨特维克科图尔,何塞'MF莫拉,斯特凡李和Dhruv巴特拉。用深度强化学习学习协作视觉对话代理。在CVPR,2017年。二个[21] AbhishekD
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功