两体问题：视觉协作中的沟通与导航

58 浏览量更新于2023-10-19 收藏 1.4MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1传奇目标目标与通信事件长度=35运动失败=4假拾取=0成功=真直权左通过拿起行动激活停用没有电视电视消息Oracle观察没有通信事件长度=250运动失败=33错误拾取=21成功=错误两体问题：协作视觉任务完成Unnat Jain1卢卡·韦恩斯2埃里克·科尔维2 穆罕默德·拉斯特加里2，4斯维特拉娜·拉泽布尼克1 阿里·法哈迪2，3，4亚历山大·施温1 阿尼鲁达·肯巴维21UIUC2 PRIOR @ Allen Institute for AI3华盛顿大学4Xnor.ai甲骨文观察消息1行动消息2图1：两个智能体学会成功地在一个以前看不见的环境中导航，找到并共同举起一台沉重的电视。没有学习的沟通，代理人尝试许多失败的行动和皮卡。通过学习通信，代理在观察或打算与电视交互时发送消息。代理还学会抓住电视的两端，并协调这样做。摘要协作是执行超出代理能力的任务的必要技能。在传统和现代人工智能中，多智能体协作经常在简单网格世界的背景下进行研究。我们认为，有内在的视觉方面的合作，应该在视觉丰富的环境中进行研究。协作中的一个关键要素是沟通，沟通可以是通过消息明确的，也可以是通过对其他代理和视觉世界的感知隐含的。学习在视觉环境中协作本文研究了在AI 2-THOR中从像素直接学习协作的问题，并证明了显式和隐式通信模式对执行视觉任务的好处。请参阅我们的项目页面了解更多详情：两https://prior.allenai.org/projects/ 体问题*表示平等缴款。†在艾伦人工智能1. 介绍众所周知，发展协作技能比学习独立完成任务更在人工智能中，多智能体协作已经在更传统的[32，43，9，58]和现代的集合中进行了研究，[53，28，79，35，56，61]。这些研究主要是在网格世界中进行的，并考虑了感知在协作中的作用。在本文中，我们认为，有一些方面的协作，是固有的视觉。在简单化的环境中研究协作不允许观察感知和沟通之间的相互作用，这是有效协作所必需的。想象一下和朋友一起搬一件家具。协作的一部分是通过交换信息的显式通信，另一部分是通过解释关于其他代理行为的可感知线索的隐式通信来完成的。如果你看到你的朋友绕着家具去抓它，你自然会呆在对面，以免把它弄倒。此外，沟通和协作应与任务本身一起考虑你在足球比赛中的沟通方式，无论是明确的还是隐含的，都与你移动家具时的沟通方式大不相同。这表明，分解出每-66896690孤立地设想和研究协作（网格世界）可能不会产生理想的结果。简而言之，学习在视觉环境中协作执行任务需要共同学习（1）如何在该环境中执行任务，（2）何时沟通以及沟通内容，以及（3）如何基于内隐和外显沟通采取行动。在这项工作中，我们开发的第一个框架，使明确和implantable通信代理在一个逼真的环境中合作的研究。为此目的，我们考虑的问题，寻找和解除笨重的项目，不能由一个单一的代理人解除。虽然概念上很简单，但要熟练掌握这项任务需要多个阶段的沟通。智能体必须在环境中寻找感兴趣的物体（可能会相互交流他们的发现），适当地定位自己（例如，彼此相对如果代理人的位置不正确，举起物体将导致它倾倒。类似地，如果代理在不同的时间步拾取对象，则它们将不会成功。为了研究这项任务，我们使用了AI 2-THOR虚拟环境[48]，这是一个照片般逼真的，支持物理学的室内场景环境，在过去的工作中用于研究单智能体行为。我们扩展了AI 2-THOR，使多个代理能够进行通信和交互。我们通过几种模式探索协作：（1）通信对于空间受限任务的好处（例如，要求代理人在举起物体时彼此交叉站立）vs.不受约束的任务。 (2)能力-智能体隐式和显式地进行通信以解决这些任务的能力。(3)沟通渠道的表现力对这些任务成功的影响。(4)这些开发的通信协议在已知环境中的有效性及其对新环境的可推广性。(5)以自我为中心的视觉环境与。网格世界设置。我们提出了一个两体网络，或TBONE，用于建模的代理在我们的环境中的政策。TBONE基于对3D世界的视觉自我中心观察在每个时间步，代理经历两轮通信，类似于每个发送消息，然后回复在第一轮中接收到的消息。TBONE使用Dagger的变体[70]进行热启动训练，然后最小化A3C损失和代理行为和专家策略行为之间的交叉熵损失。我们进行了详细的实验分析的影响，通信使用的指标，包括准确性，失败的皮卡行动的数量，和情节长度。根据我们的上述研究问题，我们的研究结果表明：（1）沟通显然对双方都有好处，图2：政策网络投入示意图。代理的策略基于对场景状态的部分观察以及先前观察、动作和接收到的消息的历史来和不受约束的任务，但对于受约束的任务更有利。(2)显性和隐性通信都被我们的代理人利用，无论是单独还是联合，都是有益的。(3)对于我们的任务，大的词汇量是有益的。(4)我们的智能体很好地概括了看不见的环境。(5)将我们的环境抽象为网格世界设置提高了准确性，证实了我们的概念，即照片般逼真的视觉环境比网格世界设置更具挑战性。这与过去的研究结果是一致的单剂方案。最后，我们通过将逻辑回归模型拟合到消息来预测诸如到目标的预言距离、下一个动作等值，并找到与我们关于代理之间消息使用的直觉相匹配的2. 相关工作我们现在回顾视觉导航，导航和语言，视觉多智能体再强化学习（RL），和虚拟学习环境的方向的相关工作，在过去的工作中采用评估算法。视觉导航：大量的工作集中在视觉导航上，仅使用视觉输入来定位目标。著名的早期基于地图的导航方法[47，6，7，64]使用全局地图来做出决策。最近的方法[76，87，23，85，46，71]在飞行中重建地图。同时定位和映射[84，74，24，12，67，77]考虑孤立的映射。在获得环境地图后，规划方法[13，44，52]产生一系列行动以实现目标。还讨论了联合测绘和规划的组合[27，50，49，31，3]。无地图冰毒ods [38，54，69，72，66，92，36]经常将任务作为给定输入图像的障碍物避免或隐式地重建地图从概念上讲，对于视觉导航，我们复发性政策网Comm.信道复发性政策网[]环境6691对话阶段回答阶段剂1剂2CNNCNN01LSTMLSTM社区信仰细化社区信仰细化剩余连接社区信仰细化社区信仰细化评论家演员评论家演员图3：我们的TBONE协作架构概述。必须学会从视觉观察到影响环境的行为的映射。因此，该任务非常适合RL制定，这是最近流行的观点[62，1，16，17，33，42，86，59，5，8、90、25、36、91、37]。这些方法中的一些直接从观察中计算动作，而另一些则试图显式/隐式地重建地图。在最近的技术之后，我们提出的方法还使用RL进行视觉导航。虽然我们提出的方法可以用显式或隐式地图来增强，但我们的重点是多智能体通信。在分解出正交扩展模型的精神，我们推迟到未来的工作，这样的扩展。导航和语言：另一项工作集中在人类和虚拟代理之间的通信。这些方法更准确地反映了现实世界的场景，因为人类更有可能与一个人互动。使用语言而不是抽象的规范。最近Daset al.[19，21]和Gordonet al.[34]建议将问题回答与机器人导航相结合。Chap-lot等[15]，Andersonet al.[2] Hillet al.[39]建议通过语言命令引导虚拟代理。虽然语言导向的导航是一个重要的任务，我们考虑一个正交方向，多个代理需要协作解决一个指定的任务。由于视觉多智能体RL本身具有挑战性，我们避免引入自然语言复杂性。相反，在本文中，我们感兴趣的是通过RL开发多个代理的通信策略的效用和特性的系统理解。Visual Multi-Agent Reinforcement Learning：多智能体系统的非静态环境带来了巨大的挑战。多种方法都是有利的，多年来，我们一直在努力解决这些问题[82，83，81，30]。同样，研究了从多个合作代理到多个竞争代理的各种设置[51，65，57，11，63，35，56，29，61]。在多智能体RL的大量工作中，我们想特别强调Giles和 Jim [32] ， Kasai 等人的工作。 [43] ， Bratmanetal.[9]，Meloet al.[58]，Lazaridou等人[53]，Foersteret al. [28]，Sukhbaataret al. [79]以及Mordatch和Abbeel [61]，所有这些研究都使用基于迷宫的任务，表格设置或马尔可夫游戏来研究多智能体环境中的通信和语言的详细说明。例如，Lazaridouetal. [53]使用图像猜测的参考游戏进行实验，Foer- ster等人。[28] Sukhbaatar等人专注于开关谜语游戏。[79]讨论了在 MazeBase 环境中的多回合游戏 [80] ，Mordatch和Abbeel [61]在具有多个目标位置和任务的矩形环境中进行了评估。最近，Daset al.[20]证明，特别是在网格世界的设置中，有针对性的通信的有效性，其中代理必须学习他们应该向谁发送消息。我们的工作与上述工作的不同之处在于，我们考虑了视觉任务的通信，即，我们的智能体在丰富的视觉环境中工作，而不是像网格迷宫、表格设置或马尔可夫博弈。我们特别感兴趣的是研究沟通和感知是如何相互支持的。强化学习环境：正如刚才所讨论的，我们的方法是在丰富的视觉环境中进行评估的。合适的环境模拟器是AI 2-THOR [48]、House 3D [88]、HoME [10]、用于Matter-port 3D [14]和SUNC [78]的MINOS [73这些环境的共同目标是对具有大量视觉多样性的真实世界生活环境进行建模。这与其他RL环境相反，例如街机环境[4]，Vizdoom [45]，街区塔[55]，Malmo [41]，TORCS[89]或MazeBase [80]。在这些环境中，我们选择了AI2-THOR，因为它易于扩展，提供高保真图像，并具有交互式物理支持的场景，为当前的工作开辟了有趣的多智能体研究方向。3. 协作任务完成我们有兴趣了解两个智能体如何从像素中学习，以进行通信，从而有效地协作解决给定的任务。为此，我们开发了一个01++++6692通信、Softmax信仰X对话符号=+精炼信仰信仰升华谈话阶段图4：用于外显通信的谈话阶段（用上标（T）标记）的通信和信念细化模块。这是我们的词汇大小为K = 2。两个代理的任务，由两个组件组成，每个组件都针对室内代理的期望技能进行定制。这些组件是：（1）视觉导航，智能体可以独立解决，但也可以受益于一些协作;（2）与环境的联合同步交互，这通常需要协作才能实现。这些组件的选择源于这样的事实，即导航到环境中的期望位置或定位期望对象是室内代理的典型技能，并且同步交互是理解任何协作多代理设置的基础。我们首先更正式地讨论协作任务，然后详细介绍我们的网络，TBONE，用于完成任务的组件。3.1. 任务：寻找和搬运家具我们的任务是两个代理举起一个沉重的目标对象在环境中，一个任务，不能由一个单一的代理完成这两个代理以及目标对象被放置在随机选择的AI 2-THOR客厅场景中的随机位置。两个特工必须找到目标，接近它，适当地定位自己，然后同时举起它。为了成功地完成任务，两个代理根据相同的学习策略随着时间的推移执行动作（图1）。2）的情况。由于我们的代理是同质的，我们共享两个代理的策略参数。以前的作品[35，61]已经发现这可以更有效地训练代理人。对于一个代理，该政策的运作（1）自我为中心的观察环境以及以前的历史，(a)观察，（b）代理采取的行动，以及（c）其他代理发送的消息。在每个时间步，两个智能体处理他们当前的观察结果，然后进行两轮显式通信。每一轮通信都涉及到每个代理向另一个代理发送一条消息代理也有能力观看其他代理（当在视图中），甚至可能随着时间的推移重新识别他们的行动，从而使用隐式COM。通信作为收集信息的一种手段。更正式地说，智能体在时间t以图像o t的形式感知场景，并选择其动作at∈A通过计算策略，即，的概率分布θ（at|ot，ht−1），在所有作用at∈A上。在我们的情况下，图像是从AI2获得的第一人称视图托尔。遵循经典的递归模型，我们的策略通过表示ht-1利用在前一个时间步中计算的信息。可用动作A的集合由五个选项组成：MOVE AHEAD、ROTATELEFT、ROTATE RIGHT、PASS和PICKUP。行动MOVEA-HEAD、 ROTATELEFT和 ROTATERIGHT允许代理进行导航。为了简化连续时间运动的复杂性，我们让单个MOVEAHEAD 动作对应于 0.25 米大小的步骤，单个ROTATERIGHT动作对应于顺时针旋转90度，并且单个ROTATELEFT动作对应于逆时针旋转90度。PASS动作指示代理应该保持静止，PICKUP是代理拾取目标对象的尝试。重要的是，只有满足三个先决条件，PICKUP动作才具有期望的效果，即两个代理必须（1）在对象的1.5米以内并且直视对象，（2）彼此相距最小距离，以及（3）同时执行PICKUP请注意，要求智能体彼此相距最小距离相当于在它们相对于对象的这类似于要求代理在拾取对象时彼此站在使用最小距离约束对空间约束进行建模的动机是允许我们容易地操纵任务的复杂性。例如，将此最小距离设置为0放松了约束，并且仅要求代理满足上述先决条件中的两个。在我们的实验中，我们训练智能体在30个室内环境中导航和互动。具体地说，如果两个代理导航到一个已知的对象，并共同在固定数量的时间步长内举起它，则认为情节是成功的。由于我们的重点是研究协作，而不是主要的对象识别，我们保持所寻找的对象，电视，恒定。重要的是，环境以及智能体的开始位置和目标物体的位置在每集开始时都是随机分配的。因此，智能体必须学会（1）在不同的环境中搜索目标对象，（2）向它导航，（3）停留在对象直觉上，我们希望代理在这个任务上表现得更好，我们推测，明确的沟通将允许他们都信号时，他们已经找到了对象，并在导航后，6693错过数据准确性奖励失败。在产生pickupspickups视觉59. 0 ± 4. 0-2.7 ±0.30.3±0.09 2.9±0.8消息m发送=Vsend softmax（W发送eht +b发送）∈Rd，视觉+深度65.7 ±3.9 2.0±0.3 0.4±0.1 3.2±0.9网格世界78.2 ±3.4-0.6 ±0.20.1 ±0.050.7±0.1表1：添加oracle深度以及移动到网格世界设置对不可见场景的影响，约束任务。当尝试PICKUP时，隐式通信将有助于协调，而隐式通信将有助于推理它们相对于彼此和对象的相对位置为了衡量在给定任务中显式和隐式通信手段的影响，我们训练了带有和不带消息传递的模型，以及通过使代理（内）对彼此可见。在不可能进行隐性沟通的情况下，显性沟通显得尤为重要。在没有任何通信的情况下，似乎没有比两个代理独立地导航到对象，然后反复尝试PICKUP动作以希望它们在某个点同步更好的策略了。这种策略可能即将出现的期望引起了我们的度量之一，即事件中两个代理之间失败的拾取事件的计数。我们将在第4节讨论度量和结果。3.2. 网络架构在下文中，我们将描述学习策略（参与者）θ（at|ot，ht−1）和value（critic）vθ（ot，ht−1）函数。图3是我们的网络结构的高级可视化。令Rk表示包含TBONE中所有可学习权重的捕获所有参数。在一个情节的第t然后由四层CNN处理的RGB图像cθ转化为1024维向量cθ（ot）。在cθ（ot）上，我们附加了一个8维可学习的嵌入e，与模型中的所有其他权重不同，它不是在两个特工。这种代理嵌入e赋予代理开发不同互补策略的能力。cθ（ot）和e的串联以及从时间t−1开始的历史嵌入被馈送到长短期记忆（LSTM）[40]单元中，从而产生512维输出向量eht，捕获代理giv en的信念。过去的历史和最近的观察。直觉上，我们现在希望这两个智能体在决定行动方案之前通过沟通来完善他们的信念。我们认为这个过程分几个阶段（图）。4）.沟通方式：我们通过允许代理向彼此发送d维向量来建模通信，该d维向量是通过对固定大小K的词汇表执行软注意而得出的。更正式地说，令W 发送∈RK×512，b发送∈R512，Vsend∈Rd×K是（可学习的）权矩阵，ces和代表我们词汇的Vsend列。然后，给定上面描述的表示，其被中继到另一代理。信念细化：给定代理的构造具有剩余连接的两层全连接神经网络。特别地，eht 和 mreceived 是协调的，并且通过计算 ht=eht+ReLU（W2ReLU（W1[eht;mreceivedd]+b1）+b2）来形成新的信念ht，其中W1∈R512×（512+d），b1，b2∈R512，W2∈R512 ×512是可学习的权重矩阵。我们将d的值设为8。回复和补充完善：在上述步骤之后是一轮又一轮的通信和信念细化，通过所述一轮又一轮的通信和信念细化，将表示h_t转换为h_t。这些额外的阶段有新的可学习的页面集-包括一个新的词汇表矩阵。请注意，与标准LSTM框架中eht−1将在时间t被馈送到单元中不同，我们为LSTM单元提供了细化向量ht−1。线性演员和评论家：最后，策略和价值函数被计算为 |ot ，ht−1 ）=softmax（Wactorht+bactor），vθ（ot，ht−1）= Wcriticht+bcritic其中Wactor ∈R5×512，bactor∈R5，Wcritic∈R1×512，bcritic∈R1是学习的。3.3. 学习与其他人类似[19，36，18，22]，我们发现训练我们的代理从头开始是不可行的，当使用纯强化学习（RL）的方法，例如，与asyn-acquisition actor critic（A3 C）[60]，即使在简化的设置中，也没有广泛的奖励塑造。事实上，通常智能体必须做出60个以上的动作才能导航到物体，并且只有当它们共同拿起物体时才能成功完成情节并这种极其稀疏的奖励设置是标准RL技术的一种众所周知的失败模式。在上述先前的工作之后，我们通过使用DAg- ger的变体进行训练来使用我们用模仿学习在线训练模型-对10，000个情节进行ing，其中情节i的动作从混合物（1−i）θi−1+i中采样，其中i−1是模型在情节i之前学习的参数，i是专家策略（如下所述），i从0的情况。9到0随着i的增加。这种初始的热启动允许代理学习奖励远不那么稀疏的策略允许传统的RL方法适用。请注意，我们的专家监督只适用于行动，没有监督代理应该如何沟通。相反，代理人必须学会以这样一种方式进行通信，这将增加专家行动的概率。在热启动期之后，轨迹纯粹从代理的当前策略中采样6694图5：未看到的场景度量（受约束的任务）：（a）失败的拾取（b）错过的拾取（c）相对ep。透镜（d）精度。专家政策。这里的A3C和交叉熵损失是互补的，每一个都有助于纠正另一个的不足也就是说，来自A3 C损失的梯度往往是有噪声的，并且有时会使训练脱轨或减慢;来自交叉熵损失的梯度是无噪声的，从而是稳定的训练。然而，纯粹的交叉熵损失不能充分地惩罚某些不期望的动作。例如，当直接在墙前时通过采取MOVEAHEAD动作偏离专家策略时，应该比当智能体前面的区域空闲时受到更强烈的惩罚，因为前一种情况可能导致对智能体的损害另一方面，A3C损失很容易解释这种差异，只要它们反映在代理人收到的报酬中。我们现在描述专家策略。如果两个智能体都能看到电视，距离电视1.5米以内，并且彼此之间至少有一个给定的最小距离，那么专家的动作是为两个智能体PICKUP。否则，给定固定场景和电视位置，我们从AI2-THOR获得，集合T={t1，. ..，tm}的所有位置（在正方形大小为0的网格上。25米）和在电视可见的电视的1.5米范围内旋转让我成为从智能体i∈{0，1}到tk的最短路径的长度，然后我们为每个（tj，tk）∈T×T分配得分sjk=`0j+`1k。然后，我们计算最低得分元组（s，t）∈T×T，其中s和t至少相距给定的最小距离，并将代理0分配为专家对应于沿着从代理0到s的最短路径的第一导航步骤的动作（并且对于专家目标是t的代理1类似）。请注意，我们的训练策略和通信方案可以扩展到两个以上的代理。我们把这样的分析推迟到未来的工作中，仔细分析两个智能体的设置是适当的第一步。实施详情。每个模型都训练了10万集。每一集都在AI2-THOR的随机序列（所见）场景中初始化。提供给代理商的奖励是：对于成功的拾取动作，两个代理1，恒定-0.01步惩罚以阻止长轨迹，0.02对于任何失败的动作（例如，撞到墙上）和-0.1表示拾取动作失败。最大运行时间为500步（每个代理250步），之后事件被视为失败。4. 实验在本节中，我们提出了我们的评估的影响，沟通对协作视觉任务的完成。我们首先简要描述了对AI 2-THOR的多智能体其次是对任务进行详细的实证分析。然后，我们提供了一个统计分析的显式通信消息所使用的代理解决的任务，揭示了他们的内容。最后，我们提出了定性的结果。框架和数据。我们扩展了AI 2-THOR环境，以支持多个代理，每个代理都可以独立控制。特别是，我们扩展了现有的初始化动作，接受一个agentCount参数允许任意大的代理数量被指定。当产生其他代理时，每个代理都被直观地描绘为不同颜色的胶囊。这允许代理观察彼此的存在和对环境的影响，这是一种我们还提供了一个参数，使代理不可见的另一个，这使我们能够研究隐式通信的好处。新产生的代理具有单个代理的全部功能，能够通过例如拾取和打开对象来与环境交互这些更改在AI 2-THOR v1.0中公开提供。我们考虑了30个AI 2-THOR客厅场景进行分析，因为它们在地板面积方面是最大的，并且还包含大量的家具。我们在20个场景上进行训练，并在20个已看到的场景以及其余10个未看到的场景上进行测试任务我们考虑两个任务，这两个任务都需要两个智能体同时拿起环境中的电视：（1）不受约束：关于代理相对于彼此的位置，这里不施加约束。(2)受约束：代理必须彼此相距至少8步（类似于要求他们在拾取对象时站在对方对面直觉上，我们预计约束设置比非约束设置更困难，因为它要求智能体进行空间推理6695图6：奖励与在受约束的任务（左）看不见的场景（右）关于他们自己和场景中的物体。对于上述每个任务，我们训练了TBONE的4个变体，这是通过打开和关闭显式和隐式通信而产生的。关闭隐式通信相当于使其他代理不可见。指标. 我们考虑以下指标：（1）奖励，(2) 准确性：成功发作的百分比，（3）失败拾取，（4）未拾取的数量：其中两个代理都可以拾取对象但没有拾取，（5）相对事件长度：相对于预言。这些指标在400个随机初始化（未看到的场景：10个场景× 40个初始化，已观看场景：20个场景× 20个初始化）。请注意，仅仅是准确性天真四处游荡并随机拾取物体的代理最终会成功。此外，正确定位TV然后继续尝试拾取以希望与其他代理同步的代理也将成功。然而，这两种情况在其他指标上都表现不佳。定量分析相本节中引用的所有图和指标均包含90%置信区间。图5比较了四个指标：准确性、失败的拾取、错过的拾取以及未看过的场景和受约束任务的相对剧集长度就准确性而言，外显+内隐沟通的效果仅略好于内隐沟通，但在缺乏内隐沟通的情况下，对外显沟通的需求是巨大的。但是，当考虑到所有指标时，同时进行显式和隐式沟通的好处是显而易见的。失败和错过皮卡的数量较低，而插曲长度比只使用隐式沟通好一点。明确与明确之间的区别。当一起查看所有度量时，仅隐式也会收缩。然而，从全局来看，沟通显然比不沟通更有优势。图6显示了我们的模型的4个变体在约束任务的可见和不可见环境中获得的奖励。虽然在可见场景中的奖励出乎意料地高，但具有通信的模型确实很好地推广到了不可见的环境。将这两种通信手段结合起来比任何一种都更有益，也比没有任何通信手段有趣的图7：约束与不受约束的任务（在看不见的场景中）：（左）准确性，（右）相对发作长度。就准确性而言，隐式沟通比显式沟通效果更好。图7呈现了与约束任务相比，未看见场景和无约束在这些图中，为了简洁起见，我们只考虑了完全通信与通信的极端情况。没有交流。正如预期的那样，无约束设置对于具有较高准确性和较低发作长度的代理更容易。通信在无约束设置中也是有利的，但与约束设置相比，其益处表1显示了当我们提供完美的深度图作为约束任务的额外输入时，准确性的大幅提升，表明改善的感知有利于任务完成。我们还获得了显著的跳跃当词汇量从2个增加到8个时，准确率从31.8± 3.8提高到37.2±4.0。这个分析-sis在仅显式通信和受约束环境设置中执行。然而，请注意，即使词汇表为2，智能体也可能使用完整的连续谱来编码更细微的事件。网格世界抽象。为了评估学习从像素而不是像大多数以前的工作那样从网格世界环境中进行通信的影响，我们将我们的任务直接转换为网格世界，并将其性能与我们的最佳模型进行比较。我们把1.25米的将我们代理前面的2.75米× 2.75米区域划分为5×11网格，其中每个正方形都被分配了一个基于16维嵌入的取决于它是否是自由空间、被另一个代理占用、被目标对象占用、否则不可到达、或者未知（在网格正方形离开环境的情况然后，智能体在AI 2-THOR中移动，但感知到这个部分可观察的网格世界。在这种设置中，智能体在受约束任务（表1）中的准确性有很大提高，这证实了我们的说法，即照片般逼真的视觉环境比网格世界等设置更具挑战性。解读沟通。虽然我们在第4节中已经看到，沟通可以大大有利于我们的任务，但我们现在调查这些代理人已经学会了沟通。我们专注于交流策略，学习代理的词汇量为两个在6696R不埃什特河R单个座席拾取失败联合代理人未成功拾取成功的接头拾取PT1（Ag1）PT1（Ag2）1便士（Ag1）1便士（Ag2）红/绿特工正在看电视第1个通信的重量第一轮红色/绿色代理红色/绿色试剂与TV试剂之间的距离≤ 2 m，试剂之间的距离≥8步。单座席代答失败双座席代答失败代答成功第1个通信的重量第2轮红色/绿色代理的符号(a) 受约束的设置代理轨迹（b）代理之间的通信图8：单次发作轨迹与相关代理通信。与上面讨论的方法相比，标准误差非常小，表明结果具有高度的统计学意义。与≤和见相关的较大的v系数表明t t在r0保持不变的条件下，权重t0与A0的概率较高相关联表2：第4节中参数的估计值和相应的稳健bootstrap标准误。约束设置。图8显示了具有相应通信的两个代理的一个发作轨迹。从图8（b）中，我们生成了关于通信策略的假设。抑制对事件和步骤，对于i∈{0，1}，让ti是在第一轮通信中由代理i分配给词汇表的第一个元素的权重，并且类似地，让ri作为ti，但是对于第二轮通信。当那个红色的探员轨迹（此后称为代理0或A0）开始看到TV，权重t0增加并保持高，直到这一集的结尾。这表明，第一轮通信可能用于表示接近或可见性电视的声音另一方面，由两个代理采取的拾取动作与使r0和r1同时变小的代理相关联为了给这些假设增加证据，我们拟合逻辑回归模型，从ti和ri的（函数）预测两个预言值（例如，TV是否可见）以及代理是否将尝试代接动作。由于主体在很大程度上是对称的，我们从A0的角度出发，定义模型σ−1P（A0距离TV≤2m）=A≤+A≤t0+A≤r0，σ−1P（A0看到电视且≤1。5米）=see+不在电视机旁，看着电视。还应注意，因此，Rollsee的值在量值上是相当大的，并且是负值。这与我们先前的假设非常一致，即当代理0希望发出准备拾取对象的信号时，r0最后，基本上所有的估计共同-最终模型中的系数接近于0 ，除了大且为负的Ruppick之外因此，在其他值固定的条件下，max（r0，r1）小与后续拾取动作的更高概率相关联。当然，r0，r1≤max（r0，r1）再次为以下假设提供了证据：代理人通过将r0，r1设置为小值来协调拾取动作。5. 结论我们研究了在视觉环境中学习协作的问题，并证明了学习的外显和内隐沟通对帮助完成任务的好处。我们比较了照片真实感视觉环境中的协作任务与类似的网格世界环境的性能，以确定前者更具挑战性。我们还提供了一个统计解释的通信策略的代理人学习。未来的研究方向包括扩展到两个以上的代理，更复杂的现实世界的任务和扩展到更多的环境。这将是令人兴奋的，使代理之间的自然语言通信，这也自然延伸到涉及人在循环。pick+PR（n +n+ri）+n +max（r0，r1）其中i∈{0，1}t我r，i埃什特河鸣谢：这份材料是基于工作σ-1是logit函数。这些模型是如何拟合的细节可以在附录中找到。表2显示了上述参数的估计值及其标准误差，我们从表2中注意，对于所有的esti-部分由国家科学基金会资助 1563727 、 1718221 、1637479、165205、1703166、三星、 3M 、 Sloan Fellowship 、 NVIDIA ArtificialIntelligence Lab、Allen Institute for AI、亚马逊、AWSResearch Awards和Thomas Stacey基金会。Ø≤Ø≤Ø≤t r塞塞t rEst.SE0.35 1.23-0.350.013 0.019 0.0130.88 0.59-1.10.013 0.015 0.013pickpickpickpickpickpick pickt，0r， 0t， 1r， 1m，rEstSE1.06-0.01-0.04 0-0.03-1.090.012 0.007 0.006 0.007 0.0066697引用[1] D. 亚伯 A. 阿加瓦尔 F. 迪亚兹 A. 克里希那穆提，R. E.夏皮尔探索性梯度提升用于复杂域中的再学习。arXiv预印本arXiv：1603.04119，2016。3[2] P. Anderson，Q. Wu，D. 作者：J. 约翰逊先生，N. 松德豪夫岛Reid，S. Gould，和A. 在母鸡身上。视觉和语言导航：在真实环境中解释视觉导航指令。在Proc.CVPR，2018中。3[3] A. Aydemir，A. Pronobis，M. Gbelbecker和P. Jensfelt使用不确定语义的未知环境中主动视觉目标搜索。IEEETrans. on Robotics，2013. 2[4] M. G. Bellemare，Y. Naddaf、J. Veness和M.保龄球街机学习环境：总代理商的评估平台 J. 人工智能研究，2013年。3[5] S. Bhatti ， A. 德迈松岛 Miksik ， N. Nardelli ， N. Sid-dharth，和P. H. S.乇玩大满贯增强深度强化学习。arXiv预印本arXiv：1612.00380，2016年。3[6] J. Borenstein和Y.科伦快速移动机器人的实时避障。IEEE Trans. on Systems，Man and Cybernetics，1989. 2[7] J. Borenstein和Y.科伦矢量场直方图-移动机器人快速避障。IEEE Trans. on Robotics and Automation，1991. 2[8] S. Brahmbhatt和J.海斯Deepnav：学习在大城市中导航。在Proc. CVPR，2017中。3[9] J. Bratman，M.什瓦茨曼河L. Lewis和S.辛格.一种新的方法来探索语言的出现，作为面对环境和认知约束的约束最优控制在proc Int.“l转化率认知建模，2010年。第1、3条[10] S. Brodeur，E. Perez，A. Anand，F. 戈莱莫湖切洛蒂F.作者：J. Larochelle，和A. 考维尔家庭多模式环境。Inhttps://arxiv.org/abs/1711.11017，2017. 3[11] L.布索纽河Babuska和B. D.舒特多智能体强化学习综述。IEEETrans. on Systems，Man and Cybernetics，2008.3[12] C. 卡德纳湖Carlone，H.Carrillo，Y.拉蒂夫D.斯卡拉穆扎内拉岛Reid和J. J·伦纳德同时定位和映射的过去、现在和未来：走向强健感知时代。IEEE Trans. on Robotics，2016. 2[13] J·坎尼机器人运动规划的复杂性。麻省理工学院出版社，1988年。2[14] A. Chang，A.戴氏T.Funkhouser M.Halber，M.尼斯纳M. Savva ， S. Song ，中国黑杨 A. Zeng 和 Y. 张某Matterport3D：从室内环境中的RGB-D数据学习。在3D视觉国际会议（3DV），2017。3[15] D. S. Chaplot，K. M.萨蒂延德拉河K. Pasumarthi，D.Ra- jagopal和R. R.萨拉赫季诺夫面向任务的语言基础的门控注意结构。参见CoRR，abs/1706.07230，2017。3[16] C. Chen，中国山核桃A. Seff，A. Kornhauser和J.萧深度驾驶：自动驾驶中的直接感知学习启示。在ICCV，2015年。3[17] S. Daftry，J. A. Bagnell和M.赫伯特单目反应式微型飞行器控制的学习转移策略。在procISER，2016. 3[18] A. Das，H.阿格拉瓦尔角L. Zitnick，D. Parikh和D.巴特拉视觉问答中的人类注意力：人类和深度网络会关注相同的区域吗？在EMNLP，2016。5[19] A.达斯，S。达塔湾Gkioxari，S. Lee，D. Parikh和D.巴-特拉。具体化的问题回答。在Proc. CVPR，2018中。三、五[20] A. Das ， T.Gervet ， J.Romoff ， D.Batra ， D.Parikh ，M.Rabbat和J.皮诺Tarmac：有针对性的多智能体通信。arXiv预印本arXiv：1810.11187，2018。3[21] A.达斯湾，澳-地Gkioxari，S. Lee，D. Parikh和D.巴特拉具身化问题回答的神经模块控制。Proc. ECCV，2018。3[22] A. 达斯，S。Kottur，J.M. Chelsea，S.Lee和D.巴特拉用深度强化学习来学习协作视觉对话代理InProc. ICCV，2017. 5[23] A. J. 戴维森实时同步定位和地图-平与一个单一的相机。载于ICCV，2003年。2[24] F. Dellaert，S.塞茨角Thorpe和S.Thrun. 结构来自运动，没有对应。在Proc.CVPR，2000中。2[25] Y. Duan，J. Schulman，X.陈炳良巴特利特岛Sutskever和P.阿比尔R12：通过慢速强化学习的快速强化学习。arXiv预印本arXiv：1611.02779，2016。3[26] B.埃夫隆Bootstrap方法：再看一下折叠刀。安，中央集权主义者。，7（1）：1-26，011979. 14[27] A. 精灵使用占用网格进行移动机器人感知和导航。计算机，1989年。2[28] J. N. Foerster，Y. M. Assael，N. de Freitas和S.怀特-儿子。学习与深度多智能体再强化学习进行沟通。在Proc.NIPS，2016中。第1、3条[29] J. N. Foerster，G. Farquhar，T. Afouras，N. Nardelli，以及S.怀特森 Coutnerfactual Multi-Agent Policy遵从性。在Proc. AAAI，2018中。3[30] J. N. Foerster，N. 纳代利湾 Farquhar，P. H. S. 托尔P. Kohli和S.怀特森深度多智能体强化学习的稳定经验重放。参见CoRR，abs/1702.08887，2017。3

下载后可阅读完整内容，剩余1页未读，立即下载