没有合适的资源?快使用搜索试试~ 我知道了~
视觉反应作出预测并做出相应规划的智能体
11573视觉反应:学习用无人机玩接球游戏1、曾国豪1、穆塔吉1、韦恩斯2、法哈迪1、保罗G.艾伦计算机科学工程学院,华盛顿大学2前@艾伦人工智能摘要在本文中,我们解决视觉反应的问题:与动态环境中的环境变化不一定是由代理本身引起的互动的任务。视觉反应需要预测视觉环境中的未来变化并据此进行规划。我们研究的视觉反应问题的背景下,玩接球与无人机在视觉丰富的合成环境。这是一个具有挑战性的问题,因为智能体需要学习(1)具有不同物理属性和形状的对象如何移动,(2)根据预测应该采取什么动作序列,(3)如何基于来自动态环境的视觉反馈当物体从墙上反弹时),以及(4)如何及时地推理和处理意外的状态变化。我们为此任务提出了一个新的我们的结果表明,我们的模型,集成了一个预测与规划优于一组强基线的跟踪以及纯模型为基础的和无模 型 的 RL 基 线 。 代 码 和 数 据 集 可 在github.com/KuoHaoZeng/Visual_Reaction 获得。1. 介绍人类认知的一个关键方面是在视觉环境中进行交互和反应当我们打网球时,我们可以预测球如何移动以及它应该在哪里触地,所以我们相应地移动网球拍。或者考虑这样的场景:有人把车钥匙扔向你的方向,你迅速调整双手的位置去接住它们。人类的这些能力在婴儿期开始发展,它们是认知系统的核心[3,8]。视觉反应需要预测未来,然后相应地进行规划未来预测问题在计算机视觉领域受到了广泛的关注这一领域的工作可分为两大类。第一类考虑预测人的未来动作或汽车的轨迹(例如,[5、22、25、当前球位置t = 1t = 0预测球位置t = 0t = 1当前球位置代理人观点图1:我们的目标是训练一个可以对交互式场景进行视觉反应的代理。在所研究的任务中,环境可以独立于智能体进化。场景中有一个发射器,它以不同的力度和角度投掷物体。无人机学习从以自我为中心的观察中预测物体的轨迹,并移动到可以捕获物体的位置。投掷物体的轨迹根据它们的重量和形状以及投掷所用力量的大小和角度而变化58])。通常,在这些场景中有多个正确的解决方案第二类是基于场景的物理特性的未来预测(例如,[27、32、60、66])。这一类的作品大多局限于从图像和视频的被动观察中学习,在预测过程中没有在本文中,我们解决了视觉反应的问题:预测未来的动态环境中的物体的运动和相应的规划的任务。这种相互作用使我们能够在飞行中做出决定,并从环境中接收反馈,以更新我们对环境的信念11574未来的运动。这与在给定预先记录的图像或视频的情况下执行预测的被动方法形成对比我们在与无人机玩接球游戏的背景下研究这个问题,目标是仅使用视觉自我中心观察来抓住抛出的物体(图1)。与以前的方法相比,我们不仅需要预测物体的未来运动,还需要推断无人机及时捕获物体的最小动作集。这个问题表现出各种挑战。首先,物体具有不同的重量、形状和材料,这使得它们的轨迹非常不同。第二,轨迹根据投掷所用力量的大小和角度第三,物体可能与场景中的墙壁或其他结构碰撞,并突然改变其轨迹。第四,无人机的运动不是确定性的,因此相同的动作可能导致不同的运动。最后,代理只有有限的时间来推理和动态地对在物体落地之前捕捉到它。我们提出的解决方案是基于模型的强化学习范式的适应。更具体地说,我们提出了一个预测网络,推出了未来的轨迹抛出的物体从视觉观察。我们将预测网络与基于模型的规划器相结合,以估计捕捉物体的无人机动作的最佳顺序。规划器能够使用动力学模型和动作采样器为无人机换句话说,我们使用对象和代理移动的推出来学习策略我们在AI 2-THOR [23]中进行实验,这是一种近乎照片般逼真的交互式环境,可以模拟物体和场景的物理特性(物体重量,摩擦力,碰撞等)。我们的实验表明,所提出的模型优于基线的基础上跟踪(当前状态估计,而不是预测),也纯无模型和基于模型的基线。我们提供了一个消融研究我们的模型,并显示性能如何随着推出的数量和规划范围的长度而此外,我们还展示了该模型在训练过程中看不到的对象类别的表现。本文的主要贡献如下:(1)我们研究了在交互的、动态的、视觉丰富的环境中的视觉反应问题。(2)我们提出了一个新的框架和数据集的视觉反应的上下文中玩接球与无人机。(3)我们提出了一个解决方案,通过整合规划和预测,并显示它显着优于一些强大的基线。(4)我们提供各种分析,以更好地评估模型。2. 相关工作未来预测预报。各种工作探索未来的预测和预测从视觉数据。几位作者认为预测未来交通的问题,物体的抛射[31,37,55,56,57,65]和多个连续的[1,22,62]图像。与这些作品不同的是,我们控制一个与环境交互的代理,这会导致它的观察和观点随着时间的推移而改变。许多方法从以自我为中心的观点探索预测[36]预测一组合理的自我运动轨迹。[39]提出了一种反向强化学习方法来预测佩戴摄像头的人的行为[54]从未标记的视频中学习视觉表示,并使用该表示来预测出现在以自我为中心的视频中的对象[26]预测驾驶场景中交互对象的未来轨迹。我们的智能体还基于以自我为中心的对象视图来预测未来的轨迹,但 预测是基于物 理定律(而不 是人们的意图)。预测未来动作或人类3D姿态的问题已经由[6,14,25,49]探索。此外,[5,28,46,52,53,63]提出了用于生成未来帧的方法。我们的任务与上述方法不同,因为它们在训练和推理过程中使用预先录制的视频或图像,而我们有一个交互式设置。[13]和[10]等方法考虑了交互式设置中的未来预测。然而,[13]是基于静态第三人称相机和[10]预测代理动作的效果,不考虑场景的物理。规划有大量的工作(例如,[7,16,18,19,34,38,45,51,59]),其涉及基于模型的计划器。我们的方法与这些方法类似,因为我们将预测器与基于模型的规划器相结合。[4]的工作与我们的方法有相似之处。作者提出学习环境及其动力学的紧凑潜在状态空间模型;从这个模型中,想象增强代理[38]学习在潜在空间中产生信息推出,从而改进其策略。相反,我们考虑的是3D中视觉上复杂的场景,所以学习一个紧凑的生成模型并不那么简单。此外,[59]采用基于模型的规划器来完成视觉和语言导航任务。他们推出代理的未来状态,以形成具有无模型RL的模型集成我们的任务完全不同。此外,我们考虑了代理和移动对象的推出,这使得问题更具挑战性。机器人中的物体捕捉。机器人学界已经研究了捕捉物体的问题。四轴飞行器已经被用于玩杂耍球[33],投掷和接球[40],打乒乓球[44]和接球[47]。[20]考虑捕捉形状不规则的飞行物体 这些方法具有以下一个或多个问题:他们使用多个外部摄像机和地标来定位球,通过将独特的标记物附着到球来绕过视觉问题,使用相同的环境进行训练和测试,或者作为固定代理。我们承认实验11575在真实的机器人上涉及复杂性,例如处理空气阻力和机械约束,这些在我们的设置中不太视觉导航。有各种工作使用深度强化学习或模仿学习来解决朝向静态目标的视觉导航问题(例如,[17、29、43、64、67])。我们的问题可以被认为是这些工作的扩展,因为我们的目标是移动的,我们的代理人有有限的时间到达目标。我们的工作也不同于无人机导航(例如,[15,41]),因为我们解决了视觉反应问题。物体追踪。我们的方法不同于对象跟踪(例如,[2,9,11,35,48]),因为我们预测未来的物体轨迹,而不是当前的位置。此外,跟踪方法通常仅提供视频帧中的感兴趣对象的位置,并且不提供用于代理采取动作的任何机制。3. 方法我们首先定义我们的任务,视觉反应:互动的任务与动态环境,可以独立的代理演变。然后,我们提供了一个模型的概述最后,我们描述了模型的每个组成部分。3.1. 任务定义目标是学习一种策略,使用在3D空间中移动的代理来捕获抛出的对象在环境中有一个发射器,可以在不同方向上以不同的力量将物体抛向空中。智能体需要从过去的观察(三个连续的RGB图像)预测对象的未来轨迹 如果智能体捕捉到对象,即,在物体到达地面之前,物体位于代理的顶部安装的篮子内。对象的轨迹根据它们的物理属性而变化(例如,重量、形状和材料)。物体也可能与墙壁、建筑物或其他物体碰撞,并突然改变其轨迹。对于每一集,代理和启动器在环境中的随机位置开始(更多细节在第二节。4.1)。智能体必须迅速行动,在物体落地或静止之前的短时间内到达物体。这就需要使用一个预测模块,应与代理的政策。我们考虑20种不同的对象类别,如篮球、报纸和碗(完整列表见补充材料)。该模型从安装在无人机代理顶部的摄像机接收以自我为中心的RGB图像作为输入,并输出动作和数据。= (vx,vy,vz)∈[-25m/s2,25m/s2]3,对于每个时间步长t,其中,对于例如-示例中,x表示沿x轴的加速度,单位为米代理的移动不是确定性的,因为物理引擎的时间相关积分方案预报员SOTsot+1sot+1: t+ HR不Sosot+H电话+1SDt{ad}N不重复H次a*Dts*dt+1不模型预测规划器t+ 1带MPC物镜的物理模型动作采样器预报员图2:模型概述。我们的模型包括两个主要部分:预报员和计划员。帧、对象状态、智能体状态和动作的视觉编码分别用r、so、sd和a表示t表示时间步长,H是规划范围。在下文中,我们分别用sd=[d,vd,ad,φ,θ]和so=[o,vo,ao]来d、vd和ad表示无人机的位置、速度和加速度,o、vo和ao表示物体的位置、速度和加速度。φ和θ指定代理相机的方向,它可以独立于代理旋转。3.2. 模型概述我们的模型有两个主要组成部分:一个预报员和一个模型预测规划者,如图所示。二、预测器接收视觉观测it-2:t和在时间t估计的主体状态sdt,并预测投掷物体的当前状态sot预报员进一步使用预测的对象状态(即,位置、速度和加速度计算)来预测未来t+1:t+H的目标状态的H模型预测规划器负责生成代理的最佳动作,以便拦截抛出的对象。模型预测规划器从预测器接收对象的未来轨迹以及代理状态的当前估计作为输入,并相应地输出最佳动作。模型预测规划器包括动作采样器,其目标是在给定代理状态的当前估计、预测对象轨迹和由预测器中的视觉编码器产生的中间表示rt的情况下对N个动作采样器根据所学习的策略网络模型预测规划器的第二部分物理模型遵循牛顿运动方程来估计代理的下一个状态(即,在下一个时间步的位置和速度)给定当前状态和动作(由动作采样器生成)。我们的方法建立在相关的联合基于模型和无模型的强化学习思想。然而,代替一个11576t:t+H−1不不电话+1不33无模型和基于模型的RL的集成用于更好的决策[24,59],或者使用动态模型作为数据增强器/想象器[12,38]来帮助无模型RL的训练,我们明确地采用无模型RL来训练模型预测规划器的动作采样器。在下文中,我们首先介绍我们的预测器,如图所示。3(a)及其培训战略。然后,我们描述了如何将预测器与模型预测规划器相结合,如图1所示.图2和图3(b)。最后,我们解释了我们如何利用无模型RL来学习我们的计划器中使用的动作分布,图。3(b)款。3.3. 预报员模型预测控制器(MPC)与物理模型,和一个动作采样器,如图所示。3(b)款。我们将在第二节描述如何设计动作采样器三点五动作采样器生成未来动作的卷展栏。动作被定义为代理的加速度我们从动作分布中抽取长度为H的N个动作序列。我们用dt:t+H−1表示这N个序列。对于N个序列中的每个动作,物理模型估计代理的下一个状态sdt+1,利用离散化的牛顿运动方程(dt +1 = dt + vdt × dt,vdt +1 = vdt + adt × dt)对当前状态sdt进行了计算。这导致智能体的N个可能的轨迹dt+1:t+H给定t+1:t+H的预测对象轨迹,MPC预报员的目的是预报海流然后选择最佳的行动顺序,基于对象状态so,其包括位置ot∈R3、速度vot∈R和加速度ao∈R,然后,基于预测,预测未来对象位置ot+1:来自最近三个连续图像的it−2:t. 预测未来H时间步明确的目标。 MPC的目标是选择一个一系列动作,使智能体和对象之间的距离之和在H个时间步长上最小化。我们选择动作序列中的第一个动作,代理执行这个动作。我们输入代理的下一个使计划者能够使用MPC来选择最佳的∗dt+1 来计划下一个时间步。任务的行动。我们展示了视界长度H如何影响补充中的性能注意,如果智能体在下一个时间步没有捕捉到物体,我们再次查询预报器来预测物体的轨迹ot+2:t+H+1用于接下来的H个步骤。预测器还产生中间视觉表示rt∈R256,其由动作采样器使用详情见图第3(a)段。我们定义了位置,速度和加速度活动摄影机视点。 该代理配备了一个旋转的相机。 摄像机的角度表示为在智能体的状态向量s d中的φ和θ我们使用在时间t+1、t+1和d+1估计的对象和代理位置来计算相机的角度。我们通过o−d计算客体和施事之间的相对位置p∈(px,py,pz)。然后,我们得到沿y轴和x轴的欧拉角,分别为arctanpx和arctanpy在补充报告中,pzp z在智能体的起始位置的坐标系中三个连续帧it−2:t通过卷积神经网络(CNN)。使用MLP将图像的特征和代理状态s d t的当前估计相结合,从而产生嵌入rt。然后,通过三个单独的MLP从rt获得对象s 〇 t的当前状态。NME遵循离散化的牛顿vt+1=vt+at×t)接收ob的预测状态计算t+1:t+H的未来位置。 我们采取NME的导数,并在训练阶段通过它反向传播梯度请注意,NME本身并没有被学习。为了训练预测器,我们提供了从环境中抛出的物体的地面真实位置,并通过对位置求导来获得速度和加速度。我们将位置、速度和加速度预测转换为回归问题,并使用L1损失进行优化.3.4. 模型预测规划器给定被抛物体的预测轨迹,我们的目标是控制飞行智能体接住物体。我们将模型预测规划器与无模型RL集成,以显式地结合预测器的输出。我们提出的模型预测规划器由一个我们还示出了摄像机固定的情况下的结果3.5. 动作取样器动作可以从动作空间或学习策略网络上的均匀分布中采样。我们采取后一种方法,并训练一个策略网络,该网络以预测的对象状态,当前代理状态和视觉表示为条件。基于模型的方法需要在每个时间步对大量的动作进行采样,以实现高级别的性能。为了缓解这个问题,我们通过一系列MLP来参数化我们的动作采样器,这些MLP在给定当前代理状态的情况下学习动作分布,对象的预测轨迹ot+1:t+H和观测it−2:t的视觉表示rt(参见第2节)。3.3)。这有助于更好地塑造动作分布,这可能导致需要更少的样本和更好的性能。为了训练我们的策略网络,我们使用Actor-Critic算法[50]的策略梯度。为了提供策略梯度的奖励信号,我们使用在实践中,如果智能体在物体落地或静止之前成功抓住物体,它将获得+1的奖励。此外,我们还测量代理轨迹和对象轨迹之间的距离作为额外的奖励信号(每个时间步的逐点距离结果导致S11577XyzyzDt+H 1(a) 预报员(b) 模型预测规划器-带MPC物镜的物理模型S-动作采样器N个样本dt{a*,a*,a*}Nrt关于我们{sd}NDxDyDzadxDx N{ad,ad,ad}Not+1电话+1s*dt+1θt+1θt+1ot+1sdtay{ad}Nadz{ad}N图3:模型架构。(a)预测器接收图像和对代理状态的估计sdt作为输入,并输出对当前状态的估计sot,包括ot、vot和aot。然后利用离散化的牛顿运动方程预测了物体t+1:t+H的未来位置如果对象还没有被捕获,则在每个时间步重复预测(b)模型预测规划器包括MPC w/Physics模型和动作采样器。动作采样器生成N个序列a={(i)},,−)|j = 1,… N}个动作,以及最优动作(n,n,n)dt:t+H−1vx,ivy,ivz,ii=tvxvyvz被选择为使得它在每个时间步长处最小化代理和对象之间的距离每集的总回报率为R={集成功}-0的情况。01· ||d− o||2其中d和o是地面真值配备有能够旋转的摄像头无人机的最大加速度为25米/秒2,最大速度为25米/秒2。tt t t t t物体和物体在时间t的位置。4. 实验我们首先描述我们用于训练和评估模型的环境然后,我们提供了一组基线的结果:使用当前状态预测而不是未来预测的不同变化我们还为我们的方法提供了消融结果,其中我们使用均匀采样而不是学习动作采样器。此外,我们研究了性能如何变化的移动性的代理,噪声的代理运动和动作序列样本的数量。最后,我们对每个对象类别、不同难度级别以及训练过程中看不到的对象的结果进行了分析。4.1. 框架我们使用AI 2-THOR [23],这是一个交互式3D室内虚拟环境,具有近乎照片般逼真的场景。我们使用AI2-THOR v2.3.8,它实现了物理属性,如对象材料,各种材料的弹性,对象质量,并包括一个无人机代理。我们在场景中添加了一个发射器,它可以在随机方向上以随机的力量大小投掷物体物体的轨迹根据它们的质量、形状和材料而变化。有时,对象会与场景中的墙或其他对象发生碰撞,这会导致轨迹发生突然变化。因此,标准的运动方程是不足以估计的轨迹,从视觉数据的学习是必要的。平均速度和碰撞次数的统计数据已在图中提供。4.第一章有关物体物理特性的更多信息,请参见补充资料。无人机顶部有一个盒子来捕捉物体。无人机的大小为0。47米×0. 37米,高度为0。14米,盒子是0。3m×0. 3米,高度为0。2m.无人机速度为40m/s。然而,我们提供了不同的结果,无人机的最大加速度无人机的动作由x、y和z方向的加速度指定。动作空间是连续的,但以最大加速度和速度为上限。实验设置。我们使用AI 2- THOR的客厅场景进行实验(总共30个场景)。我们遵循AI 2-THOR的常见做法,其中前20个场景用于训练,接下来的5个用于验证,最后5个用于测试。无人机和发射器在每集开始时被分配一个随机位置。我们将发射器和无人机之间的水平相对距离设置为2米(任意位置)。 我们将发射器的高度设置为1。离地8米,相当于人类的平均身高。无人机在每集开始时都面对发射器,这样它就可以观察到一个物体被抛出。为了投掷物体,发射器随机选择[40,60]牛顿之间的力,[45,60]度之间的仰角和[-30,30]度之间的方位角。我们模型的唯一输入推断时间是来自无人机的以自我为中心的RGB图像我们使用了20类对象,如篮球,闹钟,和苹果为我们的实验。我们观察到不同类型的轨迹,如抛物线运动,从墙上反弹和与其他物体碰撞,导致方向的急剧变化。请注意,每个对象类别具有不同的物理属性(质量、弹性等)。所以轨迹是完全不同的。我们使用相同的对象进行训练和测试。然而,投掷的场景、位置、幅度和角度在测试时会有所不同我们还展示了一个实验,我们在训练过程中看不到的我们在训练过程中考虑20K轨迹的数量在所有对象类别中是均匀的。otSDot不O电话+1votot+1:t+ HRt阿奥ot+H不t+ 1t+ 2MLPMPC目的相机定向物理模型NMEMLP MLPMLPMLPMLPCNN11578S75.542.5143210-1图4:数据集统计。我们提供了数据集中20种对象的统计数据。我们说明了沿轨迹的平均速度和与场景中的墙壁或其他结构的碰撞次数。4.2. 实现细节我们通过首先训练预测器来训练我们的模型。然后我们冻结预测器的参数,并训练动作采样器。如果智能体捕捉到对象,则事件成功。如果智能体成功抓住物体,物体落在地上,或者情节的长度超过50步(等于1秒),我们就结束一个情节我们使用初始学习率为10- 1的SGD进行预测器训练,并将其每1降低10倍。5×104次迭代。For the policy network,we employ Adam opti- mizer [21] with a learning rate of10−4.我们在验证场景中每103次迭代评估框架,当成功率饱和时停止训练。我们使用MobileNet v2[42],这是一个高效且轻量级的网络作为我们的CNN模型。预报器输出当前物体的位置、速度和加速度。动作采样器向规划器提供一组加速度。它们都是连续数。补充资料提供了模型每个组件的体系结构的详细信息。4.3. 基线当前位置预测器(CPP)。 该基线预测物体相对于无人机在3D空间中的初始位置的当前位置,而不是预测未来轨迹。模型预测规划器在每个时间步接收该预测位置,并相应地输出无人机的预测模型通过L1损失进行训练,训练策略与我们的方法相同。CPP +卡尔曼滤波。我们通过将预测更新随时间引入到当前来位置预测器(CPP)基线。我们假设物体位置的变化是线性的,并且在一个小的时间段内遵循马尔可夫假设。因此,我们在CPP的输出之后添加卡尔曼滤波器[61为了得到转换概率,我们对训练集中所有轨迹上沿三维的位移进行平均。我们将过程方差设置为平均位移和测量方差为3 ×10−2。此外,与CPP相同,模型预测规划器在每个时间步接收该预测位置作为输入,并输出最佳动作以控制代理。该基线预期优于CPP,因为卡尔曼滤波器考 虑 了 从 训练 集 获 得 的 可 能 的 转 换无 模 型 ( A3C[30])。另一个基线是无模型RL。我们使用A3C [30]作为我们的无模型RL基线。的A3C的网络架构包括我们的预报器和动作采样器中使用的相同CNN和MLP。网络接收图像it−2:t作为输入,并直接输出对于每个时间步长,动作at我们通过4个线程训练A3C,使用SharedAdam优化器,学习率为7×10−4。我们运行8×104次迭代(总共1200万帧)的训练。除了使用“成功”信号外,作为奖励,我们使用无人机和物体之间的距离作为另一个奖励信号。4.4. 消融我们使用第二节中描述的训练损失。3.3节中提到的培训策略。4.2用于消融研究。运动方程(ME)。预测器预测第一个时间步的位置、速度和加速度,可以直接应用运动方程预测所有未来位置。然而,由于我们的环境实现了复杂的物理相互作用,因此存在几种不同类型的射束(例如,弹跳或碰撞)。我们评估,如果简单地使用运动方程是足够的捕捉这种复杂的行为。统一行动抽样(AS)。在这个消融研究中,我们用一个从均匀分布中采样动作的采样器代替了动作采样器。这种消融显示了在我们的模型中学习采样器的有效性。4.5. 结果定量结果。结果总结见表。1,用于所有20个对象和不同数量的动作序列。速度(m/s)碰撞次数11579N = 100000N = 10000N = 1000N = 100N = 10最好Curr. POS.预测器(CPP)22.92± 2。322.57± 2。021.04± 1。218.72± 1。810.86± 0. 522.92± 2。3CPP +卡尔曼滤波23.22± 1。2922.78± 0.9021.88± 0.7919.29± 0.8112.17± 1。223.22± 1。29无模型(A3C [30])-----4.54± 2。3我们的,我,制服作为6.12± 0. 76.11± 0. 7 6.00± 0。55.99± 0. 5 5.12± 1。06.12± 0. 7我们的,统一AS26.01± 1。325.47± 1。323.61± 1。520.65± 0.9310.58± 1。126.01± 1。3我们的,满的29.34± 0. 9 29.26± 1。4 29.12± 0. 829.14± 0. 824.72± 1。629.34± 0. 9MPC上限68.67± 1。976.00± 0。078.67± 1。966.00± 3。349.33± 10。578.67± 1。9表1:定量结果。我们报告了我们模型的基线和消融的成功率。N是指动作采样器提供的动作序列的数量。无模型基线没有动作序列采样组件,因此我们只能提供一个数字。MPC上界是模型预测规划器使用具有均匀动作采样器的完美预测注意,MPC上限必须在离线模式下完成,因为只有在收集对象的轨迹后才能进行完美的预测S我们的,统一AS20.4 49.8 32.4 13.7 39.2 17.3 12.96.037.6 26.8 0.049.6 34.8 24.0 25.6 61.2 14.0 12.8 39.68.4我们的,满的22.8 65.9 35.2 20.1 37.2 18.5 14.5 12.0 42.8 29.6 0.054.4 37.2 24.4 26.4 64.4 18.1 18.0 40.8 10.0表2:每个类别的结果。我们的数据集包括20个对象类别。我们提供每个对象类别的成功率。我们使用成功率作为我们的评估指标。回想一下,动作采样器对N个未来动作序列进行采样。我们报告了五个不同值N= 10,100,1000,10000,100000的结果。我们将预测者和计划者的地平线H设为3对于测试集的评估,我们考虑每个模型的5K为了泰伯。1,我们重复实验3次并报告平均值。如 表 所 示 , 我 们 的 模 型 优 于 当 前 位 置 预 测 器(CPP)和卡尔曼滤波器(CPP +卡尔曼滤波器)基线,这表明预测与估计当前位置相比是有效的。我们的完整方法优于无模型基线,这表明模型的基于模型的部分“Ours,ME,uniform AS”比我们方法的其他两个变体更差。这表明简单地应用运动方程而忽略复杂的物理相互作用是不够的,它证实了从视觉数据中学习是必要的。我们还表明,从一个学习的政策“我们的-充分”的采样这证明了使用学习的动作采样器,并显示了模型预测规划器集成无模型和基于模型的学习的有效性4.6. 分析每个类别的结果。选项卡. 2显示了“我们的-完整”和“我们的,统一AS”的结果表明,我们的模型在相对较重的物体上表现更好。这是预期的,因为通常重物的轨迹变化较小基于难度的分类。选项卡. 3显示了在轨迹的难度方面,“我们的-完整”和“我们的,统一AS”所实现的性能难度定义容易介质难比例百分之四十三百分之三十三百分之二十四我们的,统一AS46.418.41.2我们的,满的51.920.71.6表3:难度分类。我们展示了不同难度水平的结果的分类。百分百百分之八十百分之六十百分之四十百分之二十我们的,统一AS26.023.616.010.53.3我们的,满的29.325.118.410.53.5表4:流动性结果。我们使用最大加速度的100%,80%,60%,40%,20%通过物体在到达地面或被代理捕获之前与其他结构碰撞的次数来我们用没有碰撞来定义容易,用碰撞一次来定义中等,用多于一次的碰撞来定义困难。结果表明,即使我们的模型显着优于基线,它仍然不是有效的中等和困难的轨迹。这表明,专注于模拟更复杂的物理相互作用是重要的,为未来的研究。不同的流动性。我们评估如何改变无人机的移动性影响性能(表。4).我们将机动性定义为无人机的最大加速度。我们使用最大加速度的100%,80%,60%,40%,20%重新训练模型移动噪音。在这里,我们评估的情况下,代理有更多11580的嘈杂的运动。我们通过在每个动作后向无人机的运动注入高斯噪声来执行此操作(六)。 我们使用0重新训练模型。010 05,0。1和0。15的高斯噪声的标准差正如预期的那样,性能随着噪声的增加而下降。看不见的分类 我们在15 个对象上训练最好的模型11581对象午餐无人无人对象对象反弹对象反弹午餐前视前视对象对象反弹午餐无人前视时间图5:定性结果。我们在前两行中显示了两个成功的捕获对象序列,在第三行中显示了一个失败的情况。例如,在第二排,物体从天花板上反弹,但无人机仍然能够抓住它。302826242220181600.020.040.060.080.100.120.14和天花板的关系补充视频1展示了更多的成功和失败案例。更多分析见补充资料。5. 结论我们解决的问题,在一个互动的和动态的环境中学习的背景下,玩无人机捕捉视觉反应这需要学习预测物体的轨迹,并估计在物体撞击地面之前拦截物体的一系列我们提出了一个运动噪声标准差图6:运动噪声变化结果。我们展示了代理运动中的噪声如何影响性能。类别(列表在补充材料中),并对其余类别进行评估。成功率为29。12±0。百分之九。这表明该模型对看不见的类别具有相当强的鲁棒性。定性结果。图5示出了捕获物体的两个序列和失败情况。该序列从第三人的视图和代理相机视图显示(我们只使用相机视图作为模型的输入)。第二这个任务的新数据集,它是建立在AI 2-THOR框架上的。我们表明,所提出的解决方案优于模型的各种基线和消融,包括不使用预测或不学习基于预测的策略的变化。鸣谢。我们要感谢马特·沃林-福特的宝贵反馈,以及温森·汉和伊莱·范德比尔特的无人机设计。这项工作得到NSF IIS 1652052、IIS 17303166、DARPA的N66001-19-2-4031,67102239和艾伦人工智能研究所的礼物一行显示无人机仍然能够捕捉到物体,由于碰撞https://youtu.be/iyAoPuHxvYs方向突然改变。— 我们的,统一AS— 我们的,满的成功率11582引用[1] Alexandre Alahi,Kratarth Goel,Vignesh Ramanathan,Alexandre Robicquet,Li Fei-Fei,and Silvio Savarese.社会lstm:拥挤空间中的人体轨迹预测。在CVPR,2016年。2[2] 放 大 图 片 Luca Bertinetto , Jack Valmadre , João F.Henriques,Andrea Vedaldi,and Philip H. S.乇用于对象跟踪的全卷积连体网络。在ECCV,2016年。3[3] Andreja Bubic , D Yves Von Cramon , and Ricarda ISchubotz.预测,认知和大脑。人类神经科学前沿,2010年4月25日。1[4] Lars 布辛, 泰奥芬尼 韦伯 塞巴斯蒂安·拉卡尼埃S. M. 放 大 图 片 作 者 : Ali Eslami , Danilo JimenezRezavik , David P. Re-ichert , Fabio Viola , FredericBesse , Karol Gregor , Demis Hassabis , and DaanWierstra.学习和查询用于强化学习的快速生成模型arXiv,2018年。2[5] Lluís Castrejón,Nicolas Ballas,and Aaron C.考维尔用于视频预测的改进vrnn。在ICCV,2019年。一、二[6] 赵玉伟,杨继梅,李晓伟。Price,Scott Cohen,and JiaDeng.从静态图像预测人体动态。在CVPR,2017年。2[7] Yevgen Chebotar , Karol Hausman , Marvin Zhang ,Gaurav Sukhatme,Stefan Schaal,and Sergey Levine.结合基于模型和无模型的更新以实现以知识为中心的强化学习。ICML,2017。2[8] 安迪·克拉克。接下来呢?预测大脑、情境代理和认知科学的未来。Behavioral and brain sciences,36(3):181-204,2013. 1[9] Martin Danelljan,Goutam Bhat,Fahad Shahbaz Khan,and Michael Felsberg. Eco:用于跟踪的高效卷积算子。在CVPR,2017年。3[10] Alexey Dosovitskiy和Vladlen Koltun。通过预测未来来学习行动。在ICLR,2017。2[11] Christoph Feichtenhofer、Axel Pinz和Andrew Zisserman。检测跟踪和跟踪检测。InICCV,2017. 3[12] V Feinberg,A Wan,I Stoica,MI Jordan,JE Gonzalez和S Levine。基于模型的值扩展,实现高效的无模型强化学习。在ICML,2018。4[13] 切尔西·芬恩伊恩·古德费罗和谢尔盖·莱文。通过视频预测进行物理交互的无监督学习。InNeurIPS,2016. 2[14] Katerina Fragkiadaki,Sergey Levine,Panna Felsen,andJiten- dra Malik.人类动力学的循环网络模型。在ICCV,2015年。2[15] 迪拉杰·甘地、勒雷尔·平托和阿比纳夫·古普塔。学着在撞击中飞行。在IROS,2017年。3[16] Shixiang Gu , Timothy Lillicrap , Ilya Sutskever , andSergey Levine. 具有基于模型的加速的持续深度Q学习InICML,2016. 2[17] Saurabh Gupta,James Davidson,Sergey Levine,RahulSuk-thankar,and Jitendra Malik.视觉导航的认知绘图与在CVPR,2017年。3[18] Danijar Hafner 、 Timothy Lillicrap 、 Ian Fischer 、 RubenVille- gas、David Ha、Honglak Lee和James Davidson。从像素中学习潜在的动态规划。arXiv,2018年。211583[19] 尼古拉斯·海斯,格雷戈里·韦恩,大卫·西尔弗,蒂莫西·利里--废话,汤姆·埃雷兹,还有尤瓦尔·塔萨.利用随机值梯度学习连续InNeurIPS,2015. 2[20] Seungsu Kim,Ashwini Shukla,and Aude Billard.捕捉飞行中的物体。IEEE Transactions on Robotics,30:1049- 1065,2014。2[21] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv,2014. 6[22] 克里斯·M作者:Brian D.作者声明:by J.活动预测。ECCV,2012年。一、二[23] Eric Kolve 、 Roozbeh Mottaghi 、 Winson Han 、 EliVanderBilt 、 Luca Weihs 、 Alvaro Herrasti 、 DanielGordon、Yuke Zhu、Ab-hinav Gupta和Ali Farhadi。AI2-THOR:一个用于视觉AI的交互式arXiv,2017. 二、五[24] Thanard Kurutach , Ignasi Clavera , Yan Duan , AvivTamar,and Pieter Abbeel.模型集成信赖域策略优化。ICLR,2018年。4[25] 田兰,陈宗全,西尔维奥·萨瓦雷塞。用于未来动作预测的分层表示。2014年,在ECCV。一、二[26] 放大图片作者:Namhoon Lee,Wongun Choi,PaulVernaza , Christopher B. 作 者 : Philip H.S. Torr 和Manmohan Chandraker。欲望:在动态场景中与交互代理的遥远未来预测。在CVPR,2017年。2[27] Adam Lerer Sam Gross 和 Rob Fergus 通 过 实 例 学 习arXiv,2016. 1[28] Michaël Mathieu,Camille Couprie,and Yann LeCun.超越均方误差的深度多尺度视频预测。ICLR,2016年。2[29] PiotrMirowski,Razvan Pascanu,Fabio Viola,HubertSoyer , Andrew J. Ballard , Andrea Banino , MishaDenil , RossGoroshin , LaurentSifre , KorayKavukcuoglu,Dharshan Ku- maran,and Raia Hadsell.学会在复杂环境中导航。在ICL
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功