没有合适的资源?快使用搜索试试~ 我知道了~
ManipulaTHOR:物体操作的视觉框架
4497ManipulaTHOR:一个视觉对象操作框架Kiana Ehsani1,2 Winson Han1 Alvaro Herrasti1 Eli VanderBilt1 Luca Weihs1Eric Kolve1 Aniruddha Kembhavi1,2 Rooseveh Mottaghi1,21艾伦人工智能研究所2华盛顿大学https://ai2thor.allenai.org/manipulathor图1:我们解决了视觉对象操作的问题,目标是在场景中的两个位置之间移动对象。在视觉丰富和复杂的环境中操作,推广到看不见的环境和物体,避免与场景中的物体和结构发生碰撞,以及视觉规划到达目的地是这项任务的主要挑战在这里,我们展示了一个虚拟机器人在AI 2-THOR环境中从架子上拿起一个花瓶并将其堆叠在台面上的盘子上所采取的一系列动作摘要人工智能领域最近取得了长足的进步,特别是在环境中导航代理方面。这些早期的成功为社区解决需要智能体与环境中的对象积极交互的任务奠定了基础。对象操纵是机器人社区内的一个既定的研究领域,并提出了几个挑战,包括操纵器运动,抓取和长期规划,特别是在处理经常被忽视的实际设置时,涉及视觉丰富和复杂的场景,使用移动代理的操纵(相对于桌面操纵),以及对未知环境和对象的泛化。我们提出了一个基于物理支持的、视觉丰富的AI 2-THOR框架的对象操作框架,并向被称为ArmPoint- Nav的人工智能社区提出了一个新的挑战。该任务将流行的点导航任务[2]扩展到对象操作,并提供了新的挑战,包括3D避障、在存在遮挡的情况下操作对象以及需要长期规划的多对象操作。在PointNav挑战中取得成功的流行学习范式显示出希望,但仍有很大的改进空间。1. 介绍人工智能是机器人、计算机视觉和自然语言处理交叉领域的人工智能子专业,在这些社区的研究人员中继续受到欢迎。这加快了几个方面的进展-开源模拟器通过真实感和复杂的物理引擎变得更快,更强大,更逼真,各种任务正在进行,如导航和指令跟踪,新的算法和模型正在逐步使我们走向更强大和更通用的模型,最近开发的多个模拟到真实的一个值得注意的成果是开发了近乎完美的纯学习的点导航代理[33],远远优于经典方法。人工智能的大部分焦点和进展都围绕着导航任务在一个环境中导航是达到目的的关键手段,而不是目的本身。人工智能社区的愿望仍然是开发能够在现实世界中执行复杂任务的具体代理,这些4498涉及主动操纵环境中的物体人工智能的早期成功和兴趣为社区解决对象操作问题中的无数挑战奠定物体操纵长期以来一直是机器人专家面临的艰巨在环境内移动操纵器需要估计自由空间并避开场景中的障碍物推广到新的环境和对象是另一个重要的挑战。最后,现实世界的任务通常涉及在混乱的场景中连续操纵多个对象,这需要相当复杂的视觉推理和规划。除此之外,用于对象操作的去重模拟器提出了一系列独特的挑战。与需要摄像机平移和相当基本的碰撞检查的导航任务相比,对象操作需要代理、其手臂和周围物体之间的细粒度碰撞检测,以及使用高级物理仿真器来计算组成实体的最终位移。特别是,这些计算是昂贵的,需要大量的工程努力,以产生有效的模拟在合理的高帧速率。我们扩展了AI 2-THOR [20]框架,为其代理添加了手臂,使这些代理不仅能够在其环境中导航,而且还可以主动操纵其中的对象。新推出的手臂钻机设计的工作与正向和反向运动学,它允许一个控制手臂使用两个关节actu- ations或指定所需的手腕平移。这种灵活性允许熟练的AI从业者训练需要对所有关节进行细粒度致动器控制的策略,如果他们愿意的话,或者使用内置的运动学功能并仅专注于手臂和操纵器末端的期望定位。作为可推广的对象操作的第一步,我们提出了RMPOINT NAVRMPOINTNAV建立在PointNav [2]的导航任务之上,因为它是一个原子机车任务,是更复杂下游目标的关键组成部分,使用相对坐标指定源和目标位置,而不是其他手段,如语言或图像,并利用罗盘作为其传感器套件的一部分但相比之下,它提出了重大的新挑战。首先,该任务需要智能体和手臂在环境中的运动。其次,它经常需要到达遮挡障碍物后面以拾取物体,这需要小心的手臂操作以避免与遮挡物体和表面碰撞。第三,它还可能要求智能体操纵场景中的多个对象作为成功情节的一部分,以移除对象,或腾出空间来移动目标对象,这需要长期的与多个实体一起规划。最后,正如人们所预料的那样,手臂的运动经常遮挡视图的很大一部分,这与PointNav形成鲜明对比,PointNav只遇到静态的无障碍世界视图。端到端ARM POINT NAV模型提供了强大的基线结果,并显示出不仅推广到新环境而且推广到这些环境中的新对象的能力-这是学习可推广的对象操作模型的这种端到端的模型优于分离模型,后者在一集中为每个技能学习单独的策略。总 之 , 我 们 ( a ) 介 绍 了 一 种 新 的 有 效 的 框 架(ManipulaTHOR)的低层次对象操作,(b)为这项任务提供一个新的数据集,为社区带来新的挑战,以及(c)训练一个代理,该代理可以在看不见的环境中操作新的对象。我们的框架、数据集和代码将公开发布。我们希望这个新框架能够鼓励人工智能社区解决视觉对象操作中复杂但令人兴奋的挑战。2. 相关作品对象操作。机器人研究中的一个长期存在的问题是物体操纵[12,4,5,31,39,6、9、21、10]。在这里,我们解释一些最近的例子工作,更相关的我们的工作。[15]解决了在存在杂乱和遮挡的情况下与对象交互的多步操作的问题。[25]提出了一种规划方法,通过依赖于部分点云观测来在杂乱场景中抓取对象。[38]学习3D场景表示以预测对象在操纵过程中的动态。[18]提出了一种用于机器人操作的强化学习方法,通过组合现有技能来构建新策略。[11]提出了一种基于模型的多步操作规划器。[22,35]通过生成子目标任务来研究移动操作。视觉上复杂的场景,概括到新的对象和场景,联合导航和操纵,以及导航,同时操纵对象的手的组合是区分我们的工作从以前的工作对象操作的关键因素。对象操作的环境。虽然几个流行的人工智能框架都专注于导航任务,但最近提出了改进和框架,如iGibson[36]、SAPIEN [37]和TDW [13]使操纵的新研究成为可能。Sapien [37]是一个虚拟环境,设计用于机器人智能体与手臂的低级别控制。相比之下,我们的框架包括各种视觉丰富和可重构的场景,允许更好地探索感知问题。元世界[41]是为了研究机器人操作背景下的多任务学习而开发的。元世界框架包括一个静态的桌面机械臂和一个4499有限的对象集。相比之下,我们的框架可以使用各种对象来研究联合导航和操纵的问题。RLBench [19]还为桌面机器人手臂提供了模拟环境。Robo-Turk [23]是一个众包平台,用于获得机器人操作的人类轨迹RoboTurk还考虑了桌面操作场景。[16]提供了一个大规模的抓取和操纵数据集,以评估模型对非结构化视觉环境的通用化与我们的框架不同,他们的数据集是非交互式的,只包括预先记录的操作轨迹。iGib- son[36]涉及对象交互,但它不支持低级操作(交互主要涉及推动对象和围绕铰链旋转)。最近,iGibson [28]的扩展已经启用了接触力的对象操作。视觉导航。我们的问题可以被认为是视觉导航工作的扩展[43,17,24,26,34,40,7,33]在人工智能文献中。我们的操作任务和naviga之间有一些关键的区别-第在操作中,由于手臂的延伸,代理的形状动态地此外,对象的操纵是在3D和通过杂波中执行的,而导航工作在相当干净的场景中假设平面上的2D运动。最后,我们提出的任务要求代理计划其运动以及其手臂的运动同时进行。3. ManipulaTHOR人工智能的日益普及可以部分归因于许多免费和快速的3D模拟器的可用性,如AI 2-THOR [20],Habitat[27]和iGib- son [36]。这些模拟器中的一些擅长于他们的光物理学,一些擅长于他们的速度,一些擅长于他们提供的交互性,而另一些则擅长于他们的物理模拟。虽然研究人员在研究嵌入式导航时有很多选择,但研究对象操作的选择较少,特别是在具有各种对象和场景的视觉丰富的模拟对象操纵对模拟器构建者提出了独特的挑战,超出了导航所带来的挑战,包括需要细粒度物理仿真、对象和操纵器属性以及获得可接受的帧速率。我们提出了ManipulaTHOR,这是AI 2- THOR框架的扩展,它为其代理添加了武器。AI 2-THOR是一个合适的基础框架,因为它具有强大的物理引擎、Unity、各种逼真的室内场景、开源可操作对象的大型资产库以及橱柜、微波炉、盒子和冰箱等自动化容器。虽然AI 2-THOR以前曾用于训练与对象交互的代理,但这种交互是在高级别上调用的0.95m0.6335m1.06mYYXZZZ(一)X(b)第(1)款X(c)第(1)款YYYXZZZ(d)其他事项X(五)X(f)第(1)款Y图2:臂设计和运动学约束。 手臂由四个关节组成(a)。臂的最大范围由以第一关节末端为中心的半球臂的高度可以沿着药剂的主体进行调节(d)。所有关节旋转都通过逆运动学求解,因此手腕可以在半球范围内移动的任何位置都“打开”命令。ManipulaTHOR允许智能体通过他们的手臂操纵器与较低级别的对象进行可供使用的传感器是RGB图像,深度帧,GPS,代理手臂设计。在ManipulaTHOR中,每个代理都有一个单臂。手臂的物理设计是故意简单的:一个三关节的手臂与相等的肢体长度,连接到代理人的身体。这种设计的灵感来自Kinova肩部和手腕支持360度旋转,手抓持器具有6个自由度(见图2)。机器人抓钳抓取器被定义为位于手臂末端的球体。与球体相交的物体可以被抓取器拾取这个抽象的设计如下[ 3 ]的物体抓取是一个具有挑战性的问题,在机器人社区有着丰富的历史,我们希望在未来的版本中将此明确的功能添加到ManipulaTHOR中。4500苹果面包番茄生菜土豆肥皂瓶平底鸡蛋铲杯臂接口。手臂具有以下功能:1)操纵手腕的位置和方向(当手腕移动时,通过IK解析将手臂基部连接到手腕的关节),2)调整手臂的高度,3)获得包括关节位置的手臂状态6)改变抓钳球体的半径物理引擎我们通过Unity的引擎集成使用NVIDIA的PhysX引擎,以实现物理现实主义的对象操作。这个引擎允许我们真实地移动物体,在空间中移动手臂,并在手臂击中物体时产生级联力。渲染速度。准确的碰撞检测和物体位移估计是非常耗时的,但我们的模拟器的重要要求。通过广泛的工程努力,我们能够获得培训在配备8个运行40个内核的NVIDIA T4 GPU的机器上,速度可达每秒300帧(fps)。为了使这一点成为前瞻性的,POINT NAV在同一台机器上使用AI 2-THOR实现了大约800 fps的训练速度,但具有非常基本的碰撞检查,并且没有手臂可操作。在300 fps时,研究人员每天可以训练2000万步,这是推进这一方向研究的快速速度,我们希望通过对代码库进行更多优化来显着提高。4. ARM POINT NAV作为第一步,对一般化的对象操作,我们提出的任务RMPOINT NAV-移动场景中的对象从源位置到目标位置。这涉及,朝向物体导航,将臂夹持器移动靠近物体,将其拾取,朝向目标位置导航,将臂夹持器(在物体就位的情况下)移动靠近目标位置,并且最后释放物体,使得其小心地着陆。根据POINTNAV [2]的智能体导航任务,对象的源和目标位置通过智能体坐标系中的(x,y,z)坐标来指定数据集。为了研究ARM POINT NAV的任务,我们提出了臂POINT NAV数据集(APND)。这包括AI 2-THOR中的30个厨房场景,其中包括150多个对象类别(69个可交互对象类别),具有各种形状,大小和纹理。我们使用12个可拾取类别作为我们的目标对象。如图3所示,我们在训练集中使用了20个场景,其余的平均分为Val和Test。我们使用6个对象类别进行训练,并使用剩余的对象类别在Novel-Obj设置中测试我们的模型。指标. 我们报告以下指标:• 无干扰成功率(SRwD)不与场景中的其他对象碰撞/移动。• 成功率(SR)火车大量的数据点流可用于采样Val-SeenObj1800点测试-SeenObj1800点SeenScenes-NovelObj7200点Val-NovelObj1800点测试-NovelObj1800点图3:在APND中分割场景和对象。为了对ARM POINTNAV上的性能进行基准测试,除了提供用于训练的大量数据点之外,我们还提供了每个数据分割的一小部分任务。我们随机抽样60个任务,每个场景每个对象的评估目的。它不惩罚物体的碰撞和移动。• 拾取成功率(PuSR)• 事件长度(Len)• Successful episode Length(SuLen)• Pick up successful episode length(PuLen)APND提出了重大的新挑战。智能体不仅要学会导航自己,还要学会相对于身体导航手臂此外,当智能体在环境中导航时,它应该避免与其他物体碰撞-这会带来新的复杂性,此外,伸手拾取物体涉及自由空间估计和避障此外,它需要选择完美的时间来尝试皮卡以及结束插曲。最后,这些封堵器本身可能需要被操纵以完成任务。智能体应该克服这些挑战,同时其视野经常被手臂和/或所携带的物体阻挡。图4说明了从源位置拾取对象所涉及的一些挑战图5示出了对象的目标位置距其初始状态的距离的分布。对于COM,我们展示了代理导航和手臂导航的步长。请注意,不考虑代理与对象的初始距离5. 模型RMPOINTNAV要求智能体学习沿着2D地板导航自己,同时还学习在他们周围的3D空间内导航他们的手臂和对象厨房1厨房2厨房3厨房4厨房5厨房6厨房7厨房8厨房9厨房10厨房11厨房12厨房13厨房14厨房15厨房16厨房17厨房18厨房19厨房20厨房21 厨房22 厨房23厨房24厨房25厨房26 厨房27 厨房28厨房29厨房304501臂O(一)(c)第(1)款(b)第(1)款(d)其他事项图4:数据集样本。 物体的初始位置可能会带来各种挑战。 在(a)中,番茄被封闭因此,药剂需要移开碗才能接触到番茄。在(b)中,生菜在架子上,这需要代理人小心地移动臂,使得其不与架子或花瓶碰撞。在(c)中,目标对象在另一对象内部,并且在(d)中,目标对象在容器内部,因此在到达对象之前,它需要与另一实体交互(打开微波炉的门)。后一种情况不在本文件的范围之内。单臂步在这项工作中,我们研究了用于我们任务的端到端学习方法。参见第二节。图6表示通过单个端到端模型获得的结果与不相交方法的比较。我们的方法建立在[33]中用于POINT NAV任务的模型和学习方法的基础上。Manipu-laTHOR为智能体提供了对各种传感器的访问,包括以自我为中心的RGB和深度传感器、手臂的GPS和指南针坐标以及场景中的目标位置、地面实况实例分割图以及手臂的运动学在这项工作中,我们调查使用深度和RGB传感器以及GPS和Com- pass坐标,但留下其他传感方式的未来工作。我们的智能体在每个时间步使用其自我中心框架It、手臂的当前相对距离(末端执行器位置)到对象和图5:数据集的统计数据。该图以米为单位表示对象与目标位置的初始距离我们标记了智能体和手臂运动的步长,以及房间的平均宽度以供参考。过去的视觉对象操作工作倾向于使用模块化设计来解决这个问题[25,30,14]相比之下,最近在人工智能领域的发展[42,29]已经证明了使用基于端到端学习的方法的好处。在当前手臂到目标的相对距离这些观察分别被编码到视觉和位置嵌入中,然后输入控制器以产生可能动作的分布,即。其政策。智能体的离散化动作空间包括:向前移动、旋转智能体(左和右)、拾取物体、发出完成动作、在智能体前方的空间中移动手臂(向前、向后、右、左、上、下)、旋转手臂(根据欧拉角)以及增加或减少手臂的高度。六、从该策略中采样一个动作,并将其馈送到Manip-ulaTHOR模拟器中,该模拟器生成下一个状态和相应的观察结果。一个情节结束时,一个代理步骤房 间 平均宽度4502学习层512中间特征部FC224x224xcConv1Conv2Conv3[8x8]【4x4】【三乘三】图像特征GRU51211FCFC距离特征向左移动手臂O臂OO臂初始状态目标状态图6:架构。我们的网络使用深度(c=1)、RGB(c=3)或RGBD(c=4)观测值以及智能体对象达到其目标状态时,或当代理用完时间时(情节达到其最大长度)。图6提供了模型架构的概述视觉嵌入是使用3个卷积层,然后是一个全连接层,中间有非线性,以产生一个512维矢量。的相对坐标(手臂→物体和手臂→目标)由2个完全连接的层嵌入,具有ReLU非线性,大小为512的特征向量,其随后与图像特征连接。由隐藏大小为512的GRU [8]组成的控制器使用此结果嵌入作为输入来产生策略(即,分布)和值(即,对未来回报的估计)。使用DD-PPO [33]优化网络参数,其中终端奖励和中间奖励用于塑造奖励空间。更具体地说,每个时间步长t的奖励是:多阶段模型最后,我们消除了RGB和深度传感器在GPS和指南针坐标存在的重要性。实验设置。我们使用AllenAct [32]框架来实现和训练我们的模型。我们的代理使用一个具有13个离散动作的动作空间:1)将代理向前移动20cm,2-3)将代理向右/ 向 左旋 转45 度 ,4-9 ) 将手 腕的 相对 位置 改 变5cmw.r.t.试剂(±x,±y,±z),和10-11)增加或降低使臂的高度增加7cm(参见图2,可能的手臂运动的图示),12)抽象抓握(其可以是成功的或不成功的),13)发出指示情节结束的完成动作。我们使用DD-PPO [33]作为我们的优化算法。我们为每个模型训练20M帧,最大剧集长度为200。如第4节所述,我们使用20个场景进行训练,rt=R 成功. I成功+R拾音器 . 我接Oarm +目标,(一)5个用于验证,5个用于测试。除非另有说明,否则我们在具有6个对象的训练场景上训练我们的网络,并使用R成功 = 10,R拾取 = 5、我成功,我捡都任务成功和物体拾取成功的指示符以及目标成功和目标成功分别是臂到物体的距离(D0)和物体到目标的距离(D目标)与先前时间步长相比的差值。这种奖励形成的方法为我们提供了平衡任务不同阶段6. 实验我们现在使用APND数据集呈现我们的ARM POINTNAV的结果,并量化其推广到新场景以及这些场景中的新对象的能力。我们还将我们的端到端方法与6个可见物体和6个新物体类别。每个对象类别包括不同形状和外观的实例。定量结果表1报告了我们的使用6个指标的模型( SRwD ) 、 PickUp Success ( PuSR ) 、 EpisodeSuccess(SR)、Ep-Len for PickUp(PuLen)、Ep-Len for Success(SuLen)和Episode Length(Len)。所提出的模型表现相当不错,在训练时与其交互的对象的SRwD达到39.4%(允许干扰时为68.7%)。它获得了89.9%的明显更高的PuSR,表明朝向对象的初始位置导航并拾取它比在场景中导航对象更容易。有趣的是,该模型也适度地推广到新对象(第2行-第4行���∈ ℝ3输入帧公司简介4503图7:定性结果。我们的定性结果说明了我们的网络的能力,概括到拿起新的环境中的对象和导航代理与对象在手所需的位置。例如,行(c)显示了第三视角的场景,其中智能体需要在厨房中导航,同时避免与其他物体(在本例中为烤面包机、西红柿和水槽)碰撞。Test-NovelObj)。SRwD指标降级在chal-challening零拍摄设置相比,看到的对象sce- nario。这些结果是有前途的,是学习可推广的对象操作模型的垫脚石。我们还提供了SeenScene-NovelObj的结果-其中代理在可见的环境中进行测试,但提供了新的对象。值得注意的是,性能与Test-NovelObj类似,再次显示了迁移到新对象类别的挑战移动和操纵对象需要理解对象的几何形状(以便能够避免碰撞),因此推广到看不见的对象是具有挑战性的。分析这个模型的性能,看看我们的方法的性能如何根据目标位置与初始状态的接近程度而变化,这是很有趣的正如预期的那样,SRwD随着我们增加到目标的距离而下降,因为导航到目标位置变得更加困难。然而,我们的模型对更长的距离相对稳健(图8)。但是,我们再一次看到,看到的物体的SRwD比新的物体高。图7中的定性结果说明了我们的代理在Test-SeenObj上的行为的一些示例在第二行中,代理必须移动中等大小的对象(莴苣),而在第一行中,它必须移动较小的对象(苹果)。图8:基于初始目标距离的SRwD率比较。 该图表明,我们的网络对新场景的泛化能力优于对看不见的对象的泛化能力。第二行显示了一个示例,其中目标位置位于桌子上,桌子上有几个其他物体,在放下物体时需要小心移动手臂。第三行示出了来自a的行(b)中的片段。(((4504EP-成功(无干扰%)(SRwD)收件成功率%(PuSR)发作成功率%(斯洛伐克共和国)Ep-Len for Pickup(蒲伦)Ep-Len成功(苏伦)Ep-Len(伦)Test-SeenObj39.489.968.743.678.1114.0Test-NovelObj32.784.362.148.182.4122.0SeenScenes-NovelObj32.290.674.644.680.7104.0表1:定量结果。我们的网络在不同数据分割上的性能。我们的实验表明,我们训练的代理可以推广到新的场景和对象。第三个摄像头。请注意,此视图纯粹是为了说明-传感器SRwD PuSR SR PuLen SuLen Len导航手臂以拾取物体与在3D环境中移动物体共享许多潜在的物理理解,并且在它们之间共享权重将有助于性能。为了评估这个假设,我们还训练了一个不相交的模型-它由两个独立的视觉编码器和控制器组成,每个子任务都有一个,即拾取物体并向目标移动(权重不共享)。在训练时,第一子任务模型在训练开始时开始接收梯度,但是第二子任务模型仅在训练片段进行到超过成功拾取时才接收表2中的结果表明,具有不相交方法改进了PuSR和PuLen,因为第一个模型仅需要执行拾取对象的简单任务。然而,该模型无法学习将对象导航到目标,因为该模型仅接收一小部分训练片段(完成拾取的片段)的梯度。由于它在两个阶段之间没有共享参数,因此它无法利用在两个阶段中学到的技能和能力。虽然不相交模型的参数数量增加了一倍,但训练效率也我们承认,如果模型训练时间更长,成功率可能会增加1。这种消融证明了我们的设计选择,结合两个子任务的皮卡和移动到目标。无视特工尽管可以使用GPS和罗盘传感器,但视觉信息是RMPOINTNAV为了说明视觉信息在我们训练中的重要性,我们训练了一个没有视觉模态但仍然有其他感官信息(如手臂相对位置)的模型。在表2中,我们表明我们的代理比非视觉基线的性能高出2倍以上,将SRwD从10提高到10。3到39四、RGB和深度模式。ManipulaTHOR提供了一系列传感器模式来训练和评估代理。到目前为止,我们的实验只利用了以自我为中心的深度1 40M帧的训练(2倍正常训练)略微增加了训练集的成功率,但测试集深度GD39.4 89.968.7 43.6 78.1 114.0表2:消融研究。我们研究烧蚀我们的网络工作使用不同的组合传感器以及architecture设计。这些网络使用的输入传感器是GPS(G)、深度(D)和RGB(R)传感器的子集。意见。在表2中,我们显示了使用RGB和RGBD框架训练的代理的结果。对于我们的RGB实验,我们使用与深度设置相同的架构,并且对于RGBD输入,我们将图像特征与深度特征连接起来,并使用组合特征作为GRU的输入。其余的设置类似于我们的基线方法。我们观察到仅深度模型优于RGB模型。之前PointNav任务也显示了类似的趋势[27]。更复杂的网络和/或训练范式可能有助于改进指标,我们将这个方向留给未来的工作。7. 讨论/结论我们提出了一个基于AI 2-THOR环境的可视化对象操作框架ManipulaTHORManipulaTHOR提供了一个多样化和视觉复杂的场景与几个不同的对象类别操纵主机。我们希望这个新的框架能够鼓励人工智能社区解决 与 对 象 操 作 有 关 的 令 人 兴 奋 的 问 题 利 用ManipulaTHOR研究了目标是拾取物体并将其移动到目标位置的ARMPOINT NAV我们的实验评估表明,在具体任务(如导航)上表现良好的最先进的模型对于对象操作并不有效,这表明对于这种具有挑战性的任务,改进模型仍然有很大的此外,在本文中,我们使用GPS和视觉传感器。放松这些传感器的使用是一个有趣的任务,留给未来的工作。致谢。我们感谢Dustin Schwenk提出框架的名称。目的明确,不适用于代理人。无视觉G10.366.818.738.165.664.9与不相交模型的比较。在这项工作中,我们使用一个单一的端到端模型的整个任务,其中包括不相交模型GD0.091.60.040.8-5.05将手臂导航到要拾取的物体,RGBGR21.268.337.756.291.153.0将智能体、手臂和物体移动到目标位置。我们断定RGBDGRD37.186.862.845.182.2123.04505引用[1] https://www.kinovarobotics.com网站。3[2] PeterAnderson , AngelChang , DevendraSinghChaplot,Alexey Dosovitskiy,Saurabh Gupta,VladlenKoltun , Jana Kosecka , Jitendra Malik , RoosevehMottaghi,Manolis Savva,and Amir R.扎米尔具身导航代理的评估。arXiv,2018年。一、二、四[3] Dhruv Batra、Angel X Chang、Sonia Chernova、AndrewJ Davison、Jia Deng、Vladlen Koltun、Sergey Levine、Jitendra Malik 、 Igor Mordatch 、 Rooseveh Mottaghi 、Manolis Savva和Hao Su。重排:嵌入式人工智能的挑战。Arxiv,2020年。3[4] 安东尼奥·比奇和维杰·库马尔。机器人抓取与接触:综述.载于ICRA,2000年。2[5] Jeannette Bohg,Antonio Morales,Tamim Asfour,andDanica Kragic.数据驱动的抓握综合研究综述。IEEETransactions on Robotics,2013。2[6] Konstantinos Bousmalis 、Alex Irpan、 Paul Wohlhart、Yunfei Bai 、 Matthew Kelcey 、 Mrinal Kalakrishnan 、Laura Downs 、 Julian Ibarz 、 Peter Pastor 、 KurtKonolige、Sergey Levine和Vincent Vanhoucke。利用仿真和领域自适应提高机器人深抓取效率在ICRA,2018年。2[7] Devendra Singh Chaplot , Saurabh Gupta , DhirajGandhi,Abhinav Gupta,and Ruslan Salakhutdinov.学习使用主动神经映射进行探索。2020年,在ICLR。3[8] KyunghyunCho,BartVanMerrieünboer,CaglarGulcehre , Dzmitry Bahdanau , Fethi Bougares ,Holger Schwenk,and Yoonge Bengio.使用rnn编码器-解码器学习统计机器翻译的短语表示。在EMNLP,2014年。6[9] Kuan Fang , Yunfei Bai , Stefan Hinterstoisser , SilvioSavarese,and Mrinal Kalakrishnan.多任务域自适应用于从模拟中获取实例的深度学习在ICRA,2018年。2[10] Kuan Fang , Yuke Zhu , Animesh Garg , AndreyKurenkov,Viraj Mehta,Li Fei-Fei,and Silvio Savarese.从模拟的自我监督学习任务导向的工具操作抓握。国际机器人研究杂志,2020年。2[11] Kuan Fang , Yuke Zhu , Animesh Garg , SilvioSavarese,and Li Fei-Fei.多步操作的级联变分干涉动力学学习。在CoRL,2020年。2[12] 罗纳德·费林执行目标重定向的力策略。载于ICRA,1986年。2[13] Chuang Gan , Jeremy Schwartz , Seth Alter , MartinSchrimpf , James Traer , Julian De Freitas , JonasKubilius,Abhishek Bhandwaldar,Nick Haber,MegumiSano , et al. Threed-world : A platform for interactivemulti-modal physical simulation.Arxiv,2020年。2[14] 凯兰·里德·加勒特,托马·洛扎诺·佩雷斯,莱斯利·帕克·凯尔布林。Pddlstream:通过乐观自适应规划集成符号规划器和黑盒采样器。在自动规划和调度国际会议上,2020年。5[15] 凯兰里德加勒特,克里斯帕克斯顿,托马的洛扎诺佩雷斯,莱斯利包凯尔布林,和迪特尔福克斯。在线重新规划4506在部分可观察任务和运动问题置信空间在ICRA,2020年。2[16] Abhinav Gupta , Adithyavairavan Murali , DhirajPrakashc- hand Gandhi,and Lerrel Pinto.家庭机器人学习:提高泛化能力,减少数据集偏差。在NeurIPS,2018年。3[17] Saurabh Gupta , James Davidson , Sergey Levine ,Rahul Suk-thankar,and Jitendra Malik.视觉导航的认知绘图与规划。在CVPR,2017年。3[18] T.维特希尔?哈尔诺亚Pong,Aurick Zhou,MurtazaDalal,P. Abbeel和S.莱文用于机器人操作的可组合深度强化学习。在ICRA,2018年。2[19] 斯蒂芬·詹姆斯,马自聪,大卫·罗维克·阿罗霍和安德鲁·J·戴维森。Rlbench:机器人学习基准学习环境。IEEE Robotics and Automation Letters,2020。3[20] Eric Kolve , Rooseveh Mottaghi , Winson Han , EliVanderBilt , Luca Weihs , Alvaro Herrasti , DanielGordon , Yuke Zhu , Ab-hinav Gupta , and AliFarhadi.ai 2-thor:一个交互式的3d环境。arXiv,2017年。二、三[21] Sergey Levine,Peter Pastor,Alex Krizhevsky,JulianIbarz,and Deirdre Quillen.通过深度学习和大规模数据收集学习机器人抓取国际机器人研究杂志,2018年。2[22] Chengshu Li,Fei Xia,Roberto Mart 'ın-Mart' ın,andSilvio Savarese. Hrl4in:用于移动机械手交互导航的分层强化学习arXiv,2019年。2[23] Ajay Mandlekar,Yuke Zhu,Animesh Garg,JonathanBooher,Max Spero,Albert Tung,Julian Gao,JohnEm-mons , AlfreitGupta , EmreOrbay , etal.Roboturk:一个通过模仿进行机器人技能学习的众包平台。arXiv,2018年。3[24] Piotr Mirowski、Razvan Pascanu、Fabio Viola、HubertSoyer 、 Andrew J. Ballard 、 Andrea Banino 、 MishaDenil 、 RossGoroshin 、 LaurentSifre 、 KorayKavukcuoglu、Dharshan Ku- maran和Raia Hadsell。学会在复杂环境中导航。在ICLR,2017年。3[25] Adithyavairavan Murali,Arsalan Mousavian,ClemensEppner,Chris Paxton,and Dieter Fox.6-用于杂波环境下目标驱动物体操纵的自由度抓取在ICRA,2020年。第二、五条[26] Nikolay Savinov , Alexey Dosovitskiy , and VladlenKoltun.用于导航的半参数拓扑存储器。2018年,在ICLR。3[27] ManolisSavva , AbhishekKadian , OleksandrMaksymets , Yili Zhao , Erik Wijmans , BhavianiJain,Julian Straub,Jia Liu,Vladlen Koltun,JitendraMalik , et al. Habitat : A platform for embodied airesearch.在ICCV,2019年。三,八[28] Bokui Shen,Fei Xia,Chengshu Li,Roberto Mart 'ın-Mart' ın,Linxi Fan,Guanzhi Wang,Shyamal Buch,ClaudiaD'Arpino , SanjanaSrivastava , LynePTchapmi,et al. igib- son,a simulation environment forinteractive tasks in large realisticscenes. Arxiv,2020年。3[29] Mohit Shridhar 、 Jesse Mesquason 、 Daniel Gordon 、Yonatan Bisk 、 Winson Han 、 Roodah Mottaghi 、 LukeZettlemoyer和Dieter Fox。ALFRED:口译的基准4507日常任务的固定指令。在CVPR,2020年。5[30] 西达斯·斯里瓦斯塔瓦,尤金·方,洛伦佐·里亚诺,罗汉·奇尼斯,斯图尔特·罗素,和彼得·阿比尔.通过一个可扩展的独立于计划器的接口层组合任务和运动计划。InICRA,2014. 5[31] MikeStilman , Jan-UllrichSchamburek , JamesKuffner,and Tamim Asfour.可移动障碍物间的操纵规划。载于ICRA,2007年。2[32] Luca Weihs , Jordi Salvador , Klemen Kotar , UnnatJain,Kuo-Hao Zeng,Roofah Mottaghi,and AniruddhaKembhavi.Allenact:一个嵌入式人工智能研究框架。Arxiv,2020年。6[33] Erik Wijmans、Abhishek Kadian、Ari Mor
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功