没有合适的资源?快使用搜索试试~ 我知道了~
General-purpose robots that can perform a diverse set ofembodied tasks in a diverse set of environments have to begood at visual exploration. Consider the canonical exampleof asking a household robot, ‘Where are my keys?’. Toanswer this (assuming the robot does not remember theanswer from memory), the robot would have to search thehouse, often guided by intelligent priors – e.g. peeking intothe washroom or kitchen might be sufficient to be reasonablysure the keys are not there, while exhaustively searchingthe living room might be much more important since keysare more likely to be there. While doing so, the robot hasto internally keep track of where all it has been to avoidredundant search, and it might also have to interact withobjects, e.g. check drawers and cabinets in the living room(but not those in the washroom or kitchen!).This example illustrates fairly sophisticated exploration, in-volving a careful interplay of various implicit objectives(semantic priors, exhaustive search, efficient navigation, in-teraction, etc.). Many recent tasks of interest in the embodiedAI community – e.g. ObjectGoal Navigation [1, 2], rear-rangement [3,4], language-guided navigation [5,6] and inter-action [7], question answering [8–12] – involve some flavorof this visual exploration. With careful reward engineering,reinforcement learning (RL) approaches to these tasks haveachieved commendable success [13–17]. However, engi-neering the ‘right’ reward function so that the learned policyexhibits desired behavior is unintuitive and frustrating (evenfor domain experts), expensive (requiring multiple rounds ofretraining under different rewards), and not scalable to newtasks or behaviors. For complex tasks (e.g. object rearrange-ment or tasks specified in open-ended natural language), RLfrom scratch may not even get off the ground.In this work, we advance the alternative research agenda ofimitation learning [18] – i.e. collecting a large dataset ofhuman demonstrations (that implicitly capture intelligent be-havior we wish to impart to our agents) and learning policiesdirectly from these human demonstrations.First, we develop a safe scalable virtual teleoperation data-collection infrastructure – connecting the Habitat simulator51730Habitat-Web: 从人类示范中学习具身物体搜索策略0Ram Ramrakhya 1 Eric Undersander 2 Dhruv Batra 1 , 2 Abhishek Das 201 佐治亚理工学院 2 Meta AI研究01 {ram.ramrakhya,dbatra}@gatech.edu 2 {eundersander,abhshkdz}@fb.com0摘要0我们展示了一项大规模的研究,即模仿人类示范在需要虚拟机器人在新环境中搜索物体的任务上的表现 - (1) 目标导航(例如 '找到并去到椅子') 和 (2) 拾取和放置 (例如'找到杯子,拾取杯子,找到柜台,将杯子放在柜台上')。首先,我们开发了一个虚拟远程操作数据收集基础设施 -将在Web浏览器中运行的Habitat模拟器与AmazonMechanicalTurk连接起来,允许远程用户远程操作虚拟机器人,安全且规模化。我们收集了80k个目标导航的示范和12k个拾取和放置的示范,这比现有的仿真或真实机器人的人类示范数据集大一个数量级。我们的虚拟远程操作数据包含29.3M个动作,相当于22.6k小时的真实远程操作时间,并展示了解决任务的丰富多样的策略。其次,我们使用这些数据来回答一个问题 -大规模模仿学习(迄今为止还不可能)与强化学习(现状)相比如何?在目标导航任务中,我们发现使用70k个人类示范的模仿学习(没有任何花哨的技巧)优于使用240k个代理收集的轨迹的强化学习。这有效地建立了一个'汇率' -一个人类示范似乎相当于约4个代理收集的示范。更重要的是,我们发现经过模仿学习训练的代理从人类那里学到了高效的物体搜索行为 -它窥视房间,检查角落以寻找小物体,原地转身以获得全景视图 -这些行为在强化学习代理中并不明显,而要通过现代强化学习技术诱导这些行为将需要繁琐的奖励设计。最后,准确率与训练数据大小的图表显示出有希望的扩展行为,这表明仅仅收集更多的示范很可能进一步推进技术的发展。在拾取和放置任务中,比较更加明显 -使用9.5k个人类示范训练的模仿学习代理在具有新的物体-容器位置的情节上实现了约18%的成功率,而强化学习代理无法超过0%。总体而言,我们的工作为大规模模仿学习提供了有力的证据。项目页面:ram81.github.io/projects/habitat-web。01. 简介51740图1. a)O BJECT N AV任务的示例:1)人类演示,2)使用人类演示进行训练的代理,3)最短路径。请注意,人类展示了复杂的探索行为,以在未知环境中成功完成任务,这在RL代理的正确奖励中很难实现,并且不太可能在最短路径演示中捕捉到。经过人类演示训练的代理学习了这种探索和物体搜索行为。b)O BJECT N AV MP3D-VAL分割的成功率与人类演示数量的对比。0在浏览器上运行到Amazon MechanicalTurk(AMT)。我们以一种方式开发了这个基础设施,以便在Habitat [19,20]生态系统中研究的各种任务中收集人类演示(例如PointNav [2],O BJECT N AV [1, 2],ImageNav [21],VLN-CE[6],MultiON[22]等)。我们使用这个基础设施收集了2个需要视觉搜索的任务的人类演示数据集——1)ObjectGoalNavigation(例如“找到并去椅子”)和2)PICK &PLACE(例如“找到杯子,拿起杯子,找到柜台,放在柜台上”)。总共我们收集了92k个人类演示,80k个O BJECT NAV的演示和12k个PICK &PLACE的演示。相比之下,现有的最大数据集在模拟环境中只有3-10k个人类演示[23-25]或在真实机器人上只有3-10k个人类演示[26,27],数量小了一个数量级。这个虚拟远程操作数据包含29.3M个动作,相当于假设使用[28]的LoCoBot运动模型的真实世界远程操作时间为22,600小时(详见附录A.3)。这些数据首先提供了一个具有足够严格误差范围的“人类基准”,可以被认真对待。在O BJECT NAV验证集上,人类实现了93.7±0.1%的成功率和42.5±0.5%的路径长度加权成功率(SPL)[2](与2021年HabitatObjectNav挑战赛冠军的34.6%成功率和7.9%SPL相比)。成功率(93.7%)表明这个任务对于人类来说基本可行(但不是100%)。SPL(42.5%)表明即使对于人类来说也需要进行大量的探索。除了规模之外,数据在人类解决任务时使用的策略方面也是丰富多样的。图1显示了一个AMT用户控制LoCoBot在新房子中寻找“植物”的示例轨迹——请注意窥视房间、绕过餐桌等行为,这些行为在最短路径到目标的行为中是(可以理解的)缺失的。我们使用这些数据来回答一个问题——大规模模仿学习(迄今为止还不可能)与大规模强化学习(现状)相比如何?在O BJECT NAV任务中,我们发现IL0(没有任何花哨的东西)仅使用70k个人类演示超越了使用240k个代理收集的轨迹的RL。这有效地建立了一个“汇率”——一个人类演示似乎相当于约4个代理收集的演示。更重要的是,我们发现经过IL训练的代理学习了高效的物体搜索行为——如图1和第7节所示。IL代理学习模仿人类窥视房间、检查角落以寻找小物体、原地转身以获得全景视图的行为——这些行为在RL代理中并不明显。最后,准确性与训练数据大小的图(图1b)显示出有希望的扩展行为,表明仅仅收集更多的演示很可能进一步推动技术的发展。在PICK &PLACE任务中,比较更加明显——当使用9.5k个人类演示进行训练时,IL代理在具有新的物体容器位置的情节上实现了约18%的成功率,而RL代理无法超过0%。在这两个任务中,我们发现人类的演示是必不可少的;模仿来自oracle的最短路径既不能产生准确性,也不能产生战略性的搜索行为。事后来看,这是可以理解的——最短路径(例如图1(a3))不包含任何探索,但任务要求代理进行探索。从本质上讲,最短路径是无法模仿的,但模仿学习是无价的。总的来说,我们的工作为大规模模仿学习人类演示提供了令人信服的证据。02. 相关工作0人类的具体演示。以前的专家演示数据集将视觉和行动(以及可选的语言)结合起来的具体任务分为两类,一类是由具有特权信息的规划器生成的最短路径轨迹[5, 7, 8, 29],另一类是由人类提供的轨迹[23-25]。虽然前者的一些工作从人类那里收集自然语言数据[5,7],但我们认为从人类那里收集导航数据同样重要。人类提供的导航轨迹数据集通常很小。TEACh [23],CVDN [24]和WAY[25]的情节少于10k,而EmbodiedQA[8]数据集有大约700个人类提供的情节,对于训练熟练的代理来说都是不可行的。我们工作的一个重要贡献是开发了一个可扩展的基于Web的基础设施,用于收集人类导航和交互演示,该基础设施可以轻松扩展到Habitat[19]模拟器中的任何任务,包括基于语言的任务。与以往的工作相比,我们收集了更多的演示(总共92k)。探索。学习如何探索环境以收集用于下游任务的足够信息具有丰富的历史[30]。基于好奇心的方法通常使用强化学习来最大化代理的内在奖励,这些奖励捕捉代理的惊讶或状态预测误差[31-33]。状态访问计数奖励也常用于学习探索[34, 35]。关于具体的O BJECT N AV 探索改进,SemExp[17]使用模块化策略进行语义映射和路径规划,Ye [15]使用随时间衰减的状态访问计数奖励,Maksymets[16]使用区域覆盖奖励。最相关的是,Chen[37]使用EmbodiedQA数据集[8]中的约700个人类导航轨迹(忽略问题)通过模仿学习学习任务无关的探索。我们同样通过模仿学习训练代理,但我们认为人类演示是一种丰富的任务特定的探索和有效导航的混合,简单的架构可以在其上进行训练,而无需显式的映射和规划模块。with objects (e.g. PICK&PLACE), we highlight the objectunder the user’s gaze by drawing a 3D bounding box aroundit (pointed to by a crosshair as in video games). In our initialpilots, we found this to improve user experience when grab-bing objects instead of users having to guess when objectsare available to be picked up. When an object is successfullygrabbed, it disappears from the first-person view and imme-diately appears in the ‘inventory’ area on the task interface.When a grabbed object is released, it is dropped at the centerof the user’s screen where the crosshair would be pointing to.If the crosshair points to a distance, the object is dropped onthe floor from a height at a distance of 1m from the agent’slocation. Upon completion, users submit the task by clicking‘Submit’. At this point, the sequence of keyboard actions,agent, and object states are recorded in our backend server.51750人类[5,7],我们认为从人类那里收集导航数据同样重要。人类提供的导航轨迹数据集通常很小。TEACh [23],CVDN[24]和WAY [25]的情节少于10k,而EmbodiedQA[8]数据集有大约700个人类提供的情节,对于训练熟练的代理来说都是不可行的。我们工作的一个重要贡献是开发了一个可扩展的基于Web的基础设施,用于收集人类导航和交互演示,该基础设施可以轻松扩展到Habitat[19]模拟器中的任何任务,包括基于语言的任务。与以往的工作相比,我们收集了更多的演示(总共92k)。探索。学习如何探索环境以收集用于下游任务的足够信息具有丰富的历史[30]。基于好奇心的方法通常使用强化学习来最大化代理的内在奖励,这些奖励捕捉代理的惊讶或状态预测误差[31-33]。状态访问计数奖励也常用于学习探索[34,35]。关于具体的O BJECT N AV 探索改进,SemExp[17]使用模块化策略进行语义映射和路径规划,Ye[15]使用随时间衰减的状态访问计数奖励,Maksymets[16]使用区域覆盖奖励。最相关的是,Chen[37]使用EmbodiedQA数据集[8]中的约700个人类导航轨迹(忽略问题)通过模仿学习学习任务无关的探索。我们同样通过模仿学习训练代理,但我们认为人类演示是一种丰富的任务特定的探索和有效导航的混合,简单的架构可以在其上进行训练,而无需显式的映射和规划模块。03. Habitat-WebGL基础设施0为了能够通过模仿学习训练代理,我们首先需要一个可靠的管道来大规模收集人类演示。为此,我们开发了一个基于Web的设置,将Habitat模拟器[19,20]与AMT用户连接起来,建立在Newman[38]的工作基础上。界面。图2显示了AMT用户与之交互以完成数据收集任务的界面截图。该Web应用程序通过WebGL在用户的浏览器上呈现Habitat-Sim中的资源。本工作中的所有数据收集都是在Matterport3D[39]扫描中进行的,但将来可以使用任何与Habitat兼容的资产。用户可以看到代理的第一人称RGB视图,并可以使用键盘控制移动和抓取/释放对象。在任务页面上,用户会收到一条指令和有关键盘控制的详细信息以完成任务。对于O BJECT NAV,我们提供了一个形式为“找到并前往”的指令。对于需要与对象交互的任务(例如P ICK &PLACE),我们通过在用户注视下绘制一个3D边界框(由视频游戏中的十字准星指向)来突出显示对象。在我们的初步试验中,我们发现这样做可以改善用户体验,因为用户不必猜测何时可以抓取对象。当成功抓取对象时,它将从第一人称视图中消失,并立即出现在任务界面上的“库存”区域。当释放抓取的对象时,它会被放置在用户屏幕的中心,准星指向的位置。如果准星指向一个距离,对象将从距离代理位置1m处的高度掉落到地板上。完成后,用户通过点击“提交”来提交任务。此时,键盘操作、代理和对象状态的序列将记录在我们的后端服务器中。0图2.我们用于收集对象导航演示的亚马逊机械土耳其接口的屏幕截图。用户可以看到代理的第一人称视角和指令,例如“找到并前往椅子”。他们可以通过键盘控制使代理在环境中观察和移动,并且可以通过点击“提交”来成功导航任务。0Habitat模拟器和PsiTurk。我们的Habitat-WebGL应用程序是用JavaScript开发的,并允许我们通过JavaScript绑定访问所有C++模拟器API。这使我们能够使用Habitat中可用的全部模拟功能。为了模拟物理,我们使用Habitat2.0中的物理API[20],包括刚体动力学支持(C++API作为JavaScript绑定公开)。我们的接口每50毫秒执行用户输入的动作(每秒渲染20帧),然后在模拟器中进行50毫秒的物理步进。我们在AMT上的所有任务都使用PsiTurk和一个NGINX反向代理提供,所有数据存储在一个MySQL数据库中。我们使用PsiTurk来管理任务,因为它为我们提供了有用的辅助函数来记录与任务相关的元数据,以及启动和批准任务。51760有关我们如何验证人类提交的AMT任务并确保数据质量的详细信息,请参见第A.6节。04. 任务和数据集0使用我们的网络基础设施,我们收集了两个具体任务的演示数据集 - OBJECT NAV [1, 2]和PICK &PLACE,这是对象重新排列的一个实例[3]。04.1. 目标导航0在目标导航(OBJECTNAV)任务中,代理被要求在未知环境中导航到指定对象类别的一个实例(例如'chair')。代理没有环境地图的访问权限,必须使用RGBD相机和GPS +Compass传感器进行导航,该传感器提供相对于episode开始位置的位置和方向信息。代理还接收目标对象类别ID作为输入。完整的动作空间是离散的,包括MOVE_FORWARD(0.25m)、TURN_LEFT(30°)、TURN_RIGHT(30°)、LOOK_UP(30°)、LOOK_DOWN(30°)和STOP动作。为了使episode被视为成功,代理必须在最多500步内以1m的欧几里德距离停下来,并能够转身从该结束位置观察对象[40]。人类演示(OBJECTNAV-HD)。我们从Matterport3D[39]的56个训练场景中收集了70k个演示,遵循[2,39]中定义的标准划分。对于每个场景,我们为每个唯一的目标对象类别收集了约59个演示episode,每个episode的人类演示器的起始位置随机设置。这相当于每个场景平均收集了约1250个演示。此外,我们从Gibson[41]的25个训练场景中收集了10k个演示。对于每个Gibson场景,我们为每个唯一的目标对象类别收集了约66个演示episode。这相当于每个场景约收集了396个演示。与训练人工代理不同,人类可以在任务界面上查看第一人称RGB,但不像人工代理那样可以获得深度和GPS +Compass信息。我们假设人类能够从视觉中推断出足够的深度和里程计信息,以完成目标所需的程度。总共,我们收集了80k个OBJECTNAV演示,总共约1950万步的经验,每个episode平均243步。最短路径演示。为了与先前的最短路径数据集进行比较[5, 7, 8,29],并展示人类演示的独特优势,我们还生成了一个最短路径数据集。本节的分析是在OBJECTNAV-HD的35k个演示子集上进行的(在第一阶段收集)。这些演示是通过贪婪地拟合动作以遵循到最近的可导航目标对象视点的测地线最短路径而生成的。由于最短路径(按设计)比人类演示更短(平均每个演示67步vs.243步),我们通过生成一个更大的数据集来进行补偿。0与35k个人类演示(从114k个最短路径中的7.6M步和从35k个人类演示中的8.4M步)大致匹配的最短路径数量。分析。表8a报告了我们的人类和最短路径演示数据集的统计信息。回想一下,如果目标对象在500个导航步骤内找不到,那么一个episode被认为是失败的。根据这个定义,人类在训练集episode中失败了11.1%;如果我们放宽步数限制,他们在episode中的失败率为0%。令人惊讶的是,人类的SPL在训练集episode中为39.9%,远低于最短路径的94.9%,突显了在未知环境中搜索对象的困难。我们还报告了两个指标来证明OBJECT NAV任务需要进行大量的探索。OccupancyCoverage(OC)衡量了代理在导航时覆盖的总面积的百分比。为了计算OC,我们首先将地图划分为2.5m×2.5m×2.5m的体素网格,并为每个访问的体素增加一个计数器。SightCoverage(SC)衡量了代理在episode期间其视野范围内可见的总可导航区域的百分比。为了计算SC,我们使用代理的视野在环境的俯视图上投影一个掩码,该掩码在每一步迭代更新以更新代理所见的区域。人类演示的OC和SC指标显示,与最短路径相比,人类在执行此任务时遍历了3-4倍的区域并观察了2倍的环境区域。图8b,c显示了人类和最短路径演示的episode长度和动作直方图。人类演示更长(平均约243步vs.约67步每个演示)并且具有稍微更均匀的动作分布。04.2. 物体重新排列 - P ICK &P LACE0在拾取和放置任务(P ICK &PLACE)中,代理人必须按照“将
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功