没有合适的资源?快使用搜索试试~ 我知道了~
Habitat: 一个高效的人工智能训练平台
9339栖息地:一个具体人工智能研究Manolis Savva1,4 *,Abhishek Kadian1 *,Oleksandr Maksymets1 *,YiliZhao1,Erik Wijmans1,2,3,Bhaviah Jain1,Julian Straub2,Jia Liu1,Vladlen Koltun5,Jitendra Malik1,6,Devi Parikh1,3,Dhruv Batra1,31Facebook AI Research,2Facebook Reality Labs,3佐治亚理工学院4西蒙弗雷泽大学,5英特尔实验室,6加州大学伯克利分校摘要我 们 介 绍 了Habitat, 一 个 研 究嵌 入 式 人 工 智 能(AI)的平台Habitat能够在高效的逼真的3D仿真中训练智能代理(虚拟机器人)。具体而言,生境中心包括:(i) Apriat-Sim:一个灵活的,高性能的3D模拟器,具有可配置的代理,传感器和通用的3D数据集处理。MIPAT-Sim速度很快-(ii) API:一个模块化的高级库,用于端到端的最终开发具体的人工智能算法-定义任务(例如,导航、指令遵循、问题回答)、配置、训练和基准测试具体化代理。这些大规模的工程贡献,使我们能够回答科学问题,需要实验,到目前为止是不切实际的或具体而言,在点目标导航的上下文中:(1)我们重新审视了最近两部作品中的学习和SLAM方法之间的比较[19,16],并找到了相反的证据。站点结论比以前的经验多一个数量级调查,和(2)我们进行了第一次跨数据集泛化实验{训练,测试}×{Matterport 3D,吉布森}多个传感器{盲,RGB,RGBD,D}和发现只有具有深度(D)传感器的智能体才能在数据集上泛化。我们希望我们的开源平台和这些发现将推动嵌入式AI的研究。1. 介绍想象一下,你走到一个家用机器人面前,问他:“嘿,你能去看看我的笔记本电脑在不在我的桌子上吗?”如果是的话,*表示平等缴款。“你骗我! 为了取得成功,这样的机器人需要一系列技能-视觉感知(识别场景和物体),语言理解(将问题和指令转化为行动),以及在复杂环境中的导航(在不断变化的环境中移动和找到东西)。虽然由于深度表征的最新进展,视觉和语言社区取得了重大进展[14,11],但大部分进展都是在前者的重点是图像,视频和文本中的模式识别,这些数据集通常来自互联网[10,18,4]。后者的重点是使行动的具体代理(例如,机器人)在一个环境中。这带来了积极的感知,长期规划,从互动中学习,并在环境中进行对话。一个简单的建议是直接在物理世界中训练代理-让他们接触到所有的丰富性。这是有价值的,并将继续在人工智能的发展中发挥重要作用然而,我们也认识到,在现实世界中训练机器人是缓慢的(现实世界的运行速度不会比实时快,并且不能并行化),危险的(训练不良的代理可能会无意中伤害自己,环境或他人),资源密集型(机器人和他们执行的环境需要资源和时间),难以控制(很难测试角落)。根据定义,这些情况场景是不常见的并且难以重现),并且不容易再 现(在实验 和机构之间复 制条件是困难的)。我们的目标是支持一个互补的研究计划:训练具体代理(例如,虚拟机器人)在丰富的现实模拟器,然后将学到的技能转移到现实中。仿真在科学和工程领域(从航空航天到动物学)有着悠久而丰富的历史。在嵌入式人工智能的背景下,模拟器有助于克服上述挑战-它们可以比实时快几个数量级,并且可以在集群上并行化;模拟训练安全、便宜,而且可以进行公平的比较9340人居平台任务模拟器数据集图1:用于训练具体代理的先前的工作(在蓝框中突出显示)贡献了各种数据集,模拟软件和任务定义。我们提出了一个统一的体现代理堆栈的人居平台,包括通用数据集支持,高性能的模拟器(模拟器-SIM卡),和一个灵活的API(模拟器-API),允许定义和评估的一系列广泛的任务。并在整个社会的共同努力下制定进度基准。一旦开发出一种有前途的方法并在模拟中进行测试,它就可以转移到在现实世界中运行的物理平台上[6,15]。数据集一直是计算机视觉、NLP和其他AI领域进步的关键驱动力[10,18,4,1]。随着社区过渡到嵌入式AI,我们相信模拟器将承担以前由数据集扮演的角色。为了支持这一转变,我们的目标是标准化整个具体而言,生境中心由以下机构组成:1. MIPAT-Sim:一个灵活的,高性能的3D模拟器,具有可配置的代理,多个传感器和通用的3D数据集处理(内置支持Mat-terport 3D,Gibson和MapInfo数据集)。2. API:一个模块化的高级库,用于嵌入式AI算法的端到端开发导航、指令遵循、问题回答)、配置和训练具体代理(通过模仿或强化学习,或通过经典的SLAM),以及使用标准度量进行基准测试[2]。人居中心的结构和执行工作结合了模块化和高性能。当从Matterport3D数据集渲染场景时,单 个 GPU , 比 最 接 近 的 模 拟 器 快 几 个 数 量 级 。Apriat-API允许我们使用不同类别的方法和不同的3D场景数据集来训练和基准测试体现代理。这些大规模的工程贡献,使我们能够回答科学问题,需要实验,到目前为止是不切实际的或具体来说,在点目标导航[2]的背景下,我们做出了两个科学贡献:1. 我们重新审视了最近两部作品[19,16]中学习和SLAM方法之间的比较,并找到了相反结论的证据-2. 我 们 对 多 个 传 感 器 {Blind1 , RGB , RGBD ,D}×{ GPS+Compass}进行了第一次跨数据集泛化实验{train,test}×{ Matterport 3D,Gibson},发现只有深度(D)传感器的智能体泛化效果良好跨数据集。我们希望我们的开源平台和这些发现将推动并指导未来的嵌入式AI研究。2. 相关工作大规模3D场景数据集的可用性[5,24,8]和社区对主动视觉任务的兴趣导致了最近的工作激增,导致开发了各种室内环境模拟平台[17,7,13,22、26、3、27、28、21]。这些平台在以下方面有所不同:每秒几千帧(fps)运行单个-线程,并可以达到超过10000 fps的多进程上1盲是指代理没有视觉感官输入。CHALET(Yan例如,2018吉布森(Zamir等人,米诺斯(Savva等人,House3D AI2-THOR(Wu等人,2017)(Kolve等人,2D-3D-S(Armeni等人,Matterport3D(Chang等人,1999年(Straub et al.,(Dasetal. ,2018)(Hilletal. ,2017年)(Gordonetal.),2018年)。,2018年)(Zhuetal. ,2017,Guptaettal. ,2017视觉导航质量保证语言基础互动问答视觉语言导航生境API模拟生境通用数据集支持9341他们使用的3D场景数据,他们解决的具体代理任务,以及他们实现的评估协议。这种活动的激增既令人兴奋又令人担忧。一方面,这显然表明了不同研究领域(计算机视觉、自然语言处理、机器人技术、机器学习)对嵌入式人工智能的兴趣。另一方面,多个不同的模拟环境的存在可能会导致碎片化,重复工作,难以复制和社区范围内的进步。此外,现有的模拟器表现出几个缺点:– 任务的紧密耦合(例如导航),仿真平台(例如,GibsonEnv)和3D数据集(例如,Gibson)。多个任务或数据集的实验是不切实际的。– 硬编码的代理配置(例如,大小、动作空间)。不支持代理参数和传感器类型的消融,使得结果难以比较。– 次优的渲染和模拟性能。大多数现有的室内模拟器以相对较低的帧速率(10-100 fps)运行从这样的实验中获得的信息变得不可靠–– 环境状态的有限控制根据当前对象的3D场景的结构不能被编程修改(例如,以测试代理的鲁棒性最关键的是,构建在任何现有平台之上的工作都很难独立于平台进行复制,因此很难对基于不同平台的工作进行评估,即使在目标任务和数据集相同的情况下也是如此。这一现状是不可取的,也是人居署努力的动力。我们的目标是从以前的框架的成功经验中学习,并开发一个统一的平台,结合他们的理想特性,同时解决他们的局限性。一个通用的、统一的平台可以通过实现代码重用和一致的实验方法来显著加速研究。此外,一个共同的平台使我们能够轻松地进行实验测试代理基于不同的范例(学习与。经典)和数据集之间的代理的泛化。我们进行对比学习和经典的导航方法的实验类似于Mishkin等人最近的工作。[19 ]第10段。 然而,人居堆栈相对于MINOS [22]的性能[19]– 千与千每秒100帧-允许我们评估经过大量经验训练的智能体(7500万步与500万步)。我们观察到的趋势表明,当提供大量的训练经验时,学习代理可以开始匹配并超越经典方法。Koijima和Deng [16]最近的其他工作也将手工设计的导航代理与学习代理进行了比较,但他们的重点是定义额外的指标来表征代理的性能并建立图2:两个不同环境数据集中三个传感器(彩色摄像头、深度传感器、语义实例掩码)Matterport3D [8]环境位于顶行,而Matterport3D[25]环境位于底行。导航事件的硬度测量据我们所知,我们的实验是第一个训练导航代理提供了多个月的经验,在现实的室内环境中,并将它们与经典的方法进行对比。3. 人居平台Habitat的发展是一项长期的努力,旨在形成一个共同的任务框架[12],用于研究具体的代理人,从而支持该领域的系统研究进展。设计要求上一节中讨论的问题将我们引向一组我们寻求满足的需求– 高性能渲染引擎:资源-可以产生多个可视信息通道的高效呈现引擎(例如,RGB、深度、语义实例分割、表面法线、光流)。– 场景数据集摄取API:使平台与3D场景数据集无关,并允许用户使用自己的数据集。– 代理API:允许用户指定具有明确定义的几何形状、物理特性和驱动特性的参数化实体代理。– 传感器套件API:允许指定任意数量的参数化传感器(例如,RGB,深度,接触,GPS,罗盘传感器)连接到每个代理。– 场景和任务API:允许可移植地定义任务及其评估协议。– 实现:C++后端与Python API和与常见学习框架的互操作,最小化入门门槛。– 容器化:支持集群中的分布式训练和用户提供代码的远程服务器评估。– 人类作为代理:允许人类在模拟中充当代理,以收集人类行为并研究人与代理或人与人的交互。– 环境状态操作:编程控制9342根据存在的对象及其相对布局来控制环境配置。设计概述。上述设计需求跨越图1中的“软件栈”中的几个层单芯片设计不适合满足所有级别的要求。因此,我们构建了Habitat平台,以反映这种多层抽象。在最低级别上,是一个灵活的,高性能的3D模拟器,负责将3D场景加载到标准化的场景图表示中,用多个传感器配置代理,模拟代理运动,并从代理的传感器套件返回传感数据Habitat中的传感器抽象允许其他传感器(如LIDAR和IMU)轻松实现为插件。使用场景图的通用3D数据集API。 Hat-Sim采用了一种分层的场景图形来表示所有支持的3D环境数据集,无论是合成的还是基于真实世界的重建。 使用统一的场景图表示允许我们抽象特定数据集的细节,并以一致的方式处理它们场景图允许我们通过过程场景生成、编辑或编程操作来组成3D环境。渲染引擎。Replat-Sim后端模块是用C++实现的,并利用Magnum图形中间件库2来支持在各种硬件配置上的跨平台部署。模拟器后端采用高效的渲染流水线,该流水线使用多附件“超级着色器”来实现视觉传感器帧渲染,该多附件“超级着色器”组合了彩色摄像机传感器、深度传感器和语义掩码传感器的输出。通过允许在单个渲染通道中生成所有输出,我们避免了共享传感器参数时的额外开销,并且同一渲染通道可用于所有输出。图2显示了在三个不同的支持数据集中呈现的视觉传感器的示例通过简单地指定不同的输入场景,在三个数据集中的每个数据集中的场景中实例化相同的代理和传感器配置。性能EQUAT-Sim实现了每个模拟器线程每秒数千帧的速度,并且比用于现实室内环境的先前模拟器(通常以每秒数十或数百帧的速度运行)快了几个数量级-相比之下,AI 2-THOR [17]和CHALET [28]的运行速度为数十fps,MINOS [22]和Gibson [27]的运行速度约为100fps,House 3D [26]的运行速度约为300fps。Mesiat-Sim快2-3个数量级。通过以每秒10000基于TensorFlow基准测试,许多流行的1工艺5 过程传感器/分辨率128256512128256512RGB四千零九十三一千九百八十七848一万零五百九十二三千五百七十四二千六百二十九RGB +深度二千零五十一千零四十二423五二二三一千七百七十四一千三百四十八表1:在英特尔至强E5-2690 v4 CPU和Nvidia Titan Xp GPU上,以每秒帧数为单位的Matterport 3D场景示例(id 17 DRP5sb 8 fy)的性能,在不同的帧分辨率和不同数量的共享GPU的并发模拟器进程下进行测量。有关其他基准测试结果,请参阅补充资料。在单个GPU上更低3.在实践中,我们已经观察到,它往往是更快地生成图像使用的marticat-sim比从磁盘。高效的GPU吞吐量。 目前,框架通过共享内存将Python张量公开。未来的开发将专注于更高的渲染效率,通过使用CUDA-GL互操作和直接共享渲染缓冲区和纹理作为张量,完全避免GPU到CPU的内存复制开销我们初步的内部测试表明,这可能会导致2倍的加速。在模拟后端之上,Applat-API层是一个模块化的高级库,用于嵌入式AI的端到端开发。设置具体化任务涉及指定可以由代理使用的观察,使用由模拟器提供的环境信息,以及将信息与任务特定的情节数据集连接– 任务:这个类扩展了模拟器发作终止的标准和成功的衡量标准由任务提供。例如,在目标驱动的导航中,任务提供目标和评估指标[2]。 为了支持这种功能,任务对模拟器和Episode-Dataset具有只读访问权限。– Episode:用于情节规范的类,包括Agent的初始位置和方向、场景ID、目标位置,以及可选的到达目标的最短路径事件是对任务实例的描述。– 环境:Habitat的基本环境概念,通过模拟器抽象出执行具体任务所需的所有信息。有关Habitat平台的架构、性能测量和API使用示例的更多详细信息,请参见附录。网络体系结构以10- 100倍的帧速率运行3https://www.tensorflow.org/guide/performance/2https://magnum.graphics/基准93434. PointGoal按比例为了证明Habitat平台设计的实用性,我们进行了实验来测试不同环境数据集之间目标导向视觉导航代理的泛化,并将基于学习的代理与经典代理的性能进行比较,以增加可用的训练经验。任务定义。我们使用PointGoal任务(由Anderson等人定义)。[2]作为我们的实验平台。这个任务表面上定义起来很简单-在环境中的随机起始位置和方向处初始化代理,并要求其导航到相对于代理位置提供的然而,在实验过程中,我们意识到这项任务为微妙的选择留下了空间,这些选择(a)可以在实验结果中产生显着差异,(b)在论文中没有指定或不一致,使得比较困难。 我们试图尽可能地描述这些看似低级的选择;我们希望人居平台能够帮助消除这些不一致。主体体现和动作空间。该试剂在物理上体现为直径为0的圆柱形原始形状。2米,高度1。5米。动作空间由四个 动 作 组 成 : turn_left 、 turn_right 、move_forward和stop。这些动作被映射到理想化的致动,其导致10度转弯的转弯动作和0的线性位移。25m用于move_forward操作。停止动作允许代理发出它已达到目标的信号。栖息地支持嘈杂的驱动,但本文中的实验进行无噪声设置,因为我们的分析重点是其他因素。碰撞动力学。一些以前的作品[3]使用粗糙的不规则导航图,其中代理有效地其他人[9]使用细粒度的规则网格(0. 01M分辨率),其中代理在未占用的小区上移动,并且没有冲突或部分步骤。 在Habitat和我们的实验中,我们使用更现实的碰撞模型代理至关重要的是,智能体可以选择move_forward(0.25m),并最终到达其开始位置前方不为0.25m的位置;因此,即使在没有致动噪声的情况下,里程计也目标规格:静态还是动态?PointGoal任务[2]中一个明显的未充分说明是目标坐标是否是静态的(即,在发作开始时提供一次)或动态(即,在每一个时间步提供4达到机器精度。前者更现实--很难想象一个真正的任务会有一个神谕提供精确的然而,在没有激励噪声和碰撞的情况下,智能体采取的每一步都会导致已知的转向或平移,并且这与初始目标位置相结合在功能上等同于动态目标指定。我们假设这就是为什么最近的作品[16,19,13]使用动态目标规范的原因。我们遵循并规定了以下概念描述-作为一项任务,我们采用静态PointGoal导航;至于传感器套件,我们为我们的代理人配备了理想化的GPS传感器。这使我们面向现实的任务(静态PointGoal导航),将模拟器设计(驱动噪声,碰撞动力学)从任务定义中解脱出来,并允许我们通过使用的传感器(RGB,深度,GPS,指南针,接触传感器)比较技术。感官输入。代理商被赋予一个单一的颜色视觉传感器放置在高度1。5米从代理的基地中心和面向面向'向前'。该传感器提供RGB帧在2562像素的分辨率和90度的视野此外,理想化的深度传感器是可用的,在与彩色视觉传感器相同的位置和方向上。深度传感器的视场和分辨率与彩色视觉传感器的视场和分辨率相匹配。我们通过RGB指定使用颜色传感器的代理,通过Depth指定使用深度传感器的代理,以及通过RGBD指定使用两者的代理。不使用任何传感器的座席被表示为盲座席。所有代理都配备了理想化的GPS和指南针它们可以访问它们的位置坐标,并且隐含地访问它们相对于目标位置的方位。情节说明。我们初始化代理在一个开始的位置和方向,从所有可导航的位置上的环境的地板上随机均匀采样。目标位置被选择为使得它位于同一楼层上,并且存在从代理的起始位置开始的可导航路径在该事件中,代理被允许采取多达500个动作。这个阈值大大超过了一个最佳代理达到所有目标所需的步骤数(请参阅补充)。在每个动作之后,代理从活动传感器接收一组观察结果。评价当且仅当代理在0内发出停止操作时,导航事件才被认为是成功的。2m的目标坐标,如通过沿着从智能体的位置到目标位置的最短路径的测地距离测量的如果代理采取了500个动作而没有满足上述条件,则事件结束并被认为是不成功的。性能是使用“路径长度加权成功”(SPL)度量来衡量的对于最短路径的测地距离为 l 且 智 能 体 遍 历 距 离 为 p 的 事 件 , SPL 被 定 义 为S·l/max(p,l),其中S是成功的二元指标。事件数据集准备。我们创建PointGoal导航-9344[27]第八章:一个人的世界对于Matterport 3D,我们遵循公开可用的请注意,与最近的作品[9,19,16]一样,train,val和test场景之间没有重叠。对于Gibson场景,我们从Gibson作者[27]那里获得了纹理化的3D表面网格,手动注释了每个场景的重建质量(小孔/大洞,浮动/不规则表面,纹理差),并策划了106个场景的子集(共572个);详见补充。情节由场景的唯一ID、智能体的起始位置和方向以及目标位置来定义额外一个CNN,它为视觉输入产生一个嵌入,它与相对目标向量一起被一个演员(GRU)和一个评论家(线性层)使用CNN具有以下架构:{Conv 8×8,ReLU,Conv4×4,ReLU、Conv3×3、 ReLU、Linear、ReLU}(参见补充以取得详细数据)。设rt表示时间步t处的奖励,dt为在时间步t到目标的测地线距离,s是成功奖励,λ是时间惩罚(以鼓励效率)。所有模型都使用以下奖励函数进行训练:(s+dt−1−dt+λ 如果达到目标元数据,例如从起始位置到目标位置的沿最短路径(GDSP)的测地距离,也在Rt=dt−1−dt +λ否则包括在内。在生成剧集时,我们将GDSP限制在1m和30m之间。 如果在起点和终点位置之间有一条无障碍直线,则一个小插曲是微不足道的。一个片段的导航复杂度的一个很好的度量是GDSP与开始和目标位置之间的欧几里得距离的比率(注意GDSP只能大于或等于欧几里得距离)。如果比率接近1,则障碍物很少,并且情节是容易;如果比率远大于1,则事件很难因为需要战略导航。 为了保持导航-预先计算的片段的门复杂度相当高,我们对具有落入范围[1,1. 1]中。在此之后,近直线发作(比率在[1,1. 1])在之前的任何研究中均未进行该步骤我们发现,如果没有这种过滤,所有指标都显得膨胀。与Matterport3D场景相比,Gibson场景具有较小的物理尺寸。这反映在生成的PointGoal数据集中基线。 我们比较以下基线:– Random在均匀分布的turn_left、turn_right和move_forward中随机选择一个动作。在0以内时,代理调用停止操作。2m的目标(使用静态目标和动态GPS坐标的差异计算)。– Forward仅总是调用move_forward操作,并在0以内时调用stop操作。2米的目标。– 目标跟随者向目标方向移动。如果它没有面向目标( 偏 离 轴 超 过 15 度 ) , 它 将 执 行 turn_left 或turn_right 来 对 齐 自 己 ; 否 则 , 它 将 调 用move_forward。在0以内时,代理调用停止操作。2米的目标。–RL(PPO)是一种经过强化学习训练的智能体最佳化,特别是最佳化[23]。我们用配备不同视觉传感器的RL代理进行实验:无视觉输入(盲)、RGB输入、深度输入和RGB带深度(RGBD)。该模型是在我们的实验中,s被设置为10,λ被设置为−0。01.请注意,奖励仅在培训环境中提供-任务是具有挑战性的代理必须推广到看不见的测试环境。– SLAM [19]是一个使用RGB和深度传感器实现经典机器人导航管道(包括定位,映射和规划组件)的代理。我们使用Mishkin等人的经典代理。[19]其中利用ORB-SLAM 2 [20]本地化管道,使用与原始工作中报告的相同参数培训程序。当训练基于学习的代理时,我们首先将训练 集 中 的 场 景 平 均 划 分 为 8 个 ( Gibson ) , 6 个(Matterport3D)并发运行的模拟器工作线程。每个线程在其训练集分区中为每个场景建立500个训练片段的块,并打乱这些块的顺序训练通过这个数组的混洗副本我们不硬编码停止动作,以保持一般性,并允许与未来的工作,不承担GPS输入进行比较。对于这里报告的实验,我们进行训练,直到在所有工作线程上累积了7500万个代理步骤。这比之前的示例[19,16]中使用的经验大15倍。训练代理执行7500万步(所有三个数据集的总和):320 GPU-小时用于盲,566 GPU-小时用于RGB,475 GPU-小时用于深度,906 GPU-小时用于RGBD(总共2267 GPU-小时)。5. 结果和发现我们试图回答两个问题:i)随着训练经验量的增加,基于学习的代理与经典SLAM和手工编码的基线相比如何,以及ii)学习的代理在3D数据集上的泛化能力如何它应该被心照不宣地理解,但要明确的是-我们比较这些家族的代表性实例,以深入了解缩放和泛化问题,并且不做任何关于一个或另一个内在优越性的主张。9345图3:训练过程中valset上的代理的平均SPL。以前的工作[19,16]已经分析了500 - 1000万步的性能。随着经验的增加,有趣的趋势出现了:i)盲代理最初优于RGB和RGBD,但很快饱和;ii)基于学习的深度代理优于经典的SLAM。曲线周围的阴影区域显示了5个种子的SPL标准误差吉布森MP3D传感器基线SPLSuccSPLSucc随机0的情况。020的情况。030的情况。010的情况。01仅限盲前向0的情况。000的情况。000的情况。000的情况。00目标跟踪器0的情况。230的情况。230的情况。120的情况。12RL(PPO)0的情况。420的情况。620的情况。250的情况。35RGBRL(PPO)0的情况。460的情况。640的情况。300的情况。42深度RL(PPO)0.790.890.540.69RGBDRL(PPO)0的情况。700的情况。800的情况。420的情况。53SLAM [19]0的情况。510的情况。620的情况。390的情况。47表2:在多个传感器配置下,在Gibson [27]和MP3D [8]测试集上测试的PointGoal任务[2]的基线方法性能RL模型已经训练了7500万步。我们报告了平均发作成功率和SPL [2]。学习VS SLAM。为了回答第一个问题,我们绘制代理性能(SPL)的验证(即。在图3中的训练过程中(上:Gibson,下:Matterport3D)。SLAM [19]不需要训练,因此具有恒定的性能(Gibson上为0.59,Matterport3D上为0.42)。所有RL(PPO)代理都以差得多的SPL开始,但是RL(PPO)深度特别地显著地改进并且在大约10M帧(Gibson)或30M帧(Matterport3D)的经验下匹配经典基线请注意,如果我们像[19]中那样在5M帧处终止实验,我们也会得出SLAM [19]占主导地位的结论。有趣的是,RGB代理没有显着优于盲代理;我们假设,因为两者都配备了GPS传感器。事实上,定性结果(图4和补充视频)表明,盲人代理相比之下,RGB传感器-9346由于场景之间的多样性(甚至在相同的数据集内),SSOR提供了可能倾向于对训练环境过拟合的高维复杂信号我们还注意到,在图3中,所有方法在Gibson上的性能都优于Matterport3D。这与我们之前的分析一致,即吉布森包含较小的场景和较短的剧集。接下来,对于每个代理和数据集,我们在验证时选择性能最佳的检查点,并在表2中报告测试结果。我们观察到,在数据集上,RL(PPO)Depth表现最好,优 于 RL ( PPO ) RGBD ( 0.09-0.16SPL ) , SLAM(0.15-0.28SPL),RGB(0.13-0.33SPL)(有关涉及噪声深度的其他实验,请参见补充我们认为Depth比RGBD表现更好,因为i)PointGoal导航任务只需要对自由空间进行推理,深度直接提供相关信息,ii)RGB具有更多的熵(不同的房子看起来非常不同),因此使用RGB时更容易过拟合。我们每次运行5个随机种子进行实验,以确认这些差异具有统计学显著性。对于所有情况,差异比平均SPL的标准偏差大一个数量级(例如, Gibson数据集上的误差为,深度:±0。015,RGB:±0。055,RGBD:±0。028,盲态:±0。005)。 随机和仅转发代理具有非常低的性能,而手动编码的目标追随者和盲基线看到适度的性能。请参阅补充的训练代理行为的其他分析。在图4中,我们绘制了RL(PPO)代理的示例轨迹与总体统计数据一致,我们观察到Blind与障碍物碰撞并跟随墙壁,而Depth最有效。请参阅补充和视频了解更多示例轨迹。跨数据集的泛化。到目前为止,我们的发现是RL(PPO)代理显着优于SLAM [19]。这引发了我们的第二个问题9347MP3D盲SPL=0.35RGBDSPL=0.90吉布森盲SPL=0.28RGBSPL=0.57RGBDSPL=0.91深度SPL=0.98RGBSPL=0.88深度SPL=0.94研究结果表明,视觉导航代理可以受益于课程学习。这些见解是由Habitat的工程实现的,它使这些实验变得像更改评估数据集名称一样简单。6. 今后工作介绍了Habi- tat平台的设计与实现我们的目标是统一现有的社区努力,并加速对嵌入式AI的研究。这是一个漫长的-图4:不同感官配置的导航示例的RL(PPO)代理,可视化吉布森和MP3D val集的试验。蓝点和红点表示起始位置和目标位置,蓝色箭头表示最终座席位置。蓝-绿-红线是特工当接近最大代理步骤数时,颜色从蓝色变为红色更多示例轨迹请参见补充材料吉布森MP3D盲人吉布森MP3D0.420.340.280.25RGB吉布森MP3D0.460.400.250.30深度吉布森MP3D0.790.680.56 0.54RGBD吉布森MP3D0.700.530.44 0.42图5:数据集之间代理的泛化。我们在每行中报告了在源数据集上训练的模型的平均SPL,并在每列中对目标数据集的测试集进行了评估数据集特定的或学习代理泛化跨数据集?我们在图5中报告了详尽的比较– 具体而言,对于所有代理{Blind,RGB,RGBD,Depth},{train,test}×{ Matterport 3D,Gibson}的所有组合的平均SPL。表示(代理,训练集)对,列表示测试集。我们发现一些有趣的趋势首先,当在一个数据集上训练并在另一个数据集上测试时,几乎所有的代理都遭受性能下降,例如。RGBD 吉 布 森 → 吉 布 森 0 。 70vsRGBDGibson→Matterport3D0. 53(drop 0.17)。 RGB和RGBD代理遭受显著的性能下降,而盲代理受影响最小(正如我们所期望的那样)。其次,我们发现了一个潜在的反直觉趋势-我们认为原因是前面提到的观察,吉布森场景更小,情节更短(较低的GDSP)比Matterport3D。Gibson代理在“更容易”的情节上进行训练因此,对于固定的计算预算,Gibson代理普遍更强(不仅仅是Gibson)。这长期的努力,只有通过更广泛的研究界的充分参与才能取得成功由通用数据集支持和Habitat堆栈的高性能实现的实验表明,i) 基于学习的代理在训练足够长的时间时可以匹配并超过经典视觉导航方法的性能,以及ii)与仅配备RGB的代理相比,配备有深度传感器的学习代理在不同的3D环境数据集之间泛化良好。功能路线图。我们的近期发展路线图将集中在结合物理模拟和实现移动代理和对象之间的基于物理的交互在3D环境中。Simat-Sim未来工作的另一个计划途径涉及通过利用3D再现和虚拟对象数据集的组合来程序化地生成3D环境通过将大型室内空间的高质量重建与单独重建或建模的对象相结合,我们可以充分利用我们的分层场景图表示来在模拟的3D环境中引入受控变化。最后,我们计划集中在分布式仿真设置,涉及大量的代理可能相互作用,在竞争或协作的情况下。致谢。我们感谢审稿人提供的有益建议。如果没有许多部门的支持和捐助,生境项目是不可能的。我们感谢Angel Xuan Chang、Devendra Singh Chaplot、XinleiChen 、 Georgia Gkioxari 、 Daniel Gor- don 、 LeonidasGuibas 、 Saurabh Gupta 、 Jerry ( Zhi-Yang ) He 、Rishabh Jain 、 Or Litany 、 Joel Macey 、 DmytroMishkin 、 Marcus Rohrbach 、 Amanpreet Singh 、Yuandong Tian、Yuxin Wu、Fei Xia、Deshraj Yadav、Amir Zamir和Jiazhi Zhang的帮助。9348引用[1] Phil Ammirato,Patrick Poirson,Eunbyung Park,JanaKošecká,and Alexander C Berg.用于开发和基准测试主动视觉的数据集。在ICRA,2017年。[2] 彼得·安德森天使X Chang,Devendra Singh Chaplot,Alexey Dosovitskiy,Saurabh Gupta,Vladlen Koltun,Jana Kosecka , Jitendra Malik , Roozbeh Mottaghi ,Manolis Savva,and Amir Roshan Zamir.对具身导航代理人的评价arXiv:1807.06757,2018。[3] Peter Anderson,Qi Wu,Damien Teney,Jake Bruce,Mark Johnson , Niko Sünderhauf , Ian Reid , StephenGould,and Anton van den Hengel.视觉和语言导航:在真实环境中解释基于视觉的导航指令。在CVPR,2018年。[4] Stanislaw Antol , Aishwarya Agrawal , Jiasen Lu ,Margaret Mitchell,Dhruv Batra,C.劳伦斯·齐特尼克和德维·帕里克VQA:可视化问答。在ICCV,2015年。[5] 放 大 图 片 创 作 者 : Iro Armeni , Ozan Sener , AmirR.Zamir , Helen Jiang , Ioannis Brilakis , MartinFischer,and Silvio Savarese.大规模室内空间的3D语义解析。在CVPR,2016年。[6] Alex Bewley , Jessica Rigley , Yuxuan Liu , JeffreyHawke,Richard Shen,Vinh-Dieu Lam和Alex Kendall。学习从模拟驾驶没有现实世界的标签。在ICRA,2019年。[7] Simon Brodeur ,Ethan Perez , Ankesh Anand ,FlorianGolemo,Luca Celotti,Florian Strub,Jean Rouat,HugoLarochelle,and Aaron C.考维尔Home:家庭多模式环境。arXiv:1711.11017,2017.[8] Angel Chang、Angela Dai、Thomas Funkhouser、MaciejHal- ber 、 Matthias Niessner 、 Manolis Savva 、 ShuranSong、Andy Zeng和Yinda Zhang。Matterport 3D:从室内环境中的RGB- D数据中学习2017年国际3D视觉会议(3DV)[9] Abhishek Das、Samyak Datta、Georgia Gkioxari、StefanLee、Devi Parikh和Dhruv Batra。具身问题回答。在CVPR,2018年。[10] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Fei-Fei Li. ImageNet:一个大规模的分层图像数据库。CVPR,2009。[11] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT:用于语言理解的深度双向变换器的预训练。arXiv:1810.04805,2018。[12] 大卫·多诺霍数据科学50年在Tukey百年研讨会,2015年。[13] Saurabh Gupta,James Davidson,Sergey Levine,RahulSuk-thankar,and Jitendra Malik.视觉导航的认知绘图与在CVPR,2017年。[14] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习在CVPR,2016年。[15] Jemin Hwangbo , Joonho Lee , Alexey Dosovitskiy ,Dario Bellicoso,Vassilios Tsounis,Vladlen Koltun,andMarco Hutter.学习腿式机器人的敏捷和动态运动技能。科学机器人,2019。[16] 小岛纪之和邓佳。学习或不学习:
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功