SAPIEN:基于模拟部件的家庭助理机器人训练环境

172 浏览量更新于2023-10-25 收藏 1.23MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

11097SAPIEN：一个基于模拟部件的交互环境范博祥1于哲勤1开春莫2易宽夏1郝朱1方臣刘1刘明华1韩晓江3易富元5何旺2李毅4天使X长3列奥尼达斯·吉巴斯2号苏11加州大学圣地亚哥分校2斯坦福大学3西蒙弗雷泽大学4谷歌研究5加州大学洛杉矶分校https://sapien.ucsd.edu摘要长期以来，制造家庭助理机器人一直是视觉和机器人研究人员的目标。为了实现这一任务，一个模拟环境与物理逼真的模拟，足够的关节对象，并转移到真正的机器人是必不可少的。现有的环境实现了机器人仿真的这些要求，具有不同程度的简化和重点。我们进一步构建了一个支持家庭任务的环境，用于训练机器人学习算法。我们的工作，SAPIEN，是一个现实的和物理丰富的模拟环境，主机的一组大规模的关节对象。SAPIEN支持各种需要详细了解零件级别的机器人视觉和交互任务。我们评估了用于零件检测和运动属性识别的最先进视觉算法，并使用启发式方法和强化学习算法演示了机器人交互任务。我们希望SAPIEN能够开启尚未探索的研究方向，包括通过交互学习认知、部分运动发现以及构建机器人就绪的模拟游戏环境。1. 介绍为了实现人类水平的感知和与3D世界的交互，家庭助理机器人必须具有使用感知与3D对象交互的能力[11，61，40]。对于一个机器人来帮助把杂货，它必须能够打开冰箱的门把手，拉门和提取目标对象。解决这个问题的一个直接方法是通过与真实环境交互来训练机器人[30，4，27]。然而，在现实世界中训练机器人可能非常耗时、昂贵、不稳定，而且可能不安全。此外，硬件或环境设置中的轻微扰动可能导致现实世界中的不同结果，从而抑制可重复研究。因此，研究人员图1：SAPIEN中的机器人-物体交互。我们展示了光线跟踪场景（顶部）和机器人相机视图（底部）：RGB图像，表面法线，运动部件的深度和语义分割，而机器人正在学习操作洗碗机。长期以来一直将模拟环境用于诸如导航[43，58，44，1，3，56，14，58]和控制[24，42，50，10]。构建可移植到现实世界的机器人学习模拟环境是一项重要的任务。它面临着四个主要方面的挑战：1）环境需要在一定程度上再现现实世界的物理学。由于精确地模拟真实世界的物理仍然是不可行的，任何物理模拟器都需要决定其操作的细节和准确性。一些通过模拟刚体和关节来近似物理[36，50，10];一些处理软变形对象[50，10];其他人模拟流体[50，45]。2)环境应包含真实机器人的模拟，包括真实机器人操作器、传感器和控制器的行为[35]。只有这样才能实现无缝传输，训练后的真实世界（3）环境需求11098环境水平物理渲染任务接口[44]*场景静态+真实照片导航，视觉Python、C++语言[25]第二十五场景-对象动态团结导航+，视觉Python，UnityOpenAI Gym MuJoCo [2] 场景-对象动态OpenGL（已修复）学习，机器人Python[22]第二十二话场景-对象动态V-REP，PyRep 学习、视觉、机器人Python，V-REPSAPIEN场景-对象-部件动态可定制学习、视觉、机器人Python、C++语言表1：与其他模拟环境的比较。Habitat [44]是导航环境的代表，包括Gibson [58，57]，Minos [43]等;它们主要使用静态物理，但最近开始增加相互作用。AI 2-THOR [25]是类似游戏的交互式环境的代表;这些环境通常支持有限的低级对象交互的导航。OpenAI Gym [2]和RLBench [22]提供交互式环境，但商业软件的使用限制了它们的可定制性。以产生物理上精确的渲染来减轻视觉域差距。4)最重要的是，环境需要足够的内容、场景和对象供机器人交互，因为数据多样性对于训练和评估基于学习的算法至关重要。这些内容还决定了我们将在多大程度上解决先前任务中的挑战：具有软物体的数据，例如布料，需要可变形体模拟;半透明物体需要特殊的渲染技术，特定的机器人需要特定的接口。现有的环境实现了机器人仿真的这些要求，具有不同程度的简化和重点。例如，OpenAI Gym [2]提供了一个交互式和易于使用的界面; Gibson [58]和AI Habi-tat [44]使用真实感渲染进行语义导航任务。关于流行环境的更详细的讨论可以在第2节中找到。这些环境可以支持下游任务的基准测试和培训，例如导航，低级别控制和抓取。然而，从任务的角度来看，仍然缺乏针对日常对象的对象操作的环境，这是家用机器人的基本技能。在家庭环境中，很大一部分日常物品是铰接的，需要操纵：有盖的瓶子，有门的烤箱，有开关和按钮的电子设备。值得注意的是，RLBench [22]提供了定义明确的机器人任务和逼真的控制器界面，并提供了详细的操作演示，但其模拟场景缺乏多样性。我们在构建一个支持操纵不同表达对象的环境方面更进了一步我们的系统SAPIEN是一个逼真且物理丰富的模拟环境，包含大量关节连接对象。SAPIEN的核心是三个主要组件：1）SAPIEN Engine，一个交互丰富的物理逼真仿真环境，集成了PhysX物理引擎和ROS控制接口;该引擎支持精确模拟刚体和关节约束，以模拟铰接对象。2）SAPIEN资产，包括PartNet-移动数据集，其中包含超过14 K个可移动部件来自46个常见室内物体类别的2，346个3D铰接模型，具有丰富的运动学部件运动和动态交互属性注释; 3）SAPIEN Renderer，具有快速帧速率OpenGL光栅化器和更逼真的光线跟踪选项。我们证明，SAPIEN通过对部件检测和运动属性识别的最先进视觉算法进行基准测试，实现了各种各样的机器人感知和交互任务我们还通过演示启发式方法和强化学习算法展示了SAPIEN支持的各种机器人交互任务。2. 相关工作模拟环境。近年来，主要用于导航，视觉识别和推理的室内模拟环境已经扩散[43，56，58，44，1]。基于合成场景[56]或真实世界RGB-D扫描[1]和重建[43，58，44]的静态环境能够提供与现实非常相似的图像，最大限度地减少视觉方面的域间隙然而，它们通常提供非常有限或没有对象交互，无法捕捉真实世界的动态和交互性质。为了在环境中实现更多的交互功能，研究人员利用游戏引擎或物理引擎的部分功能来提供真实感渲染与交互[54，34，25，38，3，59，13，26]。当代理与这些环境中的对象交互时，它是通过显式命令（例如，“open refrigerator”), or proximity (当机器人或机器人臂靠近触发区域时冰箱门打开）。此外，基础物理学往往过于简化，例如，直接施加力和扭矩。虽然它们允许研究高级对象交互，但它们不能缩小高级指令和低级动态之间的差距这限制了使用这种模拟器学习详细的低层次机器人对象交互。11099数据集 #分类型号数量#运动部件[53]第五十三话452,4406,762RPM-Net[60]439491,420Hu等人[18个国家]-368368区域组织 *[31]141421我们462,34614,068表2：比较的铰接零件数据集。*RBO是在现实世界中收集的长视频序列。机器人学习数据集与不同的任务。为了解决缺乏内容的问题，我们的工作提供了一个大规模的模拟就绪数据集，PartNet-Mobility数据集，该数据集是由包括PartNet [33]和ShapeNet [7]在内的3D模型数据集构建的。还有一些形状零件数据集带有零件接合注释。表2总结了最近的部件移动数据集。RBO数据集[31]是人类操纵14个对象的358个RGB- D视频序列的集合，这些对象被重建为铰接的3D网格。网格具有详细的部件运动参数，最后，有些环境集成了全功能的物理引擎.这些环境在连续控制和强化学习任务中非常重要。OpenAI Gym[2] ， RLLAB [12] ， DeepMind Control Suite [49] 和DoorGym [51]集成了MuJoCo 物理引擎来提供RL环境。Arena [47]是一个支持多代理环境的平台，构建在Unity [23]之上。PyBullet [10]是一个具有Python接口的实时物理引擎，为一系列专注于机器人任务的项目提供动力[62，28]。Gazebo [24]是一种高级可视化和建模软件包，广泛用于机器人社区[32，20]。最近，RLBench [22]，机器人学习的基准和物理环境，使用V-REP [42]作为后端，为机器人操作提供各种任务。我们的环境SAPIEN引擎直接基于开源Nvidia PhysXAPI [36]，其性能和接口与PyBullet相当，避免了游戏引擎基础设施引入的不必要的复杂性，或来自MuJoCo和V-REP等商业软件的任何障碍。表1提供了几种代表性环境的简要摘要。这些机器人模拟器的一个瓶颈是它们有限的渲染能力，这在模拟和真实世界之间产生了差距。许多这些环境的另一个限制，包括RLBench [22]和Door- Gym[51]，是它们非常以任务为中心，设计为仅用于几个预定义的任务。SAPIEN模拟器配备了来自46个对象类别的2，346个3D交互模型和灵活的渲染管道，为机器人代理提供了一个虚拟环境，用于学习大量复杂，多样化和可定制的机器人交互任务。模拟内容。导航环境通常使用提供真实世界RGB-D扫描[58，6，48]和/或高质量合成场景[46]的数据集利用游戏引擎[54，34，3，13，25]的模拟设备带有手动设计或程序生成的游戏场景。对于具有详细物理和强化学习支持的环境[2，49，12]，它们通常支持非常少的简单对象和机器人代理的场景。值得注意的是，RLBench [22]提供了相对较大的逼真的纹理。其他数据集用关节信息注释3D合成CAD模型。Hu等人[18] introduced a dataset of 368 mobilitypart articulations with diverse types. RPM-Net [60]提供了另一个包含969个对象和1，420个移动单元的数据集。Shape2Motion [53]提供了一个包含2，440个对象和6，762个可移动部件的数据集，用于移动性分析，但它不提供RGB纹理和运动限制，这会妨碍物理模拟。与这些数据集相比，我们的数据集包含相当数量的对象（2，346），但具有更多的可移动部分注释（14，068）。此外，我们的模型具有纹理和运动范围限制，这对于数据集的可模拟性至关重要3. SAPIEN模拟环境SAPIEN旨在将最先进的物理模拟器、现代图形渲染引擎和用户友好的机器人界面集成到统一框架中（图2），以支持各种机器人感知和交互任务。我们使用C++开发环境以提高效率，并提供Python包装器API以便于用户端使用。下面我们详细介绍三个主要组成部分：SAPIEN引擎、SAPIEN资产和SAPIEN渲染器。3.1. SAPIEN引擎我们使用开源的Nvidia PhysX物理引擎来提供详细的机器人对象交互仿真。该系统提供了机器人操作系统（ROS）支持，易于使用的终端流机器人研究。我们提供同步和异步模拟模式，以支持强化学习训练和机器人任务。物理模拟。我们选择PhysX 4.1 [36]来提供刚体运动学和动力学仿真，因为它是开源的，简单的，并提供为机器人设计的功能。为了模拟关节体，我们提供了3种不同的身体关节系统：运动学关节系统、动态关节系统和PhysX关节。运动关节系统为运动对象提供了父子关系，适用于模拟非常重的物体11100SAPIEN渲染器渲染器接口SAPIEN引擎PhysX物理模拟器SAPIEN资产PartNet移动数据集GLSL着色器RGBD正常分割世界接口关节运动接口机器人模型ROS接口OptiX着色器光线跟踪传感器接口控制器接口对象布局客户端API机器人/场景生成器逆运动规划轨迹控制器力/关节/速度控制器3D/IMU传感器可自定义的渲染器/可视化工具图2：SAPIEN模拟器概述。左框显示SAPIEN渲染器，它采用自定义着色器和场景信息来生成图像，如RGB-D和分割。中间的方框显示SAPIEN引擎，它集成了PhysX模拟器和ROS控制界面，支持各种机器人操作和实用程序。右框显示SAPIEN资产，其中包含大规模PartNet-Mobility数据集，可提供具有部件级移动性的可模拟模型不受小力影响的物体。动态关节系统使用PhysX关节将刚体驱动到约束，适用于模拟不需要精确控制的复杂对象PhysX关节是一个专门为机器人仿真而设计的系统。它本身支持精确的力控制，P-D控制和逆动力学，但速度相对较低。ROS 接口。机器人操作系统（ Robot OperatingSystem，ROS）[41]是一个通用且广泛使用的框架，用于构建机器人应用程序。我们的ROS接口弥合了ROS和物理模拟器之间的差距，并提供了一组用于使用物理与机器人交互的高级API它支持三个抽象级别：直接力控制、ROS控制器和运动规划接口。在最低级别，力和扭矩直接施加在关节上，类似于OpenAI Gym [2]。这种控制方法简单直观，但由于真实世界动力学和仿真之间的差异，以及真实机器人的连续性和仿真中对于高级控制，我们提供了关节空间和Cartesian坐标空间控制API。我们基于[8]构建控制器（图2）并实现标准ROS控制接口。研究人员通常希望在更高的抽象级别上指定运动，例如，将机器人手臂移动到具有特定路径约束的所需6-DoF姿势。因此，在最高级别上，我们提供了基于流行的MoveIt框架[9]的运动规划支持，该框架可以生成有效移动机器人而不会发生碰撞的运动计划。同步和异步模式。SAPIEN引擎（见图2中）可支持同步和异步模拟模式。在同步模式下，模拟步骤由客户端控制，客户端是COM-Mon在训练强化学习算法中的应用[2]。例如，代理从模拟环境中接收观察结果，并使用定制的策略模型（通常是神经网络）来生成相应的动作。然后，模拟向前运行一步。在这种同步模式下，仿真和客户端算法集成在一起。然而，对于现实世界的机器人技术，仿真和客户端响应需要异步[24]和分离。模拟应该像真实世界一样独立运行，而客户端使用与真实机器人相同的API与模拟后端交互。建立这样一个框架，我们创建多个传感器和控制器以下的ROS API。模拟开始后，客户端从传感器接收信息，并使用控制器接口（见图2）通过TCP/IP通信命令机器人。时间戳从模拟到客户端同步，充当真实世界时钟时间的代理在该框架下，模拟机器人可以使用与真实机器人相同的代码，因为大多数真实机器人控制器和传感器与我们的模拟器API具有完全相同的接口。这提供了一个重要的优势：它使机器人研究人员能够在模拟机器人和真实机器人之间迁移，而无需任何额外的设置。3.2. SAPIEN资产SAPIEN资产是我们的模拟内容，如图2右侧框所示。它包含大规模的准备模拟PartNet-Mobility数据集，模拟机器人模型和场景布局。PartNet-移动数据集。我们提出了一个大规模的3D交互式模型数据集，包含超过14 K的articulated部分超过2,346个对象模型，从46个常见的室内对象类别。所有模型均来自11101图3：SAPIEN支持许多机器人交互任务。从左到右，我们展示了五个例子：水龙头操作、物体获取、物体提升、椅子折叠和物体放置。所有瓶框桶内阁相机推车椅子时钟咖啡DishWsh。分配器门埃耶格尔斯风扇水龙头#M 2,3465728363453761803155485736658184#P 14,06811494741,1743412321,235106374112162103195172228椅子冰箱地球仪水壶钥匙刀灯笔记本电脑打火机MicWav显示器鼠标烤箱笔#M 26 44 61 29 37 4445 56 28 16 14 30 48电话：+86-510 - 8888888传真：+86-510 - 88888888烤锅机#M 25 25#P 53 1163793厕所69229电话钳17 2561 214 97 271 59打印机远程安全剪刀订书机机箱开关表29 49 30 47 23 2470 101垃圾桶USB清洗机窗口70 5117 58376 1，490 202 94 69101195 420208103 144195表3：PartNet-Mobility数据集的统计数据。#M和#P分别表示型号和可移动部件的数量3D Warehouse*和ShapeNet [7]和PartNet [33]中的组织。我们注释了3种类型的运动：铰链，滑块和螺旋，其中铰链表示绕轴旋转（例如，门）;滑块指示沿轴的平移（例如，抽屉），螺钉表示组合的铰链和滑动件（例如，瓶盖、转椅）。对于铰链和滑块关节，我们注释运动限制（即。角度、长度）。对于螺钉，我们注释了运动限制以及2个自由度是否耦合。每个关节都有一个父关节和一个子关节，连接的实体和关节的集合称为关节。我们需要一个关节遵循一个单一的根树结构，因为大多数物理模拟器处理树结构的关节系统很好。接下来，对于每个可移动部分，我们分配一个特定于类别的语义标签。表3总结了数据集统计数据。有关数据注释管道的更多详细信息，请参见补充资料。SAPIEN Asset LoaderUnified Robot Description For- mat（URDF）是表示物理模型的常用格式对于SAPIEN资产中的每个对象，包括PartNet-Mobility模型和机器人模型，我们提供了一个关联的URDF文件，可以在仿真中加载。为了精确模拟接触，我们将网格分解为凸部分[29，19]。我们随机或手动设置物理属性，例如：摩擦力、阻尼、密度，调整到适当的范围。对于机器人模型，我们还提供了C++/Python API来逐段创建机器人，以避免URDF引入的复杂性。* 网址https://3dwarehouse.sketchup.com/3.3. SAPIEN渲染器SAPIEN Renderer（如图2的左框所示）使用OpenGL4.5和GLSL着色器渲染模拟场景，这些着色器暴露给客户端应用程序以实现最大的可定制性。默认情况下，渲染模块使用延迟照明管道从相机空间提供RGB，RGB，法线，深度和分割，其中使用OrenNayar漫射模型[55]和GGX镜面反射模型[52]计算照明。我们的可定制渲染界面可以满足特殊的渲染需求，甚至允许完全不同的渲染管道。我们通过使用Nvidia OptiX[37]编码的光线跟踪器替换快速OpenGL框架来演示这一点，以渲染时间为代价生成物理上精确的图像（参见图1）。3.4. 谱分析SAPIEN引擎可以在约5000 Hz下运行，执行我们将在第2节中描述的操作任务。在OpenGL模式下，可以在700Hz左右进行渲染。测试是在一台装有Ubuntu18.04 、 2.2 GHz Intel i7-8750 CPU 和 Nvidia GeForceRTX 2070 GPU的笔记本电脑4. 任务和基准我们通过演示机器人感知和交互任务来展示模拟器的多功能能力4.1. 机器人感知配备PartNet-Mobility数据集的SAPIEN模拟器为多个机器人感知任务提供了平台。本文研究了可动件设计的任务，11102123123123Mask R-CNNPartNet InsSeg地面实况图4：可移动部件检测结果。左列显示了Mask R-CNN[16]的结果，其中每个边界框指示检测到的可移动部分。中间列和右列分别显示PartNet InsSeg [33]和地面实况点云的结果，其中不同的部分使用不同的颜色。检测和部分运动估计，这是支持下游机器人交互的两个可移动部件检测在通过部件与对象交互之前，机器人代理需要首先检测感兴趣的部件。因此，我们将活动部件检测的任务定义如下。给定对象的单个2D图像快照或3D RGB-D部分扫描作为输入，算法应该产生与其语义标签相关联的若干不相交的部分掩码，每个掩码对应于对象的单个可移动部分。利用PartNet-Mobility数据集和SAPIEN渲染管道的丰富资产，我们评估了两种用于物体或部件检测的最先进的感知算法。Mask R-CNN [16]将2D图像作为输入，并使用区域建议网络来检测一组2D部分掩码候选者。PartNet-InsSeg [33]是一种3D形状零件实例分割方法，使用PointNet++ [39]提取几何特征，并提出形状点云上的全景分割。我们将PartNet-Mobility数据集中的每个对象渲染为来自20个随机采样视图的RGB和RGB-D图像，分辨率为512×512。相机位置为了定量评估，我们报告了通常用于物体检测任务的每个部件类别的平均精度（AP）分数，并对所有部件类别进行平均以计算每个算法的mAP。表4显示了RGB和RGB-D设置上的Mask R-CNN以及XYZ（仅深度）和XYZRGB（RGB-D图像）设置上的PartNet-InsSeg的定量结果。我们观察到这两种方法在检测小部件（例如，工作台轮子和工作台脚轮），并且对于具有相对平衡尺寸的对象类别（例如，风扇和水龙头）。小的可移动部件（例如，按钮、开关和手柄）通常在机器人与物体的交互中起着关键作用，未来将需要更多精心设计的算法。图4显示了两个示例RGB-D部分扫描的Mask-RCNN和PartNet-InsSeg部分检测结果。运动属性估计在与物体交互之前，估计关节部件的运动属性为机器人提供了很强的先验。在本节中，我们执行运动属性估计任务，该任务联合预测铰接部件的运动类型、运动轴和部件状态我们考虑两种类型的刚性部件运动：3D旋转和平移。有些零件，如瓶盖，可能既有旋转运动又有平移运动。对于平移运动，我们使用三维矢量来表示方向。对于旋转运动，我们将输出参数化为两个三维向量，以指定旋转轴方向和轴上的枢轴点。我们定义的相对位置的铰接部分相对于其语义的休息位置的部分状态。例如，抽屉和门的静止位置是当它们关闭时。然而，定义部分静止状态具有内在的模糊性。例如，具有旋转对称性的圆形旋钮不呈现可检测的静止位置。因此，我们使用了10个类别的640个模型的子集，其中包括779个门和529个抽屉，遵循上一节中使用的相同列车和测试分割我们评估了两种基线算法 ResNet-50 [17] 和PointNet++ [39]，它们使用2D或3D格式处理输入的RGB-D部分扫描。对于ResNet- 50，我们输入用目标部分掩码增强的RGB-D图像（总共5个通道）。对于PointNet++，我们用相机空间RGB点云替换我们训练两个网络输出一个14维运动矢量m=（Tr，Tt，pr，pr，pr，dr，dr，dt，dt，dt，xdoor，xdrawer），在大脑上半球随机取样，空间覆盖简单的环境照明和定向照明其中，T r 和Tt分别输出该关节是旋转的和平移的，（pr，pr，pr），以及123为RGB渲染提供了没有阴影的图像与（dr，dr，dr）表示铰链的枢轴点和旋转轴1 2 3已知的相机固有特性，我们提升了2.5D RGB-D图像关节，（dt，dt，dt）表示建议的1 2 3用于PartNet-InsSeg实验的3D部分扫描。我们使用PartNet- Mobility数据集中46个类别的所有2，346个对象执行此任务。我们使用75%的数据（1，772个形状）进行训练，25%（574个形状）用于测试。为滑块轴，最后，x门和x抽屉退回零件分别为门和抽屉摆姿势零件姿势是在[0，1]内标准化的数字，指示当前关节位置。有关网络的更多详细信息，请参见补充资料11103内阁表水龙头风扇所有算法输入腐译门体抽屉门抽屉体轮门脚轮开关底座喷口转子框架地图面具-2D（RGB） 62.0 94.2 66.4 27.7 54.3 88.0 3.46.30.052.5 47.9 99.7 54.4 67.5 53.0RCNN [16] 二维（RGB-D）61.7 93.0 63.0 26.3 58.6 89.9 1.4 13.2 0.052.1 55.8 98.9 39.4 67.4 52.8PartNetPC（XYZ） 20.6 65.9 35.19.815.7 71.3 1.71.00.034.4 55.9 64.2 50.9 74.8 36.1InsSeg [33]PC（XYZRGB）17.4 64.3 23.65.016.4 81.8 1.32.01.029.9 64.1 78.0 42.0 63.5 37.1表4：可移动部件检测结果。（AP%，IoU阈值0.5）2D和PC表示2D图像和点云作为两种算法的不同输入模态我们展示了四个对象类别的详细结果，并总结了所有类别的mAP。完整表格见补充资料。设置算法Hacc.Sacc.Hoerr（m）Haerr（）是的。（o）门坏了。（o）抽屉错误（m）RGB-DResNet50百分之九十五点五百分之九十五点五0.16818.96.3514.40.0645RGB-pcPointNet++百分之九十五点四百分之九十五点五0.19518.57.7520.80.0918表5：运动识别结果。 Hacc.和Sacc.分别表示铰链和滑块的分类精度。呃。表示从预测铰链原点到地面实况轴的平均距离。Ha/Sa表示从预测轴到地面实况的平均铰链/滑块角度差。门坏了。是从预测的门姿态到地面实况的平均角度差抽屉错误是从预测抽屉姿态到地面实况的平均长度差。图5：机器人交互任务。我们研究了两个机器人交互任务：开门和拉抽屉。架构、损耗设计和训练协议。我们在表5中总结了实验结果。不同运动类型的分类实现了相当高的精度，并且滑块（平移关节）的轴预测实现了比铰链（旋转关节）更低的误差。在我们的实验中，ResNet50实现了比PointNet++更好的性能。这可能是因为ResNet中的网络参数数量要多得多。然而，直觉表明，这种3D信息应该更容易直接在3D数据上预测未来的研究应该更多地关注如何通过三维接地来改善三维轴预测。4.2. 机器人互动通过大规模PartNet-Mobility数据集，SAPIEN还支持各种机器人交互任务，包括解决低级别控制任务，如按钮推动，11104处理抓取、抽屉拉动以及需要长期逻辑规划和低水平控制的规划任务，例如，把杯子从微波炉里拿出来，然后放在桌子上。拥有不同的对象类别和丰富的类内实例变体，使我们能够在类别级别上对多个对象实例执行此类任务。图3显示了SAPIEN支持的多种机器人交互任务。在SAPIEN中，我们为机器人交互任务启用了两种模式：1）使用感知地面实况（例如，零件掩模、零件运动信息和3D位置）来完成任务。通过这种方式，我们将感知模块分解出来，让算法专注于机器人控制和交互任务; 2）使用原始图像/点云作为输入，该方法需要开发自己的感知，规划和控制模块，这是我们的家庭助手机器人要实现的最终目标。而且，这种模式能够实现感知和交互的端到端学习（例如，具有特定交互目标的学习感知）。开门和拉抽屉。我们执行两个操作任务：如图5所示。我们使用一个飞行夹持器（Kinova Gripper 3[5]），可以在工作空间中自由移动。除了重力之外的所有动力学特性（例如接触、摩擦和阻尼）在我们的环境中被模拟。我们在108个橱柜实例上执行抽屉拉动任务，在77个橱柜实例上执行开门任务。在我们的任务中，如果夹持器可以移动一个给定的关节（例如，抽屉的滑动接头、门的铰链接头）通过其运动范围的90%，则将视为成功。如果智能体无法将关节移动到给定阈值或移动11105相反的方向，那么它就失败了智能体的输入由分别安装在舞台左、右和前的三个固定摄像机捕获的代理还可以访问关于其自身的所有信息（例如6自由度姿势）。启发式操纵。为了在操作任务中展示我们的模拟器，我们首先使用手动设计的启发式管道来解决任务。对于抽屉拉动，我们使用点云与地面实况分割检测一个有效的把握抽屉手柄姿势。然后我们使用速度控制器将其拉到关节极限。使用地面实况视觉信息，我们可以实现95。3%的成功率至于开门任务，我们首先使用类似的方法（首先抓住把手）以小角度打开门。然后采用基于位置的视觉伺服（PBVS）[21]以跟踪和夹紧门的边缘。最后，通过旋转边缘打开门。该方法（PBVS）实现了81。开门成功率8%在我们的补充视频中可以找到这种基于几何的管道的更详细的说明。基于学习的操作。我们还使用强化学习演示了上述两个任务。我们通过在有限的对象上进行训练和在具有不同大小、密度和运动属性的不可见对象上进行测试来测试RL代理的泛化能力。我们采用Soft Actor- Critic（SAC）[15]，这是SOTA强化学习算法之一，在2，4，8，16个门或抽屉上训练，并在其余未见过的模型上进行测试。我们提供三种不同的状态表示：1）整个场景的原始状态（raw-exp），包括所有部分的当前位置和速度;2）基于移动性的表示（mobility-exp），具有运动轴和平均法线的6D姿态，以及目标部分的当前关节角度和速度; 3）视觉输入（visual-exp），其中我们设置了一个前视摄像头，每个时间步长捕获对象的RGB-D图像，并使用目标部分的分割掩码进行增强。任务（终稿）门角度）抽屉（成功率）2481624816原始经验火车测试85.4 70.5 50.5 38.414.7 18.7 21.2 27.30.84 0.820.770.61 0.63 0.66 0.66迁移率指数火车测试88.778.6 59.2 41.122.9 27.327.532.80.83 0.810.79 0.780.65 0.65 0.69 0.68视觉体验火车测试90.265.2 56.7 32.121.7 24.5 28.1 29.60.80 0.72 0.69 0.630.59 0.60 0.61 0.60表6：门和抽屉打开时的SAC结果。增长，性能下降。然而，在更多场景上进行训练将提高泛化能力，提高测试性能。对于抽屉拉动，虽然性能遵循与门相同的模式，但它在训练对象的数量上相对稳定。这是因为抽屉相对更容易拉出，因为夹持器的运动几乎遵循相同的模式。在所有的表示，mobility-exp给出了最好的性能。对于门，visual-exp表示的性能也接近mobility-exp;但是对于抽屉，raw- exp优于visual-exp。这是因为相机在交互过程中是固定的。对于抽屉打开，从前视图开始的每个时间步的视觉特征几乎保持相同，因此它提供了关于状态变化的这些观察使我们对未来的一些有趣的工作。首先，我们需要适当的视觉方法来编码的几何信息的场景，这可能会改变在交互过程中。其次，虽然这些任务对于启发式算法来说并不难，但基于RL的方法在所有对象上都表现不佳。未来的工作可能会研究如何提高RL的任务的可移植性和效率。5. 结论我们使用相同的飞行夹持器并在手柄上初始化它。抓取姿势通过如以上部分中所描述的启发式方法来生成在训练期间，当目标部件接近具有打开的门/抽屉的接头极限时，代理接收正奖励我们在训练过程中同时与多个对象交互，并使用共享的重放缓冲区来收集经验以训练SAC。在1M交互步骤之后，我们评估看不见的对象的性能，每个对象20集。对于门，评估指标是平均达到的程度。对于抽屉，我们报告了打开80%关节限制的成功率。表6显示了我们的实验结果。对于开门，RL代理倾向于过拟合训练对象，如当训练对象我们提出了SAPIEN，机器人视觉和交互任务的仿真环境，它提供了详细的部分级物理仿真，分层机器人控制器和多功能渲染选项。我们证明了SAPIEN能够实现各种各样的机器人感知和交互任务。确认这项研究得到了NSF资助IIS-1764078，NSF资助IIS-1763268，Vannevar Bush教职研究员，加拿大CIFARAI 主席计划， Qualcomm ， Adobe 和 KuaishouTechnology的礼物，以及三星GRO计划和SAIL Toyota研究中心的资助。11106引用[1] Peter Anderson，Qi Wu，Damien Teney，Jake Bruce，MarkJohnson，NikoSünderhauf，IanReid，StephenGould，and Anton van den Hengel.视觉和语言导航：在真实环境中解释基于视觉的导航指令。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。一、二[2] Greg Brockman 、 Vicki Cheung 、 Ludwig Pettersson 、Jonas Schneider、John Schulman、Jie Tang和WojciechZaremba 。 OpenAIGym.arXiv 预印本 arXiv ：1606.01540，2016。二、三、四[3] Simon Brodeur、Ethan Perez、Ankesh Anand、FlorianGolemo 、 Luca Celotti 、 Florian Strub 、 Jean Rouat 、Hugo Larochelle和Aaron Courville。Home：家庭多模式环境。arXiv预印本arXiv：1711.11017，2017。一、二、三[4] Berk Calli ， Arjun Singh ， James Bruce ， AaronWalsman，Kurt Konolige，Siddhartha Srinivasa，PieterAbbeel和Aaron M Dollar。Yale-CMU-Berkeley机器人操作研究数据集国际机器人研究杂志，36（3）：261-268，2017。1[5] 亚历山大·坎波-勒库尔、雨果·拉蒙塔涅、西蒙·拉图、菲利普·弗特、维埃罗尼克·马厄、弗朗索瓦·鲍彻、查尔斯·德奎尔和路易-约瑟夫·卡隆·用于服务机器人应用的Kinova模块化机器人手臂。在快速自动化中：概念、方法、工具和应用，第693-719页。IGI Global，2019. 7[6] Angel Chang，Angela Dai，Thomas Funkhouser，MaciejHalber ， Matthias Niessner ， Manolis Savva ， ShuranSong，Andy Zeng，and Yinda Zhang. Matterport3D：从室内环境中的RGB-D数据学习。2017年3D视觉国际会议（3DV）。3[7] 天使X作者：Thomas A.作者：Leonidas J. Guibas、PatHanrahan、Qi-Xing Huang、Zimo Li、Silvio Savarese、Manolis Savva 、 Shuran Song 、 Hao Su 、 JianxiongXiao、Li Yi和Fisher Yu。ShapeNet：一个信息丰富的3D模型库. arXiv预印本arXiv：1512.03012，2015。三、五[8] Sachin Chitta，Eitan Marder-Eppstein，Wim Meeussen，Vijay Pradeep ， Adolfo Tsouroukdissian ， JonathanBohren ， David Coleman ， Bence Magyar ， GennaroRaiola，Mathias Ldtke，and Enrique Perdomo.活性氧控制：一个通用和简单的ROS控制框架。Journal of OpenSource Software，2（20）：456，2017. 4[9] Sachin Chitta，Ioan Sucan，and Steve Brachins.动起来！[ROS Topics]. IEEE Robotics Automation Magazine，19（1）：184[10] Erwin Coumans和白云飞。PyBullet，一个用于游戏、机器人和机器学习的物理模拟的Python模块。GitHubrepository，2016. 第1、3条[11] Abhishek Das、Samyak Datta、Georgia Gkioxari、StefanLee、Devi Parikh和D

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

SAPIEN: 基于模拟部件的家庭助理机器人训练环境

最新资源

SAPIEN: 基于模拟部件的家庭助理机器人训练环境

SAPIEN仿真环境资料包

Python库 | sapien-1.1.1-cp37-cp37m-manylinux2014_x86_64.whl

SAPIEN_PrimalScript_2021_8.0.156.rar

区块链技术的智能传媒平台竞争者的分析

基于css和js的个人介绍代码

position:fixed;

基于javaweb 写一个主页面 含有导航菜单并能实现页内导航 的代码

latex双栏怎么插入图片

用Javascript编写一个博客主页，然后用css进行美化

powershell转exe

html+css网页代码

用Javascript编写一个博客主页

模仿element-ui Carousel组件 用vue写一个卡片化Carousel 已达到类似效果

用css和html生成一个网页

Android studio 网页代码

bootstrap 卡其色

css控制盒子可以滚动，且滚动条隐藏

css表格和浮动框架代码

写一段基于Bootstrap的网页设计

最新资源

基于javaweb 写一个主页面含有导航菜单并能实现页内导航的代码

模仿element-ui Carousel组件用vue写一个卡片化Carousel 已达到类似效果