GraspNet-10亿：大规模基准数据集与评估系统

87 浏览量更新于2023-10-25 收藏 19.97MB PDF 举报

上海交大

数据集

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

…1114440GraspNet-10亿：通用物体抓取的大规模基准0方浩舒，王晨曦，苟明豪，陆策武10上海交通大学0fhaoshu@gmail.com，{wcx1997，gmh2015，lucewu}@sjtu.edu.cn0摘要0物体抓取对许多应用至关重要，也是一个具有挑战性的计算机视觉问题。然而，对于杂乱的场景，当前的研究面临着训练数据不足和缺乏评估基准的问题。在这项工作中，我们贡献了一个大规模的抓取姿势检测数据集，并提供了一个统一的评估系统。我们的数据集包含97,280个RGB-D图像，超过10亿个抓取姿势。同时，我们的评估系统通过分析计算直接报告抓取是否成功，能够评估任何类型的抓取姿势，而无需详尽地标记真实值。此外，我们提出了一个端到端的抓取姿势预测网络，给定点云输入，我们学习接近方向和操作参数。还设计了一种新颖的抓取亲和场来提高抓取的鲁棒性。我们进行了大量实验，展示了我们的数据集和评估系统与真实世界实验的良好对齐，并且我们提出的网络达到了最先进的性能。我们的数据集、源代码和模型可以在www.graspnet.net上公开获取。01. 引言0物体抓取是一个基础问题，在工业、农业和服务贸易等领域有许多应用。抓取的关键是在给定视觉输入（图像或点云）的情况下检测抓取姿势，这引起了计算机视觉界的广泛关注[11，30]。尽管重要，但目前在这个领域获得进一步性能提升有两个主要障碍。首先，抓取姿势具有不同的表示形式，包括矩形[36]和6D姿势[41]表示，并且使用不同的度量标准进行评估[16，14，41]。01 CewuLu是通讯作者，清远研究院和人工智能教育部重点实验室成员，上海交通大学人工智能研究院，中国0数据0场景级抓取姿势0物体6D姿势物体级抓取姿势0图1.构建数据集的方法。我们使用真实世界的传感器收集数据，并通过分析计算为每个物体注释抓取姿势。通过手动注释物体的6D姿势，将抓取姿势从物体坐标投影到场景坐标。这种方法极大地减少了注释抓取姿势的工作量。我们的数据集既密集注释，又与真实世界视觉一致。0其次。评估指标的差异使得在统一的方式下直接比较这些方法变得困难，而使用真实机器人进行评估将大大增加评估成本。其次，难以获得大规模高质量的训练数据[5]。由人工注释的先前数据集[16，50，7]通常规模较小，只提供稀疏的注释。而从模拟环境[26，9，48]中获取训练数据可以生成大规模的数据集，但模拟与现实之间的视觉领域差距不可避免地会降低算法在实际应用中的性能。为了为构建在此基础上的算法提供坚实的基础，一个基准测试是重要的，它需要i）提供与来自真实世界传感器的视觉感知相吻合的数据，ii）以大规模抓取姿势真实值进行密集和准确的注释，iii）以统一的方式评估不同表示的抓取姿势。这是非常困难的，特别是在数据注释方面。给定一张图像或场景，我们很难在连续空间中手动注释无尽的抓取姿势。我们通过探索一个新的方向来解决这个问题，即收集数据114450通过在模拟中进行分析计算，从真实世界中获取数据并进行注释，充分发挥了双方的优势。具体而言，受到之前的文献[41]的启发，我们提出了一个两步流程来为场景生成大量的抓取姿势。由于我们的自动注释过程，我们建立了第一个大规模的野外抓取姿势数据集，可用作训练和评估抓取姿势检测算法的基础。我们的数据集包含来自超过190个杂乱场景的不同视角的97,280个RGB-D图像。对于数据集中的所有88个物体，我们提供准确的3D网格模型。每个场景都有物体的6D姿态和抓取姿态的密集注释，共有超过十亿个抓取姿态，比以前的数据集大了5个数量级。此外，我们的基准测试系统嵌入了一个在线评估系统，能够以统一的方式评估当前主流的抓取检测算法。实验证明，我们的基准测试与真实世界的实验能够很好地对齐。图1显示了构建我们数据集的方法。鉴于这样一个大规模的数据集，我们进一步提出了一种学习抓取姿势的新方法。为了更好地进行几何推理和上下文编码，我们提出了一种端到端的基于3D的抓取姿势检测网络。我们的网络不直接预测抓取姿势矩阵，而是寻求一种更稳健的学习方式，明确地学习接近方向和操作参数（例如平面旋转、抓取宽度）在统一目标下。此外，为了提高抓取姿势的扰动抵抗能力，我们提出了一种称为抓取亲和力场的新表示方法，使我们的网络对扰动具有稳健性。实验证明了我们提出的方法的有效性和效率。02. 相关工作0在本节中，我们首先回顾基于深度学习的抓取检测算法，然后介绍该领域的相关数据集。还简要回顾了基于点云的深度学习方法。0基于深度学习的抓取预测算法对于基于深度学习的抓取检测算法，可以分为三个主要类别。最流行的一种是基于RGB-D图像输入检测可抓取矩形[16, 21, 36, 13, 30, 22, 26, 50, 1,2, 7, 27,28]。Lenz等人[21]提出了一种级联方法，使用两个网络首先剪除不太可能的抓取，然后使用一个更大的网络评估剩余的抓取。Redmon等人[36]提出了一种不同的网络结构，直接在单步中回归抓取姿势，速度更快、更准确。Mahler等人[26]提出了一个抓取质量CNN，预测抓取候选的稳健性得分。Zhang[50]和Chu[7]进行了扩展0这些方法生成的抓取姿势在2D平面上受限，限制了抓取姿势的自由度。随着单目物体6D姿态估计[17,45]的快速发展，一些研究者[8]预测物体的6D姿态并将预定义的抓取姿势投影到场景中。这种方法对抓取方向没有限制，但需要对物体形状有先验知识。最近，从[42]开始，有一系列新的研究[41, 24, 28,35]提出了在部分观察到的点云上生成抓取候选，并使用3DCNN为每个候选输出分类得分。这些方法不需要对物体有先验知识。目前，这些方法在自己的度量标准下进行评估，很难与其他方法进行比较。0抓取数据集康奈尔抓取数据集[16]首次提出了用于图像中抓取检测的矩形表示。提供了带有矩形抓取姿势的单个物体RGB-D图像。[7,50]按照相同的协议构建了多物体场景的数据集。这些抓取姿势是由人工注释的。[30,22]使用真实机器人实验进行了注释。这些数据标注方法耗时且需要强大的硬件支持。为了避免这个问题，一些最近的工作探索使用模拟环境[26, 9, 48, 28,4]来注释抓取姿势。它们可以生成一个更大规模的数据集，但视觉感知的域差始终是一个障碍。除了基于矩形的注释，GraspSeg[2]为抓取可行性分割和物体分割提供了像素级注释。对于6D姿态估计，[45]提供了一个包含21个物体和92个场景的数据集。这些数据集主要关注抓取姿势检测的一个子领域。在这项工作中，我们的目标是构建一个规模更大、多样性更强、涵盖物体抓取检测的主要方面的数据集。0基于点云的深度学习。Qi等人首次提出了PointNet[33]，直接从原始点云输入中学习特征。此后，许多方法[34, 38, 3, 23, 12, 43, 39, 40, 20, 19, 49, 47, 44, 46,15]被提出来进行点云分类和分割。除此之外，一些最近的工作[31, 37,32]将PointNet框架扩展到了3D物体检测领域。与我们最相似的网络结构是Qin等人的[35]，它也基于PointNet预测抓取姿势。在这项工作中，我们设计了一个端到端的网络，使用了一种新的抓取姿势表示，而不是直接回归。0GraspNet-10亿0接下来我们将介绍我们数据集的主要特点以及如何构建它。……114460视图1 视图20Kinect4A RealSense06D-Pose 6自由度抓取姿势0基于矩形的抓取姿势实例掩码0统一评估系统0物体模型0丰富的数据密集注释0抓取？×0抓取？√0多视角0多摄像头0RGB0深度0点云0图2.我们数据集的关键组成部分。使用RealSense相机和Kinect相机从不同视角拍摄了RGB-D图像。每个物体的6D姿态、抓取姿势、矩形抓取姿势和实例掩码都有注释。还提供了一个统一的评估系统。03.1. 概述0以往的抓取数据集要么专注于孤立的物体[16, 26, 9,48]，要么只为每个场景标记一个抓取[30,22]。很少有数据集考虑到多物体多抓取的情况，并且规模较小[50,7]，因为注释的工作量较大。此外，大多数数据集采用基于矩形的抓取姿势表示[16]，这限制了夹爪放置的空间。为了解决这些问题，我们提出了一个大规模的数据集，用于在杂乱的场景中进行抓取姿势预测，名为GraspNet-10亿。我们的数据集包含88个日常物体，具有高质量的3D网格模型。图像是从190个杂乱的场景中收集的，每个场景贡献了由两个不同相机拍摄的512个RGB-D图像，总共有97,280个图像。对于每个图像，我们通过力闭合的解析计算密集地注释了6自由度抓取姿势[29]。每个场景的抓取姿势数量从3,000,000到9,000,000不等，总共超过11亿个抓取姿势。此外，我们还提供了准确的物体6D姿态注释、基于矩形的抓取姿势、物体掩码和边界框。每个帧还与一个相机姿态相关联，因此可以轻松融合多视角点云。图2说明了我们数据集的关键组成部分。03.2. 数据收集0我们从YCB数据集[6]中选择了32个适合抓取的物体，从DexNet2.0[26]中选择了13个对抗性物体，并收集了43个我们自己的物体来构建我们的物体集。这些物体适合抓取，并且在形状、纹理、大小、材料等方面具有多样性。我们相信多样的局部几何可以为算法带来更好的泛化能力。为了收集杂乱场景的数据，我们将相机安装在机器人臂上，因为它可以精确地重复轨迹并帮助自动化收集过程。在数据收集之前进行相机标定，以获得准确的相机姿态。考虑到0夹爪深度采样0抓取视图采样0平面旋转采样0抓取点0采样0抓取投影0碰撞检测0抓取生成0& 注释0图3.抓取姿态注释流程。首先从点云中采样抓取点。然后对抓取视角、平面内旋转和夹爪深度进行采样和评估。最后，使用每个物体的6D姿态将抓取投影到场景中。还进行了碰撞检测，以避免抓取与背景或其他物体的碰撞。0& 注释03.3. 数据注释0Pi = cam0Pi0,Gi(w) = Pi · Gi(o),(3)114470数据集抓取/场景0物体/场景0抓取标签06D姿态0总物体数0总抓取次数0总图像模态数据来源0Cornell [ 16 ] � 8 1 矩形否 240 8019 1035 RGB-D 1 Cam.0Pinto et al . [ 30 ] 1 - 矩形否 150 50K 50K RGB-D 1 Cam.0Levine et al . [ 22 ] 1 - 矩形否 - 800K 800K RGB-D 1 Cam.0Mahler et al . [ 26 ] 1 1 矩形否 1,500 6.7M 6.7M 深度仿真0Jacquard [ 9 ] � 20 1 矩形否 11K 1.1M 54K RGB-D 仿真0Zhang et al . [ 50 ] � 20 � 3 矩形否 - 100K 4683 RGB 1 Cam.0Multi-Object [ 7 ] � 30 � 4 矩形否 - 2904 96 RGB-D 1 Cam.0VR-Grasping-101 [ 48 ] 100 1 6-DOF 是 101 4.8M 10K RGB-D 仿真0YCB-Video [ 45 ] 无 � 5 无是 21 无 134K RGB-D 1 Cam.0GraspNet (我们的数据集) 3 � 9M � 10 6-DOF 是 88 � 1.2B 97K RGB-D 2 Cams.0表1. 公开可用抓取数据集的属性总结。“Rect.”，“Cam.”和“Sim.”分别代表矩形、相机和仿真。“-”表示数量未知。0帧。由于记录了相机姿态，我们只需要为每个场景的第一帧注释6D姿态。然后，通过以下公式将6D姿态传播到其余帧中：Pji = cam−1i cam0 Pj0，(1)0其中，Pji是第i帧中第j个物体的6D姿态，cami是第i帧的相机姿态。所有的6D姿态注释都经过了多位注释者的精心修正和双重检查，以确保高质量。通过使用6D姿态将物体投影到图像上，还可以获得物体的掩码和边界框。0抓取姿态注释与常见视觉任务中的标签不同，抓取姿态分布在一个大而连续的搜索空间中，这带来了无限的注释。手动注释每个场景将会极其耗时。考虑到所有物体都是已知的，我们提出了一个两阶段的自动化抓取姿态注释流程，如图3所示。首先，为每个单独的物体采样和注释抓取姿态。为了实现这一点，高质量的网格模型被下采样，以使采样点（称为抓取点）在体素空间中均匀分布。对于每个抓取点，在球形空间中均匀分布采样V个视角。在二维网格D×A中搜索抓取候选点，其中D是夹爪深度的集合，A是平面内旋转角度的集合。根据网格模型，确定夹爪宽度，以确保没有空抓取或碰撞发生。每个抓取候选点将根据网格模型被分配一个置信度分数。我们采用了一种分析计算方法来评估每个抓取。力闭合度度量[29,41]已被证明在抓取评估中是有效的：给定一个抓取姿态、相关物体和摩擦系数µ，力闭合度度量输出一个二进制标签，指示在该系数下抓取是否是反极点的。该结果基于物理规则计算，具有鲁棒性。在这里，我们采用了[24]中描述的改进的度量方法。以∆µ =0.1为间隔，我们逐步将µ从1递减到0.1，直到抓取0不是对称的。摩擦系数较低的抓取姿势成功的概率更高。因此，我们定义我们的分数 s 为：s = 1 . 1 − µ，(2) 使得 s位于 (0 , 1]。其次，对于每个场景，我们根据注释的6D物体姿态将这些抓取姿势投影到相应的物体上：0其中 P i 是世界坐标系中第 i 个物体的6D姿态，G i ( o )是物体坐标系中的一组抓取姿势，G i ( w )包含世界坐标系中的相应姿态。此外，为了避免无效的抓取，进行了碰撞检查。根据[ 41]，我们采用如图4所示的简化夹爪模型，并检查该区域是否存在物体点。经过这两个步骤，我们可以为每个场景生成密集分布的抓取集合 G ( w )。根据统计数据，我们数据集中正负标签的比例约为1:2。我们在第5节中使用我们的机械臂进行了真实世界实验，并验证了我们生成的抓取姿势与真实世界抓取的良好对齐性。03.4. 评估0数据集划分对于我们的190个场景，我们使用100个进行训练，90个进行测试。具体来说，我们将测试集进一步分为3个类别：30个包含已见物体的场景，30个包含未见但相似物体的场景，以及30个用于新物体的场景。我们希望这样的设置能更好地评估不同方法的泛化能力。0新的度量方法为了评估抓取姿势的预测性能，先前的方法采用矩形度量方法，如果满足以下条件，则认为抓取正确：i）旋转误差小于30°，ii）矩形IOU大于0.25。这种度量方法存在一些缺点。首先，它只能评估矩形表示的抓取姿势。Figure 4. (a) The coordinate frame of the gripper. (b) Our newrepresentation of grasp pose. “obj.” denotes object point. Ournetwork needs to predict i) the approaching vector V , ii) the ap-proaching distance from grasp point to the origin of gripper frameD, iii) the in-plane rotation around approaching axis R and iv) thegripper width W.114480其次，误差容限设置得相当高，因为真值注释并不是详尽无遗的。这可能会高估抓取算法的性能。目前，康奈尔数据集[16]的准确率已经达到99%以上。在这项工作中，我们采用在线评估算法来评估抓取准确性。我们首先说明如何分类单个抓取姿势是否为真正的正例。对于每个预测的抓取姿势 ˆ P i，我们通过检查夹爪内部的点云将其与目标物体关联起来。然后，类似于生成抓取注释的过程，我们可以通过力闭合度量为每个抓取姿势获得一个二进制标签，给定不同的 µ。对于杂乱的场景，抓取姿势预测算法应该能够预测多个抓取姿势。由于在抓取之后通常会进行执行，因此真正正例的百分比更为重要。因此，我们采用Precision@k作为我们的评估指标，该指标衡量了前k个排名的抓取的精确度。AP µ表示给定摩擦 µ 的 k从1到50的平均Precision@k。类似于COCO [ 25]，我们报告不同 µ 下的 AP µ 。具体来说，我们将 µ从0.2到1.0的 AP µ 的平均值记为 AP ，间隔为 ∆ µ = 0.2。为了避免被相似的抓取姿势或来自单个物体的抓取姿势所主导，我们在评估之前运行了姿态非最大值抑制。有关姿态非最大值抑制的详细信息，请参阅补充文件。03.5. 讨论0在这项工作中，我们旨在为物体抓取问题提供一个通用的基准。抓取问题可以分解为：i）预测所有可能的抓取姿势（由计算机视觉社区完成），以及ii）针对特定的机器人设置和抓取进行运动规划（由机器人学社区完成）。对于我们的基准测试，我们将重点放在视觉问题上，并尽可能将标签与机器人环境的设计选择解耦。我们提供了多个摄像头和多个视角，简化了夹爪模型和碰撞检测，以提高数据集的通用性。我们没有考虑使用真实夹爪和机械臂进行运动规划和碰撞，因为这些与机器人环境相关，应在运行时解决。我们希望我们的数据集能够促进不同抓取姿势检测算法之间的公平比较。我们将我们的数据集与其他公开可用的抓取数据集进行了比较。表1总结了几个方面的主要差异。我们可以看到，我们的数据集在规模和多样性方面要大得多。通过我们的两步注释流程，我们能够收集具有密集注释的真实图像，从而充分利用了双方的优势。对于抓取姿势评估，由于抓取空间的连续性，实际上存在无限个可行的抓取姿势。先前的方法为了评估抓取而预先计算了真值，无论是由人工注释还是通过物理仿真。0Y0Z0O0(a)0R0(b)0[16]或[9]的仿真方法无法涵盖所有可行的解。相反，我们不预先计算测试集的标签，而是通过计算使用力闭合度量[29]计算质量分数来直接评估它们。这种评估方法不假设抓取姿势的表示方法，在实践中是通用的。相关的API已公开提供，以促进这一领域的研究。04. 方法0然后，我们介绍了我们的端到端抓取姿势检测网络，如图5所示。我们的抓取姿势表示在4.1中介绍。因此，我们主要将我们的流程划分为三个部分：ApproachNetwork、Operation Network和Tolerance Network。04.1. 抓取姿势表示0与之前的工作[41,24]类似，我们将两指平行夹爪的坐标系定义为图4(a)所示。在已知夹爪坐标系的情况下，抓取姿势检测旨在预测夹爪在相机坐标系下的方向和平移，以及夹爪的宽度。我们将抓取姿势G表示为0G = [R t w]，(4)0其中R ∈ R3×3表示夹爪的方向，t ∈ R3×10表示抓取的中心，w ∈R表示适合抓取目标物体的夹爪宽度。对于神经网络，直接学习R3×3中的旋转矩阵并不直观。明确的约束条件，如旋转矩阵的行列式必须等于1，其逆矩阵是其转置，很难学习。相反，我们采用6D姿态估计[17]中的表示方法，将方向解耦为视点分类和平面内旋转预测。然后，我们的问题可以重新表述如下，不失一般性：对于物体表面上的一个抓取点，我们预测可行的接近向量、接近距离、绕接近轴的平面内旋转和紧密的夹爪宽度。图4(b)解释了这一点。LA({ci}, {sij}) =1Ncls�Lcls(ci, c∗i )+λ11Nreg�i114490图5. 我们端到端网络的概述。(a) 对于输入的场景点云，点编码器-解码器提取云特征并采样M个具有C维特征的点。(b)ApproachNet预测接近向量，并用于(c)在圆柱区域中分组点。(d)OperationNet预测操作参数，ToleranceNet预测抓取的鲁棒性。更多细节请参见正文。0我们的抓取姿势的公式化。根据这种公式化，我们的网络设计如下所示。04.2. Approach Network和抓取点选择0由于一些方向存在遮挡，我们的ApproachNetwork联合估计接近向量和可行的抓取点。0基础网络为了为视点分类打下坚实的基础，我们首先使用基础网络来捕捉点云的几何特征。在这项工作中，我们采用PointNet++[34]骨干网络。也可以采用其他网络，如VoxelNet[51]。以大小为N×3的原始点云作为输入，我们的基础网络输出一组新的具有C个通道特征的点。我们使用最远点采样[10]来对整个场景进行M个点的子采样，以覆盖整个场景。0输出头部我们将可行的接近向量分类为 V个预定义的视点。同时，对于每个点，ApproachNetwork输出两个值来预测它是否可抓取的置信度。因此，我们的提案生成网络的输出是 M × (2 +V)，其中2表示可抓取与否的二进制类别，V表示预定义的接近向量的数量。0损失函数对于每个候选点，我们分配一个二进制标签，指示它是否可抓取。首先，不在物体上的点被分配负标签。接下来，对于物体上的点，我们找到那些在 5mm半径邻域内至少有一个可抓取的真实值的点。它们的可抓取分数被分配为 1。最后，无法找到参考真实抓取的物体上的点被忽略，它们不对训练目标做出贡献。对于每个可抓取的点，我们在相机坐标系下围绕它采样 V个虚拟接近向量。现在，我们可以定义第 i 个点的第 j 个虚拟视图的接近向量为：0将可抓取点视为 v ij 。然后我们在第 i个点的球面空间上寻找其真实参考向量 ˆ v ij。同样，我们只考虑在 5度范围内的参考向量。根据这样的定义，我们的输入点云的目标函数定义如下：0这里，c i 表示点 i 是否可抓取的二进制预测。如果点 i是正样本，则 c � i 被赋值为 1 ，否则为 0 。s ij 表示点 i的第 j 个视角的预测置信度分数。s � ij是相应的真实值，通过从该视角选择最大的抓取置信度（公式 2 ）获得。| v ij , v � ij | 表示角度差异。指示函数 1 ()限制了具有附近真实值在 5度范围内的接近向量的损失。在这里，我们使用两类softmax 损失函数 L cls ，而对于 L reg ，我们使用平滑的L 1 损失。04.3. 操作网络0在从可抓取点获取接近向量之后，我们进一步预测平面内旋转、接近距离、夹爪宽度和抓取置信度，这对操作非常重要。在这里，抓取置信度有 10 个级别（公式 2 ）。0在通过操作网络之前，我们为每个抓取候选构建了一个统一的表示。由于接近距离相对较不敏感，我们将其分成 K个区间。对于每个给定的距离 d k，我们在沿着接近向量的圆柱体中采样一定数量的点。为了更好地学习，所有采样点都被转换为以抓取点和 z轴为原点的新坐标系。Oij = [o1ij, [0, −vij(3), vij(2)]T, vij],LR(Rij, Sij, Wij) =ls�ijLdcls(Rij, R∗ij)+λ21Ldreg(Sij, S∗ij)+λ31Ldreg(Wij, W ∗ij)�,(6)114500其中 v ij 是 v ij 。变换矩阵 O ij 计算如下：0其中 o 1 ij = [0 , − v ij (3) , v ij (2) ] T × v ij ，0v ij ( k ) 是 v ij 的第 k个元素。经过这样的转换，候选抓取姿势具有统一的表示和坐标。0旋转和宽度在先前的文献中已经证明，对于预测平面内旋转，分类能够比回归获得更好的结果。根据这样的设置，我们的旋转网络以对齐的点云作为输入，并为每个分组的旋转预测分类分数和归一化残差，以及相应的抓取宽度和置信度。值得注意的是，由于夹爪是对称的，我们只预测从 0 到 180度的旋转。网络的目标函数为：0K个0为 10N reg0�0N reg0�0其中 R ij 表示分组的旋转角度， S ij ， W ij 和 d分别表示抓取置信度得分、夹爪宽度和接近距离。 L d表示第d个分组距离的损失。在这里，对于 L cls，我们使用sigmoid交叉熵损失函数进行多类二进制分类。04.4. 容忍网络0在前面的步骤之后，我们的端到端网络已经能够预测准确的抓取姿势。除此之外，我们进一步提出了一种称为抓取亲和力场（GAFs）的表示方法，以提高我们的抓取姿势预测的鲁棒性。由于可行的抓取姿势是无限的，人类倾向于选择能够容忍更大误差的抓取姿势。受此启发，我们的GAFs学习预测每个抓取的扰动容忍度。给定一个真实的抓取姿势，我们在球面空间中搜索其邻居，看看抓取仍然具有抓取得分 s> 0 . 5时的最远距离，并将其设置为我们的GAFs的目标。损失函数写为：0L F ( A ij ) = 10N reg0K �0d =10ij L d reg ( T ij , T � ij ) ,(7)0其中 T ij 表示抓取姿势能够抵抗的最大扰动。0物体 s=1 s=0.5 s=0.1 物体 s=1 s=0.5 s=0.10香蕉 98% 67% 21% 苹果 97% 65% 16%0削皮器 95% 59% 9% 龙 96% 60% 9%0杯子 96% 62% 12% 骆驼 93% 67% 23%0剪刀 89% 61% 5% 电钻 96% 61% 14%0狮子 98% 68% 16% 黑色老鼠 98% 64% 13%0表2. 不同抓取得分下真实世界抓取成功率的总结。04.5. 训练和推理0在训练过程中，整个网络通过最小化以下目标函数进行端到端更新：0L = L A ( { c i } , { s ij } ) + αL R ( R ij , S ij , W ij ) + βLF ( T ij ) (8)在推理过程中，我们通过将抓取姿势分成10个区间来对其进行优化，根据我们的容忍网络预测的它们能够抵抗的扰动对它们进行重新排序。我们将预测的抓取姿势分成10个区间，因为我们的标签有10个不同的抓取得分。实验证明，这种优化可以有效提高抓取质量。05. 实验0在本节中，我们首先进行机器人实验，以证明我们的地面真实标注与真实世界的抓取能够很好地吻合。然后，我们在我们的数据集上对几种代表性方法进行基准测试，并将它们与我们的方法在一个统一的评估指标下进行比较（第3.4节）。最后，我们进行消融研究，展示了我们网络组件的有效性。05.1. 地面真实评估0为了评估我们生成的抓取姿势的质量，我们设置了一个真实的机器人实验。由于我们需要使用物体的6D姿态将抓取姿势投影到相机帧上，我们在物体上贴上ArUco代码，并且只标记它们的6D姿态一次，以避免繁琐的注释过程。我们从我们的物体集中选择了10个物体，并执行具有不同得分的抓取姿势。对于每个设置，我们随机选择100个抓取姿势。对于机器人手臂，我们采用FlexivRizon机械臂，对于相机，我们使用Intel RealSense435。表2总结了抓取的成功率。我们可以看到，对于得分较高的抓取姿势，平均成功率可以达到0.96。与此同时，对于得分为0.1的抓取姿势，成功率非常低。这表明我们生成的抓取姿势与真实世界的抓取非常吻合。05.2. 基准测试代表性方法0我们在数据集上对不同代表性方法进行基准测试，并与我们的方法进行比较。114510图6. 我们预测的抓取姿势的定性结果。场景是使用相机拍摄的RGB-D图像构建的。抓取由蓝线表示。0方法已见未见新颖0AP AP 0.8 AP 0.4 AP AP 0.8 AP 0.4 AP AP 0.8 AP 0.40GG-CNN[27] 15.48/16.89 21.84/22.47 10.25/11.23 13.26/15.05 18.37/19.76 4.62/6.19 5.52/7.38 5.93/8.78 1.86/1.320Chu等人[7] 15.97/17.59 23.66/24.67 10.80/12.74 15.41/17.36 20.21/21.64 7.06/8.86 7.64/8.04 8.69/9.34 2.52/1.760GPD [41] 22.87/24.38 28.53/30.16 12.84/13.46 21.33/23.18 27.83/28.64 9.64/11.32 8.24/9.58 8.89/10.14 2.67/3.160Liang等人[24] 25.96/27.59 33.01/34.21 15.37/17.83 22.68/24.38 29.15/30.84 10.76/12.83 9.23/10.66 9.89/11.24 2.74/3.210我们的 27.56 / 29.88 33.43 / 36.19 16.95 / 19.31 26.11 / 27.84 34.18 / 33.19 14.23 / 16.62 10.55 / 11.51 11.25 / 12.92 3.98 / 3.560表3. 不同方法的评估。该表显示了在RealSense/Kinect捕获的数据上的结果。0对于基于矩形的方法，我们采用两种方法 [27，07]具有开放实现。对于点云提议方法，我们采用[41，24]。我们根据它们的原始实现来训练这些模型。对于我们的方法，将旋转角度分为12个bin，接近距离分为4个bin，值为0.01、0.02、0.03、0.04米。我们设置M = 1024和V =300。PointNet++具有四个集合抽象层，半径分别为0.04、0.1、0.2、0.3米，分组大小为64、32、16和16，通过这些抽样将点集下采样到2048、1024、512和256的大小，然后通过两个特征传播层将点上采样到具有256维特征的大小为1024的点集。ApproachNet、OperationNet和ToleranceNet由MLP组成，大小分别为(256, 302, 302)、(128,128, 36)和(128, 64,12)。对于损失函数，我们设置λ1、λ2、λ3、α、β =0.5、1.0、0.2、0.5、0.1。我们的模型使用PyTorch实现，并在一块Nvidia RTX 2080GPU上使用Adam优化器[18]进行训练。在训练过程中，我们从每个场景中随机采样20k个点。初始学习率为0.001，批量大小为4。学习率在60个epoch后降低为0.0001，然后在100个epoch后降低为0.00001。我们在表3中报告了不同方法的结果。从表中可以看出，基于矩形的方法在所有指标中具有较低的准确性。这表明以前的基于矩形的方法可能被高估了。我们的端到端网络实现了最先进的结果，并大幅优于以前的方法。我们在图6中展示了一些预测抓取姿势的定性结果。05.3. 消融研究0为了评估我们网络的不同组件的有效性，我们在Kinect子集的已见测试集上进行了消融研究。首先，我们通过直接回归接近向量的方向和平面内旋转的角度来评估不同的抓取姿势表示是否会影响结果。然后，我们通过从推理流程中删除ToleranceNet来评估我们的ToleranceNet的有效性。结果报告在表4中。我们可以看到，基于分类的学习方案确实比直接回归更好。同时，删除ToleranceNet后性能的下降表明了抓取亲和力场的有效性。0方法 AP AP 0.8 AP 0.40完整 29.88 36.19 19.310用回归替换分类 23.74 33.28 12.150删除 28.53 35.62 16.33 容忍网络0表4. 我们网络的消融研究。更多细节请参见正文。0通过直接回归接近向量的方向和平面内旋转的角度来评估不同的抓取姿势表示是否会影响结果。然后，通过从推理流程中删除它来评估我们的ToleranceNet的有效性。结果报告在表4中。我们可以看到，基于分类的学习方案确实比直接回归更好。同时，删除ToleranceNet后性能的下降表明了抓取亲和力场的有效性。06. 结论0在本文中，我们构建了一个用于杂乱场景物体抓取的大规模数据集。我们的数据集比之前的抓取数据集大几个数量级，并且在物体、场景和数据来源方面具有多样性。它由真实世界传感器拍摄的图像组成，并具有丰富而密集的注释。我们证明了我们的数据集与真实世界的抓取相吻合。同时，我们提出了一种具有新颖的抓取亲和力场表示的端到端抓取姿态预测网络。实验证明了我们方法的优越性。我们的代码和数据集将会发布。0致谢本工作部分得到了中国国家重点研发计划的支持，编号2017YFA0700800，以及中国国家自然科学基金的支持，编号61772332和上海启智研究院的支持114520参考文献0[1] Umar Asif, Jianbin Tang, and Stefan Harrer. Ensemblenet:使用卷积神经网络集成改进抓取检测. In BMVC , page 10, 2018.[2] Umar Asif, Jianbin Tang, and Stefan Harrer. Graspnet:一种用于低功耗设备实时抓取检测的高效卷积神经网络. In IJCAI ,pages 4875– 4882, 2018. [3] Matan Atzmon, Haggai Maron,and Yaron Lipman. 通过扩展算子的点卷积神经网络. arXiv预印本arXiv:1803.10091 , 2018. [4] Samarth Brahmbhatt, AnkurHanda, James Hays, and Dieter Fox. Contactgrasp:从接触中合成功能性多指抓取. arXiv预印本 arXiv:1904.03754 ,2019. [5] Shehan Caldera, Alexander Rassau, and DouglasChai. 机器人抓取检测中深度学习方法综述. MultimodalTechnologies and Interaction , 2(3):57, 2018. [6] Berk Calli,Arjun Singh, James Bruce, Aaron Walsman, Kurt Konolige,Siddhartha Srinivasa, Pieter Abbeel, and Aaron M Dollar.用于机器人操作研究的Yale-cmu-berkeley数据集.机器人学国际期刊 , 36(3):261–268, 2017. [7] Fu-Jen Chu,Ruinian Xu, and Patricio A Vela. 真实世界的多目标、多抓取检测. IEEE机器人与自动化通信 , 3(4):3355–3362, 2018. [8] XinkeDeng, Yu Xiang, Arsalan Mousavian, Clemens Epp- ner,Timothy Bretl, and Dieter Fox.自监督的6D物体姿态估计用于机器人操作. arXiv预印本arXiv:1909.10159 , 2019. [9] Amaury Depierre, EmmanuelDellandr´ea, and Liming Chen. Jacquard:用于机器人抓取检测的大规模数据集. In 2018IEEE/RSJ国际智能机器人与系统大会(IROS) , pages 3511–3516.IEEE, 2018. [10] Yuval Eldar, Michael Lindenbaum, MoshePorat, and Yehoshua Y Zeevi. 用于渐进图像采样的最远点策略.IEEE图像处理交易 , 6(9):1305–1315, 1997. [11] Kuan Fang, YukeZhu, Animesh Garg, Andrey Kurenkov, Viraj Mehta, Li Fei-Fei,and Silvio Savarese.从模拟自监督学习中学习面向任务的工具操作抓取. arXiv预印本arXiv:1806.09266 , 2018. [12] Benjamin Graham, MartinEngelcke, an

下载后可阅读完整内容，剩余1页未读，立即下载