6-DOFGraspNet：一种用于物体操作的抓取生成方法

199 浏览量更新于2023-10-12 1 收藏 975KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

16-DOF GraspNet：用于物体操作的变抓取生成Arsalan MousavianNVIDIAamousavian@nvidia.comClemens EppnerNVIDIAceppner@nvidia.comDieterFoxNVIDIAdieterf@nvidia.com摘要生成抓取姿势是任何机器人对象操作任务的关键组成部分。在这项工作中，我们formulate的把握生成的问题，采样一组把握使用变分自动编码器和评估和细化采样的把握使用把握评估模型。Grasp Sampler和Grasp Refinement网络都将深度相机观察到的3D点云作为输入。我们评估我们的方法在模拟和现实世界的机器人实验。我们的方法实现了88%的成功率，各种常用的对象与不同的外观，规模和重量。我们的模型纯粹是在模拟中训练的，在现实世界中工作，没有任何额外的步骤。我们的实验视频可以在这里找到。1. 介绍抓取选择是机器人操作中最重要的问题之一。在这里，机器人观察物体，并需要决定在哪里移动其夹持器（3D位置和3D方向），以便拾取物体（见图1）。①的人。抓取选择是复杂的，因为抓取的稳定性取决于对象和夹持器的几何形状、对象质量分布和表面摩擦。物体周围的几何形状构成了额外的约束，在这些约束上，抓取点是可到达的，而不会导致机器人操纵器与场景中的其他物体碰撞（见图11）。2）的情况。通常，这个问题是通过几何启发的几何学来解决的，以选择物体周围有希望的抓取点，然后可能对采样抓取的稳定性和可达性进行更深入的几何分析[31]。这些方法中的许多依赖于对象的完整3D模型的可用性，这在机器人仅利用例如有噪声的深度相机观察场景的真实场景中是严重的限制。为了克服这一限制，可以移动相机以生成完整的对象模型或执行形状完成，然后进行基于几何的抓取分析。然而，在受约束空间中移动相机可能是不可能的，并且形状完成对于抓取生成和生成可能不够准确。图1.在我们的实验中使用的弗兰卡熊猫机械手。我们的方法是能够有效地产生不同的套把握，导致成功的拾取未知的物体。评价最近，几个小组已经引入了深度学习技术来评估原始点云数据的抓取质量[21，19，31，15]。虽然这些方法提供了良好的抓握评估，但它们仍然使用手动设计的触觉来对抓握进行采样以进行评估或依赖于黑盒优化技术，例如CEM [19，34]。此外，它们没有提供有效的方法来改善采样抓握。在本文中，我们介绍了第一个基于学习的框架，有效地生成不同的稳定掌握未知物体。我们的方法引入了两个网络架构，采样，评估和提高把握。本文的主要贡献是：• 变分自动编码器（VAE），可训练用于映射观察对象to a diverse多样set组of grasp把握for the object对象.重要的是，我们的VAE提供了所有可能的功能性抓握的高覆盖率，同时仅产生少量的失败抓握。29012902图2.杯子的预测抓握的可视化。（中间）由我们的方法生成的所有抓握。（右）运动学可行且无碰撞的抓取，由预测分数进行颜色编码。绿色最高，红色最低。• 为了提高VAE样本的精度，我们引入了一个抓取评估器网络，该网络映射一个点云的观察对象和机器人夹具的质量评估的6D夹具姿态。至关重要的是，我们证明了这个网络的梯度可以用来改善抓取样本，例如移动抓取器以避免碰撞或确保抓取器与物体对齐。• 我们证明，我们的方法优于传统的方法，并使机器人拿起17 ob-babies与88%的成功率产生多样的抓取是相当重要的，因为不是所有的抓取对于机器人执行在运动学上都是可行的我们进一步表明，我们的方法产生不同的把握样本集，同时保持高成功率。本文的结构如下。我们首先对比使用深度学习的相关抓取方法，然后解释我们方法的不同组成部分：抓好抽样、评估和细化。最后，我们评估我们的方法在一个真正的机器人平台上，并显示不同的超参数在各种消融研究的效果。2. 相关工作学习6自由度抓取解决机器人抓取问题的主流方法是数据驱动的[2]。虽然早期的方法是基于手工制作的特征向量[27，1，7]，但最近的方法利用卷积架构对原始视觉测量进行操作[13，25，21，19，14]。这些抓取合成方法中的大多数都是通过将抓取表示为图像中的定向矩形来实现的[8]。该3-D 0 F表示将夹持器姿态约束为平行于图像平面。这种代表制的缺点是多方面的：由于它限制了抓握多样性，因此在手臂或任务施加的附加约束下，拾取物体可能是不可能的。在静态图像传感器的情况下，其还导致严重受限的工作空间[19]。我们的方法解决了预测全6自由度预抓取姿势的问题。这是具有挑战性的，因为闭塞影响抓取成功的对象部分Yan等[34]通过包括重建目标对象的几何形状的辅助任务来解决这个问题。预测6-D0 F抓取结果的主要任务然后可以使用不是测量的一部分的类似于我们的评估者网络，Zhou et al.[37]学习抓握评分函数，它们也用于抓握细化。与我们的方法相比，这两种方法[34，37]仅在模拟中进行评估。与我们的抓握细化阶段类似，Lu等人。[17]使用学习的抓取成功模型的梯度来推断最大似然抓取估计。很少有方法将问题表述为回归到单个最佳抓握姿势[28，16]。它们本质上缺乏预测可能抓握的多样化分布的能力。Choi等人[4]对24个预定义方向进行分类，以选择6-DOF预抓取姿势。SO（3）的这种粗略分辨率将必然导致预测抓握的有限多样性。相比之下，抓取点检测方法（GPD）[31，15]使用了更密集的抓取采样：在观测点云中随机采样一点，构造一个达布框架，该框架与估计的表面法线和主曲率的局部方向对齐。尽管这种启发式方法创建了一组非常多样化的候选抓握，但它无法生成沿着诸如杯子、盘子或碗的边缘的薄结构的抓握，因为从噪声测量估计那些表面法线是具有挑战性的。我们的学习掌握采样器不受这种偏见。因此，我们提出的方法找到GPD无法抓住的地方（见第二节）。4.2）。除了使用监督学习之外，抓取也被制定为强化学习问题[9，36]或其近似[14]。所学习的抓取策略比仅描述最终抓取姿势更有表现力。尽管如此，这些方法的作用空间通常是se（2），将多样性限制在自上而下的掌握中。深度学习在3D点云数据上的成功开始得比在RGB图像上的巨大成功要晚得多。在早期，3D数据被表示为3D体素[20]或从2.5深度图像中提取特征[6]，并且2903使用卷积神经网络将它们类似于RGB图像，这通常会导致边际改进。Qi等人。[23，24]介绍了一种新的架构，称为PointNet和PointNet++，能够表示3D数据并有效地提取表示。PointNet的成功导致引入了表示3D数据的网络架构的不同变体[35，30]，显示了3D对象姿态估计，语义分割和部分分割的显着改进[30，24，22，33]。为了估计成功的喘息，抓握的6-D 0 F姿势需要是准确的。操作一个单一的RGB图像不提供所需的准确性，因为输入和输出不在同一域。因此，我们使用3D点云和Point-Net ++ [24]来生成和评估SE（3）中的抓握。变分Autoencoders变分自动编码器[10]（VAE）是深度生成模型的主要类别之一。可以以无监督的方式训练VAE，以最大化训练数据的可能性。它们已被应用于各种任务，如未来预测[12，32]，生成新的视点[11]和对象分割[29]。在这项工作中，我们使用VAE对SE（3）中的一组不同的抓握进行采样。我们模型的整体架构类似于GANs [5]。生成器模块是基于来自潜在空间和观察到的点云X的不同样本的VAE。它生成不同的抓取建议，并且评估网络（鉴别器）基于它们成功的可能性来接受或拒绝generator和pseudo都将对象的3D点云X作为输入的一部分。3. 6-DOF抓取姿势生成我们制定把握姿态生成的过程中产生的机器人手爪的姿态，使任何这些姿态的结果在一个稳定的把握对象的夹具关闭。此外，该过程应该生成最终覆盖物体可以被抓取的所有可能方式的各种姿势集合。机器人夹持器姿态在SE（3）中给出，指定夹持器的3D平移和3D定向。在这里，我们专注于为单个对象生成抓取姿势，由于操纵器的范围和场景中的其他对象而产生的额外约束超出了由于在所有可能的抓取空间中成功抓取的子空间狭窄，抓取姿势中的小扰动可以将成功的抓取转变为失败。为了生成不同的稳定抓握集，我们的方法样本使用变分自动编码器网络进行抓握姿势，然后进行迭代评估和细化过程。我们的方法的输入是机器人应该拾取的对象的点云。具体地说，我们的目标是学习后验分布 P（G|X），其中G表示所有连续抓握的空间，并且X是由相机观察到的对象的部分点云。每个抓取g ∈ G用（R，T）∈SE（3）表示，其中R∈SO（3）和T∈R3是抓取g的旋转和平移. 定义了抓取在对象参考坐标系中，原点为X'，即观察点云的质心它的轴线平行相机框架（见图）。3-a）。成功抓握G的分布可能是复杂和不连续的。例如，一个马克杯的G*内每种模式下，成功抓取的空间是连续的，但不同模式下的抓取可以彼此分离每个对象类别的单独模式总数根据对象的形状和比例而变化。由于G的模式数事先未知，我们建议学习一个生成器模块，使成功抓住g∈G的可能性最大化。由于发生器在训练期间只观察到成功的抓握，因此它也可能产生失败的抓握g∈G−。为了检测和改进这些消极抓握，训练评估模块来预测P（S| g，X），即，抓取成功的概率g和观察点云X。应用于采样抓取，评估模块预测抓取成功，并通过网络传播成功梯度，以生成改进的抓取姿势。可以重复该过程。丢弃保持低于阈值的所有抓握提供了最终的高质量抓握集合。我们的方法的概述如图所示。3-b3.1. 可变抓取采样器抓采样器，如图。 4，是使P（G）最大化的生成模型|X），一组预定义的成功抓握g∈G的可能性。给定一个点云X和一个潜在变量z，采样器是一个确定性函数。一种预测抓握的动作。假定潜空间的概率密度函数P（z）是已知的，并预先选择。在我们的方法中，我们使用P（z）=N（0，I）。给定点云X，通过从P（z）采样不同的z来生成不同的抓握。产生抓握的可能性可写为：∫P（G|X）=P（G |X，z; Θ）P（z）dz（1）优化方程（1）对于每一个正抓取g∈G，需要对潜在空间的所有值进行积分，这是难以处理的。为了使Eq。（1）易处理的，编码器Q（z |g）映射每对点云X，以及将g抓到潜在空间z中的一个小子空间。给定2904我们的方法图3.（左）相对于对象点云的质心X估计抓握。抓取坐标系的轴平行于相机的轴（右）使用平面拟合从深度图像提取对象点云X抓取采样器网络获取点云并提出不同的抓取。评估器网络基于对象点云和所提出的抓握来评估抓握。利用评估网络采样的z=0，解码器重构抓取g。在训练期间，编码器和解码器被优化以最小化地面实况抓取g∈G与重构抓取g之间的重构损失L（g，g）。因此，分布Q（·|·），并且正态分布N（0，I）被最小化以确保具有单位方差的正态分布潜在空间。损失函数定义如下：LΣ=zQ， gGL（g，g）−αDKL[Q（z|X，g），N（0，I）]（二）图4.在训练期间，编码器将每个抓取映射到潜在空间中的点z潜在空间的分布朝着正态分布最小化。解码器把点云当量（2）使用随机梯度下降进行优化对于每个小批次，针对从随机视点观察的对象对点云X进行采样对于采样点使用分层采样从地面实况抓取G的集合中对云X、抓取g为了组合定向和平移损失，我们将重建损失定义如下：和潜在值，并重建6D抓取，在这里可视化就像抓钩一样。变量抓取g，使得它可以由解码器重构。3.2. 抓握姿势评价1ΣL（g，g）=||T（g;p）−T（g;p）||1N（三）抓取采样器训练连续后验分布P（G |X，z）仅使用正抓握。因此，在本发明中，其中T（·;p）是一组预定义的机器人夹持器上的点P。在训练过程中，解码器学习解码从N（0，I）采样的潜在值z并生成抓取，而编码器学习输出z，使得它包含足够的信息来重构抓取姿势，同时保持正常分布。在推理期间，编码器Q被移除并且是潜在的。值从N（0，I）中采样。编码器和解码器都基于Point- Net++ [24]架构。在该架构中，每个点具有3D坐标和特征向量。基于每个点的特征和点相对于彼此的3D关系来计算每个层每个输入点x∈X的特征被连接到g=[R，T]。在解码器中，每个点特征都是连贯的，用潜在变量z表示。编码器学习压缩点云X的相关信息，它可能包含处于模式之间的失败抓取的分布。这些过渡性抓握和其他假阳性需要被识别和修剪掉。为此，我们需要一个抓取评估网络，该网络分配成功概率P（S|X），每一个都要把握住。该网络需要推理相对于观察到的点云的抓取X，但它也必须能够外推到物体的未观察部分。其他方法学习仅基于对象的局部观察部分对抓握进行分类[31，19]。在实践中，观察到的对象的点云具有诸如缺失或噪声深度值的缺陷为了缓解这个问题，先前的方法诉诸于使用高质量深度传感器[19]或使用多个视图[31]，这限制了系统在受控环境之外的部署。在这项工作中，我们只使用对象的不完美的观察点云X对每个抓取进行抓握姿势的成功取决于2905对物体的抓握评估器网络的输入是点云X和抓取g。与Grasp Sampler类似，我们使用PointNet [23]架构作为Grasp Evaluator。有多种方法可以对抓握进行分类。第一种简单的方法是将抓取g对每个点x∈X的特征的6D姿态在第一层。我们的实验表明，这样的代表-怨恨导致抓取分类的准确性差相反，我们建议以一种与物体点云更紧密联系的方式来表示抓取g：我们通过根据6D抓取姿势g渲染的点云Xg来近似机器人抓手。物体点云X和夹持器点云Xg通过使用指示点属于物体还是属于夹持器的额外二进制特征被组合成单个点云在PointNet体系结构中，每个点的要素是点本身及其相邻点的要素加上相对空间点的关系使用统一的点云XXg使得使用所有相关信息变得很自然，抓取姿态g和对象点云X，用于对抓取进行分类。利用交叉熵损失对抓取评价器进行优化L赋值器=−（ylog（s）+（1−y）log（1−s））（4）其中，y是指示抓取是否成功的抓取的真实二进制标记，并且s是评估器预测的成功概率。为了训练一个强大的评估器，模型需要用积极和消极的抓握来训练。由于所有可能的6D抓取姿势的空间组合起来很大，因此不可能对所有负抓取进行采样。相反，我们做硬负挖掘来采样负抓取。硬负抓握G−的集合被定义为具有与正抓握相似的姿势但与物体碰撞或距离物体太远而无法抓握物体的抓握更正式地，G−被定义为：图5.迭代抓取优化：（左）对象的图像。（右）根据优化迭代着色的抓取深蓝色是最初从VAE生成的抓握，黄色是最终的精细抓握。请注意，即使在初始碗抓取（蓝色）的夹持器手指之间没有点，评估网络也能够将夹持器推到成功的抓取姿势。评估网络表示基于点云X和抓取g的成功s的可微函数。可以通过取成功相对于抓取变换的导数来计算导致成功概率最大提高的细化变换：2008年偏导数λS/λ g为夹持器点云Xg中的每个点提供变换，以便增加成功的概率由于导数是相对于夹持器上的每个点独立计算的，因此可能导致Xg的非刚性变换。为了加强刚性约束，变换的夹持器点云Xg被定义为在欧拉角Rg=（αg，βg，γg）和平移Tg中定义的抓取方向的函数。使用链式法则，计算Blog如下：G−={ g− | ∃g ∈G∗：L（g，g−<（5）Sg==η×ΔS×T（g;p）（六）其中L（·，·）在等式中定义。（三）、在训练过程中，g−从一组预先生成的负抓握中采样，并通过随机扰动正抓握来生成以下网格：夹持器或者与物体网格碰撞或者将夹持器网格移动远离物体。3.3. 迭代抓取姿势优化尽管评估网络拒绝不合理的抓握，但大部分被拒绝的抓握可能接近成功的抓握。这种洞察力可以通过搜索将不成功的抓握变成成功抓握的变换来利用。更正式地说，我们正在寻找对于提高成功概率的精炼转化过程P（s= 1|g+g）>P（s= 1|g）。g由于偏导数λ S/λ g仅是局部邻域中的有效近似，因此我们使用超参数η来限制每一步的更新幅度在实践中，我们以这样的方式选择η，使得抓取的最大平移更新不超过1。图5示出了在不同迭代下估计的抓握的细化。4. 实验为了生成成功抓握的参考集，我们使用物理模拟FlexX[18]，它提供了对任意物体形状的抓握的逼真模拟。对候选抓握进行采样2906图6.我们使用物理模拟器生成的训练数据物体周围的彩色点描绘了成功抓住碗（左）和盒子（右）。对于每个连续抓取子空间，示出了示例性夹持器姿态。基于对象几何形状。我们在物体网格表面上随机采样点，并对齐夹具的z轴（见图1）。3-a）与表面法线。夹持器和物体表面之间的距离在零和夹持器的手指长度之间围绕z轴的取向也从均匀分布绘制。我们只模拟没有碰撞的抓握，其手指之间的闭合体积与物体相交。在ShapeNet中，我们总共使用了来自六个类别的206个对象[3]：盒子和圆柱体（随机生成），以及碗，瓶子和杯子。总共对10，816，720次可识别抓握进行了采样，其中我们模拟了 7 ， 074 ， 038 次（65.4%），即，通过非空关闭容积测试的该模拟由自由浮动的平行钳口夹持器和无重力的自由浮动物体组成（类似于[37]）。表面摩擦力和物体密度保持恒定。在关闭它的手指夹持器执行一个预定义的摇动运动。如果物体保持在两个手指之间，则抓握被标记为成功。总体而言，我们生成了2，104，894次成功抓握（19.4%）。所得到的正抓握标签密集分布，如图11中的示例所示六、训练抓取生成器和评估器网络都使用PointNet++[24]，并且具有类似的架构。这两个模块都由三个集合抽象层组成：由完全连接的层组成。生成器网络的每批训练数据由来自随机视图的对象的渲染和64个抓握组成，所述抓握使用分层采样进行采样以确保采样的抓握具有足够的多样性。KL-发散损失的权重（方程式中的α）（2）设为0。01.评估器网络的每批训练数据包括30%的正抓握、30%的负抓握和40%的硬负抓握。从扰动的正抓握中选择硬负抓握通过施加±0. 每个轴6弧度，平移±3cm。这两个模型都是用Adam opti训练的mizer使用0的学习率。0001所有抓取都是在模拟中生成的，没有使用真实数据来训练任何模型（参见第4）.评估我们使用两个指标来定量评估抓取方法：成功率和覆盖率。汇率成功率是所有预测抓握中成功抓握的比率。该度量仅考虑执行的抓握，并且不包含关于其他抓握的任何信息。仅预测一次抓取不适合3D抓取，因为预测的抓取可能导致机器人与环境中的其他物体碰撞，或者可能没有任何可能的有效机器人关节配置可以达到预测的抓取。为了实现可执行的成功抓取，我们需要从不同的平移和方向生成一组不同的抓取，以检查运动学可行性和碰撞避免。因此，我们引入了覆盖率，它捕获了抓握的多样性，并测量了如何正抓握的空间G′被生成的抓握覆盖正抓取g∈G<$被预测抓取集G<$覆盖，如果存在一个抓取g<$∈G<$且距离抓取g至多为2。积极的把握，在目标框架中类似平移，具有类似的方向。因此，我们选择使用抓握平移的距离作为评估抓握是否盖或不盖。由于抓持是在SE（3）中定义的，G是不可数无限的。结果，G通过在生成数据的同时采样抓取成功率和覆盖率类似于二进制分类中的精确度和召回率。与查准率-查全率曲线类似，我们使用成功率和覆盖率曲线来分析和评估我们的方法。我们使用成功覆盖率的AUC进行消融研究和分析。4.1. 分析和消融研究我们使用与生成训练数据（第4节）相同的物理模拟定量评估不同参数和模块的影响。对于消融研究，我们为10个不同的对象生成了86个对象点云观测结果，这些对象在训练期间被保留。对于每个点云，在10次迭代中对200个潜在值进行采样和细化，导致每个视点2200次抓取，总共182，600次抓取。潜在空间的维度在决定潜在空间的维度时存在固有的张力，这会影响生成的抓握的质量潜在的空间需要有足够的容量，以允许VAE重新构建抓握。同时，高维潜在空间会导致过度拟合，需要覆盖更多的训练数据。它还恶化了推理期间采样抓取的质量，特别是当推理期间的采样潜在值在训练期间未被生成器网络看到时。为了分析这种影响，我们评估了潜在空间维数增加的生成器网络。图7显示了在所有细化迭代中生成的抓取的成功覆盖曲线。如图所示，一个维度-2907图7.潜在空间维度对抓取成功率和覆盖范围的影响方框中的数字提供AUC值。图8.细化步骤数对提高生成的抓握的准确性和覆盖率的影响。一的属性具有最小的AUC，因为潜在空间没有足够的容量。虽然3维和4维潜在空间在训练数据上导致稍微更好的L检验，但是它们在推理期间表现更差，因为VAE在推理期间不能密集地覆盖潜在空间。训练鉴于这些结果，我们选择一个二维潜在空间进行所有后续评估。细化对抓握质量的影响虽然抓握细化增加了基于评估器网络的成功概率，但这并不一定意味着细化的抓握在测试时间内成功为了分析每个细化步骤引起的实际改进，我们在模拟中评估抓握图图8显示了在每次细化迭代中计算的抓取的成功覆盖曲线。如图所示，不仅生成的抓取的成功率增加，覆盖率也增加也这是因为当抓握得到改善时，它们更接近G中的采样正抓握。曲线的AUC在第10次优化迭代后达到平台。采样抓取对覆盖率的影响在前面的章节中，我们使用200个随机潜在值进行了消融研究，因为这是适合GPU内存的最大批量大小，并且与我们用于机器人实验的设置相同。因此，图中的覆盖率。即使经过10个精制步骤，8也小于0.5。为了研究采样抓取的数量图9. 左：采样抓握次数对覆盖率的影响。右：VAE采样器与几何采样器影响覆盖范围，在先前消融研究中使用的相同点云上，以10个不同批次对2000次抓握进行采样图9示出了更多的样本如何增加覆盖率。学习抓握采样器vs.几何抓取采样器为了验证使用VAE进行抓取采样的有效性，我们使用了与用于生成训练抓取的相同的几何采样方法。基线采样器从点云估计表面法线，并将随机间隔和随机平面旋转应用于抓握，评估器获取生成的抓握，评估并细化它们。图9显示，潜在大小为2的VAE在成功率和覆盖率方面都明显优于非学习采样方案曲面法线很少在边缘或薄结构周围生成任何抓握。此外，这种方法不会外推到缺失的深度和遮挡部分。4.2. 机器人实验生成的抓取的最终测试是在现实世界中执行它们，并处理不完美的感知，机器人关节限制，控制错误和难以建模的物理现象，如摩擦我们想证明：（1）我们的方法可以扩展到现实世界，尽管纯粹是在模拟中训练;（2）生成的抓取分布足够多样化，即使在丢弃那些违反机器人运动学和碰撞约束的抓取之后也能找到成功的抓取;（3）与最先进的6- DOF抓取规划器[ 31 ]（GPD）相比，我们的方法的多样化抓取采样导致更高的成功率。所有实验均使用7自由度Franka Panda机械手完成，其平行钳口夹持器上安装有Intel RealSense D415摄像头我们选择了一组常用的物体，这些物体在视觉上和物理上都具有挑战性。物体的重量在42克（胡椒瓶）和618克（芥末瓶）之间硬件设置和对象测试集如图所示。10个。VAE+Evaluator的前向传递需要0.04秒，使用NVIDIA Titan XP时，在批量大小为200个潜在值时，每次细化需要0.3秒。2908框气缸碗马克杯平均成功率成功率六自由度GraspNet百分之八十三百分之八十九百分百百分之八十六百分之九十百分之八十八GPD [31]百分之五十百分之七十八百分之七十八占6%百分之五十二百分之四十七表1.在现实世界的实验中掌握结果图10.每个对象都在三个不同的姿势上进行评估。这些物体的3D模型是未知的。训练数据由随机尺度的杯子、碗、盒子、圆筒和瓶子组成。请参阅附录中的抓取试验视频。协议每个对象被放置在机器人前面的桌子上的三个不同的稳定姿势。机器人如果机器人能够将物体举起10cm而不掉落，则认为抓取成功。我们过滤测量的点云，删除工作台平面并对剩余的点进行聚类[26]。这个前对象点云是我们的方法和GPD的输入。这两种方法都返回一个抓取评分列表。我们使用运动规划器来检查每个抓取姿势的无碰撞路径，并执行得分最高的路径。如果在返回的集合中没有抓取可以执行，我们认为试验失败。每种方法总共进行了51次试验。结果表1显示，我们的方法在所有对象的成功率上优于GPD [31]。原因之一是，我们的方法产生不同的把握，这有利于找到运动学上可行的。相比之下，GPD不会产生许多不同的抓握，这有时会导致无法找到运动学上可行的抓握的情况。杯子对于GPD来说特别困难，因为它不会从边缘产生任何抓握（参见图11）。5. 结论在这项工作中，我们引入了6-DOF GraspNet，用于生成对未知物体的多种抓取我们的方法由一个经过训练的VAE组成，该VAE对物体的各种抓握进行虽然VAE能够捕获成功抓取姿势的复杂分布，但它不能完全提供高度鲁棒抓取生成所需的精度到图11.使用200个样本，通过我们的方法与GPD [31]（左）使用6-DOF GraspNet在马克杯上生成抓握（右）GPD生成的抓取。请注意，我们的方法沿着马克杯边缘（以及其他视图中的手柄）生成了更多的样本。物体将滑出夹持器以进行侧面夹持。为了克服这一限制，我们还引入了一个抓取评估器网络，它可以评估抓取质量，并可以在迭代过程中改进抓取据我们所知，既没有一个学习掌握采样器，也没有一个基于梯度的细化过程之前已经介绍。我们的模型的训练是使用由物理模拟器生成的因此，我们的模型可以扩展到大型对象集，而不需要收集现实世界中的数据。我们证明了我们的方法可以通过在真实机器人平台和机载RGB-D相机上部署该方法来将具有未知3D模型的对象转移到现实世界。我们对17个未知3D模型的物体进行了机器人实验，并在3D抓取方面取得了最先进的结果我们还通过真实物理模拟器中的消融研究，对所生成的抓握成功率和覆盖范围这种方法在计算机视觉和机器人技术中开辟了许多有趣的方向。在我们的方法中，所有的潜在值被均匀采样，然后根据碰撞检查和运动学上可行的解决方案来去除抓取潜在的扩展是以不仅考虑感兴趣的对象而且还考虑周围对象的方式训练采样器或评估器，以直接避免生成碰撞或不可行的抓握。其他有趣的方向是使用评估器，不仅要完善采样的把握，但提供实时反馈指导的机械手接近一个对象。我们的实验提供的证据表明，我们的基于梯度的方法可以成功地移动一个机械手越来越接近成功的把握。2909引用[1] 珍妮特·博格和丹妮卡·克拉吉奇学习掌握点与形状上下文。Robotics and Autonomous Systems，58（4）：362-377，2010. 2[2] Jeannette Bohg 、 Antonio Morales 、 Tamim Asfour 和Danica Kragic 。数据驱动的抓握综合调查。 IEEETransactions on Robotics，30（2）：289-309，2014。2[3] AngelXChang ， ThomasFunkhouser ， LeonidasGuibas，Pat Hanrahan，Qixing Huang，Zimming Li，Silvio Savarese ， Manolis Savva ， Shuran Song ， HaoSu，et al. Shapenet：一个信息丰富的3D模型存储库。arXiv预印本arXiv：1512.03012，2015。6[4] Changhyun Choi，Wilko Schwarting，Joseph DelPreto，and Daniela Rus.机器人软手的物体抓取学习。IEEERobotics and Automation Letters，3（3）：2370-2377，2018。2[5] Ian J. Goodfellow，Jean Pouget-Abadie，Mehdi Mirza，Bing Xu，David Warde-Farley，Sherjil Ozair，Aaron C.Courville和Yoshua Bengio。生成对抗网络。神经信息处理系统（NeurIPS），2014年。3[6] Saurabh Gupta ， Ross Girshick ， Pablo Arbelaez ， andJitendra Malik.从RGB-D图像中学习丰富的特征用于对象检测和分割。2014. 2[7] 亚历山大·赫尔佐格，彼得·帕斯特，米纳尔·卡拉克里希南，卢-多维奇·里盖蒂，塔米姆·阿斯福尔和斯特凡·沙尔.基于模板的抓取选择学习。在2012年IEEE机器人和自动化国际会议上，第2379IEEE，2012。2[8] Yun Jiang，Stephen Moseson，and Ashutosh Saxena.从rgbd图像有效抓取：使用新的矩形表示进行学习。见ICRA，第3304-3311页。IEEE，2011年。2[9] Dmitry Kalashnikov， Alex Irpan， Peter Pastor，JulianIbarz，Alexander Herzog，Eric Jang，Deirdre Quillen，EthanHolly，MrinalKalakrishnan，VincentVanhoucke，and Sergey Levine.基于视觉的机器人操作的可扩展深度强化学习。在 Aude Billard 、 AncaDragan、Jan Peters和Jun Morimoto编辑的Proceedings ofThe 2nd Conference on Robot Learning，Proceedings ofMachine Learning Research第87卷，第651PMLR，2018年10月29日至31日。2[10] Diederik P. Kingma和Max Welling。自动编码变分贝叶斯。 2014 年国际学习表征会议（ InternationalConference on Learning Representations，ICLR）3[11] 放大图片作者：William F. Whitney，Pushmeet Kohli，and Josh Tenenbaum.深度卷积逆图网络。In C. Cortes，N. D. Lawrence，D. D.李，M。Sugiyama和R. Garnett，editors ， Advances in Neural Information ProcessingSystems 28. 2015. 3[12] 放大图片作者： Namhoon Lee ，Wongun Choi， PaulVernaza ， Christopher B. 作者： Philip H.S. Torr 和Manmohan Chandraker。欲望：在具有交互代理的动态场景中的遥远未来预测。在IEEE计算机视觉和模式识别会议（CVPR），2017年。3[13] Ian Lenz，Honglak Lee，和Ashutosh Saxena.用于检测机器人抓取的深度 The International Journal of RoboticsResearch，34（4-5）：705-724，2015。22910[14] 谢尔盖·莱文，彼得·帕斯托·桑佩德罗，亚历克斯·克里热夫斯基，朱利安·伊巴茨和迪尔德丽·奎伦.通过深度学习和大规模数据收集来学习机器人抓取的手眼2017. 2[15] 梁红卓，马晓建，李爽，MichaelG？ rner，唐松，方斌，孙富春，张建伟。Pointnetgpd：从点集检测抓取配置ICRA，2019年。一、二[16] Min Liu ， Zherong Pan ， Kai Xu ， KanishkaGanguly，and Dinesh Manocha.基于神经网络的高自由度手爪抓取姿态生成。arXiv电子版，第arXiv：1903.00425页，2019年3月。2[17] QingkaiLu ， KautilyaChenna ， BalakumarSundaralingam，and Tucker Hermans.在学习的深度网络中规划多指抓握作为概率推理。arXiv预印本arXiv：1804.03289，2018。2[18] Macklin ， MatthiasMüller ， NuttapongChentanez 和Tae-Yong Kim。实时应用的统一粒子物理学。ACMTransactions on Graphics （ TOG ）， 33 （ 4 ）：153，2014。5[19] Jeffrey Mahler ， Jacky Liang ， Sherdil Niyaz ，Michael Laskey ， Richard Doan ， Xinyu Liu ， JuanAparicio Ojea，and Ken Goldberg.Dex-net 2.0：通过深度学习，利用合成点云和分析抓取指标规划稳健抓取。2017年。一、二、四[20] Daniel Maturana和Sebastian Scherer。Voxnet：用于实时对象识别的3D卷积神经网络。IEEE/RSJ智能机器人和系统，第922 - 928页，2015年9月。2[21] L. Pinto和A.古普塔。超大规模自我监督：从5万次尝试和700个机器人小时中学习抓取。2016年IEEE机器人与自动化国际会议（ICRA），第3406-3413页，2016年5月。一、二[22] Charles R Qi，Wei Liu，Chenxia Wu，Hao Su，andLeonidas J Guibas.从rgb- d数据中检测三维物体的平截体点网。计算机视觉与模式识别（CVPR），2018年。3[23] Charles R Qi，Hao Su，Kaichun Mo，and Leonidas JGuibas.Pointnet：对点集进行深度学习，用于3D分类和分割。计算机视觉与模式识别（CVPR），2016年。三、五[24] Charles R Qi ， Li Yi ， Hao Su ， and Leonidas JGuibas. Point- net++：点集上的深度层次特征学习度量空间神经信息处理系统（NeurIPS），2017年。三、四、六[25] Joseph Redmon和Anelia Angelova使用卷积神经网络的实时抓取检测。2015年IEEE机器人与自动化国际会议（ICRA），第1316-1322页。IEEE，2015年。2[26] R. B. Rusu和S.表兄弟点云库（Point Cloud Library，PCL）2011. 8[27] Ashutosh Saxena，Lawson LS Wong，and Andrew YNg.利用部分形状信息学习抓握策略。在AAAI，第3卷，第1491-1494页，2008中。2[28] Phil ippSchmidt，Nik olausVakamp，Mirk oW aüchter，andTamim Asfour.使用基于深度图像的深度卷积神经网络在29112018 IEEE机器人与自动化国际会议（ICRA），第6831-6838页。IEEE，2018年。2[29] Kihyuk Sohn，Honglak Lee，and Xinchen Yan.使用深度条件生成模型学习结构化输出表示。在神经信息处理系统的进展28。2015. 3[30] Hang Su ， Varun Jampani ， Deqing Sun ， SubhransuMaji，Evangelos Kalogerakis，Ming-Hsuan Yang，andJan Kautz. SPLATNet：用于点云处理的稀疏网格网络。在IEEE计算机视觉和模式识别会议上，第2530-2539页，2018年。3[31] Andreas ten Pas，Marcus Gualtieri，Kate Saenko，andRobert Platt.点云中的抓取姿态检测国际机器人研究杂志，36（13-14）：1455-1473，2017。一、二、四、七、八[32] Jacob Walke

下载后可阅读完整内容，剩余1页未读，立即下载