没有合适的资源?快使用搜索试试~ 我知道了~
认知机器人2(2022)73从2D到3D尹志云,李扬州大学信息工程学院,扬州,中国aRT i cL e i nf o关键词:机器人抓取抓取检测并联夹持器6自由度a b sTR a cT随着机器人在生活和生产中的广泛应用,机器人抓取也在不断发展。但在实际应用中,一些外部环境因素和物体本身的因素对抓取检测的准确性都有影响。那里有许多抓取检测的分类方法。本文采用并联夹持器作为抓取末端进行研究。针对机器人抓取的角度问题,本文综述了从二维图像到三维空间的抓取检测的研究现状。根据这两种方法各自的应用和优缺点,分析了它们的发展趋势。同时,介绍了几种常用的抓取数据集,并进行了比较。1. 介绍近年来,机器人在生产和生活中得到了广泛的应用,并发挥着越来越重要的作用,而作为机器人基础技术的抓取技术也在不断进步,推动着机器人技术的发展。抓取检测是指结合图像信息和点云信息,通过相关算法直接或间接生成能够完成抓取任务的机械手末端固定件的位姿[1]。机器人抓取检测技术可以分为两类,一类是基于物理约束的分析方法,另一类是基于先验信息的经验方法。分析法是指根据机械手的各种参数对对象模型进行分析,根据设计力封闭条件的约束,按照一定的选择标准,并面向任务输出合适的抓取姿态。实证法是利用以往成功的抓取经验,通过不同的方法检测抓取姿态并判断其合理性。根据物体的特征,利用相似度对物体的位姿进行分类和估计,达到抓取的目的此外,抓取检测任务需要考虑很多因素,如物体的物理性质、抓取终端类型等,因此,不同的抓取端往往用于不同的任务场景,最典型的是吸盘式和平行双指抓取。其中,应用于并联夹持器的抓取检测方法得到了广泛的研究,它的灵活性本装置的主要特点是采用夹持器两端设计,是平行的。由于它具有成本低、维护简单方便等重要优点,因此应用广泛,根据抓取方法和应用场合的不同,可分为二维图像抓取法和六自由度空间抓取法,如图所示。1.一、2D图像捕获方法仅限于从一个方向捕获,通常直接使用RGB,深度图像和RGB-D信息进行检测[42]。早期对物体抓取位置检测的研究都是针对抓取点的检测,一般是针对具有一定形状的物体。例如,在2002年,Paiter[2]使用k-means算法来检测简单物体的抓取点同年,Morelas et al.[3]使用启发式算法来抓取和检测物体,*通讯作者。E-mail地址:1719849948@qq.com(Z. Yin),yzyjli@yzu.edu.cn(Y. Li)。https://doi.org/10.1016/j.cogr.2022.03.002接收日期:2022年2月15日;接收日期:2022年3月15日;接受日期:2022年3月17日2022年3月23日在线提供2667-2413/© 2022作者。Elsevier B. V.代表KeAi Communications Co. Ltd.提供的出版服务。这是CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)可在ScienceDirect上获得目录列表认知机器人期刊首页:http://www.keaipublishing.com/en/journals/cognitive-robotics/Z. Yin和Y. 李认知机器人2(2022)7374Fig. 1. 根据抓取方法和应用场合的不同,可分为二维图像抓取法和六自由度空间抓取法。某些形状。这样的抓取点检测方法只能对具有形状特征的物体表现出较好的抓取效果2011年,Jiang等人[4]提出了图像平面上抓取矩形的五维表示,以及从图像中预测给定物体的抓取矩形的算法。这个矩阵X由一个五维向量(,)���������表示,其中和分别表示图像空间中抓取点的横坐标和纵坐标。���表示平行夹持器的两个手指之间的距离,���由于使用了平行夹持器,该量在系统中也是恒定的。角代表抓取物体这样,抓取和检测整个物体的问题就转化为寻找图像中的五个向量的问题深度学习的发展为以前方法的泛化问题提供了解决方案。LeNet[5]是第一代卷积神经网络,包含五个卷积层,并引入了池化层的概念。随着计算能力的提高,一个划时代的网络AlexNet[6]于2012年诞生。AlexNet是LeNet的增强版本,它包含五个卷积层和三个全连接层,引入了激活函数ReLU,并使用dropout方法进行拟合。此外,卷积神经网络还用于图像分类、目标分割、目标位置检测等领域,发挥了重要作用。后来,Lenz et al.[7]康奈尔大学的研究人员首次将深度学习应用于机器人抓取技术,并提出了一种基于卷积神经网络的机器人抓取检测方法,该方法可以满足实时性能要求。如果机械臂只是上下伸直或从一个角度抓取,则可以满足2D图像抓取,但如果要从多个角度抓取,则需要6自由度空间抓取。6-DOF抓取意味着爬虫可以在三维空间中从各个角度抓取物体。随着深度相机技术的发展,基于点云或深度图像的六自由度抓取逐渐成为机器人方向的研究热点在6-DOF抓取方法中,大部分的研究都是针对被抓取物体的已知情况,因此这类问题往往转化为6D物体的姿态估计问题[8]。这里,6D指的是6个自由度,表示空间中的3个位移度和3个旋转度,它们一起被称为姿态。位姿是一个相对的概念,是指两个坐标系之间的位移和旋转变换为了估计物体的6D位姿,通常需要进行从世界坐标系到摄像机坐标系的旋转位移变换(RT)例如,基于点对应的方法,有人提出了一种PIXel-wise voting network(PVNet)[9],对2D关键点进行PIXel级别的预测该算法用于解决严重遮挡情况下单幅RGB图像的六自由度姿态估计创建Truncation Linemod数据集,以验证算法对截断和遮挡的稳健性与刚才提到的基于RGB的PVNet方法相比,PVN 3D[10]提出了一种基于关键点的数据驱动方法,用于从单个RGB-D图像进行可靠的6-DOF对象姿态估计。常用的流水线是2D关键点加PSTK算法,而所提出的3D关键点加最小二乘拟合的方法对于未知物体也提出了几种方法[11例如,6-DOF GraspNet[14]使用变分自动编码器对抓取建议进行采样,并使用抓取评估器模型来优化样本的抓取配置。也有基于深度学习的方法,不需要6D姿势进行抓取检测。通过深度卷积网络,可以直接或间接地回归抓取配置与其他同类文献相比,本文主要有以下几个贡献:(1)本文主要从 从二维和三维机器人抓取的角度做了详细的介绍(2)总结性的评价分析了两种机器人抓取技术的优缺点以及未来的展望是如何的(3)针对本文所提到的数据集进行了简要的说明。Z. Yin和Y. 李认知机器人2(2022)73752. 2D图像捕获检测2D图像捕获是指将目标对象放置在水平工作台上,从一个方向捕获。其抓取检测的目的是输入感知数据和输出抓取配置。根据所使用的数据,它可以分为以下三类:基于RGB,基于深度图和基于RGB-D。2.1. 基于RGB基于RGB图像的方法实际上是指以RGB图像作为输入数据,实现复杂场景下目标物体的位姿估计。根据发展历史,基于RGB的方法可以分为经典方法和深度学习方法。其中,经典的方法主要是基于模板匹配和关键特征点两种方法。在经典的基于模板的方法[15]中,每个对象都与模板相匹配,然后扫描匹配测试以找到姿势。该方法的优点是能更好地响应无纹理的目标。根据从不同角度采集的已知三维模型的模板与输入图像进行匹配,匹配度最高的为估计结果,解决了因缺少纹理而无法进行特征设计的情况但缺点是在杂波遮挡目标物体或光照的情况下,会使匹配度过低,导致估计失败。经典的基于特征点的方法依赖于检测和匹配关键点和已知的对象模型。它主要是基于手工设计的局部特征进行关键点的检测和匹配,与创建的3D模型上的特征点进行匹配,然后建立3D-2D点对应关系,再通过透视变换恢复6D位姿随着深度学习技术的发展,Lenz et al.[19]来自康奈尔大学的研究证明,2D图像上的五维抓取表示可以投影到3D空间,并使用深度学习算法实现平面抓取检测后来,Lenz等人[7]提出了一种基于卷积神经网络的精确实时抓取检测方法,这是深度学习首次应用于机器人抓取技术。抓取方法不使用普通的滑动窗口或区域选择技术,而仅使用单阶段回归来寻找可抓取的周围检测框架。该网络不仅可以对物体进行分类,而且可以找出可抓取部分的检测矩形。随着时间的推移,出现了几种基于神经网络的二维关键点检测方法[45它们直接操作RGB图像[20,21],与遮挡等困难相比,它们的性能得到了改善。最近,提出了一种新的深度卷积网络结构[22],它通过引入新的缺失量和使用抓取质量评估来改进抓取回归。此外,他们还发布了Jcash+数据集,这是Jcash数据集的扩展,允许在多个对象被放置在可变装饰上的模拟场景中评估抓取检测模型。JPEG4+是通过物理仿真创建的,允许在完全可复制的条件下进行测试。实验结果表明,本文提出的抓取检测方法优于JSTOS数据集和JSTOS+上已有的抓取检测方法.由于现有的抓取方法主要是从物体的质心抓取和沿物体的长轴抓取,这种方式往往无法抓取形状复杂的物体。因此,Vohra等人[23]提出了一种新的用于机器人拾取和定位的实时目标抓取姿态估计策略。该方法在点云中估计目标轮廓,并在图像平面上预测抓取姿态和目标骨架。测试对象主要包括球形容器、网球,甚至是形状复杂的物体,如鼓风机和其他非凸形物体。实验结果表明,该算法对复杂形状物体的抓取实验证明,该抓取技术可以在两个以下的条件下获得良好的抓取效果条件:对象被清楚地放置并且对象被放置在密集簇中由于神经网络训练中的拟合现象,在不可预测的环境中很容易出现预测结果不佳的情况。因此,提出了一种两阶段生成式鲁棒推理和感知方法[24],以探索生成式对抗环境中的对象识别和姿态估计。如果是在物体重叠的场景中,需要考虑抓取器与物体之间的关联,因此在实际抓取过程中是一个巨大的挑战。在这方面,Zhang等人。[25]提出了一种基于感兴趣区域(ROI)的机器人抓取检测算法(ROI-GD),该算法使用感兴趣区域中的特征来检测抓取,而不是整个场景。该算法主要分为两个阶段。第一个第一阶段是在输入图像中提供ROI,第二阶段是基于ROI特征抓取检测器。此外,为了在多目标场景下训练该算法,构建了一个多目标抓取数据集,该数据集比视觉操作关系数据集(VMRD)大得多。实验结果表明,该算法在Cornell抓取数据集和Joshua抓取数据集上的性能与抓取检测算法相当。虽然只有RGB图像信息可以完成目标物体的姿态估计和捕获,但如果目标物体没有纹理信息或光线太亮,则识别成功率会降低,无法估计目标物体的姿态信息,或者识别错误会增加,导致捕获失败。2.2. 基于深度图在3D计算机图形学中,深度图是一个图像或图像通道,它包含了与视点的场景对象的表面的距离有关的信息其中,深度图类似于灰度图像,不同之处在于每个pixel值是从传感器到对象的实际基于深度图的方法是指利用深度相机获取深度图像信息,实现复杂场景中目标物体的位姿估计。实际上,该方法是基于深度图构建抓取质量数据集,并训练抓取质量再评估网络。在线使用时,采集当前视角下的深度图,对目标物体对应的深度图进行分段,生成数百个候选抓取位置,Z. Yin和Y. 李认知机器人2(2022)7376深度图,得到数百个抓取位置下的深度图。每一个都有一个抓取质量,质量最高的一个被选中进行抓取。来自加利福尼亚大学的Mahler等人[26]基于深度图像进行对象边缘检测,然后在对象边缘上随机采样点对以形成抓取候选帧。然后根据抓取候选帧对深度其提出的一种抓取质量卷积神经网络(GQ-CNN)作为输入,预测抓取是否成功,最后抓取,通过排序将抓取图像按角度和图像特征耦合在一起,减少了卷积神经网络对不同角度抓取特征的学习需求,从而降低了学习难度,提高了网络性能。该算法的输入为深度图,输出为平面抓取表示,即坐标点和抓取角度,然后将平行板抓取器开到最大,垂直抓取。该算法主要包括两个部分:采样和抓取候选和抓取质量评价。采样抓取配置:从给定深度图中采样多个候选的抓取配置。抓取质量评估:评估上一步中每个抓取配置的质量,并输出最高质量的抓取配置。为了为了训练抓取质量卷积神经网络(GQ-CNN),研究人员使用Dex-Net 1.0中的数千个3D模型在桌子上随机摆姿势,生成包含670万个样本的Dex-Net 2.0数据集。鲁棒抓取规划(RGP)的采样复杂性得到了很大的改善。为了连接这两个阶段,神经网络的输入不应该是传统的深度图,而是经过精心设计和剪裁的深度图。整个算法的最大优点是突破了传统的端到端抓取检测,直接预测最优抓取构型。实验结果表明,该模型能根据深度图像和爬行器在表面上的位置、角度和高度快速地将抓取行为分类为鲁棒抓取行为.2.3. 基于RGB-D由于深度相机的出现,已经衍生出许多基于RGB-D图像姿态估计的方法。这些方法基本上与RGB方法相同,但具有更多的通道信息。实际上,RGB-D图像被作为网络的输入,深度图被转换为点云图。使用迭代最近点(ICP)算法将结果与目标3D点云模型匹配虽然深度学习的发展促进了机器人抓取技术的发展,但Kumra等人[27]提出了一种新的多模式机器人抓取检测系统,因为它没有被广泛使用。该系统通过场景中的RGB-D图像预测平行平板机器人抓取新物体的最佳抓取姿态该模型使用深度卷积神经网络从场景中提取特征,然后使用浅层卷积神经网络来预测感兴趣对象的获取配置。他们的多模态模型改进了Cornell grasp数据集的最新性能,并以实时速度运行此外,Chu et al.[28]提出了一种深度学习架构来预测机器人操作的抓取位置。它考虑了一个或多个对象不可见的情况。通过将学习问题定义为零假设竞争分类而不是回归,输入RGB-D图像的深度神经网络可以预测单次拍摄中单个或多个物体的多个抓取候选者在Cornell grasp数据集上的图像分割精度和目标分割然而,这些方法依赖于昂贵的后处理步骤来充分利用3D输入。3. 6-自由度抓取检测抓取姿态检测是一种较新的机器人抓取感知方法。传统上,机器人抓取被理解为两个相关的子问题:感知和规划。感知部分估计被抓取物体的3D位置和3D方向。规划组件解决了如何将机械手移动到抓取配置。这种方法的一个典型例子是ROS获取管道[29]。在点云上注册要捕获的对象的CAD模型或截断符号距离函数。然后,规划组件计算可行的夹持器轨迹以抓取定位的目标。虽然这种类型的方法在理想情况下工作得很好,但在现实环境中应用它非常困难因为定位物体的姿态并准确地给出噪声和部分点云是非常困难的掌握感知的大多数方法都是通过将要掌握的物体的CAD模型与传感器相匹配来实现的数据(通常是点云)。掌握CAD模型计算的配置,可以转换为现实世界的机器人配置。不幸的是,这种方法本质上是一个封闭世界的假设:每个要掌握的对象都有一个精确的CAD模型。此外,将CAD模型准确且鲁棒地配准到局部和不完整的点云是非常具有挑战性的。相比之下,抓取姿态检测(GPD)使用机器学习方法来描述抓取表面的局部几何形状和/或外观。因为GPD方法检测提取独立于对象标识,所以它们通常也将提取知识推广到新对象。为此,研究人员提出了各种抓取检测方法,可以用来定位抓取配置,而无需估计对象的姿态。这些方法将噪声和部分遮挡的RGBD图像或点云[48- 50]作为输入,并输出可行捕获点的姿态估计。实际上,这些方法的算法是相同的,即捕获大量候选对象的姿态,然后评估每个候选对象的概率。Ten Pas等.[12]改进并提出了一种生成抓取假设的方法,该方法不需要对要捕获的对象进行精确分割,并且可以在任何可见表面上生成假设其算法结构是首先生成一个大的6自由度抓取候选集,然后将每个候选集分类为好或坏抓取。然后他们通过训练优化了第二步[31]Z. Yin和Y. 李认知机器人2(2022)7377卷积神经网络使用深度传感器扫描大型在线数据集。结果还表明,信息量更大的抓取候选表示以及预处理和先验知识可以显着提高抓取检测。机器人手爪的设计很难根据手爪和被夹持物体的几何形状、被夹持物体的质量分布以及被夹持物体的表面摩擦力来选择,因为这些因素都会影响手爪的稳定性。另外,物体以外的几何物体对抓取点的选择也会有一定的影响,抓取器需要避开其他物体才能抓取正确的物体。在一般情况下,几何启发式可以用来选择有前途的抓取点周围的对象,和采样抓取可以用来实现更深入的几何分析的稳定性和可达性的机器人抓取。在真实场景中有很多限制。例如,机器人只能用嘈杂的深度相机观察一个场景。为了克服这一点,Mousavian等人[32]通过移动相机生成完整的对象模型或执行形状完成,然后基于对象几何形状进行抓取分析。他们引入了变分自动编码器(VAE)和6自由度抓取评估器网络架构,用于采样,评估和改进掌握。该方法对于一些已知的抓取对象,机器人抓取检测转换成一个6D位姿估计问题。例如,DenseFusion方法[33]提出了一种整合RGB-D输入的颜色和深度信息的基本方法。使用它从RGB-D图像估计一组已知对象的6D姿态。分别对两个数据源进行处理,并采用一种新的稠密融合网络提取用于位姿估计的piX el级稠密特征嵌入通过实验,研究人员在YCB-Video数据集[9]和Linemod数据集[16- 18,43,44]上优于现有方法此外,为了估计RGB-D图像中从未见过的对象实例的6D姿态和大小,研究人员首先假设在训练或测试期间没有准确的CAD模型,并引入了归一化对象坐标空间(NOCS)[35]作为参考框架来表示同一类别中的所有对象实例。此外,提出了一种可以同时预测物体类别标签、遮罩和NOCS图的CNN,并将NOCS图与深度图进行匹配,以估计从未见过的物体的姿态和大小为了训练网络,作者提出了一种新的上下文感知技术来生成大量带注释的混合现实数据。实验表明,该方法能够鲁棒地估计出真实场景中从未见过的物体的位置和大小。对于许多机器人应用来说,仅从RGB图像中检测物体及其6D姿态是一项重要任务为了解决遮挡和对称性对物体6D姿态估计的影响,研究人员提出了一种新的6D姿态估计框架Pi x 2Pose [36],该框架在训练过程中使用无纹理的3D模型来稳定地这种姿态估计方法的提出是因为,在现实中,它是困难的,构建3D模型与准确的纹理没有专业知识或专业的扫描设备。此外,提出了一种新的损失函数,Transformer Loss,用于处理具有有限模糊视图的对称对象实验证明,即使物体被屏蔽或对称,PiX 2Pose也优于最尽管深度学习方法在许多方面取得了重大进展,但估计目标姿势仍然具有挑战性。因此,研究人员提出了一个端到端的深度学习框架,以联合检测,分割和恢复来自单个RGB图像的对象实例的6D姿态这种端到端架构比其他多阶段方法更该方法的关键在于将姿态参数分解为平移和旋转两部分,利用李代数表示对旋转进行回归。由此产生的态度回归损失是不确定的和不受约束的,使得训练易于处理。一般来说,如果要求机器人抓取未知物体,就需要三维体场景。卷积神经网络可用于在深度图像中找到抓取对象。Schaub等人。[37]通过使用多个真实和虚拟视点扩展了原始算法,并将预测的抓取质量信息投影到物体表面并呈现出来。该方法将人工标记数据集编码的语义信息与对象的几何分析相结合,因此可以对任意未知对象产生更可靠的把握研究人员还提出了一种使用不同模式进行实时目标检测的方法[18,34]。该方法可以在严重的背景杂波、光照变化和噪声下实时准确地检测研究人员展示了如何有效地预处理图像和深度数据,以将这两种线索稳健地整合到他们的方法中。此外,实验表明,他们提出的方法是优于最先进的方法在识别率和速度的组合,特别是在严重杂波环境。没有耗时的训练阶段可以处理非纹理对象。它基于捕获不同模式的古老表示模板,在许多商业硬件上的实验但这种方法适用于固定的场合,从单一的角度去把握。当生成训练数据时,每个对象在平面中的放置具有概率分布。但是,如果将其扩展到任何视角,那么来自许多视角的数据都不存在于训练集中。在任何角度,网络本身都可能无法学习适合抓取的位置。因此,这种方法 不适合从任何角度抓取除了RGB和深度相机在机器人抓取技术中的广泛应用外,激光雷达传感设备在机器人空间距离测量设备中也发挥着举足轻重的作用[40,54]。由于激光雷达具有很强的抗环境干扰能力,可以精确测距,并且适合大范围的测量,正好弥补了视觉传感器的不足。将激光雷达技术应用于6自由度抓取检测时,在激光雷达数据处理方面,对扫描抖动测得的物体距离进行误差补偿,并在笛卡尔坐标系下标定激光线位置偏差角此外,采用卡尔曼滤波方法[41]完成雷达数据去噪,降低了实验所需的存储成本和计算成本。这种基于摄像头和激光雷达的技术大大提高了机械手抓取检测的稳定性和准确性。Z. Yin和Y. 李认知机器人2(2022)73784. 方法总结基于RGB的方法的基本思想是首先生成大量的候选捕获体,然后进一步优化去抓最后一个由于训练仅在RGB图像上进行,在缺乏深度特定特征的情况下,研究人员将使用深度CNN模型来提高抓取的准确性[51 的算法。因此,Kumra等人[38]提出了一种生成式残差卷积神经网络模型。该方法基于RGB-D输入的模型精度高于基于RGB输入的模型精度。由于基于RGB-D的方法需要深度才能工作,当深度信息丢失或错误时,它将失败。因此,RGB-D的整个过程是繁琐和复杂的,并且数据集很难制作。虽然可以从RGB-D数据中推断出比例尺,但还没有任何令人信服的工作来消除对平面中旋转视图的要求经典的方法,如Linemod算法,从没有纹理的3D模型渲染图像但缺点是它对目标大小的变化更敏感,会导致与之匹配度较低。然而,一种相对较新的方法,如PoseCNN[20],直接从图像数据中估计6D姿态。然而,这些方法依赖于昂贵的后处理步骤来充分利用3D输入。机器人系统越来越多地使用RGB-D传感器和数据来完成目标识别、检测和映射等任务。像Kinect这样的RGB-D传感器很便宜,额外的深度信息对于与3D环境交互的机器人来说是无价的。此外,在雷达探测系统中,目标探测的最重要目的是确定当前目标的准确位置但是,当激光雷达扫描受到环境干扰时,容易产生目标位置的不确定性,当激光雷达发生丢帧时,容易造成目标位置的丢失,从而导致机械手错误的抓取判断。将卡尔曼滤波算法应用于激光雷达探测系统中,可以有效地避免环境干扰引起的雷达扫描和定位误差引起的激光雷达丢帧。大部分抓取实验都是在Cornell抓取数据集和Joblet数据集上进行的,但这两个数据集都是单目标场景,而Dex-Net数据集对于一般研究者来说太大了,无法进行实验,而且由于Dex-Net算法机器人的抓取宽度是固定的,在狭小的空间内会有一定的局限性这种二维平面抓取方法适用于固定场合,从单一角度抓取。当生成训练数据时,每个对象在平面中的放置具有概率分布。但是,如果将其扩展到任何视角,那么来自许多视角的数据都不存在于训练集中。在任何角度,网络本身都可能无法学习适合抓取的位置。因此,这种方法不适合从任何角度抓取另外,目前平面抓取检测的公开数据集只有Cornell grassps和Jobsard两个,这在一定程度上限制了该领域方法的发展和应用由于缺乏有针对性的数据集,这是困难的,以应用该算法在实践中。目前的两个公共数据集在真实场景中的数据规模较小,而在仿真环境中的数据规模较大因此,今后应设计合理的制样方法,以促进这一研究方向的发展6-DOF抓取意味着爬虫可以在三维空间中从各个角度抓取物体。随着深度相机技术的进步、点云数据的优势、计算机计算能力的不断提高以及传感技术的不断发展,基于点云或深度图像的6自由度机器人抓取逐渐成为机器人学方向的研究热点,具有非常诱人的研究价值和应用前景。适用于现场的是垂直向下的工业机械臂抓斗,此方法适用于任意角度的抓斗。然而,这种方法的缺点在于,虽然使用了Encoder and Decoder的方式来生成候选抓取位置,但是在单个点下获得的数据毕竟有限,而且,6 - DOF抓取方法通常需要获得一个相对完整的3D点云,这往往意味着效率相对较低。或者如果物体可以完成[39],使用传统方法生成候选抓取位置也可以获得良好的结果。5. 机器人抓取在机器人抓取检测过程中,通常有很多度量。这里我们将简要介绍一些常用的。5.1. 抓取点检测有两种度量来评估抓取检测的性能:点度量和矩形度量。点测量评估预测和实际抓取中心之间的距离阈值。对于矩形测量,如果抓取角度在地面真实抓取的30°内,并且预测抓取的Jaccard指数大于25%,则后一测量认为抓取是正确的。此外,存在其他度量来评估预测抓握点的性能,例如(1)成功率或准确度:在摇动后可以举起、运输和保持期望物体的抓握百分比。(2)准确性:抓取成功率的稳健性估计高于50%。(3)鲁棒抓取率:鲁棒性高于50%的计划抓取的估计(4)计划时间:接收图像和返回计划捕获之间的时间(秒)。5.2. 模型点的平均距离(ADD)姿态主要包括旋转量θ和位移量θ。给定一个3D模型 ,让真实的态度是和θ,预测姿态为θ′和θ′,则精度评定标准ADD模式的误差用公式表示Z. Yin和Y. 李认知机器人2(2022)7379∑∑∑∑∑∑∑2∑∑212( , ) == 1=1 =1(1):������������=���������(������+���) −(���′��� +���′),���∈ (1)5.3. 倒角距离(CD)CD用于计算生成的点云与地面实况点云之间的平均最短点距离,其用于比较生成的点云与地面实况点云之间的相似性。在CD中生成的点云和地面实况点云之间的点云的数量不需要完全相同。假设 1和 2分别代表两组三维点云,计算方法如公式(2)所示:������(���1,���2)=∑min���∈���‖ −‖2+∑min ∈���‖ − ‖2���∈���1���∈���2(二)5.4. 推土机EMD算法最初是作为判断两幅图像之间相似性的一种度量,用于图像检索。为了方便说明,假设有两个签名,=(1,1),������,���������������(,)和���=(1,���1),���,(,)������。有���分类,������也有分类 。可以把当作砂矿,把当作砂石仓库,把当作每一个砂矿所含砂石的数量,把当作每一个仓库所能容纳砂石的数量���������������������引入 了距离矩阵X,其中表示和之间的距离 ,一般为欧氏距离。 ���然后定义工作流,记为矩阵xXx x,其中xx表示从x到y的砂石运输量,则后续的总工作量为式(3):��� ���= ( , , )=(3)=1最终EMD为归一化工作负荷,计算方法如式(4)所示:∑��� ∑���=1=1EMD距离在点云分析中的应用假设 和 是两组点,它们包含相同数量的点,记为 。这一假设决定了EMD距离中的最小值的最小值总是一致的。也就是说,这一假设保证了两点集中所有点的地位都是平等的,这也符合点云分析的前提,即点云特征与点的顺序位移无关,因此我们推导出公式(5)和公式(6):=1最小值=1但是, =1()= 1(5)∑∑=1∑���∑=∑���∑(6)���������������������=1=1则地球移动器( , )=(7)=16. 数据集下面简单介绍一下本文中提到的一些常见数据集。6.1. Cornell Grasp数据集Cornell抓取数据集是最常用的抓取数据集,自2015年以来发表的绝大多数抓取检测论文都评估了Cornell抓取数据集的性能康奈尔抓取数据集是在现实生活中捕获的,因此数据集的大小很小,只涉及240个不同的对象。每幅图像对应多个抓取标签,抓取标签由4个(x1,x2)像素表示,表示抓取矩形,包含抓取标签和不可分级标签。同时,数据集提供了相应的点云文件,可以用来生成相应的深(∑(四Z. Yin和Y. 李认知机器人2(2022)7380度图像。Z. Yin和Y. 李认知机器人2(2022)73816.2. Jumper crawls数据集JQuery抓取数据集,是一个大规模的合成数据集。该数据集于2018年推出,其图像数量是康奈尔大学grasp数据集的50倍以上。基于ShapeNet的一个子集,构建一个大型CAD模型数据集,在仿真环境中多次捕获同一场景中的对象,得到多个对应的标注,最后构建整个数据集。在实际抓取机器人上进行了实验,结果表明,由于物体的多样性和数据量的充足性,该数据集比由真实场景标记的小样本数据集具有更好的归纳信息与Cornell grasp数据集不同,注释格式为(,)���������。6.3. YCB视频数据集YCB-Video数据集在PoseCNN论文中有所贡献。YCB-Video数据集是基于YCB数据集制作的,从YCB数据集中选择了21个对象(选择这21个对象的原因如下:高质量的3D模型和良好的深度可见性)。从21个对象中选择3 - 9个整个数据集的所有视频包含133,827帧。具体参数见图2 数据集。最后,用半自动的方法进行了6D位姿标注6.4. Dex-Net 2.0大型数据集Dex-Net 2.0大型数据集,包含670万个样本。这些样本主要通过从3D对象模型和捕获的数据集Dex-Net 1.0中筛选出1500个3D对象模型来选择,然后对每个对象进行相同的操作:将对象随机放置在虚拟桌面上,以获得当前状态的垂直抓取表示,即(,,)。所有这些信息都可以直接从Dex-Net 1.0的注释中生成。这些抓握中的一些可以用于实际抓握,而一些不能用于抓握。然后,使用虚拟深度相机拍摄深度图,并对每个抓取表示进行网络输入操作,即以抓取点(x1,x2)为中心,将深度图像旋转theta角,使抓取方向平行于图像的水平轴,然后以抓取点(x1,x2)为中心切割出32×32大小的深度图块。将这个深度图块输入到网络中,除了抓取点(,)���相对于桌面高度作为另一个输入之外,你会得到670万个正负样本。���7. 结论本文对机器人抓取检测进行了全面的综述,由于我们针对的是平行双指抓取的研究,所以无论是二维平面抓取检测还是三维空间抓取检测,都能在仿真环境中取得较好的性能。在目前阶段,只有一部分文献考虑在多个对象和混乱的环境的情况下抓取建议研究人员可以逐步将单一目标无遮挡情况下的检测改为多目标、杂乱环境下的检测,同时要重视小目标的检测。此外,如果要同时满足高精度抓取和实时抓取检测,机器人抓取技术还有很大的发展空间竞争利益作者声明,他们没有已知的竞争性经济利益或个人关系,可能会影响本文报告的工作。确认在此,我们感谢所有为本文提供了宝贵修改的同行和审阅者引用[1]A. Sahbani,S.El-Khoury,P.陈文,三维物体抓取综合算法研究,机器人。奥顿系统 60(3)(2012)326-336。[2] J.H. 张文辉,学习视觉特徴以预测手的方向,计算机科学系出版物系列,2002年。[3] A. Morales,P. J. Sanz,A. P. del Pobil,基于视觉的未知平面物体上三指抓取计算,在:IEEE/RSJ智能机器人和系统国际会议,2002年,pp. 1711-1716年。[4] Y. Jiang,S.Moseson,A.Saxena,从rgbd图像中进行有效抓取:使用新的矩形表示进行学习,在:IEEE机器人与自动化国际会议3304-3311[5] Y. 莱昆湖,澳-地博图湾,巴西-地Bengio等人,应用于文档识别的基于语义的学习,IEEE,1998,pp. 2278- 2324[6] A. 克里热夫斯基岛萨茨克弗,G. E.Hinton,Imagenet classification with deep convolutional neural networks,Adv.神经病。INF. 过程系统 25(2012)1097-1105。[7] I. 伦茨,H。Lee,A.Saxena,用于检测机器人抓取的深度学习,Int.J. 罗伯Res. 34(4-5)(2015)705-724。Z. Yin和Y. 李认知机器人2(2022)7382[8] G. Du,K. Wang,S. Lian等人,基于视觉的机器人抓取从物体定位,物体姿态估计,以掌握估计平行抓手:一个审查,Artiff。内特尔Rev.54(3)(2021)1677-1734。[9] S.彭,Y.刘,智-地Huang,X. Zhou, H. Bao,Pvnet:用于6dof姿态估计的pi x el-wise投票网络,在:IEEE/CVF计算机视觉和模式识别会议,2019年,pp. 4561-4570号。[10] Y. 他,W。孙,H.黄,J.Liu等人,Pvn 3d:一个用于6dof姿态估计的深度逐点3d关键点投票网络,在:IEEE/CVF计算机会议上视觉和模式识别,2020年,pp。11632-11641号。[11]C. 崔,W。Schwarting,J.DelPreto等人,学习软机器人手的物体抓取,在:IEEE机器人和自动化快报,2018年,pp。 2370- 2377[12]A. ten Pas,M. Gualtieri,K. Saenko等人, 在点云中抓取姿态检测,Int. J. Rob。 Res. 36(13-14)(2017)1455-1473.[13]H. Liang,X.马,S. Li等人,Pointnetgpd:从点集检测抓取配置,在:IEEE机器人与自动化国际会议,2019年,pp。三六二九三六三五[14]A.穆萨维安角Eppner,D. FoX,6-dof graspnet:用于对象操作的变分抓取生成,在:IEEE/CVF计算机视觉国际会议,2019年,pp. 2901-2910[15]G. Georgakis,S.卡拉南角Wu等人,[16]D.P. Huttenlocher,G.A. Klanderman,W.J. Rucklidge,使用Hausdor距离比较图像,IEEE Trans. Pattern Anal.马赫内特尔15(9)(1993)850-863。[17]C. Gu,X. Ren,DiscriminativeMIX ture-of-templates for viewpoint classification,in:European Conference on Computer Vision,Springer,Berlin,Heidelberg,2010,pp. 408-421[18]S. 欣特施托伊塞尔角Cagniart,S.Ilic等人,梯度响应图的实时检测无纹理对象,IEEE Trans.模式肛门。马赫内特尔三十四(五)(2011)876[19]I. 伦茨,H。Lee,A.Saxena,用于检测机器人抓取的深度学习,Int.J. 罗伯Res. 34(4-5)(2015)705-724。[20] Y. Xiang,T. Schmidt,V. Narayanan等人,“Posecnn: a convolutional neural network for 6d object pose estimation in cluttered scenes”, arXiv preprint[21]W. Kehl,F. Manhardt,F. Tombari等人,Ssd-6d:使基于rgb的3d检测和6d姿态估计再次变得伟大,在:IEEE国际计算机视觉会议,2017年,pp. 408-421[22] A. Depierre,E.德兰德雷亚湖Chen,Optimizing correlated graspability score and grasp regression for better grasp prediction,arXiv e-prints(2020)2020arXiv:2002.00872.[23] M.沃赫拉河普拉卡什湖Behera,密集杂乱环境中新颖物体的实时抓取姿态估计,在:IEEE机器人与人类交互通信国际会议,2019年,第103页。1比6[24] X.陈河,巴西-地Chen,Z. Sui等人,Grip:在对抗环境中用于语义机器人操作的生成鲁棒推理和感知,在:
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功