基于纯目标检测的移动机器人操作

8 浏览量更新于2023-10-16 收藏 2.03MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

561基于纯目标检测的移动机器人操作Brent Griffin敏捷机器人brent. agilityrobotics.com摘要本文研究了基于目标检测的移动机器人控制问题。我们的方法使用检测和控制作为互补功能，从现实世界的互动中学习。我们开发了一种端到端的操作方法，完全基于检测和引入任务为中心的少镜头对象检测（TFOD）来学习新的对象和设置。我们的机器人收集自己的训练数据，并自动确定何时重新训练检测，以提高各种子任务（例如，抓握）。值得注意的是，检测训练的成本很低，我们的机器人只需点击四次注释就能学会操纵新对象。在物理实验中，我们的机器人学习视觉控制从一个单一的点击注释和一个新的更新配方，操纵新的对象在混乱和其他移动设置，并实现了国家的最先进的结果，现有的视觉伺服控制和深度估计基准。最后，我们开发了一个TFOD基准，以支持未来的机器人对象检测研究：https://github.com/griffbr/TFOD。1. 介绍目标检测，即，预测RGB图像中对象的边界框和分类标签，由于高质量数据集[13，19，36]中大量带注释的训练和评估数据，已经看到了显著的方法学进步[7，50，51]最近，少数拍摄对象检测[10，58，65]已经成为使用来自现有数据集的注释示例的有限子集检测新对象类的关键创新[28，56]。检测还支持许多下游应用[45，63，70]。然而，当改变对象、任务或环境时，我们发现现成的检测器在初始训练设置之外的因此，被动学习是不够的，特别是对于机器人来说，视觉体验是动态和交互的[4]。此外，只使用被动数据的机器人正在浪费一项关键资产-与世界互动并从这些互动中学习的能力。图1. 基于检测的操纵。通过从摄像机运动和边界框（右）中感知物体，我们的机器人在四个机器人收集的训练示例中学习抓住Chips Can。为此，本文介绍了ClickBot，这是一种机器人，它使用纯对象检测（即，仅使用2D边界框来学习和感知对象我们的方法依赖于两个主要贡献。1) 基于检测的操纵。我们开发了一套新的基于检测的任务来完成移动机器人操作。创新包括一个新的更新公式，仿真学习视觉伺服控制，基于运动的深度估计，提高ClickBot的方法对象，并积极多视图把握选择。使用我们的方法，ClickBot操纵非结构化对象，没有3D模型，使用一个单一的RGB相机。据我们所知，这是第一个完全从检测中开发端到端对象操作的工作2) 任务聚焦的新镜头目标检测（TFOD）。我们引入TFOD来学习基于检测的任务，562≫新对象和设置。使用TFOD，ClickBot自动执行任务，收集数据，确定是否需要新的几个镜头的例子，如果需要，则将注释指向特定的任务。在实践中，TFOD提高了困难或不断发展的机器人任务的性能，同时降低了整体注释成本。我们验证我们的组合方法在各种机器人实验。首先，ClickBot平均在不到14秒的时间内学习基于检测的视觉控制，并减少了学习时间。相对于现有的视觉伺服方法，可变性降低了65-85%。接下来，ClickBot在VOSVS基准测试中取得了最先进的结果[16]，视觉伺服控制和深度估计性能分别提高了16.7%和25.0%。最后，ClickBot学会了在杂乱中抓取物体（见图1），并以每小时124.6次拾取的速度清理移动放置位置的分散本文建立了一个基础，以指导未来的研究和创新，使用少镜头检测算法在机器人。然而，许多研究人员没有机器人或数据来评估他们在机器人环境中的算法因此，作为最后的贡献，我们开发了相应的TFOD基准。TFOD Benchmark可配置用于各种少数拍摄对象检测设置，包括使用标准MS-COCO AP指标[36]对不同的YCB数据集对象[6]进行评估，并将指导未来的研究，以便在这种新的以任务为中心的机器人操作设置中进行越来越可靠的检测。2. 相关工作对象检测是我们社区中许多方法的初步过程。基于检测的示例方法包括分割[21]、3D形状预测[15]、深度[17]和姿态估计[45，63]，和单视图度量[70]，仅举几例。在本文中，我们介绍了一种新的检测为基础的方法，移动机器人操作，类似的操作直接从对象检测。学习对象检测通常需要来自标记数据集的大量边界框注释用于训练和评估[13，36]，其中一些数据集额外关注连续识别[37]或多视图室内环境[52]。然而，静态数据集不考虑野外的新对象和设置。少镜头对象检测（FSOD）通过仅从几个注释示例中检测新对象来解决此限制的一部分[10]。为了进行评估，第一个FSOD基准点[28]使用PASCAL VOC数据集[13]上的5个少数拍摄对象的k= 1，2，3，5，10个注释边界框的集合分割，以及MS-COCO数据集[36]上的20个少数拍摄对象的k= 10，30。随后的工作[56]通过随机选择几个拍摄对象和注释示例，对该方案进行了修订，平均评价超过40次试验，并在LVIS数据集上获得了额外的结果[19]。使用这些先前的基准，FSOD已经看到了猖獗的方法进步。最初的微调方法将FSOD视为从大型源域到少数拍摄对象的迁移学习问题[10，56]。其他方法使用Meta学习算法从现有的检测器中学习，并通过使用特征重新加权方案[28，65]或通过使用从基类生成的模型参数来有效地学习少数拍摄对象[58]，快速适应少数拍摄对象。其他FSOD方法包括基于距离度量学习的分类器[29]，减少训练要求的增量少量学习[43，47]，通过匹配和对齐目标图像特征与查询图像特征的一次性检测[44]，即插即用检测器，以在学习新概念的同时保持已知的类别性能[67]，以及注意力引导的余弦裕度，以减少训练要求。[2]《易经》中的“道”，只是其中的一部分。然而，为新对象生成少量示例最近的一项工作通过遥控无人机收集新的检测训练数据[3]，但该方法使用的训练样本比当前 FSOD 方法所需的样本多得多（k30），并且不考虑检测以外的应用。另一方面，一种FSOD方法[63]通过开发一个统一的框架来支持视点估计应用，该框架使用少数拍摄对象的任意3D模型，但这项工作仅检测和估计现有数据集中对象的视点。为此，本文通过改进特定应用任务的检测，并使用我们称为 Task-FocusedFew-ShotO objectDetection（TFOD）的方法在野外收集新对象和设置的新的少量示例，扩展了FSOD。此外，而不是试图预测最好的一组少数镜头的例子先验，我们让机器人和每个任务的难度决定，从而限制了一个符号到几个相关的例子。值得注意的是，我们在TFOD实验中使用了微调FSOD方法，但是，正如我们将展示的，TFOD在FSOD方法中是可推广的。视觉伺服控制（VS）在伺服回路中使用视觉数据闭合形式的VS方法通常使用特征雅可比矩阵[8，24，59]将图像特征与机器人致动器相关联，其中高级方法直接在机器人上学习特征封闭形式的VS可以定位无人机[18，41]或轮式机器人[38，40]并操纵物体[25，30，57]。虽然这个早期的VS工作展示了VS的实用性，但这些方法依赖于结构化的视觉特征（例如，基准标记或LED面板）。随后的VS方法使用深度学习来操纵非结构化对象。学习VS操作端到端可以完全发生在机器人上[1，31，48]或使用创新的模拟到真实传输技术[27，46，71]进行模拟。然而，所有这些端到端方法都是在固定的工作空间中学习，并且没有解决移动操作的挑战，包括移动相机，563≥联系我们联系我们联系我们联系我们变化的环境和动态抓取定位。为了弥合学习VS和移动机器人应用之间的差距，在最近的工作中，我们开发了基于预训练视频对象分割的移动VS [16]。然而，这种方法不会学习新的对象，任务或环境，这将需要大量的成本来注释新的分割掩码[26]。为此，本文开发了一种新的基于检测的方法来移动VS，在比较实验中，它需要不到5%的注释成本，同时显着提高性能。我们还开发了一种新的方法来学习VS使用伪逆特征雅可比矩阵，相对于以前的工作，学习VS更快，更一致。最后，将我们的移动VS与TFOD和其他任务相结合，让我们的机器人学习有效地定位和操纵新对象3. 面向任务的少镜头目标检测我们开发了一种交互式的方法，我们称之为Task-Focused Few-ShotOobject Detection（TFOD），以收集数据并学习新对象和应用程序的检测。3.1. 任务和检测模型TFOD通常适用于满足以下标准的任何任务T和对象检测模型D1. T观察n1个图像I1，I2，. . . 、I n.2. D（I）输出一组带有类标签的边界框3. 存在一个或多个基于D的失效准则F。4. 如果F出现，则m1成像I F1，IF2，. . . ，I FmI1，I2，. . . ，I n被保存以记录故障。5. D可以在给定一组p1的情况带注释的少数镜头示例E（IE1，IE2，. . . ，IEp）。使用这些定义，TFOD的目标是更新D直到T在没有F的情况下使用最小p完成。简单地说，当我们的机器人尝试困难或不断发展的基于检测的任务时，它的检测模型可能会失败。然而，如果我们的机器人识别出故障（F），这是一个有意义的学习机会，并且我们的机器人保存故障的图像数据用于注释（IF）。在我们提供注释（E）之后，我们的机器人更新其检测模型。值得注意的是，F和选择IF的标准可以根据具体任务而改变，我们在第4节中提供了几个例子。3.2. 以任务为中心的数据收集给定任务T和检测模型D，我们的机器人使用D（I1），D（I2），. . . ，D（In）.如果F在T期间发生，则我们的机器人选择一个或多个代表性故障图像I FI1，. . . ，n用于注释。对于我们注释的每个IF，我们的机器人将其添加到注释的少数镜头示例E（I E1，I E2，. . . ，I Ep）更新D。实际上，这些更新可以防止F重复出现，并让我们的机器人学习困难或不断发展的任务。一旦T在没有F的情况下完成任务，我们的机器人就会继续完成其他任务。564图2. 任务聚焦注释。ClickBot收集任务数据，并为需要更好检测的任务选择新的少量示例，例如，找到（左）、抓取（中）和放置（右）。在实践中，除非对象或设置发生变化，否则我们的机器人在为T学习D之后很少需要更新。我们还发现，在相关的任务中共享E中的几个例子可以减少所需的例子总数。3.3. 少镜头注释我们提供注释E（IE1，IE2，. . . ，IEp）使用自定义GUI。在F之后，用户查看由我们的机器人保存的新的故障图像IF 对于每个具有任务相关对象的IF，用户可以围绕每个对象拖动边界框，然后将新的几个镜头示例IE添加到E（参见图2）。在实践中，注释一个边界框需要大约7秒，每个对象[26]。此外，没有对象的IF可以可选地被添加到E作为真阴性，这通常减少来自D的假阳性，例如，一个搜索物体的任务。在这项工作中，我们每次更新只使用任务相关对象注释一个IF，这使我们的机器人有机会使用最少的注释完成任务。4. 基于检测的操作我们使用一组新的基于检测的任务来执行移动机器人操作值得注意的是，对于先验学习的对象，我们的方法也适用于标准的对象检测和跟踪算法。首先，我们的机器人需要找到与任务相关的对象进行操作，即，查找任务。4.1. 查找要操纵的对于查找任务，我们使用一组n个机器人运动姿态，在任务空间中移动相机。我们的机器人在每个姿势（I1，I2，. . . ）直到使用检测模型D找到对象，这完成了查找任务。我们的失败标准F是如果我们的机器人收集所有n个图像而没有检测，在这种情况下，每个图像被保存用于少数镜头注释（IF）。使用这个过程，查找任务通常是我们的机器人首次学习新对象的方式。在实践中，在学习和操作新对象之后，我们中断查找任务在哨兵模式下，我们的机器人间歇性地使用查找任务来搜索物体，但不再假设没有检测到指示假阴性。因此，如果对象在任务空间中，我们的机器人会找到它们，而不会在它们不存在的情况下生成不必要的少量示例565S小液滴/yl∈−S∥ −∥S^v=-Le，（3）其中，L∈R是伪逆特征雅可比矩阵。∈S^：=L^+St∆e⊺∆e1. 一个不连续点是s−st−1∥L1⊺ st=06×2也可以使用s在t= 0时初始化s为sD（I），l，s，其中^4.2. 从检测中学习视觉伺服控制移动操作的一个关键创新是我们学习的视觉伺服控制器（VS），它使我们的机器人能够在机器人移动时，位置本身相对于发现的对象，即，伺服任务。引入一个新的更新公式来估计（3）中的L^+，.. x−L^+St来自检测的图像特征。首先，我们使用检测模型D、输入图像I和目标对象类标签l来定义图像特征s∈R2为：其中，α R决定更新速度，x=xtxt−1是自上次更新以来6DOF相机位置的变化Ee=et−et−1是误差的变化S.D（I），l，st−1：=，soybean，（1）与逻辑矩阵H∈R6×2的乘积决定了L^+元素可以更新。我们把H加到本协会其中，忽略具有除L之外的类标签的边界框，st-1表示来自前一时间步的s，并且sx、sy表示目标对象的边界框中心的两个图像坐标我们在（1）中使用st-1首先，如果有多个标签为l的盒子，我们选择与st−1最接近的匹配以保持稳定。其次，我们使用sst-1L1来检查s是否表示物理上不可能的，物体位置的不连续性。最后，如果检测到l在任何时间步都不存在，我们暂时使用s=s.伺服任务的F是：v和e中不相关的元素（3），这导致在比较实验中更一致和更快的学习。我们的机器人主动学习将检测与摄像机运动联系起来，以便使用（4）进行视觉控制（3）。简单地说，我们的机器人移动摄像头（pixex），观察基于检测的错误（pixe）的相应变化，然后更新其基于实际（Lmax）和预测（L^+Lse）之间的差异学习的运动检测模型（L+）使用（1），我们的失效准则t-12.对于20个连续的时间步长，l的检测St相机位置的变化。在我们的实验中，我们以L^+=0开始（4），如果发生上述任何一种情况，我们的机器人将停止伺服任务，并保存最后一个输入图像以进行少数镜头注释（IF）。视觉伺服反馈控制。我们使用图像特征(1)对于我们的VS反馈误差e，其定义为e=s-s=sx-sx，s-y-sy，（2）其中s∈ R2是期望的向量。特色价值观。我们H将e（2）中的图像特征sx和sy与x和y轴摄像机速度，单位为v（3）。4.3. 从运动和检测在使用伺服任务将摄像机对准对象后，我们的机器人使用带有检测的主动感知来估计对象深度任务。在最近的工作中，我们通过比较摄像机姿态变化与检测边界变化在最接近所需位置的目标对象上启动VS典型的VS [8]使用sstec =Lsv将图像特征s与六自由度（6DOF）相机速度v联系起来，其中LsR2×6称为特征雅可比矩阵。在这项工作中，我们使用一个恒定的s（即，sstec=0），这从（2）中意味着estec=sstec和sstec=Lsv=este c 。利用这种关系，我们找到我们的控制输入v，以最小化e，使用+S+62S当我们的机器人控制e（3）低于阈值时，它相对于物体精确定位，伺服任务完成。在实验中，我们在深度估计之前使用10个像素的阈值，在抓取之前使用5个像素的阈值。一种新的学习视觉控制的更新公式。不可能知道真实VS系统上的确切特征JacobianLs [8]。相反，一些VS工作估计Ls[22，25]或L+[16]使用Br o yden更新的观察结果。受Broyden原始论文 [5，（4.12）]的启发+st+1+α◦ H，（4）>150像素。01000 0α= 0。5，H=10000 0.的这种选择566箱尺寸[17，（9）]。在这项工作中，我们通过主动地将机器人的相机朝向物体推进，同时使用每个可用的检测D（I 1），. . .，D（In）及其对应的运动学相机姿态。一旦我们的机器人估计物体在0.2米以内，深度任务就完成了。我们的深度任务的失败标准F是如果对象的标签l的检测消失，在这种情况下，我们的对于基于深度的抓取，我们的机器人使用一组深度估计的集合的中值，该集合由每0.05米相机运动的最新估计基本上，这种方法减轻了当相机靠近对象时可能发生的任何基于接近度的检测错误。4.4. 主动感知和检测抓取在估计物体的深度之后Grasp任务。与其他工作类似，我们使用简单的视觉表示，将抓取一般化到许多新对象[55]，但也使用多个视图来改进抓取选择[42]。5672SSS^核心价值观，即，L^×--StL15图3. 从检测中抓取。ClickBot旋转其摄像头（左）以找到最靠近的基于检测的平行抓取点（中），然后使用基于力的抓取并提起Drill（右）。对于主动抓取规划，我们的机器人移动其摄像机0.16 m以上的物体的估计深度，然后使用VS中心的物体下方的夹具。接下来，我们的机器人旋转它的相机，以找到对象和检测边界框之间的最佳匹配边界框是矩形的，所以我们的机器人只旋转相机π弧度，因为1）0−50 2 4 6 8 10 12 14数量的更新图4. 学习视觉控制L^+视觉控制生成。和转动关节，但抓取相机和夹持器之间的相对位姿是恒定的。我们通常将末端执行器指向地面以进行检测和抓取（参见图1和图3）。对于移动性，HSR使用差分驱动器底座。HSR3DOF地平面平移和旋转）。我们使用在任意角度θ2宽度等于θ+π二次规划[53]命令相机速度2）在θ和θ+π处的盒维数相同。与深度任务一样，我们的抓取任务失败标准F是如果物体的检测消失，这会导致我们的机器人停止并保存最后一个输入图像用于注释（IF）。在旋转和检测之后，我们的机器人使用具有整体最小高度或宽度的盒子来规划其抓取。我们的抓取计划使用对跖抓取（即，在两点上闭合的平行抓握）。基本上，我们的机器人使用基于检测的平行抓取点的最后一组，并在物体在旋转其开放的夹具，以符合最小的高度或宽度，我们的机器人降低其夹具的对象的估计的深度，并适用于基于力的平行把握。我们的机器人然后举起物体，同时继续施加力。如果夹持器手指保持被物体分开，则抓取成功，并且我们的机器人在返回到查找其他物体的任务之前在目标位置释放物体5. 实验结果我们验证TFOD和基于检测的操作（ClickBot）在各种机器人实验与视频可在https://youtu.be/Bby4Unw7HrI。v（3），但任何速度控制器都是适用的。检测模型对于我们的基线模型，我们使用更快的R-CNN [51]，它实时运行，并且自最初发布以来已经有所改进。为了重现性，我们使用与Detectron 2 [61]相同的Faster R-CNN配置，其中ResNet 50在ImageNet上预训练，FPN骨干在MS-COCO上训练[61]。在我们的实验中，我们使用带注释的少量样本E（第3节）更新我们的检测模型，其中包括从基线模型进行1，000次训练迭代的微调，使用标准工作站和GPU（GTX1080Ti）不到四分钟。我们还使用相对较高的0.9置信度阈值进行检测，这显著降低了误报率，但代价是增加了误报率。5.2. 一键学习视觉伺服控制ClickBot使用我们新的更新公式（4）从相机运动和检测对于每个VS学习实验，ClickBot启动一个动作序列，跟踪检测变化，并在每一个动作。当L^+时，每个学习实验结束5.1.实验装置+st+1对于相机运动（-L^+¨< 10-6机器人和摄像头硬件我们用丰田人力车支持机器人（HSR）用于我们的实验[64]。我们使用HSR我们使用HSR的末端执行器安装的平行夹持器与系列弹性指尖，其中有一个135毫米的最大宽度抓住检测对象。HSRClickBot重复八个动作包括在x方向上的-5，0，5cm的排列和y轴（例如，x=-5，y=5）。这些运动是变化的，但通过初始相机姿势循环以继续学习。对于检测，我们使用来自YCB对象数据集的壁球[6]。壁球被放置在Click- Bot的抓取相机下面，我们的单击注释）。值得注意的是，ClickBot从检测错误变化中学习VS（4），因此·10−4伊伊什xX光片参数值568ˆˆStS^ΣΣst=0^plot the learned L每次更新时的值，如图4所示。表1. 视觉伺服学习结果来自每个更新配方的10次试验的单个对比集。L+更新S方程更新需L+参数范围S学习值（·10−4）是说范围xX光片x伊什伊X光片伊伊什ClickBot（4）13.69–21-6.2-0.0-0.00.0-0.0 5.4-6.1[16，（11）]22.515–30-6.1-0.0-0.00.0-0.0 5.4-8.3Broyden [5，（4.12）]31.715–76-6.4--0.2-0.3 -1.0-1.5 5.4-7.2布罗伊登[5，（4.5）]45.8 21–101-6.5--0.4-0.8 -1.1-2.2 5.5-8.3图5. YCB数据集的实验对象。对象集从左到右分别是厨房、食物、工具和形状。尺寸跨度在4E（2）中的恒定期望值S是任意的。除了为我们剩余的ClickBot实验学习VS之外，我们还进行了一组连续的试验来比较（4）现有的L+更新公式。不-表中，这两个公式在分母中使用xL^+e，st=0表2. VOSVS基准结果使用一组连续试验。如果机器人移动到物体处进行深度估计（DE），则视觉伺服（VS）成功。如果机器人的抓取器在没有碰撞的情况下靠近物体，DE就是成功的。对象集支持高度（m）YCB目标[6]方法ClickBotVOSVS [16]VSDEVSDE工具0.25电钻✓✓✓工具0.125标记✓✓工具0.0挂锁✓✓✓工具0.25木材✓✓✓工具0.125弹簧夹✓✓工具0.0螺丝刀✓✓✓食品0.25芯片可以✓✓✓✓食品0.125罐装肉✓✓✓✓食品0.0塑料香蕉✓✓✓✓食品0.25一盒糖✓✓✓✓食品0.125金枪鱼✓✓✓食品0.0明胶✓✓✓✓厨房0.25马克杯✓✓✓✓厨房0.125软灌木✓厨房0.0带盖的✓厨房0.25板✓✓✓✓厨房0.125刮刀✓厨房0.0刀✓✓✓形状0.25棒球✓✓✓形状0.125塑料链✓✓✓形状0.0垫圈✓✓形状0.25堆叠杯✓✓✓✓形状0.125骰子✓形状0.0泡沫砖✓✓✓✓成功率（%）10066.783.341.7每个对象的3.710每个对象的26 S540年代在摄像机视野内的地面上。 VS是成功的，如果对于L^+是未定义的= 06×2. [16]故，机器人定位并伺服到一个用于DE的对象DE是成功的(11)]和Broyden [5，（4.5）]，我们使用VOSVS如果机器人前进时没有碰撞并以L^+=010000⊺10000 0·10−3。而不会碰到下面的表面。我们还使用VOSVS基准来评估TFOD-结果ClickBot在13.29秒内学习了我们在剩余实验中使用的VS模型，其中包含13个Broyden更新。紧接着，我们推了一下壁球，点击机器人跟着它，确认了学习的视觉控制器(3)这是一个成功（见视频补充材料）。我们+S我们在表1中提供了对比VS学习结果。相对于先前的配方，ClickBot需要30-60%的更新，并具有15-35%的整体学习参数变化。因此，我们的新更新公式（4）比以前的公式更快、更可靠地学习VS。5.3. VOSVS基准我们使用VOSVS Benchmark [16]评估ClickBot的VS和主动深度估计。该基准测试由图5所示的YCB对象[6]上的VS和深度估计（DE）的8次连续试验组成。每个试验从0.0、0.125和0.25 m处支撑的三个对象基于学习。 ClickBot使用第4节中的Find、Servo和Depth任务为每次试验学习新对象。在没有任何注释的情况下开始，ClickBot的第一个少数镜头示例E（IE1）来自初始查找姿势，并且ClickBot在任何其他视觉更新之后返回到查找任务。对于每个试验对象，ClickBot找到它（查找），伺服它，直到10像素（3）（伺服），下降到估计0.2米（深度），然后关闭它<每个对象在其第一次完全尝试之后被移除，即，查找、伺服、深度和抓取闭合，无需更新。结果我们在表 2 中提供了比较 VOSVS 基准结果。ClickBot实现了完美的VS评分，并将之前的DE成功率从42%提高到67%。ClickBot在食物设置上是完美的，但在工具和厨房设置上有50%的空间来改进DE。我们还比较了表2中的注释时间一个分段掩码需要大约54秒来注释[26]，这相当于569表3. 任务集中的少镜头注释结果在相应的试验中取平均值（补充材料中的单个结果）。点击是注释边界框的数量，每个需要7秒（参见用户研究[26]）。CPU指的是训练时间。任务型学习实验以任务为中心的人数生成的少量样本（E）每个对象类的注释机器人CPU找到伺服深度把握总点击时间（秒）学习型视觉伺服控制1.00.0N/AN/A1.01.07.013.3227VOSVS基准1.00.93.1N/A5.03.726.020.2383带优先注记的0.30.31.32.84.53.423.929.1343具有先验标注的杂乱信息中的拾取和放置0.50.80.02.33.52.718.723.2287拾放1.00.82.53.88.06.042.051.4615在杂乱拾取和放置1.02.04.33.310.57.552.567.3811到VOSVS，每个对象使用540 s的注释。另一方面，ClickBot使用更简单的基于边界框的表示和以任务为中心的注释，相当于每个对象26秒的注释，减少了95%。我们在表3中提供了详细的TFOD结果。ClickBot平均每次试验5次更新，深度的几次示例比Find和Servo的总和还要多。TFOD的主要目标是将注释集中在困难的任务上，因此我们鼓励ClickBot自动识别并将注释引导到最需要改进的任务。5.4. 杂乱环境我们评估ClickBot首先，我们在工具集和食物集的VS和DE之后添加完整的抓握任务（第4.4节）。值得注意的是，HSR不能物理地抓住一些厨房和形状对象，例如，因为它们太重（带盖的煎锅）或离地面太低（洗衣机）。抓取后，ClickBot还尝试将物体放入垃圾箱中。对于评估，只有当ClickBot移动对象而不将其放下，然后将其释放到垃圾箱中时，Grasp才被视为成功。最后，作为额外的挑战，我们在杂乱的环境中重复所有连续的拾取和放置试验。我们还使用这些拾放试验来测试两种烧蚀TFOD配置。对于第一个消融配置，我们修改了ClickBot，以从第5.3节中的先前注释开始，用于非杂乱的拾取和放置试验。其次，当学习在杂乱中拾取和放置时，也包括任何新的注释。对于第二次消融配置，我们删除了TFOD，ClickBot仅使用之前的对于此配置，ClickBot还使用0.1置信度分数阈值来增加检测可能性。结果我们在表4中提供了消融拾取和放置结果。标准配置实现了88%的最佳cluttered抓取和拾取放置率（参见图1和图6中的两个结果）。考虑到表3中的学习结果，我们将标准配置相对于其烧蚀对应物的性能差异归因于在杂波中具有最少的拍摄示例，这提高了该特定设置的任务性能。尽管如此，标准配置使用不到一分钟的时间，表4.使用VOSVS基准测试中的工具和食物集的拾取和放置结果所有结果都使用单个RGB相机。方法注释成功率（%）之前TFODVSDE把握VOSVS工具和食品套装基准VOSVS [16]是的没有10050N/AClickBot没有是的10075N/A工具和食品套装，添加了Pick-and-Place功能没有TFOD的是的没有927550ClickBot与Prior是的是的10010075ClickBot没有是的10010075工具和食品集与拾取和放置在杂乱没有TFOD的是的没有756758ClickBot与Prior是的是的10010069ClickBot没有是的10010088每个对象的注释时间大约与注释单个分割掩模所需的时间相同，并且比生成3D模型所需的时间少得多。在表4中的所有任务和设置中，使用TFOD可提高性能。使用TFOD的两种ClickBot配置都非常适合VS和DE，无论混乱与否。如第5.3节所述，ClickBot主要为需要改进的任务请求注释，特别是在使用先前的注释时，其将大多数新注释集中在抓取上。值得注意的是，以抓取为中心的注释还可以提高其他任务（如DE）中的检测性能。5.5. 具有动态位置的我们进行定性实验，以评估点击机器人的移动操作与动态放置位置。对于动态放置，ClickBot使用一组新的放置类标签（例如，Bin或Person）。一旦检测到放置位置，ClickBot就会在该位置释放抓取的对象。我们还使用这些实验来证明ClickBot任务的模块性使用HSR的RGBD头部摄像头进行检测该地图有效地取代了深度任务，而所有其他任务仍然存在。结果在我们的第一个动态取放实验中，我们把杯子和箱子分散在地板上。ClickBot在两个几杆的例子后学会抓住一个杯子，并在两个以上的例子后学会把它放在一个箱子里（我们570图6. 试验结果对于在杂物中拾取和放置（上），ClickBot使用运动和检测来估计弹簧夹的深度（左），并使用基于主动检测的抓取将其放置在箱子中（右）。在动态拾取和放置（底部）中，ClickBot使用其头部摄像头进行检测，以映射和抓取分散的对象（左），然后类似地发现合适的放置位置（右）。表5.面向任务的少镜头目标检测基准评估使用MS-COCO AP度量和k个少数拍摄示例。方法KAPAP50AP75APSAPMAPL114.119.917.20.032.922.8ClickBot218.324.322.50.032.127.7435.046.042.01.757.439.0在图6底部显示了该结果我们将四镜头动态拾取和放置归因于移除深度任务，这会在新的基于放置的查找任务上偏移注释在我们的第二个实验中，ClickBot学会了找回被扔出去的杯子，并使用8个更少的例子（见图2右）将它们返回给一个移动的人作为最后的演示，ClickBot将分散的杯子放置在特定的颜色匹配的箱子中。作为一个额外的挑战，我们在每次放置后移动垃圾箱。ClickBot以每小时124.6次的速度将所有九个杯子放入正确的箱子中。据我们所知，在文献中没有这种基于视觉的移动机器人操作的先例。5.6. 面向任务的少镜头检测基准ClickBot的性能将随着未来的少镜头物体检测方法而提高。因此，我们推出了以任务为中心的新目标检测（TFOD）基准，以帮助指导创新。TFOD Bench-mark可配置为跨12个YCB [6]对象类的k= 1，2，4注释边界框，并且我们的测试集包括杂乱设置中的挑战性示例。TFOD Benchmark使机器人收集的数据和相应的注释公开用于研究，这使对象检测研究人员能够在这种新的以任务为中心的机器人操作环境结果我们在表5中提供了基线TFOD结果，该结果将我们的微调方法（第5.1节）在10次连续试验中进行平均（补充材料中的每个对象基线结果）。我们看到了未来物体检测创新在所有环境中的机会，特别是对于小物体（AP）和一次或两次检测。6. 结论提出了一种基于目标检测的移动操作方法据我们所知，我们的机器人是第一个仅使用检测来操纵物体的机器人。此外，我们的机器人收集数据，因为它执行任务，如果它rec- ognizes检测错误，自动选择一个新的几杆的例子进行注释，以提高性能。通过这种方式，我们的机器人避免了许多基于视觉的错误，同时适应不断变化的物体，任务和环境。我们使用各种实验来评估我们的方法首先，机器人在13.3s内从检测中学习到一种新颖的视觉伺服控制器.此外，我们在重复试验中表明，我们的视觉伺服制定学习速度更快，更可靠，比替代方法。使用学习的视觉控制与基于检测的深度估计，我们的机器人也达到了现有的视觉伺服控制和深度估计基准的最先进的结果。接下来，我们的机器人学习使用单个RGB摄像头抓取杂乱的物体，只有四个少数镜头的例子，实现了88%的整体拾取和放置率。这一结果与最近的最先进的方法[42，46，55，66]相当或更好，这些方法都在固定的工作空间中使用RGBD相机。值得注意的是，我们可以选择性地为RGBD输入配置我们的方法，我们的机器人使用它来清理分散的物体，移动放置位置超过每小时120次拾取。总之，我们的实验表明，我们的基于RGB的移动操作方法的作品，如果少数镜头注释是可以接受的学习新的对象和设置。此外，我们的方法可以补充基于RGBD的方法或在完全3D感测不可用时替代。在未来的工作中，我们将扩大我们的方法，以适应新的挑战性任务（例如，跨多个杂乱房间的操纵）。未来在目标检测方面的创新将帮助我们实现这些结果。因此，我们发布了一个新的目标检测基准，使未来的检测工作，以评估和提高性能，在一个具有挑战性的机器人设置。我们还计划释放未来在新的应用领域增加了该基准。571引用[1] Pooya Abolghasemi，Amir Mazaheri，Mubarak Shah，and Ladislau Boloni.注意！- 通过以任务为中心的视觉注意力来增强深度视觉策略。在IEEE计算机视觉和模式识别会议，2019年。[2] AshutoshAgarwal，AnayMajee，AnbumaniSubramanian和Chetan Arora。利用注意力引导的余弦边界克服少镜头道路目标检测中的类不平衡问题。IEEE/CVF计算机视觉应用冬季会议（WACV）研讨会，2022年。[3] 赛义夫·萨卡奇吉塔·苏克坦卡尔和拉胡尔·苏克坦卡尔。用于室内机器人的目标探测器。在IEEE国际机器人与自动化会议（ICRA），2019年。[4] Jeannette Bohg ， Karol Hausman ， Bharath Sankaran ，Oliver Brock ， Danica Kragic ， Stefan Schaal ， andGaurav S.苏哈梅交互感知：在感知中利用行动，在行动中利用感知。IEEE Transactions on Robotics（TRO），2017年。[5] C. G.布洛伊登一类求解非线性方程组的方法，耳联立方程组。Mathematics of Computation，19（92）：577[6] B. Calli、黑冠草A. Walsman，A.辛格，S。Srinivasa，P.Abbeel和A. M.美元.操纵研究中的基准：使用yale-cmu-bertle 对象和模型集。 IEEE Robotics AutomationMagazine，2015。[7] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测欧洲计算机视觉会议（ECCV），2020年。[8] F. Chaumette和S.哈钦森视觉伺服控制。I. 基本方法。IEEE Robotics Automation Magazine，2006.[9] F. Chaumette和S.哈钦森视觉伺服控制。二.高级方法[教程]。IEEE Robotics Automation Magazine，2007。[10] Hao Chen ， Yali Wang ， Guoyou Wang ， and YuQiao.Lstd：用于物体检测的低拍摄传输检测器AAAIConfer-ence on Artificial Intelligence（AAAI），2018。[11] X.邓，Y. Xiang，中国香薷A.穆萨维安角Eppner，T.Bretl，以及D.狐狸.用于机器人操作的自监督6d物体位姿估计。IEEE机器人与自动化国际会议，2020年。[12] Guogang Du ， Kai Wang ， Shiguo Lian ， and KaiyongZhao.基于视觉的机器人抓取：从物体定位，物体姿态估计到平行抓手的抓取估计人工智能评论，2021年。[13] Mark Everingham，S.M. 放大图片作者：Ali Eslami，Luc Van Gool ， Christo- pher K.I. Williams ， JohnWinn，and Andrew Zisser

下载后可阅读完整内容，剩余1页未读，立即下载