基于渲染比较的关节机器人姿态估计方法

87 浏览量更新于2024-01-22 收藏 1.15MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11654基于渲染比较的Yann Labbe '1Justin Carpentier1 Mathieu Aubry2 Josef Sivic1，31个ENS/Inria2个 LIGM，ENPC3个CIIRC CTUhttps://www.di.ens.fr/willow/research/robopose摘要我们介绍RoboPose，一种从单个RGB图像估计已知关节机器人的关节角度和6D相机到机器人姿态的方法。这是一个重要的问题，授予移动和巡回自治系统的能力，与其他机器人在非仪器化的环境中，特别是在协作机器人的背景下，只使用视觉信息进行交互。这也是令人困惑的，因为机器人具有许多自由度和无限空间的可能配置，这在由单个相机成像时经常导致自遮挡和深度模糊。这项工作的贡献是三方面的。首先，我们引入了一种新的渲染&比较方法，用于估计关节式机器人的6D姿态和关节角度，该关节式机器人可以从合成数据中进行训练，在测试时推广到新的看不见的机器人配置，并且可以应用于各种机器人。其次，我们通过实验证明了机器人参数化对迭代位姿更新的重要性，并设计了一种与机器人结构无关的参数化最后，我们展示了四种不同机器人的现有基准数据集上的实验结果，并证明了我们的方法显著优于现有技术。代码和预训练模型可在项目网页上找到[1]。1. 介绍这项工作的目标是恢复一个已知的articulated机器人的状态在一个3D场景中使用一个单一的RGB图像。机器人状态由（i）其6D姿态，即，- 相对于相机框架的3D平移和3D旋转，以及(ii)机器人关节的关节角度值。问题设置如图1所示。这是一个重要的问题，授予移动和巡回自治系统的能力，与其他机器人在非仪器环境中只使用视觉信息进行交互。例如，在两个或更多个机器人之间的协作任务的上下文中，具有姿势和关节角度的知识1 Inria Paris and De′ partement d'informatique de l'ENS，E ′ colenormale sup e ′ rifecture，CNRS，PSL Research Un i versit y，75005Paris，France.2LIGM，E'coledesPonts，Uni vGustav eEif fel，CNRS，Marne-la-valle' e，France.3布拉格捷克技术大学捷克信息学、机器人学和控制论研究所图1：RoboPose。（a）给定已知关节式机器人在未知配置中的单个RGB图像（左），RoboPose估计关节角度和6D相机到机器人的姿势（刚性平移和旋转），提供机器人在3D场景中的完整状态，这里通过将机器人的关节式CAD模型覆盖在输入图像上（右）来说明。(b)当关节角度在测试时已知时（例如，从机器人的内部测量），RoboPose可以使用它们作为额外的输入来估计6D相机到机器人的姿态，以实现例如没有基准标记的视觉引导操纵。所有其他机器人的值将允许在任务中涉及的机器人之间更好地分配负载[5]。然而，该问题是非常具有挑战性的，因为机器人可以具有许多自由度（DoF）和无限空间的容许配置，这在由单个相机成像时经常导致自遮挡和深度模糊。当前针对该问题的最佳性能方法[28，61]使用深度神经网络在图像中定位固定数量的预定义关键点（通常位于关节处），然后解决2D到3D优化问题以恢复机器人6D姿势[28]或姿势11655[61]的结构然而，对于刚性对象，基于2D关键点的方法[34，3，7，6，45，52，23，50，44，43，18]最近已经被渲染比较方法超越，该方法放弃了2D关键点的显式检测，而是通过将3D模型的渲染视图与输入图像进行比较并迭代地细化对象的6D姿态来使用对象的整个形状受此成功的启发，我们研究如何扩展渲染比较范式的关节对象。这就提出了重大挑战。首先，我们需要估计比唯一的6D姿势更多的自由度。我们在这项工作中考虑的关节式机器人除了在环境中的6D刚性姿态外，还可以有多达15个自由度。其次，构形空间是连续的，因此有无穷多个物体可以出现的构形。因此，不可能在训练期间看到所有配置，并且该方法必须在测试时推广到看不见的配置。第三，变换参数化的选择对于刚性对象的6D姿态估计起着重要作用[31]，并且找到铰接对象的姿态更新的良好参数化是一个关键的技术挑战。捐款. 为了应对这些挑战，我们做出了以下贡献。首先，我们介绍了一种新的渲染比较方法，用于估计关节式机器人的6D姿态和关节角度，该关节式机器人可以从合成数据中进行训练，在测试时推广到新的看不见的机器人配置，并且可以应用于各种各样的机器人（机器人手臂，双手动机器人等）。其次，我们通过实验证明了机器人位姿参数化对迭代位姿更新的重要性，并设计了一种独立于机器人的有效参数化策略。第三，我们在两种设置中应用所提出的方法：（i）利用已知的关节角度（例如，由来自机器人的内部测量提供，诸如关节编码器），仅预测相机到机器人6D姿态，以及（ii）利用未知的关节角度，预测关节角度和相机到机器人6D姿态两者。我们展示了两种设置的现有基准数据集的实验结果，其中包括总共四个不同的机器人，并展示了与现有技术相比的显着改进。2. 相关工作基于RGB图像的刚体6D姿态估计年龄[46，33，34]是计算机视觉中最古老的问题之一。通过从经由局部不变特征[34，3，7，6]获得的2D-3D对应关系或通过模板匹配[14]来估计姿态，已经成功地接近了它。这两种策略都已经使用卷积神经网络（CNN）进行了重新研究。使用CNN在图像中的对象上检测稀疏[45，52，23，50，44，43，18]或密集[56，41，49，59]特征的集合，并且所得到的2D到3D的对应关系用于使用PSNR [29]来恢复从RGB图像进行6D姿态估计的最佳执行方法现在基于渲染比较策略的变体[31，35，38，25，59]，并且正在接近使用深度作为输入的方法的准确性[16，15，31，25]。手眼校准（HEC）[17，13]方法恢复相机相对于机器人的6D姿态。最常见的方法是在图像中检测放置在机器人上已知位置的基准标记[10，9，39然后，通过解决优化问题[40，19，57]，使用已知的关节角度和机器人的运动学描述，将得到的3D到2D对应关系用于恢复相机到机器人的最近的工作已经探索使用CNN [27，28]通过识别特定机器人部件的2D关键点来执行此任务，并使用由此产生的3D到2D对应关系通过PADG恢复手眼校准。在这个方向上的最新工作[28]证明，这种基于学习的方法可以取代更多标准的手眼校准方法[54]，以执行在线校准和对象操作[53]。我们的渲染比较方法显著优于[28]，我们还证明了我们的方法可以在测试时无需已知关节角度的情况下实现具有竞争力的基于深度的关节式物体姿态估计。以前关于这个问题的工作可以分为三类。第一类方法旨在通过使用深度作为输入的主动操纵[21，22，11，36]来发现运动链的属性，并且与我们的方法不同，该方法不能应用于单个图像。第二类方法旨在从单个RGBD图像中恢复运动链的所有参数，包括关节角度，而不知道具体的铰接对象[30，58，2，60]。相比之下，我们专注于使用已知3D模型的设置，例如。一种特殊类型的机器人第三类方法与我们的设置最接近，考虑已知铰接对象的姿态和关节角度估计[37，8，42]，但依赖于深度作为输入，并且仅考虑相对简单的运动链，例如笔记本电脑或绘图仪，其中关节参数仅影响一个部分的姿态。其他人恢复已知关节式机器人部件的关节角度[4，55]，但不恢复相机的6D姿态，并且还依赖于深度。相比之下，我们的方法可以从单个RGB图像中准确地估计具有多个自由度从RGB图像估计机器人姿态和关节角度。据我们所知，只有[61]解决了与我们类似的场景，其中机器人姿势和关节角度是从单个RGB图像中一起估计的。在图像中识别一组预定义的2D关键点，然后通过求解非线性非凸优化问题来恢复6D姿态和关节角度。结果显示在4 DoF机械臂上相比之下，我们描述了一个11656C，aC，a图2：问题定义。给定已知机器人的RGB图像（a），目标是恢复（b）锚定部分Pa相对于相机框架的6D姿态TC，a和已知机器人运动学描述的所有关节角度qi（绿色）。新的渲染比较的方法，这个问题，demon-strate显着改善3D精度和显示结果的机器人与高达15自由度。3. 方法我们提出了我们的渲染比较框架，以恢复一个单一的RGB图像的3D场景中的机器人的状态。我们假设摄像机的内部参数，CAD模型和机器人的运动学描述是已知的。我们首先在3.1节中将问题形式化。然后，我们在第3.2节中概述了我们的方法，并在第3.3节中解释了我们的培训。最后，我们在3.4节中详细介绍了问题参数化中的关键选择。3.1. 问题形式化我们的符号总结在图2中。我们考虑一个已知的机器人组成的刚性部分P0，...，PN，其3D模型已知。关节或运动类型将父零件连接到子零件。给定第i个关节的关节角度qi，我们可以检索相对6D变换在父和子参考框架之间。请注意，为了简单起见，我们只考虑旋转关节，即由单个标量旋转角度qi参数化的关节，但我们的方法并不特定于这种类型的关节。刚性部件和关节定义了机器人的运动树。该运动学描述可用于计算相对运动。机器人任意两个部分之间的6D姿态。在机器人技术中，机器人S的完整状态由运动树的根的关节角度和6D姿态定义。定义机器人相对于根的6D姿态（其姿态独立于关节角度，因为它不是任何关节）是问题参数化中的关键选择，但也是任意的，因为可以使用任何部分作为根来定义等效运动树。我们反而通过（i）锚定件部分Pa的选择，（ii）锚定件相对于相机TC ，a的6D姿态，以及（iii）关节角度q=（q1 ，...，qD）∈RD，其中D是节点数。注意锚的部分可以在我们方法的迭代中改变。我们在第3.4节中讨论了锚点的选择，并通过实验证明它对结果有重要影响。3.2. 用于机器人状态估计的渲染比较我们现在展示我们的迭代深度渲染比较框架，如图3所示。我们迭代地细化状态估计如下。首先，给定状态Sk的当前估计，我们渲染机器人R（Sk）的RGB图像和锚部件的掩模然后我们应用一个深度精炼器网络，其将渲染图像的裁剪和场景的输入RGB图像I作为输入它输出一个新的状态，机器人Sk+1=fθ（Sk，I），以尝试匹配被观察机器人的地面真实状态Sgt与使用渲染比较策略来估计6D刚性物体的姿态[31，59，25]，我们的方法不需要粗略的姿态估计作为初始化。图像渲染和裁剪。为了渲染机器人的图像，我们在训练期间使用固定焦距（定义内在相机矩阵）。渲染完全由机器人和相机矩阵的状态我们没有将完整图像和渲染视图提供给细化器网络，而是通过如下方式裁剪图像来将输入集中在机器人上我们在图像中投影渲染机器人的质心，考虑以该点为中心的纵横比为4/3的最小边界框，该边界框包围投影机器人并将其大小增加40%（详见附录[26]）。该裁剪取决于机器人对在训练期间变化的输入图像的投影，并且因此提供虚拟裁剪相机的有效焦距的增强因此，我们的方法可以应用于相机在测试时，我们在我们的实验中显示不同的本质。- 是的我们将机器人初始化到由关节配置q0和锚定部分a相对于摄像机C的姿态T 0定义的状态S 0。在训练时，我们使用地面真实状态的扰动来定义S 0。在测试时，我们将关节初始化为关节限制的中间，并且初始姿态为T0，使得机器人基座的框架与相机框架和2D由机器人模型的投影定义的边界框近似匹配图像的大小。更多细节见附录[26]。Refiner和状态更新。在迭代k处，细化器预测关节角度qk的更新q qk（由每个关节一个标量角度组成），使得qk+1=qk+<$qk，（1）11657C，aC，aC，aC，a2C，a图3：RoboPose概述。给定单个输入RGB图像，机器人的状态S（6D相机到机器人姿态和关节角度）使用渲染器和细化器模块迭代地更新以匹配输入图像。细化模块将裁剪的观察图像和机器人的渲染以及锚部件的掩模作为输入锚定部分用于更新机器人的刚性6D姿态，而其余部分通过改变它们的请注意，锚点部分在迭代过程中不断变化，使得细化更加健壮。以及当前6D姿态Tk的更新部分，这样，锚注意，仅在锚定部分a上测量6D姿态损失，而机器人的其他部分的对准Tk+1=Tk◦ （2）第一章是通过其关节角度的误差来测量的（而不是C，aC，a其3D点云的对齐）。这解开了在那里，我们遵循DeepIM [31]更新更新时间k。这种参数化解开了旋转和平移预测，但关键取决于一个我们称之为O的参考点在DeepIM中，该点被简单地视为刚性对象的参考系的中心，但是对于具有多个移动部件的铰接对象，没有这样的我们讨论了参考点O的几种可能的选择。3.4并通过实验证明它对结果有特别是，我们天真地选择根部分的参考系是次优的。3.3. 培训在下文中，我们将描述我们的损失函数、合成训练数据、实现细节，并讨论如何最好地使用已知的关节角度（如果可用）。损失函数。我们使用以下损失来训练我们的精炼机网络：K−1L （ θ ） =La （ Tk ， <$Tk ， Tgt ） +λLq （ qk ，<$qk，qgt），（3）k=0其中θ是细化器网络的参数，K是细化算法的最大迭代次数6D姿态损失La与关节角度损失Lq的关系，我们发现这导致更好的收敛。我们将损失除以细化迭代k，以模仿在测试时如何应用细化算法，但是误差梯度不通过渲染和迭代反向传播。最后，为了简单起见，损失（3）是针对单个训练示例编写的，但我们对训练集中的所有示例进行求和训练数据。为了训练精炼器，我们使用由Kuka，Panda，Baxter，OWI-535机器人的先前工作提供的现有数据集[28，61]。所有这些数据集都是合成的，使用基于随机化的类似程序生成[51，32，47，20]。关节角度独立采样，并在其范围内均匀，而无需假设进一步了解他们的测试时间分布。我们添加类似于[25]的数据增强。为了模拟网络的误差，我们通过向地面真实状态添加噪声来对初始状态S进行在细化的前一状态的预测以及初始化时的误差对于姿态，我们从具有10cm标准偏差的中心高斯分布采样平移，并且通过从标准偏差60cm的中心高斯分布采样三个角度来采样旋转。对于关节角度，我们从以下采样加性噪声：gtC，a是锚定器的地面实况6D姿态，qgt是锚定器的地面实况6D姿态。具有标准偏差的中心高斯分布相当于关节活动范围的5%，地面真值关节角度和λ是平衡的超参数。6D姿态损失La和关节角度损失Lq之间的差异。6D姿态损失La测量使用利用Tk变换的Tk获得的预测3D点云与锚点Pa的地面实况3D点云（使用Tgt获得）之间的距离。我们使用与[25]相同的损失来解开旋转，深度和图像平面平移[48]（参见附录[26]中的等式）。对于Lq，我们使用一个简单的 L2 回归损失，Lq=<$qk+<$qk−qgt <$2。对于我们所考虑的机器人的大多数关节，都是20μ m实施细节。我们为每个机器人训练单独的网络。我们使用标准的ResNet-34架构[12]作为深度精炼器的骨干。超参数是λ= 1和K= 3次训练迭代。请注意，在测试时，我们可以执行更多的迭代，我们报告的结果对应于10次迭代。锚点在机器人的5个最大部分中随机抽样，不11658迭代这一选择的动机在3.4节，其他选择在实验中考虑，第4.3节。我们随机初始化网络参数，并使用Adam [24]执行优化，所有网络的过程在附录[26测试时已知的关节角度。先前描述的方法可以在测试时间使用测量的关节角度q0=qgt并且通过忽略关节更新，但是我们通过训练仅预测针对该场景的姿态更新的单独网络观察到更好的结果在关节值已知且恒定的情况下，整个机器人被视为单个且唯一的锚。然而，这个问题仍然不同于经典的刚性物体6D物体姿态估计，因为网络必须推广到训练期间看不到的新3.4. 参数化选择在我们的方法中有两个主要的参数化选择：（i）选择参考点O用于方程（2）中姿态更新的参数化，以及（ii）选择锚定部分以更新6D姿态并在等式（3）中测量姿态损失这些选择对结果有重大影响，如第4节所示。姿势更新的参考点的选择。西姆-与[31]类似，我们将姿态更新参数化为围绕参考点O的旋转和定义为O相对于相机的位置的函数的平移。旋转围绕O的事实是这种选择对需要预测的变换的对平移更新参数的影响更为复杂：它们由O深度的乘法更新和图像中像素的等效更新定义，这也与O深度的真实更新有关（参见附录中的等式[26]）。参考点O的看似自然的选择将是机器人上的物理点，例如机器人的基部或锚定部分的中心。然而，与刚性对象的情况相反，如果该部分不可见或部分被遮挡，则网络无法精确地推断参考O的位置，因此无法预测相关的在实验中，我们表明它是更好地使用O的质心的估计机器人状态，考虑到估计的关节配置，可以更可靠地估计。锚定部件的选择。在图4中示出了用于计算等式（3）中的6D姿态损失的锚部分Pa的选择的影响。我们探索几个在我们的实验中，锚部分的选择，并表明这种选择对结果有显着的影响由于最佳选择取决于机器人和观察到的姿势，我们引入了一种策略，在训练和训练期间，我们在机器人的最大部分中随机选择锚点。图4：锚定部件的选择。(a)我们分析了锚定部分的选择如何影响刚性对准的复杂性，以及关节角度更新的复杂性，以将机器人的初始状态（绿色）与机器人的目标状态（红色）对准。（b）我们示出了所需的刚性姿态更新（由旋转和平移组成）和所需的关节更新，用于锚定部分的两个不同选择（使用虚线示出）。在（1）中，锚部件所需的姿态更新包括沿x和y轴（蓝色）连续应用旋转R和平移t在（2）中，仅使用沿着y轴的平移来对准锚定部分，从而导致与（1）相比更简单的解决方案。这些例子说明，锚的选择可以对对齐问题的复杂性产生重大细化，并表明，平均而言，它的表现类似于或略好于一个单一的唯一的锚在测试集上的最佳预言机的选择。4. 实验我们在以下两个任务的最新基准上评估了我们的方法：（i）三种广泛使用的操纵器（Kuka iiwa 7，Rethink机器人Baxter，Franka Panda）的相机到机器人6D姿态估计[28]，以及（ii）低成本4 DoF机器人手臂OWI-535的完整状态估计[61]。在第4.1节中，我们考虑第一个任务，其中使用具有固定已知关节角度的机器人的图像来估计6D相机到机器人的姿态。我们证明了我们的方法优于最先进的DREAM方法[28]。在第4.2节中，我们评估了我们的完整方法，其中6D姿势和关节角度都是未知的。我们表明，我们的方法在描述低成本4 DoF机器人的数据集上优于最先进的方法[61]，并且它可以恢复更复杂的机器人操纵器的6D姿态和最后，第4.3节分析了第3.4节中讨论的参数化选择。4.1. 具有已知关节角度的数据集和指标。我们关注的是最近通过用于单视图相机到机器人校准的最先进方法DREAM引入的带有6D姿态和关节角度测量值注释的数据集[28]。我们使用提供的训练数据集，其中包含由域11659机器人数据集信息机器人（自由度）真实#图像#6D构成凸轮。[28]第二十八话VGG19-F[28]第28话我的世界VGG19-Q ResNet101-H ResNet34我们未知角度Baxter DR百特（15）×59825982GL-75.47-86.6032.35库卡DR库卡照片汽车旅馆（7）汽车旅馆（7）××5997599959975999GLGL----73.3072.1489.6286.8780.4478.62熊猫DR熊猫（8）×59985998GL81.3377.8282.8992.7082.19熊猫照片熊猫（8）×59975997GL79.5374.3081.0989.8977.15熊猫3CAM-AK熊猫（8）C63941AK68.9152.3860.5276.5366.86熊猫3CAM-XK熊猫（8）C49661XK24.3637.4764.0185.9778.66熊猫3CAM-RS熊猫（8）C59441Rs76.1377.9878.8376.9077.06熊猫ORB熊猫（8）C3231527Rs61.9357.0969.0580.5468.87表1：RoboPose（我们的）与最先进的方法DREAM [28]的比较，用于使用3D重建ADD度量的相机到机器人6D姿态估计任务（越高越好）。机器人关节配置被假设为已知的（结果为黑色），并且在数据集中的每个图像中是不同的，但是相机相对于机器人的姿态可以是固定的（6D姿态的数量）。考虑多个摄像头来捕获输入RGB图像：合成渲染（GL），以及真正的Microsoft Azure（AK），Microsoft Kinect360（XK）和Intel RealSense（RS），它们都具有不同的内部参数。我们的蓝色结果不使用地面真实关节角度（见第4.2节），机器人3D重建的准确性使用估计的6D姿势和关节角度进行评估随机化测试分裂以及photorealistic合成测试图像（照片）。对于熊猫机器人，也可以使用真实的数据集。Panda 3CAM数据集显示固定机器人执行捕获的各种运动由3个不同焦距和分辨率的固定相机具有更多变化的视点的最大数据集是Panda-ORB，其具有从27个视点捕获的32，315个真实图像，每个图像中具有不同的关节角度。我们使用直接测量姿态估计精度的3D重建ADD度量，比较在地面实况和预测姿态中机器人的关节位置处定义的3D关键点之间的距离关于我们与DREAM [28]比较的评估方案的确切细节，请参阅附录[26]与梦想的比较[28]。我们使用与[28]相同的合成数据集为每个机器人训练一个网络，并在表1中报告我们的结果。我们的方法在数据集和机器人上实现了显着的改进，除了Panda 3CAM-RS，其中ResNet 101- H变体的性能[28在Panda 3CAM-AK和Panda 3CAM-XK数据集上，我们方法的性能显著高于[ 28 ]的ResNet 101-H模型（例如+21。3CAM-XK上的96），这表明基于2D关键点的[28]方法更灵敏到一些视点或相机参数。请注意，由于我们的裁剪策略在训练期间提供了有效焦距的增强，我们使用合成GL相机训练的方法可以在测试时应用于具有不同内在特性的不同真实相机。在Panda-ORB（覆盖多个摄像机视点的最大真实数据集）上，我们的方法实现了11. 五分。我们在Kuka和Baxter机器人的合成数据集上的性能也明显高于[28]。我们认为，造成这一规模表2：机器人轨迹的Panda-ORB视频序列的迭代细化和运行时间的好处。我们报告ADD和运行时间（每秒帧数，FPS）为不同数量的细化迭代K。帧被单独考虑，或者估计被用于在后续帧中初始化细化器（在线），而无需额外的时间滤波。改进之处在于，我们的渲染比较方法可以直接使用在观察到的配置中渲染的整个机器人的形状来估计姿势，而不是检测少量的关键点。开始了。在表2中，我们报告了我们的方法在Panda-ORB数据集上的运行时间，该数据集由从27个不同视点捕获的机器人运动视频组成。第一个观察结果是，精度随着测试时使用的细化迭代次数K而增加，并且最显著的改进是在前3次迭代期间。在训练过程中使用多次网络迭代的重要性在附录[26]中进一步讨论我们还报告了我们的方法，利用时间连续性的在线版本。它在视频的第一帧上以K= 10次迭代运行细化器，然后使用输出姿态作为下一帧的初始化，依此类推，而无需对所得6D姿态进行任何附加的时间滤波该版本以每秒16帧（FPS）的速度运行，并实现了与独立考虑每帧并以1 FPS运行的完整方法相似的性能4.2. 6D姿态和关节角度估计我们现在评估我们的方法在更具挑战性的情况下的性能，其中机器人关节角度是未知的，需要与6D姿态联合估计我们的（单个框架）K=1 K=2 K=3 K=5 K=10Ours（在线）K=1[28]第二十八话ResNet101-H添加 28.5 72.8 79.1 80.4八十点七80.669.111660图5：四个不同机器人的RoboPose 6D姿态和关节角度估计的定性结果。(a)来自CRAVES-lab（第一行）和CRAVES-youtube（第二行和第三行）数据集的OWI-535机器人，（b）来自Panda 3CAM数据集的Panda机器人，以及（c）来自互联网的示例图像上的Panda，Baxter和Kuka机器人请参见附录中的其他结果[26]。渴望渴望我们的，合成人[61]第61话：我的世界f=500 f=1000 f=1500 f=2000f=最佳81.6188.8985.1686.9684.8783.5791.48表4：CRAVES-Youtube数据集上的PCK@0.2 [61]。表3：CRAVES-lab [61]数据集的结果，关节角度未知。我们报告数据集的所有图像的平均误差，或者根据相对于地面实况的最佳关节角度精度选择的前50%图像的平均误差网络仅在合成数据（synt）上训练，或者也使用机器人的未注释真实图像（synt+real*）。一张RGB图像。图5中显示了考虑的数据集以及从网络上抓取的真实图像的定性结果。请参阅附录[26]中的其他定性示例，以及项目页面[1]中的一部电影，该电影展示了我们对几个视频的预测。与CRAVES比较[61]。CRAVES [61]是这项任务的最先进方法。我们考虑 [61] 中使用的两个数据集。CRAVES-lab在实验室环境中展示了OWI- 535 4DoF，包含20，000个RGB图像，其中428个关键帧使用2D机器人关键点，地面真实关节角度（我们的方法未使用）和相机固有参数进行注释。CRAVES-youtube是第二个包含从YouTube抓取的真实世界图像的数据集，这些图像描绘了视角、照明条件和机器人外观的巨大变化。它包含275帧注释2D关键点，但没有相机内在参数，6D姿势或关节角度地面实况。除了测量6D姿态和关节角度估计的度量，我们报告了2D关键点度量，PCK（关键点的百分比），如下[61]。我们参考附录[26]了解指标和评估方案的详细信息。我们比较了CRAVES的两个变体，一个只在合成图像上训练（synt），另一个也需要真实的无注释图像（synt+real*）。我们的方法仅使用提供的5000张合成图像进行训练。我们在表3中报告了CRAVES-lab的结果。为了与2D关键点度量PCK@0.2进行比较，我们在图像中投影我们估计的机器人状态的3D关键点。在这个指标上，我们的方法优于仅在合成图像上训练的CRAVES，并获得了接近完美的分数，类似于他们用真实图像训练的方法更重要的是，与3D度量（关节角度误差和平移/旋转误差）相比，我们获得了更好的结果。当考虑数据集的所有图像时，CRAVES实现了高平均误差，这是由于求解用于在给定2D关键点位置的情况下恢复6D姿态和关节角度的非线性非凸2D到3D优化问题的复杂性。我们的方法训练直接预测6D姿态和关节角度，在精度上取得了很大的提高。我们将翻译误差减少了10倍，证明了对深度模糊的鲁棒性。我们还在CRAVES-youtube上评估了我们的方法在该数据集上，相机固有参数是未知的，并且不能用于投影估计的机器人姿势美国[61]合成音VES [61]t+实数 *我们syntPCK@0.295.6699.5599.28误差所有前50%所有前50%关节（度）11.34.745.443.34跨xyz。（厘米）10.15.520.630.49变性人。（厘米）19.610.51.341.0111661参考点体积ADD锚钉体积添加锚钉添加（立方厘米）（立方厘米）根部P057.44中部P469.54手部分P763.40随机（全部）64.24随机（5个最大）68.87（一）P7637 0.00质心（我们的）-80.54P763763.40（一）随机（3个最大）71.33（b）第（1）款（b）第（1）款表5：参考点O的选择分析。如第4.1节所述，使用已知的关节角度对网络进行训练和评估。参考点被放置在（a）一个简单选择的部分和（b）5个最大的部分之一。我们的策略，使用成像机器人的质心执行最好的。2D图像。因此，我们报告了数据集所有图像的（固定）焦距的不同假设的结果，以及使用为每个图像选择最佳焦距的oracle（f=best）。结果报告于表4中。对于2D关键点，我们的方法f= 1000实现优于CRAVES只训练合成图像的结果，也优于CRAVES训练与真实数据时，选择最佳焦距。3D地面实况不可用，但与CRAVES-lab类似，我们可以期待3D精度的大幅提高。7DoF+机器人实验我们还训练了我们的方法，用于联合预测第4.1节中考虑的机器人的6D姿态和关节角度。我们使用ADD评估6D姿态和关节角度精度。结果在表1中以蓝色（最后一列）报告。对于7DoF机器人手臂（Kuka和Panda），这些结果证明了与[28]相比具有竞争力或优越的ADD精度，用于推断已知机器人的3D几何形状，但我们的方法不需要已知的关节角度。更复杂的15 DoF Baxter机器人仍然具有挑战性，尽管我们的定性结果通常显示合理的对齐。我们在附录[26]中讨论了我们方法的失效模式。4.3. 参数化选择我们在Panda-ORB数据集上分析了我们的方法：它是最大的真实数据集，包含关节角度和相机视角的显着变化，并且Panda机器人具有8 DoF的长运动链。我们研究了用于6D姿态更新的参考点O的选择和锚定部分的选择（参见第3.4节）。参考点。我们训练不同的网络，参考点在根P0的原点，运动链P4中间的部分和运动链P7的末端。结果报告于表5（a）中我们观察到，性能确实取决于参考点以“手”部分（P7，末端执行器）为参考点训练的网络表6：锚钉部件选择分析。如第4.2节所述，使用未知的关节角度对网络进行训练和评估。(a)在培训和测试期间使用一个固定锚钉部件时的结果。(b)在训练和测试的细化过程中，在给定的一组最大的机器人部件因为该部分通常难以在训练图像中识别，并且由于机器人不是刚性物体，因此不能从任何其他部分推断出其姿态。我们研究了在表5（b）中的五个最大部件之一（通过与2D可见性相关的3D体积测量）上拾取参考点，再次证明了我们使用机器人质心的方法比这些特定部件中的任何一个都更好。锚定部件的选择。表6报告了在培训和测试期间使用不同策略选择锚钉部件的结果。首先，在6（a）中，我们表明选择不同的部分作为一个（固定）锚点会导致所得性能的显着变化为了缓解这个问题，我们在6（b）中考虑了一种策略，其中在每次迭代（在训练和测试期间）在机器人部件中随机挑选锚点这一策略的表现比以往任何时候都单纯地选择根P0作为锚点。通过将采样锚限制在最大的部分，我们的自动策略也可以比性能最好的部分P4表现得更好。5. 结论我们已经引入了一种新的渲染比较方法来估计关节角度和6D摄像机到机器人的关节式机器人的姿态从一个单一的图像展示了显着的改进比现有的最先进的这个问题。这些结果在视觉引导操作或协作机器人中开辟了令人兴奋的应用，而无需基准标记或耗时的手眼校准。为了刺激这些应用，我们发布了训练代码以及常用机器人的预训练模型致谢。这项工作得到了GENCI-IDRIS（赠款011011181 R1）HPC资源、IMPACT项目下的欧洲区域发展基金（注册号：CZ.02.1.01/0.0/0.0/15 003/0000468）、Louis VuittonENS人工智能主席和法国政府（作为“未来投资”计划的一部分，由法国国家研究机构管理）的部分支持。参考ANR-19-P3 IA-0001（PRAIRIE 3IA研究所）。参考点ADD在P5309274.40P5309268.01在根P0上75.02对P2281275.06P2281265.56在中间的P479.45在P1276374.89P1276360.40手头P700.00在P0266075.02均p0266057.44质心（我们的）80.54在P4219879.45P4219869.5411662引用[1] 项目页面：https：www.di.ens.fr/willow/research/robopose/.第1、7条[2] Ben Abbatemarteo Stefanie Tellex和George Konidaris学习将运动学模型推广到新的物体。在CoRL，2019年。2[3] 赫伯特·贝、廷恩·图伊特拉尔斯和吕克·范好极了冲浪：加快了强大的功能。在ECCV，2006年。2[4] 珍妮特·博格，哈维尔·罗梅罗，亚历山大·赫尔佐格，斯特凡·沙尔.机器人手臂位姿估计透过像素式零件分类。InICRA，2014. 2[5] 法布里齐奥·卡卡瓦莱和内山胜。合作管理。机器人手册Springer，2016. 1[6] 阿尔瓦罗·科莱，曼努埃尔·马丁内斯和悉达多·斯里尼瓦萨。轻便摩托车框架：对象识别和姿势估计操作。国际机器人研究杂志，2011年。2[7] A Collet和S S Srinivasa有效的多视角物体识别和全姿态估计。载于ICRA，2010年。2[8] Karthik Desingh，Shiyang Lu，Anthony Opipari和OdestChadwicke Jenkins。使用有效的非参数置信度传播对关节对象进行因子化姿态估计在ICRA，2019年。2[9] 马克·菲亚拉。Artag，使用数字技术的基准标记系统。在CVPR，2005年。2[10] 加里多·胡拉多先生，拉法埃尔·穆恩·萨利纳斯先生，弗朗西斯科·何塞·马德里·库埃瓦斯先生，曼努埃尔·杰·马恩·吉姆·内兹先生。在遮挡情况下自动模式识别，2014年。2[11] 卡罗尔·豪斯曼，斯科特·尼库姆，莎拉·奥森托斯基，高拉夫·S·苏哈特梅.通过交互感知的主动发音模型估计InICRA，2015. 2[12] 何开明，张翔宇，任少卿，孙健。用于图像识别的深度残差学习在CVPR，2016年。4[13] J Heller et al.基于L-∞最小化的运动恢复结构手眼在CVPR，2011年。2[14] S Hinterstoisser ， S Holzer ， C Cagniart ， S Ilic ， KKonolige，N Navab和V Lepetit。多模态模板用于在严重杂乱的场景中实时检测无纹理物体。载于ICCV，2011年。2[15] Tomas Hodan，Frank Michel，Eric Brachmann，WadimKehl，Anders GlentBuch，Dirk Kraft，Bertram Drost，Joel Vidal ， Stephan Ihrke ， Xenophon Zabulis ， etal.Bop：6D物体姿态估计的基准在ECCV，2018年。2[16] 汤姆·马的《霍德一个人》，马丁·桑德姆·埃耶尔，伯特伦·德罗斯特，扬·拉布·埃，埃里克·布拉克曼，弗兰克·米歇尔，卡斯滕·罗特和吉尔·马塔斯。BOP挑战20206D对象定位。在ECCVW，2020年。2[17] 拉杜·霍劳和法迪·多奈卡手眼校准国际机器人研究杂志，1995。2[18] 胡因林，约阿希姆·雨果诺特，帕斯卡·福阿，马蒂厄·萨尔茨曼。分割驱动的6d物体姿态估计。在CVPR，2019年。2[19] 亚尔莫·伊洛宁和维尔·基尔基。强大的机器人摄像机校准。InICAR，2011. 211663[20] Stephen James and Paul et al. Sim-to-Real via Sim-to-Sim：通过随机到规范适应网络实现数据高效的机器人抓取CVPR，2019年。4[21] 多夫·卡茨和奥利弗·布洛克用交互式感知操纵铰接的载于ICRA，2008年。2[22] Dov Katz ， Moslem Kazemi ， J Andrew Bagnell 和Anthony Stentz。未知3d铰接物体的交互式分割、跟踪和运动学建模。InICRA，2013. 2[23] Wadim Kehl，Fabian Manhardt，Federico Tombari，Slobodan Ilic，and Nassir Navab.Ssd-6d：使基于rgb的3d检测和6d姿

下载后可阅读完整内容，剩余1页未读，立即下载