基于关键点的6D姿态检测网络及其应用

103 浏览量更新于2023-10-25 收藏 1.06MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14134用于检测3D对象关键点和6D姿态的学习深度网络赵万庆，张少波，关子玉西北大学中国西安{zhaowq@，zhangshaobo@stumail. z i y u g u a n@}nwu.edu.cn西安电子科技大学中国西安ywzhao@mail.xidian.edu.cn中国西安西北pjy@nwu.edu.cnJianping FanUNC-CharlotteNC28223，USAjfan@uncc.edu摘要最先进的6D对象姿态检测方法使用卷积神经网络从RGB图像估计对象的6D姿态。然而，它们需要大量具有显式3D注释的图像，例如6D姿态、3D边界框和3D关键点，这些注释通过手动标记获得或从3D CAD模型生成的合成图像推断。对大量图像进行手工标注是一项繁重的工作，而且我们通常没有真实环境中物体的相应3D CAD模型。在本文中，我们开发了一种基于关键点的6D对象姿态检测方法（及其深层网络），称为基于对象关键点的POS估计（OK-POSE）。OK-POSE采用视点之间的相对变换进行训练。具体地说，我们使用具有对象注释和它们的视点之间的相对变换信息的图像对然后，可以使用具有参考视点的基于关键点的几何推理方法来估计6D对象姿态相对变换信息可以容易地从任何廉价的双目相机或大多数智能手机设备获得，从而大大降低了标记成本。实验表明，与依赖于对象这些结果表明，当没有3D CAD模型或大量3D注释时，我们的方法可以用作合适的替代方案1. 介绍6D对象姿态检测旨在识别对象的3D位置和方向。它是一个关键的COM-共同通讯作者在一些有前途的计算机视觉应用中，如增强现实，机器人操作和自动驾驶。依赖于从RGB-D相机获取的深度图像的传统方法是相当稳健的[3，15]。然而，这样的相机在帧速率、视场、分辨率和深度范围方面具有限制，使得它们难以检测小的、透明的或快速移动的对象。或者，基于RGB图像的方法没有这些限制，但要实现高精度更具挑战性。该方向的早期方法通过局部特征和2D-3D对应的匹配来计算6D对象姿态[2，24]。然而，局部特征的匹配是耗时且容易出错的。此外，他们失败的对象具有不良的几何形状或纹理，因为他们需要有足够的纹理的对象上提取鲁棒的局部特征。最近，深度卷积神经网络（CNN）技术已被证明在处理RGB图像中的对象检测方面具有更好的性能，并已用于改进6D对象姿态检测[14，33]。大多数基于CNN的方法的主要思想是从具有显式3D注释（诸如6D姿态、3D边界框和3D关键点）的图像学习图像与其6D对象姿态之间的映射函数，所述3D注释通过人工标记获得或从由3D CAD模型生成的合成图像推断。这些方法是有效的，但需要大量的标记工作或目标对象的3D CAD模型的存在对大量图像进行手工标注是一项繁重的工作，而且我们通常没有真实环境中物体的相应三维CAD模型与上述显式3D注释相比，具有指示3D空间中的视点之间的位置和旋转变换的相对变换例如，可以从双目相机捕获具有不同视点的图像对，并且可以从双目相机捕获具有不同视点的图像对中的相对变换。14135可以从照相机变换中获取形成。此外，还可以使用安装在大多数智能手机中的惯性导航系统（INS）从连续捕获的照片中自动测量。如果这种信息可以用于6D姿态检测，我们可以显着降低训练成本，使相关应用更实用。以前，相对变换经常用于基于手动特征的方法[39，10]，这些方法隐藏2D关键点（例如，通过对极几何学[38]将图像上的SIFT关键点（2D坐标加深度）转换为这样的3D关键点可以用于几何推理和6D对象姿态检测。然而，这些方法受到手动局部特征的限制相对变换信息也被用作基于CNN的3D关键点检测方法[32]中然而，这种方法仍然需要3D CAD模型来生成合成训练图像。对于真实图像，其性能可能会降低。在本文中，我们开发了一种基于关键点的6D对象姿态检测方法（及其深度网络），称为基于对象Keypoint的POS估计（OK-POSE1）。OK-POSE学习自动检测具有不变性，独特性和局部性的物体的3D关键点-与估计真实RGB图像中的6D对象姿势有关与以前的6D姿态检测方法不同，我们的方法从图像对之间的相对变换而不是显式的3D标记信息或3D CAD模型来学习3D关键点。考虑到真实图像通常包含多个对象，OK-POSE执行两个任务，即关键点检测和对象检测。对于关键点检测任务，其分支（称为关键点分支）由一系列精心设计的关键点损失函数训练，包括独特性损失、深度回归损失、交叉视图一致性损失、分离损失和变换恢复损失。这些损失函数的一般目标是寻找最佳3D关键点，这些关键点在没有关键点注释的情况下跨不同视点一致地位于对象的相同部分上，即使它们是不可见的对于对象检测任务，我们设计了其模型分支（称为对象分支）和损失函数，类似于Faster R-cnn[27]。对象分支为检测到的关键点提供类别指示。在推理阶段，我们的网络将RGB图像作为输入，并检测输入图像中目标对象的类别，2D位置和3D关键点，通过这些关键点，可以从每个不同对象的参考图像中的相应关键点几何推断6D对象姿态。参考图像以物体的姿态信息为基准进行标注由于我们的网络可以预测图像中的所有3D关键点，包括不可见的关键点，因此在推理阶段只需一个参考图像就足够了。实验1我们将该方法及其深度网络称为OK-POSE在多个基准数据集上的结果已经证明，OK-POSE实现了相对准确的姿态检测。与依赖于对象这些结果表明，当没有3D CAD模型或大量3D注释时，我们的方法可以用作2. 相关工作以往的工作一般可以分为基于人工特征的方法和基于CNN的方法。基于手动特征的方法。基于手动特征的方法[28，2，24]通常包括两个阶段。在第一阶段中，从图像中提取几个局部特征（例如SIFT），并与已知3D位置的特征进行匹配。在第二阶段中，几何推理框架（例如Pestrian算法[18]）将使用2D-3D对应关系来恢复6D对象姿态。Brachmann等人[4]提出使用回归森林来预测物体的密集坐标和形状，然后恢复其姿态。由于局部特征的不变性、区分性和局部性，基于人工特征的方法通常对遮挡和杂乱场景具有鲁棒性然而，这些方法中的特征匹配过程是容易出错且耗时的。此外，它们依赖于高分辨率图像中的纹理对象。基于CNN的方法。近年来，基于CNN的方法在图像分类[17，30]和对象检测[27，20]等视觉识别任务中显示出巨大的潜力。还有一些方法提出使用CNN解决6D对象姿态检测[26，16]。[36，16]中的方法将6D对象姿态检测视为姿态回归问题，使用CNN直接预测6D姿态。然而，直接姿态回归遭受困难，例如，如果旋转被参数化为矩阵，则难以满足对象旋转的正交约束为了避免这个问题，[14，5]通过离散化姿态空间将6D对象姿态检测转换为姿态分类问题。这些方法使用CNN来输出姿态空间中的概率分布，并将其与显式3D信息相关联以回归6D姿态。其他方法[33，25]是包含用于对象检测的CNN架构的6D对象姿态检测流水线。这些方法使用一些现有的CNN [20，7]来定位图像中的对象并提取对象上的2D关键点[34]，然后使用Pestrian算法计算这些方法通过以显式3D信息注释的形式利用监督是有效的。然而，用明确的3D信息标记图像的工作是非常高的，需要专业知识和复杂的设置[12]。为了生成更多标记的训练数据，一些方法[31，32]使用3D CAD模型渲染合成图像。在14136⌊·⌋××在真实的环境中，我们通常没有真实物体的3D CAD模型。与我们更相关的方法是关键点网络[32]，它直接从图像对的相对变换中发现几何一致的表示第i个关键点在地图中的每个位置（u，v）出现的可能性。第i个k个y点x∈i，y∈i的期望位置可以通过以下等式计算：Σ Σx=u·P（u，v），y=v·P（u，v）（1）但是，keypointnet仍然需要3D CAD模型来重新绘制-我我u，v我我u，v使用透明背景的训练图像。培训可能会降低真实图像上的检测性能。此外，由于它不能检测物体，哪里是楼层接线员为了生成3D关键点，我们还预测每个位置的深度值。第i个k∈y点的深度是在（x∈，y∈）处的深度值.复杂的背景，它需要额外的对象检测ii流水线的多对象姿态检测任务。我们的方法将对象和关键点检测集成到端到端网络中。它探索更丰富的信息（例如，视觉关系和对极几何）来学习更可靠和鲁棒的关键点，而无需3D CAD模型或显式3D注释图像。3. 的方法我们的目标是推断的6D对象构成在真实的RGB图像的基础上，从视点之间的相对变换学习的3D关键点。OK-POSE网络由主干、对象分支和关键点分支三部分组成。骨干使用以提取整个图像上的特征，并且在对象分支和关键点分支之间共享。这两个分支分别对应于对象检测和3D关键点检测任务。给定具有已知相对变换的相同对象的两个图像，我们训练网络以预测两个图像中的两个3D关键点列表，这两个图像在视觉上与目标对象一致，并且能够恢复变换。在推理过程中，我们的网络检测输入图像的3D关键点。然后，我们使用一个参考图像与3D关键点检测的OK-POSE推断其与输入图像的变换关系，并估计6D对象的姿态在输入图像相应。参考图像包含真实姿态作为基准。图1显示了我们的方法的概述我们将在下面的小节中详细介绍图1中的每个面板。3.1. 网络对于主干，我们使用ResNet101 [9]和特征金字塔网络（FPN）[19]来提取整个图像的特征。FPN使用具有横向连接的自上而下的架构来从单尺度输入构建网络内特征金字塔我们通过区域建议网络（RPN）[27]提取被识别为潜在对象的感兴趣区域ResNet、FPN和RPN的组合作为骨干被广泛用于特征提取的对象检测任务[7，27]和姿态检测任务[5，14]它为我们的网络中的对象和关键点检测提供了关键点分支将ROI作为输入，并为每个关键点输出概率分布图Pi（u_i，v_i），关键点分支包含四个连续的卷积，每个层都有64个输出通道和3个3个ROI特征图后的内核。每个卷积层后面都有一个relu函数[22]。为了扩展从最后一个卷积层获得的特征图的大小，我们使用一个去卷积层（步长为2的3个输出层有N+ 1个通道，前N个通道是N个关键点的未归一化分布图，最后一个通道包含深度预测。前N个通道通过空间softmax产生Pi。该分支的输出是类不可知的，即，该分支输出与类别无关的关键点。我们根据经验发现，这种设计降低了模型复杂性和预测时间，而它几乎是有效的类特定的设计（即，具有C（N+ 1）维输出通道，其中C是类的数目）。该观察结果与一些基于CNN的图像分割和姿态回归方法中的观察结果培训计划将在下一小节中详述。对于对象分支，我们遵循Faster R-cnn [27]。将输出与从ROI检测到的关键点捆绑的每个预测对象，并且通过使用预测对象的边界框将[xi，yi]映射回图像空间来获得第i个key点的像素坐标[xi，yi][8]。3.2. 通过相对变换学习关键点我们给出一个物体的像对（I，I′），在它们的视点之间具有已知的相对变换T3×3吨 3×1吨T=（2）0 1其中R和t表示3D旋转和平移恢复。我们的目标是预测两个具有几何和视觉一致性的图像中的3D关键点的两个最佳列表。几何一致性意味着3D关键点应该保持相对于对象的旋转不变性、位置不变性和比例不变性。视觉一致性意味着匹配的关键点的位置应该共享相似的视觉外观。为此，我们考虑以下标准来学习正确的3D关键点。- 跨视图一致性损失，用于测量相对变换下两个关键点列表之间的差异。14137我我我我∈（a）网络结构对象检测bbox（b）培训阶段图像对类关键点检测骨干Tgt. -是的-是的关键点的概率图多任务丢失RGB输入关键点检测(c)推理参考计算Ttranss从关键点通过T变换恢复姿势kabsch算法图1.我们提出的方法的概述面板（a）显示了网络的架构图（b）示出了训练阶段，其中使用多任务损失和相对变换Tgt来训练网络。面板（c）表示姿势推断的示例，其中通过将相对变换Ttranss乘以参考姿势来恢复姿势。通过Kabsch算法[13]从输入图像和参考上检测到的关键点计算T transs。- 一种深度回归损失，它最小化预测关键点深度和深度计算之间的距离a平滑L1损失（SL1）[6]如下：1ΣN根据epipolar几何的相对变换来计算Lcon=Ni=1SL1（[xi，yi，x′，y′]<$−[xi，yi，x′，y′]<$）（6）- 一个独特性的损失，鼓励关键点，在视觉上有区别的区域上涂抹。- 分离损失，以避免关键点位于相同的3D位置。- 转换恢复损失，这会对从两个关键点列表恢复的变换R′，t′与真实R，t之间的差。下面，我们将详细描述每个损失函数。跨视图一致性损失这种损失是为了确保通过相对变换，在I中检测到的每个关键点（x，y，z）被投影到与其在I′中对应的关键点（x′，y′，z′）相同的像素位置，反之亦然。这样的投影可以通过以下关系建立K−1[x ， y ， z ， 1]=TK−1[x′ ， y′ ， z′ ， 1]（3）其中KR4×4表示摄像机的内部参数。这个公式意味着对应的关键点应该投影到相机3D空间中的相同位置。从这个关系，我们可以建立上述预测：[x，y，z，1]k=KTK−1[x′，y′，z′，1]k，[xk，yk，zk，1]k（4）[x′，y′，z′，1]n=KT−1K−1[x，y，z，1]n，[xn′，yn′，zn′，1]n在此损失函数和具有广泛变换的训练对的帮助下，学习的3D关键点将稳定地落在对象的一致位置上，即使该位置在图像中不可见这使得每个对象仅具有一个参考图像的鲁棒为了预测3D关键点，我们还需要学习深度信息。在我们的方法中，关键点的深度可以通过图像对（I，I′）和相对变换T来估计。对极几何[38]描述了3D关键点与给定相对变换的2D投影T. 基于该关系，给定两个对应关键点的2D投影：e= [x，y，1]，e′= [x′，y′，1]，我们可以计算两个关键点的深度d，d′：d′eRe′+et= 0（7）de=d′Re′+t（8）其中e是e的斜对称矩阵。我们求解Eq。（7）用最小二乘法求出 d′ ，然后用方程（ 1 ）求出深度 d（八）、我们将d和d′作为固定深度，以优化I和I′中两个对应关键点的预测深度z和z′。深度回归损失定义为：（五）Ldep=1ΣNΣΣ（zi−di）2+（z′−d′）2（九）因此，交叉视图一致性损失定义为：Ni ii=114138）∈×（u，v）我我我我我⊤ ⊤2F独特性损失为了提高检测到的关键点的鲁棒性，施加独特性损失以鼓励关键点出现在视觉上显著的区域中并且具有显著性、易于检测和多样性的特性我们的目标是找到具有这些性质的斑点状点[1]。与图像中的周围区域相比，斑点状点在诸如亮度或颜色的属性上不同。给定图像I，我们得到一个分布非常相似的地点。变换恢复损失准确估计图像和参考之间的相对变换对于6D姿态检测至关重要因此，我们还设置了变换恢复损失，其使用预测的关键点来测量我们使用测地线距离[21]作为lose函数：¨′⊤¨<$log（R R<$′2映射l（u，v）（0，1），其中l（u，v）= 1表示该像素（u，v）是关键点候选。为了产生映射l（u，v），L反式=+2我们首先为每个像素建立一个Hessian矩阵Hessian矩阵反映像素与其周围像素之间的变化。具有高斯尺度λ的（u，v）的海森矩阵H（（u，v），λ）被定义为：此函数测量估计的相对旋转R′和地面真值R以及估计的平移t′和地面真值t之间的欧几里得距离。 R′和t′可以由下式计算：H（（u，v），λ）=Σ卢乌（（u，v），λ）LuvΣ（（u，v），λ）（十）通过Kabsch算法预测的关键点的两个列表[13]。Luv（（u，v），λ）Lvv（（v，v），λ）其中Luu（（u，v），λ）、Luv（（u，v），λ）和Lvv（（u，v），λ）是像素（u，v）处的图像I与尺度 λ 的卷积的二阶导数。然后计算每个像素的Hessian矩阵的确定性通过应用非最大抑制（nms）[23]，如果det（H（（u，v），λ））为3.3. 训练和6D姿势推断训练：为了训练我们的网络，定义了一个多任务损失来联合训练对象和关键点分支。形式上，给定RPN[27]生成的一组正和负ROI，总损失函数定义为：在它的3 × 3邻域中的最大值，它被认为是斑点状点。ΣL（阳性，阴性）=LNeg类Σ+（LPOS类+βL 框 +γL关键点）l（u，v）=2001年，（u，v）=arg max（u′，v′）∈N3×3det（H（（u′，v′），λ））分类损失L（十五）然后边界框回归（u，v）0，否则（十一）类在Faster r-cnn [27]中定义了Sion lossLboxL关键点含有Ldis、Ldep、Lcon、Lsep和Ltrans5部分。的其中N3×3 是（u，v）的3×3邻域。的l（u，v）= 1意味着像素（u，v）是斑点状点，并且可以被认为是关键点候选。考虑到预测的3D关键点可能出现在对象的被遮挡部分中，为了避免与交叉视图一致性损失冲突，我们假设至少一半的关键点是可见的，并且仅将这些关键点约束为一致的。损失函数定义为：RPN中的比例和宽高比设置为与Faster r-cnn [27]中相同的值L个关键点中的β、γ和损失函数权重都根据经验设置为1。式中的λ(11)通常设置为1。[1]第2页。方程中的参数δ（13）设为0。08的交叉验证。通过比较不同数量的关键点的结果，考虑到速度和准确性之间的权衡，我们选择N = 10。我们用亚当计划训练网络-2Ldis=NΣi∈M（1−l（xi，yi）Pi（xi，yi））（12）学习率为10−3，批量为8，在NVIDIA GTX 1080Ti上进行了80000次迭代。其中M是按（1-l（x，y）P（x=0，y= 0））的升序排列的前N/ 2个关键点的索引的集合。这意味6D姿态推断：6D对象姿势包含3D旋转矩阵R6D和3D平移向量t6D，确定对象在所述空间中的位置和取向我们倾向于用高的l和Pi在同一个位置重合可见关键点在训练期间更有可能具有此属性。分离损失分离损失是为了鼓励一个图像中的关键点之间的距离大于参数δ。换句话说，如果关键点在3D空间中比δ¨ ¨1[xi，yi，zi]−[xj，yj，zj]<$2相机3D空间。在测试阶段，给定输入图像，我们的网络提取对象的3D关键点。然后，6D对象姿态可以由Kabsch al-tasim从参考计算。具体地，给定从输入图像和参考图像检测到的两组关键点，可以通过 Kabsch 算法推导出相对旋转 Rtrans 和平移ttrans。令Rref和tref为参考图像在相机3D空间中的旋转和平移。输入图像的旋转R可以是Lsep=N2i、jexp（−（2δ2）由公式R计算6D6 D =Rtranss·14139Rref及其tra ns-ref-（十三）这种损失促使点彼此相距足够远，以防止多个关键点占用lation vectort6D=ttranss+tref.在实践中，tref参考图像的Rref和Rref可以由一些现有的方法[12，35]。由于我们的网络预测所有14140表1.结果：消融损失函数和ape序列上的各种参考数损失（参考num）w/oLdis（1）w/oLdep（1）w/oLcon（1）w/oLsep（1）w/oLtranss（1）all（1）all（3）all（9）准确度（ADD）15.8 6.7 8.5 24.9 23.3 35.8 38.0 39.84实验表明，对于包含不可见特征点的三维关键点，一幅标记参考图像就足以实现相对变换的恢复，并取得了令人满意的效果4. 实验在本节中，我们在两个广泛使用的数据集上评估我们的方法，即，单个对象姿态数据集LINEMOD[11]和多对象姿态数据集OCCLUSION [3]。我们还将我们的方法与需要显式3D注释或3D CAD模型的最先进的4.1. 数据集LINEMOD[11]：它是一个用于在杂乱场景中检测对象的6D对象姿势的数据集。每个RGB图像中的中心对象用6D地面实况姿态和类别进行注释。还提供了对象的3D CAD模型。LINEMOD中有13个对象的15783张图像。每个对象包含近1200个图像。在[26]和[4]之后，我们使用15%的图像来训练一个单独的模型，这些图像其余图像将保存为测试集。图像对是从训练图像中随机生成的，用于训练OK-POSE。OCCLUSION[3]：这是一个多目标姿态检测数据集，包括LINEMOD的6个对象，所有对象都是注释对象，并且某些对象被其他对象部分我们使用与LINEMOD中相同的训练/测试分割和挑选规则。应该强调的是，OK-POSE不需要6D地面实况姿态信息进行训练。然而，这两个数据集不提供相对变换信息，因此我们必须基于图像对的6D姿态来获得图像对的相对变换。在实践中，相对变换可以通过任何廉价的双目相机或大多数智能手机设备直接获得，而无需显式的3D标记。对于对称对象，如SSD- 6D [14]，我们仅对范围[0;α]内的视图进行采样，其中α是对称角。4.2. 评估指标为了评估估计姿态的准确性，我们使用[26，4]中使用的标准度量对于2D中的姿态误差，我们使用2D姿态度量，其中分别使用地面真实姿态和估计姿态将对应的3D对象模型投影到图像上。如果两个投影框之间的交集大于0，则接受估计的姿势。五、为3D中的姿态误差，我们使用ADD度量[11]，其计算由估计/地面真实姿态恢复的每个对象模型顶点的相机3D空间中的3D坐标之间的平均3D距离，并且如果平均距离小于对象直径的10%，则对于3D到2D的重新投影误差，我们使用2D重新投影度量，当使用估计/地面实况姿态的对象的3D网格顶点的2D投影之间的平均距离小于像素阈值时，该度量认为姿态是正确的（4.3. 消融研究为了分析关键点相关损失函数的贡献，我们每次忽略一个损失并报告性能。表1示出了结果。可以看出，当使用所有损失函数时，结果是最好的。Ldep和Lcon的影响对我们的模型很重要。这两个损失函数建立了从2D到3D的关系，并确保检测到的关键点的一致性，这对于基于3D关键点对应的姿态检测是至关重要的。L_dis也对性能有重要贡献，因为它鼓励网络稳定地检测鲁棒的3D关键点，以对抗尺度、旋转和照明的变化Ltranss还促进了性能，因为它鼓励网络找到适合转换恢复的关键点。在姿态推断期间，参考图像为输入图像提供统一的实坐标系。另一方面，我们的方法的效果可以通过使用更多的参考。更多的参考可以减少由视点过度偏离引起的关键点一致性错误。因此，我们使用不同数量的参考文献评估检测的准确性（参考文献10）。num）上。具体来说，我们为每个对象分别选取1，3，9张图像（试图覆盖整个视图空间）作为最终的姿态估计是从不同参考计算的姿态的平均值。表1显示，随着引用次数的增加，准确度也会逐渐提高。然而，参考文献越多，所涉及的标注成本就越高对于以下实验，我们仅使用单个参考。4.4. 单目标位姿检测我们使用LINEMOD数据集进行单对象姿态检测。我们将OK-POSE与几种最先进的6D姿态检测方法进行了比较，这些方法使用由3D CAD模型（keypointnet）生成的合成图像14141表2.LINEMOD数据集上单个对象类别的姿态检测精度（ADD）训练数据RGB与相对变换RGB3D CAD 模型带有3D注释的OK姿势[32]第三十二话[32]第三十二话SSD6D [14]AAE [31]DPOD [37]布拉赫曼[4][26]第二十六话猿35.88.418.30.003.9637.22-27.9本齐维塞26.119.23.80.1820.9266.76-62.0凸轮34.76.217.50.4130.4724.22-40.1可以22.65.516.11.3535.8752.57-48.1猫32.26.215.60.5117.9032.36-45.2司钻28.54.217.92.5823.9966.60-58.6鸭28.54.520.10.004.8626.12-32.8蛋盒41.36.216.78.9081.0173.35-40.0胶32.28.515.20.0045.4974.96-27.0穿孔器15.019.42.90.3017.6024.50-42.4铁38.96.218.68.8632.0385.02-67.0灯35.15.620.88.260.4757.26-39.9电话21.29.114.40.1833.7929.08-35.2是说30.16 8.417.62.4228.655032.343.6图2. LINEMOD数据集上杂乱场景中来自不同视图的对象的姿态检测和关键点检测结果。图3.不同光照条件下无纹理物体上的关键点检测。第一列和第三列是在独特性损失中提取的斑点状点的可视化。第二列和第四列显示检测到的关键点。[32]，SSD-6D [14]，AAE [31]和DPOD [37]），并使用3D用于训练的注释真实图像（ Brachmann [4] 和 BB8[26]）。应该注意的是，keypointnet无法检测目标对象。为了公平比较，我们提供了OK-POSE检测到的bbox 或 3D CAD 模型生成的掩码（由 LINEMOD 提供）。这两个版本的 keypointnet 被命名为keypointnet+bbox 和 keypointnet+mask 。基于由keypointnet检测到的关键点，通过相同的方法估计对象的姿态推理方法和参考。SSD-6D和BB8可以使用深度信息进行进一步改进。然而，在实践中，深度信息不容易获得为了公平比较，我们只与他们的方法进行比较，没有深度信息。表2显示了不同对象的结果。我们可以看到OK-POSE击败了keypointnet，即使它被赋予了更细粒度的对象掩码。这是因为，与keypointnet相比，我们的方法探索了更丰富的信息（例如，视觉关系和对极几何），用于鲁棒地检测真实图像中的关键点尽管我们的方法平均上不如DPOD和需要3D注释的真实图像的方法，但它达到了相对可接受的性能，并且在真实环境中没有3D注释或3D CAD模型时提供了可行的解决方案。值得注意的是，我们的方法在某些对象序列中仍然获得了接近甚至更好的结果图3示出了在输入图像中从图3的第一行可以看出，虽然光照条件发生了变化，但我们的方法仍然可以找到一致的图3的第二行中的对象是无纹理的。在不同的视图中，提取的类斑点点是不同的.然而，检测到的关键点仍然是一致的。原因可能是，3D交叉视图一致性损失和转换重新14142精细化损失将仍然试图找到在斑点状点中稳定且一致的潜在关键点。请注意，我们的方法可以预测不可见的关键点。例如，第一行中的红色、蓝色和白色关键点始终跟踪猫的眼睛和鼻子。原因应该是我们的网络试图在不同的视图中学习几何上一致的关键点，即使它们是不可见的。图2显示了我们的方法检测到的关键点和估计的3D边界框这些结果表明，我们的网络能够在具有杂乱场景的真实图像中精确检测几何和视觉一致的3D关键点。这样的关键点是3D对象的良好表示，并且可以用于通过参考来估计姿态。4.5. 多目标姿态检测90807060504030201000 10 20 30 40 50像素阈值图4. 在闭塞数据集上使用不同距离阈值的2D重新投影度量的图像表3. OCCLUSION数据集上的MAP我们在OCCLUSION数据集上运行多对象姿态检测。在推理阶段，图像中的每个对象将在我们的方法中被独立地推断。在[26]之后，我们还报告了图4中针对不同像素阈值它表明，即使没有3D CAD模型和大量的显式3D注释图像，我们的方法也会产生可接受的精度（例如，在严重闭塞的情况下，阈值为40时平均为66.7%。表3报告了2D姿态度量的平均精度（MAP）。我们的方法仍然达到可接受的结果相比，依赖于ob的方法，对象的3D CAD模型或大量的3D标签。一个合理的解释是，我们的方法可以捕捉到闭塞（不可见）的关键点，通过精心设计的关键点损失，和6D姿态可以推断鲁棒。表4. 总体计算运行时间的比较。方法（参考num）整体速度Brachmann [4] 2.5 FPSBB8 [26] 3 FPSOK姿势18 FPS4.6. 定时在本节中，我们将评估我们的方法在LINEMODE数据集上的速度，在Intel Core i7- 5820 K 3.30 GHz和NVIDIA GTX 1080Ti上。如表4所示，使用50个引用的OK-POSE比Brachmann快7.2倍，比BB8快6倍。这是因为BB8通过三个不同的深度网络预测6D对象姿态，并且Brachmann需要大量迭代来通过抢先RANSAC过滤离群值然而，我们的方法只有一个检测网络和6D目标位姿可以直接计算的Kabsch算法。5. 结论在本文中，我们开发了一种基于关键点的6D物体姿态检测方法，该方法利用视点之间的相对变换进行训练。在真实环境中，这种相对变换更容易、更便宜。因此，我们提出的方法是一个合适的选择，当有缺乏3D注释和3D CAD模型。与现有的基于RGB的6D物体姿态检测方法相比，该方法需要3D CAD模型或大量的3D标记，达到了可接受的性能。此外，我们的方法可以比需要许多3D注释的方法更快地推断姿势。一个有趣的未来工作是改进网络检测物体上的密集点，以处理更具挑战性的任务。致谢本研究得到了国家重点研究发展计划（2004）的资助。2017YFB1402103）、长江学者与高校创新研究团队项目（No. IRT 17R87）、国家自然科学基金（批准号：61903300, 61672409，61936006，61876144、61876145、61973250、61973249）、Key Re-陕西省科研发展计划（项目编号：2018 ZDXM-GY-186）、陕西省杰出青年科学基金（批准号：2018 JC-016）和西安市2019219614SYS011CG033）。猿罐头猫钻工鸭胶穿孔器正确估计姿势（%）方法列车数据地图OK姿势RGB与实变换0.47[32]第三十二话RGB与实变换0.13[32]第三十二话RGB w/3D CAD0.27SSD6D [14]RGB w/3D CAD0.38AAE [31]RGB w/3D CAD0.39DPOD [37]RGB w/3D CAD0.48布拉赫曼[4]RGB w/3D注释0.51[26]第二十六话RGB w/3D注释0.6214143引用[1] H. Bay，T. Tuytelaars和L.范古尔Surf：加速健壮的功能。在ECCV，2006年。[2] G.布拉克角努格特伦湾Mesman和H.下士GPU上的快速霍夫变换：算法权衡的探索。在ACIVS，2011年。[3] E. Brachmann，A. Krull，F. Michel，S. Gumhold、J.Shotton和C.罗瑟使用3d对象坐标学习6d对象姿态估计。2014年，在ECCV[4] E. Brachmann ， F.Michel ， A.Krull ， M.Y.Yang ，S.Gumhold和C.罗瑟基于单幅rgb图像的物体和场景的不确定性驱动6d姿态估计在CVPR，2016年。[5] T.去吧M蔡氏T.范和我。里德深度-6dpose：从单个rgb图像中恢复 6d 物体姿态。 arXiv 预印本 arXiv ：1802.10367，2018。[6] R.娘娘腔。快速R-CNN。在ICCV，2015年。[7] K. 他，G. Gkioxari，P. Doll a'r 和R. 娘娘腔。面具r-cnn。InICCV，2017.[8] K.他，X。Zhang，S. Ren和J. Sun.用于视觉识别的深度卷积网络中的空间金字塔池。TPAMI，37（9）：1[9] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。[10] D. 埃雷拉角金，J. Kannala，K. Pulli和J. Heikaaa '。Dt-slam：延迟三角测量，用于健壮的slam.在3DV，2015年。[11] S. 欣特施托伊塞尔河谷 Lepetit ， S.Ilic ， S.Holzer ，G.Bradski，K.Konolige和N.纳瓦布基于模型的训练，检测和姿态估计无纹理三维物体在严重混乱的场景。InACCV，2012.[12] Tom ma'sHodan，P. Haluza，Step a'nObdr za' lek，J. 马塔斯M.Lourakis和X.扎布利斯T-less：一个rgb-d数据集，用于无纹理物体的6d姿态估计。在WACV，2017年。[13] W. Kabsch 一个解决方案的最佳旋转相关的两组向量。Acta Crystallographica，32（5）：922[14] W. Kehl，F.曼哈特F.Tombari，S.Ilic和N.纳瓦布Ssd-6d：让基于rgb的3d检测和6d姿态估计再次变得强大。InICCV，2017.[15] W. Kehl，F.Milletari，F.Tombari，S.Ilic和N.纳瓦布局部rgb-d补丁的深度学习，用于3d对象检测和6d姿态估计。在ECCV，2016年。[16] A. Kendall，M.Grimes和R.西波拉Posenet：用于实时6-dof相机重新定位的在ICCV，2015年。[17] A.克里热夫斯基岛Sutskever和G.辛顿使用深度卷积神经网络进行图像网分类NIPS，2012年。[18] V. Lepetit，F. Moreno-Noguer，and p.呸Epnp：pnp问题的一个精确的o（n）解。IJCV，81（2）：155-166，2009.[19] TLin，PDol la'r，RGirshick，KHe和SBelongie。用于对象检测的特征金字塔网络。在CVPR，2017年。[20] W. Liu，L.安格洛夫，D。埃尔汉角塞格迪，S。Reed，C.Y. Fu 和 A. C. 伯格。 Ssd ：单发多盒探测器。在ECCV，2016年。[21] S. Mahendran，H.Ali和R.维达尔使用卷积神经网络的3D姿态回归在ICCVW，2017年。[22] V. Nair和G.辛顿校正线性单元改进了受限玻尔兹曼机。ICML，2010年。[23] A. Neubeck和L.范古尔有效的非最大抑制。载于ICPR，2006年。[24] G. Pavlakos，X. Zhou，中国古柏A.陈，K. Derpanis和K.丹尼-小精灵。6-从语义关键点的DOF对象姿态。在ICRA，2017年。[25] S.彭，Y.刘，智-地Huang，X. Zhou和H.豹Pvnet：用于6dof姿态估计的像素级投票网络。在CVPR，2019年。[26] M. Rad和V. Lepetit。Bb8：一种可扩展的、准确的、对部分遮挡鲁棒的方法，用于预测具有挑战性的对象的3D姿态，而不使用深度。InICCV，2017.[27] S. Ren，K.赫利河Girshick和J.太阳更快的r-cnn：用区域建议网络实现实时目标检测。2015年，在NIPS[28] F. Rothganger，S.拉泽布尼克角Schmid和J.庞塞使用局部仿射不变图像描述符和多视图空间约束的3D对象建模和识别CVPR，2006。[29] J. Shotton，B.格洛克角Zach等人rgb-d图像中相机重定位的场景坐标回归森林。CVPR，2013。[30] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。2015年，在NIPS[31] M. Sundermeyer，Z.马顿湾Durner，M.Brucker和R.崔贝尔从rgb图像中检测6d物体的隐式3d方向学习。在ECCV，2018。[32] S. Suwajanakorn，S

下载后可阅读完整内容，剩余1页未读，立即下载