《自遮挡信息的2D-3D点匹配方法及其在6D姿态估计中的应用》

146 浏览量更新于2023-10-14 收藏 1.25MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

123962D 三维点匹配6D2D-3D点匹配自遮挡信息SO-Pose：利用自遮挡直接6D姿态估计闫迪*1、法比安·曼哈特2、顾望3、向阳季3、纳西尔·纳瓦卜1和费德里科·托姆巴里1、2慕尼黑工业大学1、谷歌2、清华大学*shangbuhuan13@gmail.com，fabianmanhardt@google.com，nassir. tum.de，wangg16@mails.tsinghua.edu.cn，xyji@tsinghua.edu.cn，tombari@in.tum.de摘要直接回归对象姿态的所有 6 个自由度（ 6DoF）（即，3D旋转和平移）是一个挑战性的问题。虽然端到端方法最近以高效率展示了有希望的结果，但在姿势准确性方面，与基于精细PnP/RANSAC的方法相比，它们仍然较差在这项工作中，我们解决了这个缺点，通过一个新的原因，ING关于自遮挡，以建立一个两层表示的3D对象，大大提高了端到端的6D姿态估计的准确性我们的框架，命名为SO-Pose，以单个RGB图像作为输入，并分别生成2D-3D对应关系以及利用共享编码器和两个单独的解码器的自遮挡信息。然后融合两个输出以直接回归6DoF姿态参数。结合对齐对应、自遮挡和6D姿态的跨层一致性，我们可以进一步提高准确性和鲁棒性，在各种具有挑战性的数据集上超越或媲美所有其他最先进的方法。1. 介绍估计6D姿态已被广泛采用为高级计算机视觉任务中的重要线索，包括机器人抓取和规划[1]，增强现实[39]和自动驾驶[25，29]。在深度学习最近成功的推动下几乎所有当前表现最好的框架都采用两阶段策略，首先建立2D-3D对应关系，然后使用基于RANSAC的透视n点（Pn P）算法计算6D姿势[47，20，9]。绝不-*Yan Di由中国CSC项目赞助。图片CNN2D-3D点匹配6D姿势(a) 基准方法的基本结构[12、43]图像CNN双层模型6D姿势(b) 我们的方法SO-Pose的基本结构。图1.端到端6D位姿估计方法的基本结构。与依赖于2D-3D点匹配作为中间结果的单层方法[12，43]相比，我们的方法SO-Pose提出了一种新的双层表示，该表示还包含了关于对象的自遮挡信息。更少的是，虽然获得了更好的结果，但是这些方法不能以端到端的方式训练，并且需要额外的计算来优化姿态。此外，采用替代训练损失而不是直接预测6D姿态还防止了进一步的可微分处理/学习（例如，基于训练的可微分处理）。通过自我监督学习[42]），并且不允许合并其他下游任务。尽管两阶段方法在该领域占主导地位，但最近也提出了一些进行端到端6D姿态估计的方法[12，4，42，43]。它们通常直接从密集的基于对应的中间几何表示学习6D姿态，如图1B所示。第1（a）段。然而，尽管端到端方法不断改进，但它们仍然远远不如利用多视图一致性检查[18]、对称性分析[9]或解纠缠预测[20]的两阶段方法。什么限制了端到端方法的准确性？在挑战性场景中进行深入调查后，我们观察到12397·当网络接近最优时，由于无纹理物体表面固有的匹配模糊性，由噪声引起的误匹配误差是不可避免的，通常导致一个对应场对应于具有类似拟合误差的许多6D姿态。这导致训练过程收敛到次优，从而阻碍整体6D姿态估计性能。由于消除由噪声引起的误差并非微不足道，因此该问题的替代解决方案是用3D对象的更精确表示来替换对应场，从而减少噪声的影响。在这项工作中，我们试图通过利用关于对象的自遮挡信息来缩小端到端和两阶段方法之间的差距。对于3D空间中的对象，由于透视投影的性质，我们在逻辑上只能观察其可见部分。然而，由于（自）遮挡而不可见的部分通常在推断期间被忽略。受3D重建[34]中使用的多层模型的启发，我们专注于自遮挡信息，以建立对象姿态的以观察者为中心的双层表示。虽然第一层保留了物体上可见点及其投影的对应场，但第二层包含自遮挡信息。本质上，我们通过检查每个像素与对象坐标平面之间的自遮挡来简化过程，而不是直接识别每个可见点是否遮挡对象以及遮挡对象的位置。如示于图在图3中，穿过相机中心和每个可见点的光线然后利用这些交点的坐标来形成对象的第二层表示，如图1所示。第1段（b）分段。最后，引入了两个跨层一致性损失，以同时对齐自遮挡、对应场和6D姿态，从而减少噪声的影响。总结起来，我们的主要贡献如下：• 我们提出了SO-Pose，这是一种新的深度架构，它直接从每个3D对象的两层表示中回归6D姿势。• 我们建议利用自遮挡和2D-3D对应来为3D空间中的每个对象建立两层表示，这可以用于执行两个跨层一致性。• SO-Pose在各种具有挑战性的数据集上始终超越所有其他端到端竞争对手。此外，与其他最先进的两阶段方法相比，SO-Pose也达到了相当的精度，同时速度更快。2. 相关作品用于单眼6D姿态估计的相关工作可以大致划分为三个不同的工作线在特别地，虽然一些方法直接回归最终的6D姿态，但是其他方法要么学习潜在嵌入以用于姿态的后续检索，要么采用2D-3D对应性以借助于公认的RANSAC/PnP范例来求解6D姿态。至于第一条线的作品，Kehlet al. [15]扩展SSD [23]以估计6D对象姿态，将回归转化为分类问题。在他们的后续工作中[24]，Manhardtet al.利用多个假设来提高对模糊性的鲁棒性。在[26]中，作者利用投影轮廓对齐的想法来估计姿态。其他一些作品也利用了的点匹配损失，以直接优化3D中的姿势[45，19，18]。最后，[12]和[43]都建立了2D-3D对应关系，但试图以端到端的方式学习Pn下一分支采用潜在嵌入进行姿态估计。这些学习的嵌入然后可以被杠杆化以在推理期间检索。具体来说，受[44，16]，Sundermeyer等人的启发。[38]利用增强自动编码器（AAE）来学习低维姿态嵌入。在使用2D对象检测器[23，21]在图像空间中定位对象之后，计算检测的潜在表示并将其与预先计算的码本进行比较为了进一步提高对多个对象的可扩展性，[37]的作者提出针对每个对象采用单个共享编码器以及单独的解码器。最后，在使用RANSAC/PnP求解姿态之前，最后一个分支基于建立2D- 3D对应关系。因此，一些工作提出回归3D边界框角的2D投影[30，40]。为了增加这些对应关系的鲁棒性，Huet al.基于分割的超像素预测多个假设。然而，最新的方法利用相对于3D模型而不是3D边界框的2D- 3D对应。Peng等[28]证明远离对象表面的关键点引起更大的误差，并且因此替代地基于最远点采样对对象模型上的若干关键点进行采样。混合-姿势[36]通过引入混合表示来继承和发展[28]。值得注意的是，该分支中的大多数工作建立了密集的2D-3D对应[47，20，27，9]。它们是几个具有挑战性的基准测试中表现最好的方法之一3. 方法给定图像I，我们利用神经网络来学习从I到相对3D旋转R和平移t的映射f（），将目标对象从对象帧变换到相机帧。R，t=f（I; Θ），（1）12398（g）Ozd）、- ----- --（d）其他事项）（一）东凤企业股份有限公司Xy（一）OXOyOF下午fcl-2D自遮挡fcl-3D（b）第（1）款（e）（f）第（1）款（j）ftfPfM（c）第（1）款（h）对应关系掩模zR，t损失卷积层全连接层输出向前传球图2. 提出的SO-Pose框架的示意图概述。给定输入图像（a）和3D模型（c），我们首先使用现成的对象检测器[31，32]从（a）中裁剪感兴趣的对象（b）。然后，将（b）馈送到我们的编码器中以进行高级特征提取。然后，这些特征由两个单独的解码器网络分别处理，以预测两层表示。因此，当第一分支输出自遮挡图（d）时，后一分支估计2D-3D点对应（e）和对象掩模（f）。在（h）中，我们展示了对象的可见表面与3D模型之间建立的2D-3D对应关系。（g）中示出了自闭塞的详细图示。对于物体表面上的可见点，它遮挡坐标平面o yz，o xz，oxy在Qx、Qy和Qz处。最后，我们将自遮挡图（d）与2D-3D点匹配场（e）一起馈送到预测最终6D姿态的姿态估计器块。示出了深度图的示例性输出和使用所估计的姿态的渲染的边界框分别在（i）和（j）中。L*表示训练过程中使用的损失术语。其中Θ表示所利用的网络的可训练参数在杂乱的环境中，由于（自）遮挡，可用的对象信息经常受到严重限制。此外，直接回归遮挡下的3D旋转参数已被证明是具有挑战性的[11]。受3D重建中的多层模型的启发[34]，我们提出将可见的2D-3D对应与不可见的自遮挡信息相结合，以在3D空间中建立对象的双层表示，以努力捕获比仅依赖于对应的单层方法更完整的几何特征[12，43]。因此，我们强制执行两个跨层一致性来对齐自遮挡、对应场和6D姿态，以减少噪声的影响，从而增强各种具有挑战性的外部影响下的姿态估计。SO-Pose的整体架构如图2所示。3.1. 基于自遮挡的鲁棒姿态估计绝大多数基于CNN的6D姿态估计方法仅关注对象的可见部分，而丢弃被遮挡部分[13，9，43]。然而，在复杂环境中，对象的可见区域通常是-时间非常有限或仅表现出少量的纹理信息。因此，单层表示不能完全准确地编码对象的几何特征，导致6D姿态的模糊性。类似于3D重建中的多层模型[34]，我们尝试利用自遮挡信息来获得3D对象的更丰富的表示。如图在图2（d）和（e）中，我们将自遮挡与估计的2D-3D对应性组合以建立用于描述对象在3D空间中的姿态的新颖的两层表示。为了更好地理解，想象从相机中心发射并穿过物体的光线。该光线在多个不同的点处与物体表面相交，其中第一个点是可见的，而所有其他点都是自遮挡的。与记录自遮挡点的坐标的[34]相反，我们注意到每条射线与对象的坐标平面之间的交叉点的坐标。如示于图在图3中，射线OP在点Qx、Qy、Qz处与对象坐标系〇 yz、〇 xz、〇 xy相交。对于对象obj，我们组合P，Q=Qx，Qy，Qz来表示其两层模型，obj：={P，Q}P∈V，（2）12399ZP- --⎪⎩--不**||Q0=RT Q−RT t。注意我们将P0和1=不Z其中V表示当前视图w.r.t.的可见点相机坐标系。注意，Q可以从P解析地导出，已知旋转R和平移t.将P投影到2D图像平面上，我们得到ρ=1KP，（3）其中K描述相机固有矩阵，并且P=[X，Y、Z表示可见的3D点。此夕hP P P物体坐标平面w.r.t.摄像机坐标系定义为（Rn*）TX =（Rn*）Tt。（四）其中X表示给定的相应坐标平面上的3D点图3. 自我封闭的证明。从照相机中心O朝向可见点P的射线OP与物体⎧⎪n =[1，0，0]TX∈o−yz坐标平面o yz、o xz、o xy在3个点Qx、Qy和. 我们只考虑预定义区域Ωn*=Xny=[0，1，0]TX∈o−xz（五）Qz为了训练稳定性，因此在该示例中将去除Qznz=[0， 0， 1]T X∈o−xy由此我们可以导出Qx，它位于yz平面上与射线OP相交，如下所示，3.2. 跨层一致性利用估计的两层表示Qx=（Rnx）Tt（Rnx）T（K−1ρ）K−1ρ（6）在3D空间中的对象中，我们强制执行两个跨层一致性损失项，以联合对齐自遮挡，对应场和6D姿态参数。当替换Eq. 3进入在等式中用ny或nz替换nx。6，我们可以分别导出Qy或Qz。由于P和Q表示为w.r.t.摄像机坐标系，它们的对应坐标w.r.t.物体坐标系计算为P0=RTP-RTtQ0 基于物体直径来稳定优化。当量6和重排，我们得到（Rn）TtP=（Rn）TPQ。（七）由此，我们将第一个跨层一致性强制为ΣLcl−3D|Q|* （Rn）t（RP+t）值得注意的是，当光线穿过相机中心O时并且可见点P可以平行于对象之一-（Rn）（RP0+t）（RQ0+t）*1，在坐标平面中，可能发生射线从不与该平面相交。因此，为了规避这些情况并增加鲁棒性，我们仅考虑对象的最小边界长方体Ω内的交点，如图2中所示3 .第三章。根据Eq.如图6所示，我们的双层表示表现出优于单层方法的3个优点。首先，独立于对象表面，利用每个可见点的旋转和平移参数解析地导出自遮挡坐标Q因此，它消除了由渲染引起的误差。此外，委员会认为，其中1表示L1损失，Q0表示Ω内的交叉点数量。当量8共同对齐和细化3D空间中的2D-3D对应P、自遮挡Q和姿态R，t，基于等式（1）中的Q的定义。六、虽然第一个跨层一致性在3D空间中实施，但我们在2D图像平面上采用第二个跨层损失由于P和Q位于同一条射线上，它们的投影描述了像平面上的同一点ρ。因此，我们可以将我们的2D一致性项导出为接着，由于自遮挡坐标Q0位于Lcl−2D一个= |Q|Σ（*ePQ*1 +*eQρ *1）（9）平面，因此只有2个自由度，我们也仅需要预测2个值来表示Q0。因此，这充当正则化项，其可以减少不确定性。与P∈V，Q0∈Ω噪音的影响最后，由于P和Q位于同一条线上，我们可以导出几个跨层一致性，这些一致性将自遮挡、2D-3D对应和6D姿态对齐，从而显著提高SO-Pose的准确性和鲁棒性。和ePQ一个=K（RQ0Q1一个+t）−ZK（RP0zo− zΩ伊xP奥伊��伊茨OYρZXOyo − yzPP∈V，Q0∈Ω0⎨（八）12400+t）（10）尤其是在具有挑战性的环境中。eQρ=Q K（RQ0+t）− ρ。（十一）Z12401×个×个×个LLLL年q1|Q|001设λ1，λ2，λ3=1/f，10，1，其中f表示焦距。此外，为了提高稳定性，我们首先训练网络-Σ1Σˆ其中ePQ迫使P和Q投影到同一个2D点上，而eQρ迫使Q投影到ρ，即Q的对应地面真实投影。3.3. 总体目标SO-Pose将单个RGB图像作为输入，并直接预测3D空间中对象的6D姿态参数为了建立两层表示，我们的框架生成了一个对应场和三个自遮挡图。在下文中，两个中间几何特征被连接并馈送到姿态预测器，以完全可区分的方式获得输出姿态。我们的总体目标函数由姿势的基本项、跨层一致性项和自遮挡项组成。L=L姿势+Lcl+Locc，（12）与4.1. 网络结构我们将尺寸为256256的放大RGB图像[20，类似于GDR-Net [43]，我们使用其非中心6D表示R6d[17，43]参数化3D旋转，并将3D平移作为投影的3D质心和对象作为骨干，我们利用ResNet34[6]对于LM数据集上的所有实验[7]，而对于更具挑战性的数据集，我们采用ResNeSt50 [48]，I.E. LMO [3]和YCB-V [45]。在使用上述骨干进行特征提取之后，我们附加两个解码器用于估计自遮挡和2D-3D对应。第一个分支基本上输出6通道自遮挡图，分辨率为6464。第二个分支预测三个不同的中间几何特征图组的大小和LCL=λ1L cl−2D +λ2L cl−3D（十三）六四六四第一组描述了可见对象遮罩，另外两组描述了2D-3D对应场[5]和表面区域注意力图，定义如下Locc= λ3LQ。（十四）特别是，姿势是对应场、平移参数、可见掩模、区域分类和点匹配的组合损失项，如[43]所示我们请读者参考[43]以获得关于姿势项的更多细节。对于自遮挡，LQ由两部分组成，LQ=LQ1 +LQ2。（十五）因此，我们直接采用L1损失，根据一个L=*Q−Q*，（16）Q0∈Ω[43]。最后，将自遮挡和点匹配特征图馈送到姿态回归网络中以直接预测我们采用与[43]中相同的姿态回归网络。4.2. 培训详细信息实施详情。我们的网络在单个TITAN X GPU上使用Ranger优化器[22，49，46]进行端到端训练。我们使用的批量大小为24，基本学习率为1 e-4。我们在训练阶段的72%使用余弦时间表对学习率进行退火。除非另有说明，我们联系我们其中Q0表示地面真值自遮挡坐标。nates。同样，对于Q2，我们直接使用L1损失来确保投影后的一致性工作而不c-3D和cl-2D，并在总训练周期的20%在训练过程中，随机应用颜色增强和掩模侵蚀，以避免过度类似于[38]。对于2D定位，我们利用LMO上的Faster-RCNN [33]和YCB-V上的FCOS [41]注意到一个LQ2=K（R +t）− ρ1.（十七）我们不特别注意对称对象[43，9]或|Q|Q0∈Ω ZQ因此，y、R和t表示地面真实旋转和平移。当量17强制所有预测的自遮挡坐标Qx、Qy和Qz相对于P驻留在相同的射线上。4. 评价在本节中，我们将SO-Pose与6D姿态估计中的当前最先进方法进行比较。我们在三个具有挑战性的数据集上进行了广泛的实验，以证明我们的方法的有效性和优越性我们还进行了各种消融研究，以验证我们的双层模型始终优于单层竞争者。12402≈[19]后补[18]数据集。我们在三个常用的数据集上测试了SO-Pose。[2018 - 08 - 18][2018 - 08][2019 - 08 - 19][2019- 08][2019 - 09][2019 - 08][2019 - 09][2019 - 0 LM由13个对象的单个序列组成，这些对象经历轻度遮挡。我们遵循[43，20]并使用15%的RGB图像进行训练，其余部分用于测试。在训练过程中，我们还为每个对象渲染1K合成图像LMO通过用其他8个可见对象注释一个序列来扩展LM，通常对对象施加严重的遮挡。同样，我们为每个对象渲染额外的10k合成图像。最后，YCB-V是一个非常具有挑战性的数据集，表现出强烈的遮挡，clutter和几个对称的对象。我们采用所提供的21个对象的真实图像和公开可用的基于物理的渲染（pbr）数据来进行训练和测试，如[43]中所示12403--------我们还在LMO和YCB-V [11]上的BOP设置之后评估了我们的方法。评估指标。我们采用最常用的指标与其他国家的最先进的方法进行比较。因此，ADD（-S）[8，10]测量其与地面真实值的偏差低于对象直径（0.1d）的10%的变换模型点的百分比对于对称对象，ADD（-S）测量与最近模型的偏差点[8，10]。此外，n◦n cm[35]测量旋转误差小于n◦且平移误差低于n cm的预测6D姿态的百分比。在YCB-V数据集上，我们还计算了ADD-S的AUC（曲线下[45][46][47][48][49][49]对于LMO和YCB-V上的BOP设置，我们另外计算ARVSD、ARMSSD、ARMSPD，如[11]所提出的我们还提供了平均AR分数来比较各种数据集上的性能4.3. 与最新技术本节将SO-Pose与不同数据集上的其他最先进方法进行比较。LM 上的结果。如 Tab. 所示。 1 ，我们的方法consistently优于所有基线方法的每个指标，es-based特别是在ADD（S）0方面。02d和2◦2cm。与GDR-Net[43]相比，在ADD（S）0下。02d时，从35.3提高到45.9，提高了30%。由于这两通常使用严格的指标来衡量机器人抓取或其他高级任务的性能，这是Tab中SO-Pose的显著改进。1表明我们的方法在机器人应用中具有很大的潜力。LMO的结果我们比较我们的方法与国家的最先进的竞争对手的 ADD （ S ）在 Tab 。 3 . 第三章。当使用real+syn进行训练时，我们的方法甚至可以达到与DeepIM [19]等基于细化的方法相当的结果，并且优于所有其他竞争对手。此外，使用真实+pbr数据进行训练，我们的方法在8个对象中的5个上实现了最先进的性能因此，我们的平均得分大大超过了所有其他方法，62.3对24。九点五十六1.一、YCB-V的结果。对于YCB-V，我们将结果显示在Tab中。二、使用ResNeSt 50 [48]，我们在ADD（-S）和ADD-S的AUC下再次优于所有其他方法，分别为56.8和90.9，而第二好的结果为53.9和90.9。89.8. 在 ADD （ -S ）的 AUC 下，我们仅稍微低于Cosypose [18]， 83.9 与 84.5 相比。然而，在实现与Cosy-Pose相当的结果的同时，由于CosyPose是一种精细驱动的方法，因此该方法的运行速度明显更快，而我们只需要一次向前传递即可获得最终的6D姿势。BOP指标下的结果。在选项卡中。4、我们报告了BOP设置下的结果。为了确保与相关工作的公平比较，在LMO上，我们仅利用提供的pbr数据进行训练，而在YCB-V上，使用真实和pbr数据[9，20，43]。对于所有非精炼ADD（-S）表1.LM消融研究。我们提供的结果，我们的方法与不同的损失条款。我们的（S）表示去掉Lcl−3D和Lcl−2D项。方法体育参考文献添加（-S）AUC为ADD-SAUC为ADD（-S）美国有线电视新闻网[45]121.375.961.3SegDriven [14]139.0--PVNet [28]M--73.4S.阶段[12]M53.9--GDR-Net [43]149.189.180.2DeepIM [19]1C-88.181.9[第18话]1C-89.884.5我们的（34）154.689.782.3我们的（50）156.890.983.9表2. YCB-V的结果。我们报告的结果，我们的方法与不同的骨干。我们的（34）使用ResNet34 [6]，而我们的（50）使用ResNeSt50 [48]。Ref.代表精炼。体育反映了姿态估计器的训练策略，1表示所有对象的单个模型，而M表示每个对象一个模型。一般来说，后一种策略有利于准确性，但限制了实际使用。方法中，SO-Pose再次获得了优异的结果，报告平均AR 为 0.664 ，而 CDPN-v2 [20]为 0.578 ， EPOS [9]为0.621。尽管如此，我们仍略逊于CosyPose，后者是采用精密修饰的整体最佳表现方法4.4. 消融研究我们对每个数据集进行了多次消融。因此，除了烧蚀项，我们使用来自实验设置的值保持所有其他项跨层一致性的有效性。在选项卡中。1，我们证明了建议的跨层的LM一致性条款的有效性。我们逐渐去除Lcl−3D和Lcl−2D以观察它们对6D姿态w.r.t ADD（-S）、2◦2cm和5◦5cm。因此，我们可以观察到，当去除任一损失项时，准确度降低，验证-我们的跨层一致性的有用性。使用自闭塞的好处。为了表明自遮挡一致地提高姿态质量，我们另外采用了两阶段方法CDPN [20]来也包括我们的两层表示。由于CDPN基于RANSAC/Pn P以从2D-3D提取3D旋转方法2◦ 2厘米5◦ 5厘米0.02d0.05d0.1dCDPN [20]GDR-Net [43]-35.3-76.389.993.7-62.194.395.6我们的（S）36.676.894.059.197.0我们（w/oLcl−3D）41.681.795.767.497.1我们（w/oLcl−2D）44.781.395.573.198.012404LLL×个方法无细化w/细化PoseCNN[45个]PVNet[28日]S.Stage[12个]HybridPose[36个]GDR-Net[四十三]我们（SO姿势）DPOD[47个]DeepIM[19个]体育1MMM111111培训数据房+同步房+同步房+同步房+同步房+同步房+pbr房+同步房+pbr房+同步房+同步猿9.615.819.220.941.344.946.348.4-59.2可以45.263.365.175.371.179.781.185.8-63.5猫0.916.718.924.918.230.618.732.7-26.2司钻41.465.769.070.254.667.871.377.4-55.6鸭19.625.225.327.941.740.043.948.9-52.4Eggbox*22.050.252.052.440.249.846.652.4-63.0胶水*38.549.651.453.859.573.763.378.3-71.7Holep22.136.145.654.252.662.762.975.3-52.5是说24.940.843.347.547.456.154.362.347.355.5表3. 与LMO最新方法的比较。我们列出ADD（-S）的平均召回率。（*）表示对称对象。方法体育参考文献LMOYCB-V是说ARARV SDARMSSDARMSPDARV SDARMSSDARMSPD[第18话]1C0.4800.6060.8120.7720.8420.8500.727EPOS [9]10.3890.5010.7500.6260.6770.7830.621PVNet [28]M0.4280.5430.754----CDPN-v2 [20]M0.4450.6120.8150.3960.5700.6310.578GDR-Net [43]1---0.5840.6740.726-我们10.4420.5810.8170.6520.7310.7630.664表4. 与国际收支指标下LMO和YCB-V的最新方法进行比较。我们提供的结果ARV SD，ARMSSD和ARMSPDLMO和YCB-V。平均AR将这两个数据集的总体性能表示为所有AR评分。总体最佳结果以粗体表示，第二佳结果以下划线表示。方法ADD（-S）2◦ 2厘米5◦ 5厘米CDPN*92.8268.5697.03CDPN*-我们的（w/oLcdpn）CDPN*-我们的（w/Lcdpn）93.0994.7769.3771.3397.0697.07表5. 在另一种基线方法CDPN之上评估我们的双层模型[20]。我们将原始CDPN更新为CDPN*。至于SO-Pose，我们将自遮挡分支集成到CDPN结构中。由于CDPN预测具有RANSAC/PnP的旋转，因此我们重新排列等式（1）。8、Eq.9以导出新的损耗项Lcdpn，如等式10中所定义。十八岁对应，我们稍微调整我们的跨层一致性项如下，Lcdpn=Lcl−3D（R→R） +Lcl−2D（R→R）（18）本质上，一致性项Lcdpn通过替换cl-3D和cl-2D中的预测旋转R与实际的地面真实旋转R。除了CDPN，保留CDPN中的所有原始损失项。如Tab.所示。5，在将我们的两层模型引入CDPN之后，对于所有metrics，性能再次显著提高。这清楚地表明了我们提出的两层模型的普遍性。不同主干的影响我们报告的结果我们的方法使用ResNet34 [6]和ResNeSt50 [48]作为Tab中的骨干二、虽然在将ResNeSt50更改为ResNet34后性能略有下降，但我们的方法仍然优于大多数最先进的方法，证明了其有效性，无论采用何种主干。4.5. 运行时分析在Intel 3.30GHz CPU和TITAN X（12 G）GPU上，对YCB-V的640480图像进行多目标处理，单个目标处理时间约为30 ms，所有目标处理时间约为50 ms这包括使用Yolov3进行2D定位的额外15ms [32]。如图5，我们在YCB-V上演示了Speed-AR评分图。我们的方法实现了第二好的结果（AR：0.715），这进一步验证了我们的方法在实际应用中的巨大潜力。4.6. 定性评价我们在图中提供了LMO的定性结果。4和图中的YCB-V。六、特别地，在图1B中，在图4中，我们示出了姿态估计的四个示例性结果以及与所估计的姿态的渲染的2D-3D对应的相应误差图。在图4（a）中，由于错误检测，预测的6D姿态偏离地面12405（c）第（1）款（h）（我）（g）0.050图4. LMO的定性结果。我们提出了6维姿态估计结果的4个示例。给定一个输入图像，我们首先在边界框的顶部显示2D检测结果和置信度分数。在它旁边，我们显示了预测的2D-3D匹配（用预测的姿势渲染，颜色编码）和对象边界框（用预测的姿势估计，浅蓝色）显示在顶行。相应地，我们在第二行中展示了预测的2D-3D匹配的误差，从绿色到粉红色，如中间线所示。我们还可视化了地面实况边界框（红色）。（一）（b）第（1）款图5. YCB-V数据集上跑步速度（Hz）和AR评分的比较。我们将我们的方法与CosyPose [18]，GDR-Net [43]，CDPN-v2[20]和EPOS [9]进行比较。沿着箭头方向，方法的性能更好，在更少的推理时间内实现了更高的精度真相完全。在（d）司钻中，我们证明了由于强遮挡而导致的6D姿势的最后在Fig.在图6中，我们示出了如由我们的模型预测的来自YCB-V的更多定性结果请参见补充材料。5. 结论在本文中，我们提出了一种新的两层模型，结合了2D-3D点的对应关系和自遮挡信息，明确封装的空间线索的3D对象。然后基于两层模型，我们建立了SO-Pose，这是一个端到端的6D姿势回归框架，在各种挑战中取得了显着的改进图6. 预测的两层模型的演示。对于对象（a），我们在（b）中展示其2D-3D点匹配，并且在（d）、（e）和（f）中展示自遮挡坐标。(c)、（g）、（h）、（i）是（b）、（d）、（e）、（f）的对应误差图。右侧的颜色条指示错误贴图的颜色编码错误。为了更好的可视化，我们对误差图进行了归一化，因此从颜色条的底部到顶部，误差范围从0到1。与其他单层竞争对手相比，数据集。实验评估还表明，我们的两层模型适用于广泛的6D姿态估计框架，并且可以始终如一地使性能受益。在未来，我们计划专注于将两层模型集成到自监督6D姿态估计和类别级不可见对象分析中。0.99（c）第（1）款0.960.99（d）其他事项0.980.990.99（b）第（1）款0.950.810.99（一）0.250.990.99（c）第（1）款（f）第（1）款（一）（e）（d）其他事项（h）（g）12406引用[1] Pedram Azad，Tamim Asfour，and Ruediger Dillmann.基于立体的6d物体定位，用于人形机器人系统的抓取。在2007年IEEE/RSJ智能机器人和系统国际会议上，第919IEEE，2007年。一个[2] Eric Brachmann、Alexander Krull、Frank Michel、StefanGumhold、Jamie Shotton和Carsten Rother。使用3D对象坐标学习6D对象姿态估计。在ECCV，第536-551页，2014中。五个[3] Eric Brachmann ， Frank Michel ， Alexander Krull ，Michael Ying Yang ， Stefan Gumhold ， and CarstenRother.从单个RGB图像对对象和场景进行不确定性驱动的6D姿态估计。在CVPR，第3364-3372页，2016年。五个[4] Bo Chen，Alvaro Parra，Jiewei Cao，Nan Li，and Tat-Jun Chin.通过反向传播pnp优化的端到端可学习几何视觉。在IEEE/CVF计算机视觉和模式识别会议论文集，第8100-8109页，2020年。一个[5] 放大图片作者：Peter M. Roth和Vincent Lepetit野外物体的三维姿态估计和三维模型检索。在IEEE计算机视觉和模式识别会议论文集，2018。五个[6] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。五、六、七[7] S. 欣特施托伊塞尔河谷Lepetit，S.Ilic，S.Holzer，G.布拉斯基K. Konolige，和N.纳瓦布基于模型的训练，检测和姿态估计无纹理三维物体在严重混乱的场景。2012年亚洲计算机视觉会议。五个[8] Stefan Hinterstoisser，Vincent Lepetit，Slobodan Ilic，Ste- fan Holzer ， Gary Bradski ， Kurt Konolige ， andNassir Navab.基于模型的训练，检测和姿态估计无纹理三维物体在严重混乱的场景。亚洲计算机视觉会议，第548-562页。Springer，2012. 五、六[9] 托马斯·霍丹丹尼尔·巴拉斯和吉瑞·马塔斯Epos：估计具有对称性的对象的6D姿态。在CVPR中，第11703-11712页，2020年。一二三五六七八[10] To ma´sˇHoda nˇ、Ji ˇr´ıMatas和Sˇt eˇ p a´ nObdr zˇa´ lek。关于6d物体姿态估计的评估ECCVW，第606六个[11] TomasHodan，Frank Michel，Eric Brachmann，WadimKehl，Anders GlentBuch，Dirk Kraft，Bertram Drost，Joel Vidal ， Stephan Ihrke ， Xenophon Zabulis ， et al.Bop：6D对象姿态估计的基准。在欧洲计算机视觉会议（ECCV）的会议中，第19三、六[12] Yinlin Hu ， Pascal Fua ， Wei Wang ， and MathieuSalzmann.单阶段6d物体姿态估计。在IEEE/CVF计算机视觉和模式识别会议论文集，第2930-2939页，2020年。一二三六七[13] 胡因林、约阿希姆·雨果诺特、帕斯卡·福阿和马蒂厄·萨尔茨曼。分割驱动的6d物体姿态估计。在CVPR，2019年。三个[14] 胡因林、约阿希姆·雨果诺特、帕斯卡·福阿和马蒂厄·萨尔茨曼。分割驱动的6d物体姿态估计。在CVPR中，第3385-3394页，2019年。六个[15] Wadim Kehl ， Fabian Manhardt ， Federico Tombari ，Slobo- dan Ilic，and Nassir Navab. Ssd-6d：让基于rgb的3d检测和6d姿态估计再次变得强大。在IEEE国际计算机视觉会议（ICCV），2017年10月。一、二[16] Wadim Kehl 、 Fausto Milletari 、 Federico Tombari 、Slobodan Ilic和Nassir Navab。局部rgb-d补丁的深度学习，用于3d对象检测和6d姿态估计。在ECCV，2016年。二个[17] Abhijit Kundu，Yin Li，and James M Rehg. 3d-rcnn：通过渲染和比较进行实例级3d对象重建。在CVPR，2018年。五个[18] YannLabbe´，JustinCarpentier，MathieuAubry，andJosefSivic.Cosypose：一致的多视图多对象6D姿态估计。欧洲计算机视觉会议，第574-591页。Springer，2020年。一、二、五、六、七、八[19] 易离，顾望，向阳季，于翔，迪特尔福克斯。DeepIM：用于6D姿态估计的深度迭代匹配IJCV，第1-22页，2019年。二五六七[20] Zhigang Li，Gu Wang，and Xiangyang Ji. CDPN：用于实时基于RGB的6-DoF对象姿态估计的基于坐标的解纠缠姿态网络。在ICCV，第7678-7687页，2019年。一、二、五、六、七、八[21] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。InICCV，2017.二个[22] Liyuan Liu ， Haoming Jiang ， Pengcheng He ， WeizhuChen，Xiaodong Liu，Jianfeng Gao，and Jiawei Han.关于自适应学习率的变化和超越。在2019年国际学习代表会议上。五个[23] Wei Liu，Dragomir Anguelov，Dumitru Erhan，ChristianSzegedy，Scott Reed，Cheng-Yang Fu，and Alexander C.伯格。SSD：单次触发多盒探测器。在ECC

下载后可阅读完整内容，剩余1页未读，立即下载