一种用于6D多目标位姿估计的紧密耦合迭代算法

131 浏览量更新于2023-10-26 收藏 1.33MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6728一种用于6D多目标位姿估计的耦合迭代算法Lahav Lipson Zachary Teed Ankit Goyal邓佳普林斯顿大学摘要我们解决了6D多对象姿态的任务：给定一组已知的3D对象和RGB或RGB-D输入图像，我们检测和估计每个对象的6D姿态。我们提出了一种新的方法来6D对象的姿态估计，其中包括一个端到端的微分架构，利用几何知识。我们的方法以一种紧密耦合的方式对姿势和对应关系进行了相对细化，使我们能够动态地去除离群值以提高准确性。我们使用一种新的可微层来执行姿势细化，通过解决我们称为双向深度增强视角-N点（BD-PADs）的优化我们的方法在标准6D ObjectPose基准测试中达到了最先进的精度。代码可在https://github.com/princeton-vl/Coupled-Iterative-Refinement上获得。1. 介绍给定包含已知3D形状的一组对象实例的RGB或RGB-D图像，6D多对象姿态是检测和估计每个对象实例的6D姿态-位置和取向的任务。准确的姿势对于机器人任务（例如，抓取和涉及形状操纵的增强现实应用）是重要的。在标准的6D多对象姿态设置中，我们给出了一组已知对象实例的3D模型。给定RGB或RGB-D输入图像，目标是联合检测对象实例并估计其6D对象姿态。早期的工作解决了这个问题，首先估计3D模型和图像之间的对应关系[22]，产生一组2D-3D对应关系，然后使用透视 n 点（ PSPs ）求解器 [16 ， 19] 或像 Levenberg-Marquardt这样的迭代算法来获得6D对象姿态虽然2D-3D对应足以求解6D姿态，但在实践中难以获得精确的对应。在许多应用中，我们希望估计的地方是不可靠的局部特征匹配纹理不良的对象的姿态。此外，诸如严重遮挡、对象对称性和光照变化等问题可能使检测和匹配局部特征几乎不可能。这些问题-图1.给定图像和3D模型集合，我们的方法输出每个对象实例的位置和方向。LEM导致经典系统对于许多需要更大程度的鲁棒性的使用情况来说太脆弱。最近，这些问题中的许多已经部分地使用深度学习来解决。一种简单的方法是训练网络直接回归6D姿势[18，20，35]。直接姿态回归简单地学习将输入映射到输出，并且不利用像素是已知3D对象的透视投影的事实尽管直接姿态回归在实践中可能非常有效，但一个有趣的问题是是否存在更好的利用投影几何的深度学习方法许多关于6D姿势的工作都试图将深度学习和投影几何结合起来。一种方法是训练一个深度网络来检测已知的关键点。 3D对象[12，26-另一种方法是以隐含或声明层的形式强加几何知识[5，6]。这些工作表明，PADOS可以作为一个模块化组件在端到端的可扩展架构中实现。然而，这两种方法在对应性被预测一次并且然后被用于通过PADRECT求解器（可重构或不可重构）求解姿态的意义上是我们提出了一种新的方法来估计6D对象的姿态。我们的方法包括一个端到端的微分架构，利用几何知识。我们的方法在6D姿态上的先前工作的主要新颖性6729是“耦合迭代细化”的使用我们的方法建立在为光流开发的RAFT [31]架构之上（即，密集对应）。基本思想是估计输入图像和已知3D对象的一组渲染图像之间的流，生成用于求解姿态的2D-3D对应关系。像RAFT一样，我们使用GRU来执行循环迭代更新，但在每次迭代中，我们不仅更新流，而且更新对象姿态。流更新和姿态更新是紧密耦合的：流更新以当前姿态为条件，并且姿态更新以流为条件为了执行姿态更新，我们引入了一种新的可区分层，我们称之为该层类似于可微PADV求解器，因为它通过最小化重投影误差来产生对象姿态的高斯-牛顿更新。但是，它在两个方面是首先，它是双向的：它解决了一个单一的姿态更新，同时满足两组2D-3D对应，一组定义在输入图像上，另一组定义在渲染图像上。其次，我们的层是我们的方法在YCB-V [4]、T-LESS [14]和Linemod（阻塞）[2] RGB-D多对象BOP [15]姿态基准上达到了最先进的精度，显著优于先前的工作。我们的方法的一个变体可以处理仅RGB输入，其性能与当前最先进的技术相当。2. 相关工作经典方法6D对象姿态估计的早期工作使用不变的局部特征[1，23]来生成2D图像特征和3D模型特征之间的对应关系 [24] 。给定 2D-3D 对应关系集，然后使用Pestrian求解器来估计6D对象姿态，即对象在世界坐标中的位置和方向[10]。闭合形式[10，19，37]和迭代算法[25]都在实践中，通常使用封闭形式的解决方案作为初始化，然后进行迭代精化[19]。由于离群值的存在，通常需要诸如RANSAC [9]的鲁棒估计技术。局部特征在高纹理物体上表现良好，但在无纹理物体上往往不能产生足够数量的准确对应。在这项工作中，我们还估计3D模型和输入图像之间的对应关系，以产生一组2D- 3D对应关系。然而，与预测一组稀疏匹配，我们预测密集的对应字段之间的输入图像和渲染的视图的3D模型连同每像素的置信度权重。通过预测密集的对应关系，我们可以确保足够数量的匹配，即使在经典方法失败的无纹理对象上，我们也可以解决准确的姿势。基于学习的方法一些作品提出通过直接回归旋转和平移参数来估计姿态[7，17，36]。其他作品通过检测或回归关键点来生成2D-3D对应关系一种类型的关键点参数化是对象坐标[3，6，26，29]。给定对象的标准姿态，对象坐标表示标准姿态的坐标系中的3D点Brachmann等人[3]表明，可以使用随机搜索来从图像特征回归对象坐标。Pix2Pose [26]使用神经网络从图像中回归对象坐标，而BB8 [29]估计边界框角。通过回归对象坐标，这些系统产生密集的2D-3D对应集，其可用于使用Pestrian解算器估计对象姿态BPNP [6]将这一思想进一步发展，并将PADNP求解器实现为可微网络层。在训练过程中，BPNP使用隐函数定理通过PADSP求解器反向传播梯度，以便可以端到端地训练整个系统我们的工作与这些方法相似，因为我们也回归2D- 3D对应关系（以输入图像和3D模型的渲染视图之间的光流的形式），但我们的不同之处在于执行耦合迭代，其中对应关系和对象姿态都被迭代地细化。迭代优化在单次拍摄设置中估计准确的姿势这促使一些作品应用迭代细化技术来产生更准确的姿态估计。DeepIM [20]是一种交互式的在每次迭代过程中，DeepIM使用对象姿态的当前估计来渲染3D模型，然后使用渲染和图像来回归姿态更新，以更好地将图像与渲染对齐。CosyPose [18]使用改进的网络架构和旋转参数化建立在这一思想的与DeepIM类似，我们的方法还包括一个外部循环，使用当前姿势估计重新渲染3D模型。然而，我们的姿势更新不是由回归产生的，而是由我们的BD-Paddle层产生的，该BD-Paddle层利用几何约束。具体地，BD-Pd 4层解决了用于基于流的当前估计的姿态更新RAFT-3D [32]在场景流估计的上下文中应用迭代细化像我们的工作一样，他们之间的光流细化和拟合刚体变换。然而，RAFT-3D使用Dense-SE 3层预测帧对之间的像素变换场，而我们的工作预测6730.Σ.−′−x=<$GG<$（x）（2）0ii→00∈0144对象级别使用我们的新的BD-P层，这是本质上不同于密集SE 3层。3. 方法我们的方法对单个输入图像进行操作，并产生一组对象姿态估计（图1）。为了简化说明，除非另有说明，否则我们假设RGB-D输入。我们的方法可以分解为3个阶段：（1）目标检测，（2）姿态初始化，（3）姿态细化。前两个阶段（物体检测和姿态初始化）遵循CosyPose [18]提出的方法我们的主要贡献涉及的姿态细化阶段，在那里我们试图将初始的粗姿态估计到细化的姿态与子像素重投影误差。给定物体的纹理3D网格，我们可以使用PyTorch 3D [30]从不同视点渲染对象的图像和深度图，视图由内部和外部参数姿势识别检测之后，我们的系统将为每个候选对象并行操作。给定一个对象，我们首先生成一个初始姿态估计G（0）。我们首先计算一个平移向量tbbox，将3D模型的边界框映射到检测到的对象遮罩，使得网格的直径与投影的边界框对齐。然后，我们使用估计的平移渲染3D模型，并将渲染与图像裁剪连接起来。该输入被直接馈送到基于Resnet的架构，该架构回归旋转和平移更新（R，Rlt），其中使用Zhou等人提出的连续6D参数化来预测旋转。[38]。初始位姿估计可以写成4×4矩阵G（0）=. Rtbbox+t。（五）特征提取和相关性给定我们的初始姿态估计，我们在我们的姿态估计以及通过添加或减去22围绕它渲染几个视点。5◦Gi=R t01fx0cxKi=0 f yc y 。（一）0 0 1从俯仰、偏航或滚转（总共7个渲染视图）。对于每个渲染，我们的网络估计渲染和图像裁剪之间的双向密集对应的其中Gi是相机坐标中的对象姿态设G0为图像的姿态，并且{G1，...，GN}是每个渲染的对象姿态是已知的;需要估计图像裁剪中的对象的姿态。对于所有N个渲染，我们提取密集的H×W特征图。将渲染中的点映射到图像1 1我或者从图像到渲染我们还使用共享权重将相同的特征提取网络应用于图像裁剪。然后，我们为每个图像-渲染对构建两个相关体积，一个从图像到渲染，另一个从渲染到图像。相关体积为x′0→i =0。GiG−01−1（x0）（3）通过取所有特征向量对之间的点积来计算像RAFT [31]一样，我们将最后两个dimen合并在一起，我们使用深度增强的针孔投影函数，不仅转换点的图像坐标，还转换帧之间的逆深度X/Z x/d x（X）=1/Z1/dD每个相关体积的大小，以产生一组4级相关金字塔。这些金字塔包含对匹配有用的相关性特征。3.1. 耦合迭代精化我们使用一个基于GRU的更新操作符（图1）。（2）生产一系列对我们姿态估计的更新GRU还其中假设像素坐标是使用相机本征函数来归一化然后，目标是求解姿态G0，使得等式2正确地映射图像和渲染之间的点通常，我们希望返回世界坐标中的物体姿态，这可以通过简单地反转G 0来计算。给定一幅输入图像，我们首先应用Mask-RCNN [11]生成一组对象检测和相关标签。我们使用来自 CosyPose [18]的预训练的 Mask-RCNN权重，这些权重是在BOP [15]对象类上训练的。然后，我们使用检测到的边界框从图像、分割掩码和深度图（在RGB-D设置中）生成裁剪。我们将作物调整为320×240并相应地调整intrinsic有一个隐藏的状态，它会随着每次迭代而更新。设G为所有姿势的集合，包括渲染和图像。渲染器的姿态是固定的，而第一个姿态G0（图像的姿态）是可变的。使用等式2、计算稠密对应场之间的图像和每个渲染双向我们使用等式1计算xi→0 。 2 和 x0→ i ，使用等式 3 . 第三章。对应域xi→0RH× W×3告诉我们，对于render i中的每个像素，它在图像中的估计2D位置。值得注意的是，对应域被增加了逆深度，也就是说，xi→0不仅包含2D坐标，而且还包含逆深度。相关性我们使用xi→0从相应的相关性金字塔中使用查我们可以定义一个函数，6731找运算符6732N∈00i→00我我中国→00→i我 000→i相关性特征查找更新对应字段x′i→0=xi→0+ri→0x′0→i=x0→i+r0→i（六）隐藏状态并定义一个目标函数，以最小化重新投影的坐标和修正的对应关系之间的距离E（G）=0。|x′i=1N-（G G−1−1（x）|. 2个以上（七）Σ。|.|. 2图2.更新操作符。GRU产生修订r和置信权重w。修订和置信度权重用于求解姿势更新。在RAFT中定义[31]。查找运算符以半径r围绕每个点构建局部网格，并使用该网格从相关性金字塔中的每个级别进行索引，从而产生总共L个相关性特征。查找操作的结果算子是关联特征si→0∈RH×W ×L的映射。类似地，我们使用x0→ i来产生相关特征s0→ i∈RH× W × L。GRU更新对于每个图像渲染对，相关性特征si→0和隐藏状态hi→0以及补充材料中描述的附加上下文和深度特征被馈送到3x3卷积GRU，其输出（1）新的隐藏状态，（2）修订ri→0∈哪里|| · ||是马氏距离，其中diagi→0=diag wi→0。Eqn中的目标7表示我们希望摄像机姿态G0，使得重新投影的点与修改后的对应关系x′ij匹配。值得注意的是，该目标与传统的PSTK类似，因为它优化了重投影误差但是，与传统的优化一组2D-3D对应关系的PSTOM不同，我们的目标是双向的，因为它优化了两组2D-3D对应关系，一组定义在渲染器上，另一组定义在输入图像上。此外，与传统的PSNR不同，我们的目标还包括逆深度的重投影误差，实验表明这对提高精度是重要的我们线性化Eqn。7使用当前姿势，并执行固定数量的高斯网络更新（训练期间3次，推断期间10次）。每个高斯-牛顿更新产生姿态更新δ βse（3），该姿态更新δ βse（3）被应用于使用SE 3流形G（t+1）=exp（δε）·G（t）。（八）R-H×W ×3对应于每个稠密对应域，(3)预测修订中置信度wi→0的密集图修订ri→0表示以密集的校正图的形式的新的流量估计，其应当应用于由当前姿态估计产生的对应注意，ri→0不仅包括2D坐标的修订，还包括逆深度的修订对于深度的修订是必要的，以补偿输入传感器深度可能是有噪声的并且对应点可能被遮挡的事实我们还将相同的GRU应用于图像渲染对的另一个方向也就是说，我们使用相关性特征s0→ i来产生修订r0→ i和置信图w0→ i。请注意，GRU的权重在两个方向上的所有图像渲染对之间共享双向深度增强的PSNR（BD-PSNR）BD-PSNR层将预测的修订r和置信度w转换为相机姿态更新PSNR0。我们首先使用修订版内部和外部更新循环对于给定的渲染集完成后，我们使用改进的姿态估计重新渲染一组新正如我们在实验中所展示的，我们可以通过增加内部和外部迭代的数量来换取准确性3.2. RGB输入为了处理RGB输入，我们可以使用当前姿态G（t）来渲染来自已知3D模型的深度，并且就像我们具有RGB-D输入一样继续进行。然而，这种基本方法在数学上并不合理，因为渲染的深度是对象姿势的函数，但被视为常数在优化中。另一方面，完全原则性的处理难以实现，因为它需要计算渲染函数的雅可比矩阵以及反向传播期间雅可比矩阵的导数作为BD-PingleGRU深度构成i=16733中间地带，我们使用渲染的深度来线性化优化目标，并在优化中引入深度作为变量，以便我们联合优化姿势和深度，但放弃深度更新（补充材料中的完整细节）。这一修改后的方法取得了更好的结果。3.3. 培训每个训练步骤，我们在输入图像中随机采样一个可见对象，并随机进行地面真实旋转和平移以初始化姿态。我们的模型经过训练，从这个初始化中恢复地面实况姿态。为了节省GPU内存，我们在训练过程中使用10个内循环和一个外循环，并且在每个训练步骤中只渲染一个视点。监督我们监督预测的对应修订和来自前向传递中所有更新的更新姿态估计，损失权重呈指数级增加，类似于RAFT [31]。具体而言，我们监督估计姿态和地面真实姿态之间的测地线L1距离使用L1端点误差损失来监督流，这是光流问题的标准。我们用于实验的BOP基准[15]中的所有地面真实姿势都具有一组离散对称性，这些对称性被认为是关于MSSD和MSPD误差度量的等效。为了将损失与误差度量对齐，我们使用所有离散对称计算损失并反向传播最小值。4. 实验评估为了与BOP基准评估保持一致，我们报告了最大对称感知表面距离（MSSD）召回、最大对称感知投影距离（MSPD）召回、可见表面差异（VSD）召回以及所有三个指标的平均值。MSSD是预测姿态和地面实况姿态中的关联网格顶点之间的最大欧几里得距离。MSPD是来自预测姿态和地面实况姿态的所有关联顶点MSSD和MSPD两者都假定跨所有对称地等效的地面实况姿态的最小值VSD是在预测姿态和地面真实姿态处渲染的网格之间的深度差异所有这三个指标都被报告为在BOP基准[15]中定义的一组阈值上的召回百分比，在0和1.对三个人来说，越高越好。数据集我们在来自官方BOP基准的单个RGB-D图像（ViVo任务）中不同数量的对象的不同数量的实例上评估我们的方法[15]。具体来说，我们在YCB-V [4]，T-LESS [14]和LM-O（Linemod-Occluded）[2]来自BOP基准的数据集[15]。每个数据集方法平均值 MSPDVSDMSSDYCB-V[4]我们0.8930.8850.8720.923[第18话]0.8610.8490.8310.903W-PoseNet w/ICP [17]0.7790.7340.7790.824Pix2Pose-BOP20（w/ICP）[26]0.7800.7580.7660.817Koenig-Hybrid-DL-PointPairs [8]0.7010.6350.7780.690CDPNv2-BOP20（w/ICP）[21]0.6190.5650.5900.701EPOS [13]0.6960.7830.6260.677视频传感器18 [34]0.4500.3470.6230.380T-LESS [14]我们0.7760.7950.7580.773[第18话]0.7280.8210.6690.695Pix2Pose-BOP20（w/ICP）[26]0.5120.5490.4380.548Koenig-Hybrid-DL-PointPairs [8]0.6550.6960.5800.689CDPNv 2-BOP 19（含ICP）[21]0.4900.6740.3770.418EPOS [13]0.4760.6350.3690.423视频传感器18 [34]0.5380.5740.4640.575LINEMOD-闭塞[2]我们0.7350.8250.6020.780[第18话]0.7140.8260.5670.748W-PoseNet w/ICP [17]0.7070.7930.6010.726Pix2Pose-BOP20（w/ICP）[26]0.5880.6590.4730.631Koenig-Hybrid-DL-PointPairs [8]0.6310.7030.5170.675CDPNv2-BOP20（w/ICP）[21]0.6300.7310.4690.689EPOS [13]0.5470.7500.3890.501视频传感器18 [34]0.5820.6470.4730.625表1.在BOP基准上表现最好的方法[15]。MSPD、VSD和MSSD列是它们在一系列阈值上的召回（秒）。4）.我们使用与cosy- pose相同的探测器[18]方法平均值MSPD VSDMSSDYCB-V [4]我们的[第18话]0.8210.8500.7720.842EPOS [13]0.6960.7830.6260.677CDPN [21]0.5320.6310.3960.570T-LESS [14]我们0.7080.7950.6560.673[第18话]0.7280.8210.6690.695[13] 0.476 0.635 0.369 0.423[21] 0.490 0.674 0.377 0.418LINEMOD-闭塞[2]我们0.6570.8220.5050.645[第18话]0.6330.8120.4800.606EPOS [13]0.5470.7500.3890.501CDPN [21]0.6240.7310.4690.612表 2. BOP 基准 [15] 的结果，不包括使用深度的方法。MSPD、VSD和MSSD列是它们在一系列阈值上的重新调用（秒）。4）. 我们使用与cosypose相同的检测器[18]。6734由一组独特的对象组成，旨在评估一种方法在不同现实环境中的准确性。YCB-V数据集由21个具有纹理和颜色的家用对象组成，T-LESS数据集由30个高度相似的行业相关对象组成，没有纹理或颜色，而Linemod（遮挡）数据集由15个无纹理彩色家用对象组成。对于测试集中的每幅图像，我们必须对所有可见对象的旋转和平移进行分类和预测。有900个YCB-V测试图像、 1000 个 T-LESS 测试图像和 200 个 Linemod-Occluded测试图像。每个图像包含3到8个对象。在YCB-V Objects数据集[4]上，我们使用BOP挑战[15]中提供的80 K合成和113 K真实训练图像。在T-LESS[14]数据集上，我们使用50 K合成图像和38 K真实训练图像进行训练。在Linemod数据集上，我们专门使用提供的50K合成训练图像进行训练请参阅补充材料的其他实施细节.4.1. BOP基准结果我们的方法在YCB-V、T-LESS和LM-O上对RGB-D输入的性能显著1）。与BOP基准指南一致，我们所有的RGB-D方法在所有数据集上使用完全相同的超参数设置。对于我们比较的每个先前的工作，我们报告了每个数据集的最佳我们报告的结果不使用ICP。仅RGB结果使用我们对仅RGB输入的适应，我们将我们的方法与BOP基准上的所有先前工作进行比较。我们的方法在BOP基准上与最先进的方法具有竞争力（见表1）。2），在Linemod（Occluded）和YCB-V上表现优于T-LESS。正如我们的RGB-D结果一样，我们所有的RGB结果都是使用相同的超参数设置获得4.2. 消融实验所有消融实验都是在YCB-V、T-LESS和LM中训练数据的O. 我们主要报告RGB-D设置的消融结果（3）第三章。我们对RGB设置执行相同的消融，并在补充材料中报告结果基于RGB-D消融的更好设计选择也适用于RGB输入，并用于获得两种设置的最终结果。双向深度增强的PSNR我们的方法受益于图像渲染对之间的双向性。仅在Pendash解算器中使用来自单个方向的对应会产生不太准确的结果。此外，深度增强提高了准确性。预测置信度权重预测的置信度权重允许我们的模型降低对应关系的权重图3.我们的方法的精度/速度权衡。一个外部更新循环（我们的1x）和两个（我们的2x）的结果。左：YCB-V训练数据的保留分割上的精度。右：T-LESS训练数据的保留分割的准确性我们的方法收敛很快，这意味着很少的内部循环和一个外部循环提供了良好的结果。时间是在具有随机旋转和平移扰动的单个物体上测量的这些都是异常值此行为对性能至关重要，因为遮罩内所有像素的均匀置信度要低得多（请参见表1）。（3）第三章。多视图渲染在前向过程中，我们可以通过在输入姿态的额外扰动下渲染对象来任意添加更多视点。内存使用率与视点的数量成线性比例，因此在推理期间，这是易于处理的。即使没有使用多个渲染进行显式训练，渲染七个旋转扰动的视点也会在推理过程中产生更好的结果（请（3）第三章。从过大的旋转扰动生成的视点与输入图像共享太少的对应而没有用，而太小的扰动几乎没有增加新的信息。二十二岁5.扰动在所有情况下都能很好地工作。耦合迭代细化对应性和姿态的紧密耦合迭代细化的性能大大优于预测对应性后求解姿态的单次拍摄方法。流和姿态损失姿态和流损失函数都是关键的，这表明姿态更新和流更新之间存在强耦合外部循环有一个外部循环是有益的，它使用最新的姿态估计来重新生成渲染。处理仅RGB输入Tab. 4比较了处理RGB输入的基本方法和修改后的方法（见第2节）。3.2）。修正后的方法效果更好。4.3. 速度与精度的权衡人们可以通过改变外部或内部更新循环的数量来权衡速度的准确性第3.1节）。在图3中，我们报告了我们的方法在YCB-V和T-LESS训练数据集的保留部分上的准确性，作为运行时间的函数，对于一个和两个外循环。期末6735YCB-V [4]T-LESS [14]LM-O [2]MSPD召回MSSD召回MSPD召回MSSD召回MSPD召回MSSD召回双向聚四氟乙烯0.9240.9550.6850.5820.8280.788单向Pendix（渲染到图像）0.9050.9410.6770.5460.6050.465单向Pendix（要渲染的图像）0.8900.9170.3370.2000.8110.773深度增强的PSNR（预测深度修正）0.9240.9550.6850.5820.8280.788无深度增加（无深度翻修）0.9090.9400.6780.5730.8190.784预测每像素置信度权重0.9240.9550.6850.5820.8280.788一致置信度0.7210.8320.5870.4240.8120.760多视图渲染0.9240.9550.6850.5820.8280.788单个渲染0.9020.9410.6630.5450.7440.641耦合迭代加细0.9240.9550.6850.5820.8280.788一次性（通过RAFT进行流动，然后进行PAPER）0.5620.6430.4830.2750.5690.054姿势+流量损失0.9240.9550.6850.5820.8280.788仅流量损失0.7400.7330.5580.3860.8040.735仅姿态损失0.8660.9190.2610.1690.6150.3034个外环0.9330.9580.6940.6010.8310.7871个外环0.9240.9550.6850.5820.8280.788未优化初始姿势0.1940.2980.2630.1670.4750.316表3.使用我们的方法进行RGB-D输入的消融实验。我们评估我们的方法上举行了训练图像。初始姿态通过随机扰动地面真实姿态来生成。我们完整方法中使用的选项是粗体的。YCB-V [4]T-LESS [14]LM-O [2]MSPD召回MSSD召回MSPD召回MSSD召回MSPD召回MSSD召回订正办法（深度作为变量）0.8330.7510.6490.4740.7930.609基本方法（深度不变）0.8140.6780.6370.3430.8080.570表4.消融实验使用我们的方法仅RGB输入。我们评估我们的方法在训练图像的一个子集。初始姿态通过随机扰动地面真实姿态来生成。在我们的完整RGB方法中使用的选项是粗体的。我们的RGB方法上的其他消融在双相材料中。结果为Tab。在图1和图2中，我们使用4个外循环和40个内循环，每批检测需要10.80 s然而，图3表明，我们的方法收敛得很快，只有几个内部循环和一个外部循环。4.4. 稳健性我们评估我们的方法的鲁棒性不准确的初始姿态估计的YCB-V测试集。除了粗略的姿态估计模型之外，Cosypose [18]还引入了基于回归的细化模型。在图6中，我们绘制了模型的精度作为初始输入姿势的旋转误差的函数。为了比较，我们还包括[18]中介绍的精化模型。这两种方法都使用训练数据的相同随机扰动进行训练。我们的方法的一个局限性是，它的能力，以完善的姿态减少较大的初始旋转误差。5. 定性结果置信度权重在前向传递中，我们的模型为图像和渲染姿态估计之间的所有预测对应关系生成置信度权重的密集域。图4.YCB-V数据集上的预测置信权重热图提供了对哪些表面特征对姿势优化算法最有帮助的洞察。具体来说，我们的方法在无纹理区域上具有低置信度，而在纹理区域、薄结构和边缘上具有高置信度。6736图6.我们的模型对部分不正确的初始输入姿势是鲁棒的。我们将输出姿态的准确度（MSSD召回率）和旋转误差绘制为初始输入姿态的旋转误差（SO3测地距离，表示为输入姿势从地面实况随机旋转。顶部：输出旋转误差。我们的RE在T-LESS上略高中间：输出MSSD调用。我们的方法更准确。底部：相对于初始姿势的MSSD调用，MSSD调用的改进。图5. YCB-V和T-LESS测试数据集的预测。已知的对象模型以预测的姿态被渲染。伙计在图4中，我们将这些置信度权重可视化为图像和渲染上的热图。热图指示图像的哪些部分对于预测对象的姿态最有用在图7中，我们显示了在5像素半径内具有最高置信度的对应关系。在图5中，我们展示了我们的端到端方法在T-LESS和YCB-V测试数据集上进行多对象姿态预测的结果。补充材料中包括YCB-V、T-LESS和LM-O检测数据集的其他6. 结论我们已经介绍了一种新的方法来6D多目标姿态估计。我们的方法迭代地改进姿态和密集对应一起使用一种新的differentiable求解器层。我们还介绍了我们的方法的一个变体，仅RGB输入。我们的方法在标准基准上达到了最先进的精度。图7.预测的高置信度匹配输入图像和渲染的输入姿态之间的YCB-V数据集。我们将5像素半径的非最大抑制应用于置信权重，并显示最有信心的预测对应关系。我们的方法学习预测对解决姿势有用的匹配的高置信度。致谢这项工作得到了美国国家科学基金会的部分支持，奖项为IIS-1942981。6737引用[1] Herbert Bay，Andreas Ess，Tinne Tuytelaars，and LucVan Gool.加速健壮功能（冲浪）。计算机视觉和图像理解，110（3）：346-359，2008。2[2] Eric Brachmann、Alexander Krull、Frank Michel、StefanGumhold、Jamie Shotton和Carsten Rother。使用3d对象坐标学习6d对象姿态估计。在欧洲计算机视觉会议上，第536Springer，2014. 二、五、七[3] Eric Brachmann、Alexander Krull、Frank Michel、StefanGumhold、Jamie Shotton和Carsten Rother。使用3d对象坐标学习6d对象姿态估计。在欧洲计算机视觉会议上，第536Springer，2014. 2[4] Berk Calli、Arjun Singh、Aaron Walsman、SiddharthaSrini-vasa、Pieter Abbeel和Aaron M Dollar。YCB对象和模型集：面向操作研究的公共基准。2015年国际先进机器人会议（ICAR），第510-517页IEEE，2015年。二五六七[5] Dylan Campbell，Liu Liu，and Stephen Gould. 用鲁棒可微几何优化方法端到端解决盲透视n点问题在欧洲计算机视觉会议上，第244-261页。Springer，2020年。1[6] Bo Chen，Alvaro Parra，Jiewei Cao，Nan Li，and Tat-Jun Chin.通过反向传播pnp优化的端到端可学习几何视觉。在IEEE/CVF计算机视觉和模式识别会议论文集，第8100-8109页，2020年。一、二[7] T Do，Trung Pham，Ming Cai，and Ian Reid.实时单目物体实例6d姿态估计。2019. 2[8] Bertram Drost Markus Ulrich Nassir Navab 和 SlobodanIlic。全局建模，局部匹配：高效、鲁棒的3D物体识别。在2010年IEEE计算机学会计算机视觉和模式识别会议上，第998IEEE，2010年。5[9] Martin A Fischler和Robert C Bolles。随机样本一致性：模型拟合与图像分析和自动制图应用范例。Communications of the ACM，24（6）：381-395，1981.2[10] Xiao-Shan Gao，Xiao-Rong Hou，Jianliang Tang，andHang-Fei Cheng.透视三点问题的完全解分类。IEEE模式分析与机器智能学报，25（8）：930 2[11] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页3[12] Yisheng He ，Wei Sun ，Haibin Huang ，Jianran Liu ，Haoqiang Fan，and Jian Sun.Pvn3d：一个用于6dof姿态估计的深度逐点3d关键点投票网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第11632-11641页，2020年。1[13] 托马斯·霍丹丹尼尔·巴拉斯和吉瑞·马塔斯Epos：估计具有对称性的对象的6D姿态。在IEEE/CVF计算机视觉和模式识别会议论文集，第11703-11712页，2020年。5[14] 汤姆·马尔斯·霍丹、帕维尔·哈卢扎、斯特普 ·奥布德·扎列克、伊日·马塔斯、马诺利斯·卢拉基斯和色诺芬·扎布利斯。T-less：用于无纹理对象的6D姿态估计的rgb-d数据集。 2017 年 IEEE 计算机视觉应用冬季会议（WACV），第880-888页。IEEE，2017年。二五六七[15] Tomas Hodan，Frank Michel，Eric Brachmann，WadimKehl，Anders GlentBuch，Dirk Kraft，Bertram Drost，Joel Vidal ， Stephan Ihrke ， Xenophon Zabulis ， et al.Bop：Benchmark for 6d object pose estimation.在欧洲计算机视觉会议（ECCV）的会议中，第19二三五六[16] Radu Horaud，Bernard Conio，Olivier Leboulleux，andBernard Lacolle.透视四点问题的解析解。计算机视觉，图形和图像处理，47（1）：33-44，1989年。1[17] AlexKendallMatthewGrimes 和 RobertoCipollaPosenet：用于实时6-dof相机重新定位的卷积网络。在IEEE计算机视觉国际会议论文集，第2938-2946页，2015年。二、五[18] YannLabbe´，JustinCarpentier，MathieuAubry，andJosefSivic.Cosypose：一致的多视图多对象6D姿态估计。欧洲计算机视觉会议，第574-591页。Springer，2020年。一二三五七[19] Vincent Lepetit ， Francesc Moreno-Noguer ， and PascalFua. Epnp：pnp问题的精确O（n）解。国际计算机视觉杂志，81（2）：155，2009。一、二[20] 易离，顾望，向阳季，于翔，迪特尔福克斯。Deepim：深度迭代匹配6D姿态估计。在欧洲计算机视觉会议（ECCV）的会议记录中，第683-698页，2018年。一、二[21] Zhigang Li，Gu Wang，and Xiangyang Ji. Cdpn：基于坐标的解缠姿态网络，用于实时基于rgb的6-dof对象姿态估计。在IEEE/CVF计算机视觉国际会议论文集，第7678-7687页，2019年。5[22] 大卫·G·洛基于局部尺度不变特征的目标识别第七届IEEE计算机视觉集，第2卷，第1150Ieee，1999年。1[23] 大卫·G·洛基于局部尺度不变特征的目标识别第七届IEEE计算机视觉集，第2卷，第1150Ieee，1999年。2[24] 大卫·G·洛三维物体识别的局部特征视图聚类。在2001年IEEE计算机学会计算机视觉和模式识别会议上。CVPR 2001，第1卷，第I-I页。IEEE，2001年。2[25] 唐纳德·马夸特非线性参数的最小二乘估计算法。JournaloftheSocietyforIndustrialandAppliedMathematics，11（2）：431-441，1963. 2[26] Ki

下载后可阅读完整内容，剩余1页未读，立即下载