一种多阶段一次性物体姿态估计框架及其性能评估

42 浏览量更新于2023-10-25 收藏 15.06MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

Ivan Shugurov1,3, Fu Li1,2, Benjamin Busam1, Slobodan Ilic1,368350OSOP：一种多阶段一次性物体姿态估计框架01 德国慕尼黑工业大学 2 国防科技大学 3 西门子公司 { ivan.shugurov, fu.li,b.busam, slobodan.ilic } @tum.de0摘要0我们提出了一种新颖的一次性方法，用于物体检测和6自由度姿态估计，不需要对目标物体进行训练。在测试时，它以目标图像和纹理化的3D查询模型作为输入。核心思想是使用从不同视点渲染的多个2D模板来表示3D模型。这使得基于CNN的直接密集特征提取和匹配成为可能。首先在2D中定位物体，然后估计其近似视点，接着进行密集的2D-3D对应预测。最后使用PnP计算姿态。我们在LineMOD、Occlusion、Homebrewed、YCB-V和TLESS数据集上评估该方法，并与基于合成数据训练的最先进方法进行了竞争性性能比较，尽管我们的方法没有在用于测试的物体模型上进行训练，但表现非常出色。01. 引言0高质量6自由度姿态估计方法的快速发展正在进行中。根据BOP挑战赛[14]，该挑战赛结合了公开可用的6自由度姿态估计数据集，并提供了标准化的评估和比较程序，该领域主要由深度学习方法[2, 12, 16, 19, 21, 22, 22, 24-27, 36, 37,47, 49-52,59]主导。然而，这些方法的性能受到标记训练数据的限制。对真实数据进行准确的6自由度姿态注释是一个复杂而耗时的过程[20]，必须针对每个新物体手动重复。这严重限制了6自由度姿态估计方法的实际应用性。此外，标签可能存在缺陷[4]。随着合成数据准备工具的改进，越来越多的方法开始在合成渲染图像上进行训练。这极大地简化了为新物体准备数据的过程。然而，这些耗时和计算密集的数据渲染和模型训练步骤必须针对每个感兴趣的新目标物体重复进行。虽然一次性物体检测，即对新物体的检测0(a)0(b)0(c)0(d)0图1.在Homebrewed数据集[20]上对提出方法进行定性评估。a）输入图像，仅为了可视化目的进行裁剪，显示了地面真实姿态（绿色长方体）和估计姿态（蓝色长方体）的比较；b）预测的一次性分割；c）匹配的模板；d）颜色编码的NOCS对应关系的预测。0虽然传统的2D检测方法在未在训练中见过的物体上表现出有希望的结果，但其在姿态估计方面的扩展非常有限。几乎没有相关工作尝试推广到新的物体上。它们主要集中在同一类别的物体上[6, 31,55]，具有非常相似的几何形状的物体[38,39]，依赖于部分训练目标物体[52]，或者将任务限制为视点估计[57]。我们将一次性物体检测的思想扩展到完整的6自由度姿态估计。我们的方法只需训练一次，然后自动推广到未经训练的新物体，无需为新物体准备合成或真实数据进行训练。提出方法的4阶段流程如图2所示。该方法的输入是一张测试图像。Target imageSparsesegmentationquery templates Localized object Segmentation and 2D-3Dcorrespondences Dense matchingquery templates Detected objectMatched templateDetected object6DoF pose68360阶段1：一次性分割阶段2：模板匹配阶段3：密集的2D-2D匹配阶段4：姿态估计（Pnp/Kabsch）0图2.提出的检测器的流程。1）基于3D模型的一次性物体定位。2）通过模板匹配进行初始视点估计。3）图像块与匹配模板之间的密集2D-2D匹配。4）使用PnP+RANSAC或Kabsch+RANSAC进行6自由度姿态估计。提出的姿态估计流程对于未在训练中见过的新目标物体具有很好的泛化能力。0和目标物体的纹理3D模型。受OS2D[35]的启发，该方法依赖于对象的稀疏2D模板集合通过从不同视点渲染对象获得的稀疏2D模板集合在对象和输入测试图像之间进行密集滑动窗口特征相关。在第一阶段，进行一次性对象分割。在第二阶段，将检测到的对象与对象渲染数据库进行匹配，以执行初始视点估计。在第三阶段，网络估计输入图像块的像素与已知姿态的匹配模板之间的密集2D-2D对应关系。这为我们提供了输入图像的像素与3D模型之间的2D-3D对应关系。这使得可以使用PnP [23]或Kabsch[1]与RANSAC[8]进行6自由度姿态估计。我们在五个数据集（LineMOD，遮挡，HomebrewDB，YCB-V和TLESS）上对我们的方法进行了评估，证明它完全适用于在训练期间未见过的新对象和场景。我们的主要贡献包括：1）第一个真正适用于新对象的基于RGB的一次性姿态估计流程，无需对其进行训练。这导致合成数据生成和重新训练所需的时间大大减少。2）一种新颖的架构和一种新颖的一次性语义分割机制；3）一种用于密集2D-2D匹配的架构，它使得可以将具有已知6自由度姿态的模板的2D-3D对应关系转移到具有未知姿态的目标图像中。02. 相关工作0最先进的深度学习方法。主要趋势是预测2D关键点的位置，其对应的3D模型上的点是已知的。特别是，IPose[16]，YOLO6D [53]，PVNet [37]，HybridPose[50]和[19]预测了预定义关键点的稀疏集合。DPOD [48,49, 59]，CDPN [27]，Pix2Pose [36]和0EPOS[12]依赖于密集像素级2D-3D对应估计。然后使用PnP[23]算法估计姿态。关键点的预测可以实现更稳健的姿态估计，并明确使用遮挡处理。值得注意的例外是CosyPose[22]，其中通过直接姿态回归后进行多视图细化获得了出色的姿态估计结果。0对新对象的泛化。Point PairFeatures（PPF）[7]可以说是唯一一种商业可用的[34]用于对象检测和姿态估计的一次性方法。它通过使用定向点对近似局部几何，并在场景和对象模型之间进行详尽的特征匹配来工作。基于PPF的方法在BOP挑战赛[14]中一直处于领先地位，直到最近被深度学习方法超越。PPF方法的缺点是它们依赖于具有每点法线的深度信息和较慢的运行时间，这限制了其潜在应用。0已经进行了多次尝试，使基于深度学习的姿态估计方法能够适用于新的物体。NOCS [55]，随后是[6, 24,31]，提出了训练网络来预测特定狭窄类别中物体的姿态。尽管有所进展，但性能仍然完全依赖于物体类别内物体的相似程度。另一方面，我们的方法明确在推理过程中使用3D物体模型，因此不做此类假设。另一方面，另一种研究方法试图利用训练和测试序列中物体之间的相似性。CorNet[39]仅使用角点来近似物体几何形状。在[38]中预测了每个物体像素的密集局部形状描述符，可以与物体模型匹配。这些方法需要训练和测试对象之间具有高度相似性才能发挥良好的作用。Sundermeyer等人[51]证明了旋转估计通过模板匹配可以推广到在训练期间未见过的新对象，即使特征提取器是在来自不同数据集的对象上进行训练的。然而，该方法在目标对象类别上训练了一个2D物体检测器。与它们相比，我们提出的方法完全是一次性的，不需要对目标对象进行任何训练。[57]的方法更类似于我们的方法。在这里，通过将从3D模型和图像提取的特征进行串联来直接预测视点。然而，该方法假设物体已经在2D中完美定位，并且不估计完整的6自由度姿态。One-shot methods for 2D object detection use a targetRGB image and a query template of the object of interestas input during inference, neither of which was seen duringtraining. The inputs in our method are a target RGB imageand a 3D model of the object. The 3D model is representedby a set of 2D query templates rendered from various vir-tual camera viewpoints placed on a sphere around the ob-ject. Our pipeline consists of four stages as summarizedin Figure 2 with stages object segmentation (1), templatematching (2), 2D-2D matching (3), and pose estimation (4).Stages 3 and 4 can potentially be executed several times toproduce multiple pose hypotheses.In the following, we use I of size H × W to denote animage, which implicitly depends on the object model Mand its pose T ∈ SE(3). A feature extractor F kF E(I) ∈RHk×W k×Dk uses a pre-trained network to extract featuremaps of depth dimension Dk from the input image.Inthe paper, we use pre-computed feature maps from sev-eral depth levels of the network, which are indexed by{k ∈ N | 1 ≤ k ≤ N}. ¯F kF E(I) ∈ RDk stands for afeature extractor which extends F kF E by spatial averagingalong height and width for each depth dimension of the fea-68370通过模板匹配进行姿态估计可以推广到在训练期间未见过的新对象，即使特征提取器是在来自不同数据集的对象上进行训练的。然而，该方法在目标对象类别上训练了一个2D物体检测器。与它们相比，我们提出的方法完全是一次性的，不需要对目标对象进行任何训练。[57]的方法更类似于我们的方法。在这里，通过将从3D模型和图像提取的特征进行串联来直接预测视点。然而，该方法假设物体已经在2D中完美定位，并且不估计完整的6自由度姿态。0一次性方法用于2D物体检测在推理过程中使用目标RGB图像和感兴趣物体的查询模板作为输入，这两者在训练过程中都没有见过。我们的方法的输入是目标RGB图像和物体的3D模型。3D模型由从放置在物体周围的球体上的各种虚拟相机视点渲染的一组2D查询模板表示。我们的流程包括四个阶段，如图2所示，包括物体分割（1）、模板匹配（2）、2D-2D匹配（3）和姿态估计（4）。阶段3和4可以多次执行以产生多个姿态假设。以下，我们使用大小为H×W的图像I来表示一个图像，它隐含地依赖于物体模型M和其姿态T∈SE(3)。特征提取器FkFE(I)∈RHk×Wk×Dk使用预训练网络从输入图像中提取深度维度Dk的特征图。在论文中，我们使用网络的几个深度级别的预计算特征图，由{k∈N|1≤k≤N}索引。¯FkFE(I)∈RDk表示通过对每个深度维度的特征进行高度和宽度的空间平均来扩展FkFE的特征提取器。03. 方法论0通过特征图的空间平均来产生长度为Dk的单个向量。03.1. 一次性分割0第一阶段网络接收一张图像和3D模型的描述符，并预测一个二进制分割掩模，指示物体可见部分的位置。核心思想是使用通过在不同旋转中渲染物体生成的基于视点的模板来描述纹理CAD模型。这使得问题更接近标准的2D一次性方法。关键区别在于我们基于预渲染的模板计算单个描述符，允许图像与所有模板进行一次性匹配，而不是标准的一次性物体检测，该方法将每个查询模板独立处理。图3描述了网络的整体架构。我们首先建立在密集特征匹配的概念上，该概念最初在[43]中提出，并在[35]中扩展用于物体检测任务。基本思想是计算目标图像的特征图与物体描述符的特征之间的像素级相关性。特征预计算在图4中可视化。预计算的图像特征fk = FkFE(I) ∈ RHk×Wk×Dk和物体M的4D描述符张量ok= FFE(M) ∈ RXk×Yk×Zk×Dk进行比较。4D描述符张量ok0收集从物体周围的球体上的虚拟视点渲染的所有模板，其中前两个维度（X，Y）表示相机位置相对于物体坐标系，使用极坐标，而第三个维度Z表示平面内旋转。第4个维度Dk指的是从网络的多个深度级别提取的每个模板的特征图。张量的每个元素是用相应特征向量表示的一个视点模板。它定义为okx,y,z=¯FkFE(I(R(x,y,z)∙M))，其中R是表示球体上的虚拟视点的旋转矩阵。特征图fk中的每个像素与整个物体描述符ok进行匹配，结果是一个相关张量ck∈RHk×Wk×Xk×Yk×Zk。对于特定的像素（h，w），相关张量的值定义为0c_k h,w,x,y,z = corr � f_k h,w, o_k x,y,z �, (1)0其中corr表示皮尔逊相关系数。然后将相关张量展平为3D张量c_k ∈ R H_k × W_k × (X_k Y_kZ_k)。这样，目标图像特征图的每个像素都得到其特征向量与描述符的所有特征向量之间的所有相关性的列表。展平的相关张量以两种方式使用。首先，预先计算的相关性直接用作解码器的输入，如[35,43-45]所示。为此，张量c_k经过一个1×1卷积层处理，将维数从�X_k Y_k Z_k�减少到L_k。Model descriptor ck are used jointly by the subsequent layers. Overall, thedecoder resembles the UNet [46] approach of feature mapsupsampling followed by convolutional layers until the ini-tial image size is reached. The main distinction is that thenetwork employs stacked ˆf k and ck at each level rather thanskip connections. The network is trained to predict per-pixel probability that a pixel contains a visible part of theobject. We used the Dice loss LDice [33] to handle imbal-anced class data.For the initial viewpoint estimation, we rely on tem-plate matching via deep manifold learning , which has beenshown to scale well to a large number of objects [3, 58]and to generalize to new objects [51] not seen during train-ing. We rely on the same feature extraction network FF Ebut use only the features from the last layer. We also addone 1 × 1 convolutional layer to decrease the dimensionsfrom H × W × D to H × W × D′. Template featurest ∈ RH×W ×D′ and image features f ∈ RH×W ×D′ are pre-computed from the foregrounds of the query templates andfrom the foreground of the detected object in the target im-age denoted with using the segmentation predicted in theprevious step respectively. Analogously to the ﬁrst stage,similarity of two patches is estimated by computing per-pixel correlations between f and t usingsim (f, t) =�h,wcorr (fh,w, th,w) .(5)68380图3.第1阶段网络的编码器。该网络接受输入图像和对象模型，由一组稀疏模板表示，并输出目标图像的二进制分割。完整的详细架构在补充材料中提供。0相关性还用于计算像素级的注意力。像素级的注意力允许我们有效地将原始图像特征合并到特征张量中，并将其用于更精确的分割。特征图级别k的原始像素级注意力简单地定义为给定像素的所有�X_k Y_k Z_k�相关性的总和，如下所示：0A_k h,w = max0� �0� 0,0(X_k Y_kZ_0j =1 c_k h,w,j0� �0�. (2)0由于早期层的简单注意力与后期层相比非常嘈杂，因此我们建议将每个特定级别k的像素级注意力条件化为最后一级kl的注意力，后者更精确但分辨率较低，如ˆA_k h,w = A_k h,w0h',w'.▽表示将注意力A_kl双线性上采样到A_k的大小。然后通过将注意力值低于平均值的值置零来过滤这些值，从而得到更清晰、更精确的注意力图，如补充材料中所示：0ˆA_k h,w =0ˆA_k h,w = ˆA_k h,w, if ˆA_k h,w > avgh',w' ˆA_k h',w' 0, otherwise (3)0A_kl本身被阈值化，但不受任何条件限制。所有的值都被缩放到0到1之间。图像特征使用注意力图进行如下转换：0ˆf_k h,w = ˆA_k h,w ∙ f_k h,w − (1 − ˆA_k h,w) ∙0目标图像0图像特征0图4.目标图像和3D模型的特征计算。顶部行说明了如何将输入目标RGB图像转换为3D特征张量f_k。底部行演示了如何将沿方位（X轴）、仰角（Y轴）和平面旋转轴Y采样的对象模板转换为相应的密集4D模型描述符o_k。03.2. 模板匹配0我们训练网络以增加描绘具有非常接近旋转的物体的补丁的相似性，同时惩罚远离旋转的相似性。通过优化具有动态边界的修改的三元组损失来实现。Ltriplets = max�0, 1 −sim(fanchor, f+)sim(fanchor, f−) + m�,(6)d(p, p′)=C−1 (Iobj)p − C−1 (Itmp)p′2(7)68390图5.第3阶段网络的编码器。网络接收包含检测到的物体和匹配模板的输入图像。其输出是逐像素的二进制分割和密集的2D-2D对应关系。详细的架构请参见补充材料。0优化0其中m设置为锚点和拉力器补丁中物体旋转之间的角度。使用[58]中的术语，fanchor是随机选择的物体补丁的描述符。f +对应于拉力器-一个与锚点中的姿态非常相似的模板，而f-对应于具有不同姿态的推动器。在测试时，选择与目标图像中检测到的物体最相似的查询模板作为匹配。03.3.一次性密集对应关系估计0该阶段的目标是建立图像像素与物体模型之间的2D-3D对应关系。在前一步骤之后，我们有一个包含未知姿态中检测到的物体的补丁和一个包含已知姿态的匹配模板。在物体补丁和模板之间建立密集的2D-2D对应关系明确地提供了物体像素与3D物体模型之间的2D-3D匹配。然后可以使用这些对应关系来使用PnP+RANSAC或Kabsch+RANSAC估计姿态。与前几个阶段类似，2D-2D匹配的架构遵循密集特征匹配的一般思想。表示检测到的物体的输入图像补丁的每个特征图f k 的每个像素都与模板特征图t k的所有像素匹配，形成相关张量ck。然后，网络为每个像素预测三个值：二进制的前景/背景分割掩模和模板上对应像素的坐标。图5描述了该架构。在训练过程中，从合成数据集中随机采样一个带有其关联姿态T obj ∈ SE(3)的随机物体裁剪Iobj。然后，随机选择一个模板I tmp以及其姿态T tmp ∈SE(3)，使得T obj和Ttmp相对接近。物体姿态的可用性允许我们在两个补丁中计算每像素的2D-3D对应关系映射。0让C：M×SE(3)→[0,1]W×H×3表示给定姿态下渲染的物体的2D-3D对应关系。它的逆C-1重新计算相对于未归一化的物体坐标的对应关系，对应于实际的3D物体坐标。它允许我们在模型的3D坐标空间中定义2D对应关系对的距离：0其中p和p'分别是图像和模板补丁中的像素坐标。通过匹配对应于模型的3D坐标系中最近点的像素对来建立地面真实的密集2D-2D对应关系。对于点p∈Iobj，其对应的模板点计算为argmin p'∈I tmp d ( p, p')。我们采用0对于具有大的3D空间差异的2D-2D对应关系，进行异常值感知的拒绝。分割损失被定义为每像素的Dice损失（LDice）。此外，网络使用标准的每像素交叉熵分类损失（L2D 2D）预测离散的2D坐标。03.4. 姿态假设验证0我们提出了一种用于生成和验证姿态假设的可选步骤。其目标是减少由于初始视点估计不准确而引起的不精确性。姿态假设是通过独立估计每个前N个匹配模板的2D-2D对应关系并从中估计姿态来生成的。我们贪婪地删除彼此太接近的匹配模板，以减少运行时间并确保更多样化的姿态。在实践中，我们使用15度阈值过滤匹配，并从中选择前25个模板。如果有深度信息，则根据观察到的深度和渲染深度的质量对假设进行排序。在RGB情况下，测量预测对应关系和渲染对象之间的每像素对应错误。04. 实验0我们在Linemod [11]（LM），Occlusion[2]（LMO），Homebrewed [20]（HBD），YCB-V[56]上评估了所提出的方法。TLESS数据集[13]的评估在补充材料中提供。每个检测器阶段都是针对每个目标数据集单独训练的，因此训练和测试对象不同。例如，我们使用在Linemod数据集上进行实验的网络训练了Homebrewed和YCB-V数据集中的所有对象。在训练过程中跳过Linemod和Homebrewed的共同对象。我们在所有实验中使用了BOP挑战[14]的合成PBR图像。我们将只使用PBR[14]的方法称为“synth”。YOLO0.990.970.980.99OS2D0.280.20.230.57YOLO0.690.670.680.85OS2D0.160.310.210.53YOLO0.760.740.750.91OS2D0.240.290.260.44YOLO0.720.840.780.98OS2D0.120.180.140.26RGBDPOD [59]DL [59]54.2-DPOD [59]-40.536SSD6D [21]DL [30]34.1-AAE [52]-31.424PfS [57]-22.5-SSD6D [21]-9.1-RGBDSSD6D [21]ICP90.9100PPF [7]ICP78.8-AAE [52]ICP71.522468400表1. 与YOLO [41]（在目标对象上训练）和一次性OS2D[35]检测器在BOP测试数据[14]的BOP分割上进行2D检测结果的比较。在Homebrewed数据集[20]上报告了公开可用的验证分割结果。0数据集方法精确度召回率 F1 最佳召回率0LM0我们的方法 0.47 0.86 0.61 0.860LMO0我们的方法 0.31 0.61 0.41 0.610HBD0我们的方法 0.43 0.73 0.54 0.730YCB0我们的方法 0.41 0.8 0.54 0.80合成图像，使用“PBR”的方法，使用自定义合成图像的方法称为“synt”，使用真实和合成数据的方法称为“mix”。对于Linemod数据集，报告了标准的ADD分数[7]和10%直径阈值。对于其他数据集，报告了BOP平均召回率（AR）分数[14]。04.1. 2D目标定位0我们将我们的方法的2D检测能力与两个基准进行比较。首先，我们将其与OS2D[35]进行比较，这是一种最先进的一次性目标检测方法。为了公平起见，我们使用与我们的方法完全相同的模板运行OS2D。其次，我们将其与YOLOv3[41]进行比较，该方法使用合成的PBR图像[14]对每个场景进行了单独训练。它建立了目标检测性能的上限，并展示了在目标对象上训练的全监督2D目标检测器可以实现的召回率。我们无法计算平均精度（mAP），因为我们的定位网络遵循语义分割而不是目标检测范例。作为替代，我们为每个方法在每个数据集上选择了一个置信度阈值，以最大化F1分数。然后，我们报告与最佳阈值相对应的精确度和召回率，以及检测器能够达到的最高召回率。表1总结了研究结果。如预期，YOLO在精确度和召回率方面都优于所提出的方法和OS2D。我们的方法 - 未在测试对象上进行训练 -在最佳召回率方面被YOLO超过10％-20％。同时，它的召回率非常接近于与最佳F1分数相对应的YOLO的召回率。OS2D的性能明显较差，特别是在更具挑战性的数据集（如LMO，HBD和YCB-V）上。此外，我们的方法的运行时间约为每个对象25毫秒，比每个对象20秒的速度快约800倍。0表2. 对于在合成数据上进行训练的方法，根据Linemod [ 11]数据集上的ADD，报告正确估计姿态的百分比。除了我们、PPF和PfS之外的所有方法都需要在RGB目标物体上进行先前的训练。0模态方法优化 ADD 时间（毫秒）0我们的多重假设 43.6 13430我们的 - 39.3 960我们的多重假设 + ICP 81.9 7490我们的多重假设 80.1 7220我们的 ICP 76.8 680我们的 - 73.3 600OS2D。这显示了所提出的方法与2D一次性检测的最新技术的优势。04.2. 6自由度姿态结果0在本节中，我们评估使用我们的一次性方法估计的姿态的准确性。然而，由于缺乏相关工作，这并不是一项简单的任务。基于几何的深度学习方法[ 38 , 39]在单个数据集上使用旧的姿态度量进行评估，而新的最先进方法没有报告这个度量。虽然Multi-Path AAE [ 51]声称是一次性的，但它使用在目标物体上训练的2D对象检测器。然而，我们仍然与Multi-PathAAE进行比较，因为它作为一种能够估计训练期间未见过的新对象的姿态的深度学习方法的最新技术上限。当有深度数据可用时，报告PPF的结果，因为它是另一种真正的一次性方法，不需要在目标物体上进行训练。表中列出的其他方法明确地在合成渲染的目标物体上进行了训练，这使它们在姿态得分方面具有优势。因此，我们的方法的结果不应直接与它们进行比较；而应将它们用作标准6自由度姿态估计方法所能达到的参考。总之，我们主要将我们的方法与RGB图像上的Multi-PathAAE进行比较，并将其与RGBD图像上的PPF进行比较。在表2中，使用Linemod数据集的ADD分数报告了姿态估计的质量。我们将我们的方法与只使用合成训练数据的其他方法进行比较，因为它们代表了在没有访问目标域的训练数据的情况下可以实现的情况。尽管我们的方法没有在Linemod对象上进行训练，但它预测出非常好的姿态。它明显优于SSD6D [ 21 ]，并且优于AAE [ 52]和基于深度学习的SSD6D的优化[ 30 ]，而CosyPose [22]PBR-0.6330.550CDPN [27]-0.5690.279EPOS [12]-0.5470.468Pix2Pose [12]-0.3631.310Pix2Pose [12]-0.2811.157SSD6D [21]-0.139-EPOS [12]synt-0.4430.487DPOD [59]-0.1690.172AAE [52]ICP0.2371.197Multi-Path AAE [51]-0.2170.200AAE [52]-0.1460.20168410表3. 根据BOP挑战赛[ 14]的平均召回率（AR）指标，报告在BOP挑战赛测试图像子集上的遮挡数据集[ 2 ]上的结果。除了我们和PPF [ 7]之外的所有方法都需要在目标物体上进行先前的训练。0方法训练数据优化 AR 时间（秒）0混合0ICP 0.527 15.947 Drost，PPF [ 7 ] ICP，3D边缘 0.492 3.389 我们 +Kabsch 多重假设 + ICP 0.482 5.440 我们 + Kabsch 多重假设 0.4625.355 我们 + Kabsch ICP 0.432 0.560 我们 + Kabsch - 0.393 0.475 我们+ PnP 多重假设 0.312 12.180 我们 + PnP - 0.274 0.7660与DPOD [ 59 ] 相比稍有不足。我们的方法明显优于Shapefrom Pose [ 57 ](PfS)，即使PfS在估计旋转时使用了真实的2D检测和真实的平移。姿态假设验证将结果从39.3%提高到43.6%。如果有深度数据，可以使用3D-3D对应和Kabsch算法直接估计姿态。这几乎使我们的方法的ADD得分翻倍，超过了带有ICP优化的AAE。进一步的姿态假设验证将结果相对提高了10%，使其略高于PPF。单个物体的分割需要25毫秒，初始旋转近似需要10毫秒，2D-2D匹配需要11毫秒。PnP平均需要50毫秒，使得仅使用RGB的姿态估计流水线的性能约为10FPS。如果使用Kabsch算法，检测器的性能达到16FPS。在Kabsch之上进行额外的ICP优化会使检测器的速度降至14FPS，但仍然比其他带有ICP优化的方法更快。RGB中的姿态假设生成和验证大约需要1300毫秒，在深度图像中需要550毫秒。我们提出的方法在遮挡（表3）和Homebrewed（表4）数据集上的结果表明，它的性能与一些在目标物体上进行全监督训练并针对每个物体和场景单独训练的方法相似。即使没有优化，我们的方法在这两个数据集上的表现也优于多路径AAE。如果有深度数据，我们的方法在性能上稍逊于PPF，但比最佳性能的PPF变体更快。在YCB（表5）数据集上，多路径AAE优于我们提出的方法0表4.根据BOP挑战赛[14]的平均召回率（AR）指标报告的Homebrewed数据集[20]的结果，测试图像的BOP挑战子集。除了我们和PPF[7]之外的所有方法都需要在目标物体上进行先前的训练。0方法训练数据优化 AR 时间 (s)0- 0.722 0.273 CosyPose [ 22 ] ICP 0.712 5.326 CDPNv2 [ 27 ] ICP0.712 0.713 Pix2Pose [ 36 ] ICP 0.695 3.248 CosyPose [ 22 ] - 0.6560.417 EPOS [ 12 ] - 0.58 0.657 Pix2Pose [ 36 ] - 0.446 0.9820ICP 0.506 1.352 CDPN [ 27 ] - 0.47 0.311 AAE [ 52 ] - 0.346 0.19多路径AAE [ 51 ] - 0.293 0.191 DPOD [ 59 ] - 0.286 0.180ICP 0.671 144.029 我们+Kabsch多重假设+ICP 0.605 4.508 Drost, PPF [7 ] ICP 0.603 1.659 我们+Kabsch ICP 0.581 0.438 我们+Kabsch多重假设0.579 4.384 我们+Kabsch - 0.56 0.314 我们+PnP多重假设 0.492 8.183我们+PnP - 0.464 0.5030（我们+PnP），但重要的是要注意，在这个数据集上，与仅在合成数据上训练的方法相比，训练在真实或混合数据上的方法表现更好。另一方面，我们的方法明显优于PPF。所有数据集上的结果清楚地显示了所提出的一次性方法在目标检测和姿态估计方面的竞争性质量，并证明它对于在训练期间未见过的物体具有良好的泛化能力。此外，它的性能与一些先前的最先进方法的性能相匹配，即使它们是在目标物体上进行训练的。04.3.消融研究0我们进行了三个主要的消融研究，以确定哪些因素对我们的流程的性能有贡献。表6研究了定位网络的架构选择，表7分析了姿态估计，而图6展示了该方法对较少数量的模板和地面真实值与匹配模板之间较大角度误差的鲁棒性。表6显示，如果我们只使用特征相关性，如OS2D[35，43]，网络的性能最差，只能达到54%的召回率和51%的IoU。而仅使用像素级注意力则可以获得可比较的结果。当同时使用相关性和注意力时，网络性能显著提高，证明了所提出的架构改变的有效性。表7分析了各个阶段对姿态估计的影响。我们首先用真实值替换流程的前两个阶段，然后逐渐用我们网络的实际预测替换它。ADD10分数是根据正确检测到的物体数量计算的ADD10GT segm.Pred. Segm.Closest tmpl.Matched tmpl.RecallMult. Hyp.++60.9++58.9++45.7+++39.3+++51.0++++43.602004006008001000N templates10203040% correct poses1020304050Angular distance204060% correct poses68420表5.根据BOP挑战赛[14]的平均召回率（AR）指标，报告在BOP挑战赛测试图像子集上的YCB-V数据集[56]的结果。除了我们和PPF[7]之外的所有方法都需要在目标物体上进行先前训练。0方法训练数据优化 AR 时间（秒）0ICP 0.532 1.034 EPOS [12] - 0.499 0.764 CDPNv2 [27] - 0.39 0.448CosyPose [22] - 0.574 0.3420- 0.696 0.572 CDPN [27] - 0.422 0.295 DPOD [59] - 0.222 0.3410ICP 0.861 2.736 CosyPose [22] - 0.821 0.241 Pix2Pose [36] ICP 0.78 2.59CDPNv2 [27] - 0.532 0.143 AAE [52] ICP 0.505 1.581 AAE [52] - 0.3770.179 Multi-Path AAE [51] - 0.289 0.1810我们+Kabsch 多个假设+ICP 0.572 2.606 我们+Kabsch ICP 0.565 0.302我们+Kabsch-多个假设 0.542 2.571 我们+Kabsch- 0.529 0.267Drost，PPF [7] ICP，3D边缘 0.344 6.27 我们+PnP 多个假设 0.3325.389 Drost，PPF [7] ICP，3D边缘 0.33 1.282 我们+PnP- 0.296 0.410除非在“Recall”中另有说明，否则将ADD分数乘以召回率。第一行通过使用地面真值并仅使用2D-2D

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

一种多阶段一次性物体姿态估计框架及其性能评估

多姿态估计

python6d物体姿态估计

opencv 物体姿态估计

姿态估计增强学习方法有什么

6d姿态估计 文献综述

多物体6d位姿估计算法流程

yolov5与6d姿态估计

谷歌ekf姿态估计算法

matlab互补滤波实现姿态估计

yolov8人体姿态估计

推荐20个姿态估计深度学习模型

2022cvpr姿态估计

COCO2017姿态估计数据集

ZED怎么实现自定义的3D姿态估计

mask-rcnn姿态估计

分析姿态估计存在的问题及技术难点。

写一个目标物体识别框架

对非合作对象的姿态估计有什么方法

c++解算物体空间姿态

给我介绍一下“Single-Stage 6D Object Pose Estimation”算法

最新资源

6d姿态估计文献综述