无模型通用姿态估计器Gen6D：基于RGB图像的物体6自由度姿态估计

6 浏览量更新于2023-11-30 收藏 23.5MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

0Gen6D：基于RGB图像的通用无模型6自由度物体姿态估计0刘源1，温一麟1，彭思达2，林成3，龙晓晓1，小村拓1，王文平401 香港大学 2 浙江大学 3 腾讯 4德克萨斯农工大学0摘要。本文提出了一种通用的无模型6自由度物体姿态估计器Gen6D。现有的通用姿态估计器要么需要高质量的物体模型，要么在测试时需要额外的深度图或物体掩码，这严重限制了它们的应用范围。相比之下，我们的姿态估计器只需要一些未见过物体的姿态图像，就能够准确预测物体在任意环境中的姿态。Gen6D由物体检测器、视点选择器和姿态细化器组成，它们都不需要3D物体模型，并且可以推广到未见过的物体。实验证明，Gen6D在两个无模型数据集（MOPED数据集和我们收集的新的GenMOP数据集）上取得了最先进的结果。此外，在LINEMOD数据集上，与特定实例的姿态估计器相比，Gen6D取得了竞争性的结果。项目页面：https://liuyuan-pal.github.io/Gen6D/。0关键词：6自由度物体姿态估计；相机姿态估计01 引言0在三维空间中估计物体的方向和位置是与物体交互的许多任务的初步和必要步骤。在过去的十年中，三维视觉经历了巨大的发展，涵盖了从机器人、游戏到虚拟现实/增强现实的各种应用。这些应用对6自由度物体姿态估计提出了新的需求，要求姿态估计器具有通用性、灵活性和易用性。然而，现有的方法存在一些限制条件。大多数方法[27,67,61]只能用于特定的物体或与训练数据相同的类别。一些方法[54,28,71,69,42,40,70]可以推广到未见过的物体，但它们依赖于高质量的目标3D模型[54,28,71,69,42]，或者在测试时需要额外的深度图[40]和掩码[40,70]。这些要求严重限制了现有姿态估计器的实际应用。为了满足实际应用的需求，我们认为这样一个姿态估计器应具备以下特性。1）通用性。姿态估计器可以应用于任意物体，而无需对物体或其类别进行训练。2）无模型。在推广到未见过的物体时，估计器不依赖于3D物体模型。0arXiv:2204.10776v1[cs.CV]22Apr20220+v:mala2255获取更多论文02 Y. Liu, Y. Wen, S. Peng, et al.0（a）参考图像（b）查询图像（c）物体姿态0图1。给定（a）具有已知姿态的物体的参考图像和（b）包含相同物体但姿态未知的查询图像，我们的姿态估计器能够准确估计（c）查询图像中物体的姿态，其中绿色表示真实值，蓝色表示估计值。注意，所有物体在训练集中都是未见过的，并且相同的估计器适用于所有物体。0只需要一些已知姿态的该物体的参考图像来定义物体参考坐标系，如图1（a）所示，但不依赖于物体的3D模型。3）简单的输入。在估计物体姿态时，估计器只需要RGB图像作为输入，而不需要额外的物体掩码或深度图。据我们所知，目前没有现有的姿态估计器能够同时满足上述三个属性。因此，在本文中，我们提出了一种简单但有效的姿态估计器，称为Gen6D，它具备上述三个属性。给定任意物体的已知姿态的输入参考图像，Gen6D能够直接预测其在任意查询图像中的物体姿态，如图1所示。一般来说，物体姿态可以通过直接回归预测旋转/平移[67,26,56]，求解透视n点（PnP）问题[41,46]或与已知姿态的图像匹配[55,66,54]来估计。通过回归直接预测旋转和平移大多限于特定实例或类别，很难推广到未见过的物体。同时，由于缺乏3D模型，基于PnP的方法没有3D关键点来建立2D-3D对应关系，因此它们与无模型设置不兼容。因此，我们在我们的框架中应用图像匹配进行姿态估计，通过学习一种通用的图像相似度度量来推广到未见过的物体。在Gen6D中，我们提出了一种基于图像匹配的新型框架，以粗到精的方式估计物体姿态。该框架包括物体检测器、视点选择器和姿态细化器，如图2所示。给定0+v:mala2255获取更多论文…0Gen6D 估计器 30参考图像0(a) 查询图像 (b) 检测 (c) 视点选择 (d) 初始姿态 (e) 细化姿态01. 检测器02. 选择器03. 细化器0平面内旋转0选择的视点0图2.概述。所提出的姿态估计器包括一个检测器，用于检测查询图像中的对象，一个视点选择器，用于从参考图像中选择最相似的视点，以及一个姿态细化器，用于将初始姿态细化为准确的对象姿态。0参考图像和查询图像之间，首先，对象检测器通过将参考图像与查询图像相关联来检测对象区域，这与[1]类似。然后，视点选择器将查询图像与参考图像进行匹配，以产生粗略的初始姿态。最后，姿态细化器进一步细化初始姿态，以搜索准确的对象姿态。当参考图像稀疏且包含杂乱背景时，设计视点选择器的挑战在于如何处理。现有的图像匹配方法[55,66,54,21,2]在处理这个问题时存在困难，原因有两个。首先，这些图像匹配方法将图像嵌入特征向量中，并使用特征向量的距离计算相似性，其中杂乱背景干扰了嵌入的特征向量，从而严重降低了准确性。其次，给定一个查询图像，可能没有一个参考图像与查询图像具有完全相同的视点。在这种情况下，可能会有多个合理的参考图像，选择器必须选择与查询图像最接近的图像，这通常是非常模糊的，如图3所示。为了解决视点选择中的这些问题，我们提出使用神经网络对查询图像与每个参考图像进行像素级比较，以产生相似性分数，并选择具有最高相似性分数的参考图像。这种像素级比较使得我们的选择器能够集中在对象区域，并减少了杂乱背景的影响。此外，我们添加了全局归一化层和自注意力层，以在不同的参考图像之间共享相似性信息。这两种类型的层使得每个参考图像能够相互交流，为选择器提供上下文信息，以选择最相似的参考图像。开发我们的姿态细化器的主要挑战是对象模型的不可用性。现有的姿态细化器[28,71]基于渲染和比较，它们在输入姿态上渲染图像，然后将渲染的图像与查询图像匹配以细化输入姿态。然而，没有对象模型的情况下，这种方法无法实现。0+v:mala2255获取更多论文4Y. Liu, Y. Wen, S. Peng, et al.0查询最近第二近查询最近第二近0图3.查询图像和参考图像具有杂乱背景。与查询图像最接近的参考图像与第二接近的参考图像非常相似，这给选择器正确选择最接近的图像带来了挑战。0在对象模型中，以任意姿态渲染高质量图像是困难的，这使得这些细化方法在无模型设置中不可行。为了解决这个问题，我们提出了一种新颖的基于3D体积的姿态细化方法。给定一个查询图像和一个输入姿态，我们找到几个接近输入姿态的参考图像。这些参考图像被投影回3D空间以构建特征体积。然后，通过3DCNN将构建的特征体积与从查询图像投影出的特征进行匹配，以细化输入姿态。与之前的姿态细化器[28,71]相比，我们的姿态细化器避免了渲染任何新图像。同时，构建的3D特征体积使得我们的方法能够在3D空间中推断3D姿态细化。相比之下，之前的姿态细化器[28,71]仅依赖于2D图像特征来回归3D相对姿态，这在未见过的对象上尤其不准确。为了验证我们的通用无模型姿态估计器的有效性，我们引入了一个名为GeneralModel-free Object Pose Dataset(GenMOP)的新数据集，其中包含不同环境和光照条件下的对象视频序列。我们选择一个序列作为参考图像，将同一对象的其余序列作为测试查询图像。实验证明，在没有对这些对象进行训练的情况下，我们的方法在GenMOP数据集和另一个无模型MOPED[40]数据集上的表现仍然优于实例特定的估计器PVNet[41]。我们还在LINEMOD数据集[22]上评估了我们的方法，在这个数据集上，我们的通用姿态估计器取得了与需要使用大量渲染图像进行训练的实例特定估计器相当的结果。02 相关工作02.1 特定物体姿态估计器0大多数物体姿态估计器[67,55,41,27,23,65,14,60,33,52,26,44,25,24,45,53]是特定实例的，不能推广到未见物体，通常需要物体的3D模型来渲染大量的训练图像。最近的特定实例姿态估计器[39,6,32]在流程中隐式重建物体模型，因此它们是无模型的。类别特定姿态估计器[61,11,64,13,29,10,57,8,30,9,16,15]可以推广到同一类别中的物体，也不需要物体模型。然而，它们仍然无法预测未见类别的物体的姿态。相比之下，Gen6D是0+v:mala2255获取更多论文0Gen6D估计器50通用的，不对物体的类别或实例做任何假设，也不需要物体的3D模型。02.2 可推广的物体姿态估计器0大多数通用姿态估计器大多需要物体模型，无论是用于形状嵌入[69,42,12,43]、模板匹配[21,2,66,54,20,36,72]还是渲染和比较[28,71,37,4,54,17]。为了避免使用3D模型，最近的工作[70,40]利用先进的神经渲染技术[35]直接从姿态图像中进行渲染以进行姿态估计。然而，当前的渲染方法只能在完全相同的外观条件下渲染图像，这在外观变化下降低了准确性。为了解决这个问题，这些方法不得不借助额外的深度图[40]或物体掩码[40,70]来实现鲁棒性。还有一些工作专注于使用RGBD序列估计未见物体的姿态[63,37,50,19,5]。与这些方法相比，Gen6D是无模型的，不需要深度图或掩码。02.3 实例检测0实例检测旨在检测给定物体的一些图像[1,34,18,38]。有一些实例检测方法也可以在一次或少量样本设置中为新类别估计视点[68,3]。Gen6D的检测器受到[1]的启发，它使用相关性来找到物体区域。Gen6D的目标是估计6自由度物体姿态，这与这些用于检测或类别级视点估计的方法不同。03 方法0给定已知相机姿态的N个物体的参考图像，我们的目标是预测查询图像中物体的姿态。这里的物体姿态指的是将物体坐标x_obj转换为相机坐标x_cam = Rx_obj +t的平移t和旋转R。所有图像的内参参数已知。数据归一化。对于每个物体，我们可以通过从参考图像三角化点或简单地反投影参考图像来找到交点来估计物体的大致大小。三角化点的中心或3D交叉区域的中心被视为物体中心。然后，将物体坐标系归一化，使得物体中心位于原点，物体大小为1，这意味着整个物体位于原点处的单位球内。这种数据归一化确保了我们在第3.3节中构建的姿态细化器的特征体积将包含目标物体。有关归一化的更多详细信息，请参阅补充材料。概述。如图2所示，提出的Gen6D姿态估计器由物体检测器、视图选择器和姿态细化器组成。物体检测器裁剪物体区域并估计初始平移（第3.1节）。视图0+v:mala2255获取更多论文6Y. Liu, Y. Wen, S. Peng, et al.BBox size 𝑆𝑞…0相机0查询图像0单位球0参考图像卷积核0� � × � × � × �0� � × � � × � × �0缩放后的查询图像0热图0尺度图0分数图0上采样0(a) (b)0� × �0� × �0尺度 �0位置0结果0卷积0CNN或0� � 尺度0图4. (a) 检测输出。深度可以从边界框大小 S q计算得到，它与物体中心的二维投影确定了物体在相机坐标中的中心位置。(b)检测器的架构。我们使用参考图像的特征对多尺度查询图像的特征进行卷积，得到分数图。分数图进一步由CNN处理，产生关于物体中心的热图和确定边界框大小的尺度图。0选择器通过选择最相似的参考图像并估计平面旋转（第3.2节）找到初始旋转。初始平移和旋转用于姿态细化器，以迭代地估计准确的姿态（第3.3节）。03.1 检测0查询图像通常非常大，而物体只占据查询图像的一小部分区域。为了聚焦于物体，我们应用了一种基于相关性的实例检测器，类似于[1]。我们将检测问题分解为两个部分，即找到物体中心的二维投影 q 和估计包围单位球的紧凑正方形边界框大小 S q。如图4（a）所示，通过 d = 2 ˜ f/S q计算物体中心的深度，其中2是单位球的直径， ˜ f 是通过将主点更改为估计的投影 q而得到的虚拟焦距。投影 q 和深度 d将确定物体中心的位置，为物体姿态提供初始平移。我们的检测器的设计如图4（b）所示。我们通过VGG[51]-11网络在参考图像和查询图像上提取特征图。然后，将所有参考图像的特征图视为卷积核，与查询图像的特征图进行卷积，得到分数图。为了考虑尺度差异，我们在 N s个预定义尺度上进行卷积，通过将查询图像调整为不同尺度。基于多尺度分数图，我们回归出热图和尺度图。我们选择热图上具有最大值的位置作为物体中心的二维投影，并使用尺度图上相同位置的尺度值 s 计算边界框大小 S q = S r � s ，其中 S r是参考图像的大小。根据检测到的二维投影和尺度，我们计算初始的三维平移并裁剪物体区域以进行后续处理。更多详细信息请参考-69-。0+v:mala2255获取更多论文………𝑁𝑎 × 𝐹 × 𝐻 × 𝑊𝐹 × 𝐻 × 𝑊Global Normalization……MaxPoolingConv𝑁𝑎 × 𝐹CNNCNNConvAttentionLayers……score𝑁𝑎 × 𝐹𝑁𝑎 rotationsElement-wise ProductViewpoint Encoding+0Gen6D Estimator 70旋转后的参考图像0裁剪后的查询图像0� � × � × � × � …0平面旋转0相似性0相似性网络0对齐的0图5.视点选择器的架构。我们计算每个参考图像与查询图像的逐元素乘积，得到一个分数图，在该分数图上应用相似性网络，计算该参考图像的平面旋转和相似性分数。请注意，在相似性网络中，我们使用全局归一化层和一个变换器来共享参考图像之间的信息。0有关检测器网络的架构和训练的详细信息可以在补充材料中找到。03.2 视点选择0视点选择旨在选择一个参考图像，其视点与查询图像最接近。同时，我们将估计查询图像与所选参考图像之间的平面旋转。我们近似地将所选参考图像的视点视为查询图像的视点，这与估计的平面旋转一起形成了物体姿态的初始旋转。如图5所示，我们设计了一个视点选择器，将查询图像与每个参考图像进行比较，计算相似性分数。具体而言，我们首先通过在参考图像和查询图像上应用VGG[51]-11来提取特征图。然后，对于每个参考图像的特征图，我们将其逐元素与查询图像的特征图相乘，以产生一个相关性分数图。最后，相似性分数图由相似性网络处理，以产生一个相似性分数和一个相对平面旋转，以将查询图像与参考图像对齐。在我们的视点选择器中，我们有三个特殊设计。平面旋转。为了考虑平面旋转，每个参考图像都被旋转了N个预定义角度，并且所有旋转版本都与查询图像进行逐元素乘积。全局归一化。对于相似性网络产生的每个特征图，我们使用从所有参考图像的特征图计算得到的均值和方差对其进行归一化。这种全局归一化有助于我们的选择器选择相对最相似的参考图像，因为它允许特征图的分布编码上下文相似性，并放大不同参考图像之间的相似性差异。对于每个参考图像，我们应用最大池化在其特征图上产生一个相似性特征向量。0+v:mala2255获取更多论文8Y. Liu, Y. Wen, S. Peng, et al.Reference view transformer. We apply a transformer on the similarityfeature vectors of all reference images, which includes the positional encoding oftheir viewpoints and attention layers over all similarity feature vectors. Such atransformer lets feature vectors communicate with each other to encode contex-tual information [58,48,62], which is helpful to determine the most similar ref-erence image. The outputs of reference view transformer will be used to regressa similarity score and an in-plane rotation angle for each reference image. Theviewpoint of the reference image with highest score will be selected.With the selected viewpoint and the estimated in-plane rotation, we esti-mated an initial rotation for the object pose, which will be reﬁned by the posereﬁner. More details about the network and training can be found in the sup-plementary materials.03.3姿态细化0将对象检测器估计的平移和视点选择器估计的旋转相结合，我们得到一个初始的粗略对象姿态。这个初始姿态将进一步由基于3D体积的姿态细化器改进。具体来说，由于对象已经在原点的单位球内归一化，我们在原点的单位立方体内建立一个体积，大小为S3v =32 30顶点。如图6（a）所示，为了构建这些顶点上的特征，我们首先选择与输入姿态接近的Nn = 6个参考图像。我们通过2DCNN在这些选定的参考图像上提取特征图。然后，这些特征图被反投影到3D体积中，我们计算所有参考图像中特征的均值和方差作为体积顶点的特征。对于查询图像，我们也通过相同的2DCNN提取其特征图，使用输入姿态将特征图反投影到3D体积中，并将反投影的查询特征与参考图像特征的均值和方差进行连接。最后，我们在特征体积的连接特征上应用3DCNN，输出一个姿态残差来更新输入姿态。相似性近似。我们不直接回归刚性姿态残差，而是用相似变换来近似，如图6（b）所示。近似相似变换包括一个2D平面偏移、一个尺度因子和一个残余的3D旋转。使用这种近似的原因是它避免了在图6中从红色圆到实心绿色圆的直接回归3D平移，这超出了特征体积的范围。相反，我们回归从红色圆到虚线绿色圆的相似变换，这可以从定义在体积上的特征中轻松推断出来。有关细化器架构以及如何在相似变换和刚性变换之间进行转换的更多详细信息，请参见补充材料。讨论。我们基于体积的细化器与其他姿态细化器[28,71,54]的关键区别在于，我们的姿态细化器不需要在输入姿态上渲染图像，因此更适合于无模型姿态估计。同时，由于3D体积是由具有不同姿态的多个参考图像构建的，我们的基于体积的细化器能够了解不同姿态下的图像特征，并推断出姿态变化如何影响未见图像的特征0+v:mala2255获取更多论文……0Gen6D估计器90参考姿态0输入姿态02D CNN02D CNN0均值+方差0特征0反投影0反投影03D CNN0姿态残差搜索0为0更新0在GT姿态下的对象0输入姿态下的物体0构建的体积0参考姿态0输入姿态0图例0(a) 姿态细化器的架构 (b) 相似性近似0图6. (a) 我们姿态细化器的架构。 (b)用于说明相似性变换近似的2D图。尽管从输入物体姿态到真实物体姿态的真实姿态残差是一个刚体变换，但我们可以通过特征体积内的相似性变换来近似这个刚体变换。我们的姿态细化器预测这样一个相似性变换作为姿态残差，将输入的红色圆圈变换为虚线绿色圆圈。然后，可以将相似性变换转换为刚体变换。0对象。相比之下，以前的姿态细化器[28,71,54]只是将渲染图像与输入查询图像进行比较，计算姿态残差。这样的2D图像无法提供足够的3D结构信息来推断姿态变化如何影响图像模式，尤其是对于未知的对象。因此，这些方法很难预测未知对象的正确姿态残差。03.4 实现细节0在推理中，我们对姿态细化器进行3次迭代。对于输入数据，不是所有的参考图像都被用于物体检测器和视点选择器。相反，我们使用最远点采样分别对检测器和选择器采样32和64张图像。04 实验04.1 GenMOP数据集0为了验证所提方法的有效性，我们收集了一个名为General Model-free Object PoseDataset（GenMOP）的数据集。GenMOP数据集包含10个物体，从“剪刀”这样的扁平物体到“椅子”这样的薄结构物体，如图7所示。对于每个物体，收集了两个相同物体在不同环境（如背景和光照条件）下的视频序列。每个视频序列分为约200张图像。对于每个序列，我们分别应用COLMAP[49]在每个序列中重建相机姿态，并在物体上手动标记关键点以进行跨序列对齐。有关GenMOP数据集的更多详细信息，请参阅补充材料。04.2 协议0我们在GenMOP数据集、LINEMOD [22]数据集和MOPED[40]数据集上评估Gen6D姿态估计器。0+v:mala2255获取更多论文10Y. Liu, Y. Wen, S. Peng, et al.0椅子、小猪、插头英文、剪刀、变压器、杯子、刀子、爱心、插头中文、米菲0图7. GenMOP数据集中的物体。前5个物体用于测试，后5个物体用于训练。0在GenMOP数据集上，我们选择一个视频序列作为参考图像，选择另一个环境不同的视频序列作为测试查询图像，两者都包含约200张图像。LINEMOD数据集是用于物体姿态估计的广泛使用的数据集。在LINEMOD数据集上，我们按照常用的训练-测试分割[56]进行操作。我们选择训练图像（约180张）作为参考图像，选择其余约1000张测试图像作为评估的查询图像。MOPED数据集旨在进行无模型物体姿态估计。由于MOPED数据集是通过深度融合和点云配准自动生成的，某些序列中的物体姿态不太准确。因此，我们从5个物体中手动选择可靠的子集进行评估。对于每个物体，有200-600个参考图像和100-300个查询图像。训练数据集。Gen6D估计器的训练数据集包括：1）约2000个ShapeNet[7]模型的渲染图像，2）由[62]渲染的Google扫描对象数据集，包含1023个对象，3）来自GenMOP数据集的5个对象和4）来自LINEMOD数据集的5个对象。请注意，我们只训练一个模型，并在GenMOP、LINEMOD和MOPED数据集上测试其性能。度量标准。我们采用广泛使用的平均距离（ADD）[22]和投影误差作为度量标准。在ADD上，我们计算对象直径的10%的召回率（ADD-0.1d）和0-10cm范围内的AUC（ADD-AUC）。在投影误差上，我们计算5个像素处的召回率（Prj-5）。0表1. GenMOP数据集上的性能。“General”表示是否具有通用性。“Ours w/oRef.”表示不使用Gen6D估计器中的姿态细化器。0指标方法通用物体名称平均椅子插头猪剪刀 TFormer0ADD-0.1d0PVNet [41] � 49.50 2.33 77.89 44.40 19.84 38.79 RLLG [6] � 0.70 1.28 1.013.45 0.79 2.71 ObjDesc [66] � 3.50 5.14 14.07 1.25 7.54 8.55 Ours w/o Ref. �14.00 7.48 39.70 16.81 11.51 17.90 Ours � 61.50 19.63 75.38 32.76 62.7050.390Prj-50PVNet [41] � 15.00 30.37 83.42 96.55 59.52 56.97 RLLG [6] � 2.00 4.67 17.5935.78 7.94 13.59 ObjDesc [66] � 4.00 10.75 4.52 18.53 8.33 9.23 Ours w/oRef. � 11.50 40.65 33.17 34.05 64.29 36.73 Ours � 55.00 72.90 92.96 93.5398.81 82.640+v:mala2255获取更多论文+v:mala2255获取更多论文0Gen6D估计器 1104.3 GenMOP上的结果0为了比较，我们选择了基于图像匹配的通用方法ObjDesc[66]和两个实例特定的估计器PVNet [41]和RLLG[6]作为基线方法。表1显示了定量结果，图1显示了一些定性结果。更多的定性结果在补充材料中。基线实现。对于通用的模板匹配方法ObjDesc[66]，我们使用与Gen6D相同的训练数据集。在测试中，我们通过我们的物体检测器裁剪物体区域，然后使用ObjDesc选择与查询图像最相似的参考图像。所选参考图像的姿态被视为查询图像的姿态。在评估中使用的所有物体对于Gen6D和ObjDesc来说都是在训练中看不见的。对于实例特定的估计器PVNet [41]和RLLG[6]，我们必须分别为不同的物体训练不同的模型。在每个测试物体上，Gen6D的参考图像被用作PVNet和RLLG的训练集。然而，只有�200个参考图像是不足以产生合理结果的，因此我们额外标注了这些参考图像上的物体掩码，并将物体从COCO[31]的背景上随机剪切并粘贴，以扩大它们的训练集。对于PVNet，我们使用其3D边界框的8个角点作为投票的关键点，因为没有模型可用。与基线方法的比较。1）ObjDesc[66]和“Ours w/oRef”都选择最相似的参考图像来估计物体姿态。结果表明，我们的视点选择器能够选择比ObjDesc更准确的视点。然而，仅仅选择最佳参考视点并不足以预测准确的姿态，因为参考图像并不能涵盖所有可能的视点。2）通过进一步的姿态细化，我们的Gen6D估计器在平均上能够产生比实例特定方法PVNet和RLLG更好的结果。主要原因是对于PVNet和RLLG来说，这些参考图像对于训练一个非常准确的姿态估计器来说是不足够的。相比之下，Gen6D能够很好地适应这种只有有限参考图像的新物体的设置。我们的姿态细化器能够学习到适用于准确姿态细化的通用特征。04.4 LINEMOD [22]上的结果0我们在表2中进一步报告了在LINEMOD[22]数据集上ADD-0.1d的结果。对于基线方法，我们包括了实例特定的姿态估计器[55,59,71,6,41,67,28]和一个通用的估计器Pose-From-Shape (PFS)[69]。实例特定的估计器要么是在物体的合成数据上训练的（“合成训练”）[55,59,71]，要么是在物体的合成和真实数据上训练的（“真实训练”）[41,67,71]。PFS[69]是在ShapeNet[7]上训练的，它将物体形状嵌入到特征向量中，并将嵌入的特征向量应用于查询图像以预测物体姿态。对于[69,71,67]，我们还包括了它们使用姿态细化器DeepIM[28]或DPOD[71]的性能报告，这两个细化器都是在测试物体的合成数据或真实数据上训练的。PFS使用真实边界框来裁剪物体区域进行姿态估计。对于所有基线方法，我们直接使用他们论文中报告的性能进行比较。12Y. Liu, Y. Wen, S. Peng, et al.Table 2. ADD-0.1d on LINEMOD [22] dataset. “Training” means what kind of trainingset is used. “Synthetic” means the model only uses synthetic data of the given objectfor training; “Real” means the model is trained on both the synthetic images and realimages of the given model; “No” means the model is not trained on any data of thetest object. “GT-BBox” means a model uses the ground-truth bounding box or not toproduce its performance. “Reﬁne” means the pose reﬁner.TrainingNameGT-BBoxReﬁneObject NameAvg.catduckbvisecamdrillerSyntheticAAE [55]No17.904.8620.9230.4723.9919.63Self6D [59]No57.9019.6075.2036.9067.0051.32DPOD [71]No32.3626.1266.7624.2266.6043.21DPOD [71]DPOD [71]65.1050.0472.6934.7673.3259.18RealPFS [69]DeepIM [28] 54.1048.6063.8040.0075.3053.36PVNet [41]No79.3452.5899.9086.8696.4383.02PoseCNN [67]DeepIM [28] 82.1077.7097.4093.5095.0089.14DPOD [71]DPOD [71]94.7186.2998.4596.0798.8094.86GenPFS [69]No15.408.2025.1012.1018.6015.88OursNo94.1181.3199.5294.3196.3393.12OursNo15.977.8925.4822.0617.2417.73OursVolume60.6840.4777.0366.6767.3962.45The results in Table 2 show that: 1) In comparison with the generalizable poseestimator PFS [69], Gen6D outperforms PFS [69] with or without subsequentpose reﬁnement. Note the PFS [69] uses the DeepIM [28] reﬁner which actu-ally is trained on the synthetic data of the test object while our volume-basedreﬁner is not trained on the test object at all. 2) In comparison with instance-speciﬁc estimators [71,59,55] with synthetic training on the test object, Gen6Dclearly outperforms all these methods. 3) However, Gen6D performs worse thaninstance-speciﬁc estimators [41,67,71] with real training. The main reason is theinaccurate estimation of the depth. Since the object is usually very far away fromthe camera and small scale diﬀerence (1-2 pixels) will result in a huge oﬀset inthe depth direction. Without training on the object, Gen6D cannot perceive suchsubtle scale changes, which results in worse performance. 4) With ground-truthbounding box, Gen6D achieves comparable results as the instance-speciﬁc esti-mators [41,67,71] with real training because such ground-truth bounding boxesprovide correct depths.4.5Results on MOPED [40]On the MOPED dataset, we compare Gen6D with Latent-Fusion [40] and PVNet[41]. Latent-Fusion [40] is also a generalizable pose estimator which does notrequire training on the test object but needs depth and object masks on queryimages. We use the oﬃcial codes and the pretrained weights of Latent-Fusion [40]for evaluation. For training PVNet [41], we apply the same strategy as used onthe GenMOP dataset. Table 3 reports ADD-AUC on the MOPED dataset, which+v:mala2255获取更多论文Gen6D Estimator13Table 3. ADD-AUC on the MOPED dataset with threshold 0-10cm. “LF” meansLatent-Fusion [40]. “General” means the pose estimator is trained on the speciﬁc objector not. “Input” means the required type of query images at test time. “General” meansgeneralizable or not.MethodGeneral InputObject Nameavg.B.Drill D.Dude V.Mug T.Plane R.AidLF [40]RGBD 74.1175.4038.2754.9562.97 61.14PVNet [41]RGB49.4943.3067.7848.6172.92 56.42OursRGB64.8759.2350.9569.8372.03 63.38shows that Gen6D outperforms both baselines on average while Gen6D only usessimple RGB inputs and does not require training on the object.ADD-0.1dObjDesc [66]3.505.1414.071.257.548.55w/o GN and RVT 8.5013.0836.1814.661.9814.88w/o RVT14.5010.7536.1814.2211.5117.43Full selector14.007.4839.7016.8111.5117.90+ DeepIM Ref.12.506.5429.1518.1031.3519.53+ Volume Ref.50.509.8155.2824.5752.7838.59Prj-5ObjDesc [66]4.0010.754.5218.538.339.23w/o GN and RVT 7.0040.1920.6028.8854.76

下载后可阅读完整内容，剩余1页未读，立即下载