3D物体姿态估计的模板匹配方法在新对象泛化和遮挡鲁棒性方面的应用

63 浏览量更新于2023-10-25 收藏 15.08MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

677103D物体姿态估计的模板再探：对新对象的泛化和对遮挡的鲁棒性0Van Nguyen Nguyen 1, Yinlin Hu 2, Yang Xiao 1, Mathieu Salzmann 2, Vincent Lepetit 101 LIGM, Ecole des Ponts, Univ Gustave Eiffel, CNRS,France 2 CVLab, EPFL, Switzerland0{van-nguyen.nguyen, yang.xiao, vincent.lepetit}@enpc.fr0{yinlin.hu, mathieu.salzmann}@epfl.ch0摘要0我们提出了一种方法，可以在RGB图像中即使在部分遮挡的情况下识别新对象并估计其3D姿态。我们的方法既不需要对这些对象进行训练，也不需要展示它们的真实图像，只需要它们的CAD模型。它依靠一小组训练对象来学习局部物体表示，这使我们能够将输入图像与一组“模板”进行局部匹配，这些模板是新对象的CAD模型的渲染图像。与现有技术方法相比，我们的方法应用于的新对象可能与训练对象非常不同。因此，我们是第一个在LINEMOD和Occlusion-LINEMOD数据集上展示出无需重新训练的泛化能力的方法。我们对先前基于模板的方法的失败模式进行的分析进一步证实了局部特征在模板匹配中的优势。我们在LINEMOD、Occlusion-LINEMOD和T-LESS数据集上的模板匹配方法超过了现有技术方法。我们的源代码和数据公开可用于https://github.com/nv-nguyen/template-pose。01. 引言0在过去的十年中，3D物体姿态估计在鲁棒性和准确性方面取得了显著改进[17, 29, 33, 19,43]。特别是对于部分遮挡的鲁棒性大大提高[27, 16,23]，并且由于域转移[1]、域随机化[35, 18,30]和自监督学习[32]等技术的出现，不再需要大量真实标注的训练图像来进行训练。然而，尽管图像-based的3D物体姿态估计在机器人和增强现实领域具有巨大潜力，但在工业领域中的应用仍然有限。可扩展的工业应用，例如，需要能够处理任意的、以前未见过的对象，而无需重新训练，并且只能访问对象的CAD模型。0训练对象无遮挡新对象有遮挡无遮挡有遮挡0查询图像0恢复的模板0查询图像0恢复的模板0图1：我们的方法可以通过将查询图像与从其3D模型创建的模板进行匹配来估计新对象的3D姿态。这些新对象可能与训练对象非常不同，并且在查询图像中可能部分遮挡。0模型，从而节省训练和数据获取时间。虽然已经有一些工作在解决这个具有挑战性的任务[30, 28, 38,2]，但其中大多数都通过假设新对象属于已知类别[37]、与T-LESS数据集中的训练对象相似[30]或具有突出的角点[28]来施加一些额外的约束。0相比之下，基于模板的方法[38,2]通过学习用于将输入图像与从其CAD模型生成的一系列模板匹配的图像嵌入来承诺可以推广到任意新对象。不幸的是，他们在新对象上的使用仅仅是凭经验，我们的实验证明这些方法在这种具有挑战性的情况下很难应对，特别是在存在遮挡的情况下。我们确实注意到，这些方法在存在遮挡的情况下表现不佳。67720[38,2]中用于将输入图像与CAD生成的模板进行比较的全局表示有两个限制。首先，在杂乱的背景下，它们对新对象的泛化能力较差，即使对于均匀背景，姿态估计也不准确。此外，它们不适合处理遮挡。这些观察结果促使我们保留图像的2D结构，采用基于模板的方法。更具体地说，给定一小组训练对象，我们学习可以用于可靠匹配真实图像和合成模板的局部特征。依靠局部特征使我们能够丢弃背景：虽然在运行时无法获得输入图像中的对象掩码，但我们可以使用模板的掩码，从而解决全局表示的第一个限制。请注意，在计算图像的全局表示之前，使用模板的掩码来移除真实图像中的背景需要重新计算每个模板的输入图像表示，这将导致匹配速度非常慢。正如我们的实验证明的那样，使用局部特征还可以得到更准确的姿态。这可以解释为我们不使用池化操作，池化操作会移除关于姿态的关键信息，特别是对于新对象而言。最后，我们的方法还具有对部分遮挡的鲁棒性。为此，我们引入了一种用于评估两个图像之间相似性的度量方法，该方法明确考虑了模板中的对象掩码和查询图像中的可能遮挡。我们在LINEMOD [11]、Occlusion-LINEMOD[3]和T-LESS[13]数据集上展示了我们方法的优势。它在新对象上始终比以前的工作[38, 2, 31,30]表现出更好的性能。总之，我们的贡献是：0•在测试新对象时，对先前基于模板的方法的失败案例分析；0•一种可以预测新对象的姿态的方法，无需对这些对象进行训练，也无需将这些对象限制为与训练对象相似；0•一种对遮挡具有鲁棒性的方法，即使在对象既是新的又被遮挡的挑战性场景中也是如此。02. 相关工作0我们的目标是开发一种能够仅通过它们的3D模型访问先前未见对象的3D姿态的方法。值得注意的是，早期的3D姿态估计方法已经针对这个目标进行了研究[21]。然而，这些基于图像边缘和对象轮廓的方法被证明非常脆弱。如下所讨论的，随着深度学习的使用，方法变得更加稳健，但通常需要许多训练图像。0已知对象的姿态估计。许多3D对象姿态估计方法使用在这些对象的真实图像或合成渲染图像上训练的深度模型，[17,29,19,33,20,43,25,15]。一些方法还对对象的部分遮挡表现出了显著的鲁棒性[23,27,16]。然而，这种方法需要长时间昂贵的训练和数据获取/生成时间，我们希望避免这种情况。例如，标准基准测试中最先进的方法[18]需要在32个GPU上进行近一天的训练。虽然一些工作尝试通过学习从真实图像生成新图像来减轻注册真实图像的负担[26]，但它们的成本对于许多实际应用来说仍然过于繁琐。0类别级姿态估计。避免在新的对象实例上重新训练的一种方法是考虑对象类别，并在目标类别上训练一个模型，该模型将推广到这些类别的新实例[44,37]。虽然这种方法在某些应用中可能很有用，比如场景理解，但在许多其他应用中，新对象不属于已知类别。相比之下，我们的方法可以推广到与用于训练初始模型的已知对象在形状上没有相似性的新对象。0未见对象姿态估计。[38]提出了学习模板的判别性表示的方法，这些模板是与相应的3D姿态相关联的对象图像。然后可以通过以图像检索的方式将输入图像与这些模板进行匹配来实现姿态估计。在这个背景下，[2]展示了如何获得更具判别性的表示。虽然使用它们的3D模型来考虑未见对象的能力似乎是这些工作的动机，但这只是表面上的演示，我们的实验表明这些方法在未见对象上表现不佳。最近，[30]提出了[31]的扩展，以适应未见对象。该方法引入了一种新颖的架构，具有多个解码器，以适应不同的对象类型。虽然他们的结果确实显示了对未见对象的泛化能力，但这些对象必须与训练对象相似。因此，该方法仅在T-LESS数据集上进行了演示，该数据集描述了具有强视觉相似性的不同类型的电器。无论如何，正如我们将在第3.1节中详细讨论的那样，这些方法依赖于模板的全局表示。我们将展示，基于局部表示的框架在泛化到新对象和对遮挡的鲁棒性方面具有显著优势。[28]也考虑了局部表示，但与我们非常不同：[28]学习检测图像中特定的2D对象位置，并为每个位置匹配对象的3D模型上的3D点的描述符。然而，这种匹配是独立进行的。[2]67730对于每个位置的密集性，使其高度模糊，并导致组合匹配成本和频繁失败。相比之下，我们在网格结构中提取局部表示，并学习联合匹配所有局部输入和模板表示。为了实现这一点，我们依赖对比学习，我们在下面讨论。在[42]中提出了一种不同且有趣的方法，其中将对象的3D模型的嵌入用作输入，以预测3D姿态。然而，这项工作仅考虑姿态回归，并假设已经知道对象以便使用正确的3D模型。0对比学习。给定一组图像，对比学习旨在学习一个嵌入空间，使得相似的图像彼此靠近，而不相似的图像相距较远。[12, 39, 24, 34, 9,5]利用无标签图像和强大的数据增强来学习强大的图像特征，在各种下游任务上取得与监督学习相竞争的结果。在我们的背景下，[41]利用对姿态的标签进行对比学习，学习一个对类别无关的3D物体姿态估计具有姿态感知的嵌入空间。[41]的一个局限性是不同的物体可以在嵌入空间中混合在一起，因此无法从输入图像中识别正确的物体实例。此外，像[42]一样，[41]也不尝试识别物体。相比之下，[38,2]依靠对比学习来学习一个对物体姿态和物体实例都具有变化性的嵌入空间。为此，他们依靠三元损失来学习物体区分特征，以及一对损失来学习姿态区分特征。类似地，我们使用对比学习来提取一个具有区分性的特征表示，但我们表明InfoNCE[24]损失是最简单和最有效的选择。我们的实验还表明，我们的方法在泛化和对遮挡的鲁棒性方面的大部分性能来自于我们对局部表示的使用。3. 方法0我们的目标是在彩色图像中识别新的物体并预测它们的3D姿态。我们通过将物体的彩色图像与一组模板进行匹配来实现这一目标。模板是物体在某个3D姿态下的渲染图像。对于每个新的物体，模板集包含许多模板，从其3D模型周围采样不同视角渲染而成。由于模板带有物体的标识和姿态注释，该方法返回与输入图像最相似的模板的标识和姿态。因此，挑战在于测量模板和输入图像之间的相似性。尽管之前没有看到新物体的真实图像，物体可能部分遮挡，0已见物体未见物体掩蔽后0我们的方法0图2：理解背景对不同图像表示的影响，使用[2]（第一行）和我们的方法（第二行）学习的图像表示的T-SNE可视化，用于LINEMOD物体的真实图像。对于给定的列，所有的图都具有相同的比例以进行比较。0模板和真实图像之间的光照差异，并且真实图像中的物体背景杂乱。在这项工作中，受到局部表示相对于全局表示在重复性和对遮挡的鲁棒性方面的优势的启发，我们使用深度模型提取的局部图像特征来衡量输入图像与模板之间的相似性。我们使用来自一小组训练对象的真实图像和合成图像的配对来训练这个模型。注意，这些训练对象在外观上可能与新对象非常不同。我们从第3.1节开始分析全局表示的局限性。然后在第3.2节详细介绍我们的训练过程。它依赖于一种相似度度量，比较真实图像和合成模板的局部特征。在运行时，我们使用这个相似度函数的扩展版本，明确估计输入图像中哪些局部特征被遮挡并丢弃它们。我们在第3.3节讨论这个问题。最后，我们在第3.4节详细介绍如何生成模板。03.1. 动机和分析0在这里，我们提出了两个实验证明了在处理未见过的物体时，全局表示在模板匹配中的主要缺点。03.1.1 杂乱背景0全局表示的第一个缺点是它们在杂乱背景上无法很好地表示未见过的物体。为了证明这一点，我们在图2中绘制了[2]学习到的全局表示和我们的方法学习到的局部表示在LINEMOD数据集的训练和新对象的真实图像上的t-SNE可视化[36]。...Ltriplet =N�i=1max��(1)67740相似度0训练传入的新对象0遮罩0最近邻搜索0CAD模型视角0模板0查询0对新对象进行测试0预测0查询0遮罩0图3：在训练时，我们使用由真实图像和合成模板组成的对来训练网络，以计算局部特征，从而可以预测两个图像之间的相似度。在运行时，我们将此网络应用于在训练期间未见过的物体的图像，以计算它们的局部特征。然后，我们可以通过将图像与模板数据库进行匹配来检索物体的姿态。0图2的第一列显示，尽管对象的图像是在杂乱背景下拍摄的，但两种表示方法都能将每个训练对象的图像聚类在一起。第二列显示，[2]的全局表示无法将未见过的对象的图像分开，而我们的表示可以。为了更好地理解这一点，我们通过使用地面真实物体遮罩将图像中的背景替换为均匀颜色来去除图像中的背景。如第三列所示，表示现在是分开的。这显示了背景对于全局表示在未见过的对象上的影响，以及我们的表示对于杂乱背景的鲁棒性。3.1.2 姿态区分0全局表示的第二个缺点是在将未见过的物体的真实图像与对应的3D姿态的合成模板进行匹配时，可靠性较差，即使已知物体的身份并且背景是均匀的。这可以解释为池化层会丢失重要信息。这种信息损失似乎被训练对象的其余架构所弥补，但这种补偿不能推广到未见过的物体。为了证明这一点，我们在补充材料中可视化了未见过的物体的姿态距离和表示距离之间的相关性，就像[38,2]中所做的那样。虽然对于训练对象，这两种表示都会产生强相关性，但对于全局表示来说，当考虑未见过的对象时，这种相关性会丢失，而我们的表示则不会。即使没有背景，全局表示的相关性仍然非常低[2]。03.2. 框架0在每次训练迭代中，我们采样 N 个正样本对，其中第 i对由一个真实图像 q i 和一个描述0训练对象和相同物体的合成模板 t i组成的对，其3D姿态相似。根据[38]，如果两个视角之间的角度小于5度，则认为这两个视角是相似的。所有由真实图像和不同物体或不相似姿态（大于5度）的合成图像组成的对被定义为负样本对。0三元损失。[38]提出了一种基于度量学习的方法，其基本思想是在学习的嵌入空间中，正样本对的特征描述符之间的距离应该比负样本对的距离更近。为了学习这个性质，[38]使用了一个训练损失函数 L = L triplet + L pair，其中：0• L triplet是三元项，它使网络能够学习特征，使得学习的嵌入空间中正样本对 ∆ ( i ) + 的距离低于负样本对 ∆ ( i ) -的距离，限制在边界 m 内。这个三元项的定义如下：00，1 - ∆（i）+0∆（i）− +0• L pair = � N i =1∆（i）+是成对项，用于最小化相同姿势但不同视角条件下两个图像之间的距离。[2]通过提出三元组损失的扩展来对这项工作进行了扩展，该损失仅关注学习具有物体区分能力的特征，同时使用成对损失学习类似于姿势差异的嵌入空间。虽然这两种损失效果很好，但我们实验证明，最近的标准对比损失InfoNCE [24]是最简单和最有效的选择。0InfoNCE损失。对于每个真实图像qi，我们还通过将其与当前批次中其他成对的合成模板tk组合来创建N -1个负对，其中1 ≤ k ≰L = −̸||67750N，k ≠i。总之，对于每个批次，这产生了N个正对和（N-1）×N个负对。我们通过InfoNCE损失函数[24]来训练我们的模型，以最大化正对样本的表示一致性，同时最小化负对的表示一致性：0i =1 log exp（sim（qi，ti）/τ）� N k =1 1 [ k≠ i ] exp（sim（qi，tk）/τ），（2）0其中sim（q，t）衡量了由深度模型计算的真实图像q和模板t的局部图像特征q和t之间的相似度，τ =0.1是温度参数。如图3所示，q和t保留了网格结构，并且是3张量。在实践中，它们的维度取决于输入图像的大小，从25×25×C到28×28×C，其中C = 16。0局部特征相似度。之前的对比学习工作[24，34，22，4，9，7，5，6]主要关注图像分类，并使用全局表示定义相似度度量sim（。，。）,我们发现这样的表示只能很好地对已知对象或具有干净背景的图像进行分类，如第3.1.1节所讨论的那样。为了有效处理新对象和复杂背景，我们使用基于q和t的局部特征的成对比较的度量。具体来说，我们定义0sim（q，t）= 10l M（l）S�0q（l），t（l）�，（3）0其中S是局部相似度度量，M是模板t的2D二值可见性掩码，索引l表示2D网格位置。q（l）和t（l）因此是维度为C的局部特征。考虑模板掩码使我们能够在真实图像中丢弃背景。请注意，该掩码不考虑真实图像中可能出现的遮挡，因为它对应于模板中的物体轮廓。遮挡将在下一小节中考虑。作为局部相似度度量S，我们使用余弦相似度0S�0q（l），t（l）�= q0|| q（l）||∙t（l）0|| t（l）||，（4）0我们经验证明，将相似度测量定义为差异的L1和L2范数的相反值与余弦相似度的性能相同。03.3. 运行时间和对遮挡的鲁棒性0在运行时，给定一个真实查询图像q，我们从模板集中检索最相似的模板。为了对可能出现在查询图像中的遮挡具有鲁棒性，我们修改sim（q，t）如下：0sim�（q，t）= 10lM（l）O（l）S0q（l），t（l）�，（5）0模板1 模板2 模板30w/o O0查询0w/ O0查询0图4：当不使用遮挡掩码O（第二行）和使用遮挡掩码时的特征相似性示例。如第3.3节所讨论的，使用O可以“关闭”相似度得分中可能被遮挡的局部特征。0其中O(l) = 1 S(q(l), t(l)) >δ，δ是应用于余弦相似度的阈值，用于“关闭”遮挡的局部特征，如图4所示。在实践中，我们通过消融研究将此阈值δ设置为0.2。注意，方程（5）可以写成元素级乘积⊙，并且可以通过以下方式有效计算：0sim�(q, t) = 0|M|(M⊙O⊙S) . (6)03.4. 模板创建0在LINEMOD [11]和Occlusion-LINEMOD[3]数据集上，我们遵循[38]的协议来采样合成模板。更具体地说，视点是通过从一个正二十面体开始，递归地将每个三角形细分为4个较小的三角形来定义的。经过两次细分并去除下半球，我们得到每个对象301个模板。在T-LESS[13]上，我们遵循[30]的协议，使用一个密集的正二十面体，每个渲染图像有2'536个视点和36个平面内旋转。总共，每个对象有92'232个模板。此外，我们还使用一个更粗糙的正二十面体，有602个视点，每个对象有21'672个模板。我们使用BlenderProc[8]为两种设置生成具有真实渲染效果的模板。4.实验0在本节中，我们首先描述实验设置（第4.1节）。然后，我们在LINEMOD（LM）[11]，Occlusion-LINEMOD（O-LM）[3]和T-LESS[13]数据集的训练（或已看到）和未知对象上，与之前的工作[38，2，31，30]进行定量和定性比较（第4.2节）。最后，我们提供67760划分训练已看到的LM 已看到的O-LM 未看到的LM 未看到的O-LM0#1 9'954 981 6'832 4'848 2'377 #2 9'928 981 4'490 4'874 4'719#3 8'850 872 7'096 6'061 2'1130表1：LM和O-LM的数据集划分。对于每个划分，我们提供训练集中的真实图像数量和四个测试集中的数量。0消融研究用于研究我们的方法在不同参数下的有效性以及我们的方法的失败案例（第4.3节和第4.4节）。04.1. 实验设置0数据处理。对于LM和O-LM数据集，由于没有标准的划分来评估RGB方法在未知对象上的鲁棒性，我们提出了三种不同的划分，这些划分是根据对象ID的顺序创建的。这些划分的新对象或未知对象分别是：0• 划分#1：猿，台虎钳，相机，罐头；•划分#2：猫，钻头，鸭子，蛋盒；•划分#3：胶水，打孔器，铁，灯，手机。0LM中的其他对象用于训练模型。上述列表中加粗的对象在O-LM中经常被遮挡。需要注意的是，O-LM仅用于测试，因为在训练过程中我们不需要看到遮挡。此外，为了了解在训练过程中看到或未看到的对象之间的性能差距，我们还对已看到的对象进行评估。为此，我们保留了训练对象的真实图像中10%的未看到姿势，用于测试目的。表1详细说明了不同的划分。在T-LESS[13]上，我们遵循[30]的评估协议，仅在SUN397[40]的随机背景下训练对象1-18，并在完整的T-LESSprimesense测试集上进行测试。有关T-LESS训练集的更多详细信息，请参阅补充材料。0评估指标。对于LM和O-LM数据集，姿态误差是通过观察半球上的两个位置之间的角度来衡量的。我们还将“Eggbox”和“Glue”对象视为绕z轴对称，如[38，2]中所做的那样。在已知对象姿态估计的情况下，LM和O-LM的识别得分几乎达到100%。因此，之前的工作[38，2]仅评估姿态误差，而不考虑检索到的对象是否实际正确。在未知对象的情况下，我们发现正确检索到姿态和类别对于模型仍然能够获得正确姿态，但是来自另一个对象是很重要的。因此，我们提出使用Acc15指标，该指标衡量姿态误差小于15度且预测的对象类别正确的频率。我们还在补充材料中报告姿态误差。0由于T-LESS [ 13]中的大多数物体是对称的，我们报告在可见表面差异（errvsd）度量下的召回率，其中 err vsd < 0 . 3 ，容差 τ =20 mm ，并且对象可见性 > 10% ，与[ 31 , 30]中所做的一样。除非在之前的工作[ 31 , 30]中另有说明，否则在测试时仅使用相同对象的模板（换句话说，在测试之前假设已知对象的类别）。请注意，对于T-LESS数据集的评估，我们还使用与SSD-6D [ 17]中所做的相同公式“投影距离估计”来预测平移，就像在[31 , 30]中所做的一样。这个平移是从检索到的模板和查询图像的输入边界框中推导出来的。更多细节可以在补充材料中找到。0实现细节。为了公平比较，在对LM和O-LM的评估中，我们考虑了两个不同的骨干：（i）“基准”-在[ 38 , 2]中使用的简单骨干；（ii）ResNet50-在最近的对比学习方法[ 9 ]中使用的标准骨干。我们重新实现了[ 38 , 2]以在见过的和未见过的对象上获得定量结果。当在相同数据上评估与原始论文相同的见过的对象时，我们的实现获得非常相似的性能（见表2），验证了我们的重新实现。当使用“基准”骨干进行测试时，我们也遵循[ 38 , 2]，使用相同的64×64大小的输入图像。在使用ResNet50进行测试时，我们使用更大的输入尺寸224×224。在这两种设置中，我们稍微改变了架构，通过删除所有的池化、全连接层，然后用两个1×1的卷积层来输出所需的大小为16的局部特征。与[ 38 , 2]一样，我们使用地面真实姿态来裁剪输入图像，位于对象中心，并且不考虑平面旋转（更多细节可以在补充材料中找到）。在T-LESS数据集上，我们使用相同的ResNet50骨干，并像[ 31 , 30]中所做的那样，用地面真实边界框裁剪输入图像。对于这两个评估，我们使用Adam来训练我们的网络，初始学习率为1e-2（对于“基准”骨干）和1e-4（对于ResNet50）。在LM [ 11]上训练所有拆分时，训练时间不到5小时，在T-LESS [ 13]上训练时大约需要12小时，都在单个V100 GPU上进行。04.2. 与现有技术的比较04.2.1LINEMOD和Occluded-LINEMOD结果表2呈现了我们的方法与先前工作[ 38 , 2]的结果。无论是“基准”还是ResNet50骨干，基于局部特征相似性的我们的方法在几乎所有设置中都取得了最佳的整体性能，相比于计算全局图像表示之间特征相似性的先前方法。虽然[ 38 , 2]探索了精心设计的成对和三元损失，以学习既具有物体区分性又具有姿态区分性的嵌入空间，但我们发现使用OursResNet50 [10]LocalEq. (2)99.399.099.299.177.384.176.879.494.497.488.793.571.472.785.376.3OcclusionLINEMODT-LESSImplicit [31]92K35.6042.4538.34MPL [30]92K35.2533.1734.42Ours92K59.6257.7558.87Ours21K59.1456.9158.2567770方法骨干特征损失见过的LM 见过的O-LM 未见过的LM 未见过的O-LM0#1 #2 #3 平均 #1 #2 #3 平均 #1 #2 #3 平均 #1 #2 #3 平均0[ 38 ] 基准 [ 38 ] 全局 [ 38 ] 87.0 83.1 85.1 85.0 19.2 23.1 15.0 19.1 13.2 15.5 18.2 15.2 9.3 5.1 5.1 6.5 [ 38 ] 基准 [ 38 ] 全局 Eq. ( 2 ) 95.2 95.3 95.4 95.3 19.625.3 16.1 20.3 13.3 17.0 20.5 16.9 8.2 6.4 6.7 7.10[ 2 ] 基准 [ 38 ] 全局 [ 2 ] 89.2 85.4 83.3 86.3 18.3 21.9 17.6 19.5 14.1 16.3 19.7 16.7 8.2 7.5 7.6 7.8 [ 2 ] 基准 [ 38 ] 全局 Eq. ( 2 ) 96.3 95.2 96.5 96.0 18.3 23.115.8 19.1 11.5 17.7 17.2 15.5 7.1 6.5 6.5 6.70我们的基准 [ 38 ] 本地 [ 38 ] 84.8 85.5 86.3 85.5 50.1 51.3 42.2 47.9 69.6 63.2 46.2 59.7 35.3 34.3 44.2 37.9 我们的基准 [ 38 ] 本地 Eq. ( 2 ) 95.6 96.9 92.0 94.868.9 71.0 57.7 65.8 78.8 82.5 64.1 75.1 42.2 57.1 59.8 53.00[ 38 ] ResNet50 [ 10 ] 全局 Eq. ( 2 ) 98.8 96.9 98.8 98.1 66.7 73.2 62.7 67.5 42.2 43.7 49.4 45.1 22.3 22.5 45.9 29.9 [ 2 ] ResNet50 [ 10 ] 全局 Eq. ( 2 ) 96.997.1 94.5 96.1 63.6 71.8 58.9 64.7 39.9 44.9 48.3 44.3 15.5 21.8 50.2 29.10表2：我们的方法与[38]和[2]在LM和O-LM的已见和未见对象上的比较，使用了第4.1节开头详细介绍的三种不同的划分方式。我们报告了Acc15↑，即在误差小于15度的情况下正确预测对象身份和姿态的准确性。我们在“简单”情况下与它们持平，在其他3种配置上的表现要好得多。使用InfoNCE损失而不是[2]中的损失会带来一些改进，但主要的改进来自我们基于局部特征的方法。0查询 GT [ 2 ] 我们相似度查询 GT [ 30 ] 我们相似度0图5：Occlusion-LINEMOD（左）和T-LESS（右）上对未见对象的定性结果。我们的方法在未见对象上检索到了正确的模板和姿态，而[2, 30]在未见对象上失败，特别是在存在遮挡的情况下。0方法模板数量召回率 VSD0对象1-18 对象19-30 平均0表3：使用[31,30]在T-LESS的已见对象（对象1-18）和未见对象（对象19-31）上进行比较，使用了[30]的协议。我们的方法在相同的设置中显著优于[31, 30]。0根据公式（2）中定义的InfoNCE损失，所有方法的性能都得到了提升，特别是基于局部特征相似性的我们的方法。0当对象被遮挡时，[38,2]的准确性对于训练对象下降到70%以下，而我们的方法仍然可以保持相对较高的准确性。这表明局部图像特征的鲁棒性要优于全局图像表示，后者受遮挡的影响更大。此外，我们的预测准确性0无论对象是否被遮挡，我们的方法在未见对象上的性能都明显高于以前的方法。这表明基于局部特征的匹配不仅对遮挡具有鲁棒性，而且对未见对象具有更好的泛化能力。更重要的是，这种对未见对象的改进在存在遮挡的情况下仍然存在。04.2.2 T-Less结果0在表3中，我们展示了我们提出的方法在T-LESS数据集上在已见和未见对象上远远超过了现有方法[31,30]的性能。虽然[30]设计了一个精心设计的单编码器-多解码器网络，允许共享所有对象的潜在空间，并且每个解码器只重构单个对象的视图，但我们发现使用我们的方法和Info-NCE损失在相同的设置中不仅更简单，而且显著提高了性能。04.3.消融研究0我们在LINEMOD和Occlusion-LINEMOD上进行了多个消融评估。[38]16.628.01.58.211.568.867.722.129.9[2]12.618.49.016.77.853.760.340.129.1Ours53.889.745.184.487.276.989.983.376.3w/o M13.31.010.01.080.17.080.01.024.1Threshold δ-0.3-0.2-0.100.10.20.3w/oCan82.289.289.189.789.489.789.884.967780猿罐子猫钻头鸭子蛋胶水孔。平均0表4：M的有效性。[38,2]和我们的方法在计算相似度时使用和不使用模板掩码M的比较。使用M可以丢弃杂乱的背景，并在遮挡的未见对象上带来显著的改进。0猿 54.1 53.7 54.6 54.7 54.0 53.8 53.6 53.30猫 46.7 47.5 46.1 45.5 46.1 45.1 46.5 45.10Driller 83.6 84.5 84.5 83.8 84.4 84.4 84.5 81.50Duck 87.1 87.1 87.8 86.7 87.3 87.2 87.0 87.30Egg � 76.3 75.2 74.1 75.3 75.1 76.9 76.2 72.60Glue � 89.3 83.5 83.9 90.1 89.5 89.9 89.6 90.20Holep. 83.9 85.9 83.6 82.9 83.4 83.3 82.5 81.80Avg 75.4 75.8 75.4 76.0 76.1 76.3 76.2 74.50表5: 方程(5)中阈值δ的影响。使用阈值δ =0.2预测遮挡掩模O在性能上表现最佳，特别是在大型对象上。0数据集模板数量特征创建内存运行时间0CPU GPU0LINEMOD 1.204 0.5 min 28 MB 0.15 s 7.8 × 10 − 3 s T-LESS 21.672 6min 544 MB 0.84 s 8.2 × 10 − 3 s0表6: 我们方法在单个GPU V100和CPU IntelXeon上的平均运行时间。0特征掩模的有效性。表4显示了在未见过的对象上使用模板掩模M的有效性。去除M会导致我们方法在所有三个分割上严重降级。0阈值δ的影响。表5显示了方程(5)中阈值δ对估计遮挡掩模O的影响。使用O在大型对象（“Can”、“Driller”和“Eggbox”）上带来了改进。这可以解释为在O-LM中，遮挡可能非常大，特别是在小型对象上，如图7所示。0本地特征维度的影响。图60图显示了姿态误差与本地特征维度C和特征图和掩模M的分辨率的关系。虽然C不是关键值，但分辨率更重要，因为更高的分辨率可以更精确地丢弃背景。此外，这个超参数对于未见过的对象的性能影响比对于已见过的对象更大。0运行时间。表6提供了CPU和GPU的运行时间。0图6:本地特征维度C和本地特征和掩模的分辨率的影响。使用良好的分辨率比使用高维度的本地特征更重要，因为这样可以在计算相似度得分时更精确地丢弃背景。0图7:“Cat”对象在Occluded-LINEMOD的测试图像中经常几乎不可见，导致误差较大。04.4. 失败案例0在O-LM上评估时，我们的方法和[38,2]都无法识别“Cat”对象。如图7所示，在这个数据集中，这个对象很小，而且遮挡非常严重。05. 结论0我们提出了一种高效的三维物体识别和姿态估计方法，可以推广到新的对象而无需重新训练，并且对遮挡具有鲁棒性。我们的分析表明，全局表示丢弃了图像的网格结构，对杂乱环境不具有鲁棒性，并导致姿态预测不准确。我们基于本地表示的方法具有更好的性能，并且可以对遮挡具有鲁棒性。我们希望我们的分析和新方法能够指导更实用的系统的开发。0致谢。我们感谢Micha¨el Ramamonjisoa、Tom Monnier、ElliotVincent和Romain Loiseau对我们的宝贵反馈。本研究是在IPParis和Ecole des Ponts ParisTech的Energy4ClimateInterdisciplinary Center(E4C)框架下完成的。本研究得到了第三个Investissementsd’Avenir计划的支持[ANR-18-EUR-0006-02]。这项工作得到了由TOTAL赞助的l’X – Ecolepolytechnique主导的“面向负责任能源的挑战性技术”讲座和Ecole polytechnique基金会的支持。本工作得到了CHISTERAIPALM项目的资助，并使用了GENCI–IDRIS2021-AD011012294R1的HPC资源。67790参考文献0[1] Seungryul Baek, Kwang In Kim, and Tae-Kyun Kim.通过GAN和网格模型进行弱监督域自适应，用于估计与物体交互的3D手势姿态。在计算机视觉与模式识别会议（CVPR）上，2020年。10[2] Vassileios Balntas, Andreas Doumanoglou, Caner Sahin,Juil Sock, Rigas Kouskouridas, and Tae-Kyun Kim.姿态引导的RGBD特征学习用于3D物体姿态估计。在国际计算机视觉会议（ICCV）上，2017年。1，2，3，4，5，6，7，80[3] Eric Brachmann, Alexander Krull, Frank Michel, StefanGumhold, Jamie Shotton, and Carsten Rother.使用3D物体坐标学习6D物体姿态估计。在欧洲计算机视觉会议（ECCV）上，2014年。2，50[4] Mathilde Caron, Ishan Misra, Julien Mairal, Priya Goyal,Pi- otr Bojanowski, and Armand Joulin.通过对比聚类分配学习视觉特征。在神经信息处理系统进展（NeurIPS）上，2020年。50[5] Ting Chen, Simon Kornblith, Mohammad Norouzi, andGe- offrey Hinton.一种用于对比学习视觉表示的简单框架。在机器学习国际会议（ICML）上，2020年。3，50[6] Ting Chen, Simon Kornblith, Kevin Swersky, MohammadNorouzi, and Geoffrey Hinton.大型自监督模型是强半监督学习器。在神经信息处理系统进展（NeurIPS）上，2020年。50[7] Xinlei Chen, Haoqi Fan, Ross Girshick, and Kaiming He.基于动量对比学习的改进基线。ArXiv，2020年。50[8] Maximilian Denninger, Martin Sundermeyer, DominikWinkelbauer, Youssef Zidan, Dmitry Olefir, Mohamad El-badrawy, Ahsan Lodhi, and Harinandan Katam. Blender-proc. arXiv预印本arXiv:1911.01911，2019年。50[9] Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and RossB. Girshick.动量对比用于无监督视觉表示学习。在计算机视觉与模式识别会议（CVPR）上，2020年。3，5，60[10] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.深度残差学习用于图像识别。在计算机视觉与模式识别会议（CVPR）上，2016年。70[11] Stefan Hinterstoisser, Vincent L

下载后可阅读完整内容，剩余1页未读，立即下载