学习曲面嵌入的物体姿态估计

22 浏览量更新于2023-10-26 收藏 1.15MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6749SurfEmb：具有学习曲面嵌入的物体姿态估计Rasmus Laurvig Haugaard南丹麦rlha@mmmi.sdu.dk南丹麦anbu@mmmi.sdu.dk摘要我们提出了一种方法来学习密集的，连续的2D- 3D对应分布的表面上的对象从数据没有先验知识的视觉模糊性，如对称性。我们还提出了一种新的方法，用于6D姿态估计的刚性物体使用学习的分布，采样，评分和细化的姿势假设。的correspondence分布的学习与对比损失，表示在对象特定的潜在空间的编码器-解码器查询模型和一个小的全连接的关键模型。我们的方法是无监督的视觉歧义，但我们表明，查询和关键模型学习表示准确的多模态表面分布。我们的姿态估计方法在综合BOP挑战赛上显著提高了最先进的水平，纯粹在合成数据上训练，甚至与在真实数据上训练的方法相比。该项目的网站是surfemb.github.io。1. 介绍建立2D-3D对应关系是计算机视觉中的核心问题。对于没有视觉模糊的对象的图像，3D物点在理论上可以针对图像中的2D点唯一然而，在对称、遮挡、光照等造成的视觉模糊下可以存在一组可能的3D对应。理想情况下，我们不仅有一个最佳猜测，而且有一个可能对应的完整分布。据我们所知，我们是第一个提出这样的分布。我们从数据中隐式地学习分布，没有关于对称性或其他模糊性的信息。存在用于刚性对象的广泛范围的姿态估计方法。许多建立2D-3D对应关系[12，21，25，26，28，31]，然后是PnP-RANSAC[9]，并且主要区别在于它们如何一些方法建立对象关键点的固定集合的对应关系[26，28]，而其他方法建立密集的（逐像素）图1.提出了一种学习2D-3D对应分布的方法。图像裁剪通过查询模型提供，从而提供查询图像。地面实况姿态下的可见对象坐标被馈送通过密钥模型以提供正密钥，并且均匀采样的对象点被馈送通过相同的密钥模型以提供用于对比学习的负密钥。对应关系[5，12，21，25，31]。回归坐标直接[5，21，25，28，31]假设单峰分布，这在视觉模糊的情况下是有问题的，导致他们中的大多数明确地处理全局对称性。然而，这只处理全局对称性，而不是其他类型的视觉模糊性。最近的一种方法[12]通过估计表面碎片的概率分布来隐式地处理模糊性。该模型能够表示多模态分布，但表示受到表示大量表面片段的计算成本的他们通过选择64个片段并回归片段内偏移量来减轻这一点，但这仍然相当于他们的编码器-解码器网络中每个对象的256个输出通道，并且他们的表示有效地减少到64个细化对象坐标上的离散概率分布。另一项最近的工作[23]提出使用连续表面嵌入来建立密集的2D-3D对应查询模型QK+重点型号k-对比损失6750有几个输出通道。然而，他们只建立了一个单一的对应每像素，并没有讨论或显示的能力，代表分布或其他方式来处理歧义，也没有使用它的对象姿态估计。这项工作提出了一种方法来学习密集和连续的2D-3D对应分布与对比损失。在推断中，我们评估了大约75.000个对象坐标的分布。对应分布由两个模型表示：一个小的全连接网络，键模型，映射对象坐标到键嵌入，和一个编码器-解码器卷积网络，查询模型，映射彩色图像到密集查询嵌入图像。然后，每个查询表示键上的对应分布，并且两个模型用对比损失联合训练。这种表示使模型能够以较低的计算要求表示准确的多模态对应分布我们使用PnP-RANSAC获得初始姿态估计，其中许多姿态假设基于对应分布进行采样，并使用基于训练损失的分数进行评估因此，我们的模型被明确地训练以最大化正确姿势的得分。我们进一步细化最佳得分姿势假设，以获得我们最终的姿势估计。我们在BOP挑战中的七个不同的数据集上评估了我们的方法[14]。对于ITODD[7]，我们显示出比以前最先进的RGB方法相对提高了79%，对于T-LESS[13]和HB[15]，我们纯粹在合成数据上训练的RGB方法是最先进的，即使与在真实数据上训练的方法和使用深度的方法相比我们的RGB方法在所有七个数据集上显示了最先进的结果，与其他在合成数据上训练的方法相比，我们在纯合成数据上训练的RGBD方法在BOP挑战上是最先进的，即使与在真实数据上训练的方法相比。我们的主要贡献是：• 呈现连续的2D-3D对应分布，精确到像对称性这样的模糊性。• 一种最先进的物体姿态估计方法，使用分布来采样、评分和细化姿态，隐式地处理对称性和其他模糊性。交互式的例子和所有的代码，以重现在这项工作的结果是在项目网站上。2. 相关工作存在广泛的姿态估计方法。高性能的经典方法[8，35]和混合方法[18]依赖于深度信息并使用基于点对的投票。一些基于学习的方法[19，20，36]直接回归姿势的表示。PoseCNN[36]在自定义检测管道中回归深度，投影的 2D 中心和每个感兴趣区域的四元数。DeepIM[20]通过回归姿态假设的渲染与输入图像之间的姿态差异来CosyPose[19]建立在DeepIM的基础上，增加了几项改进，包括连续旋转参数化，显式处理对称性，并使用更新的架构。[4，34]训练自动编码器以在潜在表示中捕获旋转信息。在训练之后，他们构建了一个代表大量旋转的潜在码本，并且在推理过程中，他们要么选择码本中最近的邻居[34]，要么设计一个旋转分布[4]。[33]显示了自动编码器可以在多个对象之间共享，并推广到不可见的对象。[4，33，34]中的潜在表示隐含地处理对称性，但假设对象框架我们的方法不假设任何关于放置的对象框架，并能够表示的位置和旋转的ambigities- guities的分布的对应。其他基于学习的方法基于建立2D-3D对应关系[5，12，21，25，26，28，31]，随后是PnP-RANSAC的变体。BB8[28]回归投影的3D边界框角的2D坐标，并通过基于对象对称性限制地面真实姿态空间来PVNet[26]将向量场回归到一组固定3D关键点的2D投影，并处理BB8等对称性。Pix 2 Pose[25]采用编码器-解码器网络来回归对象表面的密集对象坐标。为了处理对称性，他们计算相对于在对称性下有效的同时具有最小损失的姿势的损失，并进一步使用生成对抗网络来锁定合理的模式。除了密集的对应，SO-Pose[5]还估计自遮挡图以约束其姿势假设。CDPN[21]回归密集的对应关系，但仅使用它们来估计旋转，而是使用单独的头部来回归平移。DPODv2[31]也回归密集对应。他们用PnP-RANSAC获得初始姿态，并基于可微分渲染和估计的密集对应关系来细化姿态。它们处理类似于BB8和PVNet的对称性。[27]回归密集的手工制作的3D特征，以建立2D-3D对应关系，即使是在训练过程中没有看到的虽然它们的特征定义隐含地处理对称性，但它们的定义限于局部旋转不变的3D信息。EPOS[12]学习密集的2D-3D对应分布并隐式处理他们通过将表面离散成一组碎片并预测概率分布来实现这一点。6751⊂∈∈J›→›→−Eu|∝| |u∈∈∈⊂||u--我每个像素的碎片上的分布。它们回归每个片段的坐标偏移以增加对应准确性。EPOS是最相关的姿态估计方法，是表示对应性分布的唯一方法与所有姿态估计方法相比，我们估计对象表面上的连续分布，并且我们使用该分布而不是对应关系来进行姿态评分和细化。也有物体姿态估计之外的工作，我们认为掩模是像素的集合，其中对象存在，即使它被遮挡。设qRE是一个查询，RE是一个共享的嵌入空间的维数E，并让每个表面点，ci，由相应的关键字，ki表示。类似于[23]，给定查询，我们定义了表面点的离散集上的表面分布，SS，作为查询和所有键之间的点积上的softmax目的是建立通信。[10]学习嵌入Δexp（qTki）中国（2）以一种自我监督的方式，Pr（ci|q，S）=cj∈S exp（qTk）， ci∈ S.针对对象质量的跨图像的2D-2D对应关系胎生[23]提出使用连续表面嵌入来建立密集的2D-3D对应关系，并且他们用于学习对应关系的框架与我们的框架类似，但有一些重要的差异。最重要的是，它们只建立每个像素的单一对应关系，并且没有讨论或显示表示分布或以其他方式处理模糊性的能力。它们也不使用所获得的对应关系用于对象姿态估计。还有更多的区别，包括它们的键模型嵌入被显式正则化为连续的，而我们使用一个键模型，一个小的全连接网络g：R3 RE，将表面点映射到键，使用一个查询模型，一个编码器-解码器卷积网络f：RH×W×3RH×W×E，将彩色图像映射到查询图像。利用从物体表面均匀采样的表面点集S，S，纵坐标，U=u1，. -是的-是的，uN，从对象掩码，我们将嵌入损失定义为In-FoNCE[24]损失我们嵌入的连续性主要是由视觉模糊，他们使用一组固定的对象，L=1|U˜|对数Σexp（qT ku）、exp（qTk）（三）顶点，而我们使用对比损失，在训练过程中从表面采样。3. 方法本节介绍我们的姿态估计方法。我们其中q u指的是查询图像中u处的查询，而k u=g（c u）指的是来自对象坐标c u的键，该键存在于u处（图1）。[24]表明，优化这种损失将导致估计概率密度比p（ci|q）首先进行简短的概述，然后更详细地描述我们如何表示和学习对应分布exp（qTki）p（ci）、（四）以及最后如何从这些分布中获得姿态估计。3.1. 概述与其他方法类似[5，19我们通过我们的模型提供图像裁剪，以获得密集的（像素-在不考虑样本量的情况下，S.由于我们从表面均匀地采样ci，因此可以得出exp（qT ki）p（ci q），这意味着我们通过在物体表面上进行归一化1exp（qTki）wise）表面分布和掩模，它们一起形成对应分布。以PnP-RANSAC方式，p（ci|I，u，u∈M）=<$cj∈Suexp（qTkj）.（五）我们从对应性分布中采样姿态假设，并基于掩模和表面分布对每个假设进行评分。然后基于表面分布细化最佳得分姿势假设以获得最终姿势估计。3.2. 学习对应分布给定物体的图像裁剪IRH×W×3和物体掩模内的图像坐标uM，我们的目标是学习表面分布，该表面分布描述物体表面c SR3上的哪个点c，像素对应于到目前为止，我们只考虑了表面分布，假设像素坐标在对象遮罩内。为了建立对应上的分布p（c，uI），我们在与查询模型相同的卷积架构中添加通道以估计对象掩码，并且使图像坐标上的离散分布Pr（uI）与对象存在于像素uPr（u|I）<$Pr（u∈M |I，u）。（6）然后通过下式对对应关系上的分布进行建模：p（c|I，u，u ∈ M）。（1）p（c，u|I）= Pr（u|I）p（c|I，u）。（七）u∈Uci∈Scu6752|ΣΣ||ˆMM C其中LM是掩模的平均二进制交叉熵损失，总损失为L=LE+LM。（八）关于代表性的说明。虽然一些简单的视觉模糊性，如全局对称性，可以显式地建模，但显式地建模所有相关的模糊性是否可行是值得怀疑的。从数据中学习模糊性要求模型能够表示模糊性，并且虽然理论上表示可以在姿态空间中，但是我们不知道任何工作成功地直接学习多模态对象姿态分布。密集查询图像可以被视为姿态分布的代理关键模型表示具有E参数的对象特定表面分布模型，其中查询模型逐像素地估计模型参数。最大化地面实况坐标的概率（等式10）。3）鼓励关键模型对数据中最常见的视觉歧义类型进行建模，并且仅对那些导致有效表示的类型进行建模。在全局对称的情况下，密钥模型可以简单地学习映射通过反转采样有效地进行采样。采样直接从这个分布的结果，甚至采样内估计的面具。为了更频繁地对具有较低熵的图像坐标进行采样，我们改为通过与Pr（c，u I）γ成比例地采样来锐化对应分布，其中γ=1。五是有质量的选择。姿态假设是从AP3P [16]的对应关系中找到的，如OpenCV 2中所实现的。由于我们试图仅为表面的未自遮挡的部分建立对应关系，因此用于获得姿势假设的对应关系在姿势假设下应该是可见的。我们放弃了姿势假设，这不是基于相应法线的情况。姿势假设评分。我们提出了一种基于训练损失的姿势得分，它有两个部分。第一部分表示与估计掩码的一致性，第二部分表示与估计对应分布的一致性。我们将掩模得分定义为姿势假设掩模symmetric指向相同的键，但它也可以表示更复杂和依赖于视图的二义性。提供关于代表能力的直观信息，s=1logPr（M）|u ∈ U|u∈Uu）、（9）嵌入，让我们想象映射一个物体的表面到一个3D球体的表面上然后我们看到，当查询与键具有相同的方向和无限范数时，它唯一地标识任何键。一个较低的查询规范逐渐泄漏其中，U是图像中所有像素坐标的离散集，Mu表示对象是否存在于在pose假设下我们将对应性得分定义为姿态假设越来越多的分布到相邻的键上。因此，三个嵌入维度足以表示具有简单模糊性的分布，但是更多的嵌入维度可以表示具有简单模糊性的分布。s=1log Pr（cCMuu∈M|qu，u∈ M）。（十）维度允许模型表示更多的模糊性。3.3. 从嵌入到姿势为了将这两个分数联系起来，我们通过它们的最大熵进行归一化S ss=+。（十一）在推断时，建立日志（2）1000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000|S|）基于从等式7估计的对应分布。对应性形成基于与所估计的掩模和对应性分布的一致性来评分的姿态假设，并且通过可见表面坐标的概率的局部最大化来细化最佳评分姿态假设。抽样姿势假设。虽然2D-3D对应分布在可以针对表面上的任何点进行评估的意义上是连续的，但是我们选择大的6753⊂||≈∈| | ||点集SS，S75. 000个，每隔一段时间从对象表面，使用[2]，如Meshlab1中所实现的。对于每个查询，计算关键字上的概率分布，并将其乘以掩码概率以获得对应概率（等式10）。（7）可以是1https：//www.meshlab.net/Pr（c|q）对所有查询键对计算一次，得到一个表，公司简介|S|用于逆采样，并且为了有效地计算Eq.10索引表的内存需求与U成正比S，和我们使用分辨率为224的正方形图像，因此我们将查询图像缩小三倍，使其适合GPU内存。对于对应性得分，我们在空间上最大化池l，其中内核大小为3并且步幅为1。最大池化的目的是使评分更稳健，因为姿势假设不会因为偏离几个像素而受到惩罚。这类似于常见PnP-RANSAC[9]框架中的重投影误差阈值。最大池化确实会牺牲精确性以利于健壮性，但理想情况下，细化弥补了这种折衷。2https://opencv.org/网站6754··光栅化相对昂贵，因此我们将S中的所有对象坐标投影到图像中，并仅选择每个像素最接近相机的对象坐标。精炼。通过等式10中的对应性分数的局部最大化来细化具有最佳分数的姿态假设。我们首先在初始姿态假设下渲染可见对象坐标。对于优化目标，我们然后将对象坐标投影到当前姿态下的图像中，以利用双线性插值对查询图像进行采样，并评估等式2中的数值。由于评估分母在计算上是昂贵的，因此最初针对所有查询预先计算分母以获得也通过双线性插值采样的分母图像。该目标使用SciPy3中实现的BFGS最大化，梯度通过PyTorch4中的自动微分计算。使用深度图像。从单色图像中估计准确的深度是非常困难的。当深度图像可用时，我们调整姿势估计的深度。我们找到一组图像坐标，其中查询范数至少是整个图像的最大查询范数的80%高查询范数表明模型是确定的，因此我们假设这些坐标对应于目标对象的可见部分我们找到了深度图像和估计深度之间的差异，在姿势假设下，为这些坐标中的每一个，并选择深度调整作为这些差异的中位数。我们需要选择一条射线来调整深度。我们用穿过质心的光线，在chosen图像坐标系中.体系结构和培训细节。对于查询模型，我们使用U-Net [30]架构和ImageNet [3]预训练的ResNet-18 [11]骨干。由于具有ReLU激活的MLP已被证明在其输入中偏向低频[29]，我们使用Siren[32] MLP作为关键模型，其动机是局部一致的嵌入应该是视觉模糊的结果，而不是MLP的限制我们在训练过程中大量使用图像增强。我们将平移和缩放噪声添加到地面实况作物中，以模拟检测器的不准确性并均匀地采样从Albumentations5库中，我们使用GaussianBlur，ISONoise，GaussNoise，CLAHE，CoarseDropout和ColorJitter。我们进一步添加去拜耳效应和反锐化掩蔽。所有图像增强都有50%的机会被应用。3https://scipy.org/网站4https://pytorch.org/5https://albumentations.ai/我们使用Py- Torch在Python中实现和训练我们的模型。我们使用Adam[17]，查询模型的学习率为3 10−4，键模型的学习率为3 10−5我们在对象掩码中使用16个批量大小和1024个查询密钥对的样本，并且每个裁剪使用来自均匀表面样本的1024个否定密钥（图1）。我们使用12个嵌入维度，并且在查询模型中每个对象具有单独的密钥模型和每个对象具有单独的解码器。查询编码器在数据集中的对象之间共享。我们在NvidiaRTX 2080上训练和运行模型。4. 实验我们在BOP Challenge [14]上评估我们的方法，BOPChallenge [14]尚未饱和，并且可以说是具有七个数据集的最全面的刚体姿态估计基准 ; LM-O[1] ， T-LESS[13]， TUD-L[14]， IC-BIN[6]，[15][16][17][18][19][1 该任务涉及从具有不同数量的对象（ViVo）的不同数量的实例的单个图像进行姿态估计。BOP基于可见表面离散度（VSD）、最大可感知表面距离（MSSD）和最大可感知投影距离（MSPD）评估三种姿态误差。基于一组错误阈值，为每个错误计算平均召回率ARVSD、ARMSSD、ARMSPD，并且平均召回率AR是指三个平均召回率的平均值。我们在BOP挑战赛提供的基于物理的合成渲染数据集上训练我们的模型。由于数据集的对象和实例的数量不同，我们对IC-BIN训练了5个epoch，对T-LESS，ITODD，HB和YCBV训练了10个epoch，对LM-O和TUD-L训练了20个epoch。在一台Nvidia RTX 2080上，训练时间为1-2天，计算量明显低于例如。CosyPose[19]在32台Nvidia V100上训练10小时。我们还对T-LESS、TUD-L和YCB-V提供的真实训练数据集进行了微调。由于T-LESS的真实数据集只包含带有黑色背景的分离对象，因此我们对该数据集的合成图像和真实图像进行了微调。在推理过程中，我们使用CosyPose[19]中的模型在合成图像上训练的可用检测作物。我们使用一个简单的测试时增强，其中输入旋转0，90，180和270度，通过模型馈送，旋转回来并平均。每个图像裁剪的推断时间约为2.2s，包括查询模型正向传递的约20 ms、PnP-RANSAC的1.2s和姿态细化的1.0s。我们的实现是用Python编写的。编译版本可以减少推理时间。我们还使用固定数量的在PnP-RANSAC期间进行20.000次迭代。提前终止和进一步的姿态修剪可以减少PnP-RANSAC时间。6755方法域SynthLM-OT-LESSTUD-LIC仓ITODDHBYCB-VAvgSurfEmb（我们的）RGB✓0.6560.7410.7150.5850.3870.7930.6530.647伊普斯[12]RGB✓0.5470.4670.5580.3630.1860.5800.4990.457[21]第二十一话RGB✓0.6240.4070.5880.4730.1020.7220.3900.472[31]第三十一话RGB✓0.5840.636---0.725--PVNet[26]RGB✓0.575-------[19]第十九话RGB✓0.6330.6400.6850.5830.2160.6560.5740.570SurfEmb（我们的）RGB✗0.6560.7700.8050.5850.3870.7930.7180.673[25]第二十五话RGB✗0.3630.3440.4200.2260.1340.4460.4570.342[21]第二十一话RGB✗0.6240.4780.7720.4730.1020.7220.5320.529S-Pose[5]RGB✗0.613-----0.715-[19]第十九话RGB✗0.6330.7280.8230.5830.2160.6560.8210.637SurfEmb（我们的）RGB-D✓0.7580.8280.8540.6560.4980.8670.8060.752SurfEmb（我们的）RGB-D✗0.7580.8330.9330.6560.4980.8670.8240.767德罗斯特[8]RGB-D*0.5150.5000.8510.3680.5700.6710.3750.550[35]第三十五话D*0.5820.5380.8760.3930.4350.7060.4500.569[18]第十八话RGB-D✗0.6310.6550.9200.4300.4830.6510.7010.639[25]第二十五话RGB-D✗0.5880.5120.8200.3900.3510.6950.7800.591[19]第十九话RGB-D✗0.7140.7010.9390.6470.3130.7120.8610.698表1. BOP核心数据集的平均召回率。方法分为三组：纯粹在合成数据上训练的RGB方法，也在T-LESS，TUD-L和YCB-V的真实数据上训练的RGB方法，以及使用深度的方法每组中每个数据集的最佳性能方法Synth：完全根据BOP Challenge提供的合成数据进行培训。请注意，真实的训练数据仅适用于其中三个数据集，因此某些条目是重复的。* 方法不使用提供的训练图像。图2.使用学习的密钥嵌入的UMAP的2D投影。关键模型已经学习了具有连续旋转对称性的对象的预期一维流形。请注意，流形维度在对称性断裂处扩展，如虚线圆圈所示。大多数其他对象的全局嵌入结构很难在2D中表达，但它们在项目现场可以在3D中使用。主要结果。我们的主要结果在Tab中列出。1. 对于ITODD，我们显示出比下一个最佳RGB方法有79%的相对改进。我们在合成数据上训练的RGB方法在T-LESS和HB上是最先进的，即使与在真实数据上训练的方法和使用深度的方法相比。我们的方法在所有数据集上都是最先进的，与在合成数据上训练的其他方法一致。我们纯粹基于合成数据训练的RGBD方法在BOP挑战赛中是最先进的，即使与基于真实数据训练的方法相比也是如此。可视化嵌入。我们通过对三组不同的嵌入维度中的每一组求和，将嵌入减少到三维以进行可视化，并将范围标准化为有效的RGB范围，确保通过灰色可视化零。密钥嵌入在求和之前被进一步去均值化。对嵌入维度求和确实意味着可视化中的模糊性，但我们发现它在实践中比子采样维度或PCA更好地描绘了嵌入流形。定性结果。我们的模型学习嵌入（图3），这是有意义的，在这个意义上，表面点是视觉上相似的，例如。因为对称性，它们有相似的嵌入。我们发现对象的关键嵌入特别有趣，因为它们代表了对象的学习对于具有连续旋转对称性的对象，我们使用UMAP[22]检查关键嵌入流形（图2），并表明关键模型已经学习了预期的一维嵌入流形，而无需任何关于对称性的先验知识。我们还表明，在合成数据上训练的模型在真实图像上产生准确的对应分布（图4）。请注意，来自被遮挡查询的分布（左上，黄色）具有较高的熵分布，并且在没有视觉模糊性的情况下（右下，黄色和红色），分布不精确的方式6756图3.嵌入示例。从上到下;输入图像，查询图像，地面真实姿势下的关键点。虽然查询模型只在对象的完整掩码内进行了训练，但它已经学会了在掩码之外输出低范数查询（接近灰色），这表明熵分布很高。仍然是有意义的，给出正确模式的最大概率和视觉上相似模式的一些概率。据我们所知，没有其他工作已经显示出这种质量的对应分布。姿态估计示例如图所示。五、消融研究。我们研究了Tab中不同超参数的影响。2. 具体来说，我们看看六个与十二个嵌入维度，单个解码器（但具有特定于对象的最后一层）与每个对象的单独解码器更多的嵌入维度，独立的解码器和测试时间增加都显示出稳定的改善，细化显示出显着的改善。与姿势评分和姿势细化相比，查询模型的前向传递在计算上是便宜的，因此测试时间增加是提高性能的有效方法。我们假设，测试时间增强提高了per-perception通过提供一个更平滑的查询图像，从而导致更好地提出细化优化问题。失败案例。毫不奇怪，我们观察到，当CAD模型很好地代表真实对象时，我们在合成数据上训练的方法表现最好。对于某些对象，如YCB-V中的碗和杯，CAD模型包含烘焙反射。由于这些反射总是存在于数据中，即使在大量数据增加的情况下，我们的模型也学会依赖这些反射。对于其他对象，如TUD-L和IC-BIN中的模型以及LM-O和ITODD中的一些对象，CAD模型图4.具有不同对称度的T-LESS观测器上的对应分布示例每个图像通过查询模型来获得查询图像，从该查询图像中选择四个查询。对于每个查询，来自对象表面的键上的分布被施加在地面实况姿态中的图像上。查询的位置用圆圈标记，每个查询以不同的颜色显示为清楚起见，仅示出了非自闭塞表面部分的分布项目网站上提供了互动示例。ESDRTAARVSDARMSSDARMSPDAR6✗ ✗ ✗0.4340.4650.8130.5716✗ ✓ ✗0.6160.6420.8310.69612✗ ✗ ✗0.4660.4970.8220.59512✗ ✓ ✗0.6430.6690.8430.71912✓✗ ✗0.5020.5360.8350.62412✓ ✓ ✗0.6530.6820.8510.72912✓ ✓ ✓0.6680.6960.8600.741表2. 我们的方法在T-LESS上的消融研究[13]。E：嵌入维度的数量，SD：每个对象的单独解码器，R：具有细化。TA：测试时间旋转增强。几何形状看起来与真实表面显著不同，这导致对真实图像的次优姿态评分和细化。我们发现一些地面真实姿势令人惊讶地差。这对于LM-O、TUD-L、IC-BIN和YCB-V尤其明显，如图6所示。HB和ITODD的地面真实姿势尚未公开。测试数据集上的差的如果是这样的话，冰毒-6757图5.不同数据集上的姿势估计示例从左至右依次为：LM-O、T-LESS、IC-BIN、ITODD和YCB-V。图6.可怜的地面实况姿态-不是姿态估计。这些行对应于T-LESS、LM-O、TUD-L、IC-BIN和YCB-V，re-cycle。对于每个数据集，我们选择质量最差的地面真实姿势，每个数据集有50个姿势。处于地面真实姿态的对象的轮廓以红色显示。复制这种偏差的ODS获得了乐观的结果，质疑是否应该对这样的数据集使用低召回阈值。糟糕的地面真实姿势和模型几何形状以及我们的方法CosyPose [19]在TUD-L和YCB-V上对真实数据进行微调时5. 未来的工作和局限性我们已经用有限的计算训练了我们的模型，我们只做了有限的参数搜索，并且我们为查询模型使用了U-Net[30]架构。更多的计算，其他超参数和其他编码器-解码器架构可以提高性能。我们的方法只杠杆年龄的信息，从一个单一的视图，但姿势采样，姿势评估和姿势细化都可以扩展到多个视图的变种。我们的细化方法假设，可见的物体表面不改变显着的细化过程中，我们已经观察到细化失败，这是因为这个假设。我们的方法实际上是一个四阶段的方法：从图像检测，从作物分布，从分布和细化初始姿态。这与相关方法类似，但无可争议地使我们的管道比端到端方法更复杂。6. 结论我们提出了一种从彩色图像中学习密集和连续的2D-3D对应分布的方法。这些分布是从具有对比损失的数据中隐式学习的，并且没有关于对称性等模糊性的先验知识。分布表示在特定于对象的潜在空间的编码器-解码器查询模型和一个小的全连接的关键模型。我们还提出了一种新的姿态估计方法，使用这些分布的姿态采样，姿态评分和姿态细化。我们的方法是无监督的视觉歧义，但我们已经表明，查询和关键模型学习表示准确的多模态表面分布。我们的姿态估计方法在综合BOP挑战赛中显着提高了最先进的水平，纯粹在合成数据上训练，甚至与在真实数据上训练的方法相比。确认作者要感谢Thorbjørn Mosekjær Iversen提供的有用反馈和讨论。该项目得到了MADE FAST的资助。6758引用[1] Eric Brachmann、Alexander Krull、Frank Michel、StefanGumhold、Jamie Shotton和Carsten Rother。使用3d对象坐标学习6d对象姿态估计。在欧洲计算机视觉会议上，第536Springer，2014. 5[2] Massimiliano Corsini ， Paolo Colonnoni ， and RobertoScopigno.高效灵活的采样，具有三角网格的蓝噪声特性。 IEEE transactions on visualization and computergraphics，18（6）：914-924，2012。4[3] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。5[4] 邓新科，穆萨维，于翔，夏飞，蒂莫西·布雷特，迪特尔 · 福克斯 . Poserbpf ：一个 IEEE Transactions onRobotics，37（5）：1328-1342，2021。2[5] Yan Di，Fabian Manhardt，Gu Wang，Xiangyang Ji，Nassir Navab，and Federico Tombari.目的：利用自遮挡进行直接6D姿态估计。在IEEE/CVF计算机视觉国际会议论文集，第12396-12405页，2021年。一、二、三、六[6] Andreas Doumanoglou 、 Rigas Kouskouridas 、 SotirisMalas-siotis和Tae-Kyun Kim。恢复6d对象姿态并预测人群中的下一个最佳视图。在IEEE计算机视觉和模式识别会议论文集，第3583-3592页，2016年。5[7] Bertram Drost，Markus Ulrich，Paul Bergmann，PhilippHartinger，and Carsten Steger.介绍mvtec itodd-一个用于工业3d物体识别的数据集。在IEEE计算机视觉研讨会国际会议论文集，第2200-2208页二、五[8] Bertram Drost Markus Ulrich Nassir Navab 和 SlobodanIlic。全局建模，局部匹配：高效、鲁棒的3D物体识别。在2010年IEEE计算机学会计算机视觉和模式识别会议上，第998IEEE，2010年。二、六[9] Martin A Fischler和Robert C Bolles。随机样本一致性：模型拟合与图像分析和自动制图应用范例。Communications of the ACM，24（6）：381-395，1981.1、4[10] PeterRFlorence ， LucasManuelli ， andRussTedrake.Dense Object Nets：通过机器人操作学习密集的视觉对象描述符。arXiv预印本arXiv：1806.08756，2018。3[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。5[12] 托马斯·霍丹丹尼尔·巴拉斯和吉瑞·马塔斯Epos：估计具有对称性的对象的6D姿态。在IEEE/CVF计算机视觉和模式识别会议论文集，第11703-11712页，2020年。一、二、六[13] 汤姆·马尔斯·霍丹、帕维尔·哈卢扎、斯特普 ·奥布德·扎列克、伊日·马塔斯、马诺利斯·卢拉基斯和色诺芬·扎布利斯。无T：RGB-用于无纹理对象的6D姿态估计的3D数据集。2017年IEEE计算机视觉应用冬季会议（WACV），第880-888页。IEEE，2017年。二、五、七[14] 我的朋友是马丁·桑德姆、伯特伦·德罗斯特、扬·拉布、埃里克·布拉克曼、米歇尔神父、卡斯滕·罗特和吉尔·马塔斯。国际收支平衡表挑战2020年的6d物体定位。欧洲计算机视觉会议，第577Springer，2020年。二、五[15] 罗曼·卡斯克曼，谢尔盖·扎哈罗夫，伊万·舒古罗夫，斯洛博丹·伊利克.Homebreweddb：用于3D对象的6D姿态估计的Rgb-d数据集。在IEEE/CVF计算机视觉研讨会国际会议论文集，第0二、五[16] Tong Ke and Stergios I Roumeliotis.透视三点问题的有效代数解法。在IEEE计算机视觉和模式识别会议论文集，第7225-7233页，2017年4[17] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。5[18] Rebe c caK？nig和BertramDrost。一种用于六自由度位姿估计的混合方法欧洲计算机视觉会议，第700-706页Springer，2020年。二、六[19] YannLabbe´，JustinCarpentier，MathieuAubry，andJosefSivic.Cosypose：一致的多视图多对象6D姿态估计。欧洲计算机视觉会议，第574-591页。Springer，2020年。二三五六八[20] 易离，顾望，向阳季，于翔，迪特尔福克斯。Deepim：深度迭代匹配6D姿态估计。在欧洲计算机视觉会议（ECCV）的会议记录中，第683-698页，2018年。二、三[21] Zhigang Li，Gu Wang，and Xiangyang Ji. Cdpn：基于坐标的解缠姿态网络，用于实时基于rgb的6-dof对象姿态估计。在IEEE/CVF计算机视觉国际会议论文集，第7678-7687页，2019年。一、二、三、六[22] L. McInnes，J. Healy，and J. Melville. UMAP：统一流形逼近和投影降维. ArXiv电子印刷品，2018年2月。6[23] Natalia Neverova 、 David Novotny 、 Vasil Khalidov 、Marc Szafraniec、Patrick Labatut和Andrea Vedaldi。连续的表面嵌入。在NIPS，2020年。第1、3条[24] Aaron van den Oord、Yazhe Li和Oriol Vinyals。使用对比预测编码的表示学习。 arXiv 预印本 arXiv ：1807.03748，2018. 3[25

下载后可阅读完整内容，剩余1页未读，立即下载