OVE6D：基于深度的6D物体姿态估计的视点编码方法

165 浏览量更新于2023-10-25 收藏 1.77MB PDF 举报

深度学习方法

模型训练

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6803OVE6D：用于基于深度的6D物体姿态估计的物体视点编码DingdingCai1，JanneHeikkila？2，EsaRahtu11坦佩雷大学，2奥卢大学{dingding.cai，esa.rahtu} @ tuni.fi，janne. oulu.fi摘要本文提出了一个通用的框架，称为OVE6D，基于模型的6D对象姿态估计从一个单一的深度图像和目标对象掩模。我们的模型使用ShapeNet渲染的纯合成数据进行训练，与大多数现有方法不同，它可以很好地推广新的现实世界对象，而无需任何微调。我们通过将6D姿态分解为视点、围绕相机光轴的平面内旋转和平移，并引入新的轻量级模块以级联方式估计每个组件来实现这一点所得到的网络包含少于4 M的参数，同时在没有任何数据集特定训练的情况下，在具有挑战性的T-LESS和阻塞LINEMOD数据集上展示了出色的性能。我们表明，OVE6D优于一些当代基于深度学习的姿态估计方法，这些方法专门针对具有真实训练数据的单个对象或数据集进行训练。该实现可在https://github.com/dingdingcai/OVE6D-pose上获得。1. 介绍物体的6D姿态是指从物体坐标系到相机参考系的几何映射[18，22]。最常见的是，这种变换是根据3D旋转（对象方向）和3D平移（对象位置）来定义的。推断对象姿态的能力是许多与环境交互的应用的基本特征。例如，在机器人操作[10]和增强现实[30]中，需要姿势来抓取或逼真地渲染人造物体。在最近的工作中，物体姿态估计问题通常通过在物体3D模型和观测数据之间建立局部对应关系[16，17，36]或通过直接回归[6，39]来解决。在这两种情况下，推理模型通常针对每个对象实例进行优化和单独存储。随着对象实例数量的增长，这种方法很快变得难以处理。同时，一些现有的作品[49，59]考虑为多个对象构建单个模型。然而，为了保持图1. 我们提出了一个单一的通用姿态估计模型（称为OVE6D），该模型使用ShapeNet中的19，000多个合成对象进行训练。B）应用预训练模型以将目标对象的3D网格模型（在训练阶段期间不可见）编码到视点码本中。C）在推断时，OVE6D将深度图像、对象分割掩码和对象ID作为输入，并且使用对应的视点码本来估计目标对象的6D姿态通过简单地对相应的3D网格模型进行编码并将其包括到码本数据库中，可以添加新的对象（B）。性能，每次向数据库添加新的对象实例时，模型都需要昂贵的重新训练。此外，大多数性能最好的方法需要注释的真实世界的训练数据，这是费力获得。尽管一些作品[24，41，43]考虑在训练中使用合成示例，但由于域间隙，它们会遭受明显在[32]中提出了一种称为LatentFusion的替代方法在这项工作中，他们首先从一小组参考视图中重建潜在的3D对象模型，然后使用该模型从输入图像中推断相应对象的6D姿态最大的优势是6804一B图2. A）从以物体为中心的球体均匀采样的4，000个视点（仅显示上半球）。通过综合视点a（R γ）和b（R γ）处的三个例子，说明了绕摄像机光轴的面内旋转R θ i。B）使用t-SNE [47]的所提出的视点嵌入的图示，其中蓝色（可以观察到，嵌入对于平面内旋转是相对不变的，同时相对于相机视点而变化通过简单地生成新的潜在模型来添加新对象，同时保持所有网络参数不变。然而，该方法是计算昂贵的，因为它是基于迭代优化的推理时间。此外， La-tentFusion对输入数据中的遮挡非常敏感，导致性能显著下降。在本文中，我们提出了一种新的方法，称为OVE6D，从一个单一的深度图像和对象分割掩模估计6D对象的姿态我们进一步假设可以访问目标对象的3D网格模型类似于LatentFusion，我们的方法可以推广到新的对象，而无需对模型参数进行任何重新训练此外，与LatentFusion不同，该方法计算效率高，对输入数据中的遮挡具有鲁棒性。事实上，OVE 6D在Chal-Challing T-LESS数据集上获得了最新的最先进的结果[21]，甚至超过了专门针对该数据集优化的方法。所提出的方法包括三个阶段，如图1所示。首先（图1A），我们使用ShapeNet [4]数据集中的大量合成3D对象模型来训练模型参数。这一阶段是执行仅一次，并且所得到的参数在后面的阶段中保持固定其次（图1B），我们将目标对象的3D网格模型转换为视点码本。每个对象执行一次转换，每个实例大约需要30秒。最后（图1C），从输入深度图像和对象分割掩模推断6D姿态。完整的OVE6D模型包含不到4M个参数，大约需要50 ms来推断单个对象的姿态。新的，以前看不见的，对象可以通过简单地编码相应的3D网格模型，如在第二阶段中添加。OVE6D的核心是一个基于深度的对象视点编码器，它将对象视点捕获到特征向量中。编码的表示被训练为对于围绕相机光轴的平面内旋转是不变的，但是对于相机视点是敏感的，如图2所示。在推理时，我们首先利用视点编码来确定相机视点，随后估计在所获得的视点上的剩余姿态分量（相机平面内旋转和对象3D位置）。级联流水线允许每个子任务的紧凑架构，并使用数千个合成对象实现高效训练。总之，我们的主要贡献是：1）我们提出了一个级联的对象姿态估计框架，它generalizes到以前看不见的对象，而无需额外的参数优化。2)我们提出了一个视点编码器，鲁棒地捕捉对象的观点，同时是insensitive的平面内旋转围绕相机光轴。3)我们在T-LESS [21]上展示了新的最先进的结果，而没有使用数据集中的任何图像来训练我们的模型。2. 相关工作大多数基于RGB的物体6D姿态估计方法[1，20，33，35，36，38，44，57]试图在RGB图像中的2D坐标和物体3D模型表面上的3D坐标之间建立稀疏或密集的2D-3D6D姿态通过求解透视n点（PSPOT）问题来计算[28]。这些方法对于具有丰富纹理的对象实现了令人印象深刻的性能，提供了足够的局部特征以确定可靠的2D-3D对应关系。估计6D姿态的另一种直观方式是使用回归或分类直接预测姿态参数，诸如[3，24，46，54]。这些方法大多基于监督学习，并依赖于带有姿势注释的真实训练数据。然而，最近的自我监督方法[40-同样，我们在工作中也采用了自我监督学习，并纯粹在合成数据上训练我们的网络。6805∈∈一些基于深度学习的6D对象姿态估计方法仅使用深度数据。Gao等人[14]提出了CloudPose，它被称为第一个深度学习系统，它从对象深度图像创建的点云片段执行6D姿态回归。后来，Gaoet al.建议的CloudAAE[13]通过采用增强的自动编码器（AAE）[43]基于点云的架构来改进在合成深度数据上训练的网络的泛化。他们认为，合成图像和真实图像之间的域间隙要小得多，更容易填充深度信息。Bui等人[2]提出了一种多任务框架，将流形学习和直接从深度图像的3D方向回归相结合，以学习视图描述符。它被进一步利用来检索或回归3D姿势。Bui等人[2]与我们的工作最相似，但在这项工作中，我们将完整的3D方向解耦为用于检索的最近的方法StablePose [39]采用对象块的几何稳定性分析，并直接预测稳定组中的块姿态，以进一步确定对象的姿态，这在T-LESS数据集上实现了最先进的性能。从RGB-D数据进行姿态估计当RGB图像和深度图像都可用时，这两种模态的最直接利用是首先基于RGB图像执行初始姿态估计，然后使用深度图像进一步细化，例如通过ICP细化[19，41，42，54]。或者，基于2D-3D特征融合的方法[6，16，17，49，55]直接融合深度神经网络从RGB和深度数据中提取的深度这些方法充分利用了多模态输入，并在基准数据集上取得了很高的性能。Kehl等人[25]采用由CNN提取的RGB-D补丁描述符进行6D姿态投票，这忽略了对象的整体结构，并且容易遭受较差的局部纹理。相比之下，基于模板的方法[52，56]采用三元组丢失来从整个RGB-D图像中学习视图描述符，以通过最近邻搜索进行对象识别和3D姿态估计许多类别级6D对象姿态估计方法[5，7，8，45，51]最近出现，并通过假设类别内的所有实例共享相同的规范姿态和相似的形状，对同一类别内的未训练对象相比之下，实例级对象不可知方法LatentFusion [32]和MP编码器[41]不需要这种假设。LatentFusion [32]中的网络完全基于ShapeNet [4]呈现的合成数据进行训练，它能够生成当在测试时提供具有姿势注释的几个参考RGB图像时，可以对不同的真实世界数据集进行调整我们遵循LatentFusion [32]在ShapeNet上训练我们的网络。然而，OVE6D在训练或测试时不需要任何姿势注释。此外，DeepIM [29]可以在给定初始姿势时对未经训练的对象执行姿势细化3. 方法在本节中，我们将介绍我们的框架OVE6D，用于6D对象姿态估计。这里，我们假设对象ID是已知的，3D网格模型是可用的，并且提供了对象分割掩模。任务是预测从物体坐标系到相机坐标系的刚性变换。这种变换可以用旋转R SO（3）和平移t R3表示。旋转R可以进一步分解为平面外旋转（视点）Rγ和平面内取向（围绕相机光轴的旋转）Rθ，即，R=Rθ Rγ（见图2A）。补充材料中提供了更多细节。3.1. 概述OVE6D框架如图1、3和4所示。4. 在训练阶段，使用ShapeNet [4]中的合成3D对象优化模型参数接下来，用视点编码器模块构造对象视点码本（参见图5）。在推理时，我们以级联方式执行以下子任务。首先，使用输入的深度图像和对象分割掩模来计算初始位置估计，并应用于预处理深度图像（参见图3A）。第二，我们从对象视点码本中检索多个视点候选（见图2）。3B）。第三，我们相对于每个检索到的视点候选者回归平面内2D旋转，并获得一组完整的3D取向估计（参见图3C）。接下来，我们计算每个方向假设的一致性得分，并根据得分值输出一个（或多个）估计值（见图3D）。最后，基于所获得的3D方向来细化初始位置估计（参见图1B）。3E）。以下小节将进一步详细介绍模型组件和培训程序。3.2. 预处理首先，我们计算并从分割的输入深度图像D_M（通过深度图像和分割掩码M的逐元素乘法获得）中减去中值距离d_c。接下来，我们计算包围输入分割掩码的边界框的中心坐标（c x，c y），并将对象3D位置的初始估计形成为t init= K-1[c x，c y，dc]T，其中K为6806×λλ∗i=1×i=1×----我i=1KK--k=1关于我们--图3. OVE6D的推理流水线。整个系统以级联方式运行首先，将原始深度图像预处理为128 128输入（A）。其次，通过执行视点检索（B）、面内方位回归（C）和方位验证（D）来获得对象方位最后，使用所获得的取向和初始位置（A）来细化（E）对象位置图4A）。编码器参数被优化以根据余弦相似度对表示对进行排序，即，S（v，vθ）> S（v，vγ），其中S是余弦相似函数。因此，等效损失函数可以写为：vp= max（S（v，vγ）−S（v，vθ）+mvp，0），（1）图4. 训练网络。该模型包含三个子网络进行训练。特征图（z，zθ，zγ）首先通过共享的反向映射从渲染的深度图像中提取其中，mvp∈（0，1）是排名边际。训练后的视点编码器稍后用于为新的现实世界对象构建视点码本做为此，我们首先对N个视点{Ri}N进行均匀采样，骨骼网络，然后由对象视点En消耗编码器（OVE）头（A），面内方向回归（IOR）以物体为中心的球体，半径为i=1d半径=头（B）和方向一致性验证（OCV）头（C）。 z<$θ是由z通过旋转Rθ 变换而来的。fbase ddiameter，其中ddiameter是对象直径（从3D网格模型获得），fbase是距离因子（本文中为5）。然后合成无噪声深度使用采样视图渲染图像{Vsyn}N摄像机内禀矩阵最后，我们遵循LatentFu-points和对象的三维网格模型。最后，观点代表-根据估计的位置t_init来重新缩放和裁剪D_M，以产生128 128预处理的输入深度图像用于后面的阶段。3.3. 对象视点编码器视点编码器是一个轻量级神经网络，包括一个基于CNN的骨干（八个Conv2D + BN层）和一个编码器头FOVE（单个Conv2D、Pool和FC层）。编码器将预处理后的128 128深度图像作为输入，并输出具有64个元素的特征向量。该特征向量旨在对相机视点进行编码，但对围绕相机光轴的平面内旋转是不变我们使用ShapeNet渲染的深度图像训练视点编码器[4]。生成的样本被组织成三元组V、Vθ、Vγ，其中V和Vθ仅在平面内旋转方面不同（角度θ），并且Vγ从不同的相机视点渲染（角度γ）。深度图像进一步嵌入到特征表示中，使用视点编码器网络来生成{v，vθ，vγ}（参见从这些图像中提取（如第2.1.1节中所述进行预处理）。3.2），并与对象网格模型一起存储到码本数据库中，如图5所示。所生成的视点码本是包含对应的视点嵌入、旋转矩阵、网格模型和对象ID的集合Vi，Ri，N，O网格，O id。整个结构需要大约30秒，每个对象与N=4000视点样本。在推断时，首先使用视点编码器从预处理的深度图像Vreal中提取对象视点表示Vreal。然后，我们利用vreal来计算对应的视点码本（用已知对象ID索引）中的所有条目的余弦相似性得分选择在vreal和vknn之间具有最高相似性的条目v knn，R knn作为Vreal的最近视点.可选地，我们可以从码本中选择多个候选条目vknn，Rknn，K，以根据降余弦相似性得分获得K个视点假设的池，如图3B所示6807联系我们λλ∈KKK--pppKk=1pppKpθkk=1−图5. 视点码本构造。视点从以对象网格模型为中心的球体采样，该球体的半径与对象直径成比例。视点表示由视点编码器从渲染的深度图像中提取3.4. 面内方向回归一旦视点已知，就可以使用深度图像的2D旋转（对于正交相机是精确的）来近似围绕相机光轴的平面内旋转。为此，我们通过将回归头F IOR（一个Conv2D和两个concentive FC层）附加到与视点编码器共享的主干来构建回归网络。该模块将同一视点的一对具有不同平面内取向（视点内）的特征图z，zθR c× h × w作为输入，并回归相对平面内旋转角θ（表示为矩阵R θ），如图4 B所示。我们训练这个模块，以最小化由地面实况ro转换的深度图像候选对象和实际对象取向以Vreal描绘。与回归模块类似，验证模块通过将验证头FOCV（两个Conv2D层，一个Pooling和FC层）附加到共享主干来构建在训练时，我们采用了基于排序的损失来优化这个模块。如图4C所示，首先使用平面内旋转对特征图z进行空间变换，即，zθ=TRθ（z）其中TRθ是空间变换，[23]第23话，然后，我们沿着特征通道维度i分别将zθ与zγ和zθ连接起来。例如，[z<$θ;zγ]和[z<$θ;zθ]，其中[;]表示级联，将它们转换为FOCV，以产生一致性得分sγ，sθ。等效损失函数可以写为，并给出了矩阵Rθ和预测的Rθ。在这里，我们用一个负对数余弦相似性来衡量差异，css= max（sγ-sθ +mcss，0），（3）credit，写作为Scos=S（F（TRθ（V）），F（TRθ（V）），（二）其中，mcss（0，1）是排名余量。在推理过程中，我们将特征图zknn，从检索的视点，使用估计的θ= − log（（1. 0 + S cos）/2。0），θ其中F是指展平操作，TRθ二维空间变换[23]，代表面内旋转Rk并将其馈送到验证头Fcss以及来自观察到深度图像，如图3D所示这样，我们就可以-视点深度图像Rθ，V是为每个3D方向假设获得一致性分数在推理时，我们首先使用共享主干真正的knnesis。根据估计的分数，我们对所有的hy-假设{Rest}K按降序排列，并选择顶部网络以提取特征图对{z，zk }，从k k=1东部山口- 预处理的深度图像对Vreal，Vknn，其中Vknn是使用检索到的视点Rknn的合成深度图像。接下来，回归模块采用特征图对来估计相对2D旋转矩阵R θ=F rot（zreal，zknn）以产生完整的3D方位。P∈ [1，K]方向建议{R p}p=1作为输出。3.6.位置细化我们进一步完善的初始位置估计tinit的基础上获得的三维方向。具体来说，我们首先是syn-K Kestθknn. 此外，在-使用对象网格模型来确定深度图像D的大小通过Rk=RkRk估计可以同时执行p而《易经》中，|t init]，其中R est是3D方向对于几个检索到的视点，以获得多个3D方位-在第3.5节中获得。接下来，我们估计3D中心-假设{Rest}K，如图3C所示。3.5. 方向一致性验证多个完整的3D方向假设{Rest}K- 深度图像Dest中的对象的troidtsyn，如第3.2节中所述。此外，我们计算偏移t′ t= t initt syn，其可以被视为由对象在当前取向R est中的自遮挡引起的位置偏移。我们假设t′近似等于可以从前面的模块中导出，如p中所述第3.4节。为了对候选人进行排名，我们采用了一个方向验证模块，该模块估计候选人之间的一致性。到tt t=test-tinit，这允许我们获得对象的最终3D位置估计test= 2tinit-tsyn，6808pBS×××∼pi=1ppMppMBS1我2我3我第p个方向建议，如t est− t init= t init− t syn。3.7. 姿势假设选择和细化如在先前部分中所呈现的，我们可以获得多个定向提议，其中的每一个导致一个姿势假设。我们为每个姿势假设计算以下质量度量，01-02|Ds yn−D|>0。（4）其中I表示指示函数，DM是分割的对象深度图像（在第2节中获得）。Dsyn是具有姿态假设的渲染深度图像{Res t|tes t}，mp是属于p psynD p中的物体，d是目标ob的直径。ject和qp表示异常像素的比率的在{qp}P中具有最低qp值的姿势假设是选择为最终输出姿势。p=1此外，可以使用迭代最近点（ICP）算法ICP [9，58]来可选地细化所获得的姿势ICP细化可以在姿势假设选择之前或之后完成，如实验中所示。3.8. 组合损失函数整个网络由具有三个头分支的单个共享骨干组成，并以端到端的方式进行训练。总的训练损失是L=1<$（λ<$vp+λ<$css+λ<$θ），（5）我其中bs是批量大小，λ1、λ2和λ3是权重表1.在T-LESS上进行评估。我们报告平均VSD召回。表示在选择之前对所有姿势提议执行的ICP细化。我们用粗体突出显示每组的最佳表现。MRCNN和GT分别表示使用Mask-RCNN提供的掩码和地面真值。对象，并形成大小为128的训练批。Pyrender [31]库用于从这些采样中合成相应的深度图像观点。与[32]类似，我们使用数据增强技术-以提高网络的泛化能力。补充材料中提供了更多细节参数在我们的实验中，我们设置了排名标志-gins m vp=m css=0. 1和权重λ1=100，λ2=λ λ10，λ3=1。3.9. 实现细节我们使用PyTorch [34]框架实现该方法，并利用Adam solver [26]，余弦退火学习率从1 10−3到1 10−5，权重衰减1 10−5，在单个Nvidia RTX3090 GPU上训练50个epoch（大约三天）。训练数据我们的训练数据是从公共3D形状数据集生成的[4]。在LatentFusion [32]之后，我们排除了大型对象以实现有效的数据加载，并在原始52，274个形状上获得了19k个形状。对于每个对象，我们首先随机抽取16个锚点视点4. 实验数据集OVE 6D在三个公共基准数据集上进行评估：LINEMOD [18] ， Occluded LINEMOD [1] 和 T-LESS[21]。LINEMOD（LM）是目前最流行的单物体6D姿态估计数据集之一，它包含了杂乱场景中13个无纹理家居物体的RGB-D图像和3D物体模型。我们按照以前的工作[44，49]构建测试集。我们注意到LINEMOD的训练集完全忽略，因为OVE6D完全使用ShapeNet训练被遮挡LINEMOD（LMO）是LINEMOD的子集，用于多对象6D姿态估计，并且在具有严重遮挡的1214个测试图像中包含八个注释的对象T-LESS{Ri}16分布在以物体为中心的球体上。是一个具有挑战性的数据集，包括30个无纹理和对称，接下来，我们分别应用一个随机的平面内旋转Rθ度量的工业对象具有高度相似的形状。的我（θγ γRi Ri）和针对每个锚点视点的随机平面外旋转Ri（RiRi），这导致针对单个对象的一批视点三元组。我们随机选择八个在PrimeSense测试集上进行评估，我们按照BOP挑战[22]中指定的协议报告每个类别单个对象的结果。一般化列车数据方法输入ICPVSD（%）[33]第三十三话RGB29.5单个训练对象实数（+Syn.）PVNet [36]PPFNet [11][37]第三十七话[39]第三十九话RGBDDD40.449.054.073.0Syn.AAE [43]RGB19.3只AAE [43]RGBD✓68.6多训练对象实数（+Syn.）[27]第二十七话[49]第四十九话[25]第二十五话RGBRGBDRGBD63.810.0✓24.6Syn.[41]第四十一话RGB20.5只[41]第四十一话RGBD✓69.5-DrostPPF [12]D57.0[48]第四十八话D72.0[32]第三十二话RGBD–通用对象Syn.只OVE6D（GT）OVE6D（GT）OVE6D（MRCNN）DddD85.1✓89.0✓91.069.46809一般化列车数据方法输入ICPADD（-S）（%）PVNet [36]RGB42.4单个训练对象实数（+Syn.）PVN 3D [17]FFB6D [16]PVNet [36]RGBDRGBD63.266.2✓79.0多训练对象房+Syn.[54]第五十四话PR-GCN [59][54]第五十四话[13]第十三话[13]第十三话RGBRGBDRGBDDD24.965.0✓78.058.9✓66.1Syn.只[14]第十四话[13]第十三话[13]第十三话DDD✓44.257.1✓63.2通用对象Syn.只LatentFusion [32]OVE6D（GT）OVE6D（GT）超声波OVE6D（MRCNN）OVE6D（MRCNN）OVE6D（MRCNN）RGBDDDDDDD-70.9✓80.0✓82.556.1✓70.3✓72.8表2.对LINEMOD的评价。我们报告平均ADD（- S）回忆。我们用粗体突出显示每组的最佳表现。表示在选择之前对所有姿势建议执行的ICP细化MRCNN和GT分别表示使用Mask-RCNN提供的掩码和地面真值。分割掩码对象分割掩码是所提出的姿态估计方法的输入之一。在实验中，我们使用来自Detectron 2的 Mask-RCNN [15]的现成实现来获得掩码[53] I'm sorry.我们使用从对象模型生成的大量合成图像来训练Mask-RCNN我们使用Mask-RCNN提供的类标签作为实验中的对象ID。此外，我们还报告了地面真实分割掩模的结果。我们遵循先前的工作[19，41，42]，并根据两个标准的6D姿态估计度量ADD（-S）[19，22]（用于LM和LMO）和VSD [22]（用于T-LESS）报告结果。请参阅[19，22]了解更多详情。此外，如果没有另外说明，我们使用N=4000、K=50和P=5用于OVE 6D。4.1. 与最新技术水平的我们使用流行的 T-LESS ， LINEMOD 和 OccludedLINEMOD数据集将OVE 6D与最近的（主要是基于学习的）姿势估计作品进行我们将这些方法按泛化程度分为三大类。第一组和第二组中的方法分别为每个单独的对象训练单独的模型或为多个对象训练第三组包括不需要任何特定于机器人的训练的方法，除了获得目标物体的3D模型。我们进一步将这些组分为使用表3. 闭塞LINEMOD的评价。我们报告了平均ADD（-S）和VSD召回。图2描绘了在选择之前对所有姿势提议执行的ICP细化。我们用粗体突出显示每组的最佳表现。MRCNN和GT指示分别使用Mask-RCNN和地面实况提供的掩码。在模型训练期间的真实和/或合成数据。值得注意的是，OVE6D和LatentFusion属于第三类，仅使用合成数据进行训练。T-LESSOVE 6D和基线方法的结果在表1中以VSD度量报告。我们没有报告LatentFusion的结果，因为它由于闭塞而表现不佳。请注意，所有其他基于学习的方法都是在 T-LESS 数据集上训练的，而 OVE 6D 是在ShapeNet上训练的。尽管如此，OVE6D仍然达到了最先进的性能。特别是，OVE 6D与ICP相比，最近的最先进方法StablePose [39]的改善幅度明显为1。8%，尽管StablePose使用带有姿势注释的真实示例为每个对象训练单独的模型。基于非学习的VidalPPF [48]也表现良好，但该方法在计算上是昂贵的。此外，OVE6D实现了91%的召回时，使用地面真理面具，表明性能提高与更好的分割面具的潜力。结果表明，OVE6D特别适用于无纹理和对称的工业对象。LINEMOD和闭塞LINEMODLINEMOD（LM）和闭塞LINEMOD（LMO）数据集的结果分别报告在表2和表3中。除了OVE6D和LatentFusion [32]之外，所有方法都是专门针对LM数据集进行训练的LatentFusion一般化列车数据方法输入ICPADD（-S）（%）单个训练对象实数（+Syn.）[50]第五十话G2LNet [6]PVN 3D [17]FFB6D [16]RGBDRGBDRGBD86.998.799.499.7Syn.只[50]第五十话AAE [43]SSD6D [24]RGBDRGBD40.1✓71.6✓90.9多训练对象实数（+Syn.）[49]第四十九话PR-GCN [59][13]第十三话[13]第十三话RGBDD94.399.686.8✓95.5Syn.只[14]第十四话[13]第十三话[13]第十三话DDD✓75.282.1✓92.5通用对象Syn.只LatentFusion（GT）[32] OVE6D（GT）OVE6D（GT）超声波OVE6D（MRCNN）OVE6D（MRCNN）OVE6D（MRCNN）RGBDDDDDDD87.196.4✓98.3✓98.786.1✓91.4✓92.46810图6.OVE6D子模块的评估。使用LINEMOD数据集的视点检索（左）、平面内方向回归（中）和位置细化（右）模块的不同误差阈值的精度值由于LMO严重闭塞，仅报告了LM的结果。一般来说，基于RGBD的方法，用真实世界和合成数据训练，达到最佳性能（例如，使用FFB6D [16]对LM的召回率为 99.7%，使用 PVNet [36]对LMO 的召回率为79.0%然而，OVE6D获得了有竞争力的结果，特别是与纯合成数据训练的方法相比。在没有ICP细化的情况下，OVE6D对LM和LMO的召回率分别为86.1%和56.1%。此外，具有ICP的OVE6D在LMO上的召回率此外，与在ShapeNet上训练的另一种通用模型Latent-Fusion [32]相比，OVE 6D在LM上获得了更好的结果，其清晰的边缘为9.3%（96.4% vs. 87.1%），而在姿势估计中仅依赖深度信息。4.2. 另外的实验参数配置 OVE 6D 中的主要参数是视点的采样数（N）、视点候选的检索数（K）和定向建议的数目（P）。我们研究了这些参数值如何影响性能，并观察到该方法在广泛的不同设置范围内相对稳定我们发现N=4000，K=50，P=5是准确性和效率之间的良好折衷详细结果见补充材料。视点检索图6（左）说明了使用LINEMOD数据集上的估计和地面实况分割掩模在多个阈值上的视点检索模块的性能。在这个实验中，我们只考虑一个单一的，得分最高的姿势假设。我们注意到，已经有70%的病例检索的准确率高于10%。此外，合成数据和真实数据之间的差距相对较小，表明尽管存在领域差距，但具有良好的平面内定向估计平面内旋转模块的结果在图6（中间）中示出。给定的观点，检索与预测的面具，我们达到了73%的精度在10毫秒的误差阈值与一个单一的向前通过，并进一步提高到80%与ICP细化。我们还注意到，通过使用地面实况视点，即使没有ICP，精度也可以进一步提高90%以上。位置细化图6（右）说明了所提出的非参数位置细化模块的性能。我们观察到，在10mm的误差容限下，改进可以将精度从初始估计的13%提高到60%，并且与ICP改进一起进一步提高到81%因此，所提出的细化模块明显地改善了具有或不具有ICP细化的翻译估计。使用Nvidia RTX 3090 GPU和AMD 835 Ryzen 3970 XCPU，OVE 6D的完整姿态推断需要大约50 ms/对象。在com-然而，LatentFusion需要大约20秒，每个对象100次反向传播迭代。5. 讨论、局限性和结论在这项工作中，我们提出了一个称为OVE6D的模型，用于以级联方式推断对象的6D姿态。该模型使用大量合成3D对象进行训练，并使用三个具有挑战性的真实世界基准数据集进行评估结果表明，该模型可以很好地泛化到看不见的数据，而无需任何参数优化，这大大简化了新对象的添加，并支持具有数千个观测值的用例。这种方法的主要限制包括对对象3D网格模型和实例分割掩模的要求，这可能并不总是容易获得。6811引用[1] Eric Brachmann、Alexander Krull、Frank Michel、StefanGumhold、Jamie Shotton和Carsten Rother。使用3d对象坐标学习6d对象姿态估计。在欧洲计算机视觉会议上，第536Springer，2014. 二、六[2] Mai Bui，Sergey Zakharov，Shadi Albarqouni，SlobodanIlic，and Nassir Navab.当回归遇到流形学习时，用于对象识别和姿态估计。2018年IEEE机器人与自动化国际会议（ICRA），第6140-6146页IEEE，2018年。3[3] 雅尼克·巴克夏和马库斯·维特。Efficientpose：一种高效，准确和可扩展的端到端6D多对象姿态估计方法，2020年。2[4] 天使XChang，Thomas Funkhouser，Leonidas Guibas，Pat Hanrahan ， Qixing Huang ， Zimo Li ， SilvioSavarese ， Mano-lis Savva ， Shuran Song ， Hao Su ，Jianxiong Xiao，Li Yi，and Fisher Yu.ShapeNet：一个信息丰富的 3D 模型库。技术报告 arXiv ： 1512.03012[cs.GR]，斯坦福大学-普林斯顿大学-芝加哥丰田技术研究所，2015年。二三四六[5] Dengsheng Chen，Jun Li，Zheng Wang，and Kai Xu.学习规范形状空间，用于类别级6d对象姿态和大小估计。在IEEE/CVF计算机视觉和模式识别会议论文集，第11973-11982页，2020年。3[6] Wei Chen，Xi Jia，Hyung Jin Chang，Jinming Duan，and Ales Leonardis.G2 l-net：用于嵌入向量特征的实时6D姿态估计在IEEE/CVF计算机视觉和模式识别会议论文集，第4233-4242页，2020年一、三、七[7] Wei Chen，Xi Jia，Hyung Jin Chang，Jinming Duan，Linlin Shen，and Ales Leonardis. Fs-net：快速基于形状的网络，用于类别级6d对象姿态估计，具有解耦旋转机制。在IEEE/CVF计算机视觉和模式识别会议论文集，第15813[8] Xu Chen，Zijian Dong，Jie Song，Andreas Geiger，andOtmar Hilliges.通过神经合成分析的类别级对象姿态估计。欧洲计算机视觉会议，第139-156页Springer，2020年。3[9] 杨晨和杰拉德·梅迪奥尼。用多幅深度图像的遥感进行目标建模图像与视觉计算，10（3）：145-155，1992. 6[10] Alvaro Collet ， Manuel Martinez ， and Siddhartha SSrinivasa.轻便摩托车框架：对象识别和姿势估计操作。国际机器人研究杂志，30（10）：1284-1306，2011。1[11] Haowen Deng，Tolga Birdal，and Slobodan Ilic. Ppfnet：全局上下文感知局部特征，用于鲁棒的3d点匹配。在IEEE计算机视觉和模式识别会议论文集，第195-205页，2018年。6[12] Bertram Drost Markus Ulrich Nassir Navab 和 SlobodanIlic。全局建模，局部匹配：高效、鲁棒的3D物体识别。2010年IEEE计算机学会授予-计算机视觉和模式识别，第998- 1005页。IEEE，2010年。6[13] 高戈，米科·劳里，胡晓林，张建伟，和西蒙娜·弗伦特洛普。Cloudaae：通过点云上的在线数据合成学习6D对象姿态回归。arXiv预印本arXiv：2103.01977，2021。三、七[14] Ge Gao ， Mikko Lauri， Yulong Wang ， Xiaolin Hu ，Jianwei Zhang，and Simone Frintrop.通过点云上的监督学习进行6D对象姿态回归。2020年IEEE国际机器人与自动化会议（ICRA），第3643-3649页。IEEE，2020年。三、七[15] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页7[16] Yisheng He ， Haibin Huang ， Haoqiang Fan ， QifengChen，and Jian Sun.Ffb6d：一个用于6D姿态估计的全流双向融合网络在IEEE/CVF计算机视觉和模式识别会议论文集，第3003一、三、七、八[17] Yisheng He， Wei Sun，Haibin Huang，Jianran Liu ，Haoqiang Fan，and Jian Sun.Pvn3d：一个用于6dof姿态估计的深度逐点3d关键点投票网络。IEEE/CVF计算机视觉和模式识别会议（CVPR），2020年6月。一、三、七[18] Stefan Hinterstoisser、Stefan Holzer、Cedric Cagniart、Slobodan Ilic、Kurt Konolige、Nassir Navab 和VincentLepetit。多模态模板用于在严重杂乱的场景中实时检测无纹理物体。 2011 年国际计算机视觉会议，第858IEEE，2011年。1、6[19] Stefan Hinterstoisser，Vincent Lepetit，Slobodan Ilic，Ste- fan Holzer ， Gary Bradski ， Kurt Konolige ， andNassir Navab.

下载后可阅读完整内容，剩余1页未读，立即下载