6DoF目标位姿估计：从图像到3D的对应关系的精确预测和匹配

147 浏览量更新于2023-10-25 收藏 1.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6738…ZebraPose：用于6DoF物体姿态估计的粗到细表面编码苏永志酒店1，2*马赫迪萨利赫酒店3*Torben Fetzer2杰森·兰巴赫1Nassir Navab3Benjamin Busam3迪迪埃·斯特里克1，2Federico Tombari3，41德国人工智能研究中心（DFKI）2德国工业大学3TechnischeUni versit aétMünchen 4Google{yongzhi.su; jason.rambach; torben.fetzer; didier.stricker}@ dfki.de{m.saleh; b.busam; nassir.navab}@ tum.de，tombari@in.tum.de摘要建立从图像到3D的对应关系一直是6DoF目标位姿估计的关键任务。为了更准确地预测姿势，深入学习的密集地图取代了稀疏模板。密集的方法也改善了存在遮挡的姿态估计。最近，研究人员已经显示出通过学习对象片段作为分割的改进在这项工作中，我们提出了一个离散的描述符，它可以密集地表示物体通过结合分层二进制分组，我们可以非常有效地编码对象表面此外，我们提出了一个由粗到细的训练策略，使细粒度的对应预测。最后，通过匹配预测代码与物体表面，并使用PADOF求解器，我们估计6DoF位姿。在公共LM-O和YCB-V数据集上的结果显示出与现有技术相比的重大改进。ADD（-S）度量，在某些情况下甚至超过基于RGB-D的方法。1. 介绍增强现实和机器人技术是三维计算机视觉的两个主要应用领域。在许多增强现实应用中，必须以高精度确定感兴趣对象的位置和姿态[45，54]。类似地，许多机器人应用（例如，自动制造[50]、合作协助[9，21]），并且还要求精确的6自由度（6DoF）对象姿态信息。作为这两个应用领域中的关键元素，估计6DoF对象姿态已经受到计算机视觉研究界越来越多的关注对应问题是一个经典的问题*作者对本文贡献相同代码：https://github.com/suyz526/ZebraPose3D分层分组0110对象CAD模型二进制编码图1. ZebraPose分层地为每个曲面顶点分配离散代码。我们将代码投影为二进制黑白值（顶部），并使用深度神经网络学习它们。我们的二元描述符允许一对一的对应关系的问题，6DoF对象构成有效。计算机视觉虽然跨相同域找到对应关系更直接，但估计6DoF对象姿态需要2D-3D对应关系。在早期的物体姿态估计研究中，深度图有助于将图像像素与3D表面点匹配[28，64]。由于成本和设置复杂性，在没有深度信息的情况下检测6DoF姿态可能是有利的。然而，RGB方法通常相对于其基于深度的对应物实现较低的准确度[16，26]。在深度学习和卷积神经网络（CNN）的最新发展的推动下，提出了各种方法，这些方法从单个RGB图像可行[10，34，53，61，69]。在基于对应关系的设置中，为了估计对象姿态， Perspective-n-Points（PSPs）算法需要至少4个2D- 3D点匹配[38]。因此，稀疏方法是ap-6739[47]第52话，你的兴趣。然而，这样的方法可能无法在视点改变、遮挡或缺乏纹理的情况下找到对象界标。随着深度神经网络在图像合成问题中的应用，研究人员使用这些工具来生成密集的对应映射。例如，几种方法学习对象局部坐标中的UV [71]或UVW [48，67由于网络产生密集平滑的结果，某些低层次的几何学丢失了此外，神经网络往往在分类任务中实现更高的性能[34]。为此，我们提出了一个密集的对应管道，结合手工制作的功能和图像分割的概念，在一个层次的方式为RGB为基础的6DoF姿态估计。为了设计一个有效的表面编码描述符，我们使用二进制数字系统。基于二进制的描述符应用于ORB [56]中，并且仍在鲁棒SLAM应用中使用[12]。在我们的工作中，我们在多次迭代中将表面分成两半，并通过堆叠分配的组标签来定义我们的顶点编码。通过利用分层离散表示，我们保证了作为多标签分类问题的紧凑映射和简单学习目标[29，34]。此外，学习如何一次编码完整序列可能对神经网络具有挑战性。因此，我们提出了一个粗到精的学习方案。通过设计，我们的编码在粗糙的水平上被连续地共享在更宽的对象区域中。当网络学习区分粗分裂时，我们专注于更精细的编码位置。通过从粗到细的损失和训练策略，我们可以预测细粒度的表面对应关系。与以前的作品相比，没有保证假定的对应关系[48，49，67]，我们的编码仅通过查找表直接进行像素到表面的匹配。通过简单的匹配和PnP-RANSAC渐进-X方案 [2]，我们在最常用的基准测试中在6DoF姿态方面优于现有w.r.t. ADD（-S）度量。总之，我们提出了ZebraPose，这是一种基于RGB的两阶段方法，它将密集的2D-3D对应的匹配定义为分层分类任务。我们将6DoF目标姿态估计的一般两阶段方法分为三个部分：1）为3D顶点分配唯一的描述符;2）预测2D像素和3D顶点之间的密集对应; 3）使用预测的对应来求解对象姿态。我们可以在本文中总结我们提出的与前两个组件相关的贡献：• 提出了一种新的由粗到细的表面编码方法，该方法有效地提取了稠密顶点描述子，并充分利用了计算机视觉中常用的孤立点滤波器• 一种新的分层训练损失和策略，以自动机械地调整每个代码位置的权重。在LM-O [3]和YCB-V [11]数据集上的大量实验表明，我们提出的方法达到了最先进的结果。2. 相关工作我们将对相关工作的深入讨论限制在与我们的工作最相关的方法上，即基于RGB的6DoF姿态估计和对象表面编码技术。2.1. 基于RGB的6DoF位姿估计传统方法。随着特征描述符[42]的发展，可以通过将估计的2D-3D对应关系馈送到RANSAC/PRANSAC框架中来解决对象姿势问题。然而，处理无纹理物体仍然是一个挑战 . 为了克服关键点的缺乏，Hinterstoisseret al. [25]提出了利用图像梯度信息并在模板匹配流水线内制定姿态估计任务。后来的进展[5]通过应用基于统计学习的框架来联合回归对象坐标和对象标签，避免了模板搜索时间然而，手工方法所能达到的准确性与现在的深度学习方法相去甚远。端到端方法。PoseNet [35]是第一个尝试用CNN回归相机视角以下工作通常将对象检测器与姿态回归连接起来，使多对象姿态估计成为可能[69]。找到一个合适的旋转表示的姿态回归是一个问题，在当时和典型的旋转参数化没有填充欧几里德空间[8]。SSD6D [34]通过旋转空间的离散化避免了复杂的参数，因此将旋转估计视为分类问题。Zhou et.al [73]提出了一种连续的6维旋转表示法，该表示法优于四元数[43，44]或李代数[20，60]用于神经网络训练的参数化这种表示法被用于几个直接回归工作[19，37，66]。与此同时，已经做出了一些努力来集成RANSAC和PSTK模块来提出学习框架。[4，6，7]提出了可微分RANSAC变体，其不适用于对象姿态估计，因为它们需要良好的初始化和复杂的训练策略。[30]提出了一种网络来解决Pests问题，其损失函数反映了姿态度量。与此同时，随着神经渲染器的发展，已经开发了一个新的方法分支[15，33，41]。[32]能够根据像素级上的纹理颜色来定义损失[58，65]使用了可区分的深度图，并利用未标记的RGB-D数据实现了自监督网络微调为了将基于对应的方法与直接回归相结合，6740∈∈·∈{}∈{−}RR6DoF参数[66]使用对应映射作为中间几何表示来回归姿态。[19]通过采用自遮挡信息进一步增强[66]，该自遮挡信息提供更丰富的信息以预测具有预测的2D-3D对应性的深度学习的间接方法。虽然端到端方法已经通过集成不同的模块而随着时间的推移而发展，但是这种方法的性能通常低于几何方法和间接方法。结合学习特征和几何拟合，[68]使用metric学习通过三元组丢失来学习隐式姿势表示AAE [61]学习基于离散视点中对象的视觉信息生成潜在向量。在推断阶段，通过将潜在代码与预先生成的旋转潜在代码查找表进行比较来获得旋转。其余的间接方法通常估计2D-3D对应关系，并使用RANSAC/PSNR求解对象位姿。BB8 [52]首先将3D对象边界框角定义为关键点，PVNet [49]通过对对象上的采样关键点进行密集像素投票来预测关键点，从而在LM [27]数据集中达到高召回率这种稀疏2D-3D对应方法的主要缺点是遮挡区域中的关键点的预测缺乏准确性。混合姿态[59]提出利用多个几何信息来解决这个问题，而其他方法[29，48，71]预测像素密集的2D-3D对应。2.2. 表面编码二进制表面编码技术已经成功地用于结构光重建领域多年[46，51，57，63]。为此，视频投影仪照亮现场与几个连续细化二进制条纹图案。不同条纹图案的组成提供了表面点的编码。使用多个分类问题的表面编码已被证明是高度可靠和有竞争力的[22]。由于神经网络非常适合解决分类问题，因此我们在这项工作中提出的方法的转移构成了一个合乎逻辑的步骤。在位姿估计领域，为了估计密集的2D-3D对应，每个3D对应点必须被指定为唯一的描述符。Pix2Pose [48]简单地将3D顶点坐标视为此描述符。DPOD [71]使用具有离散值的2通道UV贴图来纹理化对象EPOS [29]将物体表面划分为多个碎片，并通过结合碎片分割和局部碎片坐标预测来估计对应点。虽然大多数这些编码仅限于本地对象坐标，我们提出了一种方法，通过手工代码学习密集的2D-3D correspondence。方法相比预测2D或3D网格中的局部坐标空间[67，71]，我们以从粗到细的方式对物体表面进行编码。此外，与EPOS[29]一次将物体表面划分为多个粗面元不同，我们迭代地划分物体表面，直到碎片足够精细以定义唯一的3D对应点。这允许通过层次级别逐渐改进对应关系。3. 方法：ZebraPose在本节中，我们将介绍我们解决6DoF对象姿态问题的方法，其中涉及从表面编码到最终姿态估计的整个过程3.1. 从粗到精的表面编码给定一个物体的表面CAD模型及其顶点viR3，其中i代表顶点id，我们想用顶点代码ciNd表示每个vi，其中d是顶点代码的长度。我们需要基于顶点相对于给定3D对象表面的位置来定义这种编码，以实现从粗略到精细的为了实现这一点，我们在非十进制数字系统中构建代码。在具有较低基数的数字系统中定义我们的编码使得表示非常有效，并且为点的粗到细分组提供了更容易的基础对于长度为d的代码，我们执行d次顶点分组迭代。在第j次迭代（j）中群G j的集合0，…DN）由rj群组成。去-对初始组进行罚款，仅包括一个组，即的整个对象顶点。Gj（j >1）是将Gj−1中的每个群分裂为r个群而得到的。在分组迭代中，每个顶点vi被分配一个类id m i，j，其中m i，j0，…R1N基于其在第j个分组中所属的组。最后，通过堆叠每个分组操作的类ID，将每个顶点分配给具有d位数的顶点代码。该表示对于每个3D对象被存储和固定。每个组中的顶点共享相同的代码。我们构建查找表以将代码映射到Gd中的每个组的质心，其进一步用于构建2D-3D对应关系并求解姿态，如在Sec. 三点六在本文中，我们使用k-means进行分组，更多细节请参见第二节。4.1. 我们在图中说明了这个过程。2，其中r=2，并将CAD模型表面分解为离散且大小相等的组。3.2. 顶点编码基的选择根据我们在SEC中描述的分组。3.1，我们将有K个类的总数，其中K=rd。在分类问题中，我们使用ologits学习这些映射，其中o=r d。为了最小化输出的数量，同时学习我们拥有的最多类：o min= min r·d = min r·log r K = 2·log2K。（一）6741×0原始网格2014��裁剪出的ROI3D表面代码表预测的码，3D表面代码生成代码预测和6DoF姿态估计图2.左：我们的分层编码是通过在几次迭代中对曲面顶点进行分组来定义的在每次迭代中，对象顶点被分割成大小相等的组。在二进制设置中，顶点分为两组，0（白色）和1（黑色）。该过程离线发生，并且顶点代码和对应的3D顶点之间的生成的映射被存储在查找表中。右图：我们的训练框架使用检测器来裁剪对象ROI，并使用完全卷积神经网络预测多层代码然后，将预测的代码与3D表面顶点匹配，并传递到RANSAC和PSTK模块进行姿态估计。最小化网络层数的最佳正整数r选择为2和4。由于值被分类为正或负，因此我们不需要使用具有2个显式输出层的交叉熵损失来进行二进制分类。因此，我们可以达到log2K作为r=2时的最佳输出层数。除了减少GPU内存需求的优势外，我们将在后面的消融研究中展示（见第2节）。4.2）使用二进制顶点代码产生最准确的预测姿态。因此，我们选择一个二进制基地的顶点代码。3.3. 渲染培训标签图像中的每个对象像素对应于3D对象顶点。网络预测在每个分组操作中分配给该顶点的类id。因此，我们仍然需要将class id渲染到具有给定姿势的2D图像平面中进行训练。为此，我们使用以下标准将顶点的类ID转换为网格面的类ID：如果一个面的两个顶点具有相同的类ID，则该面被分配有这个类ID。否则，面具有其第一个顶点的类ID。我们重复该渲染过程d次，直到生成每个分组的训练标签类id。3.4. 网络架构节中3.2我们证明我们选择r=2是正确的。在这方面，我们的目标是分类的二维区域只有d二进制值。在训练过程中，我们使用对象姿势注释来将标签渲染为到图像坐标的分层黑白地图。这样，我们的目标学习映射是d+1个二进制标签（d表示二进制顶点代码，1表示对象掩码），用于代码和可见掩码预测。一个编码器-解码器网络用单个解码器产生D+1个输出。我们将最终的输出概率四舍五入，以表示我们的离散顶点代码。从输入图像到预测姿态的整个过程如图所示。二、为了以精细的粒度预测帧中每个像素的代码，我们只处理对象像素周围的感兴趣区域遵循类似于[37，40，66]的流水线，我们专注于对象姿势并使用可用的2D检测器预测来找到ROI。我们将ROI从预测中裁剪并调整大小为固定尺寸H W，并在训练期间将确切的过程应用于目标顶点代码图。我们的目标是预测ROI中每帧的多个标签。3.5. 层级学习直接从对象像素预测对应关系是一项细粒度的任务。另一方面，深度神经网络通常用于粗略的预测。这意味着每个像素预测的特征在小的邻域中非常相似由于我们的编码也是分层设计的，我们以从粗到细的方式学习代码。因此，预测是在不同的阶段学习的，从粗分组到细分组。我们在层次级别上为每个位置使用误差直方图，并在给定误差的情况下对我们基于汉明的损失进行加权以设计。面罩丢失。首先，我们预测的可见光掩模分割的对象区域从背景中。在这里，我们简单地将预测概率传递给sigmoid函数，并使用L1 loss作为L掩码。值得注意的是，对于下面的二进制顶点代码预测，我们仅计算预测对象掩码内的像素的损失。汉明距离：CNN输出R OI内的pixel的二进制ver-t e x代码概率p∈Rd，我们312D检测器匹配+PAPER…26742ΣJ−Jbj）+（1JJD通过四舍五入获得预测的离散二进制码pb。在已知的实值二进制Vertexx码b和它的已知实值二进制Vertexx码b的情况下，汉明距离Hamm是通过对不同于b的比特位的数目Hamb进行计数来定义的。该公式不支持任何位置，并且在计算误差时不考虑任何分层信息解释。作为深度学习中的常见做法，我们使用二进制交叉熵作为距离的激活函数：DHamm（b，p）=bjlogpj+（1−bj）logg（1−pj），（2）j=1其中bj代表b中的第j位（第j位是在第j个顶点分组中生成的活动位。二进制顶点代码b中的较低位保持粗略的对应，并且较高位定义更精细的估计。在初始训练阶段，网络专注于学习粗分裂，并在细比特上具有较高的误差因此，我们通过查看所有比特的误差直方图来自适应地对粗比特进行加权。随着训练的进行，粗预测变得更加鲁棒，更精细的比特被引入更多的权重。我们在训练步骤t通过查看不同位的错误来定义我们的H（t）=avg（λ（bt−t−λ）（bt−1−bt−1）），（3）其中，b_t定义预测的二进制顶点代码b_t训练CNN的损失。我们用超参数α（对于预测为背景的像素，α设置为0）对L掩码和L掩码进行加权，每个像素的总损失可以用数学表示为Ltotal=Lmask+α·L。（六）3.6. 姿态估计在前面的部分中，我们讨论了如何生成描述符并学习使用全卷积神经网络来预测它们。现在，我们结合预测代码和可见掩码以及参考3D模型编码来匹配对应关系。不同于常见的稠密对应，如[48，66，67]，这种紧凑的表示也使表面顶点和描述符空间之间的双射对应成为可能。这意味着，不像可以离开对象表面的回归的3D点，我们估计的3D对应总是指对象模型上的顶点，这简化了姿势求解器的匹配阶段对于匹配，我们使用查找表来提取相应的2D和3D点。接下来，我们使用Progressive-X [2]求解器来计算旋转R和平移t。4. 实验在本节中，我们首先介绍了实施细节，用于评估的数据集和指标随后，我们提出了消融研究实验上的训练步长t，λ是常数。利用AVG算子，通过计算平均差值在预测的对象掩模内的所有像素的bt和bt中LM-O [5]数据集。最后，我们将我们的实验结果与LM-O [5]和YCB-V [69]数据集上的最新方法进行了比较。请参阅补充材料-JJ小批量生产在训练过程中，我们根据训练步骤t1中的前一个直方图和当前误差直方图更新直方图。我们展示了如何定义一个hierarchi- cal损失的基础上直方图在下面。等级损失。我们根据误差直方图计算加权系数，并将其用于汉明距离之上，以形成我们的分层损失，wj（t）=exp（σ·min{Hj（t），0. 5−Hj（t）}），（4）其中函数w使用指数项来软定义训练步骤t处的第n比特的权重，σ是常数。小批量中的所有对象像素共享相同的加权系数。我们对所有位的权重进行归一化。然后，我们基于活动比特的加权函数和汉明距离定义我们的分层损失，如下所示：L=ωw·Hamm（b，pω）。（五）更多定性结果。4.1. 实验设置实施详情。为了与DPOD [71]（K=2562）具有相同数量的类，我们首先通过使用边的中点[ 14 ]细分每个面来对网格进行上采样，随后，我们对对象模型的3D顶点进行分组，如第2节所述。3.1，其中r=2且d=16。在分组操作的几次迭代之后，一个组可能包含少于2个的点，并且不能进一步分组。为了避免这种情况，我们修改了k-means++聚类算法[1]，以强制两个输出点组具有相等的大小。我们修改了 Deeplabv3 [13] ，增加了 skipconnections，并使用Resnet34 [23]作为主干。输入ROI的大小调整为256×256×3的形状，CNN输出hierj j jj=1高度和宽度为128。我们用了同样的方法-动态放大策略作为CDPN [40]，以生成噪声由于这种损失，我们主要关注在训练期间自动从粗略变为精细的活动位。国王的训练直方图中使用的参数λ为0.05。在分层损失中使用的参数σ是0.5，并且α已经被设置为3以平衡用6743于掩码和6744----顶点编码预测CNN已经使用Adam优化器训练了380k步[36]，批量大小为32，固定学习率为2 e-4。在推理阶段，我们利用CDPNv 2 [40]提供的Faster R-CNN [55]和FCOS [62]检测到的边界框。如果未指定，我们在消融研究中使用Faster R-CNN检测到的边界框。此外，通过更改顶点代码中的任何位，代码引用另一个3D点，甚至可能引用对象另一侧的顶点为了保持与地面实况对应映射一起呈现的拓扑，我们在生成地面实况时在渲染期间禁用插值。在训练阶段，还使用最近邻插值来完成地面实况的重建数据集。LM [28]数据集中报告的召回率最近高于95%并且相当饱和，因此我们在本文中关注更具挑战性的LM-O [5]和YCB-V [69LM-O由1214张图像组成，仅用作测试图像。LM-O标注了部分遮挡下图像中的8个对象姿态，使得姿态估计更具挑战性。约1. LM中每个对象的2k个图像被用作LM-0的真实训练图像。与LM-O相比，YCB-V是一个包含21个对象的大型数据集。虽然YCB-V提供了更真实的训练图像，但场景中的对象被强烈遮挡，并且许多对象是几何对称的。由于LM-O数据集仅包括有限数量的训练图像，[34，49]另外渲染大量合成图像用于训练。然而，由于合成图像和真实图像之间的域间隙，方法的性能也严重依赖于域随机化和域自适应技术[61，70]。由于两个数据集的基于物理的渲染（pbr）训练图像[18]现在都是公开可访问的，使用pbr图像来支持训练可以帮助我们专注于姿势估计CNN本身。我们以与[19，29，66]相同的方式错误度量。我们选择ADD（-S）误差度量作为6DoF姿态估计任务的最常用度量。该度量计算使用预测姿态投影到相机域的模型点到使用地面实况姿态投影的相同模型点的平均距离。对于对称对象，该度量与用地面实况姿态投影的最近模型点而不是同一模型点相匹配。在本文的所有实验中，如果ADD（-S）误差小于物体直径的10%（最常用的阈值），则预测的姿势被认为是正确的。对于YCB-V，我们还报告了最大阈值为10 cm的ADD（-S）的AUC（曲线下面积）[69]。4.2. LM-O的烧蚀研究在本节中，我们介绍了几项消融研究的结果，如下所示：二进制顶点码的长度。对象3D表面通过迭代k-means++聚类进行编码，直到分割的簇的大小足够小，以便我们可以将顶点代码映射到每个簇的质心。我们使用与DPOD [71]相同的类总数，这意味着每个二进制顶点代码有16位。然而，如果对象很小或者对象到相机的距离太大，则当我们生成地面实况数据时，精细级别中的不同聚类可能被渲染到相同的像素中。这使得精细级别（最后几位）中的二进制代码冗余。由于物体到相机的距离变化在这次烧蚀研究中，我们研究了哪些位是冗余位。这些模型在没有分层训练策略的情况下进行训练，我们使用Progressive-X [2]来求解姿势。在推理阶段，我们忽略预测的二元码的最后几位。新的二进制顶点代码具有更少的位数，涉及更大的点云组（见图2）。2左）。我们计算了该组的新质心，并将质心重新分配为具有更少比特的二进制顶点代码的相应3D点。从图3b）中我们可以看到，使用10位代码已经足以产生对LM-0中的对象的准确预测，这表明最后6位对于这些对象是冗余的。当我们应用冗余位时，结果略有波动，这表明对于某些对象，不使用完整的16位代码可以获得最佳结果。然而，在下面的实验中，我们总是用完整的预测顶点代码报告结果。顶点代码中使用的基数每次迭代中的聚类数决定了描述3D顶点的生成顶点代码的基数。由于我们的CNN预测顶点代码，因此比较顶点代码中的哪个基数更适合表示是有意义的。我们不需要从头开始生成本消融研究中使用的所有顶点代码。更具体地说，通过合并顶点码的每个log2r位，我们得到一个基数为r的码。为例如，二进制代码为11111110 1111111可以使用256作为基数转换为254 255。如果我们将对象分成256个组，然后将每个组再分成256个组，那么我们将得到完全相同的代码。我们使用固定的 wj=1（参见等式4）对于所有位置，因此当r=2时，损失基本上是二进制交叉熵，并且对于其他径向损失交叉熵。我们在Tab中显示了比较结果。1.一、如果使用RANSAC/PSNR来求解姿态，则不同根的结果非常相似。没有明确的指示是否使用小基数或大基数更好。如果我们将姿势求解器切换到Progressive-X [2]，则代码6745方法添加a）、000...G0G1G2b）100c）9080706050400,50,450,40,350,30,250,2100... 010... 001...30201006789101112131415 16推理中使用的位数猿可以猫鸭司钻蛋盒胶穿孔器0,150,10,05012345678910 11 12 13 14 15 16位位置猿罐头猫鸭钻孔机图3. a）在第一行中，黄点具有以000开始的地面真值二进制顶点代码，并且黄色圆圈指的是该黄点的邻域顶点。如果在推断阶段，顶点代码被预测为100（第一位是错误的，在图中标记为红色），则估计的黄点位于钻头头部的某个位置（标记为蓝色）。估计的3D顶点远离其原始邻域，并且可以通过检查空间相干性来容易地找到。我们在此图中展示了四个类似的案例。b）我们仅在预测代码的前j位上计算ADD姿态度量以构建2D-3D对应关系。在这里，我们观察从哪个比特开始预测是稳定的。c）我们给出了LM-O数据集上不同位位置的平均错误率[5]。具有小基数的情况下提高最多并且产生最好的准确度。Progressive-X解算器包括一个空间相干滤波器，该滤波器基于[17]中介绍的标签成本能量最小化，检查相邻3D点相对于其分配的2D对应关系。因此，它可以特别好地处理离群值的类型，从我们的方法，我们在图中提到。3.第三章。我们在图中显示。在图3a）中，如果CNN预测黄点的前几位是错误的，则估计的对应3D点远离地面真实位置并且与其原始邻域完全不相干。假设大多数预测是正确的，大多数邻域顶点都位于图中的黄色圆圈内。在这种情况下，可以通过计算与其邻域的相干性来容易地过滤该错误估计的3D对应。如果错误预测是在最后几位中，则该空间相干滤波器不能很好地检测离群值，并且对于基数256也是如此，因为将顶点划分为256个组已经是精细分组。永不言弃，无花果。3 b）已经示出了最后几位不影响解出的姿态。因此，我们认为二进制顶点代码最适合这项任务。此外，二进制代码的预测需要GPU中最少的RAM，正如我们在第2节中讨论的那样。第3.1条层级培训的有效性。根据第一次消融研究，最后几位是冗余的，可能无法训练（见图1）。3 c））。在训练过程中，我们可以根据误差直方图识别冗余位，并专注于决定性位，如第2节所述。三点五选项卡. 2表明，我们提出的分层训练的结果进一步改善。2D检测的影响 CNN从检测到的边界框中估计具有裁剪的ROI的姿势。对于假阳性检测，对象姿态估计是无意义的，在假阴性检测的情况下，甚至不估计姿态。通过利用检测到的边界-方法[38]第三十八话Progressive-X [2]2作为基数73.0675.23（+2.17）4作为基数72.9474.59（+1.65）16作为基数73.0474.98（+1.94）256作为基数73.2574.52（+1.27）表1. LM-O的烧蚀研究[5]。我们测试了使用不同的根来编码顶点，并使用不同的解算器来计算姿势。结果以ADD（-S）的平均召回率（%）表示2作为基数75.232作为基数+分层学习75.862作为基数+分层学习+更快的R-CNN [55]→ FCOS [62]76.91表2. LM-O的烧蚀研究[5]。我们将结果与应用我们的分层损失以及先前对象检测器的影响进行比较。结果以ADD（-S）的平均召回率%表示使用FCOS [62]而不是Faster R-CNN [55]的框，召回率提高了1.05%。4.3. 与最新技术我们使用2作为基数，即二进制顶点代码，并在我们提出的ZebraPose中应用分层训练策略和Progressive-X姿势求解器[2]，以与LM-O [5]和YCB-V [69]数据集上的现有技术进行比较。FCOS [62]检测器的检测边界框由CDPNv2 [40]提供ADD指标评分平均汉明误差6746LM-O的结果我们报告ADD（-S）的召回，6747RGB输入猿20.931.146.848.457.940.247.2可以75.380.090.885.895.076.285.2猫24.925.640.532.760.657.045.7司钻70.273.182.677.494.882.381.4鸭27.943.046.948.964.530.053.9蛋盒 *52.451.754.252.470.968.270.2胶水 *53.854.375.878.388.767.060.1穿孔器54.253.660.175.383.097.285.9是说47.551.662.262.376.96566.2表3. 与LM-O最新技术水平的比较[5]。我们报告了ADD（-S）的召回率（%），并与最新技术水平进行了比较。（*）表示对称对象。Ric in Tab. 3 .第三章。我们根据输入方式对这些方法进行了排序。HybridPose [59]和RePose [32]已经使用合成和真实图像进行了训练。GDR-Net [66]还报告说，当使用合成和真实图像进行训练时，他们的召回率为53%。因此，GDR-Net优于Hybrid-Pose和RePose。Inour Tab. 3，我们报告了GDR-Net和SO-Pose [19]提出的最佳结果，它们也是用pbr和真实图像训练的。GDR-Net使用更快的R-CNN [55]作为检测器，ZebraPose使用更快的R-CNN产生75.86%的召回率（见表1）。2），这可以被视为与GDR-Net更公平的比较。总而言之，我们的ZebraPose在此数据集上的表现优于最先进的基于RGB的方法此外，我们发现我们的ZebraPose也优于最先进的基于RGB-D的方法[24，72]。LM-O数据集中的大多数对象都是无纹理的，这意味着基于RGB- D的方法在深度图像的帮助下在对象的即使在这种情况下，我们的结果仍然超过他们。YCB-V的结果。我们比较了ZebraPose与YCB-V数据集中的其他方法。4.第一章AUC报告于表中。4已使用全点插值计算选项卡. 4显示ZebraPose仍然优于最先进的w.r.t.ADD（-S）和ADD（-S）指标的AUC，并且与它们相比，ADD-S指标的AUC。4.4. 运行时分析我们在配备Intel 3.50GHz CPU和Nvidia 2080Ti GPU的台式机上测试了运行时。CNN运行时间加上建立2D-3D对应关系的时间约为52 ms。FCOS检测器[62]需要55 ms。RANSAC/PPERT [38]仅需要4 ms来求解姿态，而Progressive-X [2]需要150 ms来获得姿态。因此，对于用于SEC的ZebraPose。4.3，估计目标位姿总共需要约250 ms。如果我们使用RANSAC/PSENS来解决姿势，运行时间减少到110 ms，而在LM-0数据集上的召回率下降了约2.6%。方法ADD（-S）AUC为ADD-SAUC为ADD（-S）[31]第三十一话39.0--单级[30]53.9--[37]第三十七话-89.884.5[32]第三十二话62.188.582.0[第66话]60.191.684.4[19]第十九话56.890.983.9我们的80.590.185.3表4. 与YCB-V最新技术水平的比较[69]。我们将我们的ZebraPose与现有技术的ADD（-S）、ADD（-S）的AUC和ADD-S的AUC（%）进行比较。（-）表示原始论文中缺失的结果5. 结论在这项工作中，我们提出了一种新的粗糙到精细的表面编码技术，提供2D-3D对应的6DoF对象姿态估计。我们还设计了一个特定的分层训练策略，最大限度地提高了我们提出的二进制顶点代码的预测精度。基于我们的顶点代码使用PADOSE求解器解决对象姿态，在不同的基准测试中超越了最先进的水平，证明了我们方法在未来，我们希望将我们的顶点代码解决方案扩展到类别级对象姿势的问题[39]。确认这项工作由德国联邦共和国联邦教育和研究部（BMBF）根据赠款协议16 SV 8732（Greif-bAR）和01 IW 21001（DECODE）提供部分资金。我们感谢Rene 'Schuster ， Fangwen Shu ， Yasu Xie 和 GhazalGhazaei对本文的校对。方法RGB输入[59]第五十九话[32]第三十二话[第66话][19]第十九话我们PR-GCN [72]FFB 6D[24]6748引用[1] 大卫·亚瑟和谢尔盖·瓦西里茨基。k-means++：小心播种的优点。技术报告，斯坦福大学，2006年。5[2] 丹尼尔·巴拉斯和吉瑞·麦塔斯Progressive-x：高效、任意时间、多模型拟合算法。在IEEE/CVF计算机视觉国际会议论文集，第3780-3788页，2019年。二五六七八[3] Eric Brachmann、Alexander Krull、Frank Michel、StefanGumhold、Jamie Shotton和Carsten Rother。使用3d对象坐标学习6d对象姿态估计。在欧洲计算机视觉会议上，第536Springer，2014. 2[4] Eric Brachmann、Alexander Krull、Sebastian Nowozin、Jamie Shotton、Frank Michel、Stefan Gumhold和CarstenRother。用于摄像机定位的可微分变换。在IEEE计算机视觉和模式识别会议论文集，第6684-6692页2[5] Eric Brachmann ， Frank Michel ， Alexander Krull ，Michael Ying Yang，Stefan Gumhold，and others.不确定性驱动的单一rgb图像中物体和场景的6d姿态估计。在IEEE计算机视觉和模式识别会议论文集，第3364-3372页二五六七八[6] Eric Brachmann和Carsten Rother。学习越少越好-通过3d表面回归的6d相机定位在IEEE计算机视觉和模式识别会议论文集，第4654-4662页，2018年2[7] Eric Brachmann和Carsten Rother。神经引导的ransac：学习在哪里采样模型假设。在IEEE/CVF计算机视觉国际会议论文集，第4322-4331页2[8] Benjamin Busam，Tolga Birdal，和Nassir Navab.对偶四元数黎曼流形上局部回归测地线的摄像机姿态滤波在IEEE计算机视觉工作室国际会议论文集，第2436-2445页，2017年。2[9] 本杰明·布萨姆，马可·埃斯波西托，西蒙·切罗斯，纳兹·纳瓦布和本杰明·弗里施.机器人合作运动治疗的立体视觉方法。在IEEE计算机视觉研讨会国际会议论文集，第127-135页，2015年。1[10] Benjamin Busam，Hyun Jun Jung，and Nassir Navab.我喜欢移动它：作为动作决策过程的6d姿态估计arXiv预印本arXiv：2009.12678，2020。1[11] Berk Calli、Arjun Singh、Aaron Walsman、SiddharthaSrini-vasa、Pieter Abbeel和Aaron M Dollar。 ycb对象和模型集：操纵研究的共同基准。高级机器人（ICAR），2015年国际会议，第510-517页。IEEE，2015年。2[12] 卡尔洛斯坎波斯，理查德埃尔维拉，胡安J戈麦斯罗德r'ıguez，何塞e'MM蒙铁尔，和胡安D塔尔多的。Orb-slam3：一个用于视觉、视觉惯性和多地图slam的精确开源库IEEE Transactions on Robotics，2021。2[13] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割arXiv预印本arXiv：1706.05587，2017. 5[14] Qi Chen和Hartmut Prautzsch。General midpoint subdivi-sion. arXiv预印本arXiv：1208.3794，2012年。5[15] Wenzheng Chen，Huan Ling，Jun Gao，Edward Smith，Jaakko L

下载后可阅读完整内容，剩余1页未读，立即下载