基于深度引导的边缘卷积网络用于端到端的6D姿态估计

124 浏览量更新于2023-10-26 收藏 17.4MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

37830DGECN：一种深度引导的边缘卷积网络用于端到端的6D姿态估计0曹拓1，罗飞1*，付艳萍2，张文晓1，郑胜杰1，肖春霞1*01 武汉大学计算机学院，湖北武汉 2 安徽大学计算机科学与技术学院，安徽合肥0ypfu@ahu.edu.cn, wenxxiao.zhang@gmail.com, zsj mdk@163.com, { maplect,luofei,cxxiao } @whu.edu.cn0http://graphvision.whu.edu.cn/0摘要0单目6D姿态估计是计算机视觉中的一个基本任务。现有的方法通常采用两阶段的流程，通过建立对应关系并利用RANSAC算法计算6自由度（6DoF）姿态。最近的研究尝试整合可微分的RANSAC算法实现端到端的6D姿态估计。然而，大多数方法很少考虑3D空间中的几何特征，并忽略了在执行可微分的RANSAC算法时的拓扑线索。为此，我们提出了一种深度引导的边缘卷积网络（DGECN）用于6D姿态估计任务。我们从以下三个方面进行了努力：1）利用估计的深度信息来引导对应关系提取过程和级联可微分的RANSAC算法，以获得几何信息。2）利用估计的深度图的不确定性来提高输出6D姿态的准确性和鲁棒性。3）我们提出了一种可微分的边缘卷积透视n点（PnP）算法，用于探索2D-3D对应关系之间的拓扑关系。实验证明，我们提出的网络在效果和效率上优于当前的方法。01. 引言0物体姿态估计是计算刚体物体的6个自由度（DoF）姿态的任务，包括其在图像中的位置和方向。它广泛应用于增强现实的三维注册[1, 28, 45]、机器人视觉[27,31]和三维重建[9,10]。由于存在噪声和其他影响因素，如遮挡、嘈杂的背景和光照变化，准确地估计RGB图像中物体的6DoF姿态仍然是一个具有挑战性的问题。0* 肖春霞和罗飞为共同通讯作者0输入图像0深度图0语义标签0DG-PnP06D姿态03D模型0图1.DGECN的流程图。通过输入RGB图像，我们提出了一种新颖的DGECN，可以同时预测分割和深度图。在建立了2D-3D对应关系之后，我们用可学习的DG-PnP替代了RANSAC/PnP来回归6D姿态。0当前的物体姿态估计方法可以分为两种类型：1）使用单个RGB图像估计物体姿态[17, 27, 28, 31,45]；2）使用RGB图像和深度图像[14, 39,41]。无论是基于RGB的方法还是基于RGB-D的方法，基于关键点的方法在这个领域中占主导地位。另一方面，直接回归的方法通常不如基于关键点的方法。基于关键点的方法通常包括两个阶段：首先，通过现代神经网络在RGB图像上预测3D模型的关键点的2D位置。然后，通过基于RANSAC的透视n点（PnP）方法从2D-3D对应关系计算6D姿态参数。尽管许多代表性的工作[15, 22, 25, 33, 35,36]已经证明了两阶段流程的有效性，但仍然存在许多局限性。首先，很少有方法可以直接输出6D姿态参数。大多数现有方法仍然使用RANSAC-basedPnP算法的变体来估计姿态参数。其次，当2D-3D对应关系密集时，基于RANSAC的PnP可能非常耗时。第三，37840大多数两阶段方法中的网络不能直接输出6D姿态，因此它们的损失函数无法优化我们期望的姿态估计。最后，两阶段估计可能导致显著的累积误差，在两个连接的步骤之间逐渐增加。最近，一些工作尝试将可微分的RANSAC算法集成到流程中，以便可以进行端到端的训练。Brachmann等人[3]提出了一种可微分的PnP方法。Hu等人[16]利用PointNet[29]近似稀疏对应关系的PnP。但是这些工作要么需要繁琐的训练过程，要么没有考虑几何线索。Wang等人[42]通过将基于RANSAC的PnP替换为Patch-PnP提出了一个端到端的框架，该方法效果很好，但它依赖于网络中的密集对应关系图和表面区域注意力图。它几乎无法直接从2D-3D对应关系中学习6D姿态。为此，我们提出了深度引导的边缘卷积网络（DGECN），共同处理对应关系提取和6D姿态估计。我们的网络利用深度引导网络建立2D-3D对应关系，并通过一种新颖的动态图形PnP（DG-PnP）从对应关系中学习6D姿态。一方面，深度信息使我们能够充分利用刚体对象的几何约束。另一方面，我们完全重新审视了对应关系集的特性，并发现它可以通过构建图形结构更好地处理复杂纹理。我们的端到端流程如图1所示。在LM-O [2]和YCB-V [5,45]上的实验结果表明，我们的网络在准确性和效率方面与最先进的方法相当甚至更优。我们在这项工作中的贡献可以总结如下：0•我们提出了一种深度引导网络，可以直接从单目图像中学习6D姿态，无需额外的信息。此外，我们提出了一种深度细化网络（DRN），以提高估计的深度图质量。0•我们探索了2D对应关系集的特性，并发现通过构建图形可以更好地从2D关键点分布中学习6D姿态参数。我们进一步提出了一种简单但有效的动态图形PnP（DG-PnP）方法，直接从2D-3D对应关系中学习6D姿态。02. 相关工作0直接方法。这些方法通常在一次拍摄中直接估计6D姿态。一些早期的工作利用模板匹配技术。然而，在遮挡情况下它们的表现并不理想。随着深度学习的进步，一些工作通过网络回归姿态参数。Xiang等人[45]首次将CNN引入到这个领域。0这个领域，他们使用基于GoogleNet[38]的网络直接学习6D相机姿态。由于物体的多样性以及由物体之间的杂乱和遮挡引起的场景复杂性，这个问题仍然具有挑战性。为了解决这个问题，PoseCNN[45]通过在图像中定位物体的中心并预测其与相机的距离来估计物体的3D平移。然而，由于旋转矩阵的非封闭性质，这个问题仍然很难。一些工作[49]利用SO(3)/SE(3)使旋转空间可微分。0基于对应关系的方法。基于2D-3D对应关系检测的方法逐渐成为物体姿态估计的主流。PVNet [28]和Seg-Driven[17]通过对每个对应关系进行分割和投票来使估计更加稳健。EPOS[15]利用表面片段来解决姿态中的模糊性。Pix2Pose[27]使用基于GAN的网络来预测每个对象像素的3D坐标，而不需要纹理模型。Oberweger等人[26]通过输出关键点的像素热图来解决遮挡问题。近年来，一些工作旨在避免基于关键点的流程中耗时的基于RANSAC的PnP。DSAC[3]提出了两种使RANSAC可微分的替代方法，即软最大值和概率选择，并将其应用于相机定位问题。Single-Stage[16]采用类似PointNet的架构从2D-3D对应关系中学习6D姿态。然而，这种方法只能处理稀疏的对应关系。为了避免这个问题，GDR-Net[42]让网络预测表面区域作为额外的模糊感知监督，并在其Patch-PnP框架中使用它们。SO-Pose[7]专注于遮挡部分，更完整准确地编码对象的几何特征。0图卷积网络（GCN）。由于图结构具有更高的表示能力，GCN在几个任务中表现出优越的性能，包括图像描述[8]、文本到图像和人体姿态估计[4]。在3D计算机视觉中，Wald等人[40]提出了第一种从3D点云生成语义场景图的学习方法。DGCNN[43]使用基于GCN的网络进行点云特征提取。Superglue[34]利用GCN来匹配两组局部特征，同时搜索对应关系并拒绝不可匹配的点。03. 方法0在本节中，我们将描述我们的深度引导的6D姿态回归网络。我们首先介绍相关背景。然后，我们说明我们的网络架构，该架构可以通过学习深度来优化6D姿态。KFA��RGB FeaturedrlUncertainty mapInput imageDepth Network (B)Depth Network (A)378506自由度姿态0深度精炼器...0多融合特征0输入图像0深度图0裁剪0裁剪0编码器-解码器0对应关系0局部图EdgeConv FC0特征提取对应关系提取 DG-PnP0图2.我们架构的概述。我们的框架由三个构建模块组成：1）用于深度和RGB特征融合的特征提取网络，2）基于深度投票的网络的2D-3D对应关系提取网络，3）名为DG-PnP的可学习PnP网络用于6D姿态物体估计。KFA表示K-NN特征聚合，Gr、Gd和Gl分别是RGB特征、深度特征和局部特征。03.1. 问题建模0给定一张图像，我们的任务是检测物体并估计它们的6D姿态。在这里，我们将图像表示为I。我们的目标是估计旋转矩阵R∈SO(3)和平移向量t=(tx, ty,tz)∈R3，将物体从其物体世界坐标系变换到相机世界坐标系。图2是我们提出的方法的概述。我们首先通过无监督深度估计网络学习深度信息。然后，像GDR-Net[42]和PVNet[28]一样，我们使用FCN[24]方法在图像中定位每个物体。根据分割的结果，我们在深度图和RGB图像上裁剪感兴趣区域，并将它们输入到基于K-NN的特征聚合（KFA）模块中以获取局部特征。同时，我们使用ResNet50[13]提取图像的2D特征。然后，我们使用密集融合模块来融合外观特征、几何信息和局部特征。接下来，我们将融合的特征作为输入，通过我们提出的可微分DG-PnP建立2D-3D对应关系。最后，我们通过直接回归从2D-3D对应关系中关联的6D物体姿态。我们的框架建立在基于关键点的方法之上。给定图像I和3D模型M={Mi|i=1,...,N}，我们的目标是恢复未知的刚体变换{R,t}。为了方便显示，我们假设图像中有一个目标物体，我们将其表示为O。如图4所示，我们的目标是预测模型M的相应3D关键点在I中的潜在2D位置。03.2. 深度估计0受最近基于RGB-D数据和点云的工作[14, 41, 47,48]的启发，我们引入深度信息使得2D-3D对应更加稳健和准确。0深度 A0深度 B0图3. 深度不确定性测量。0然而，这些方法总是需要激光雷达或其他传感器来获取真实的深度信息。此外，在事先获取的RGB图像中，我们通常无法获得真实的深度信息。因此，我们使用一个网络来预测深度，作为监督2D-3D对应估计的附加特征。随着单目深度估计的发展，许多深度估计方法[11, 32,44]已经出现。然而，这些方法通常用于估计大场景的深度信息，不适用于直接估计6D姿态估计场景的深度图。因此，在我们的工作中，我们使用不确定性测量来优化估计的深度图。03.3.深度引导的边缘卷积网络0我们的方法的概述如图2所示。关键点定位是一种基于投票的架构，它没有充分考虑深度信息。因此，我们在三个方向上努力改进这个策略：01.我们利用估计的深度图在6D对象估计场景中的不确定性，优化深度图并减少深度估计过程中的噪声影响。02.在将RGB直接输入CNN以建立2D-3D对应关系之前，我们首先预测深度图并提出了一个K-NN特征聚合（KFA）块来融合跨域特征。WOK1K2K3��2��4��3��1��(R, t) = M(K, k|Θ),(1)378603.我们提出了一个可学习的DG-PnP来替代两阶段6D姿态估计流程中手工设计的RANSAC/PnP。0深度细化网络（DRN）。当前的单目深度估计方法通常应用于大型室外场景。因此，它们通常在大型场景数据集（如KITTI）上进行训练。然而，当我们直接使用这些方法来估计6DoF场景的深度时，在某些区域，波动可能特别大。DRN旨在提高深度图的质量。如图3所示，它由两个不同的深度估计网络组成，每个网络分别输出深度图DA和DB。然后我们计算两个深度图之间的差异，并将差异超过阈值的区域定义为不确定区域。有两种方法可以进一步处理这些不确定区域，一种是直接从深度特征中删除它们。第二种方法是使用它们的均值替换原始深度。本文选择第一种方法。特征提取。这个阶段有两个流，一个用于深度估计，另一个用于对象分割。深度估计以彩色图像为输入，进行深度图预测。然后，对于每个分割的对象，我们使用分割的对象掩码和深度图将其转换为3D点云。为了处理多个对象分割，之前的工作[17,28, 41,45]使用现有的检测或语义分割算法。同样，我们采用FCN[24]来分割输入图像。至于3D特征提取，一些工作[14,41]将分割的深度像素转换为3D点云，并利用3D特征提取器[12, 29,30]提取几何特征。尽管这些方法被证明是有效的，但它们需要训练额外的3D特征网络。为了更充分的RGB-D融合，我们引入了KFA模块。考虑RGB图像中的一个像素，表示为pi，Di = {dj | j = 1 ...k}是pi的k个最近邻的深度集合，然后我们采用一个非线性函数Fpi = f(Di,θi)来聚合pi的局部特征。如图2所示，得到的特征G = (Gr,Gd,Gl)。2D关键点定位。3D关键点从3D对象模型中选择，如[14, 28]所示。一些方法[17,31]选择3D边界框的八个角点。然而，这些点是虚拟的，2D对应可能位于图像之外。对于靠近边界的对象，这可能会导致较大的误差，因为2D对应不在图像中。因此，关键点应该在对象表面上选择。我们遵循[28]，采用最远点采样（FPS）算法在对象表面上选择关键点。在这个阶段的最后，我们使用基于[17]的网络进行2D对应检测。从2D-3D对应关系学习6D姿态。如图4所示，给定一个包含n个3D关键点的集合K =0K40（a）（b）0图4.2D-3D对应关系。（a）2D对应关系的真值（红色）及其假设（蓝色）。（b）2D对应关系在相机平面上的投影。相机和物体坐标系分别表示为O和W。0{ Ki | i = 1 , ..., n }，每个 Ki 对应于图像中的一组 2D 位置 k= { kij | j = 1 , ..., m}。我们的目标是设计一个网络，从建立的 2D-3D对应关系中学习刚性变换（R，t）。DSAC [3] 通过软argmax 和概率选择使 RANSAC 可微分。Single-Stage[16] 使用了类似于 PointNet的架构来解决这个问题，但它只能处理稀疏的对应关系。GDR-Net [42] 提出了一个简单但有效的 patch-PnP模块，它依赖于网络预测的密集对应关系图。为了解决这个问题，我们提出了一个基于 GCN 的网络，直接从 2D-3D对应关系中回归出 6D 姿态，具体描述如下0其中 M 表示具有参数 Θ 的提出的 DG-PnP。Hu 等人 [16]使用了类似于 PointNet [29] 的架构。然而，它只将 2D位置作为单个点，并没有考虑到图像中 2D对应关系的分布特性。如上所述，我们预测输入图像中每个像素的深度值，因此我们可以充分利用 2D对应关系的几何和位置特征。通过重新审视 2D-3D对应关系的属性，我们发现 2D对应关系的结构类似于一个图。如图4所示，我们不是将单个点作为输入，而是将 2D对应关系群集作为图形，并将其馈送到我们的 DG-PnP中。本地图构建。如图5所示，P = {pi | i = 1 ...m} 是一个2D 对应关系群集，我们通过 k最近邻（k-NN）构建本地图，并将其表示为 G=（P，E）。P 和 E = pi � pj分别是顶点和边。然后，我们通过聚合 P 中 pi的所有邻域来计算边特征。边卷积。与图卷积网络（GCN）不同，我们的边卷积是 CNN 的一种变体。��f′i =λjgθi(fi, fj),(2)gθi(fi, fj) = RELU(αi · (fi − fj) + βi · fi),(3)L = λ1Ld + λ2Ls + λ3Lk + λ4Lp,(4)Ld = µLdp + λLds,(5)Lk = 1Mn�i=1m�j=1||kpij − kp∗i ||,(6)Lp = 1nn�i=1∥ (R∗pi + t∗) − (Rpi + t) ∥.(7)37870EdgeConv0图5. 本地图和边卷积。0考虑一个具有 m 个像素和 X 维特征的 2D对应关系群集，并将其表示为 f = {fi | i = 1 , ...,m}，我们通过我们的图操作计算本地图特征：0m个0其中 λj 是由 k i 和 k j 之间的距离确定的超参数。gθ是具有可学习参数θ的非线性函数。我们采用[43]中提出的非对称边函数：0其中 θi = (αi，βi)，Θ = {θi | i = 1 , ..., m}在方程1中。在本文中，我们将 k i 的 3D 坐标和 RGB信息作为特征 f i，3D坐标可以通过相机内参从深度转换而来。因此，在我们的网络中 X = 6。03.4. 损失函数和姿态估计0为了训练所提出的网络，我们引入了四个损失函数Ld，Ls，Lk 和 Lp。总损失函数定义如下：0其中 λ1，λ2，λ3 和 λ4 是权重系数。Ld是深度损失，深度估计模块建立在 MonoDepth2 [11]的基础上：0其中 Ldp 是光度损失，Lds是边缘感知平滑度。由于空间限制，更多细节可以参考[11]。Ls是分割损失，用于约束分割任务并从图像中提取目标对象。这里我们选择了 Focal Loss，参考[23]。Lk是关键点匹配损失，用于约束 2D-3D对应关系。如图4所示，我们试图预测图像中的 2D关键点位置，并定义损失函数如下：0其中kp �i是真实的2D关键点位置，n是3D关键点的数量，m是kpi的2D对应关系的数量，M = m ×n是我们的网络在图像中预测的总2D对应关系数量。Lp是最终的姿态估计损失，用于约束最终的6DoF姿态参数。受PoseCNN [ 45 ]和DeepIM [ 21 ]的启发，我们将L p设计为0其中R �和t�是估计的旋转矩阵和平移向量，R和t是真实的旋转矩阵和平移向量。我们的网络是一个多任务网络，包括输出深度图、分割掩码、3D-2D对应关系和6DoF姿态参数，类似于当前的SOTA方法。更一般地，当图像中有多个目标物体时，我们可以同时估计这些目标物体的姿态，并在实验部分给出结果。04. 实验0在本节中，我们进行实验来证明DGECN的有效性。我们在几个常见的基准数据集上评估我们的DGECN。为了与经典的PnP和一些学习PnP进行直接比较，我们按照[ 16 , 42]在一个合成的球体数据集上设置了几个实验，以验证提出的DG-PnP。此外，我们进行了消融研究，讨论了所提方法中每个组成部分的有效性。04.1. 数据集04.1.1 合成球体数据集。0与Single-Stage [ 16]一样，我们使用虚拟校准相机创建了精确的合成3D到2D对应关系，图像尺寸为640×480，焦距为800，主点位于图像中心。然而，Single-Stage不需要颜色信息，所以它们的背景是纯净的。如第3节所讨论的，我们的网络将完全提取局部特征，包括位置和颜色。因此，我们在他们的合成数据集中添加了一个渐变背景，其他参数设置与Single-Stage相同，如图7所示。04.1.2 YCB-V数据集。0该数据集由[ 5 , 45]提出，包含21个具有不同形状和纹理的YCB物体。该数据集中的子集包含92个RGB-D视频，并标注了6D姿态和实例语义掩码。不同的光照条件、显著的图像噪声和遮挡使得该数据集具有挑战性。与PoseCNN [ 45 ]类似，DGECN(Ours)PVNet [28]SegDriven [17]GDR-Net [42]378802D-3D提取器 PnP 类型 Ape Can Cat Driller Duck Eggbox s Glue s Holepun Mean0DG-PnP( 我们的方法) 54.3 75.9 22.4 77.5 51.2 57.8 66.9 63.2 58.7 类似PointNet的PnP [ 16 ] 44.4 71.318.5 71.6 48.6 51.3 59.1 60.3 53.1 Patch-PnP [ 42 ] 51.2 74.6 21.6 73.4 48.5 56.9 65.1 61.4 56.6基于RANSAC的PnP [ 20 ] 41.3 66.5 14.3 65.4 44.1 48.9 55.4 56.2 49.0 BPnP [ 6 ] 46.2 73.3 19.5 72.4 46.252.1 61.4 56.2 53.40DG-PnP( 我们的方法) 23.4 68.9 23.2 72.2 27.8 55.1 53.2 47.2 46.4 类似PointNet的PnP 19.2 65.1 18.969.0 25.3 52.0 51.4 45.6 43.3 Patch-PnP 14.4 55.3 14.9 68.2 22.1 45.9 49.4 41.3 38.9基于RANSAC的PnP 15.8 63.3 16.7 65.7 25.2 50.3 49.6 36.1 40.8 BPnP 21.4 45.3 12.7 64.3 21.4 42.144.5 38.7 36.30DG-PnP( 我们的方法) 17.5 51.4 15.9 57.9 20.6 31.8 43.2 39.6 34.7 类似PointNet的PnP 14.8 45.5 12.154.6 18.3 30.2 45.8 37.4 32.3 Patch-PnP 9.8 36.9 14.6 57.3 11.6 28.3 42.3 32.4 28.4 基于RANSAC的PnP12.1 39.9 8.2 45.2 17.2 22.1 35.8 36.0 27.0 BPnP 15.6 47.8 14.5 51.3 14.8 30.5 26.4 32.1 29.10DG-PnP( 我们的方法) 37.5 78.5 26.8 70.6 42.9 56.8 50.4 56.4 52.5 类似PointNet的PnP 17.9 65.3 18.662.8 31.5 48.6 36.7 49.2 41.3 Patch-PnP 39.3 79.2 23.5 71.3 44.4 58.2 49.3 58.7 53.0基于RANSAC的PnP 20.9 67.5 23.9 66.1 34.9 53.4 42.3 54.3 45.4 BPnP 35.5 74.2 21.5 67.4 36.9 51.445.8 51.1 48.00表1.消融研究。我们评估了我们模型的不同版本与一些基准模型的比较结果。我们评估了DGECN和DG-PnP的影响。(s)表示对称物体，浅红色表示最佳结果。我们报告了LM-O数据集上ADD(-S)的平均召回率（%）。0图6. YCB-V数据集上的定性结果。这里展示了YCB-V数据集上的结果可视化。同一场景中不同网格上的点在经过预测姿态变换后投影回图像时呈现不同的颜色。ADD = 1m�x∈O∥(Rx + t) − (R∗x + t∗)∥(8)ADD−S = 1m�x1∈Ominx2∈O∥(Rx1 +t)−(R∗x2 +t∗)∥ (9)37890图7.合成数据。我们按照[16]的方法创建合成数据，但在他们的基础上添加了背景。0图8. 与PnP变体的比较。我们将我们的方法与EPnP[20]、PointNet-like PnP [16]和Patch-PnP[42]进行比较。我们的方法始终优于PointNet-likePnP，并且随着噪声的增加，我们的方法比EPnP更准确和稳健。姿态误差由ADD计算。0我们将数据集分为80个用于训练的视频和从其余12个视频中选择的2,949个关键帧用于测试。04.1.3 LM-O数据集。0这个数据集[2]是用于物体6D姿态估计的标准基准，包含13个低纹理物体的13个视频，带有注释的6D姿态和实例掩码。LM-O的主要挑战是混乱的场景、无纹理的物体和光照变化。在这项工作中，我们按照之前的工作处理这个数据集，并且像[45]一样将合成图像添加到我们的训练集中。04.2. 评估指标0为了比较，我们使用两个常用的度量标准来评估我们的方法：平均距离（ADD）[45]和2D重投影误差（REP）[17]。ADD使用预测姿态变换的3D模型点与使用真实姿态变换的模型点之间的平均距离。当距离小于模型直径的10%时，认为估计的姿态是正确的。我们按照[16,42]的方法使用ADD(-S)度量来评估对称物体，该度量衡量到最近模型点的偏差。将预测的姿态表示为[R�,t�]，真实的姿态表示为[R, t]：0其中x是物体网格O上的m个顶点之一。在评估YCB-V时，我们还通过改变距离阈值，计算ADD(-S)的AUC（曲线下面积），最大距离阈值为10厘米[45]。REP计算给定估计姿态和真实姿态的3D模型点的投影之间的平均距离。当REP小于5个像素时，我们认为估计的姿态是正确的。对于每个度量标准，我们对对称物体使用对称版本，用上标(s)表示。04.3. 与最新技术的比较0我们与YCB-V和LM-O数据集上的最新技术进行比较。值得一提的是，我们还与基于RGB-D的方法进行比较，以验证我们的深度估计网络的有效性。04.3.1 LM-O数据集上的性能0表2显示了DGECN与基于单目的最新方法在遮挡LM-O数据集上的结果。我们的DGECN与[7, 21,42]相当，并且优于[16,28]。表5呈现了与基于RGB-D的方法的比较结果。此外，在一些场景中，我们提出的方法甚至优于基于RGB-D的方法。04.3.2 YCB-V数据集上的性能0表3显示了YCB-V数据集的评估结果。结果显示我们的模型与最新的方法[19,42]相当，甚至优于基于细化的方法[21]。图6展示了YCB-V上的定性结果。04.4. 消融研究0在本节中，我们将讨论以下问题：(1)DG-PnP与手工制作的PnP和其他可学习的PnP相比如何？(2) 学习的深度是否改善了最终的姿态估计？(3)DGECN与PnP变体的效果如何？与PnP变体的比较。我们使用20K个合成图像进行训练，使用2K个图像进行测试。在训练过程中，我们随机添加方差为σ的2D噪声，范围为[0,15]，并创建10%和30%的异常值。在合成中进行比较是很重要的，因为它可以直接将我们的DG-PnP与PnP变体进行比较，并忽略关键点检测方法的影响。图8显示了在不同噪声水平下与EPnP [ 20 ]、PointNet-like PnP [ 16]和Patch-PnP [ 42]进行比较的结果。当噪声最小时，手工制作的PnP更准确，但学习的PnP方法对噪声更稳健，并且在噪声增加时更准确。此外，DG-PnP是PoseCNN [45]�21.33.775.9GDR-Net [42]�60.1-91.6SO-Pose [7]�56.8-90.9PVNet [28]�-47.473.4SegDriven [17]�39.030.8-Single-Stage [16] �53.948.7-Implicit ICP [37]64.7--SSD-6D ICP [18]79.0-91.6PointFusion [46]-73.773.4DenseFusion [41]86.230.8-PVN3D [14]53.999.4-37900方法 PoseCNN PVNet Single-Stage HybridPose GDR-Net SO-Pose DeepIM R DPOD R Ours0Ape 9.6 15.8 19.2 20.9 41.3 46.3 59.2 - 50.3 Can 45.2 63.3 65.1 75.3 71.1 81.1 63.5 - 75.9 Cat 0.9 16.718.9 24.9 23.5 18.2 26.2 - 26.4 Driller 41.4 65.7 69.0 70.2 54.6 71.3 55.6 - 77.5 Duck 19.6 25.2 25.3 27.941.7 43.9 52.4 - 54.2 Eggbox s 22.0 50.2 52.0 52.4 40.2 46.6 63.0 - 57.8 Glue s 38.5 49.6 51.4 53.8 59.563.3 71.7 - 66.9 Holepun 22.1 36.1 45.6 54.2 52.6 62.9 52.5 - 60.20平均值 24.9 40.8 43.3 47.5 47.4 54.3 55.5 47.3 58.70表2.使用ADD(-S)指标与最先进的RGB方法在LM-O数据集上进行定性比较，(R)代表Refinement。所有方法都使用真实+合成数据进行训练。0方法 Ref. ADD(-S) REP-5px ADD-S的AUC0DeepIM [ 21 ] � - - 88.1 CosyPose [ 19 ] � - - 89.80我们的结果为60.6 50.3 90.90表3.在YCB-V数据集上与最先进的RGB方法进行评估。Ref.代表Refinement。0相关性提取器 DG-PnP ADD ADD-S的AUC0� � 58.7 90.9 � � 53.2 83.5 � � 50.6 81.3 � �41.3 75.30表4.深度图消融实验。�表示使用深度图进行测试，�表示不使用深度图进行测试。0方法 ADD(-S) REP-5px ADD-S的AUC0我们的结果为60.6 50.3 90.90表5. 使用最先进的RGB-D方法在YCB-V数据集上进行评估。0比PointNet-likePnP更稳健和准确，与Patch-PnP相当。因为DG-PnP和Patch-PnP都考虑了几何和拓扑特征。0几何特征。深度图消融实验。如上所述，深度信息在6D姿态回归中起着重要作用。此外，我们通过舍弃深度估计来训练我们的DGECN。深度信息在对应提取和DG-PnP中都有使用，因此我们对其进行了消融研究。如表4所示，DGECN在深度预测方面更加稳健。每个组件的有效性。如表1所示，我们通过将我们的组件与不同的最先进方法相结合，展示了所提出方法的每个组件的有效性。对于DGECN，我们将我们架构中的DG-PnP替换为PnP变体[ 6 , 16 , 42]。DGECN展示了与不同PnP方法相竞争的性能。此外，它甚至比结合PointNet-likePnP的Single-Pose更好。对于DG-PnP，我们将一些两阶段方法中的PnP变体替换为DG-PnP。0结论0在这项工作中，我们提出了一种新颖的深度引导网络用于单目6D物体姿态估计。核心思想是利用几何和拓扑信息，共同处理2D关键点检测和6D姿态估计。然后，我们深入研究2D-3D对应关系，并观察到图结构可以更好地建模关键点分布的特征。此外，我们提出了一种动态图PnP来学习6D姿态，以取代手工设计的PnP。因此，我们的方法是一种实时、准确和稳健的单目6D物体姿态估计方法。0致谢0这项工作得到了湖北省重点技术创新项目（2018AAA062），中国国家自然科学基金（NSFCNo.61972298）和武汉大学华为地理信息创新实验室的部分支持。37910参考文献0[1] Alex M Andrew.计算机视觉中的多视图几何。Kybernetes，2001年。1月0[2] Eric Brachmann，Alexander Krull，Frank Michel，StefanGumhold，Jamie Shotton和CarstenRother。使用3D物体坐标学习6D物体姿态估计。在欧洲计算机视觉会议上，页536-551。Springer，2014年。2月，7月0[3] Eric Brachmann，Alexander Krull，SebastianNowozin，Jamie Shotton，Frank Michel，StefanGumhold和CarstenRother。DSAC-可微分RANSAC用于相机定位。在IEEE计算机视觉与模式识别会议（CVPR）论文集上，2017年7月。2月，4月0[4] 蔡宇军，葛柳浩，刘军，蔡建飞，Tat-JenCham，袁俊松和Nadia MagnenatThalmann。通过图卷积网络利用时空关系进行3D姿态估计。在IEEE/CVF国际计算机视觉会议论文集上，页2272-2281，2019年。2月0[5] Berk Calli，Arjun Singh，Aaron Walsman，SiddharthaSrini-vasa，Pieter Abbeel和Aaron MDollar。YCB对象和模型集：面向操纵研究的共同基准。在2015年国际高级机器人学术会议（ICAR）上，页510-517。IEEE，2015年。2月，5月0[6] 陈波，Alvaro Parra，曹杰伟，李楠和Tat-JunChin。通过反向传播PnP优化的端到端可学习几何视觉。在IEEE/CVF计算机视觉与模式识别会议论文集上，页8100-8109，2020年。6月，8月0[7] Yan Di，Fabian Manhardt，Gu Wang，XiangyangJi，Nassir Navab和FedericoTombari。So-pose：利用自遮挡进行直接6D姿态估计。在IEEE/CVF国际计算机视觉会议（ICCV）论文集上，页12396-12405，2021年10月。2月，7月，8月0[8]董新志，龙成江，徐文菊和肖春霞。双图卷积网络与变压器和课程学习相结合的图像字幕。在第29届ACM国际多媒体会议上的论文集，页2615-2624，2021年。2月0[9]傅彦平，颜清安，廖杰和肖春霞。联合纹理和几何优化用于RGB-D重建。在IEEE/CVF计算机视觉与模式识别会议上，页5950-5959，2020年。1月0[10]傅彦平，颜清安，廖杰，周华健，唐进和肖春霞。无缝纹理优化用于RGB-D重建。IEEE Transactions on Visualization andComputer Graphics，2021年。1月0[11] Clement Godard，Oisin Mac Aodha，Michael Firman和GabrielBrostow。深入研究自监督单目深度估计。在ICCV上，页3827-3837，2019年。3月，5月0[12] 郭梦豪，蔡俊雄，刘正宁，穆太江，Ralph R.Martin和胡士民。PCT：点云变换器。CoRR，abs/2012.09688，2020年。4月0[13] Kaiming He，Xiangyu Zhang，Shaoqing Ren和JianSun。深度残差学习用于图像识别。在IEEE计算机视觉与模式识别会议上，页770-778，2016年。3月0[14] Yisheng He, Wei Sun, Haibin Huang, Jianran Liu,Haoqiang Fan, and Jian Sun.Pvn3d:一种用于6自由度姿态估计的深度逐点3D关键点投票网络。在IEEE/CVF计算机视觉与模式识别会议论文集中，页码11632-11641，2020年。1,3,4,80[15] Tomas Hodan, Daniel Barath, and Jiri Matas.Epos:用于具有对称性的物体6D姿态估计。在IEEE/CVF计算机视觉与模式识别会议论文集中，页码11703-11712，2020年。1,20[16] Yinlin Hu, Pascal Fua, Wei Wang, and Mathieu Salzmann.单阶段6D物体姿态估计。在IEEE/CVF计算机视觉与模式识别会议论文集中，页码2930-2939，2020年。2,4,5,6,7,80[17] Yinlin Hu, Joachim Hugonot, Pascal Fua, and MathieuSalz- mann.基于分割的6D物体姿态估计。在IEEE/CVF计算机视觉与模式识别会议论文集中，页码3385-3394，2019年。1,2

下载后可阅读完整内容，剩余1页未读，立即下载