没有合适的资源?快使用搜索试试~ 我知道了~
4233G2 L-Net:用于嵌入矢量特征的实时6D位姿估计的全局到局部网络Wei Chen1,2Xi Jia1Hyung Jin Chang1Jinming Duan1AlesLeonardis11伯明翰大学计算机科学学院2国防科技{Rwxc795,X.Jia.1,h.j. chang,j. duan,a. leonardis}@ cs.bham.ac.uk摘要在本文中,我们提出了一种新的实时6D对象姿态估计框架,命名为G2 L-Net。我们的网络以分而治之的方式对RGB-D检测的点云具体来说,我们的网络包括三个步骤。首先通过二维检测从RGB-D图像中提取出粗目标点云;其次,我们将粗对象点云馈送到平移定位网络以执行3D分割和对象平移预测。第三,通过预测的分割和平移,我们将精细的目标点云转换到一个局部规范坐标中,在该坐标中训练旋转局部化网络来估计初始目标旋转。在第三步中,我们定义逐点嵌入向量特征来捕获视点感知信息。为了计算更精确的旋转,我们采用旋转残差估计器来估计初始旋转和地面真实值之间的残差,这可以提高初始位姿估计性能。我们提出的G2 L-Net是实时的,尽管事实上多个步骤是通过提出的粗到细框架堆叠的。在两个基准数据集上进行的大量实验表明,G2 L-Net在准确性和速度方面都达到了最先进的性能11. 介绍实时性能在许多计算机视觉任务中很重要,例如对象检测[35,23],语义分割[36,10],对象跟踪[5,11]和姿态估计[29,38,16]。在本文中,我们对实时6D对象姿态估计感兴趣,这对增强现实[25,26],智能医疗和机器人操作[47,39]有重大影响。1代码:https://github.com/DC1991/G2L_Net。图1. G2 L-Net的三个步骤。我们提出了一种新的实时点云为基础的网络6D物体姿态估计称为G2 L-Net。我们的G2 L-Net包含全局定位、对象平移定位和旋转定位。对于旋转局部化,我们提出逐点嵌入向量特征(EVF)和旋转残差估计器来获得准确的旋转。深度学习方法在姿态估计任务中表现出了最先进的性能,但其中许多[42,33,28,21]无法实时运行。虽然前-有 一 些 实 时 深 度 学 习 方 法 [29 , 34 , 38 , 45](>20fps),它们只使用图像中的RGB信息。仅使用RGB的一个主要限制是,从这些信息中学习到的特征对遮挡和照明变化敏感,这使得这些方法无法应用于复杂的场景。基于深度信息的深度学习方法[17,21]更适合现实复杂的场景,但它们通常是计算密集型的。这些基于RGBD的方法的一个共同问题是,从深度信息中利用视点信息不是非常有效,从而降低了它们的姿态估计精度。为了克服这一点,这些方法倾向于使用后细化机制或假设生成/验证机制来提高姿态估计精度。然而,这降低了姿态估计的推断速度。本文针对基于深度的方法存在的问题,提出了一种全局到局部的实时网络(G2 L-Net),增加了两个模块,+CNN3D切分翻译 本地化EVF旋转定位旋 转 残差估计量全局定位翻译本地化旋转定位RGB深度4234是逐点嵌入向量特征提取器和旋转残差估计器。建立在[30]的基础上,我们的方法有三个主要的新颖之处:i)代替通过平截头体定位对象点云,我们通过3D球体定位对象点云,这可以将3D搜索范围限制在更紧凑的空间中(详见第3.1节),ii)代替直接回归全局点特征来估计姿态,我们提出逐点嵌入向量特征来有效地捕获视点信息,以及iii)我们估计预测的旋转和地面实况之间的旋转残差。旋转残差估计器进一步提高了姿态估计精度。我们评估我们的方法上两个广泛使用的6D对象姿态估计数据集,即。[12]和YCB-Video [42] 数 据 集 。 实 验 结 果 表 明 , G2 L-Net 在LINEMOD数据集上的准确性和速度方面优于最先进的基于深度的方法,并且G2 L-Net在YCB-Video数据集上实现了相当的准确性,同时是最快的方法。综上所述,本文的主要贡献如下:• 我们提出了一种新的实时框架,以全局到局部(G2 L)的方式从RGB-D数据中估计6D对象姿态。由于有效的特征提取,框架在GTX 1080 Ti GPU上运行速度超过20 fps,对于许多应用程序来说已经足够快了。• 我 们 提 出 了 基 于 方 向 的 逐 点 嵌 入 向 量 特 征(EVF),它更好地利用了视点信息比传统的全球点特征。• 我们提出了一种旋转残差估计器来估计预测旋转和地面真实值之间的残差,进一步提高了旋转预测.2. 相关工作来自RGB图像的姿态估计:传统方法[12,19,24]通过匹配3D模型和测试图像之间的RGB特征来计算6D对象姿态。这些方法使用手工制作的特征,这些特征对背景杂波和图像变化不鲁棒[44,37,29]。学习型方法[33,29,34,28,15,38]通过训练他们的模型来预测2D关键点并通过Pestrian算法[9,20]计算对象姿势来缓解这个问题。[42,22,21]将姿态估计解耦为两个子任务:平移估计和旋转估计。更具体地说,他们将平移和旋转估计视为分类问题,并训练神经网络将图像特征分类到离散化的姿态空间中。然而,RGB图像特征可能受到光照的影响这种变化导致从RGB图像进行的姿态估计对光照变化更敏感。根据具有深度信息的RGB图像进行姿态估计:当深度信息可用时,先前的方法[2,41,13]从输入RGB-D学习特征数据,并采用对应分组和假设验证。然而,一些论文[44,37]发现这些方法对图像变化和背景杂波敏感。此外,对应分组和假设验证进一步增加了推理时间,呈现实时应用。一些方法[42,16]通过高度定制的迭代最近点(ICP)[6,1]在深度学习框架中采用后细化过程中的深度信息,这将显著增加算法的运行时间最近,几种深度学习方法[17,21]利用深度输入作为RGB通道的额外通道。然而,以这种方式组合深度和RGB信息不能充分利用数据中的几何信息,并且难以跨视点整合信息[27]。相反,在本文中,我们将深度图转换为3D点云,并通过点网络[31,30]直接处理3D点云,点网络比基于CNN的架构更有效地提取3D几何特征。从点云进行姿态估计:PointNets [31,30],Qi等人已经表明,通过点云表示在3D空间中使用深度信息可以实现更好的效果。性能优于2.5D空间。在此基础上,提出了一些基于PointNet的方法[30,40,46,43,4]来直接估计6D对象姿态。他们采用了一种类似于PointNet的架构[31]来从点云中访问姿势。在这项工作中,我们也利用PointNet的架构,但以不同的方式。不同于2D方法[42,21],我们将6D对象姿态估计解耦为三个子任务:全局定位、平移定位和旋转定位。对于前两个子任务,我们使用[30]中的类似方法,但在第3节中进行了一些改进。对于第三个子任务,我们提出了逐点嵌入矢量特征,更有效地利用了视点信息,我们还提出了一个旋转残差估计器,进一步提高了姿态估计的准确性。我们表明,通过这些改进,所提出的G2L网络实现了比最先进的方法更高的准确性,并以实时速度运行。3. 该方法在图2中,我们展示了我们提出的G2 L-Net的推理管道,它通过三个步骤来估计6D对象的姿态:全局定位,平移定位和旋转定位。在全局定位步骤中,我们使用一个三维球体来快速定位物体在三维空间中的位置在翻译本地化步骤中,我们训练PointNet来执行3D分割并估计对象翻译。在4235分段点独热类向量残差预测(a)全球本地化(b)翻译本地化旋转预测⊕旋转残差嵌入向量特征提取器CNN(c)旋转定位图2. 建议的G2 L-Net的推理管道。(a)对于RGB图像,我们使用2D检测器来检测目标对象的边界框(bbox)和对象标签,该对象标签用作以下网络的独热特征此外,我们还选择类概率图(cpm)中的最大概率位置作为球体中心(我们将此2D位置转换为具有已知相机参数和相应深度值的3D位置),用于进一步缩小3D搜索空间。(b)给定物体球体中的点云,我们使用平移定位网络来执行3D分割和平移残差预测。然后,我们使用3D分割掩模和预测的平移将对象点云转换为局部规范坐标。(c)在旋转定位网络中,我们首先使用逐点嵌入向量特征提取器来提取嵌入向量特征。然后我们把这个特征输入到两点云解码器:顶部解码器直接输出输入点云的旋转,底部解码器输出顶部解码器的输出在地面真实值之间的残差k是输出向量的维数空心第三步,利用提出的逐点嵌入向量特征和旋转残差估计进行旋转估计请注意,该旋转残差估计器与先前方法[42,16]中的后细化组件不同,它与初始旋转同步输出旋转残差在下面的小节中,我们将详细描述每个步骤。3.1. 全局定位快速定位目标物体的全局位置在整个场景中,我们训练了一个2D CNN检测器YOLO-V3 [35],以检测RGB图像中的对象边界框,并输出对象标签,该对象标签用作一个热类向量,用于更好的点云实例分割,平移和旋转估计。在[30]中,他们使用2D边界框来生成只减少两个轴(x,y)的3D搜索空间的截头体提案。因此,我们建议采用3D球体来进一步减少第三轴上的3D搜索空间,(z)(详见图3)。3D球体的中心从具有已知相机参数和对应深度值的类概率图中的最大值的2D位置转移这个的半径3D球体是检测到的物体的直径。我们只选择这个紧凑的3D球体中的点,这使得以下步骤的学习任务更容易。3.2. 翻译本地化虽然提取的点云是紧凑的,但仍然存在两个问题:1)该3D空间中的点云包含物点和非物点,以及2)由于未知的平移,物点不能被转移到局部规范坐标。为了应对这些问题,类似于[30],我们训练两个PointNet [31]来执行3D分割并输出残差距离||T−T<$||2之间的平均值T'的分割点和ob-项目翻译T.该残差可用于计算对象的平移3.3. 基于嵌入向量特征的旋转定位从前两步开始,我们将物体的点云转移到一个局部正则空间,在这个空间中视点信息更加明显。从理论上讲,我们至少需要四个不同的视点来覆盖3D空间中物体的所有点(见图4)。对于姿态估计任务,我们256128最大池6464641281024最大池256128RGBPC深度128256512最大池1024128646464深度最大游泳池2565121024128256512最大池2561283bboxCPM类4236ABC(a)(b)第(1)款图3. 全局3D球体。在全局定位步骤中,我们通过包围盒和三维球体来定位目标点云。(a)仅通过边界框定位对象点云。在这种情况下,它只能定位二维空间中的物体,某些点仍然可以在第三轴上离物体很远(b) 通过边界框和3D球体定位对象点云所有的点都在一个更紧凑的空间里。图4. 不同的观点。对于3D对象,我们需要至少四个视点来覆盖3D对象的所有点。通常在训练期间对于一个对象具有数百个不同的视点。我们的目标是充分利用视点信息。在[30]中,他们使用PointNets [31,32]从整个点云中提取全局特征。然而,在我们的实验中,我们发现从相似视点下的点云中提取的全局点特征高度相关,这限制了泛化性能(参见实验部分中的图9为了克服全局点特征的局限性,我们提出了逐点嵌入向量特征。具体来说,我们设计了如图5所示的旋转定位网络架构,以预测指向关键点的逐点单位向量(如图6所示)。重点是图5. 旋转定位网络的架构。在训练阶段,旋转定位网络分为三个模块我们训练块A来预测指向关键点的单位向量,这个块的损失函数是预测的方向向量和地面真实方向向量之间的均方误差通过训练这个块,网络可以学习如何从输入点云中提取逐点嵌入矢量特征注意,块A未部署在推断阶段中。然后,我们使用块B来整合逐点嵌入向量特征以预测对象旋转。该块的损失函数是预测的旋转和地面实况之间的均方误差对于旋转残差估计器块C,我们使用预测的3D关键点位置(块B的输出)与地面实况之间的欧几里得距离作为地面实况。k是输出旋转向量的维度,并且v是输出方向向量vector. 空心图6. 点式矢量。在这里,我们显示指向一个关键点的逐点向量,该关键点以绿色显示,其他关键点以黑色显示。我们训练我们的网络来预测这样的方向向量,基于每个3D对象模型的一些预定义的3D点关键点需要确定两个方面:号码和位置。一个简单的方法是使用对象模型的3D边界框的8个角作为关键点,如图7(a)所这个定义被许多基于CNN的方法广泛用于2D情况[33,34,28,38]。另一种方法是,如[29]中所提出的,使用最远点采样(FPS)算法对每个对象模型中的关键点进行采样。图7显示了不同关键点嵌入向量特征提取器最大池1282561024512256最大游泳池256128512256128128PC6464641281024最大池4237K˜n×3(a)(b)第(1)款图7. 不同关键点选择方案的可视化。左图是一个三维物体点云及其三维边界框;右侧图像是FPS算法选择的关键点。关键点以红色显示。选择方案。在第4.4节中,我们展示了关键点的数量和位置如何与[4]类似,我们提出的旋转定位网络在局部规范空间中获取对象点云,并输出指向关键点的逐点单位向量损失函数定义如下:θ=min1 ΣΣǁv˜k(Xi;θ)−v k(Xi)ǁ2,(1)我们的旋转残差估计是||P-P||二、随着旋转网络的如果旋转定位网络能够充分利用嵌入矢量特征时,旋转残差估计的作用可以忽略。然而,当旋转网络不能充分利用嵌入向量特征时,旋转残差估计器将对最终结果产生很大影响,我们在图9(b)中展示了旋转残差估计器的这一特性请注意,我们提出的旋转残差估计器与先前最先进方法中的后细化模块不同[42,40,22]。我们提出的旋转残差估计器输出旋转残差与估计旋转同步,这节省了运行时间。4. 实验本实验分为两个部分。首先,我们对关键点选择方案进行了消融研究,并经验性地验证了我们的新框架中引入的三个创新:3D球体(然后,我们测试我们提出的G2 L-Net上的两个基准数据集,即。LINEMOD和YCB-Video数据集。我们的方法在两个数据集上都实现了最先进的实时性能。4.1. 实现细节θK| X| k=1i2我们使用Pytorch实现我们的框架。 我们有其中K是关键点的数量。 θ是网络pa-在Intel i7- 4930 K 3.4GHz上进行了所有实验半径。vk(Xi;θ)和vk(Xi)是预测向量GTX 1080 Ti GPU首先,我们微调YOLO-v3 [35]架构是在IM上预先训练的,物体指向局部坐标空间。|是物点的数量。|is thenumber of object points.与其他最先进的方法[29,42,4]不同,我们采用多层感知器(MLP),其将逐点嵌入向量特征作为输入并输出对象的旋转,如图5所示。请注意,在推理过程中,我们使用旋转矩阵来表示使用Kabsch算法从关键点位置计算的旋转。在训练过程中,根据逐点向量的定义,我们仅使用关键点位置来表示旋转。在实验中,我们发现我们提出的方法可以比方法[29,42,4]更快,更准确地预测。旋转残差估计量:为了更好地利用逐点嵌入向量特征中的视点信息,我们添加了额外的网络分支(图5中的框C)以估计估计旋转(图5中的框B)和地面实况之间的残差。然而,我们没有这个残差估计量的基础事实为了解决这个问题,我们在线训练这个估计器。假设旋转定位网的块B的地面真实值工作是P,块B的输出是P,则ageNet [7]来定位2D感兴趣区域并访问类概率图。然后,我们使用PointNet [31]作为我们的骨干网络来联合训练我们提出的平移定位和旋转定位网络。这些网络的架构如图2所示。请注意,其他点云网络架构[32,46]也可以作为我们的骨干网络。对于点云分割,我们使用交叉熵作为损失函数。对于翻译残差预测,我们采用均方误差,在我们的实验中的单位是毫米。我们训练我们的旋转定位网络,如图5所示。我们使用Adam [18]来优化提出的G2 L-Net。我们将初始学习率设置为0.001,每50个epoch减半。最大epoch为200。4.2. 数据集LINEMOD[12]是用于6D对象姿态估计的广泛使用的数据集。这个数据集中有13个对象对于每个对象,大约有1100-1300个带注释的图像,每个图像只有一个带注释的对象。该数据集展示了姿态估计的许多挑战:无纹理对象、杂乱场景和照明条件变化。和地面实况。 X ∈代表4238˜˜˜˜1Σ表1. LINEMOD数据集上不同新颖性的消融研究。我们用来衡量性能的指标是ADD(-S)指标。“SP” means 3D sphere,“EVF” means embedding vector feature, and “RRE” denotesrotation residual(a)(b)( c ) 第(1)款图8. 点云标注。(a)LINEMOD数据集中猫的对象模型(b)从目标区域的深度图像中提取点云;(c)将变换后的对象模型重叠在点云上。我们根据点与相应的变换对象模型之间的最短距离来YCB-Video[42]包含21个YCB对象实例的92个真实视频序列[3]。由于图像噪声和遮挡,该数据集具有挑战性。然而,LINEMOD和YCB-Video数据集都不包含点云每个点的标签。为了以有监督的方式训练G2 L-Net,我们采用了一种自动一种自动标记点云的方法[?].如[?],我们分两步标记每个点。§首先,对于对象的3D模型,我们将其转换为相机使用相应的地面实况进行协调。我们采用[14]为这个过程提供的实现。其次,对于目标区域中点云上的每个点,我们计算其到变换后的对象模型的最近距离。如果距离小于一个值=8mm,我们将该点标记为1(属于对象),否则标记为0。图8显示了标记过程。4.3. 评估指标我们使用ADD度量[12]来评估LINEMOD数据集上的G2 L-Net:1<$(R·x+T)−(R·x+T)<$,(2)|M|x∈M哪里|M|是对象模型中的点数。x表示对象3D模型中的点。R和T是地面实况姿态,并且R和T是估计姿态。在此度量中,转换后的两者之间的平均距离计算点集。当平均距离小于3D对象模型直径的10%时,我们认为估计的6D姿态是正确的。对于对称对象,我们采用ADD-S度量[12],其中平均距离使用最短点距离计算:表2. LINEMOD数据集上不同关键点参数的消融研究。我们用来衡量性能的指标是ADD(-S)指标。BBX-8表示使用3D边界框的8个角作为关键点。FPS-K表示我们采用FPS算法生成的K个方法BBX-8FPS-4FPS-8FPS-12ACC百分之九十八点七百分之九十八点五百分之九十八点四百分之九十八点六速度(fps)23232323其是准确度阈值曲线下的面积。最大阈值设置为10 cm[42]。4.4. 消融研究与基线方法[30]相比,我们提出的方法有三个新颖之处。首先,与文献[30]中的平截头体方法不同,本文采用三维球面快速定位目标点云。其次,我们使用所提出的逐点嵌入向量特征来估计点云的旋转,这可以更好地利用视点信息。第三,我们提出了一个旋转残差估计器来估计地面真实值和预测旋转之间的旋转残差。从表1中,我们可以看到,提出的三个改进可以提高性能。我们还比较了表2中的不同关键点选择方案,然而,它表明不同的关键点选择方案在最终结果中几乎没有差异。为了简单起见,我们在实验中使用3D边界框的8个角4.5. 泛化性能在本节中,我们评估了我们的G2 L-Net的泛化性能。我们逐渐减少训练数据的大小,以了解算法的性能如何影响LINEMOD数据集。从图9(a)中可以看出,即使只有5%的训练数据(正常设置的1/3)用于网络训练,性能(88.5%)仍然相当。1Σmin<$(R·x1+T)−(R<$·x2+T<$)<$。(三)4.6. 与最先进方法的|x ∈M x 2 ∈M|x ∈M x2 ∈M当在YCB视频数据集上进行评估时,与[42,29,21]相同,我们使用[42]中提出的ADD-S AUC度量LINEMOD上的对象6D姿态估计:与其他最先进的方法一样,我们使用每个对象序列的15%进行训练,其余的序列进行测试方法SPEVFRREACC速度(fps)EXP1×××百分之九十三点四254239表3. LINEMOD数据集上的6D姿态估计精度。 我们使用ADD度量来评估这些方法。 对于对称对象 鸡蛋盒和胶水,我们使用ADD-S度量。请注意,我们总结了LINEMOD数据集上原始论文中报告的姿态估计结果。方法PVNet [29]PoseCNN +DeepIM [42,21]DPOD [45]FRUSTUM-P[30][13]第十三话[40]第四十话我们输入RGBRGBRGBRGB+深度深度RGB+深度RGB+深度细化×CC(×)×CC(×)×猿百分之四十三点六77.0%87.7%(53.3%)百分之八十五点五百分之九十八点五92.3%(79.5%)百分之九十六点八台钳百分之九十九点九97.5%98.5%(95.3%)百分之九十三点二百分之九十九93.2%(84.2%)百分之九十六点一相机86.9%93.596.0%(90.4%)百分之九十百分之九十九点三94.4%(76.5%)98.2%可以百分之九十五点五96.5%99.7%(94.1%)百分之九十一点四百分之九十八点七93.1%(86.6%)百分之九十八猫79.3%百分之八十二点一94.7%(60.4%)96.5%百分之九十九点九96.5%(88.8%)99.2%司钻百分之九十六点四95.0%98.8%(97.7%)百分之九十六点八百分之九十三点四87.0%(77.7%)百分之九十九点八鸭百分之五十二点六百分之七十七点七86.3%(66.0%)百分之八十二点九98.2%92.3%(76.3%)百分之九十七点七蛋盒99.2%97.1%99.9%(99.7%)百分之九十九点九百分之九十八点八99.8%(99.9%)百分百胶95.7%百分之九十九点四96.8%(93.8%)99.2%75.4%100%(99.4%)百分百孔打孔机百分之八十一点九52.8%86.9%(65.8%)百分之九十二点二百分之九十八点一92.1%(79.0%)百分之九十九铁百分之九十八点九百分之九十八点三100%(99.8%)百分之九十三点七百分之九十八点三97.0%(92.1%)百分之九十九点三灯百分之九十九点三97.5%96.8%(88.1%)98.2%96.0%95.3%(92.3%)百分之九十九点五电话92.4%百分之八十七点七94.7%(74.2%)94.2%百分之九十八点六92.8%(88.0%)百分之九十八点九速度(FPS)255三十三(四十)128十六(二十)23平均86.3%88.6%95.2%(83.0%)百分之九十三点四百分之九十六点三94.3%(86.2%)百分之九十八点七表4. YCB-V数据集上的6D姿态估计精度。我们使用ADD-SAUC度量来评估这些方法。(a)(b)第(1)款图9. LINEMOD数据集上方法性能的可视化。(a)使用ADD度量的训练数据大小的影响。当使用相同的训练规模时,与Frustum-P [30]相比,我们的方法显着提高了性能。为了简单起见,这里我们提供了地面真实2D边界框,并随机选择一个对象点作为3D球体中心进行评估。(b)随着旋转定位网络的收敛,旋转残差估计器(RRE)的影响减小。LINEMOD数据集。在表3中,我们将我们的方法与最先进的RGB和RGB-D方法进行了比较。括号中的数字是未经后细化的结果。我们使用Frustum-P [30]作为基线。我们重新实现Frustum-P回归3D边界框角的对象。从表3中,我们可以看到,我们的方法在ADD准确度方 面 比 基 线 高 出 5.4% , 并 且 比 基 线 方 法 快 2 倍 。Comparing to the second-best method [13] that using depthinformation, our method outperforms it by 2.4% in ADDaccuracy and runs about 3 times faster than it. AlthoughDPOD and PVNet are faster than our method, they onlytake RGB image as input.当使用深度信息时,我们的方法实现了方法(RGB+深度)PoseCNN [42] + ICP[21]第二十一话[40]第四十话(no细化)我们002主厨可以百分之九十五点八百分之九十六点二95.2%94.0%003饼干盒百分之九十一点八百分之九十点九百分之九十二点五88.7%004糖盒百分之九十八点二95.3%百分之九十五点一96.0%005番茄汤罐头94.5%百分之九十七点五百分之九十三点七百分之八十六点四006芥末瓶百分之九十八点四97.0%95.9%95.9%007金枪鱼罐头百分之九十七点一百分之九十五点一百分之九十四点九96.0%008布丁盒百分之九十七点九94.5%百分之九十四点七百分之九十三点五009明胶盒百分之九十八点八96.0%百分之九十五点八百分之九十六点八010罐装肉罐头92.8%百分之九十六点七90.1%百分之八十六点二4240最快的推理速度。在图10中,我们提供了预测姿态与地面实况姿态的视觉比较YCB-Video上的对象6D姿态估计与LIMEMOD数据集不同,在YCB-Video数据集中,每帧可能包含多个目标对象。我们的方法还可以快速估计多个对象的6D姿态。表4根据ADD-S AUC度量对YCB视频数据集比较了我们的方法与其他最先进的方法[42,21,40从表4中,我们可以看到,我们的方法达到了相当的准确度(92.4%),并且是4241图10. LINEMOD数据集上的定性姿态估计结果。绿色3D边界框表示地面实况。蓝色3D边界框代表我们的结果。我们的结果与地面实况很吻合。图11. 在YCB-Video上可视化姿态估计结果。白色3D边界框是地面实况。彩色3D边界框代表我们的结果。对于不同的对象,我们的预测与地面实况很好地匹配。在所有比较中最快的一个(21 fps)。在图11中,我们还提供了这个数据集的可视化结果。4.7. 运行时间For a single object, given a 480 × 640 RGB-D image,our method runs at 23fps on a PC environment (an Intel i7-4930K 3.4GHz CPU and one GTX 1080 Ti GPU).具体地,2D检测器花费11ms用于对象定位,并且包括平移定位和旋转定位的姿态估计部分花费32ms。旋转残差估计器花费小于1ms。5. 结论在本文中,我们提出了一种新的实时6D对象姿态估计框架。我们的G2 L-Net将物体姿态估计分为三个子任务:全球本地化基于嵌入向量特征的平移定位和旋转定位。在全局定位中,我们使用一个3D球体来约束3D搜索空间到一个比3D平截头体更紧凑的空间。然后,我们执行3D分割和对象平移估计。我们使用3D分割掩模和估计的对象平移将对象点转移到局部坐标空间。由于视点信息在这个规范空间中更明显,我们的网络可以更好地捕获视点信息与我们提出的逐点嵌入向量特征。此外,为了充分利用视点信息,我们添加了旋转估计估计器,它学习估计的旋转和地面真实值之间的残差。在实验中,我们证明了我们的方法达到了最先进的实时性能。虽然我们的G2 L-Net实现了最先进的性能,但我们的框架存在一些限制。首先,我们的G2 L-Net依赖于一个强大的2D检测器来检测感兴趣的区域。其次,虽然我们的网络利用了来自对象点云的视点信息,但纹理信息没有得到很好的利用。在未来的工作中,我们有一个克服这些限制的计划。致谢我们感谢国防部/国防科技工业局和欧洲议会-SRC(EP/N 019415/1)提供赠款,以支持英国学者参与MURI项目。4242引用[1] Paul J Besl和Neil D McKay。三维形状配准方法。在Sensor Fusion IV 中 : Control Paradigms and DataStructures,第1611卷,第586-607页。国际光学与光子学学会,1992年。2[2] Eric Brachmann、Alexander Krull、Frank Michel、StefanGumhold、Jamie Shotton和Carsten Rother。使用3d对象坐标 学习 6d对象 姿态 估计 。 欧洲 计算 机视 觉会 议(ECCV),第536-551页。Springer,2014. 2[3] Berk Calli、Aaron Walsman、Arjun Singh、SiddharthaSrini-vasa、Pieter Abbeel和Aaron M Dollar。 操纵研究中的基准:ycb对象和模型集以及基准测试协议。arXiv预印本arXiv:1502.03143,2015。6[4] Wei Chen , Jinming Duan ,Hector Basevi ,Hyung JinChang,and Ales Leonardis.Ponitposenet:用于鲁棒6d物体姿态估计的点姿态网络。在IEEE计算机视觉应用冬季会议(WACV)上,2020年3月。二、五[5] 陈伟,郭熙凤,刘新旺,朱恩,尹建平.跟踪过程中的外观变化检测。在[14] To ma´sˇHoda nˇ、Ji ˇr´ıMatas和Sˇt eˇ p a´ nObdr zˇa´ lek。关于6d 物 体 姿 态 估 计 的 评 估 在 欧 洲 计 算 机 视 觉 会 议(ECCV)中,第606施普林格,2016年。6[15] Yinlin Hu,Joachim Hugonot,Pascal Fua,and MathieuSalzmann.分割驱动的6d物体姿态估计。在IEEE计算机视觉和模式识别会议(CVPR)上,2019年6月。2[16] Wadim Kehl , Fabian Manhardt , Federico Tombari ,Slobo- dan Ilic,and Nassir Navab. Ssd-6d:让基于rgb的3d检测和6d姿态估计再次变得强大。在IEEE国际计算机视觉会议(ICCV),第1521-1529页一、二、三[17] Wadim Kehl 、 Fausto Milletari 、 Federico Tombari 、Slobodan Ilic和Nassir Navab。局部rgb-d补丁的深度学习,用于3d对象检测和6d姿态估计。在欧洲计算机视觉会议(ECCV)中,第205- 209220.施普林格,2016年。一、二[18] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。5[19] Vincent Lepetit,Pascal Fua,等.基于单目模型的刚性物体的3D跟踪:一个调查。基础2016第23届模式识别(ICPR),第1821-1826页。IEEE,2016. 1和TrendsR2005. 2在计算机图形学和视觉,1(1):1-89,[6] 杨晨和杰拉德·梅迪奥尼。用多幅深度图像的遥感进行目标建模图像与视觉计算,10(3):145-155,1992. 2[7] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别会议(CVPR)中,第248-255页。Ieee,2009年。5[8] 约翰·E·德雷姆一种同周期四星连续全球覆盖星座。Journal of Guidance , Control , and Dynamics , 10(5):492-499,1987. 3[9] Xiao-Shan Gao,Xiao-Rong Hou,Jianliang Tang,andHang-Fei Cheng.透视三点问题的完全解分类。IEEE模式分析与机器智能学报,25(8):930-943,2003年。2[10] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick.面具R-CNN。在IEEE国际计算机视觉会议(ICCV),第2961-2969页,2017年。1[11] JoaoFHenriques , RuiCaseiro , PedroMartins ,andJorgeBatista.用核相关滤波器进行高速跟踪。IEEEtransactionsonpatternanalysisandmachineintelligence,37(3):583-596,2014. 1[12] Stefan Hinterstoisser,Vincent Lepetit,Slobodan Ilic,Ste- fan Holzer , Gary Bradski , Kurt Konolige , andNassir Navab.基于模型的训练,检测和姿态估计无纹理三维物体在严重混乱的场景。亚洲计算机视觉会议,第548-562页。Springer,2012. 二、五、六[13] Stefan Hinterstoisser、Vincent Lepetit、Naresh Rajkumar和Kurt Konolige。进一步介绍点对特征。欧洲计算机视觉会议(ECCV),第834-848页。施普林格,2016年。二、七[20] Vincent Lepetit , Francesc Moreno-Noguer , and PascalFua. Epnp:pnp问题的精确O(n)解。国际计算机视觉杂志,81(2):155,2009。2[21] Chi Li,Jin Bai,and Gregory D.海格多视角多类别目标姿态估计的统一框架在欧洲计算机视觉会议(ECCV)上,2018年9月。一、二、六、七[22] 易 离 , 顾 望 , 向 阳 季 , 于 翔 , 迪 特 尔 福 克 斯 。Deepim:深度迭代匹配6D姿态估计。 在欧洲计算机视觉会议(ECCV)上,2018年9月。二、五[23] Wei Liu , Dragomir Anguelov , Dumitru Erhan ,Christian Szegedy , Scott Reed , Cheng-Yang Fu , andAlexander C Berg. Ssd:单发多盒探测器。在欧洲计算机视觉会议(ECCV)中,第21施普林格,2016年。1[24] 大卫·G·洛基于局部尺度不变特征的目标识别见iccv,第1150页。IEEE,1999年。2[25] Eric Marchand,Hideaki Uchiyama,and Fabien Spindler.增强现实的姿势估计:动手调查IEEE transactions onvisualization and computer graphics,22(12):2633-2651,2016。1[26] 艾坦·马德-埃普斯坦探戈计划。在ACM SIGGRAPH2016实时直播!,第40页。ACM,2016。1[27] Daniel Maturana和Sebastian Scherer。Voxnet:用于实时对象识别的3D卷积神经网络。在Intelligent Robots andSystems ( IROS ) , 2015IEEE/RSJInternationalConference on,第922-928页中。IEEE,2015年。2[28] Markus Oberweger,Mahdi Rad,and Vincent Lepetit.制作对3d对象姿态估计的部分遮挡鲁棒的深度热图。在欧洲计算机视觉会议(ECCV),第119-134页,2018年。一、二、四4243[29] 彭思达,刘元,黄七星,包虎军,周晓伟.Pvnet:用于6dof姿态估计的像素
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功