没有合适的资源?快使用搜索试试~ 我知道了~
11632PVN3D:一种用于6DoF位姿估计的深度逐点3D关键点投票网络何义生1孙伟2黄海滨3刘建然2范浩强2孙建21香港科技大学2Megvii Inc.3快手科技摘要在这项工作中,我们提出了一种新的数据驱动的方法,从一个单一的RGBD图像的鲁棒6DoF对象姿态估计与以前直接回归姿态参数的方法不同,我们采用基于关键点的方法来解决这个具有挑战性的任务具体来说,我们提出了一个深度Hough投票网络来检测物体的3D关键点,然后在最小二乘拟合的方式内估计6D姿态参数。我们的方法是2D关键点方法的自然扩展,该方法成功地用于基于RGB的6DoF估计。它允许我们充分利用刚性物体的几何约束和额外的深度信息,并且易于网络学习和优化。进行了大量的实验,以证明在6D姿态估计任务中的3D关键点检测的有效性。实验结果还表明,我们的方法优于国家的最先进的方法,在几 个 基 准 的 大 利 润 率 。 代 码 和 视 频 可 在https://github.com/ethnhe/PVN3D.git 上 获得。1. 介绍本文研究了6自由度姿态估计问题,即:识别对象在标准帧中的3D位置和方向。它是许多现实世界应用中的重要组成部分,例如机器人抓取和操纵[6,48,55],自动驾驶[11,5,53],增强现实[31]等。由于光照变化、传感器噪声、场景遮挡和物体截断等因素的影响,6DoF估计已被证明是一个相当具有挑战性的问题。传统的方法,如[19,30]使用手工制作的特征来提取图像和对象网格模型之间的对应关系。这种经验性的人类设计的特征将在改变照明条件的情况本工作得到了国家重点研究发展计划(2018YFC 0831700)的支持图1. PVN3D的流水线:对于输入RGBD图像(a),我们使用深度Hough投票网络来预测到所选关键点(b)的每点平移偏移。同一对象上的每个点为所选择的关键点投票,并且选择聚类的中心作为预测的关键点(c)。然后应用最小二乘拟合方法来估计6D姿态参数(d)-(e)。由估计的姿态参数变换的模型在图(f)中示出和严重遮挡的场景。最近,随着机器学习和深度学习技术的爆炸性增长,基于深度神经网络(DNN)的方法已被引入到这项任务中,并显示出有希望的改进。[50,52]提出直接使用DNN回归对象的旋转和平移。然而,由于[37]所解释的旋转空间的非线性,这些方法通常具有较差的推广性。相反,最近的工作利用DNN来检测对象的2D关键点,并使用Perspective- n-Point(PNN)算法计算6D姿态参数[37,36,41,47]。虽然这些两阶段方法表现得更稳定,但它们中的大多数都建立在2D投影之上投影中的小误差此外,3D空间中的不同关键点在2D投影之后可能重叠,使得它们难以区分。此外,刚性对象的几何约束信息将是11633部分原因是由于预测。另一方面,随着廉价RGBD传感器的发展,越来越多的RGBD数据集可用。额外的深度信息允许2D算法以更好的性能扩展到3D空间,如Point- Fusion [53],Frustum pointnets[39]和VoteNet[38]。为此,我们将基于2D关键点的方法扩展到3D关键点,以充分利用刚性物体的几何约束信息,并显着提高6DoF估计的更具体地说,我们开发了一个深度3D关键点Hough投票神经网络来学习逐点3D偏移并投票3D关键点,如图1所示。我们的关键观察是一个简单的几何性质,在3D空间中的刚性物体的两点之间的位置关系是固定的。因此,给定对象表面上的可见点,可以从深度图像获得其坐标和取向,并且其到所选关键点的平移偏移也是固定的和可学习的。同时,学习逐点欧几里德偏移对于网络来说是直接的,并且更容易优化。为了处理多个对象的场景,我们还将实例语义分割模块引入网络,并与关键点投票联合优化。我们发现,联合训练这些任务可以提高彼此的表现。具体地,语义信息通过识别点属于哪个部分来改进平移偏移学习,并且平移偏移中包含的大小信息帮助模型区分具有相似外观但不同大小的对象。我们进一步在YCB-Video和LineMOD数据集上进行实验来评估我们的方法。实验结果表明,我们的方法优于当前国家的最先进的方法的显着保证金。概括起来,这项工作的主要贡献如下:• 一种新的深度3D关键点Hough投票网络,具有实例语义分割,用于单个RGBD图像的6DoF姿态估计。• YCB和LineMOD数据集上最先进的6DoF姿态估计性能• 深入分析我们的基于3D关键点的方法,并与以前的方法进行比较,这表明3D关键点是提高6DoF姿态估计性能的关键因素我们还表明,联合训练3D关键点和语义分割可以进一步提高性能。2. 相关工作2.1. 整体方法整体方法直接估计给定图像中的对象的3D位置和取向。经典模板-基于的方法构建刚性模板并扫描图像以计算最佳匹配姿势[21,13,17]。这样的模板对于聚集的场景不鲁棒最近,提出了一些基于深度神经网络(DNN)的方法来直接回归相机或物体的6D姿态[52,50,14]。然而,旋转空间的非线性使得数据驱动的DNN难以学习和泛化。为了解决这个问题,一些方法使用后细化过程[26,50]来迭代地细化姿态,其他方法离散旋转空间并将其简化为分类问题[49,43,45]。对于后一种方法,仍然需要后细化过程来补偿离散化牺牲的精度。2.2. 关键点方法现有的基于关键点的方法首先检测图像中目标的2D关键点,然后利用Pestrian算法来估计6D姿态。经典方法[30,42,2]能够有效地检测具有丰富纹理的对象的2D关键点。然而,它们不能处理无纹理对象。随着深度学习技术的发展,提出了一些基于神经网络的二维关键点检测方法。[41,47,20]直接回归关键点的2D坐标,而[33,24,34]使用热图来定位2D关键点。为了更好地处理截断和遮挡的场景,[37]提出了一个像素级投票网络来投票2D关键点位置。这些基于2D关键点的方法旨在最小化对象的2D投影误差。然而,在投影中小的误差在真实3D世界中可能[46]从合成RGB图像的两个视图中提取3D关键点以恢复3D姿态。然而,它们仅利用RGB图像,在RGB图像上,刚性物体的几何约束信息由于投影而部分丢失,并且在三维空间中的不同关键点在投影到2D后可能重叠,难以区分。廉价的RGBD传感器的出现使我们能够在3D中使用捕获的深度图像来完成所有事情。2.3. 稠密对应方法这些方法利用Hough投票方案[28,44,12]来投票获得具有每像素预测的最终结果。他们使用随机森林[3,32]或CNN [23,9,27,35,51]来提取特征并预测每个像素的相应3D对象坐标,然后投票决定最终的姿势结果。这种密集的2D-3D对应使得这些方法对被遮挡的场景鲁棒,而输出空间相当大。PVNet [37]使用2D关键点的每像素投票我们进一步将此方法扩展到具有额外深度信息的三维关键点,并充分利用刚性物体的几何约束。11634i=1j=1我我图2. PVN3D概述。特征提取模块从RGBD图像提取每点特征。它们被馈送到模块MK、MC和MS中,以分别预测到关键点、中心点和每个点的语义标签的平移偏移。然后应用聚类算法来区分具有相同语义标签的不同实例,并且相同实例上的点投票给它们的目标关键点。最后,将最小二乘拟合算法应用于预测的关键点以估计6DoF姿态参数。3. 该方法给定RGBD图像,6DoF姿态估计的任务是估计将对象从其对象世界坐标系变换到相机世界坐标系的刚性变换这种转换包括一个三维旋转R∈SO(3)和平移t ∈R3。3.1. 概述为了解决这一任务,我们开发了一种基于深度3DHough投票网络的新方法,如图2所示。所提出的方法是一个两阶段的管道与三维关键点检测,其次是姿态参数拟合模块。更具体地说,以RGBD图像作为输入,特征提取模块将用于融合外观-角特征和几何信息。所学习的特征将被馈送到3D关键点检测模块MK中它被训练来预测每个点相对于键的偏移量,通过我们设计的监督损失和我们采用的几个训练细节来实现3D关键点检测模块。如图2所示,利用由特征提取模块提取的每点特征,3D关键点检测模块MK用于检测每个对象的3D关键点。具体地说,MK预测每个点的欧几里得平移偏移,ble指向目标关键点。然后,这些可见点与预测的偏移一起为目标关键点投票然后通过聚类算法收集投票点,并选择聚类中心作为投票关键点。我们给一个更深层次的看法MK如下。 给定一组可见种子点{p i}N和一组选定关键点{kpj}M属于相同的对象实例I,我们记为pi=[xi;fi],其中xi是3D坐标,fi是ex。特色。 我们表示kpj=[yj],其中yj是关键点的3D坐标。MK吸收每个种子的特征f i点并为它们生成平移偏移{ofj}Mi j=1点 此外,我们还包括一个实例分割用于多个对象处理的模块,其中语义分割模块MS预测每个点的语义标记。其中,表示从第i个种子点到第j个关键点的平移偏移。然后,投票的关键点可以表示为vkpj=xi+ofj。监督学习bel,中心投票模块MC预测每个点jii偏移到对象中心。通过学习的每点偏移,对于i,我们应用L1损失:聚类算法[7]用于区分具有相同语义标签和点的不同实例,1ΣNL=ΣM ||I(p||I(pI)(1)相同的实例为它们的目标关键点投票。最后,将最小二乘拟合算法应用于预测关键点Ni=1j =1关键点来估计6DoF姿态参数。3.2. 学习算法我们的学习算法的目标是训练用于偏移预测的3D关键点检测模块MK以及用于实例级分割的语义分割模块MS和中心投票模块MC这自然使训练我们的网络多任务学习,这是其中,是地面实况平移偏移;M是所选择的目标关键点的总数;N是种子的总数,I是一个指示函数,只有当点p i属于实例I时才等于1,否则等于0。实例语义分割模块。为了处理具有多个对象的场景,先前的方法[50,53,39]利用现有的检测或语义分割架构来预处理图像并获得ROI(区域我我我11635j=1我我感兴趣的)仅包含单个对象。然后以提取的ROI作为输入建立姿态估计模型,简化问题。然而,由于我们已经制定的姿态估计问题,首先检测对象的关键点的平移偏移到关键点学习模块,我们相信,这两个任务可以提高彼此的性能。一方面,语义分割模块强制模型提取实例上的全局和局部另一方面,为预测关键点的偏移量而学习的大小信息有助于区分具有相似外观但不同的对象在尺寸上在这样的观察下,我们在网络中引入了逐点实例语义分割模块MS,并与模块MK联合优化。具体地,给定每点提取的特征,语义分割模块MS预测每点语义标签。我们通过焦点损失来监督这个模块[29]:Lsemantic=−α(1−qi)γlog(qi)3.3. 培训和实施网络架构。图2中的第一部分是特征提取模块。在这 个 模 块 中 , PSPNet [54] 与 ImageNet [8] 预 训 练ResNet34 [16]被应用于提取RGB图像中的外观信息。PointNet++[40]提取点云及其法线映射中的几何信息它们进一步由DenseFusion块[50]融合以获得每个点的组合特征。经过本模块的过程,pi有一个C维特征fi∈RC以下模块MK、MS和MC由图2所示的共享多层感知器(MLP)组成。我们采样对于RGBD图像的每帧,N= 12288个点(像素),并且设置λ1=λ2=λ3= 1。0在公式4中。关键点选择。从3D对象模型中选择3D关键点。在3D对象检测算法[39,53,38]中,选择3D边界框的八个角。然而,这些边界框角是远离对象上的点的虚拟点,使得基于点的网络难以聚合它们附近的场景上下文到物点的距离越远其中qi =ci ·li(二)导致更大的定位误差,这可能对其中α是α平衡参数,γ是聚焦参数,ci是第i个点属于每个类的预测置信度,li是基础真实类标签的独热表示。同时,利用中心投票模块MC对不同对象的中心进行投票,以区分不同的对象。ent实例。我们在CenterNet [10]的启发下提出了这样的模块与2D中心点相比,3D因为我们可以把中心点看作6D位姿参数的计算相反,选择的点从物体表面看会更好。因此,我们遵循[37]并使用最远点采样(FPS)算法来选择网格上的关键点。具体来说,我们通过在空关键点集中添加对象模型的中心点来初始化选择过程。 然后更新它通过在网格上添加一个离所有选定关键点最远的新点来重复,直到获得M个关键点最小二乘拟合。给定物体的两个点集,一个点集来自M个检测到的k个点{kpj}M在相机坐标系,另一个从他们的corre-一个对象的一个特殊关键点,模块MC类似于"M3D关键点检测模块MK. 它接受每点特征,但预测到其所属对象中心的欧几里得平移偏移量x i。学习Brachixi是也受到L1损失的监督:在对象坐标系中的响应点{kpj}j=1,所述6D姿态估计模块计算所述姿态参数,ters(R,t)与最小二乘拟合算法[1],通过最小化以下平方损失来找到R和tL中心=1ΣNNi=1||I(p i ∈ I)(3)||I(p i∈ I)(3)L最小二乘=ΣMj=1′2||kpj−(R·kpj+t)||(五)其中,N表示对象表面上的种子点的总数,并且是从种子pi到实例中心的地面实况平移偏移I是指示点pi是否属于该实例的指示函数多任务丢失。 我们监督模块MK,MS和MC联合多任务损失:L多任务=λ1L关键点+λ2L语义+λ3L中心(四)其中λ1、λ2和λ3是每个任务的权重。实验结果表明,联合训练这些任务可以提高彼此的成绩。其中M是对象的选定关键点的数量。4. 实验4.1. 数据集我们评估我们的方法在两个基准数据集。YCB视频数据集包含21个不同形状和纹理的YCB [4采集了92个物体子集的RGBD视频,并使用6D姿态和物体语义掩码进行了注释。变化的光照条件、显著的图像噪声和遮挡使得该数据集具有挑战性。11636无迭代细化使用迭代细化[52]第五十二话DF(每像素)[50]PVN3DPoseCNN+ICP[52]DF(迭代)[50]PVN 3D +ICP添加ADD(S)添加ADD(S)添加ADD(S)添加ADD(S)添加ADD(S)添加ADD(S)002主厨可以83.950.295.370.796.080.595.868.196.473.295.279.3003饼干盒76.953.192.586.996.194.892.783.495.894.194.491.5004糖盒84.268.495.190.897.496.398.297.197.696.597.996.9005番茄汤罐头81.066.293.884.796.288.594.581.894.585.595.989.0006芥末瓶90.481.095.890.997.596.298.698.097.394.798.397.9007金枪鱼罐头88.070.795.779.696.089.397.183.997.181.996.790.7008布丁盒79.162.794.389.397.195.797.996.696.093.398.297.1009明胶盒87.275.297.295.897.796.198.898.198.096.798.898.3010罐装肉罐头78.559.589.379.693.388.692.783.590.783.693.887.9011香蕉86.072.390.076.796.693.797.191.996.283.398.296.0019投手垒77.053.393.687.197.496.597.896.997.596.997.696.9021漂白洁面乳71.650.394.487.596.093.296.992.595.989.997.295.9024碗69.669.686.086.090.290.281.081.089.589.592.892.8025马克杯78.258.595.383.897.695.494.981.196.788.997.796.0035电钻72.755.392.183.796.795.198.297.796.092.797.195.7036木块64.364.389.589.590.490.487.687.692.892.891.191.1037剪刀56.935.890.177.496.792.791.778.492.077.995.087.2040大标记71.758.395.189.196.791.897.285.397.693.098.191.6051大夹钳50.250.271.571.593.693.675.275.272.572.595.695.6052特大型夹具44.144.170.270.288.488.464.464.469.969.990.590.5061泡沫砖88.088.092.292.296.896.897.297.292.092.098.298.2所有75.859.991.282.995.591.893.085.493.286.196.192.3表1.YCB视频数据集上6D姿势(ADD-S AUC [52],ADD(S)AUC [19])的定量评价对称物体在大胆的。6D姿态[R,t]和地面真实姿态[R,t]:1ΣADD=||(Rx + t)−(R<$x + t<$)||(六)表2.YCB-Video数据集的定量评估结果与地面实况实例语义分割结果。mx∈O其中x是对象网格上总共m个顶点的顶点O. ADD-S度量是针对对称对象设计的,平均距离是基于最近点距离计算的:拉长我们遵循[52]并将数据集拆分为80个视频1用于训练,并从其余12个视频中选择另外2,949个关键帧用于测试。在[52]之后,我们添加了syn。ADD-S=M x1∈Omin||(Rx1+t)−(R x2+t)||x2∈O(七)我们的训练集。一个完整的孔-租m [25]也被应用于提高深度图像的质量。LineMOD数据集[18]由13个视频中的13个低纹理物体组成,注释了6D姿势和实例掩码。该数据集的主要挑战是杂乱的场景,无纹理的对象和照明变化。我们遵循先前的作品[52]来分割训练集和测试集。此外,我们遵循[37]并将合成图像添加到我们的训练集中。4.2. 评估指标我们遵循[52]并使用平均距离ADD和ADD-S度量[52]评估我们的方法。平均距离ADD度量[19]评估通过预测的为了评估,我们遵循[52,50]并计算ADD-S AUC,准确度-阈值曲线下面积,其通过在评估中改变距离阈值获得。ADD(S)[19] AUC以类似的方式计算,但计算非对称对象的ADD距离和对称对象的ADD-S距离。4.3. YCB视频LineMOD数据集评价表1显示了YCB-视频数据集中所有21个观测值的评价结果。我们比较我们的模型与其他单视图方法。如图所示,ble,我们的模型没有任何迭代细化过程(PVN 3D)超过了所有其他方法的一个很大的利润,即使他们是迭代细化。在ADD(S)度量上,我们的模型比PoseCNN+ICP [52]高6.4%不需要人。参考文献w/ iter. 参考文献DF(p.p.)PVN3DDF(iter.)PVN 3D+ICP大的钳位特大夹ADD-SADD-S87.775.093.990.190.374.996.293.6所有ADD-S93.395.794.896.492.711637RGBRGBDPoseCNNDeepIM[26,52]PVNet[37]CDPN[27]隐性ICP[45]SSD-6DICP[22][50]第五十话DF(每像素)[50]DF(迭代)[50]PVN3D猿77.043.664.420.665.070.479.592.397.3使变平97.599.997.864.380.080.784.293.299.7相机93.586.991.763.278.060.876.594.499.6可以96.595.595.976.186.061.186.693.199.5猫82.179.383.872.070.079.188.896.599.8司钻95.096.496.241.673.047.377.787.099.3鸭77.752.666.832.466.063.076.392.398.2蛋盒97.199.299.798.6100.099.999.999.899.8胶99.495.799.696.4100.099.399.4100.0100.0穿孔器52.882.085.849.949.071.879.092.199.9铁98.398.997.963.178.083.292.197.099.7灯97.599.397.991.773.062.392.395.399.8电话87.792.490.871.079.078.888.092.899.5所有88.686.389.964.779.073.786.294.399.4表3.在LineMOD数据集上对ADD(S)[19]度量的6D姿势进行定量评估粗体名称的对象是对称的。[50]第50话[50]第50话我们的(RT)我们的(2DKPC)我们的(2DKP)PVNet[37]我们的(更正)我们的(3DKP)ADD-SADD(S)92.286.993.187.992.887.378.273.881.877.2-73.492.888.195.591.8表4.在YCB-Video数据集上用不同配方定量评价6D姿势所有这些都是我们预测的分割。[第38话]BBox 8FPS 4FPS 8FPS 12ADD-SADD(S)89.985.194.090.294.390.595.591.894.590.7表5.PVN3D的不同关键点选择方法的效果VoteNet[38]的结果,另一种3D边界框检测方法被添加作为简单的基线,以与我们的BBox8进行比较而超过DF(迭代)[50]的5.7%。通过迭代细化,我们的模型(PVN 3D +ICP)实现了更好的性能。请注意,该数据集的一个挑战是区分大夹钳和超大夹钳,之前的方法[50,52]的检测结果较差。我们还在表2中报告了使用地面实况分割的评估结果,这表明我们的PVN3D仍然实现了最佳性能。一些定性结果如图3所示。表3显示了LineMOD数据集的评价结果。我们的模型也达到了最佳的性能。对遮挡场景稳健。我们基于3D关键点的方法的最大优点之一是它对自然遮挡具有鲁棒性。为了探索不同的方法如何受到不同程度的遮挡的影响,我们遵循以下步骤:[50]并计算物体表面上不可见点的百分比。ADD-S2cm在不同不可见表面百分比下的精度如图4所示。<当50%的点不可见时,不同方法的性能非常接近。然而,随着不可见部分百分比的增加,与我们相比,DenseFusion和PoseCNN+ICP下降得更快。图3显示,即使对象被严重遮挡,我们的模型也表现良好。4.4. 消融研究在这一部分中,我们探讨了不同的公式对6DoF位姿估计的影响以及关键点选择方法我们还探讨了多任务学习的效果。与直接回归姿势的比较。为了比较我们的基于3D关键点的公式与直接回归对象的6D姿态参数[R,t]的公式,我们简单地修改我们的3D关键点投票模块MK直接回归四元数旋转R和transla,每个点的参数t。我们还在DenseFusion [50]之后添加了置信度头,并选择具有最高置信度的姿势作为最终提出的姿势。我们在DenseFusion之后使用具有置信度正则化项[50]的ShapeMatch-Loss [52表4中的实验结果示出了我们的3D关键点公式执行得相当好。为了消除不同网络架构的影响,我们还修改了DenseFusion的头部(每像素),以预测每点平移偏移,并根据我们的关键点投票和最小二乘拟合过程计算6D姿态表4显示,表中的3D关键点公式DF(3DKP)比RT回归公式DF(RT)表现更好这与2D关键点的比较。 为了对比2D和3D关键点的影响,我们将投票的3D关键点投影回具有相机内在参数的2D。然后,应用具有随机采样一致性(RANSAC)的Pestrian算法来计算6D姿态参数。表4示出了在ADD-S度量下,具有3D关键点公式的算法(在表中表示为Ours(3D KP)这是因为PnP算法旨在最小化投影误差。然而,姿态估计11638图3. YCB-Video数据集上的定性结果。同一场景中不同网格上的点具有不同的颜色。它们在被预测的姿势变换之后被投影回图像。我们将没有任何迭代细化程序的PVN 3D与具有迭代细化(2次迭代)的DenseFusion进行了比较。我们的模型区分了具有挑战性的大型夹具和超大型夹具,并很好地估计了它们的姿态。我们的模型在严重遮挡的场景中也是鲁棒的。图4.在YCB-Video数据集上增加遮挡水平下不同方法的性能。在投影中很小的误差在3D真实世界中可能相当大。为了比较我们的实例语义分割模块中2D和3D中心点之间的影响,我们还将我们投票的3D中心点投影到实例语义分割模块中的2D(Ours(2D KPC))。我们采用一种类似Mean Shift的算法对投票的2D中心点进行聚类,以区分不同的实例,发现在遮挡场景中,不同的实例在2D上投影后,当它们的中心彼此靠近时很难区分,而在3D真实世界中,它们彼此远离,很容易区分注意,其他现有的2D关键点检测方法,例如热图[33,24,34]和向量投票[37]模型也可能受到重叠关键点的影响。根据定义,我们日常生活中大多数物体通常位于对象内,而它们在投影到2D后可能重叠。总之,物体世界是三维的,我们认为在三维上建立模型是非常重要的。与密集对应探索的比较。我们修改我们的3D关键点偏移模块MK,以输出对象中每个点的相应3D坐标坐标系,并应用最小二乘拟合算法来计算6DoF姿态。应用类似于公式3的L1损失来监督相应3D坐标的训练。评估结果在表4中显示为Ours(corr),这表明我们的3D关键点公式仍然表现得相当好。我们认为,回归对象坐标比关键点检测更困难。因为模型必须识别图像中网格的每个点并记住其在物体坐标系中的坐标。然而,检测相机系统中的对象上的关键点更容易,因为许多关键点是可见的,并且模型可以聚合它们附近的场景上下文选择3D关键点的效果。在这一部分中,我们选择了8个角的三维包围盒,并将它们与从FPS算法中选择的点进行比较。FPS生成的不同数量的关键点也被考虑在内。表5显示FPS算法在对象上选择的关键点使我们的模型能够更好地执行。这是因为边界框角是远离对象上的点的虚拟点。因此,基于点的网络难以在这些虚拟角点附近聚合场景上下文。另外,从FPS算法中选取的8个关键点是我们网络学习的好选择。当在最小二乘拟合模块中恢复姿态时,更多的关键点可以更好地消除错误,但网络更难学习输出11639图5. 具有挑战性的YCB-Video数据集语义分割的定性结果。(a)示出了地面实况标签。不同的对象以不同的颜色标记,其中大型夹钳标记为绿色,超大夹钳标记为橙色。在(b)-(c)中,简单基线PoseCNN[52]和Mask R-CNN [15]被两个对象混淆。 在(d)中,我们的语义分割模块MS,单独训练,也不能很好地区分它们。 在(e)中,联合训练MS与关键点偏移投票模块MK表现更好。在(f)中,使用投票中心和Mean-Shift聚类算法,我们的模型可以很好地区分它们MK+MRCMK+GTMK S、+GTMK SC、、、MK SC、、、+GTADD-S93.594.895.295.595.7ADD(S)89.790.691.391.891.9表6. PVN 3D在YCB-Video数据集中的所有对象上具有不同实例语义分割的性能。MK、MS和MC分别表示PVN 3D的关键点偏移模块、语义分割模块和中心点偏移模块。+MRC和+GT分别表示对Mask R-CNN和ground truth segmentation的分割结果的推断。[52]第五十二话[15]第十五话PVN3D(男、女)PVN3D(男、女、克)、PVN3D(M、S、K、C)、、、大的钳位43.148.458.662.570.2特大夹30.436.141.550.769.0表7.YCB-Video 数据集 上不同方法的 实例语义分 割结果(mIoU(%))联合训练语义分割模块和关键点偏移模块(MS,K)可以从偏移模块中获得尺寸信息,尤其是对大尺寸和特大尺寸的图像分割效果通过引入中心投票模块MC和Mean-Shift聚类算法,进一步提高了算法的性能。空间更大。选择8个关键点是一个很好的权衡。多任务学习的效果。在这一部分中,我们讨论了语义分割和关键点(中心)翻译偏移的联合学习如何提高性能。在表6中,我们探索了语义分割如何增强关键点偏移学习。我们去除语义分割和中心投票模块MS、MC,并分别训练我们的关键点投票模块MK在推理时间期间,应用由Mask R-CNN [15](MK+MRC)和地面实况(MK+GT)预测的实例语义分割实验结果表明,与语义分割(MK,S+GT)联合训练后,提高了关键点偏移投票的性能,提高了准确率在ADD(S)度量上6D姿态估计的0.7%。我们认为,语义模块提取全局和局部特征,以区分不同的对象。这样的特征还有助于模型识别点属于对象的哪一部分并改进偏移预测。在表7中,我们探索了关键点和中心点偏移学习如何改善实例语义分割结果。点平均交集超过并集(mIoU)被用作评估度量。我们报告了在YCB-Video数据集中对大钳和特大钳进行检查的结果。 它们的外观相同,但大小不同,如图5所示。我们用推荐的设置作为简单的基线训练了Mask R-CNN(ResNeXt-50-FPN)[15],发现它完全被两个对象混淆了。 有了额外的深度信息,我们的语义-单独训练的抽动分割模块PVN 3D(MS)也表现不佳。然而,与我们的关键点偏移投票模块(PVN 3D(MS , K))联合训练,在超大夹具上mIoU提高了9.2%。通过从中心投票模块MC获得的投票中心,我们可以使用Mean-Shift聚类算法分割对象,并将点分配到其最近的对象聚类。通过这种方式,超大夹具的mIoU进一步提高了一些定性结果如图5所示。5. 结论我们提出了一种新的深度3D关键点投票网络,具有用于6DoF姿态估计的实例语义分割,该网络在几个数据集上的性能大大优于所有以前的方法。我们还表明,联合训练3D关键点与语义分割可以提高彼此的性能。我们相信基于3D关键点的方法是探索6DoF姿态估计问题的一个有前途的方向。11640引用[1] K. S. Arun,T. S. Huang和S. D.布洛斯坦两个三维点集的最小二乘拟合。IEEE Transactions on Pattern Analysisand Machine Intelligence,(5):698-700,1987. 4[2] H. Bay,T. Tuytelaars和L.范古尔Surf:加速健壮的功能。在欧洲计算机视觉会议上,第404-417页Springer,2006年。2[3] E. Brachmann,A. Krull,F. Michel,S. Gumhold、J.Shotton和C.罗瑟 使用3d对象坐标学习6d对象姿态估计 。 在 欧 洲 计 算 机 视 觉 会 议 上 , 第 536-551 页 。Springer,2014. 2[4] B. Calli、黑冠草A.辛格A.Walsman,S.Srinivasa,P.阿比尔和A. M.美元. ycb对象和模型集:操纵研究的共同基准。2015年国际先进机器人会议(ICAR),第510- 517页IEEE,2015年。4[5] X. Chen,H. Ma,J. Wan,B. Li和T.夏用于自动驾驶的多视角三维物体检测网络。在IEEE计算机视觉和模式识别会议上,第1907-1915页,2017年。1[6] A.科莱M. Martinez和S. S.斯里尼瓦萨助力车框架:用于机 器 人 的 目 标 识 别 和 姿 态 估 计 。 The InternationalJournal of Robotics Research,30(10):1284-1306,2011. 1[7] D. Comaniciu和P.米尔Mean Shift:A Robust ApproachToward Feature Space Analysis(Mean Shift:一种稳健的特征空间分析方法 )IEEE Transactions on PatternAnalysis Machine Intelligence,(5):603-619,2002。3[8] J. Deng,W.东河,巴西-地索赫尔湖J. Li,K. Li和L.飞飞。Imagenet:一个大规模的分层图像数据库。 2009年IEEE计算机视觉和模式识别会议,第248-255页。Ieee,2009年。4[9] A.杜马诺格鲁河Kouskouridas,S. Malassiotis和T.-K. Kim. 恢复6d对象姿态并预测人群中的下一个最佳视图。在IEEE计算机视觉和模式识别会议论文集,第3583- 3592页,2016年。2[10] K. Duan,S.巴伊湖,加-地Xie,H.齐,阿根-地Huang和Q.田中心网:用于对象检测的关键点三元组。arXiv预印本arXiv:1904.08189,2019。4[11] A. Geiger,P. Lenz,和R.盖革,等.乌塔松我们准备好了吗?Kitti Vision基准套件。在2012年IEEE计算机视觉和模式识别会议上,第3354-3361页。IEEE,2012。1[12] D.博纳,M.加伦,S.阿尔珀特R.巴斯里,G.沙赫纳洛维奇感知对象检测和姿态估计。2011年国际计算机视觉会议,第1275-1282页。IEEE,2011年。2[13] C.顾和X。仁用于视点分类的判别性混合模板。在欧洲计算机视觉会议上,第408-421页。施普林格,2010年。2[14] K.古普塔湖Petersson和R.哈特利Cullnet:对象姿态估计的校准和姿态感知置信度得分。在IEEE计算机视觉研讨会国际会议论文集,第0-0页,2019年。2[15] K. 他,G. Gkioxari,P. Doll a'r 和R. 娘娘腔。 面具r-cnn。在IEEE计算机视觉国际会议论文集,第2961-2969页811641[16] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残 差 学 习 。 在 Proceedings of the IEEE conference oncomputer vision and pattern recognition , pages 770-778,2016中。4[17] S.欣特施托伊塞尔角Cagniart,S. Ilic,P. Sturm,N.纳瓦布P. Fua和V.莱珀蒂用于无纹理物体实时检测的梯度响应图。IEEE Transactions on Pattern Analysis and MachineIntelligence,34(5):876-888,2011。2[18] S. Hinterstoisser,S.霍尔泽角Cagniart,S.Ilic,K.科诺利格N. Navab和V.莱珀蒂多模态模板用于在严重杂乱的场景中实时检测无纹理物体。2011年国际计算机视觉会议,第858-865页。IEEE,2011年。5[19] S. 欣特施托伊塞尔河谷Lepetit,S.Ilic,S.Holzer,G.布拉斯基K. Konolige和N.纳瓦布基于模型的训练,检测和姿态估计的无纹理三维物体在严重杂乱的场景。亚洲计算机视觉会议,第548-562页Springer,2012. 一、五、六[20] Y. 胡,J.Hugonot,P.Fua和M.萨尔茨曼分割驱动的6维物体姿态估计。在IEEE计算机视觉和模式识别会议论文集,第3385-3394页2[21] D. P. Huttenlocher,G. A. Klanderman和W.拉克里奇。使 用 Hausdorff 距 离 比 较 图 像 IEEE Transactions onPattern Analysis and Machine Intelligence,15(9):850-863,1993。2[22] W. Kehl,F.曼哈特F. Tombari
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Ice-3.5.1-4-ThirdParty.7z
- vmonkey:rbvmomi 的实用方法附加组件
- 易语言排列5过滤
- 无忧购物系统ASP通用版版本2014.11.14
- Pubmed Impact Factor-crx插件
- 2021BEV:制作电动汽车的毕业项目。 SNU电气与计算机工程系
- 易语言按钮按下状态恢复
- piano-x:模拟钢琴的基于 HTML5 的 Web 应用程序
- 2D到3D:11785深度学习课程项目:端到端2D到3D视频转换
- ReRouter:使用ReactiveReSwift和RxSwift进行路由
- Armadillo::desktop_computer_selector:Mips Malta的最小操作系统
- Demooo:测试
- 易语言按编辑框宽度自动换行
- Flash Control-crx插件
- HEC-RAS, 水动力学模型
- Psycho649.github.io:项目网站
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功