没有合适的资源?快使用搜索试试~ 我知道了~
1941DPOD:6D姿态物体检测器和细化器谢尔盖·扎哈罗夫,伊万·舒古罗夫,伊万·舒古罗夫,斯洛博丹·伊利克,斯洛博丹·伊利克,德国慕尼黑工业大学德国西门子公司技术sergey. tum.de,ivan. tum.de,slobodan. siemens.com摘要在本文中,我们提出了一种新的深度学习方法,用于从RGB图像进行3D对象检测和6D姿态估计。我们的方法,命名为DPOD(密集姿态对象检测器),估计密集的多类2D-3D之间的输入图像和可用的3D模型的对应映射给定对应性,经由PnP和RANSAC计算6DoF姿态。使用定制的基于深度学习的细化方案来执行初始姿态估计的附加RGB姿态我们的结果和大量相关工作的比较表明,大量的对应关系是有益的,以获得高质量的6D姿态之前和之后的细化。与其他主要使用真实数据进行训练并且不对合成渲染进行训练的方法不同,我们对合成和真实训练数据进行评估,与所有最近的检测器相比,在虽然精确,所提出的方法仍然是实时的能力。1. 介绍目标检测一直是计算机视觉中的一个重要问题,并且在过去已经对其进行了大量的研究。这个问题,就像许多其他视觉问题一样,随着深度学习的出现,见证了一场彻底的复兴像R-CNN [8]这样的检测器及其后续的Fast-RCNN [7],Faster-RCNN [28],Mask- RCNN[9],然后YOLO [27]和SSD [20]标志着这个研究领域具有出色的性能。所有这些作品都将感兴趣的对象局部化,在图像中,它们周围都有紧密的约束框。然而,在许多应用中,例如,增强现实、机器人、机器视觉等,这是不够的,并且需要全6D姿态。虽然这个问题在深度图像中更容易解决,但在RGB图像中,由于透视模糊性,它仍然是相当具有挑战性的这些作者对这项工作的贡献是相等的图1:DPOD方法的示例输出:给定单个RGB图像,我们回归其ID掩码及其2D- 3D对应关系。然后,应用PSNR +RANSAC来估计最终姿态。绿色边界框显示地面实况姿态,而蓝色边界框对应于估计姿态。边界框的几乎完美的重叠指示估计是非常准确的。以及当从不同视点观看时物体的显著外观变化最近基于深度学习的方法,如SSD6D [15],YOLO6D [33],AAE [31],PoseCNN [34]和PVNet [25],是目前在RGB图像中执行此任务的最佳执行者。尽管它们都对LineMOD和OCCLUSION数据集执行评估,但它们中的每一个都侧重于6D姿态估计管道的不同方面大多数是在真实数据上训练的[33,34,25,14],而只有SSD6D [15]和AAE [31]是在syn上训练1942视 觉 效 果 图 有 些 没 有 细 化 , 如 YOLO6D [33] 和PoseCNN [34],而其他人则进行细化。最近的精炼器基 于 深 度 学 习 , 例 如 , DeepIM [18] 作 用 于 来 自PoseCNN检测器和Manhardt等人的精炼器的姿势。[21]使用SSD6D姿势。受Gueler等人的方法的启发。[1]和Tay- lor etal.[32],其估计人体模型和图像中的人之间的密集对应,我们提出了一种新的3D对象检测器和姿态估计器,其也估计密集的2D-3D对应。与人类的DensePose不同,它需要一个复杂的注释工具和大量的注释工作,我们的方法是无注释的,只需要创建对象的任意UV纹理贴图,我们自动完成-主要是通过球面投影。我们的方法的两个关键要素是:多类对象ID掩码的逐像素预测和直接提供图像像素与3D模型顶点之间的关系的对应映射的分类。以这种方式,我们最终得到大量的像素对应关系,这允许比例如YOLO6D中的对象边界框的9个回归虚拟点除此之外,我们还引入了一个基于深度学习的姿势细化网络,该网络采用我们的DPOD检测器估计的初始姿势并对其进行增强。所提出的改进方法建立在[18,22]的成功基础上,但被证明更快,更容易训练,能够在合成和真实数据上进行训练,并且在姿势质量方面我们证明,即使我们的姿势,这已经是高质量的,可以进一步改进了我们的精炼机。我们通过只使用合成图像和真实图像来训练我们的检测器进行实验。在这两种情况下,我们的统一方法,命名为DPOD,组成的密集姿态检测器和细化优于其他相关工作。密集的对应关系不仅允许标准PSNR和RANSAC在没有细化的情况下估计准确的姿态,而且还为成功的姿态细化铺平了道路。对于在真实数据上训练的模型,一次迭代的细化足以胜过所有其他报告的结果,甚至是具有基于深度的ICP细化的SSD6D。在本文的其余部分,我们首先回顾相关的方法,然后介绍我们的方法,解释数据准备,训练,架构和姿势优化。最后,我们提出了一个详尽的实验验证和比较与最近的作品,我们证明了我们的方法的优越性。2. 相关工作检测3D对象和估计其6D姿态在过去的许多作品中已经得到解决,但是它们中的大多数使用深度或RGB-D相机[2,5,16,17,23,24,26,28,230、35]。深度信息消除了对象因此,仅使用RGB图像进行检测和6D姿态估计是一个相当具有挑战性的问题。最近的解决方案主要基于深度学习和自动学习的特征,而旧的解决方案使用手工制作的特征或图像信息,例如,梯度或图像像素强度。模板匹配方法,[11,12,29],绘制来自不同视点的合成图像块,所述合成图像块分布在物体的3D模型周围的球体上,并将它们存储为模板的数据库。然后使用该模板数据库以滑动窗口的方式顺序地搜索输入图像。高效和鲁棒的模板匹配策略已被提出用于颜色,深度和RGB-D 图像。最流行的方法可以 说是LineMOD [11],它也提供了第一个带有标记姿势的数据集。该数据集仍然用作对象检测和姿态估计的基准。模板匹配方法的另一种替代方法是采用随机森林的学习方法[2,3,4]。深度学习6D姿势检测器。 在过去 两年的深度学习方法已经表明,可以在RGB图像中获得令人印象深刻的检测和姿态估计结果。在这里,我们回顾了以下几个 : SSD6D [15] , YOLO6D [33] , BB8 [26] , iPose[14],[31],PoseCNN [34]和PVNet [25]。SSD6D [15]通过基于离散视点分类而不是旋转的直接回归的6D姿态估计扩展了2D对象检测器[20]该方法相当慢,并且以这种方式预测的姿势相当不准确,因为它们只是真实姿势的粗略离散近似。 为了产生像样的结果,必须进行细化。BB8 [26]使用了三个阶段的方法。在前两个阶段中,执行从粗到细的分割,然后将其结果馈送到训练成输出对象的边界框点的投影的第三网络已知2D-3D对应性,可以利用PnP来估计6D姿态。这种管道的主要缺点是其多级特性,导致运行时间非常慢。基于YOLO和BB8的想法,YOLO6D [33]提出了一种新型的深度学习架构,能够高效而精确的对象检测和姿态估计而无需细化。与BB8的情况一样,这里的关键特征是执行图像中重新投影的边界框拐角的回归。该参数化的优点是其相对紧凑,并且与旋转的直接回归相反,其此外,与SSD6D相比,它不受姿态离散化的影响,从而在没有细化的情况下得到更准确的姿态估计。在专门设计的对遮挡鲁棒的方法中,我们想强调iPose [14],1943PoseCNN [34]和PVNet [25]。 [14]第十四话3个独立的阶段:分割、3D坐标回归和姿态估计。相比之下,我们的方法将前两个阶段统一到端到端网络中。此外,我们不回归3D坐标,而是UV地图,这对网络来说是一个容易得多的任务,从而减少错误的对应关系。PoseCNN [34]也估计对象遮罩,但随后单独估计对象质心的平移PVNet [25]采用了不同的方法,并设计了一个网络,该网络针对图像中的每个像素将偏移量回归到一些预定义的关键点。他们投票给物体本身的点,而不是包围盒点.这使他们能够很好地处理闭塞AAE(Augmented Autoencoders)[31]专注于从合成模型进行姿态估计和训练,同时使用已经计算的SSD检测边界框作为输入。深度学习6D Pose Refiners 基于深度学习的6D姿态细化在最近的出版物中显示出有希望的结果[22,18]。两个细化器在概念上非常相似,并且被设计为输出真实输入图像块与包含用预测姿态渲染的对象的块之间的相对变换。主要区别在于所使用的骨干网架构和损耗函数。两种细化算法都依赖于外部对象检测和姿态估计算法:[18]对于DeepIM,它是PoseCNN,[22]对于SSD6D [15]。前者依赖于真实数据,而后者则侧重于在合成图像上进行训练。我们提出了一个网络架构,它采取了最好的上述架构,是独立的训练数据的类型。我们的工作与上述方法不同,形成基于密集对应性集成检测器和姿态估计器的完整端到端流水线。我们证明了我们可以从真实或合成数据进行训练,在这两种情况下,我们在LineMOD和OCCLUSION数据集上的表现都大大优于所有相关3. 方法在本节中,我们首先讨论训练数据的分类步骤,然后是神经网络架构和使用的损失函数,以及来自密集对应的姿态估计步骤最后,我们描述了我们的基于深度学习模型的姿势细化器。3.1. 数据准备最新的基于RGB的检测器可以根据它们用于训练的数据类型分为两组:基于合成和基于实数。第一组方法,例如,SSD6D [15]和AAE [31],利用纹理3D模型,通常提供公共6D姿态分解,保护数据集。从不同的视点渲染对象,产生合成训练集。另一方面,第二组的方法,例如,BB8 [26],YOLO6D [33],PVNet [25],使用真实数据集的训练分割它们利用与数据集一起提供的地面真实姿态并计算对象掩模以从真实图像中裁剪对象,从而产生训练集。这两种类型的数据生成都有其优点和缺点。当充分覆盖对象的真实图像可用时,将它们用于训练是更有利的。原因是它们与实际对象的密切相似性允许更快的收敛和更好的结果。然而,对真实图像的训练使检测器偏向于训练集中存在的光照条件、姿势、尺度和遮挡,这可能导致在新环境中泛化的问题。然而,当没有姿势注释可用时,由于获取姿势注释是昂贵的过程,因此通常是这种情况,我们只剩下对象的3D模型。使用合成渲染,人们可以从不同的视点产生几乎无限数量的图像。尽管在姿态覆盖方面是有利的,但是如果没有应用附加的数据增强,则必须处理严重阻碍性能潜在地,人们可以通过在训练集中混合真实数据和合成数据来受益于两种数据类型的优点。因此,期望可以在两种类型的数据上训练由于我们的管道不是特定于数据的,我们将展示如何为这两种场景生成训练数据。合成训练数据生成。给定3D模型在感兴趣的对象中,第一步是从充分覆盖对象的不同姿态渲染它们姿势从对象上方的半球采样。另外,增加了相机围绕其观察方向从-30至30度的平面内旋转然后,对于每个相机姿势,在黑色背景上渲染对象,并存储RGB和深度通道。手头有渲染图,我们使用生成的深度图作为遮罩,为每个生成的渲染图定义一个紧密的边界框。使用这个边界框位置裁剪图像,我们存储RGB补丁,将它们与背景分离的遮罩此时,我们已经为在线增强阶段做好了一切准备该数据准备步骤对于检测器和精炼管线是相同的。真实训练数据生成。 在这种情况下,具有姿势注释的可用数据集被划分为不重叠的训练子集和测试子集。在这里,我们遵循BB8 [26]和YOLO6D [33]定义的协议,并使用15%的数据进行训练,其余85%用于评估。选择姿态,使得它们1944对应关系ID掩码3D模型RGBPnP+RANSAC输入对应块输出姿势块输出猫111213212223313233蛋盒111213212223313233相机111213212223313233图2:管道描述:给定输入RGB图像,以编码器-解码器神经网络为特征的对应块对对象ID掩码和对应映射进行回归。后者为我们提供了显式的2D-3D对应关系,而ID掩码估计每个检测到的对象应该采取哪些对应关系然后由姿势块基于PnP+RANSAC有效地计算相应的大于某个阈值。这种方法保证了所选的姿势从所有侧面覆盖对象。为了训练检测器,使用所提供的掩模从原始图像中切出对象,然后将其存储为用于在线增强阶段的补丁。添加额外的平面内旋转以人工模拟新姿势。为了训练细化,对象保持原样。3.1.1对应映射为了能够学习密集的2D-3D对应关系,数据集的每个模型都使用对应关系图进行纹理化(参见图3)。对应图是具有范围从0到255的值的2通道物体的纹理使用简单的球形或圆柱形投影。一旦纹理化,我们就得到模型的图3:对应模型:给定感兴趣的3D模型(1),我们应用2通道对应纹理(2)然后使用所得到的对应模型(3)来生成GT图并估计姿态。对应映射上的顶点和像素。这为我们提供了易于阅读的2D-3D对应关系,因为给定像素颜色,我们可以通过选择具有相同颜色值的顶点来即时估计其在模型表面上的位置。为了方便起见,我们将原始模型的副本称为对应映射对应模型。给定预测的对应图,我们使用稍后描述的姿态估计块来估计相对于相机的对象姿态。类似于合成或真实数据生成步骤,我们在与训练数据相同的姿势下渲染对应模型,并存储每个RGB补丁的对应补丁。3.1.2在线数据生成和增强检测和姿态估计。数据准备的最后一个阶段是在线数据生成管道,它负责提供准备用于训练的全尺寸RGB图像。生成的补丁(真实或合成)在MS COCO数据集[19]的图像上渲染,生成包含多个对象的训练图像。这是一个重要的步骤,它确保检测器泛化到不同的背景,并防止它过度拟合到训练期间看到的背景。此外,它迫使网络学习姿势估计所需的模型无论训练是用合成的还是真实的补丁来完成,都执行该我们还增加了1945RGB图像的亮度,饱和度和对比度的随机变化,并通过添加高斯噪声。此外,对象ID掩码和对应补丁也呈现在黑色背景的顶部,以生成地面实况对应图。对象ID掩码是通过为属于对象的每个像素分配类ID号来构造的。姿势优化。在姿态细化的情况下,将包含处于当前(搜索)姿态和处于预测姿态的对象的图像对提供给网络。数据准备的最后阶段根据所使用的数据类型而有很大不同。在合成数据的情况下,通过在当前姿态中的随机背景上对对象进行图像补绘来生成图像。增强的一个关键部分是为每个图像添加随机光源。如果使用真实图像进行训练,则不执行图像内绘制。在任何情况下,所产生的图像如以上所讨论的被进一步增强。然后,在当前姿态周围对随机姿态进行采样,模拟来自检测器的预测姿态,其将被用作要细化的姿态的原始猜测。选择合适的先验分布是至关重要的,从该先验分布中对失真姿态进行采样。4. 密集对象检测流水线我们的推理流水线分为两个块:对应块和姿态块(参见图2)。在本节中,我们将提供它们的详细描述。通信块。对应块由具有三个解码器头的编码器-解码器卷积神经网络组成,该解码器头从大小为320×240×3的RGB图像中回归ID掩码和密集的2D-3D对应图。编码器部分基于12层ResNet类[10]架构,其特征在于残留层,允许更快的收敛。解码器使用双线性插值堆栈和卷积层将特征上采样到其原始大小。然而,原则上,所提出的方法对于编码器-解码器架构的特定选择是不可知的。可以使用任何其他骨干架构,而不需要改变该方法的概念原理对于ID掩码head的输出是一个H×W×O张量,其中H和W是原始输入图像的高度和宽度,O是数据集中对象的数量加上一个额外的背景类。与ID 掩 码 头 类 似 , 两 个 对 应 头 回 归 具 有 以 下 尺 寸H×W×C的张量,其中C代表对应图的唯一颜色的数量,即, 256. 每个输出张量的通道存储对应于通道号的类的概率值。一旦张量回归,我们将其存储为单通道IM-的对应图像。将颜色回归问题制定为离散颜色类别分类问题被证明对于更快的收敛和2D-3D匹配的优异质量是有用的。直接坐标回归的初步实验问题的主要原因是无限的连续性-连续解空间,即,[-1;1]3,其中3是维数,[-1,1]是3D模型的归一化坐标范围。离散化2D核心的分类响应允许通过显著减小输出空间(现在是2562,其中256是单个UV贴图维度的大小此外,该参数化还确保预测的对应的3D点总是位于对象表面上。根据复合损失函数优化网络参数:L=αLm+βLu+γLv,(1)其中,L_m是掩模损失,并且L_u和L_v是负责对应图像的U和V通道的质量的损失。在我们的例子中,α、β和γ是设置为1的 Lu和Lv损耗均定义为:多类交叉熵函数,而Lm使用的加权版本。姿势块。姿态块负责姿态预测。给定估计的ID掩码,我们可以观察在图像中检测到哪些对象及其2D位置,而对应映射将每个2D点映射到实际3D模型上的坐标然后使用Perspective-n-Point(Pestimation)[36]姿态估计方法估计6D姿态由于我们为每个模型获得了大量的对应关系,因此RANSAC与PADER结合使用,以使相机姿态预测对可能的离群值更加鲁棒。对于评估部分中呈现的结果,对于每个姿势,我们运行150次RANSAC迭代,其中重新投影误差阈值设置为1。5. 基于深度模型的姿态细化所提出的姿势细化器是[22,18]中提出的细化器的自然扩展,并且依赖于两种方法的优势。与[22,15,13]类似,我们利用了使用已经在ImageNet上预训练的网络作为骨干架构的想法。与检测器类似,我们使用了基于ResNet的架构。与[18]类似,我们用于姿态估计的损失函数是具有更鲁棒的L1范数的ADD度量:年龄,其中每个像素存储具有最大es-εm=avg<$(Rx+t)−(Rx+t)<$ 、(二)估计概率,形成ID掩码,U和V通道¨ ¨x∈Ms11946表示处于地面实况姿态和预测姿态的对象之间的顶点到顶点距离R,t表示地面真实姿态旋转和平移,而R,t和R,t表示预测的变换;Ms是从CAD模型采样的点的集合。点在ev重新采样-每次迭代。为了保证训练迭代的效率和合理的内存消耗,采样点的数量被限制在一万个以内。在图4中,我们示出了精炼机的示意图。为了能够从ImageNet上预训练的网络权重中受益,该网络有两个partial输入分支,每个分支由前五个ResNet层组成这些层从预先训练的网络初始化一个分支接收输入图像块(E11),而另一个分支(E12)从预测姿态中的对象的渲染中提取特征。然后,来自这两个网络的特征fr和fs被减去并馈送到下一个ResNet块(E2)中,产生特征向量f。如果在合成数据上训练细化,则必须保持前五层不变,并将其用作特征提取器,如[20,13,22]所示。冻结从对象渲染中提取特征的分支是不必要的,因为它始终对合成数据进行操作。该网络以三个独立的输出头结束:一个用于回归旋转,一个用于回归X和Y方向上的平移,以及一个用于回归Z方向上的平移。我们选择了三个独立的首长,因为他们的产出规模不同。每个头被实现为两个完全连接的层。旋转总是在对象坐标系中表示,这确保了看起来相同的对象具有相同的旋转,并且网络不必学习在使用世界坐标系时出现的更复杂的变换第一层的旋转重新-gression head采用ResNet产生的特征向量f并添加四个值,这是表示初始旋转的四元数第二层采用前一层的输出,与初始四元数堆叠并输出最终旋转。负责X和Y平移回归的头部在图像的坐标系中而不是在整个3D空间中操作,这显著地限制了可能的解决方案的空间。与旋转头类似,XY回归头将对象的初始2D位置作为输入并对其进行细化此外,它需要Z平移的精细预测。完全连接层的权重以这样的方式初始化,即对于第0次迭代,网络仅输出输入姿势,然后在训练期间学习如何细化这些值。这显著提高了训练过程的稳定性和速度,因为网络从一开始就产生6. 培训详细信息我们的管道是使用Pytorch深度学习框架实现的。所有的实验都是在Intel Core i7- 6900 K CPU 3.20GHz上进行的,TITAN X(Pascal)GPU。为了训练我们的方法,我们使用了ADAM求解器,其恒定学习率为3×10−4,权重衰减为3 ×10−5。在对合成数据进行训练时,适应成为主要挑战之一。在没有任何预先参数初始化的情况下训练网络使得它不可能推广到真实数据。这个问题的简单解决方案在几个作品中提出,包括[13,22],其中他们冻结了在大型真实图像数据集上训练的网 络 的 第 一 层 , 例 如 , ImageNet [6] 或 MS COCO[19],用于对象分类任务。作者的共同观察是,输入特征提取精炼头结论是这些层,学习低级特征,很快过拟合到完美的对象渲染。我们遵循这个设置,并冻结我们的编码器的前五层,初始化了ImageNet上预训练的相同网络的权重最后但并非最不重要的是,我们发现在合成视图的渲染期间使用各种光源对检测器的性能至关重要,以考虑真实数据中不断变化的光照条件和阴影。7. 评价在本节中,我们将从姿势和检测性能以及运行时间方面评估我们的算法,图4:细化架构:该网络在给定初始姿势提议的情况下预测细化的姿势。作物真实图像和绘制被馈送到两个并行分支中。所计算的特征张量的差被用于估计细化的姿态。将其与最先进的RGB检测器解决方案进行比较。7.1. 数据集所有实验均在LineMOD [12]和OCCLUSION [2]数据集上进行,因为它们是标准数据集RGB渲染姿势:RXyzR'RzzyX你们X19472表1:姿态估计性能:我们的方法与LineMOD数据集上的其他RGB检测器的比较。该表报告了正确估计的姿势相对于ADD分数。 在对合成数据进行训练的方法中,我们的方法显示出最好的结果,显着超过了以前的最先进的。我们在真实数据上训练的方法的变体再次展示了优于大多数竞争对手的出色性能。此外,我们的新的细化管道进一步提高了估计的姿势,并显示出最好的整体结果。列车数据合成+精细化房+精细化对象SSD6D[15]AAE[31]我们SSD6D[22]我们YOLO6D[33][34]第三十四话PVNet[25]我们DeepIM[18]我们猿2.63.9637.22-55.2321.62-43.6253.2877.087.73本齐维塞15.120.9266.76-72.6981.80-99.9095.3497.598.45凸轮6.130.4724.22-34.7636.57-86.8690.3693.596.07可以27.335.8752.57-83.5968.80-95.4794.1096.599.71猫9.317.9032.36-65.1041.82-79.3460.3882.194.71司钻12.023.9966.60-73.3263.51-96.4397.7295.098.80鸭1.34.8626.12-50.0427.23-52.5866.0177.786.29蛋盒2.881.0173.35-89.0569.58-99.1599.7297.199.91胶3.445.4974.96-84.3780.02-95.6693.8399.496.82穿孔器3.117.6024.50-35.3542.63-81.9265.8352.886.87铁14.632.0385.02-98.7874.97-98.8899.8098.3100灯11.460.4757.26-74.2771.11-99.3388.1197.596.84电话9.733.7929.08-46.9847.74-92.4174.2487.794.69是说9.128.655034.166.4355.9562.786.2782.9888.695.15用于评估对象检测和姿态估计方法。LineMOD数据集由13个序列组成,每个序列包含杂乱环境中单个感兴趣对象的地面真实姿态。还提供了所有对象的CAD模型OCCLUSION数据集是LineMOD的扩展,适用于测试探测器处理遮挡的能力。虽然它只包含一个序列,但LineMOD数据集中的所有可见对象都提供了它们的姿势。7.2. 评估指标我们按照SSD6D [15]建议的程序评估6DoF姿态估计的质量,该程序类似于其他相关论文[33,15,25,34],我们使用ADD得分[12]来测量姿态估计的准确性。ADD被定义为用预测的和地面实况姿态变换的模型顶点之间的平均欧几里得距离。更正式的定义如下:建议采用经过地面实况变换的模型的最近顶点通常,如果ADD小于模型直径的10%,则姿势被认为是正确的姿势估计的准确度被报告为正确估计的姿势的百分比7.3. 单目标位姿估计LineMOD数据集上的姿态估计实验的结果报告于表1中。我们分别比较了我们的方法训练的真实数据或合成数据。该表还提供了基于深度学习的细化管道的比较。表的左侧报告了姿态估计的准确性表示为根据ADD测量对于在合成数据上完成的训练是正确的姿势的百分比。如果没有使用细化,我们的方法优于所有其他方法的显着保证金的大多数对象。此外,正确的平均百分比-估计姿势(50%)明显高于28。65%的m=avg<$(Rx+t)−(Rx+t)<$,(3)¨x∈M第二个最好的方法。准确度差距更大-像猿和鸭子这样的小物体上。 有用-其中M是特定模型的一组顶点,R和t是地面真实变换的旋转和平移而R和Rt对应于估计变换的那些。ADD度量可以扩展以处理对称对象,如[12]:大量2D-3D对应的能力确保了我们方法的性能比SSD6D好5如果使用基于深度学习的细化,我们将以66显著超过[22]。43%的正确姿势对34。百分之一。如果在真实数据上训练,我们的方法是第二好的,m=avg min<$(Rx1+t)−(Rx2+t)<$(4)x∈Mx1∈M?[25]. 表1的右侧比较了亲,提出了一种基于深度学习的方法。如果代替测量从每个特定模型没有使用任何改进,所提出的方法明显优于PoseCNN和YOLO6D,而每1948方法SSD6D[15]YOLO6D[33]美国[3]图5:定性结果:使用提议的方法在(a)LineMOD数据集和(b)OCCLUSION数据集上预测的姿势。绿色边界框对应于地面实况姿势,其他颜色的边界框对应于预测姿势。对于这两个数据集,预测的姿势非常接近正确的姿势。在大多数物体上形成与PVNet相当的。平均而言,我们比PoseCNN好31%,YOLO6D好23%。百分之五十七。同样,我们的方法只使用RGB数据,而不依赖于深度数据。图5提供了地面实况姿态与预测姿态的视觉比较。姿势被可视化为测试图像顶部的给定姿势中的模型的3D边界框的投影与[18]的基于深度学习的改进相比,我们的平均性能提高了6。55%,达到95。15%的正确姿势。当DeepIM应用于所提出的方法预测的姿势时,ADD提高到91。8%,比原来的88%好。6%,但仍比我们的炼油厂的结果差。总之,所提出的检测器实现了最先进的结果,超过其他检测器的合成数据上的大幅度,并表现得更好或可比的其他检测器的真实数据。拟议表2:多个对象的姿态估计:比较我们的方法在真实数据上与OCCLUSSION数据集上的其他RGB检测器。该表报告了正确估计的姿势相对于. ADD分数。方法 YOLO6D[33个]PoseCNN[34个]SSD6D+参考文献[22]HMap[24日]PVNet[25日]我们 我们+Ref是说6.4224.927.530.440.7732.7947.25表3:多个对象的检测性能:OCLUSION数据集上最先进的平均精密度(mAP)评分的比较。地图0.380.480.510.48精化在真实数据和合成数据上都明显优于所有竞争者。 姿势质量因对象而异但是一般来说,对于较大的对象,姿势明显更好,因为存在更多的2D-3D对应可用。另一方面,所提出的方法的简单性也使其快速。我们的探测器平均运行速度为33 FPS。可以通过改变RANSAC迭代的次数来调整运行时间,因为它是流水线的瓶颈。细化的一次迭代需要5ms,不包括渲染时间,这在很大程度上取决于所使用的渲染器。两次精化迭代足够用于合成数据,一次迭代用于真实数据。7.4. 多目标姿态估计在OC-CLUSION数据集[2]上进行了在待检测对象数量增加以及存在严重遮挡的情况下对所提出的检测器的性能评价OCCLUSION数据集上的对象检测的准确性 通 常 以 平 均 平 均 精 度 ( mAP ) 来 报 告 。 基 于RANSAC内点比例计算置信度得分作为置信度,得出最终得分0.48,这是该数据集上可比较的最佳结果(见表3)。表2展示了OC-CLUSION数据集上各种检测器的ADD分数。在改进之前,与其他检测器相比,所提出的检测器显示出非常有竞争力的结果改进后的方法性能明显提高,取得了最佳效果.8. 结论本文提出了一种稠密姿态目标检测器(DPOD)方法,该方法回归多类目标掩模和图像像素与相应三维模型之间的稠密2D-3D对应关系。与回归对象边界框的投影[26,33]或将姿态估计公式化为离散姿态分类问题[15]的最佳执行方法不同,通过我们的方法计算的密集对应性允许更鲁棒和准确的6D姿态估计。我们证明,对于真实和合成训练数据,我们的检测器的性能大大优于其他相关工作,如[33,34],并且与[25]相似。所提出的姿势细化方法也表现得非常好,并且允许实现超越所有其他相关的基于深度学习的姿势细化方法的姿势准确度,同时具有更简单和更轻量级的骨干架构。1949引用[1] RızaAlpGuüler、Nat a liaN ev er ov a和IasonasKokkinos。密度:野外密集的人体姿势估计。在IEEE计算机视觉和模式识别会议论文集,第7297-7306页[2] Eric Brachmann、Alexander Krull、Frank Michel、StefanGumhold、Jamie Shotton和Carsten Rother。 使用3d对象坐标学习6d对象姿态估计。在欧洲计算机视觉会议上,第536-551页。Springer,2014.[3] Eric Brachmann , Frank Michel , Alexander Krull ,Michael Ying Yang,Stefan Gumhold,et al.从单幅rgb图像估计物体和场景的不确定性驱动的6d姿态。在IEEE计算机视觉和模式识别会议论文集,第3364-3372页[4] Tommaso Cavallari、Stuart Golodetz、Nicholas Lord、Julien Valentin 、 Victor Prisacariu 、 Luigi Di Stefano 和Philip HS Torr。使用重新定位级联在新场景中实时rgb-d摄像机姿态估计IEEE Transactions on Pattern Analysisand Machine Intelligence,2019。[5] Chang Hyun Choi和Henrik I Christensen。非结构化环境下Rgb-d目标位姿估计。机器人和自主系统,75:595[6] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,第248-255页。Ieee,2009年。[7] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision , 第 1440-1448页,2015中。[8] Ross Girshick,Jeff Donahue,Trevor Darrell和JitendraMalik。丰富的特征层次结构,用于精确的对象检测和语 义 分 割 。 在 Proceedings of the IEEE conference oncomputer vision and pattern recognition,pages 580[9] 何开明、吉欧吉亚·吉欧萨里、彼得·多尔和罗斯·吉尔希克.面具R-CNN。在IEEE计算机视觉国际会议论文集,第2961-2969页[10] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页[11] Stefan Hinterstoisser、Stefan Holzer、Cedric Cagniart、Slobodan Ilic、Kurt Konolige、Nassir Navab 和VincentLepetit。多模态模板用于在严重杂乱的场景中实时检测无 纹 理 物 体 。 2011 年 国 际 计 算 机 视 觉 会 议 , 第858IEEE,2011年。[12] Stefan Hinterstoisser,Vincent Lepetit,Slobodan Ilic,Ste- fan Holzer , Gary Bradski , Kurt Konolige , andNassir Navab.基于模型的训练,检测和姿态估计无纹理三维物体在严重混乱的场景。亚洲计算机视觉会议,第548-562页。Springer,2012.[13] Stefan Hinterstoisser,Vincent Lepetit,Paul Wohlhart,and Kurt Konolige.关于用于深度学习的预训练图像特征和合成图像在欧洲计算机视觉会议(ECCV)中,第0[14] Omid Hosseini Jafari , Siva Karthik Mustikovela , KarlPertsch , Eric Brachmann , and Carsten Rother. 最 好 的bothworlds:基于几何学习的6d物体姿态估计。arXiv预印本arXiv:1712.01924,2017。[15] Wadim Kehl , Fabian Manhardt , Federico Tombari ,Slobodan Ilic,and Nassir Navab.Ssd-6d:使基于rgb的3d检测和6d姿态估计再次伟大。在IEEE计算机视觉国际会议论文集,第1521-1529页[16] Wadim Kehl 、 Fausto Milletari 、 Federico Tombari 、Slobodan Ilic和Nassir Navab。局部rgb-d补丁的深度学习,用于3d对象检测和6d姿态估计。欧洲计算机视觉会议,第205-220页。施普林格,2016年。[17] Kevin Lai,Liefeng Bo,Xiaofeng Ren,Dieter Fox.一种可扩展的基于树的联合目标和姿态识别方法第25届AAAI人工智能会议,2011年。[18] 易 离 , 顾 望 , 向 阳 季 , 于 翔 , 迪 特 尔 福 克 斯 。Deepim:深度迭代匹配6D姿态估计。在欧洲计算机视觉会议(ECCV)的会议记录中,第683-698页[19] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco:上下文中的公用对象。欧洲计算机视觉会议,第740-755页。Springer,2014.[20] Wei Liu , Dragomir Anguelov , Dumitru Erhan ,Christian Szegedy , Scott Reed , Cheng-Yang Fu , andAlexander C Berg. Ssd:单发多盒探测器。在欧洲计算机视觉会议上,第21-37页。施普林格,2016年。[21] Fabian Manhardt , Wadim Kehl , Nassir Navab , andFederico Tombari.rgb中基于深度模型的6d姿态细化。在欧洲计算机视觉会议(ECCV)的会议记录中,第800-815页[22] Fabian Manhardt , Wadim Kehl , Nassir Navab , andFederico Tombari.rgb中基于深度模型的6
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功