无模型的目标位姿估计方法

168 浏览量更新于2023-10-25 收藏 2.02MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

功能ROI对象坐标地标标签遮罩边界框bbboxi1局部重构，全局定位：一种无模型的目标位姿估计方法Ming Cai，Ian Reid阿德莱德{ming.cai，ian.reid}@ adelaide.edu.au摘要在单幅图像中对已知目标进行六自由度姿态估计是计算机视觉的一个长期目标。它是经典地提出作为一个已知的几何模型，如CAD模型，和图像位置之间的对应问题。如果CAD模型不可用，则可以使用多视图视觉重建方法来创建几何模型，并以相同的方式使用该相反，我们提出了一种基于学习的方法，其输入是目标对象的图像集合，其输出是对象在新视图中的姿态。在推理时，我们的方法从输入图像的ROI特征映射到以对象为中心的3D坐标的密集集合，每个像素一个。然后，使用标准的PADER加上RANSAC，使用该密集的2D-3D映射来确定6dof姿态。将2D映射到对象3D坐标的模型在训练时通过自动发现和匹配跨多个视图一致的图像地标来我们表明，这种方法消除了对3DCAD模型的要求（经典的基于几何的方法和最先进的基于学习的方法都需要），但仍然实现了与现有技术相当的性能。1. 介绍在计算机视觉中，物体的姿态描述了物体实例相对于捕获相机的几何关系。它是数学编码的Eu-clidean变换之间的表示的对象结构在两个坐标空间：对象为中心和相机为中心的框架。我们感兴趣的任务是从RGB图像中估计先前看到的刚性对象实例的准确六自由度（6dof）姿态。解决这个问题的标准方法利用对象的CAD模型。这种预定义的结构信息对经典几何方法[10，57，31，25，39]和最近的机器学习方法[41，22，48，54，27，47，20，40，52，55，7]。为图1. 我们的方法的推论。虽然我们的模型是用一对双视图图像训练的，但它只需要一张图像就可以推断出物体的姿态。对于新图像，检测头预测对象的框和掩模。同时，对象坐标头输出框的3D对象点映射。背景上的物点根据掩模被移除剩余的点用于在框内建立2D-3D对应。然后，基于这些对应关系以及从框位置导出的缩放投影矩阵，经由PdR+RANSAC来随后使用预测的对象点来细化姿态估计。在推理时，界标头被关闭。例如，在经典家族中，这些角色可能是注册的参考[57]，模板生成的基础[18]和特征提取的纹理提供者。至于基于CNN的方法，该模型充当诸如用于网络学习的监督[2，38，4，22]、用于合成图像生成的源[40，27，22，9]和/或用于后处理细化的代理[27，41，22]等。然而，细粒和纹理良好的3D结构并不存在于野外的每个对象。这限制了这些方法的推广。因此，在本文中，我们致力于回答这个问题：是否有可能完成的对象姿态估计任务，而不使用的3D CAD模型的对象？基于重建的方法[51，37，36]已经表明了这一建议的可行性。他们首先使用运动恢复结构（SfM[1]）从多视图RGB图像重建3D对象，以替代缺失的CAD模型。然后使用Perspective-3153检测头输入RGB图像物坐标头3D对象坐标2D3D+通过边界框缩放内部函数=p= P（M，K（bbox））对应MiK（bboxi）iRANSAC我我输出姿势网络推理几何位姿估计3154基于新图像的2D视觉线索与那些附属于3D重建的视觉线索的对应性的n点（Pestrian）算法。尽管手工制作的特征描述符在检测和匹配方面效率很高，但它们会导致流水线中的主要限制：（i）它们的主要目的是通常检测具有丰富纹理的显著关键点，而不是描述对象的结构;（ii）对于基本上无纹理的对象，兴趣点的缺乏通常会导致差的或不可靠的插值重建。相机重新定位是一个非常密切相关的问题（因为它的目标也是找到一个6dof姿势），最近已经从CNN回归的角度解决了这个问题[24]。然而，直接回归并不像标准几何方法那样准确。更有前途的是[3，5]的方法，它使用CNN的力量来建立高质量的密集对应和几何方法的亚精度然而，摄像机重新定位问题的某些方面并不直接类似于物体姿态估计。阻止直接采用这些方法用于对象姿态的主要区别在于对象仅在场景的一部分中可见，从而需要将对象与场景的其余部分区分开。因此，我们要解决的问题是：给定一组图像及其姿态作为输入，学习一个系统，然后该系统可以在任何子视图中检测和定位对象。受混合方法成功的启发[2， 5，6 ，8]，我们介绍：局部重建，全局定位（RLLG），一种基于学习和重建的物体姿态估计方法.我们的解决方案不同于SfM，因为没有明确的3D模型，创建的目标。我们在训练过程中隐式地将重构过程编码在神经网络的权重中。在推理阶段，该网络充当测试图像的2D-3D对应建立器。然后，我们的方法使用Pestrian加上RANSAC[12]从这些对应关系中估计对象的准确6dof姿态为了从背景中识别，检测和隔离对象，并同时执行重建，我们在区域建议网络Mask R-CNN[16]上无缝构建模型。该框架包括一个骨干网络以及三个专用头：包围盒头、分类头和分割头。我们贡献了一个新的头-该算法在推理过程中有效地建立了2D位置与3D点之间的稠密对应关系，从而为绝对目标位姿估计提供了丰富的约束样本由于RLLG的目标是将地面实况3D模型从姿态估计流水线中分离，因此如何在没有手动注释的情况下学习对象坐标头部是一个复杂的问题。关键问题。我们建议提供一种从多视图几何结构导出的替代超分辨率信号。我们将头部设计为双分支全卷积网络（FCN）[29]。其中一个分支自动识别与视点无关的2D对象地标，另一个分支使用多视图约束将它们定位在以3D对象为中心的框架中。由于地标和物体坐标都是内在属性，它们对外部因素（如姿态和光照）的变化是不变的。因此，学习将它们对齐为通过扭曲相关的成对图像，并期望检测器和回归器与图像变形等变。对于2D地标学习，通过应用平面内变换（例如，平面内旋转、缩放和裁剪）到图像。而对于3D对象坐标学习，我们建议基于来自两个视点的图像显式地构建约束，这些视点来自平面外运动。我们不使用单视图变形来约束对象坐标的原因是双重的：（i）从几何角度来看，由平面内操作引起的图像对之间的像素级对应不约束对象点在3D空间中的位置;（ii）通过在迭代训练期间将来自不同视点的多个单视图图像馈送到网络，不能充分保证对象坐标的姿态不变性。我们创建了一个数据集来展示我们的对象坐标回归和随后的姿态估计的有效性我们的3D模型自由姿态估计方法还在LINEMOD [18]和遮挡LINEMOD [18]数据集上进行了测试，以证明其对真实世界场景的泛化和鲁棒性它实现了与以不同方式需要3D对象的最先进方法的同等性能2. 相关工作基于特征方法和基于模板方法：有必要回顾一下基于几何的方法是如何解决6dof位姿估计的，因为我们的方法本质上是学习和几何的结合。相反，这些方法[13，30，32，21]由两个关键部分组成：特征检测加匹配，几何姿态求解加细化。这些特征，如ORB[44，33]，SIFT [30]和FAST [43]，是关键点周围局部外观的它们是手工制作的，以实现视点变换的不变性根据这些匹配的2D-3D对应关系，可以通过几何算法（如[17，56，26，53]）估计相机和对象之间的变换。应用如[12]的鲁棒拟合来找到最佳姿势。一些作者[51，37，36]针对3D模型缺失的情况。解决方案是建立一个替代方案3155我，我我，我我，我我，我使用诸如[1]的重建方法从匹配的2D特征点重建模型给定查询对象图像，找到相同的特征族，然后与3D数据库匹配以求解姿态。尽管描述符在检测和匹配方面的效率很高，但它们并不是手工制作的，无法对对象实例的几何结构进行编码。它们的稀疏性也可能导致无纹理物体的三维重建的不可靠性。基于模板的方法旨在估计物体对象为模型（如随机森林[2]或神经网络[38]）学习提供直接监督相反，我们的目标是在没有3D模型的情况下以自监督的方式学习坐标（自监督是指管理对象坐标学习的监督不直接来自地面实况）。3. 在本地重建，在全球表示为I，i ∈ {1. n}对象O的图像，其中对象，而不使用稀疏特征。[18，14，19]定义i l整个对象的模板取决于RGB图像的梯度和特征。他们是匹配的l∈ {1. L}是对象标签，并且通过Pi，l是可见的3D对象点ii。它们在物体中心坐标系O中的坐标，以相机为中心的帧C分别是P0和PC的查询图像以推断姿势。物体T的姿态我，我我，我基于CAD模型的学习方法：像检测、分割和其他识别任务一样，物体姿态估计也受益于最近的发展i，l由两部分组成：旋转Ri，l∈R3×3和平移向量ti，l∈R3.它本质上是两个欧几里得空间之间深度学习。大多数基于学习的方法在学习过程中集成3D对象模型和/或C我，我=Ri，lPO+ ti，l.（一）推论 [20][21][22][23][24][25]摄像机内部KprojectsPC在图像上，在对象模型周围创建3D边界框，以及投影的2D坐标pi，l= [u，v]，其中将8个（或9个中心点在[48]中）角定义为顶点对象上的3D关键点。然后，它们将注释其二维用户fx0cx投影并训练各种网络来对图像执行关键点检测，建立用于姿态估计的稀疏2D-3DPVNet[40]提出了一种基于物理结构自动发现3D物体表面上的一组关键点的方法，以确保它们的2D投影都在轮廓内。CAD模型在生成用于训练的新数据时也非常方便[40，42，35]使用纹理对象模型和随机姿势来生成大量的合成图像以增强（或替换）有限的训练图像，防止网络过度拟合。3D物体模型也可以作为损失评估的基础[52，27，54]比较由预测姿态变换的对象模型与地面实况姿态之间的偏移。该误差用于反向传播以训练网络，并且当模型分别使用平移和旋转空间中的距离构建损失时，成功地避免了平移和旋转之间的不平衡权重（例如[24]和[23]）。此外，在[55，27，41，22]中，3D模型用于后细化以提高姿态估计的质量以网络的输出位姿作为初始化，设计迭代优化以通过最小化与3D模型相关的目标来产生最优位姿解。这样的目标可以是来自纹理模型的渲染彩色图像与输入图像之间的一致性[41]，或者相机帧中的变换对象点与从深度恢复的对象点之间的距离[22]。与我们的工作类似，Pix2Pose[38]和[2]也使用对象坐标作为中间表示来找到对象姿势。然而，在这些方法中，sv = KPC，K= 100f yc y。（二）1 0 0 1s是比例因子，fx和fy是焦距，（cx，cy）是相机中心。2D点Pi，l= [u，v]和3D点P0之间的对应关系保留了对象到相机的几何变换，并且因此用于在推断时间估计姿态。我们的目标是建立一个网络，通过从RGB图像像素映射到对象空间中的3D坐标来密集地建立这些对应关系。Mask R-CNN：我们首先简要回顾Mask R-CNN检测器和分段器[16]。Mask R-CNN有两个阶段。第一个是由区域建议网络（RPN），提出候选对象边界框（感兴趣的区域，ROI）。然后，第二阶段使用RoIAlign从每个RoI中提取特征，子分类器执行分类、边界框回归和实例分割。在训练期间，每个采样RoI上的多任务损失为L=Lcls+Lbox+Lmask。请参阅[16]损失定义。RoIAlign层在RPN中的要素上执行双线性插值，并汇集出固定大小的RoI要素。与面具头类似，我们提出的对象坐标头学习从ROI特征转移到坐标图。3.1. 对象坐标头图2示出了所提出的对象坐标头部的训练。如第1节所述，该新头部由两个分支组成：目标坐标分支和地标分支。介绍了对象坐标分支P3156R对象坐标分支地标店框CaleR对象坐标分支地标店KSC1oIAlign物坐标头KKSC2oIAlign物坐标头匹配S投影投影规模框Σ ¨KRgttgt作物11 1Lrepro对象坐标Lrgb地标Rgttgt突出位置FCNs22Llm对齐翘曲匹配位置作物2几何损失图2. 物体坐标分支的训练。为了简单起见，省略了检测头和界标头的损失。首先，因为它直接与姿态估计器相关。然后，我们展示了为什么需要地标分支的原因，以及它如何有利于学习对象坐标。ymin）。因此，在Ii，sc从地面实况物体姿态是对象坐标分支：空间地图的OB-普雷德=1K（RgtPO+tgt）。（四）对象坐标与对象在i，l，（h，w）scs我，我i，l，（h，w）我，我形象因此，本质上，我们使用卷积来提供图像和对象之间的像素到像素的对应关系，对象坐标的预期投影只是它在输出地图中所处的2D像素位置，目标坐标我们在每个ROI fea上应用FCNΦobjGTi，l，（h，w）=[h，w]，h ∈ {1. - 是的- 是的m}，w ∈ {1. - 是的- 是的m}。真的。 Φ obj的输出是一个m×m×3的矢量图，学习目标是最小化重投影er。Oi，l，（h，w）=Φobj（Ii），h ∈ {1. - 是的- 是的 m}，w ∈{1. - 是的- 是的 m}，我们假设的任何差异所引发的错误其中每个像素是表示位置的3D向量在目标物体的假想3D模型上。预测对象坐标中的错误因此我们将单视图重投影损失定义为The training of Φobj is straightforward if the 3D objectmodel is accessible, which makes the learning fully super-L=1？ppred-pgt¨¨。（五）ved相反，我们的目标是提出一个无模型的方法，因此建议探索替代监督。reprom×m¨h，wi，l，（h，w）i，l，（h，w）¨2由于FCN提供的优雅对准，预测的对象坐标图保持与ROI的明确的每像素空间对应。我们首先根据这些对应关系通过投影来探讨超视觉.ROI内的投影：为了在ROI内执行投影，我们需要将投影矩阵K适配到提案框。对于每个建议，RPN估计4D向量（xmin，ymin，xmax，ymax），该向量参数化目标像素周围的框在空间维度方面，使用此框，RoIAlign层从主干收集并汇集RoI特征，然后通过FCNΦ目标两个操作可更改空间维度我们的兴趣区域，从而改革投影模型：裁剪（通过RoIAlign）和调整大小（通过向上/向下-采样）。因此，我们假设m×m物点图完全对应于新的m × m图像Ii，s&c，它是I i的调整大小的裁剪。因此，内部函数可以扩展到swfx0sw（cx−xmin）由于损失（5）是针对单个图像进行评估的，因此它可能有局限性。从几何角度来看，损失（5）对于连接相机原点和真实3D对象点的线上的任何点都是最优的。因此，理论上，最小化损失（5）并不能保证网络回归到正确的坐标。然而，训练在实践中迭代地发生，这意味着网络从批次到批次以不同的视角看到对象的图像期望该网络学习在不同图像中识别具有各种视觉外观（由视点改变引起）的相同物点，并且一致性地回归到相同坐标。这种行为将是学习的隐式多视图约束，并且有助于发现对象的真实几何形状。为了通过实验验证这一假设，我们创建了一个合成数据集（细节在第4节中给出），并使用损失项（5）训练对象坐标头。训练的模型用目标图像及其旋转的变量进行测试（图1）。3（a））。预测的物点如图所示。Kcs=0shfysh（cy−ymin），（3）0 0 1重建1装置pP3157图3（b）分别为红色和蓝色。最明显的收入--两次重建的兼容性表明，基于单视图丢失的训练不会产生一致的3D颜色，其中sw =m/（x最大值-x最小值）和sh =m/（ymax− dinate对于不同视图中的相同物点。3158¨（h，w）rR¨从学习的期望是，具有短距离的两个图像上的地标具有较大的相似性，反之亦然。因此，相对相似性由损失项1 Σmes（（hs，ws），（ht，wt））Llm=m4距离、（6）′′hs，wsht，wth′，w′es（（hs，ws），（ht，wt））t t(a)(b)（c）第（1）款图3. 三维物点之间的比较，其中dist（s，t）=<$（hs，ws）-（ht，wt）<$2，并且年龄及其变化。（a）：对象图像及其旋转版本。(b) ：从单视图重投影损失重建。 (c)：Re-多视图一致性损失的构建。s（（hs，ws），（ht，wt））=？L（hs，ws）·Lr<$（ht，wt）<$ rú（七）为了克服这一限制，我们建议将是cos相似性。？L（hs，ws）？2？L（ht，wt）？多视图约束明确，并提供强大的geomet-用于对象坐标学习的ric监督。基于[15]，来自多个视点的图像可以用于使用三角测量来约束3D点的坐标。这样的几何形状建立在不同图像中的对象之间的2D-2D对应关系上。为此，我们建议包括一个额外的地标分支，发现对象上的特征点。然后，多个图像的学习的界标在匹配期间被匹配。有多种变形R的选择，以利于界标的发现。尽管如此，我们考虑平面内旋转和缩放（以确保与原始图像相同的尺寸），这保持了对象的刚性。因此，我们可以重新使用对象坐标分支来预测经变换的图像r（Ii）的3D点，而无需对投影矩阵进行非平凡的修改。平面内旋转将相机矩阵更改为学习物体坐标，建立一个密集的集合，fx0cxcos（α）sin（α）02D-2D对应关系。多视图约束Kr=0fycy−sin（α）cos（α）0，（8）都是按照这个原则来构建的地标分支：地标定义为字符-0 0 10 0 1可以从不同的视点识别和关联的对象上的特征关键点。它的表示是由网络自动探索的唯一性和丰富的重复性的d维特征向量。它是物体固有的，这意味着视点的改变或变形不应对物体上唯一地标的表示造成任何差异这种行为被定义为等方差约束[50]。因此，由于缺乏人工注释，我们由于从像素到地标的一对一映射，地标分支也是FCN。它是在具有两个图像I i和r（I i）的连体设置中学习的这种变形将源的点（h，w）变换为目标上的点（hr，wr）以Φlm标记分支。它以Ii和r（Ii）同时作为输入，输出两个m×m×d界标对于每个RoI，映射L= Φlm（Ii）和Lr= Φlm（r（Ii））等方差约束定义为L（h，w）=LR，其中h，w∈1. . . M.为了防止该约束落入退化的情况，当所有像素都映射到奇异对象地标，我们遵循[49]将其重新公式化为距离感知的softmax损失。两个ROI上的地标之间的相对相似性由cos相似性上的softmax函数来制定其中α是平面内旋转的角度。使用等式（八）与（3）一起，图像旋转后ROI的投影模型是容易处理的。以这种方式，变形r不仅提供了学习界标分支的约束，而且可以被认为是用于学习对象坐标分支的增强数据的方式。由于学习的地标的唯一性，它们可以从两个图像中匹配以下段落示出了我们将匹配的2D-2D对应合并到多视图损失项中的方法。多视图丢失：为了将多视图几何引入到学习中，我们还将对象坐标分支升级为连体结构。由于退化的面内六自由度变换，变形量r不再适合约束物体坐标的一致性因此，我们使用两个图像Is和目标It-来自由平面外移动引起的不同视点-作为暹罗网络的输入。所提出的用于对象坐标分支的多视图损失由两项组成首先，我们研究了两个视点之间的给定Is和It作为对象坐标分支和界标分支的输入，获得四个输出：对象坐标映射Φobj（Is）、Φobj（It）和界标映射Φlm（Is）、Φlm（It）。在这些地标图上执行逐像素匹配。231592562562828×2828×2562562828×2828×2562562828×2828×2562562828×2828×2562565656×5656×6×5656×5656×Σ¨lmt，l，（h，w）=M（Φlm（Is），Φlm（It）），Is的像素在I t上的位置气给定目标图像的真实姿态Rgt，tgt和缩放的相机矩阵K，t tt目标RoI上的预测源对象点是p项目=1K（R PO+t）。（九）图4.对象坐标头架构。特征t，l，（h，w）stts，l，（h，w）t提取器包括4个卷积层（conv），项目，l，（h，w）lmt，l，（h，w）是同一个三维物体的位置3× 3和步幅1。物坐标系中的解卷积层回归变量为2×2，步长为2。最后一个conv是3×3，步长为1。目标ROI上的投影点它们之间的区别在于用于反向传播以学习其投影与匹配位置一致的3D坐标。因此，第一损失项被定义为界标对准损失：对象坐标的最终输出是d×（sigmoid（pobj）−0。其中，d是物体的近似直径，并且p_obj是物体的近似直径。output pre-logits from the last conv.L=1？pproj-plm¨¨。（十）lm对齐m×m¨h，wt，l，（h，w）t，l，（h，w）？2其次，我们建议将多视图约束编码为光度损失。具体而言，预测图5. 演示合成数据集的生成。训练和测试视点分别为红色和蓝色projt，l，（h，w）从It扭曲重建图像Is←t。任何我们假设的差异是由前一个错误引起的指定的对象坐标导致归一化RGB空间中的误差此行为对光度损失进行编码：4. 实验我们首先介绍我们在1Lrgb=m×mΣh，wIs← t− Is（十一）上一节。然后，我们进行消融研究，以研究对象坐标头的每个监督信号的效果第三，我们比较了我们的基于多视图几何的损失最终是Lmulti=Llmalign+Lrgb。第一个损失项Eq. （10）确保相似的界标回归到相似的对象点，并且第二损失Eq. （11）项确保了物点在不同图像上具有相同的视觉特征这些强几何监督提高了目标坐标回归的一致性。图中重建的结果图3（c）示出了改进，其中对于来自不同视图的图像，两组对象点被很好地对准推论：见图。1.一、3.2.实现细节在我们的实现中，RPN的主干是带有特征金字塔网络（FPN）的ResNet- 50 [28]。请参见[16]中的检测和分割头的详细信息。我们的对象坐标分支的架构如图所示。4.第一章我们遵循[50，49]中SmallNet的结构来我们以端到端的方式同时训练模型中的所有头部，损失L=Lcls+Lbox+Lmask+Lrepro+Lmulti+Llm。这些损失项的权重没有高度调整，并且设置为相等。该网络在Nvidia Tesla V100 GPU上训练了20万次迭代，批量大小为2。学习率衰减的时间表如下[16]。对于测试时间的RANSAC ，内点的阈值设置为1px，假设数量为256。优化运行高达100次。ROIObjCoordPre-logitspobj特征提取目标坐标回归以pp和pp3160我们的网络和经典的基于重建的方法。最后，我们在两个真实世界的数据集上运行我们的方法：LINEMOD [18]和闭塞LINEMOD [18]，并与最先进的基于学习的方法相结合，这些方法需要在其管道中使用3D模型。Expo数据集：合成数据集包含一个正方形刚性对象expo。分别从一个球体中抽取200和2500+个视点进行训练和测试。视点的位置是随机的，以确保对象以各种尺度分布在整个图像帧上。我们从这些姿势使用纹理CAD模型渲染合成图像。黑色背景然后被来自NYU-Depth V2的[34]数据集。示例参见图5度量：我们用来评估姿态估计性能的度量是ADD-10和5cm 5deg。ADD是由预测姿态和地面真实姿态转换的模型点的平均3D距离。对于对称对象，ADD放宽为ADD-S，即两个变换模型中最近点之间的距离。如果由测试姿势导出的平均（或最近）距离小于对象直径的10%，则姿势估计被认为是正确的。与5cm5deg一样，当平移和旋转误差低于（5cm，5°）时，估计是正确的。我们在表1、2和3中报告的数字是所有测试图像中具有正确姿势估计的帧的比例。3161（a）（b）（c）（d）图6. 从对象坐标头重建的可视化。（a）是测试图像。 (b)这是从这个角度来看的真实反映。(c)是经过重投射损失训练的头部的输出。（d）是来自除了重投影损失之外还训练有多视图损失的头部的输出消融：我们使用三种不同的监督来训练网络：（i）从深处直接监督（作为参考）;(ii)单视图重投影损失;（iii）单视图重投影损失以及多视图几何损失。图1中显示了来自使用不同损失训练的模型的预测3D点的定性网格可视化六、姿态估计的定量结果示于表1中。图6（b）示出了从测试视点观察的物体的真实形状包括3个垂直平面。只有单视图重投影损失作为监督，网络未能发现物体的几何形状，并预测位于平面上的一组点（见图11）。6（c））。有趣的是，这些错误的物体坐标令人惊讶地导致高度（5cm5deg：99%和ADD-10：99.5%）准确的姿势。它表明，单独优化损失项（5）会导致网络退化，仅确定3D点所在的射线，而不是完整的3D坐标。因此，经训练的模型产生任意形状，只要其来自地面实况姿态的投影与图像上的对象的sil-houette匹配。因此，由该形状和2D位置建立的对应关系导致训练集的精细姿态估计（稍后报告测试集的性能）。相比之下，来自使用额外的多视图损失训练的模型的重建示出了图1中的对象的角和3面结构。第6（d）段。在数量上，单视图重建与地面实况形状之间的中位倒角距离（双向，以m为单位，越小越好）为（0.152，0.067），并且对于多视图重建时，它们是（0.094，0.048）。由于仅使用重投影损失作为唯一监督而导致的失败也出现在测试图像的定量结果中。在表1（再现）中，使用重投影损失训练的模型的5cm 5deg和这是因为训练的模型不编码真实的几何形状，因此对看不见的图像的生成很差。在列repro+lm中，使用重投影损失和地标对齐损失来训练模型。精度提高到39.3%（5cm ± 5deg）和52.5%（ADD-10），约为再现精度的2.5倍。组合再现-图7. 通过使用匹配的标志位置扭曲目标（右）来重建源（左）（中）深度reprorepro+LMrepro+RGBrepro+LM+RGB5厘米5度61.314.339.340.153.1ADD-1057.123.652.551.358.5表1. 不同损失项组合对Expo测试集的姿态估计性能。具有光度损失的喷射损失（列再现+RGB）实现类似的结果。最好的性能来自列rgb+lm+rgb。它是通过使用重投影损失和所有多视图损失（Llmalign+Lrgb）来训练模型而获得的。它表明，通过光度损失提供的额外的多视图约束，对象坐标实现了更好的姿态估计，这甚至与直接监督的模型相当，其准确度为61.3%（5cm5deg）和58.5%（ADD-10）。地标匹配：我们在图中的LINEMOD的两个视图中显示了基于学习对象地标的密集匹配的几个示例。7.第一次会议。源图像和目标图像中匹配的界标的位置用于重建源图像。这些中间变形的图像表明，学习的地标成功地在两幅图像中建立了2D- 2D对应关系，可以用于在3D中三角测量物体点的坐标。与基于SfM的方法的比较：我们使用colmap [46，45]从expo数据集中的200个训练图像中运行SfM，以从稀疏特征中构建显式重建。图8比较了SfM和我们的对象坐标头的重建它表明，只有五个六个平面的对象是成功地建立了SfM。显然，这是由于缺少平面上的纹理造成的，稀疏特征检测器很难识别任何显著点。相比之下，我们的模型设法建立每一个表面，尽管它的纹理。我们假设的解释是，主干从多个尺度探索粗糙和精细特征，因此它对图像上视觉特征的密度更鲁棒。作为一种权衡，我们的方法在视觉上实践了物体3D角处的重建误差的累积（见图11）。6（d）），其中不变性和等变性约束最受平面外运动的“压力”（也可能表现出自遮挡）。在LineMOD上：我们的方法是在LINEMOD数据集上执行的，以验证对真实世界图像的泛化。LINEMOD包含13个对象序列3162带CAD模型无CAD模型方法BB8 BB8[41]第四十一话公司简介[22]第二十二话泰金[48]DeepIM[27]第二十七话密-融合[52]像素2-[第38话]PVNet[第40话]SSD-6D[22]LieNet[11]我们猿27.940.46521.6277.09258.143.620.0038.852.91长凳式的62.091.88081.8097.59391.099.900.1871.296.51凸轮40.155.77836.5793.59460.086.860.4152.587.84可以48.164.18668.8096.59384.495.471.3586.186.81猫45.262.67041.8282.19765.079.340.5166.267.30司钻58.674.47363.5195.08776.396.432.5882.388.70鸭32.844.36627.2377.79243.852.580.0032.554.74蛋盒 *40.057.810069.5897.110096.899.158.9079.494.74胶水 *27.041.210080.0299.410079.495.660.0063.791.98穿孔器42.467.24942.6352.89274.881.920.3056.475.41铁67.084.77874.9798.39783.498.888.8665.194.59灯39.976.57371.1197.59582.099.338.2089.496.64电话35.254.07947.7487.79345.092.410.1865.089.24平均43.662.77955.9588.69472.486.272.4265.282.88表2.LineMOD：ADD-10中正确姿态估计的图像。* 表示对象是对称的，并在ADD-S中进行计算w/r表示使用3D模型对姿势进行了细化。图8. 比较SfM和我们的方法的重建。左：来自两个示例视点的图像;中：SfM的网格重建;右：我们模型的网格重建。具有注释的边界框和感兴趣对象的姿态。我们严格按照[48]中的训练/测试划分来训练我们的网络在我们的方法中，不需要额外的合成数据以及3D CAD模型。我们在表2中报告了性能。我们的方法优于一半以上的基于学习的方法，并取得了与国家的最先进的方法，它使用了大量的合成训练图像从新的观点[40]和/或用于细化的3D模型[52，27]。关于闭塞LINEMOD：我们还测试了我们的方法，一个更具挑战性的数据集：遮挡LINEMOD，一个带有遮挡对象注释的序列。ADD-10再-根据[40]的测试方案，结果显示在表3它显示了我们的方法对遮挡的鲁棒性。5. 结论我们已经提出了一种方法，执行准确的6dof对象姿态估计从一个单一的RGB图像。我们的基于学习的方法隐式编码的对象重建到一个网络，通过回归对象像素的三维对象坐标。然后在推理时执行2D-3D对应以用于几何姿态求解。网络的学习明确地强制对象坐标的多视图附加的land-mark分支为跨多个对象提供一致性TekinPose-[54]第五十四话：Ober-韦格[35]PV-净收入[40]像素2-[第38话]我们猿2.489.617.615.822.07.1可以17.4845.259.363.344.740.6猫0.670.933.3116.722.715.6司钻7.6641.462.425.244.743.9鸭1.1419.619.265.715.012.9电子邮箱*-22.025.950.125.246.43163表3. 关于闭塞LINEMOD的结果。注意所有方法需要在管道中的3D模型，除了我们的。三个视图。我们探索了自我监督的学习从图像变形，并消除了系统中的3D模型的需要。我们的无3D模型方法减少了有和没有3D模型的方法之间的性能差距确认我们衷心感谢澳大利亚研究委员会通过机器人视觉卓越中心CE140100016和获奖者奖学金FL130100102对IR的支持。3164引用[1] 作者：陈文辉，陈文辉.Seitz和Richard Szeliski。一天建成罗马。Commun. ACM，54（10）：105-112，2011年10月第1、3条[2] Eric Brachmann、Alexander Krull、Frank Michel、StefanGumhold、Jamie Shotton和Carsten Rother。使用3d对象坐标学习6d对象姿态估计2014年，在ECCV一、二、三[3] Eric Brachmann、Alexander Krull、Sebastian Nowozin、Jamie Shotton、Frank Michel、Stefan Gumhold和CarstenRother。DSAC-用于相机局部化的可微分RANSAC在CVPR，2017年。2[4] Eric Brachmann ， Frank Michel ， Alexander Krull ，Michael Ying Yang ， Stefan Gumhold ， and CarstenRother.不确定性驱动的6D姿态估计的对象和场景从一个单一的RGB图像。在IEEE计算机视觉和模式识别会议（CVPR），2016年。1[5] Eric Brachmann和Carsten Rother。学习越少越好- 经由3D表面回归的6D相机定位在CVPR，2018年。2[6] Mai Bui 、 Shadi Albarqouni 、 Slobodan Ilic 和 NassirNavab。基于图像定位的场景坐标和对应学习。arXiv预印本arXiv：1805.08443，2018。2[7] Mai Bui，Sergey Zakharov，Shadi Albarqouni，SlobodanIlic，and Nassir Navab.当回归遇到流形学习时，用于对象识别和姿态估计。2018. 1[8] MingCai ， HuangyingZhan ， ChamaraSarojWeerasekera，Kejie Li，and Ian Reid.利用场景坐标回归的多视角约束的摄像机重定位。在IEEE国际计算机视觉会议（ICCV）研讨会上，2019年10月。2[9] 天使XChang，Thomas Funkhouser，Leonidas Guibas，Pat Hanrahan ， Qixing Huang ， Zimo Li ， SilvioSavarese ， Mano-lis Savva ， Shuran Song ， Hao Su ，Jianxiong Xiao，Li Yi，and Fisher Yu.ShapeNet：一个信息丰富的 3D 模型库。技术报告 arXiv ： 1512.03012[cs.GR]，斯坦福大学-普林斯顿大学-芝加哥丰田技术研究所，2015年。1[10] 丹尼尔·F Dementhon和Larry S.戴维斯基于模型的物体姿态， 25 行代码。 International Journal of ComputerVision，15（1）：123-141，Jun 1995. 1[11] Thanh-Toan Do，Trung Pham，Ming Cai，and Ian D.里德Lienet：实时单目物体实例6d姿态估计。在英国机器视觉会议2018，BMVC 2018，第2页，2018年。8[12] Martin A. Fischler和Robert C.波尔斯随机样本一致性：模型拟合的范例，应用于图像分析和自动制图。Commun. ACM，24（6）：381-395，June 1981. 2[13] Iryna Gordon和David G Lowe。内容和地点：具有精确姿态的 3D 对象识别。在 Toward category-level objectrecognition中，第67-82页Springer，2006年。2[14] Chunhui Gu and Xiaofeng Ren.用于视点分类的判别性混合模板。在欧洲会议-计算机视觉，第408-421页。施普林格，2010年。3[15] Richard Hartley和Andrew Zisserman。计算机视觉中的多视几何学。剑桥大学出版社，2003年。5[16] KaimingHe ， GeorgiaGkioxari

下载后可阅读完整内容，剩余1页未读，立即下载