学习局部RGB到CAD对应关系用于物体位姿估计

103 浏览量更新于2023-10-13 收藏 1.07MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8967R，t关键点学习3D姿态学习局部RGB到CAD对应关系用于物体位姿估计Geor giosGeorg akis1，SrikrishnaKaranam2，ZiyanWu2，andJanaKosˇecka'11Department of Computer Science，George MasonUniversity，Fairfax VA2Siemens Corporate Technology，PrincetonNJggeorgak@gmu.edu，{first.last}@ siemens.com，kosecka@cs.gmu.edu图1：我们提出了一种新的方法，将RGB图像与CAD模型的深度渲染相匹配，以进行对象姿态估计。它不需要纹理CAD模型或3D姿势注释的RGB图像在训练过程中。这是通过对局部特征强制执行视点和模态不变性，并学习跨模态的一致关键点选择来实现的摘要我们考虑的问题，三维物体的姿态估计。虽然最近的许多工作集中在RGB域，但对精确注释的图像的依赖限制了可泛化性和可扩展性。另一方面，容易获得的对象CAD模型是丰富的数据源，提供了大量的合成渲染图像。在本文中，我们解决了这个关键问题，现有的方法需要昂贵的三维姿态注释，提出了一种新的方法，匹配RGB图像的CAD模型的对象姿态估计。与现有工作相比，我们的关键创新包括消除对CAD模型的真实世界纹理或RGB图像的显式3D姿态注释的需要。我们通过一系列目标来实现这一目标，这些目标学习如何选择关键点并在RGB图像和CAD模型渲染中执行视点我们的实验表明，该方法可以可靠地估计RGB图像中的对象姿态，并推广到训练过程中看不到的对象实例1. 介绍估计物体的三维位姿是实现机器人片段和对象以及增强现实应用。虽然解决这个问题的几种方法假设RGB-D数据[17，31]，但大多数移动和可穿戴相机都没有与深度传感器配对，这促使最近的研究集中在RGB域上。此外，即使几种方法已经显示出对真实RGB图像的3D对象姿态估计的有希望的结果，它们也需要准确的3D注释[23，26，44，30，16]或3D对象模型。具有逼真纹理的元素[5，37，6，17]在训练阶段。目前可用的数据集[20，43]不足以捕捉真实世界的多样性，限制了这些方法推广到各种应用的潜力。此外，捕获真实的RGB数据和手动姿态标注是一个艰巨的过程。目标姿态估计问题本质上是一个三维问题;是物体的形状泄露了它的姿态，而不管它的外观。我们不是试图学习图像的内在分解[14]，而是专注于找到RGB图像中描绘的对象的部分与3D深度图像中的对应部分理想地，我们想要学习这种关联，以便在查询RGB图像和来自CAD模型的渲染深度图像之间建立对应关系，而不需要任何现有的3D注释。然而，这需要我们解决以下问题：模态一致性模态不变性视点不变性8968这两种模式。在本文中，我们提出了一个新的框架估计的RGB图像中的对象的三维姿态，只使用三维无纹理的CAD模型的对象实例。容易获得的CAD模型可以从多个视点生成大量的合成渲染的深度图像。为了解决上述问题，我们定义了一个四元组卷积神经网络，以联合学习关键点及其相关描述符，用于不同模态和视点变化之间的鲁棒一般的想法是使用从两个不同姿势的CAD模型绘制一对深度图像，然后学习如何使用对齐的RGB-D图像对来匹配模态上的关键点。图1概述了我们的培训限制。在测试时，给定一个查询RGB图像，我们提取关键点及其表示，并将它们与从渲染深度图像中提取的关键点及其相关描述符这些用于建立2D-3D对应关系，随后是用于姿态估计的RANSAC和PnP算法。总而言之，我们的主要贡献包括：1）用于在训练阶段仅使用无纹理CAD模型和对齐的RGB-D帧的3D对象姿态估计的新框架，而不明确要求RGB图像的3D姿态注释。2）针对相对姿态估计目标优化的关键点选择的端到端学习方法，以及关键点预测及其表示从渲染深度到RGB图像的转移。3）证明我们的方法对相同对象类别的新（在训练期间看不见的）实例的泛化能力。2. 相关工作存在关于3D对象姿态估计的大量工作。在这里，我们回顾现有的方法的基础上使用的训练数据的类型和数量及其形式。使用3D带纹理的实例模型。值得注意的努力致力于从图像中的物体实例的姿态估计问题，其中3D纹理实例模型在培训阶段可用[9，5，37]。早期的孤立方法导致了针对该问题的更近期基准的发展[11]。这种类型的传统方法包括模板匹配[9，48]，其中目标姿态从图1中的最佳匹配模型中检索。数据库和局部描述符匹配[5，37]，其中手工设计的描述符（如SIFT [22]）用于与3D对象模型建立2D-3D对应关系，然后是用于6-DoF姿态的PnP算法。此外，一些作品采用了基于块的密集投票方案[4，38，6，17]，其中学习函数以将局部表示映射到3D坐标或姿势空间。然而，这些方法假设3D对象模型是EL是从真实图像创建的，并且包含逼真的纹理。相比之下，我们的工作只使用对象实例的无纹理CAD与CAD模型的2D到3D对齐。其他工作已经试图通过利用物体CAD模型来解决作为2D到3D对准问题的els [1，24，20，13，2，31]。例如，Aubryet al. [1]从纹理CAD模型中学习基于零件的样本分类器，并将其应用于真实图像以建立2D- 3D对应关系。以类似的方式，Limet al. [20]根据每个兴趣点的边缘图训练补丁检测器。Massaet al的工作。[24]学习了如何通过将从真实图像中提取的表示与其CAD模型对应物相适应来匹配视图相关的样本特征。在这一领域与我们最接近的工作是拉德等人。[31]其试图通过学习将颜色特征映射到真实深度特征并随后映射到合成深度特征来桥接真实深度图像与合成深度图像之间的域间隙。在他们试图弥合这两种模式之间的差距时，这些方法需要学习大量的样本分类器，或者学习如何适应每个特定类别和观点的特征我们通过简单地调整两种模式之间的关键点预测和描述符来避免这个问题与对象检测配对的姿态估计。随着深度卷积神经网络（CNN）在对象识别和检测方面的最近成功，许多工作将3D对象实例姿态估计从输入RGB图像扩展到对象类别[23，25，26，44，30，16，18，41，15]。在Mahendranet al. [23]为每个对象类别学习3D姿态回归量在Mousavianet al.[26]中，引入了用于姿态预测的离散-连续公式，其首先将取向分类到离散组的箱，然后回归箱内的精确角度Poirson等人[30]和Kehlet al. [16]两者都扩展了SSD [21]对象检测器，以分别预测方位角和仰角或6-DoF姿态。在Kunduet al. [18]的方法，其中，给定预测的姿态和形状，对象被渲染并与2D实例分割注释进行比较。所有这些方法都需要在训练过程中对RGB图像进行3D姿态注释，而我们的工作只需要对象的CAD模型。基于关键点的方法姿态估计文献中的另一个流行方向是学习如何估计关键点，其可以用于推断姿态。这些方法通常是由遮挡的存在[27，12]激发的，并且需要关键点注释。例如，Wuet al.[42]在真实图像上训练用于2D关键点预测的模型，并且使用在合成形状上训练的模型来估计对象的3D线框。然后将3D线框投影到标有2D关键点的真实图像上，以增强一致性。在Liet al. [19]作者手动8969当地当地当地一相同模态，不同视图BWC同一视角，不同模态D特征KPN产品特点KPN当地特征然后被转移到RGB域。概括而言，我们的工作可分为四个目标：关键点学习、视图不变描述符、模态不变描述符和模态一致关键点。具体地，每个训练输入被提供为图像的四元组，其由从对象的视球采样的一对渲染的深度图像和一对对齐的深度和RGB图像组成对于每个图像，我们预测一组关键点及其局部表示，但优化目标因不同分支而异。对于前两个分支A和B，L_relpose_loss强制执行关键点选择的姿势一致性，并且使用三元组loss_L三元组强制执行用于其匹配的关键点描述符的相似性。两个底部分支C和图2：所提出的架构的概要，描述了四个分支机构，他们的投入和培训目标。CNN的颜色编码表示权重共享。在纹理化CAD模型上标注3D关键点，并生成在训练期间提供多层监督的合成数据集，而Tekinet al.[39]在使用PnP算法进行姿态估计之前，学习预测对象的3D边界框的投影顶点的2D图像位置。此外，Tulsianiet al.[40]利用视点和可见关键点之间的关系，并使用关键点预测来细化现有的粗略姿态我们的工作，而不是依赖于现有的关键点注释，优化关键点选择的基础上的相对姿态估计目标。相关方法也学习关键点[36，7，45，47]，但无论是D被用于在深度和RGB模态L一致性之间实施一致的关键点预测，并且用于跨模态L局部12匹配它们的局部表示。我们的方法的总体思路是学习信息关键点及其相关的本地描述。从丰富的渲染的深度图像中提取参数，并将此知识转移到RGB数据。架构我们提出的架构是四元组卷积神经网络（CNN），其中每个分支具有骨干CNN（例如，VGG）来学习特征表示和由两个卷积层组成的关键点建议网络（KPN）。来自主干的最后一个卷积层的输出特征图作为输入被馈送到KPN。KPN产生维度为H×W×D的得分图，其中H和W是输入图像S s依靠手工制作的检测器来收集训练数据[45]，或不扩展到真实RGB姿态估计[36，7，47]。合成数据生成。为了解决注释数据的稀缺性，一些方法依赖于生成大量用于训练的合成数据[35，34，8]。一种常见的技术是渲染纹理CAD模型并将其叠加在真实背景上。为了确保训练数据的多样性，随机选择诸如姿势、形状变形和照明的渲染参数。然而，专门在合成数据上进行训练已经显示出对学习的表示是有害的，因为真实RGB图像的基本统计数据通常非常不同。3. 方法我们感兴趣的是通过将关键点与对象的CAD模型相匹配来估计RGB图像我们的工作不使用姿势注释，而是依赖于不同姿势的CAD模型渲染，这些渲染可以通过现成的渲染器（如Blender [3]）轻松获得这些渲染的深度图像用于学习关键点及其表示，这些表示针对姿态估计任务进行了习得的表征和宽度，s是网络步幅，D= 2是特定位置是否是关键点的分数。然后将Softmax应用于D，使得KPN输出图上的每个位置该输出图可以被视为2D图像上的关键点位置的基于网格的集合的关键点置信度分数关键点采样的密度取决于网络步幅s，在我们的情况下是16（即每16个像素的关键点建议）。为了提取每个关键点的描述符（dim-2048），主干的特征图连同一组边界框一起被传递到感兴趣区域（RoI）池化层，每个边界框以关键点位置为网络的第一对分支（A，B）是用应用于局部特征的三元组损失来训练的，而相对姿态损失被应用于关键点预测。分支D使用局部特征上的欧几里得损失和一致性损失来训练，该一致性损失试图将其关键点预测和局部表示与分支C的关键点预测和局部表示对齐。请注意，分支A、B和C共享其权重，而分支D是不同的网络。由于分支D接收的输入与其他分支不同，我们希望分支C和D产生相同的输出，因此它们在训练期间的权重必须是独立的。在下面的章节中，我们将详细介绍损失函数和训练。L一致性L三重态L局部-L2LRel-Pose8970估计R和t，使得：Σn（R，t）=R∈SO（3），t∈R3i=1wi||（Rpi+t）−qi||第二章（一）其中w =sA+sB是对应i的权重，我我我sA和sB是预测的关键点概率，如给定的我我KPNKPNAB A”““KPN，然后是Softmax层，属于核心。响应i分别来自分支A和B。给定一组对应关系及其权重，可以在[33]中找到用于估计取决于w的R和t的基于SVD的封闭形式解决方案该公式背后的思想是，具有高重投影误差的对应关系应当具有低权重，因此具有低预测关键点分数，而具有低重投影误差的对应关系应当具有高权重，因此具有高预测关键点分数。B有了这种直觉，我们将相对姿态损失公式化为：(a) 相对姿态丢失。(b) 三重丢失。1ΣnL相对位置=nwi g（wi）（2）图3：相对姿态和三重态损失。i=1其中g（wi）=||（Rpi+t）−qi||二、由于我们的目标是相对于估计的关键点得分来优化损失函数，因此我们通过估计每个对应的梯度并相应地反向传播它们来分别惩罚每个关键点得分3.2. 学习关键点描述符为了跨视点匹配关键点描述符，我们对从分支A和B提取的局部特征应用三重损失。这涉及使用所渲染的深度图像对的已知相机姿态和所渲染的深度图像对的已知相机姿态。CD(a) 局部欧几里得损失C D(b) 关键点一致性丢失。训练关键点三元组的采样（锚定-正-负）。具体来说，对于从第一张图像中随机选择的关键点作为锚点，我们找到最接近的关键点图4：局部欧几里得和关键点一致性损失。3.1. 基于相对姿态估计的关键点学习学习关键点预测背后的总体思想是选择可以用于分支A和A中的输入深度图像之间的相对姿态估计的关键点。B. 具体来说，给定两组关键点，我们建立-在3D中从配对图像中选择一个点，并将其用作正，并且还在3D中选择一个更远的点用作负。然后，三元组损失优化表示，使得锚点和阳性点之间的特征距离小于锚点和阴性点之间的特征距离加上一定的余量，并且定义如下：1ΣN在3D空间中的lish对应，估计旋转RL三重峰=max（0，||f a−f p||2−||f a−f n||2+m）和平移t，并将关键点从深度图像A投影到深度图像B。任何未对准（重新投影Nii我我我（三）误差）用于惩罚其中fa、fp和fn是锚的局部特征，我我我初始关键点选择。图3a中示出了相对位姿物镜的图形表示。相对姿态目标被公式化为最小二乘问题，其找到加权对应的误差最小的旋转R和平移t。形式上，对于两组对应点： P={pi ， p2 ， . . . ， pn} ， Q={q1 ，q2，. . . ，qn}，我们希望正的和负的，并且m是余量。传统上，间隔超参数在整个训练过程中被手动定义为常数;然而，我们利用3D信息并将裕度定义为等于D n-D p，其中D n是锚点和负点之间的3D距离，D p是锚点和负点之间的3D距离。L2规范RoI池设置框RoI池L2规范L2规范L2规范L局部-L2盒集RoI池RoI池KPNSoftmaxL一致性KPNSoftmaxLRel-Pose估计相对姿态R，tL三重态三重抽样897166我我肯定的：第理想地，Dp应该是0，但是实际上由于图像空间中的关键点的采样，它通常是接近0的小数字。本质上，这确保了所学习的特征距离与示例之间的3D距离成比例注意，三重态损失仅在训练期间影响骨干CNN，而不影响KPN。三重物镜的图示如图3b所示。3.3. 跨模态表征学习最后，我们可以把学到的特征和关键-类别椅子沙发度量Acc π ↑6MedErr↓Acc π ↑6MedErr↓CNN渲染[34]4.32.111.61.2Vps Kps [40]10.31.723.31.2[26]第二十六话10.81.925.61.0提出13.41.630.21.1表1：当在Pix3D上训练并在Pascal3D+上在Accπ（%）和MedErr（弧度）上测试时，与监督方法的比较。总体目标。我们的总体培训目标是上述损失的组合：Lall=λ1L三重态+λ 2L相对态从分支（A，B）到分支D的点建议，我们- ing分支C作为桥梁，类似于知识的升华+λ3L本地L2 +λ4L 一致性（六）技术[10]。为了实现这一点，分支A、B和C中的网络参数被共享，并且分支C和D的输出被比较并根据任何未对准而被惩罚。核心思想是在分支C和D中强制主干和KPN两者以生成尽可能相似的输出这一目标可以通过下面描述的两个关键组成部分来局部特征对齐。为了对齐分支C和D中的局部特征表示（参见图4a），我们考虑分支C中的预测关键点并计算每个关键点的特征表示，fi，i=l，. . . ，k. 在来自分支D的对应空间位置处的关键点特征被表示为 . . ，k，. 例如，我们优化以下目标函数：1Σk其中每个λ是对应损失的权重。4. 实验为了验证我们的方法，我们在Pascal3D+ [43]数据集和新引入的Pix3D [35]数据集上进行了实验。首先，我们通过在Pix3D上训练和在Pascal3D+上测试来比较监督的最先进的方法（第二节）。4.1）;其次，我们在Pix 3D上进行消融研究，并评估我们的方法的不同部分的性能（第4.1节）。4.2）;第三，我们测试我们的模型如何通过仅在提供的实例的子集上进行训练并在看不见的实例上进行测试来推广到新的对象实例（第4.2节）。4.3）;最后，来自外部数据集（如NYUv 2[32]）的数据用于在Pix 3D上进行训练和测试（第4.3节）。4.4）。动机-L本地l2=Ki=1f第四个实验的目的是证明我们的框架可以利用来自另一个现实数据集的RGB-D对，其中RGB和RGB之间的对齐是不一致的。因为我们想使fi与fi对齐，在逆传播期间，我们将fi固定为地面实况，并反向传播深度由传感器提供。我们用测地线-不评价标准：（R，R）=||log（R1R2）||F，报告L只发送到分支D中的适当位置。1 2√2本地L2在地面真实值的π范围关键点一致性。实施关键点控制-一致性约束要求从分支D到加速度π6和MedErr。此外，我们还展示了个人-产生与来自分支C的KPN相同的关键点预测。它可以通过交叉熵损失来实现其中Σh等于具有二进制标签的对数损失：L=三个欧拉角的实际精度，其中距离是两个角度之间的最小差值：∆（ θ1， θ2）= min（2π−||θ1−θ2||、||θ1−θ2||）的情况。对于最后一个度量，我们也使用π的阈值。-1ny*logyi，其中y*是地面真值标签，6ni=1我我yi是预测。这在我们的情况下变成：1Σn实作详细数据。我们使用VGGNet作为每个分支的从ImageNet预训练的权重开始，而KPN是从头开始训练的。我们设定学习率L一致性=−yClogyDniii=1（五）到0.001并且所有λ权重到1。为了规范相对姿态损失，以便预测对象内部的关键点，我们添加了一个掩码项，实现为多项式逻辑其中yC是来自分支C的关键点预测，损失地面实况是对象在其用作地面实况，并且yD是来自分支D的关键点预测。此损失惩罚两个分支的关键点预测之间的任何未对准且迫使分支D模仿分支C的输出。图4b示出了L一致性的输入。渲染深度。该损失仅应用于具有较小权重0.25的分支A最后，将RoI层的边界框尺寸设置为32 ×32。训练数据。我们所有的实验都需要一组quadru-plet输入。对于前两个输入，我们首先从897262312图5：Pix3D数据集测试图像的关键点预测示例。顶行、中间行和底行分别示出了来自部分4.2、4.3和4.4的实验的结果。请注意，我们对关键点预测应用了非最大抑制（NMS），以便从每个区域中选择得分最高的关键点。类别床椅子书桌度量阿兹El.图版Acc π ↑6MedErr↓阿兹El.图版Acc π ↑6MedErr↓阿兹El.图版Acc π ↑6MedErr↓基线-A51.439.135.27.31.730.243.220.03.32.028.930.920.42.62.2基线-ZDDA48.650.341.921.81.535.348.326.611.51.724.323.721.13.92.0拟议-联合69.851.958.131.31.055.362.744.731.10.957.248.751.025.01.1拟议-候补83.267.070.450.80.554.760.147.031.21.065.155.358.634.90.9表2：第4.2节实验的方位角（%）、仰角（%）、平面内旋转（%）准确度、Accπ（%）MedErr（弧度）。每个对象然后，我们对渲染的对进行采样，使得它们的姿态差在π和π之间。对于最后两个输入，我们测试方案。对于我们实验中使用的每个CAD模型实例，我们首先创建一个描述符库，每个描述符都分配给一个3D坐标。为了做到这一点，20个渲染视图从每个ob的观察球体中采样12 3需要对齐的深度和RGB图像对。为了为了在Pix3D数据集上展示我们的方法，我们使用数据集的注释生成这些比对，然而，我们在任何其他能力的训练期间不使用注释。正如我们在SEC中所展示的那样。4.4，或者，对齐的深度和RGB图像可以从现有的RGB-D数据集或通过手动对齐进行采样[2]。注意，对于每个四元组，第一对输入的选择对于最后两个输入中的对象的姿态是不可知的。我们进一步注意到，给定足够的视场采样，重要的是如何生成四元组训练数据（特别是分支A和B的对）。如果这些对具有小的姿态差异（例如，≤π），该模型不能充分学习视图不变表示。另一方面，对于较大的姿态差异（例如，π），两个视图之间的重叠区域很小，因此更难找到跨视图的对应关系。我们发现具有π的最大位姿差的采样对提供了良好的平衡。一个可能的未来扩展可以是将减少的数据需求或训练时间）。类似于如何生成训练数据，以及从每个视图中提取关键点。请注意，对于此过程，我们使用对应于我们架构的分支A的训练网络。然后，我们通过分支D的网络传递查询RGB图像，生成关键点及其描述符，并将它们与对应对象实例的存储库进行匹配。最后，将建立的对应关系传递到RANSAC和PnP算法以估计对象的姿态。对于每个关键点生成步骤，我们在数据库创建期间使用具有前100个分数的关键点，并将前200个分数用于测试RGB图像。在Pix3D上进行测试时，我们定义了一个测试集，其中包含所有类别实例的未截断和未遮挡的示例，床、椅子和桌子类别分别总共有 179、 1451 和152幅图像。对于Pascal3D+，我们遵循提供的测试集，并使用地面实况边界框。4.1. 与监督方法的比较鉴于我们的方法在训练过程中不使用任何姿势注释，因此将其与使用姿势注释的897366类别床椅子书桌度量阿兹El.图版Acc π ↑6MedErr↓阿兹El.图版Acc π ↑6MedErr↓阿兹El.图版Acc π ↑6MedErr↓基线-A38.239.630.69.71.928.641.420.33.71.937.634.428.85.62.0基线-ZDDA29.939.622.24.92.330.144.621.57.61.936.843.230.413.61.7拟议-联合66.750.062.529.20.943.750.431.315.11.459.244.041.613.61.3拟议-候补75.761.174.345.10.652.057.438.021.21.262.444.053.618.41.2表3：方位角（%）、仰角（%）、平面内旋转（%）准确度、Acc π的结果（%）和MedErr（弧度）秒4.3实验。图6：来自Pix3D数据集的测试RGB图像上的渲染估计姿势的图示。4.2实验。在训练期间。此外，我们的方法不能在Pascal3D+上训练，因为它需要成对的RGB和深度图像，而这些图像不能从数据集的注释中生成因此，我们设计了以下实验进行公平比较：我们在Pix3D上训练所有方法，并在Pascal3D+ 上测试。我们比较了 Deep3DBox [26] ，Render for CNN [34]和Viewpoints Keypoints [40]的最先进方法，所有这些方法都需要RGB图像的姿势注释。其他方法，例如Pavlakoset al. [27]，被考虑用于比较，但不幸的是，它们在训练期间需要Pix3D不提供的语义关键点注释。我们对Pix3D和Pascal3D+（椅子和沙发）之间的常见类别进行了评估，并在表1中报告了结果。正如预期的那样，所有方法在应用于新数据集时通常表现不佳。我们的方法证明了更好的泛化，并实现了更高的Accπ的两个对象，即使它不明确要求在训练过程中的3D姿态注释。这是由于这些方法和我们的方法之间的基本概念差异。这些方法将视点估计公式化为其中要学习全连接层中的大量参数的分类问题。这增加了对数据和注释的需求，并将方法主要限制在训练的数据分布上。另一方面，我们利用CAD模型从对象的视域中密集采样，并明确弥合合成数据和真实图像之间的差距，从而减少对注释的需求。此外，学习到的局部对应关系允许更灵活地理解看不见的物体的几何形状，正如我们在第二章中所示。四点三。4.2. 消融研究为了理解每个目标基线-A。为了评估跨模态表征学习的重要性（第二节）。3.3），我们学习视图不变的深度表示和深度关键点，并且在测试期间简单地使用这些关键点和表示。在实践中，这对应于去除局部欧几里德和关键点一致性损失，并且在训练期间仅使用三元组和相对姿态损失。因此，该基线在训练期间仅利用深度数据，但在测试期间应用于RGB图像。基线-ZDDA。另一基线将是仅学习RGB-D模态不变表示，即，RGB和深度图像的类似特征，其然后可以用于将RGB图像与来自CAD模型的深度渲染进行在实践中，这将对应于通过对所有可能的关键点位置进行采样来仅使用局部特征对齐目标来这在精神上类似于ZDDA [28]的改进版本，ZDDA [28]是一种将RGB和深度模态映射到潜在空间中的同一点的域自适应方法。联合和交替训练。最后，我们使用我们的方法中的所有目标，并调查两种不同的培训策略。首先，我们尝试在单个优化会话中联合训练所有目标，并将此基线报告为Proposed-joint。第二，我们定义了三步交替训练，其中我们最初仅使用三元组和相对姿态损失（即A，B，C），则我们选择8974仅利用局部欧几里得和关键点一致性损失（即，分支D），并且在最后步骤中，所有目标一起被联合优化。该基线报告为拟议备选基线。注意，也在sec. 4.1和4.4遵循这个训练范例。结果我们首先在图5（顶行）中示出测试图像上的定性关键点预测结果，其中我们看到通常满足我们对良好关键点的直觉的关键点预测。然后，我们采用上述测试协议来报告测试RGB图像的定量姿态估计结果。表2显示了三个对象类别的性能分析。从结果中可以看出，与基线方法相比，我们提出的模型通常具有更高的准确性特别地，对基线A的改进表明在我们的模型中实施的关键点和表示模态适应是关键的。此外，对基线ZDDA的改进表明，只需对RGB和深度特征执行模态自适应，是不够的，并且学习关键点和视图不变表示，如在我们的方法中所做的，对于实现良好的性能是重要的。最后，我们观察到改变训练优于联合策略，证明了在转移到RGB模态之前首先学习好的关键点和表示的重要性。4.3. 模型可移植性在本节中，我们演示了转移能力，目标是根据所提出的方法训练的模型，以很好地泛化到训练期间未看到的类别实例这是该方法的实际可用性的关键，因为我们不可能在训练期间具有所有感兴趣实例的相关CAD为此，在SEC中引入的基线 4.2与以下实验方案一起重复使用：在训练期间，从每个类别的可用实例的子集中采样四元组，并在对应于所有其他实例的RGB图像上进行测试。例如，对于床类别，我们使用10个实例进行训练，使用9个实例进行测试。同样，对于椅子和桌子，我们分别使用111和12个实例在测试期间，我们使用与上述相同的方案我们在图5（中间行）中呈现了定性关键点预测，并在表3中报告了定量性能我们看到我们的模型显示出良好的可移植性，提供了（a）与之前相似的预测关键点的细节水平，（b）与基线相比提高了准确度，以及（c）与表2中的那些不太远的绝对准确度。4.4. 框架灵活性虽然上述结果使用来自Pix 3D的RGB-D对进行模型训练，但原则上，我们的方法可以与提供对齐的RGB-D的其他数据集结合使用。度量阿兹El.图版Acc π ↑6MedErr↓床65.954.144.024.01.0椅子44.351.031.015.21.6书桌50.045.431.67.21.9表4：第二阶段的结果4.4实验所有的数字都是%，MedErr（弧度）除外。对也是。这种能力自然会使我们的框架更容易训练模型，从而提高框架的灵活性。为了证明这一点，我们像以前一样训练我们的模型，但是现在对于分支C和D的输入，我们使用来自NYUv 2 [32]数据集的对齐RGB-D对由于这些对包含来自真实深度传感器的噪声深度图像，因此我们使用DepthSynth [29]在用于分支A和B的干净渲染深度图像上综合应用真实噪声。这确保分支A、B和C仍然接收相同的模态作为输入。请注意，我们没有在NYUv2上进行测试，而是使用它来收集辅助训练数据并在Pix3D上进行测试。与所有其他实验类似，我们不使用RGB图像的任何姿势注释作为训练模型的一部分，并且我们遵循之前的测试协议。图5（底行）示出了对来自Pix3D的测试数据的一些关键点预测结果在表4中，我们报告了定量结果。我们可以进行几次观察-虽然这些数字低于表2中提出的方法，这是预期的，但它们高于表2中报告的所有基线。请注意，基线是用Pix3D的对齐训练的，而我们这里的模型是用NYUv2的对齐训练的这些结果连同先前部分中的那些结果一起示出了我们的方法在学习用于估计对象姿态的可推广模型中的潜力，同时在训练期间不明确地要求姿态注释。5. 结论我们提出了一种新的框架，用于RGB图像中的3D对象姿态估计，该框架在训练期间不需要纹理化的CAD模型或RGB图像的3D姿态注释。我们通过一种新型的端到端学习管道来实现这一点，该管道引导我们的模型发现针对相对姿态估计优化的渲染深度图像中的关键点，我们的实验已经证明了所提出的方法与监督方法相比在看不见的测试数据上的有效性，这表明可以在不依赖于姿势注释的情况下学习可推广的模型。致谢。本文主要是基于第一作者在西门子公司技术实习期间所做的工作。这项研究得到了NSF NRI资助1527208的部分支持。8975引用[1] Mathieu Aubry 、 Daniel Maturana 、 Alexei A Efros 、Bryan C Russell和Josef Sivic。3D椅子：使用CAD模型的大数据集的示例性的基于部件的2D-3D对准。在IEEE计算机视觉和模式识别会议论文集，第3762-3769页[2] Aayush Bansal、Bryan Russell和Abhinav Gupta。Marr再访：经由表面法线预测的2D-3D对准。在IEEE计算机视觉和模式识别会议论文集，第5965-5974页[3] 搅拌机https：//www.blender.or g/.[4] Eric Brachmann、Alexander Krull、Frank Michel、StefanGumhold、Jamie Shotton和Carsten Rother。使用3d对象坐标学习6d对象姿态估计。在欧洲计算机视觉会议上，第536-551页。Springer，2014.[5] Alvaro Collet ， Manuel Martinez ， and Siddhartha SSrinivasa.助力车框架：用于操作的对象识别和姿态估计。The International Journal of Robotics Research，30（10）：1284[6] Andreas Doumanoglou 、 Rigas Kouskouridas 、 SotirisMalas-siotis和Tae-Kyun Kim。恢复6d对象姿态并预测人群中的下一个最佳视图在IEEE计算机视觉和模式识别会议论文集，第3583-3592页[7] Georgios Georgakis，Srikrishna Karanam，Ziyan Wu，Jan Ernst，andJanaKo s eck a'. 用于姿态不变3d匹配的关键点检测器和描述符的端到端学习在IEEE计算机视觉和模式识别会议论文集，第1965-1973页[8] SaurabhGupta，PabloArbela' ez，RossGirshick，andJiten-dra Malik.在rgb-d影像中推断3d物件位姿。arXiv预印本arXiv：1502.04652，2015。[9] 斯特凡·欣特施托伊瑟，斯特凡·霍尔泽，塞德里克·卡尼亚特，斯洛博丹·伊利克，库尔特·科诺利格，纳西尔·纳瓦布，文森特·莱普埃提. 多模态模板用于在严重杂乱的场景中实时检测在计算机视觉（ICCV），2011 IEEE国际会议上，第858IEEE，2011年。[10] Geoffrey Hinton Oriol Vinyals和Jeff Dean。提取神经网络中的知识。arXiv预印本arXiv：1503.02531，2015。[11] Tomas Hodan、Frank Michel、Eric Brachmann、WadimKehl、Anders Glent Buch、Dirk Kraft、Bertram Drost、Joel Vidal 、 Stephan Ihrke 、 Xenophon Zabulis 、 SahinCaner、Manhardt Fabian、Tombari Federico、Kim Tae-Kyun、Matas Jiri和Rother Carsten。Bop：6D对象姿态估计的基准。在ECCV，2018。[12] Moos Hueting ， Pradyumna Reddy ， Vladimir Kim ，Nathan Carr，Ersin Yumer，and Niloy Mitra. 透视：在严重遮挡的室内场景图像中找到椅子。 CoRRabs/1710.10473，2017。[13] Hamid Izadinia，Qi Shan，and Steven M Seitz. Im2cad。在计算机视觉和模式识别（CVPR）中，2017 IEEE会议，第2422-2431页。IEEE，2017年。[14] Michael Janner ， Jiajun Wu ， Tejas D Kulkarni ， IlkerYildirim，and Josh Tenenbaum.自监督本征图像去噪混合物. 神经信息处理系统，第5936-5946页，2017年[15] Yueying Kao ， Weiming Li ， Zairan Wang ， DongqingZou ， Ran He ， Qiang Wang ， Minsu Ahn ， SunghoonHong，et al.一种用于目标视点估计的外观-结构融合网络。在IJCAI，第4929-4935页[16] Wadim Kehl ， Fabian Manhardt ， Federico Tombari ，Slobodan Ilic，and Nassir Navab.Ssd-6d：使基于rgb的3d检测和6d姿态估计再次伟大。在国际计算机视觉会议（ICCV 2017）的会议记录中，意大利威尼斯，第22-29页[17] Wadim Kehl 、 Fausto Milletari 、 Federico Tombari 、Slobodan Ilic和Nassir Navab。局部rgb-d补丁的深度学习，用于3d对象检测和6d姿态估计。欧洲计算机视觉会议，第205-220页。施普林格，2016年。[18] Abhijit Kundu，Yin Li，and James M Rehg. 3d-rcnn：通过渲染和比较进行实例级3d对象重建。在IEEE计算机视觉和模式识别会议论文集，第3559-3568页，2018年。[19] Chi Li，M Zeeshan Zia，Quoc-Huy Tran，Xiang Yu，Gregory D Hager，and Manmohan Chandraker.用于遮挡感知3d对象解析的具有形状概念的深度监督在IEEE计算机视觉和模式识别会议论文集，2017年。[20] Joseph J Lim、Hamed Pirsiavash和Antonio Torralba。分析宜家对象：精细姿态估计。 IEEE InternationalConference on Computer Vision，

下载后可阅读完整内容，剩余1页未读，立即下载