多对象6D姿态估计的归一化对象坐标空间表示

183 浏览量更新于2023-10-18 收藏 2.31MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1用于分类级6D物体位姿和尺寸估计的王和1斯瑞纳特·斯里达尔1黄经纬1朱利安·瓦伦丁2宋舒然3列奥尼达斯·J.Guibas1，41斯坦福大学2谷歌公司3普林斯顿大学4Facebook AI Research摘要本文的目标是估计RGB-D图像中不可见对象实例的6D姿态和尺寸。与“实例级”6D姿态估计任务相反为了处理给定类别中不同的和不可见的对象实例，我们引入了归一化对象坐标空间（NOCS）-一个类别中所有可能的对象实例的共享规范表示。然后，我们基于区域的神经网络被训练来直接推断从观察到的像素到这个共享对象表示（NOCS）的对应性以及其他对象信息，如类标签和实例掩码。这些预测可以与深度图组合以联合估计杂乱场景中的多个对象的度量6D姿态和尺寸。为了训练我们的网络，我们提出了一种新的上下文感知技术来生成大量完全注释的混合现实数据。为了进一步改进我们的模型并评估其在真实数据上的性能，我们还提供了一个具有大环境和实例变化的完全注释的真实世界数据集。大量的实验表明，该方法是能够鲁棒地估计的姿态和大小的看不见的对象实例在真实环境中，同时也实现了最先进的性能标准的6D姿态估计基准。1. 介绍检测物体并估计其3D位置、方向和大小是虚拟和增强现实（AR）、机器人和3D场景理解中的重要要求。这些应用程序需要在可能包含以前未见过的对象实例的新环境中操作。过去的工作已经探索了实例级6D姿态估计问题[35，44，26，49，5，27]，其中精确的CAD模型及其大小预先可用https://hughw19.github.io/NOCS_CVPR2019图1.我们提出了一种方法的类别级6D姿态和大小估计的RGB-D图像中的多个看不见的对象。新颖的归一化对象坐标空间（NOCS）表示（在（b）中进行颜色编码）允许我们在类别级别一致地定义6D姿态我们获得了不可见对象的全度量6D姿态（（c）中的不幸的是，这些技术不能用于其中绝大多数对象以前从未见过并且没有已知的CAD模型的一般设置。另一方面，类别级3D对象检测方法[41，34，8，32，47，11]可以在不需要精确CAD模型的情况下估计对象类别标签和3D边界框。然而，估计的3D边界框是视点相关的，并且不对对象的精确定向进行编码。因此，这两类方法都达不到需要看不见的对象的6D姿态和3个非均匀尺度参数（编码在本文中，我们的目标是弥合这两个家庭的方法之间的差距，提出，据我们所知，第一种方法的类别级6D姿态和大小估计的多个对象-一个具有挑战性的问题，为新的对象实例。由于我们不能使用CAD模型进行非-对于所看到的对象，第一个挑战是找到一种表示，该表示允许针对特定类别中的不同对象定义6D姿态和大小。第二个挑战是无法获得用于训练和测试的大规模数据集。SUN RGB-D [39]或NYU v2 [38]等数据集缺乏精确的6D姿势和大小的注释，或者不包含表格规模的对象类别-确切地说，在桌面或桌面操作任务中出现的对象类型，知道6D姿势和大小将是有用的。26422643为了解决表示挑战，我们将问题表述为在共享对象描述空间中找到对象像素与归一化坐标之间的对应关系（参见第3节）。我们定义了一个共享空间，称为规范化对象坐标空间（NOCS），其中所有对象都包含在一个共同的规范化空间中，并且类别中的所有实例都是一致定向的。这使得能够进行6D姿态和大小估计，即使对于看不见的对象实例。我们的方法的核心是一个卷积神经网络（CNN），它联合估计来自单个RGB图像的多个对象的对象类、实例掩码和NOCS图直观地，NOCS图通过预测对象像素与NOCS之间的密集对应来捕获对象的可见部分的归一化形状我们的CNN估计NOCS地图，通过制定它作为像素回归或分类问题。然后，NOCS图与深度图一起使用，以使用姿势拟合方法来估计对象的全度量6D姿势和大小。为了解决数据挑战，我们引入了一种空间上下文感知的混合现实方法，以自动生成大量数据（275 K训练，25 K测试），这些数据由来自ShapeNet- Core [7]的逼真合成对象这种方法允许自动生成真实的数据与对象杂波和完整的地面实况注释类标签，实例掩码，NOCS地图，6D姿态和大小。我们还提供了一个真实世界的数据集进行训练和测试拥有18个不同的场景和地面实况6D姿势和大小6个对象类别的注释，总共42个唯一实例。据我们所知，我们的数据集是用于6D姿态和尺寸以及3D物体检测任务的最大、最全面的训练和测试数据集我们的方法使用来自商品RGB-D传感器的输入，并且被设计为处理对称和不对称对象，使其适用于许多应用。图1显示了我们的方法在桌面场景上操作的示例，其中在训练期间看不到多个对象总之，本文的主要贡献是：• 标准化对象坐标空间（NOCS），一个统一的共享空间，允许不同但相关的对象拥有一个共同的参考框架，从而实现6D对看不见的物体进行姿态和大小估计。• 一个 CNN ，联合预测类标签，实例掩码，和NOCS地图的多个看不见的对象在RGB im-年龄我们使用的NOCS地图连同深度图的姿态拟合算法，以估计全米制的6D姿态和尺寸的对象。• 数据集：一种空间上下文感知的混合现实技术，用于在真实环境中合成合成对象这些图像使我们能够生成一个大型注释数据集来训练我们的CNN。我们还提供了用于训练和测试的完整注释的真实世界数据集。2. 相关工作在本节中，我们重点回顾相关工作类别级3D对象检测、实例级6D姿态估计、RGB-D图像的类别级4DoF姿态估计以及不同的数据生成策略。类别级3D对象检测：预测对象的6D姿态和大小的挑战之一是在场景中定位它们并找到它们的物理尺寸，这可以用公式表示为3D检测探针。lem [52，21，20，30，13].值得注意的尝试包括[41，53]，其将3D体积数据作为输入以直接检测3D中的物体。另一条工作线[34，19，9，28]提出首先在2D图像中产生2D对象提案，然后将提案投影到3D空间中以进一步细化最终3D边界框位置。上述技术达到了令人印象深刻的3D检测率，但不幸的是，仅关注于找到对象的包围体，而不预测对象的6D姿态。实例级6D姿态估计：鉴于其实际重要性，存在大量集中于实例级6D姿态估计的工作。在这里，任务是-提供对象的3D位置和3D旋转（无比例），假设这些对象的精确3D CAD模型和大小在训练期间可用。现有技术可以广泛地分类为模板匹配或对象坐标回归技术。模板匹配技术使用迭代最近点等算法将3D CAD模型与观察到的3D点云对齐[3，51]，或使用手工制作的局部描述符进一步指导对齐过程[25，10]。这类技术经常遭受对象间和对象内遮挡，这在我们只有对象的部分扫描时是典型的基于对象坐标回归的第二类方法旨在回归对应于每个对象像素的对象表面位置。这些技术已成功用于身体姿势估计[43，17]、相机重新定位[37，46]和6D对象姿势估计[4]。上述两种方法都需要在训练和测试时间期间对象的精确3D模型。除了在测试时将所有3D CAD模型或学习的对象坐标回归器存储在存储器中的实际限制之外，捕获非常大的对象阵列的高保真和完整的3D模型是一项具有挑战性的任务。虽然我们的方法是受对象坐标回归技术的启发，但它也显着不同于上述方法，因为我们不再需要在测试时完整和高保真的三维CAD模型的对象。类别级4自由度姿态估计：已经有一些关于类别级姿态估计的工作[19，40，18，33，6]，但是它们都进行了简化假设。首先，这些算法将旋转预测约束为仅沿重力方向（仅四个自由度）。其次，他们专注于几个大房间规模的业务-2644对象类别（例如，椅子，沙发，床或汽车），不考虑物体对称性[19，40，18]。相反，我们估计各种手尺度对象的姿态，由于较大的姿态变化，这些对象通常比较大的房间尺度对象更具挑战性。我们的方法还预测了完整的6D姿态和大小，而无需假设物体的重力方向。最后，我们的方法以交互式帧速率（每帧0.5秒）运行，这是显著的。比其他方法快得多（[19]每帧70秒，[40]每帧25分钟）。训练数据生成：训练CNN的一个主要挑战是缺乏具有足够类别、实例、姿势、杂波和光照变化的训练数据已经有几种努力旨在构建包含对象标签的真实世界数据集（例如，[38、39、48]）。不幸的是，这些数据集往往相对较小，主要是由于与地面实况注释相关联的高成本（时间和金钱）。这种限制是其他作品的动力（例如， [33，42，49]），其生成专门合成的数据，从而允许以较小的成本生成大量完美注释的训练数据。为了简单起见，所有这些数据集忽略了在合成数据分布和真实数据分布之间产生事实上的域差距的因素（材料、传感器噪声和为了缩小这一差距，[12]已经生成了通过在真实背景上渲染虚拟对象来虽然背景是真实的，但渲染的对象在半空中飞行，脱离了上下文[12]，这阻止了算法利用重要的上下文线索。我们引入了一种新的混合现实方法，以上下文感知的方式自动生成由对象和真实背景的合成渲染组成的大量数据，使其更加逼真。实验表明，我们的上下文感知训练数据使模型能够更好地推广到真实的测试数据。我们还提出了一个真实世界的数据集，以进一步提高学习和评估。3. 背景和概述类别级6D对象姿态和大小估计：我们专注于估计对象实例的3个旋转，3个平移和3个尺度参数（尺寸）的问题。这个问题的解决方案可以被可视化为围绕对象的紧密定向的边界框（参见图1）。虽然以前没有观察到，但这些天体来自已知的天体类别（例如，相机），针对该图像，在训练期间已经观察到训练样本这项任务特别具有挑战性，因为我们不能在测试时使用CAD模型，并且对于看不见的物体，6D姿态没有很好地定义。为了克服这一点，我们提出了一种新的表示，该表示定义了一个共享的对象空间，使6D姿态和尺寸的定义为看不见的对象。图2.归一化对象坐标空间（NOCS）是包含在单位立方体内的3D空间。对于一个给定的对象类别，我们使用规范导向的实例，并规范化它们位于NOCS。NOCS中的每个（x，y，z）位置被可视化为RGB颜色元组。我们在NOCS在RGB图像上的透视投影上训练我们的网络，NOCS图（左下插图）。在测试时，网络回归NOCS图，然后将其与深度图一起用于6D姿势和大小估计。标准化对象坐标空间（NOCS）：NOCS被定义为包含在单位立方体内的3D空间，{x，y，z} ∈[0，1].给定每个类别的已知对象CAD模型的形状集合，我们将它们的通过均匀缩放对象来调整大小，使其紧密边界框的对角线长度为1，并位于NOCS空间的中心（见图2）。此外，我们在同一类别中一致地对齐对象中心和方向。我们使用ShapeNetCore [7]中的模型，这些模型已经在比例、位置和方向上得到了规范化图2显示了相机类别中的规范化形状的示例。我们的表示允许形状的每个顶点在NOCS中表示为元组（x，y，z）（图2中的颜色编码）。我们的CNN预测彩色编码的NOCS坐标的2D透视投影，即，NOCS图（图2左下角）。有多种方法可以解释NOCS地图：（1）作为对象的观察部分的NOCS中的形状重构，或（2）作为密集像素-NOCS对应。我们的CNN学习对看不见的物体进行形状预测，或者在大型形状集合上训练时学习预测物体像素-NOCS对应关系。这种表示比其它方法（例如，边界框），因为即使在对象仅部分可见时，我们也可以操作。方法概述：图3说明了我们的方法，该方法使用RGB图像和深度图作为输入。CNN仅从RGB图像估计类标签、实例掩码和NOCS图。我们不使用CNN中的深度图，因为我们希望利用现有的RGB数据集（如COCO）来提高性能。NOCS映射编码2645图3.我们的方法的输入是具有多个对象的场景的RGB和深度图像。我们的CNN预测RGB图像中每个对象的类标签，实例掩码和NOCS映射（颜色编码）然后，我们使用每个对象的NOCS图以及深度图像来获得完整的度量6D姿态和大小（轴和紧密的红色边界框），即使该对象以前从未见过物体在标准化空间中的形状和大小。因此，我们可以在稍后阶段使用深度图来提升该归一化空间，并且使用鲁棒的离群值去除和对准技术来预测全度量6D对象姿态和大小。我们的CNN建立在Mask R-CNN框架[22]的基础第5节包含了我们的改进和可以处理对称对象的新损失函数的更多细节。在训练过程中，我们使用了使用新的上下文感知混合现实（CAMERA）方法渲染的地面实况图像（参见第4节）。这个大型数据集允许我们在测试时从新类别为了进一步弥合领域差距，我们还使用了一个较小的真实世界数据集。4. 数据集类别级3D检测以及6D姿态和尺寸估计中的主要挑战是地面实况数据的不可用。虽然已经有几次尝试，如NYU v2 [38]和Sunday GB-D [39]，但它们具有重要的局限性。首先，它们不提供对象的6D姿态，并且只关注3D边界框。第二，诸如增强现实和机器人之类的应用受益于桌面设置中的手动缩放对象，这些对象在当前集中于诸如椅子和桌子之类的较大对象的数据集中缺失。最后，这些数据集不包含我们需要的地面实况类型的注释（即，NOCS地图），并包含有限数量的例子。4.1. 上下文感知混合现实方法为了便于生成大量的训练数据与地面真理的手规模的对象，我们提出了一个新的上下文感知混合现实（CAMERA）的方法，解决了以前的方法的局限性，并使数据生成耗时更少，显着更具成本效益。它结合了真正的背部-具有以上下文感知方式合成呈现的前景对象的地面图像即，合成对象被渲染并合成到具有合理的物理位置、照明和比例的真实场景中（参见图4）。这种混合现实方法使我们能够生成比以前更大量的训练数据。真实场景：我们使用31个广泛变化的室内场景的真实RGB-D图像作为背景（图4中）。我们的重点是桌面场景，因为大多数室内以人为中心的空间包括桌面表面与手规模的对象。我们总共收集了31个场景的553张图像，其中4张用于验证。合成对象：为了在上述真实场景中渲染逼真的对象，我们从ShapeNetCore [7]中选择了手比例对象，手动删除任何看起来不真实或有拓扑问题的我们总共挑选了6个对象类别--瓶子、碗、相机、罐头、笔记本电脑和马克杯。我们还创建了一个分心物类别，其中包含来自上面未列出的类别（如显示器、电话和吉他）的对象实例。即使场景中存在其他对象，这也提高了对主要类别进行预测时的鲁棒性。我们策划的ShapeNet-Core版本由1085个单独的对象实例组成，其中184个实例用于验证。上下文感知合成：为了提高真实感，我们以上下文感知的方式合成虚拟对象，即，然后我们将它们放置在它们自然出现的地方（例如，在支撑表面上）具有合理的照明。我们使用平面检测算法[14]来获得真实图像中的像素级平面随后，我们在分割的平面上随机采样位置和方向，其中可以放置合成对象然后，我们放置几个虚拟光源来模拟真实的室内照明条件。最后，我们结合渲染和真实的图像，产生一个逼真的合成与完美的地面实况NOCS地图，面具，和类标签。我们总共渲染了300K合成图像，其中25K用于验证。据我们所知，这是2646图4.我们使用上下文感知混合现实（CAMERA）方法来生成数据，通过结合桌面场景的真实图像，检测平面表面，并渲染合成对象到平面表面（左）。由于对象是合成的，我们获得了准确的地面真相类标签，实例掩码，NOCS地图，6D姿态和大小。我们的方法是快速，成本效益，并产生逼真和合理的图像（中）。我们还收集了用于训练、测试和验证的真实数据集（右图）。类别级6D姿态和大小估计的最大数据集。我们的混合现实合成技术是使用Unity游戏引擎[2]实现的，带有用于平面检测和点采样的自定义插件（所有这些都将公开发布）。使用我们的方法生成的图像看起来似乎合理和现实，从而提高泛化相比，使用非上下文感知的数据。4.2. 真实世界数据为了进一步改进和验证我们的算法在具有挑战性的杂波和照明条件下的真实世界性能，我们捕获了两个真实世界数据集：（1）补充我们之前生成的混合现实数据的真实世界训练数据集，（2）评估6D姿态和大小估计的性能的真实世界测试数据集。我们开发了一种半自动的方法来注释地面实况对象的姿态和大小。图4显示了我们的真实世界数据的示例。我们使用结构传感器[1]捕获了18个不同真实场景（7个用于训练，5个用于验证，6个用于测试）的8 KRGB-D帧对于每一次培训，在测试子集时，我们使用6个类别，每个类别3个唯一对于验证集，我们使用6个类别，每个类别有1个唯一实例我们在每个场景中放置5个以上的对象实例，以模拟真实世界的对于每个实例，我们使用我们为此目的开发的RGB-D重建算法获得了干净且准确的3D网格。总的来说，我们的组合数据集包含18个不同的真实场景，42个独特的对象实例，跨越6个类别，使其成为类别级6D姿态和大小估计的最全面的数据集。5. 方法图3显示了我们的方法，用于从RGB-D图像中估计多个先前未见过的对象的6D姿态和大小CNN预测对象的类标签、掩码和NOCS映射。然后，我们使用NOCS图和深度图来估计度量6D姿势和对象的大小。5.1. NOCS地图预测CNN我们CNN的目标是纯粹基于RGB图像来估计对象的类标签、我们建立在基于区域的Mask R-CNN框架[22]上，因为它已经证明了2D对象检测和实例分割任务的最新性能，是模块化的，灵活的，快速的，并且可以很容易地增强以预测NOCS图，如下所述。5.1.1NOCS Map HeadMask R-CNN建立在Faster R-CNN架构[36]的基础上，由两个模块组成-一个模块用于提出可能包含对象的区域，一个检测器用于检测和分类区域内的对象此外，它还预测区域内对象的实例掩码。图5. NOCS地图头架构。我们向Mask R-CNN架构添加了三个额外的头，以预测NOCS地图的x，y，z坐标（彩色框）。这些头可以用于直接像素回归或分类（最好）。我们使用ReLU激活和3×3卷积。我们的主要贡献是为Mask R-CNN添加了3个头架构，用于预测NOCS地图的x，y，z分量（见图5）。对于每个建议的感兴趣区域（ROI），头部的输出大小为28×28×N，其中N是类别的数量，并且每个类别包含为该类别中的所有检测到的对象获取x（或y，z与掩码头类似，我们在测试期间使用对象类别来查找相应的预测通道。在训练期间，只有NOCS地图2647在损失函数中使用来自地面实况对象类别的分量。我们使用 ResNet50 [24] 骨干网与特征金字塔网络（FPN）。回归与分类：为了预测NOCS图，我们可以回归每个像素值，或者通过离散化像素值将其视为分类问题（在图5中由（B）表示）。直接回归可能是一种更难的任务，有可能在训练过程中引入不稳定性类似地，具有大量类的像素分类（例如，B=128，256）可以引入更多的参数，使得训练比直接回归更具挑战我们的实验表明，像素分类与B=32的性能优于直接回归。损失函数：我们的类、盒和掩码头网络使用与[22]中描述的相同的损失函数对于NOCS标测头，我们使用两个损失函数：用于分类的标准softmax损失函数，以及用于回归的以下软L1损失函数，这使得学习更鲁棒。.∗2 ∗重量衰减在训练的第一阶段，我们冻结ResNet50权重，只训练头部中的层，RPN和FPN进行10K次迭代。在第二阶段，我们冻结ResNet50层低于4级，并训练3K迭代。在最后一个阶段，我们将ResNet50层冻结在3级以下，再进行70K次迭代。当切换到每个阶段时，我们将学习率降低了10倍。5.2. 6D姿态和大小估计我们的目标是通过使用NOCS图和输入深度图来估计检测到的对象的全度量6D姿态和尺寸。为此，我们使用RGB-D相机的内在和外在的深度图像对齐的彩色图像。然后，我们应用预测的对象掩模来获得检测到的对象的3D点云Pm我们还使用的NOCS地图，以获得一个3D表示的Pn。然后，我们估计的尺度，旋转和平移，变换的Pn到Pm。我们使用Umeyama算法[45]来处理这个7维刚性变换估计问题，并使用RANSAC [15]来去除离群值。请看柔软的-L（y，y）=1n5（y-y），|y − y |≤0。1、|y− y*|-0。05，|y − y*|> 0。1如果y∈N，y∈Np，检查材料的定性结果。6. 实验和结果其中，y∈ R3是地面实况NOCS图像素值，y∈ R 3是预测的NOCS图像素值，n是ROI内的掩模像素的数量，I和Ip是地面实况和预测的NOCS地图物体对称性：许多常见的家用物品（例如，瓶子）表现出关于轴的对称。我们的NOCS表示不考虑对称性，这导致一些对象类的大错误。为了解决这个问题，我们引入了一个考虑对称性的损失函数的变体。对于训练数据中的每一个类别，我们定义一个对称轴。围绕该轴的预定义旋转导致产生相同损失函数值的NOCS图。因为在-站姿时，顶为正方形的长方体有垂直的对称轴。在该轴上旋转角度θ={0◦，90◦，180◦，270◦}导致相同的NOCS图，因此具有相同的损失。对于非对称对象，θ=0◦是唯一的。我们发现一个|θ| ≤6足以处理大多数对称范畴。我们生成地面实况NOCS地图，{y}1，. . . ，y|θ|}，它们被旋转|θ|沿对称轴的时间。然后，我们定义对称损失函数Ls为Ls=mini=1，.，|L（y_i，y_z），其中 y_i表示预测的 NOCS图像素（ x， y， z）。|L(y˜i,y∗),wherey∗denotesthepre- dicted NOCS mappixel (x, y, z).训练协议：我们初始化ResNet50骨干，RPN和FPN与2D训练的权重COCO数据集上的立场分割任务[31]。对于所有头部，我们使用[23]中提出的初始化技术。我们使用批量大小为2，初始学习率为0.001，SGD优化器的动量为0.9，1×10- 4度量：我们报告了3D对象检测和6D姿态估计度量的结果。为了评估3D检测和对象尺寸估计，我们使用具有50%阈值的并集相交（IoU）度量[16]。对于6D姿态估计，我们报告了误差小于mcm的对象实例的平均精度。[37]与[29]类似的旋转的lation和n我们将目标检测与6D姿态评估分离，因为它提供了一个更清晰的表现。我们将预测和地面实况之间的边界框重叠设置为10%的检测阈值，以确保大多数对象都包含在评估中。对于对称对象类别（瓶子，碗，可以），我们允许预测的3D边界框自由旋转围绕对象我们执行特殊的处理杯子类别，使其对称时，处理是不可见的，因为它是很难判断其姿态在这种情况下，即使是人类。我们使用[50]来检测CAMERA数据的手柄可见性，并手动注释真实数据。基线：由于我们不知道其他用于类别级6D姿势和大小估计的方法，因此我们构建了自己的基线来帮助比较性能。它由在相同数据上训练的Mask R-CNN网络组成，但没有NOCS地图头。我们使用预测的实例掩码从深度图获得对象的3D点云。我们对齐（使用ICP[3]）掩蔽点云到相应类别中随机选择的一个模型。对于实例级6D姿态估计，我们提出的结果可以很容易地与[49]进行比较。2648评估数据：我们所有的实验都使用一个或两个评估数据集：（ 1 ） CAMERA 验证数据集（CAMERA25），以及（2）具有地面实况注释的2.75K真实数据集（REAL275）。由于真实数据是有限的，这使我们能够调查性能，而不会纠缠姿态估计和域泛化。6.1. 类别级别6D姿态和大小估计CAMERA25上的测试：我们报告了我们的方法的类别级结果， CNN 仅在 275K CAMERA 训练集（CAMERA*）上训练。我们在CAMERA25上测试性能，CAMERA25由训练中完全看不到的物体和背景组成。我们在50%时实现了83.9%的3D IoU平均精度（mAP）对于（5μ m，5cm）度量，mAP为40.9%。（5厘米，5厘米）是用于估计6D姿态的严格度量，即使对于已知的stances [49，5，35].更多细节请参见图6图6.当我们的网络在CAMERA* 上训练时，CAM-ERA 25上的3D检测和6D姿态估计结果。在REAL 275上进行测试：然后我们在CAMERA*、真实世界数据集（REAL*）、图7. REAL275测试集的结果，平均精密度（AP）与3D IoU上的不同阈值、旋转误差和平移误差。6.2. 消融研究CAMERA方法：为了评估我们的CAMERA数据生成方法，我们对在不同训练数据组合上训练的网络对于该实验，我们设置网络架构以回归NOCS图。表1显示了我们的网络在REAL275测试集上的性能。我们还创建了CAMERA* 的变体，其中图像以非上下文感知的方式合成（在表1中由B表示）。如表所示，由于域间隙，仅使用CAMERA*会导致性能低下我们看到在添加COCO和REAL* 方面的进步。仅在REAL* 或REAL* 和COCO上训练往往由于数据集大小较小而过度拟合训练数据。通过COCO和REAL* 在CAMERA* 上进行培训，获得最佳效果。此外，我们看到，非上下文感知的数据导致性能比上下文感知的数据更差，这表明我们的CAMERA方法是有用的。COCO [31]的监管薄弱，并对其进行真实世界的测试集由于COCO没有地面实况NOCS地图，我们在训练期间不使用NOCS损失。我们使用20KCOCO图像，其中包含类别中的实例。为了平衡这些数据集，对于每个小批处理，我们从三个数据源中选择图像，CAMERA* 的概率为60%， COCO的概率为20%这个网络是我们用来产生所有视觉结果的最佳性能模型（图8）。在真实的测试集中，我们实现了76.4%的mAP，3D IoU为50%，mAP为10.2%（5mm，5cm）金属-ric，（10μ m，5cm）公制的mAP为23.1%。在com-图3，基线算法（Mask RCNN + ICP align-对于 50% 的 3D IoU ， mAP 为 43.8% ，对于（ 5mm ，5cm）和（10mm，5cm）的mAP为0.8%，这明显低于我们算法曼斯。图7示出了更详细的分析和比较。这个实验表明，通过学习为了预测密集的NOCS地图，我们的算法能够提供关于物体的形状、部件和可见性的额外详细信息表1.验证CAMERA方法。C表示未修改的CAMERA* 数据，而B表示CAMERA* 的非上下文感知版本。我们报告了5个不同指标的AP，其中3D25和3D25分别表示3D IoU为25%和50%。分类与回归：在CAMERA25和REAL275上，像素分类始终优于回归。使用32个仓对于姿态估计是最好的，而128个仓对于检测是更好的（参见表2）。对称性损失：这种损失对于许多日常对称对象类别至关重要。为了研究对称性损失的影响，我们对回归数据地图相机 *Coco真实 *3D25三维505◦5厘米10◦5厘米10◦10cmCCCC51.757.661.936.741.047.53.43.36.520.417.018.521.717.118.6CC71.053.07.616.316.6CC79.269.76.920.021.2CCC79.672.48.123.423.7BBCC42.679.136.571.70.77.914.119.314.219.42649图8.REAL275测试集的定性结果顶行示出了经颜色编码的预测NOCS底行示出了6D姿势（轴）和大小估计的质量（红色紧密边界框）。CAMERA25和REAL275上的网络。表2示出了如果不使用对称性损失，姿态准确度显著降低数据网络地图3D25三维505◦5厘米10◦5厘米10◦10cmReg.89.380.929.253.754.5注册，不含Sym.86.679.914.738.540.0摄像头2532个区间91.183.940.964.665.1128箱91.485.338.861.762.2Reg.79.672.48.123.423.1注册，不含Sym.82.773.81.39.19.3REAL27532个区间84.878.010.025.225.8128箱84.980.59.526.726.7表2.网络架构和损耗。Reg.表示用软L1损失训练的回归网络;32个箱和128个箱分别表示具有相应箱数的分类网络。6.3. 实例级6D姿态估计我们还评估了我们在OccludedLINEMOD [25]上的实例级6D姿态估计任务的方法，并与PoseCNN [49]进行了比较。OccludedLINEMOD数据集有9个对象实例，并为每个实例提供一个CAD模型。它具有1214个具有注释的地面实况6D姿态的图像。我们遵循[44，26]中的协议，并随机选择15%的数据集作为训练图像。然后，我们使用第4节中描述的技术生成15000个合成图像。图9.关于OcculudedLINEMOD的结果。这里我们展示了平均精度（AP）与3D IoU上的不同阈值、旋转误差和平移误差。使用32-bin分类网络，我们实现了94.7%的检测率，对于3D IoU的mAP为88.4%，50%，（5μ m，5cm）度量的mAP为13.9%，（10μ m，5cm）度量的mAP为33.5%。这基本上高于PoseCNN[ 49 ]，PoseCNN [49]在没有迭代姿态细化的情况下仅实现1.7%的mAP（在[29]）。图9提供了更详细的分析。这个前-实验表明，虽然我们的方法设计用于类别级姿态估计，但它也可以在标准6D姿态估计基准上实现最先进的性能使用2D投影度量，其测量地面真实值和估计的对象姿态之间的平均像素距离，我们在5像素处在2D投影上实现30.2%我们的方法显著优于PoseCNN [49]，后者在[29]中报告了5像素处详细对比请参见补充局限性和未来的工作：据我们所知，我们是第一个解决类别级6D姿态和大小估计问题的方法还有许多悬而未决的问题需要解决。首先，在我们的方法中，姿态估计是以区域建议和类别预测为条件的，这可能是不正确的，并对结果产生负面影响。其次，我们的方法依赖于深度图像，以提升NOCS预测到现实世界的坐标。未来的工作应该调查估计6D姿态和大小直接从RGB图像。7. 结论我们提出了一种方法的类别级6D姿态和大小估计以前看不见的对象实例。我们提出了一种新的归一化对象坐标空间（NOCS），它允许我们定义一个具有一致对象缩放和方向的共享空间我们提出了一种CNN，它预测NOCS图，可以与深度图一起使用，以使用姿势拟合方法来估计未见过对象的完整度量6D姿势和大小。我们的方法在增强现实，机器人和3D场景理解等领域有重要的应用。致谢：本研究得到了丰田-斯坦福人工智能研究中心的资助，NSF资助IIS- 1763268，Google的礼物和Vannevar Bush教师奖学金的支持。我们感谢Xin Wang、Shengjun Qin、Anastasia Dubrov- ina 、 Davis Rempe 、 Li Yi 和 VigneshGanapathi-Subramanian。类别级6D姿势+尺寸国家奥委会2650引用[1] 结构传感器。https://structure.io/网站。5[2] Unity游戏引擎https://unity3d.com网站。5[3] P. J. Besl和N.D. 麦凯一种三维形状配准方法见PAMI，1992年。二、六[4] E. Brachmann，A. Krull，F. Michel，S. Gumhold、J.Shotton和C.罗瑟使用3d对象坐标学习6d对象姿态估计。在欧洲计算机视觉会议上，第 536-551 页。Springer，2014. 2[5] E. Brachmann F. 米歇尔 A. 克鲁尔 M. 应阳：S. Gumhold等人不确定性驱动的单一rgb图像中物体和场景的 6d 姿态估计。在 Proceedings of the IEEEConference on Computer Vision and Pattern Recognition中，第3364-3372页，2016年。1、7[6] M. Braun，Q.拉奥，Y。Wang和F.弗洛尔Pose-rcnn：使用3d对象propos- als进行联合对象检测和姿态估计在智能交通系统（ITSC），2016年IEEE第19届国际会议上，第1546-1551页IEEE，2016. 2[7] A. X. 张， T. 放克豪瑟 L. 吉巴斯 P. 汉拉汉Q. Huang，Z. Li，S. Savarese，M. Savva，S.宋，H. Su等人Shapenet：一个信息丰富的3d模型库。arXiv预印本arXiv：1512.03012，2015。二、三、四[8] X. Chen，K.昆杜Z.Zhang，H.马，S.Fidler和R.乌尔塔-孙。用于自动驾驶的单目3d物体检测。在IEEE计算机视觉和模式识别会议论文集，第2147-2156页1[9] X. Chen，H. Ma，J. Wan，B. Li和T.夏用于自动驾驶的多视角三维物体检测网络。在IEEE CVPR，第1卷，第3页，2017年。2[10] A.科莱M. Martinez和S. S.斯里尼瓦萨助力车框架：用于机器人的目标识别和姿态估计。IJRR，30（10）：1284-1306，2011。2[11] Z. Deng和L. J. Latecki 3D对象的非模态检测：从rgb深度图像中的2d边界框推断3d边界框。在计算机视觉和模式识别会议，第2卷，第2页，2017年。1[12] A. 多索维茨基山口Fischer、E.Ilg，P.豪塞尔角哈齐尔巴斯Golkov，P. van der Smagt，D. Cremers和T.布洛克斯Flownet：使用卷积网络学习光流在IEEE计算机视觉国际会议论文集，第2758-2766页，2015年。3[13] M. Engelcke，D.拉奥，D.Z. Wang，C.H. 唐和我。波斯纳Vote3deep：使用高效卷积神经网络在3D点云中进行快速对象检测。在机器人和自动化（ICRA），2017年IEEE国际会议上，第1355-1361页IEEE，2017年。2[14] C. 冯，Y.Taguchi和V.R. 卡马特基于凝聚层次聚类的点云平面快速在机器人和自动化（ICRA），2014年IEEE国际会议上，第6218IEEE，2014。4[15] M. A. Fischler和R.C. 波尔斯随机样本一致性：模型拟合的范例及其在图像分析和自动制图中的应用在计算机视觉阅读，第726-740页。爱思唯尔，1987年。6[16] A. Geiger，P. Lenz，C. Stiller和R.乌塔松视觉与机器人技术的结合：Kitti数据集。国际机器人研究杂志，32（11）：1231-1237，2013。6[17] R. A. Guüle r，N. 我也是。好的密度：野外密集的人体姿势估计。arXiv预印本arXiv：1802.00434，2018。2[18] R.小郭。通过完整的场景和结构化表示来理解场景。伊利诺伊大学厄巴纳分校香槟，2014年。二、三[19] S. 古普塔山口阿尔贝拉兹河。Girshick和J. 马利克将3d模型与杂乱场景的rgb-d图像对齐。在Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition中，第4731-4740页，2015年。二、三[20] S. Gupta，P. Arbelaez，and J.马利克从RGB-D图像感知CVPR，2013。2[21] S.古普塔河，巴西-地格希克山口Arbelaez和J.马利克从RGB-D图像中学习丰富的特征用于对象检测和分割。2014年，在ECCV。2[22] K. 他，G. Gkioxari，P. Doll a'r 和R. 娘娘腔。面具r-cnn。在计算机视觉（ICCV），2017年IEEE国际会议上，第2980-2988页。IEEE，2017年。四五六[23] K.他，X。Zhang，S. Ren和J. Sun.深入研究整流器：在imagenet分类上超越人类水平的性能在Proceedings ofthe IEEE internationa

下载后可阅读完整内容，剩余1页未读，立即下载