学习典型形状空间实现类别级物体姿态和尺寸估计

162 浏览量更新于2023-10-23 收藏 2.98MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1学习典型形状空间进行类别级6D物体姿态和尺寸估计陈登胜1，李军1，*王征3，徐凯1，2，†1国防科技大学2SpeedBot Robotics Ltd.3Taobao.com网站摘要我们提出了一种新的方法，类别级的6D对象的姿态和大小估计。为了解决类内形状变化，我们学习了规范形状空间（CASS），这是一种统一的表示，用于某种对象类别的各种实例。特别地，CASS被建模为具有归一化姿态的规范3D形状的深度生成模型的潜在空间。我们训练了一个变分自动编码器（VAE），用于从RGBD图像生成正则空间中的3D点云。VAE以跨类别的方式进行训练，利用公开可用的大型3D形状库。由于3D点云是以归一化姿态（具有实际大小）生成的，因此VAE的编码器学习视图分解的RGBD嵌入。它将任意视角下的RGBD图像映射为与姿态无关的三维形状表示。然后，通过将其与用单独的深度神经网络提取的输入RGBD的姿态相关特征进行对比来估计对象姿态。我们将CASS的学习以及姿态和大小估计集成到一个端到端的可训练网络中，实现了最先进的性能。1. 介绍基于单视图RGB（D）图像的6D物体姿态估计是从机器人导航和操纵到增强现实的几个现实世界应用的基本构建块。到目前为止，大多数现有的工作都是解决实例级6D姿态估计，其中每个目标对象都具有具有精确形状和大小的对应CAD模型[17]。因此，问题在很大程度上被简化为找到目标对象与库存3D模型之间的稀疏或密集对应然后，可以基于对应关系生成并验证姿势假设。虽然这些技术具有很高的位姿精度，但对精确CAD模型的要求阻碍了它们在许多应用场景中的实际应用。*联合第一作者†通讯作者：kevin.kai. gmail.com图1：我们提出了一种通过学习规范形状空间进行类别级6D对象姿态和大小估计的方法（左）。将输入的RGBD图像嵌入到形状空间中，从而得到视图分解的RGBD嵌入。然后通过将其与输入RGBD的姿态相关特征进行对比来估计对象姿态。我们的方法的一个在该图中，重建的3D点云被放置到场景点云中（未从输入深度图投影）。其中两个在中间。最近，类别级6D对象姿态估计开始受到关注[21，29]。在这个问题中，形状类别的目标对象之前是不可见的，并且没有CAD模型是可用的，尽管可能已经看到了相同类别的一些其他实例。因此，主要的挑战是如何处理类内变化[20]。一般来说，即使在同一类别中，家用物品在颜色、质地、形状和大小上也会表现出显著的在没有完全相同的CAD模型的情况下，给定相当大的类内形状变化，基于对应的为了解决这一问题，需要一个统一的表示为各种情况下的对象类别，在观察中的目标对象可以最近提出的归一化对象坐标空间（NOCS）[29]是这种统一表示的一个很好的例子基于这种表示，类别级对象姿态可以通过映射图像中的每个像素来高精度地估计1197311974将图像放置到NOCS中的一个点然而，在显著的形状变化下，寻找NOCS和看不见的物体之间的密集映射是一个不适定问题因此，适应大量未知形状变体的可通用化映射函数可能难以学习。在这项工作中，我们建议学习一个规范形状空间（CASS）作为我们的统一表示。CASS由具有归一化姿态和实际度量大小的规范3D形状的深度生成模型的潜在空间特别是，我们训练了一个变分自动编码器（VAE），用于从RGBD图像中生成正则空间中的3D点云VAE以跨类别的方式进行训练，利用公开可用的大型3D形状库。由于3D点云是用归一化的姿态和度量大小生成的，因此VAE的编码器学习视图分解的RGBD嵌入。它将任意视角下的RGBD图像映射为姿态无关的3D形状表示。然后可以通过将其与使用单独的深度神经网络提取的输入RGBD的姿态相关特征进行对比来估计对象姿态（图1）。这使得在其他方法中估计两个表示之间的密集对应关系变得困难[17，29]。我们将CASS的学习以及姿态和大小估计集成到一个端到端的可训练网络中，该网络涉及几个关键设计。首先，通过学习具有丰富形状变量的规范形状空间，我们得到了包含足够形状变量的统一表示。其次，为了克服缺乏真实世界的训练图像与三维点云，我们增强了编码器的VAE采取RGBD图像和三维形状作为输入。这使我们能够通过利用现成的3D形状库来训练VAE。第三，在实现姿态估计时，我们选择了特征对比而不是密集对应，从而对不可见的实例具有更好的通用性。同时，为了匹配姿态相关和姿态无关特征的分布，使得姿态估计可以容易地训练，我们提出了一些关键的设计，例如，网络权重共享和训练批次混合。最后，我们的VAE模型能够重建目标物体的三维点云与度量大小，这降低了学习的难度，通过解耦的姿态和大小的估计通过在公共类别级数据集上的评估，我们表明我们的方法具有最先进的姿态精度和极高的尺寸精度。我们的工作做出了以下贡献：• 我们提出了一种新的对应自由的方法来类别级的对象姿态和大小估计的基础上学习的规范形状空间。• 我们设计了一个端到端的可训练深度神经网络，用于联合学习规范形状空间和估计对象姿势和大小。• 我们设计了几个关键的设计，以减轻网络的训练，如姿态相关和姿态无关的功能之间的分布匹配。2. 相关工作实例级方法。许多关于实例级6D姿态估计的工作采用基于模板的方法[11，15]。在这些方法中，基于手工设计或学习的特征描述符，以滑动窗口的方式将从各种姿势的CAD模型渲染的一组RGB（D）模板与输入图像进行最终的姿态是从最佳匹配的模板中检索或通过3D模型配准来估计的。另一组工作追求将目标对象与相应的3D模型相匹配。根据输入模态，核心任务是找到2D到3D [8，12]，2.5D（深度）到3D [5，6]或3D到3D对应关系[1]。其他一些作品选择直接从特征描述中学习6D对象姿态回归器[22，25]。Brachmann等人[3]学习回归对象坐标表示，然后可以将其用于姿态估计。使用卷积神经网络（CNN）学习有效的特征表示以进行鲁棒匹配已成为最近文献的主要焦点[2，14，24，30，33]。另一种方法是利用CNN来检测特征点或角点[19，26]。PVNet [17]是一种使用CNN进行特征点检测的独特方法：一个矢量场估计的输入RGB图像的基础上的特征点进行表决。其他一些作品选择学习端到端深度模型，可以直接从原始RGB（D）输入回归6D对象姿势[7，16，31]。SSD-6D [13]将RGB图像中的单次物体检测与姿势假设回归和验证相结合。类似的方法也用于多视图主动姿态估计[23]。Wang等人[28]提出DenseFusion来学习逐像素特征提取和姿态估计。该网络还可以预测用于最终姿态选择的每个姿态假设的置信度Xiao等人。[32]训练CNN，该CNN将图像和CAD模型作为输入，并输出相对于3D模型的对象姿态该模型可以推广到训练过程中不可见的目标但是，它们在推理过程中仍然需要目标CAD模型。因此，我们将其归类为实例级工作。类别级方法。在类别级目标检测和2D/3D/4D姿态估计方面已经有大量的工作。然而，设计用于估计6D姿态的方法仍然很少[20]。Sahin等人[21]为此任务引入了基于部分的随机森林方法。在他们的方法中，从某些类别的CAD模型实例中提取的零件用骨架表示，骨架是11975RGB对象检测和裁剪图2：我们的网络架构概览。预处理（左）被设计为产生感兴趣对象的图像裁剪和点补丁，这些图像裁剪和点补丁被馈送到主网络（右）。主网络由三个模块组成：1)CASS学习、姿势分解嵌入和点云重构（背景以浅蓝色着色），2）姿势相关特征提取（浅绿色），以及3）姿势估计（浅红色）。用红色箭头表示的网络分支仅用于训练。输入到随机森林中以假设6D姿势。由于依赖于纯几何特征，该方法主要处理深度输入。Wang等人[29]引入了规范化对象坐标空间（NOCS）作为类别内对象实例的共享规范表示。他们训练了一个基于区域的神经网络来直接推断RGB图像与NOCS之间的像素对应关系结合实例掩码和深度图，使用形状匹配来估计6D对象姿态。最近，Wang et al.[27]实现了基于关键点匹配的类别级6D姿态跟踪。CASS与NOCS。虽然CASS和NOCS都可以被看作是一个统一的形状空间，跨越类内的变化，有几个实质性的差异。首先，NOCS是明确定义的，通过一致地对齐在规范化的3D空间中的类别的所有对象实例。我们的CASS是一个形状嵌入空间隐式学习生成模型。第二，当进行对象姿态估计时，NOCS被用作逐像素对应的目标，基于该逐像素对应，6D姿态被几何地计算。相比之下，CASS被视为一个规范化的，整体的形状表示，姿态估计在一个端到端和对应自由的方式。第三，与NOCS中仅对可见区域进行坐标回归不同，我们的网络学习在CASS中重建完整的 3D形状，这是一种有利于姿态估计的全局形状理解3. 模型我们的模型是一个端到端的可训练网络，集成了形状空间和姿态估计的学习。我们首先提供网络架构的概述，然后详细说明各种网络模块。训练细节，如损失函数，参数设置和训练协议，然后将遵循。体系结构概述。图2显示了我们的网络架构的概述。网络的输入是一个校准的RGBD图像。一个输出是感兴趣对象的6DoF姿态，由刚性变换[R|t]，其中R∈SO（3）且t∈R3。另一个输出是以归一化姿态但具有度量大小的对象的重建的3D点云。处理中的多个对象在杂乱的场景中，我们采用现成的对象检测器来检测和分割各个对象实例。对于每个检测到的对象，我们使用分割掩模的边界框裁剪RGB图像，并使用掩模将其从点云（从深度图像转换而来）中分割出来，分别得到对象的图像裁剪和点补丁。图像裁剪和点补丁都被发送到我们网络的主要部分。我们的核心网络由三个模块组成，分别负责1）规范形状空间学习，视图分解RGBD嵌入和点云重建，2）姿势相关特征提取和3）姿势估计，正则形状空间学习，视角分解RGBD嵌入CNN点云重建图像裁剪PointNet点片分批混合FoldingNet解码器典型点云PointNet典型点云共享权计算AABB波夫夫大小PointNet阿托吉奥点片乌布CNNCNN构成图像裁剪姿态相关特征提取姿态和大小估计CNN（4L，1D）CNN（4L，1D）MLP（1L）逐点稠密融合点片图像裁剪目标检测和分割输入深度输入RGB输入RGB119763D3D3D3DrgbdKLRGBD功能CASS代码Geo. 特征Geo. 特色Pho. 特征位姿尺寸估计几何译码图3：展示了我们网络中的姿势信息流。数据和要素用圆形框表示浅蓝色阴影的数据/要素包含姿态信息;无阴影意味着姿态归一化。如果网络进行姿势分解，则以浅绿色着色，否则不着色。活泼地这三个组件紧密耦合，并使用合成和真实世界的数据进行联合训练。接下来，我们详细阐述了三个模块的设计。3.1. 典型形空间与视图分解我们的目标是学习一个形状空间，它尽可能多地跨越一个类别的形状变体，其中所有形状都是姿势规范化的，但具有实际的度量大小。此外，为了使用RGBD输入，我们还需要一个函数来将RGBG图像映射到该空间中的点，该点表示标准化姿态和度量大小中的相应完整形状。这样的映射分解RGBD图像中的视图，使得RGBD特征嵌入被视图分解。学习Canonical Shape Space。我们用姿势规范化形状的深生成模型的潜在空间来建模规范形状的空间。为了实现这一目标，我们利用了公开可用的3D形状存储库，如ShapeNet [4]。ShapeNet中的3D模型在每个类别中具有一致的方向和适当的比例。我们将每个模型采样为M=500个点的点云。点采样的3D形状，X3D，用于训练变分自动编码器（VAE）。编码器采用几何嵌入网络对三维点云进行编码损耗用于优化投影仪。让我们把这个解决方案称为基于对应的投影。这种方法可以直接适用于VAE，其中投影仪被训练为基于跨模态数据对应将一种模态中的数据映射到针对另一种模态学习的潜在空间。然而，我们发现，这种方法导致次优点云重建和姿态估计，由于1）可能不正确的对应关系和2）度量损失和其他损失之间的妥协。为了解决这些问题，我们选择了联合嵌入方法。具体来说，我们学习了一个VAE，它有两个编码器将RGBD图像和3D点云映射到一个共享的潜在空间。虽然3D编码器采用点网，但RGBD编码器采用[28]中提出的密集融合架构（我们使用整个图像的全局特征而不是像素特征）。我们的关键设计是，这两个编码器，虽然有不同的网络架构，训练与混合训练批和共享训练梯度。后者意味着针对任一模态计算的梯度被反向传播以调谐两个编码器。通过这种混合训练，学习的共享潜在空间跨越两种模态的联合特征空间。与基于对应关系的方法相比，我们的联合嵌入具有以下优点：首先，我们的模型可以以无对应关系或不成对的方式进行训练这意味着这两个模态不必共享对象实例：RGBD图像中的对象不需要在训练形状集中具有对应的3D模型。第二，我们的模型除了传统VAE的基本损失函数外，没有引入额外的损失函数。第三，也是最重要的，两个编码器的混合训练有助于匹配两种数据模态的特征分布（参见图4），从而获得更好的模型通用性和域可移植性。总之，CASS和RGBD特征嵌入的学习（由Fvf表示）优化了以下损失函数：[28]中提出的，这是PointNet [18]的变体基于LCASS =L重建（X3D、XR）+LReconRrgbd，X）+L，在学习的特征上，解码器扭曲点云，3D椭球体以匹配输入点云的形状（一）其中Lrecon和LKL是重建损失，KL我们通过在编码器和解码器之间添加采样层，将自动编码器变成VAE博学之士--发散损失。 X3D和XR并重建三维点云，是输入，X是先验分布zp（z|X3D）模拟卡诺尼的空间-卡尔形状。学习视图分解RGBD嵌入。在学习了CASS之后，我们的下一个任务是将任意视角的RGBD图像投影到空间中，使得投影仪起到视图分解的作用。这种跨模态数据投影任务可以在两种模态之间的数据对应的帮助下完成[9]，其中度量从输入RGBD和分别对应的地面实况。我们使用Cham-fer距离来衡量重建损失。在测试过程中，3D点云编码器（对应于图2中红色箭头的网络分支）被丢弃，只有RGBD编码器用于特征提取。RGBD编码器对图像视图进行因子分解，从而产生与姿态无关的RGBD特征（CASS代码）。然而，在这方面，完整形状几何编码点片几何编码图像裁剪测光编码图像裁剪点片RGBD嵌入（X11977视图分解的RGBD特征典型点云的几何特征具有批量混合的特征分布无批量混合的特征分布图4：比较视图分解RGBD特征的t-SNE图和有无批量混合的规范点云批量混合有助于匹配两个特征的分布。3D编码器不分解对象姿态或大小。这是因为3D编码器的输入和输出都是姿态归一化的和度量大小的。它只是简单地将姿态归一化的形状映射到规范形状空间，而不对其姿态或大小进行处理图3给出了所有网络模块的视图/姿势分解能力以及所有相关数据和功能的姿势依赖性的图5（顶行）显示了两个特征嵌入的t-SNE可视化在视图分解的RGBD特征图中，对象按类别聚类典型点云（无姿态）的几何特征图也证明了基于类别的聚类效果。3.2. 姿态相关特征提取为了便于从输入RGBD图像中进行姿态估计，我们还提取了RGBD图像的姿态相关特征。我们设计了两个网络分别提取光度和几何特征，分别基于RGB和深度图像。在我们的网络中，这些特征通过与姿态相关特征进行比较来用于姿态估计，它们分别被期望编码姿态-颜色和姿态-几何相关性的信息。图5（底行）示出了两个特征的t-SNE图，这两个特征都表现出姿势诱导的子空间聚类效应。光度特征提取。给定包含感兴趣对象的图像裁剪，我们训练一个完全卷积的网络，该网络将颜色信息处理为颜色特征Fpho。与[28]类似，图像嵌入网络是一种自动编码器架构，正则点云的几何特征点面片的几何特征影像裁剪的光度特征图5：比较我们网络中涉及的各种特征的t-SNE可视化不同的符号表示不同的对象类别，而不同的颜色对应不同的姿势。模糊几何特征Fgeo.这里，一个关键的设计是，这个基于点的特征提取器可以共享同一个网络的PointNet为CASS学习训练的几何特征编码器如上所述，几何编码器不是姿势分解的。因此，它可以用来提取姿态相关的几何特征。因此，我们有一个基于PointNet的编码器的连体网络，一个用于姿势无关的CASS嵌入，另一个用于姿势相关的几何特征提取（参见图2）。让这两个任务共享网络权重可以减少需要学习的参数数量。此外，它有助于匹配CASS码的分布和几何特征。这使得它们在简化基于特征比较的姿态估计中更具可比性。3.3. 姿态和大小估计我们将Fvf、Fpho和Fgeo连接成一个长度为3N的特征向量，然后将其馈送到具有1D卷积的CNN中。输出包含由四元数q和3D平移向量t表示的旋转。用于姿态预测的损失函数被定义为由地面实况姿态变换的对象点云和由预测的对象点云变换的对象点云之间的差异：1Σ∗ ∗大小为H×W×3的像素级特征映射H×W×N。每个像素都有一个N维向量.然后我们表演L姿势=M（Rxi+t）−（R xi+t）我对所有像素特征进行平均池化，获得全图像的N维特征。几何特征提取给定相应的点补丁，我们利用基于点的CNN来提取N-其中xi是对象的M=500个采样点中的第i个[R]|[R]和[R|t]分别是地面实况和预测姿态。处理对齐对称对象的模糊性，我们放松了逐点11978[28]与[28]相似的是，对象大小被计算为重建的3D点云的轴对齐边界框（AABB）3.4. 培训详细信息网络设置。我们的方法的输入是一个640 × 480RGBD图像。对于RGB图像，我们执行对象检测和分割。可以使用任何现成的方法。例如，我们将Mask-RCNN [10]用于CAMERA数据集。图像裁剪不需要重新调整大小，因为它们被馈送到逐像素CNN中。所有点面片和3D模型都被重新采样为500个点，表1：与NOCS [29]的定量比较（我们使用其性能最好的变体，即，32-bin NOCS图分类）。方法地图IoU25IoU505◦5cm10◦5cm10◦10cm国家奥委会84.479.316.143.743.1我们84.277.723.558.058.3该数据集有两个部分：一个真实世界的数据集，包含来自7个场景视频的4.3K RGBD图像（每只猫3个实例，Net特征编码。 CASS码而所有其他特征是N=1024。各种网络组件中涉及的DenseFusion和FoldingNet模块使用与原始作品相同的网络配置。所有其他网络模块（如CNN和MLP）的配置如图2所示（例如，对于各个模块中的每个卷积层，我们添加了一个Batch Normalization层，然后是一个ReLU非线性。更多详情请参见补充材料。训练方案。我们采用三阶段培训。第一阶段训练VAE进行CASS学习和视图分解RGBD嵌入（图2中浅蓝色阴影部分），迭代80混合批的大小为8，随机混合RGBD编码和3D编码的训练数据。在第二阶段，我们固定VAE，并联合训练姿态相关特征提取（浅绿色部分）和姿态估计（淡红色部分），进行80K次迭代。然后，第三阶段联合微调所有部分，进行40K次迭代。所有训练批次的大小为8。我们使用初始学习率0。0001和ADAM优化器（β1=0. 9和β2=0。999），具有1×10−6 的重量衰减。在每个阶段中，我们每40K次迭代将学习率降低104. 成果和评价在本节中，我们旨在通过定性和定量评估回答以下问题。1)是否需要各种网络模块和设计选择？2)我们的方法在姿态精度方面表现如何，何时优于最先进的技术？3)我们的网络在单视图形状重建方面的能力如何？4.1. 数据集我们使用来自NOCS的数据集[29]，其中包含六个类别：瓶子、碗、相机、罐头、笔记本电脑和马克杯。egory）和一个275K渲染的合成数据集，在随机视图下，使用ShapeNet- Core [4]中的1085个模型实例生成年龄。我们在NOCS-REAL 275数据集上评估了我们的方法，该数据集包含2.75K真实场景图像，每个类别有3个未见过的实例在学习CASS的过程中，我们还利用了来自ShapeNetCore数据集的3D模型。4.2. 评估指标我们遵循NOCS [29]中的评估指标，该指标联合测量对象检测和姿态估计：• IoU 25 IoU 50：在预测姿态和地面实况姿态下，两个边界框之间的3D重叠分别大于25%或50%的• 55cm，105cm 1010cm：旋转误差小于n，平移误差小于m我们选择5厘米，10厘米， 10厘米，10厘米，类似于[29]。此外，我们采用倒角距离（CD）和地球移动器4.3. NOCS REAL275数据集类别级姿态和大小估计。在表1中，我们将我们的方法与NOCS [29]进行了比较，NOCS [ 29 ]是用于类别级6D对象姿态和大小估计的最先进方法在他们的方法中，网络被训练为每个像素找到一个归一化的坐标，然后在深度图的帮助下求解姿势和大小。相反，我们的方法通过比较姿态无关和姿态相关的特征直接回归6D姿态。我们报告的结果NOCS与32个姿势分类箱，这是其性能最好的变种。像NOCS一样，我们的结果没有经过后处理，例如，通过国际比较方案的改进，11979图6：NOCS REAL275测试数据集的结果，平均精度（AP）与3D IoU上的不同阈值、旋转误差和平移误差。我们的点云重建可能会帮助我们。结果表明，我们的方法优于NOCS在所有的指标，除了IoU指标。略低的IoU值是由于我们基于点云重建的尺寸计算不太准确。6D姿态的直接回归我们的方法的成功主要归功于强大的视图分解（姿态独立）的特征学习与CASS学习和RGBD嵌入的帮助。图6显示了各种评估指标的更详细的分析和分类图。形状重建。表2报告了基于NOCS-REAL 275测试集的RGBD输入的3D点云重建的定量评估。从表中可以看出，批量混合在倒角距离（CD）和地球移动器距离（EMD）度量方面都导致了更高的重建精度这是因为批量混合确保了RGBD嵌入和规范点云嵌入之间的分布匹配这导致更准确的RGBD投影（嵌入）到潜在形状空间中。4.4. 消融研究为了通过实验证明我们方法的各种设计选择，我们对模型进行了以下消融（或其组合）：• 不含CASS。在没有CASS码作为输入的情况下训练姿态• 无分布匹配（DM）。用两个独立的模块代替连体网络，不匹配CASS码的分布和几何特征。表2：使用CD（×10−3）和EMD度量评估点云重建精度。结果表明，采用间歇混料的方法可获得较高的重构精度.无分批混合带分批混合CDEMDCDEMD瓶1.710.240.750.04弓0.930.070.380.04相机5.260.220.770.05可以1.790.200.420.04笔记本1.940.103.730.09马克杯2.400.110.320.03整体2.330.161.060.05表3：我们模型的消融研究结果表明，我们的完整方法对于大多数标准都是最好的。方法地图IoU25IoU505◦5cm10◦5cm10◦10cm不含CASS83.876.24.229.530.0不含BM83.677.34.731.832.7不含DM84.079.08.439.540.2不带VAE83.777.017.042.143.6充分84.277.723.558.058.3• w/o分批混合（BM）。去除批次混合，并使用L2距离作为额外的损失，训练从任意视图的RGBD图像到规范形状空间的投影。• 不含VAE。将VAE替换为AE。从表3中报告的结果可以看出，CASS学习是我们方法中最重要的组成部分。如果没有CASS学习，准确性下降最特别是在xx-cm度量上。其次，CASS学习，批量混合也是非常重要的因素。VAE是有益的-因为它有助于学习具有正常分布先验的良好跨度的CASS空间，所以它适合于对不可见对象进行模型泛化然而，它同时导致模糊的3D重建，这可能会牺牲尺寸精度。（见表1中的IoU比较）。尽管如此，所有因素共同促成了姿态和尺寸的高精度（5-5cm4.5. 定性结果姿态和大小估计的视觉结果。图7显示了我们的方法和NOCS之间的一些视觉比较。根据估计的姿态和比例，我们绘制了方向图-11980国家奥委会Cass图7：与NOCS [29]进行姿态和大小估计的定性比较（用重建的点云描绘）。图8：单视图RGBD的3D重建。灰色的点云不是从深度图中投影出来蓝点云由我们的网络重建。在输入RGB图像的顶部覆盖每个检测到的实例的指定边界框。可以观察到，我们的方法实现了更好的准确性，特别是在对象遮挡和背景干扰下的大小估计。形状重建的可视化结果。图8示出了形状重建的视觉结果。我们的方法是能够重建完整的三维形状的点云从单视图RGBD图像，对比它们与点云未投影的深度图。5. 结论我们提出了一种新的对应自由的方法来类别级对象的姿态和大小估计。这通过基于深度生成模型学习归一化姿态和度量尺寸的3D模型的形状空间来实现。输入RGBD图像被嵌入到形状空间，提取姿态无关特征。通过比较姿态无关特征和姿态相关特征实现姿态估计评估表明，我们的方法达到了国家的最先进的性能。局限性和今后的工作。我们目前的方法有一些局限性，我们的目标是改善作为未来的工作。首先，我们的方法不能很好地处理非常复杂的形状，这是由于难以重建具有复杂几何形状的形状（例如，高属）。在这方面，我们的方法可以通过学习更强大的形状重建来增强，例如，立体3D表示。其次，我们的当前方法在利用重构的形状几何来指导/监督姿态估计的训练这可能会导致一种无监督或自学的方法，我们计划在未来的工作中进行调查。第三，我们的方法仍然不能达到很高的精度，这反映在相对较低的精度上对于5厘米到5厘米的公制。这可能是无对应或稀疏方法的固有限制但是请注意我们的方法不使用ICP来细化姿势或大小。最后，我们计划将我们当前的框架扩展到类似于[27]的在线对象姿态跟踪。确认我们感谢匿名评论者的宝贵意见。我们感谢DenseFusion的作者之一Chen Wang的帮助和讨论。这项工作得到了国家重点研究与发展计划（第1997号）的部分支持。2018AAA0102200），国家自然科学基金（61532003，61902419，61572507，61622212），国家自然科学基金项目（编号：ZK 19 -30）和湖南省杰出青年自然科学基金项目（2017 JJ 1002）。-.- ;公。我.，- 是的，沿啜罩房岛曾俊华$11981引用[1] Armen Avetisyan ， Manuel Dahnert ， Angela Dai ，Manolis Savva，Angel X Chang，and Matthias Nießner.Scan 2cad：学习rgb-d扫描中的cad模型对齐。在IEEE计算机视觉和模式识别会议论文集，第2614-2623页，2019年。2[2] Vassileios Balntas ， Andreas Doumanoglou ， CanerSahin，Juil Sock，Rigas Kouskouridas，and Tae-KyunKim.用于3d物体姿态估计的姿态在IEEE计算机视觉国际会议的Proceedings中，第3856-3864页，2017年。2[3] Eric Brachmann、Alexander Krull、Frank Michel、StefanGumhold、Jamie Shotton和Carsten Rother。使用3d对象坐标学习6d对象姿态估计。在欧洲计算机视觉会议上，第536Springer，2014. 2[4] AngelXChang ， ThomasFunkhouser ， LeonidasGuibas，Pat Hanrahan，Qixing Huang，Zimming Li，Silvio Savarese ， Manolis Savva ， Shuran Song ， HaoSu，et al. Shapenet：一个信息丰富的3D模型存储库。arXiv预印本arXiv：1512.03012，2015。四、六[5] Chang Hyun Choi和Henrik I Christensen。使用RGB-D照相机的日常对象的3D姿态估计。2012年IEEE/RSJ智能机器人与系统国际会议，第 3342-3349 页。 IEEE，2012。2[6] Changhyun Choi，Yuichi Taguchi，Oncel Tuzel，Ming-Yu Liu，and Srikumar Ramalingam.基于投票的机器人装配位姿估计。在2012年IEEE机器人和自动化国际会议上，第1724-1731页IEEE，2012。2[7] Thanh-Toan Do，Ming Cai，Trung Pham，and Ian Reid.深度-6dpose：从单个rgb图像恢复6d物体姿态。arXiv预印本arXiv：1802.10367，2018。2[8] Georgios Georgakis，Srikrishna Karanam，Ziyan Wu，and Jana Kosecka.将rgb影像与cad模型匹配以估测物体位姿。arXiv预印本arXiv：1811.07249，2018。2[9] Rohit Girdhar，David F Fouhey，Mikel Rodriguez，andAb-hinav Gupta.学习对象的可预测和生成矢量表示在欧洲计算机视觉会议上，第484-499页施普林格，2016年。4[10] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页6[11] 托米阿的阿霍德·阿纳尼、色诺芬·扎布利斯、马诺利斯·卢拉基斯、塞乌特·埃洛普·阿纳尼·奥布德·扎布利斯和吉尔·阿塔斯。rgb-d影像中无纹理目标的侦测与精细三维位姿估计在procIROS，第4421-4428页。IEEE，2015年。2[12] Hamid Izadinia，Qi Shan，and Steven M Seitz. Im2cad。在IEEE计算机视觉和模式识别会议论文集，第5134-5143页，2017年。2[13] Wadim Kehl ， Fabian Manhardt ， Federico Tombari ，Slobodan Ilic，and Nassir Navab.SSD-6D：使基于RGB的3D检测和6D姿态估计再次变得强大。在IEEE计算机视觉国际会议论文集，第1521-1529页，2017年。2[14] Wadim Kehl 、 Fausto Milletari 、 Federico Tombari 、Slobodan Ilic和Nassir Navab。局部RGB-D补丁11982用于3D对象检测和6D姿态估计。欧洲计算机视觉会议，第205-220页。施普林格，2016年。2[15] 小西义纪服部康介桥本学基于cpu的实时6d物体姿态估计。arXiv预印本arXiv：1811.08588，2018。2[16] 易离，顾望，向阳季，于翔，迪特尔福克斯。Deepim：深度迭代匹配6D姿态估计。在欧洲计算机视觉会议（ECCV）的会议记录中，第683-698页，2018年。2[17] 彭思达，刘元，黄启星，周晓伟，鲍虎军.PVNet：Pixel-wise voting network for 6dof pose estimation。在Proc. CVPR，第4561-4570页，2019年。一、二[18] Charles R Qi，Hao Su，Kaichun Mo，and Leonidas JGuibas.Pointnet：对点集进行深度学习，用于3D分类和分割。在IEEE计算机视觉和模式识别会议论文集，第652-660页4[19] 马赫迪·拉德和文森特·莱佩蒂特Bb8：一种可扩展的、准确的、对部分遮挡鲁棒的方法，用于预测具有挑战性的对象的3D在Proc. ICCV，第3828-3836页，2017年。2[20] Caner Sahin，Guillermo Garcia-Hernando，Juil Sock，and Tae-Kyun Kim.实例级和类别级6d对象姿态估计。arXiv预印本arXiv：1903.04229，2019。一、二[21] 坎纳·沙欣和金泰均。深度图像中的类别级6d对象姿态恢复。在ECCV研讨会上，2018年。一、二[22] Caner Sahin，Rigas Kouskouridas，and Tae-Kyun Kim.基于控制点直方图的迭代霍夫森林用于深度图像的6自由度对象配准。在Proc. IROS，第4113-4118页中。IEEE，2016. 2[23] Juil Sock，S Hamidreza Kasaei，Luis Seabra Lopes和Tae-Kyun Kim。基于rgbd图像的多视角6d物体姿态估计和在IEEE计算机视觉国际会议论文集，第2228-2235页，2017年。2[24] Juil Sock，Kwang In Kim，Caner Sahin，and Tae-KyunKim.用于人群场景中基于深度的6d对象姿态和联合配准的多任务深度网络。 arXiv 预印本 arXiv ：1806.03891，2018。2[25] Alykhan Tejani，Danhang Tang，Rigas Kouskouridas，and Tae-Kyun Kim.用于3d目标检测和姿态估计的潜在类霍夫森林。在proc ECCV，第462-477页。Springer，2014. 2[26] Bugra Tekin、Sudipta N Sinha和Pascal Fua。实时无缝单镜头6d物体姿态预测。在IEEE计算机视觉和模式识别会议论文集，第292-301页，2018年。2[27] Chen Wang，Roberto Mart´ın-Mart´ın，Danfei Xu，JunLv，Cewu Lu，Li Fei-Fei，Silvio Savarese，and YukeZhu.6-pack：具有基于锚点的关键点的类别级6d姿态跟踪器arXiv预印本arXiv：1910.10750，2019。三、八[28] Chen Wang，Danfei Xu，Yuke Zhu，Roberto Mart´ın-Mart´ın，Cewu Lu，Li Fei-Fei，and Silvio Savarese.致密化：基于迭代密集融合的6D目标姿态估计。在Proc.CVPR，第3343-3352页，2019年。二、四、五、六11983[29] He Wang ， Srinath Sridhar ， Jingwei Huang ， JulienValentin，Shuran Song，and Leonidas J Guibas.用于类别级6d对象姿态和大小估计的归一化对象坐标空间。在Proc. CVPR，第2642-2651页，2019年。一二三六八[30] 保罗·沃尔哈特和文森特·莱佩蒂特用于物体识别和3d姿态估计的学习描述符IEEE计算机视觉和模式识别会议论文集，第3109-3118页，2015年。2[31] Yu Xiang，Tanner Schmidt，Venkatraman Narayanan，Dieter Fox. Posecnn：一种卷积神经网络，用于在杂乱场景中进行6D物体姿态估计。arXiv预印本arXiv：1711.00199，2017。2[32] 杨晓，邱旭冲，皮埃尔-阿兰·朗格卢瓦，马休·奥布里和雷诺·马莱。从形状姿势：任意三维物体的深度姿态估计。arXiv预印本arXiv：1906.05105，2019。2[33] 张浩若，曹启新。rgb-d影像中6d目标位姿估计之整体与局部区块架构。计算机视觉和图像理解，180：59-73，2019。2

下载后可阅读完整内容，剩余1页未读，立即下载