多视角多类别目标位姿估计的统一框架

75 浏览量更新于2023-10-10 收藏 1.12MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

一种多视角多类别目标位姿估计的统一框架池莉[0000 - 0002 - 5957 - 5680]、金白[0000 - 0002 - 0653 - 0542]、格雷戈里D.哈格[0000−0002−6662−9763]约翰霍普金斯大学{chi li，jbai12，hager}@ jhu.edu抽象。对象姿态估计中的一个核心挑战是确保准确的姿态估计。以及对于复杂背景杂波中的大量不同前景对象的鲁棒性能。在这项工作中，我们提出了一个可扩展的框架，准确地推断六自由度（6-DoF）构成大量的对象类从单个或多个视图。为了学习有区别的姿势特征，我们将三种新功能集成到深度卷积神经网络（CNN）中：一种推理方案，该方案基于三维特殊欧氏群的均匀镶嵌（SE（3））将分类和姿势此外，制定了一个有效的多视图框架，以解决单视图的歧义。我们表明，该框架一贯提高单视图网络的性能我们评估我们的方法上的三个大规模的基准：YCB-Video，JHUScene-50和ObjectNet-3D。我们的方法实现了竞争力或优于目前最先进的方法的性能。关键词：物体姿态估计，多视角识别，深度学习1介绍从图像中估计6-DoF对象姿态是包括机器人操纵、导航、增强现实和自主驾驶在内的广泛应用的核心问题。虽然文献中出现了许多方法[12，41，1，39，2，6，17，26]，但可扩展性（针对大量对象）和准确性仍然是限制现有方法的关键问题。最近的工作试图利用深度CNN的力量一种简单的方法是训练一个网络来估计每个感兴趣对象的姿态（图2）。1（a））。最近的方法遵循“每个输出分支的对象”的原则1（b）），其中每个对象类1与连接到共享特征基的输出流相关联[44，16，35，25，30]。在这两种情况下，网络的大小都随着对象的数量而增加在这项工作中，我们提出了一个多类姿态估计架构（图1B）。1（c）），其接收由检测系统提供的对象图像和类别标签，并且其具有1对象类可以指对象实例或对象类别。2C. Li，J.Bai和G. Hager图1：用于单视图对象姿态估计的不同学习架构的图示：（a）在独立网络上训练每个对象;（b）每个对象与公共CNN根的一个输出分支相关联;以及（c）通过类先验融合的具有单个输出流的网络。图（d）示出了我们的多视图、多类别姿态估计框架，其中，首先将视图m上的第k个姿态假设h，m，k与规范坐标系对齐，然后与用于姿态投票和选择的其他假设进行匹配。用于姿态预测的单个分支。因此，我们的模型很容易扩展到大量的对象类别，并适用于看不见的实例，同时为每个对象提供鲁棒在复杂场景中，物体外观和遮挡的模糊性是限制位姿估计在实际中应用的另一个问题。一种解决方案是利用相同实例的附加视图来补偿来自单个视图的识别失败然而，SE（3）[5]中的多个单视图姿态估计的朴素“平均”由于其对不正确预测的敏感性而不起作用。另外，多视图6-DoF姿态估计的大多数当前方法[33，22，7]不解决由对象对称性引起的单视图模糊性当来自单个视图的多个正确估计在SE（3）上不一致时，这加剧了视图融合的复杂性受这些挑战的激励，我们展示了一个新的多视图框架（图1）。1（d）），其基于对对象对称性鲁棒的距离度量来选择从我们的单视图多类网络计算的姿势假设。总之，我们对多个类和多个视图上的可扩展且准确的姿态估计做出以下贡献– 我们开发了一种多类CNN架构，用于准确的姿势估计，具有三个新特征：a）单个姿势预测分支，其与SE（3）中的区分姿势表示相耦合，并由多个类共享; b）通过将平铺类映射与卷积层连接来将对象类标签嵌入学习过程的方法;以及c）使用对象掩码的深度监督，其改善了学习过程。从合成数据到真实图像的泛化。– 我们提出了一个多视图融合框架，减少单视图模糊的基础上投票计划。提出了一种有效的实现，以实现快速在推理过程中进行假设选择。– 我们表明，我们的方法在公共基准上提供了最先进的性能，包括YCB-Video[44]，JHUScene-50 [22]，用于6-DoF对象姿态估计。多视点多类目标位姿估计3tion [44，22]和ObjectNet-3D用于大规模视点估计[42]。此外，我们提出了一个详细的烧蚀研究的所有基准经验验证的三个创新的单视图姿态估计网络。2相关工作我们首先回顾了三类单视图姿态估计的工作，然后investi-门多视图对象识别的最新进展。模板匹配。传统的基于模板的方法通过将图像观察结果与从受约束的观察球体采样的数百或数千个对象模板进行匹配来计算对象的6-DoF姿态[12，41，1，39]。最近的方法应用深度CNN作为端到端匹配机器，以提高模板匹配的鲁棒性[41，1，19]。不幸的是，这些方法通常不能很好地扩展，因为推理时间随着对象的数量线性增长此外，如[1]所示，它们对看不见的对象实例的概括性较差，并且从合成图像到真实图像的域偏移较差自下而上的方法。给定对象CAD模型，可以通过使用粗到细ICP [47]、Hough投票[37]、RANSAC [28]和启发式3D描述符[8，32]将CAD模型配准到场景的一部分来推断6-DoF对象姿态。更有原则的方法使用随机森林来基于手工制作的特征[3，4，26]或自动编码器[6，17]推断每个图像像素的局部对象坐标。然而，局部图像模式对于具有相似外观的对象是模糊的，这阻止了这条工作线应用于通用对象和不受约束的背景杂乱。学习端到端的姿势机器。这类工作部署深度CNN来学习从单个RGB或RGB-D图像到对象姿势的端到端映射。[35，25，27，42]训练CNN直接预测对象实例的欧拉角，然后将它们应用于来自相同对象类别的未见过的实例其他方法将6-DoF姿势解耦成旋转和平移分量，并独立地推断每个分量SSD- 6D [16]将输入分类为欧拉角的离散仓，并随后通过将2D投影拟合到检测到的边界框来估计3D位置PoseCNN [44]用对对象对称性鲁棒的损失函数回归旋转，并采用自下而上的方法通过RANSAC对对象中心的3D位置进行投票。与上述相反，我们的方法制定了6-DoF姿态的判别表示，该表示能够通过CNN的单个前向传递来预测旋转和平移，同时可扩展到数百个对象类别。多视图识别。近年来，已经开发了几种多视图系统来增强3D模型分类[34，15]，2D对象检测[20，29]和语义分割[23，36，47]。对于6-DoF姿态估计，SLAM++ [33]是多视图姿态框架的早期代表，其联合优化检测到的对象和相机两者的姿态。[23]通过经由密集SLAM系统在增量重建的场景上配准3D对象模型来计算对象姿态。这两种方法很难扩展，因为它们依赖于[28]，其运行时间随对象数量线性增长。最近的方法[7]制定了一个概率框架，以融合来自不同视图的姿态估计然而，它需要4C. Li，J.Bai和G. Hager˜ ˜ ˜˜图2：用于单个视图的多类网络架构;该图示出了在我们的实现中使用的实际层数。我们注意到，XYZ图表示每个图像像素的归一化3D坐标。如果深度数据不可用，则省略该流。计算给定数量的视图的所有子集上的边际概率，当视图和/或对象的数量很大时，这在计算上是禁止的。3单视点多类位姿估计网络在本节中，我们介绍了一种用于多类姿态估计的基于CNN的架构（图1）。2）的情况。输入可以是由任意对象检测算法提供的对象的RGB或RGB-D图像感兴趣区域（ROI）网络输出表示SE（3）中的6-DoF姿态（R，T）的旋转R和平移T两者我们首先注意到，相对于相机的单个旋转R对应于不同的角度。当T变化时，图像域中的对象外观这个问题已经在[27]在1-D偏航角估计的情况为了创建从R0I外观到（R，T）的一致映射，我们最初校正注释姿态以如下对齐到当前视点我们首先计算朝向ROI（x，y）中心的3D方向v：v=[（x−cx）/fx，（y−cy）/fy，1]，其中（cx，cy）是2D相机中心，fx，fy是X和Y轴的焦距随后，我们通过将Z轴[0，0，1]与v对齐来计算校正的XYZ轴[Xv，Yv，Zv]。vXv=[0，1，0]×Zv，Yv=Zv×Xv，Zv=v（一）其中符号×表示两个向量的叉积。最后，我们将（R，T）投影到[Xv，Yv，Zv]上并获得校正后的姿态（R，T）：R=Rv·R和T=Rv·T，其中Rv=[Xv;Yv;Zv]。我们建议读者参考补充材料，了解有关纠正步骤的更多详细信息。当深度可用时，我们校正2多视点多类目标位姿估计5我我我bR=我：i∈NN（R）\NN（R），DR=我K每个像素由Rv表示，并通过将点云沿每个轴居中到中值来构建归一化的XYZ图。图2显示了我们的网络设计的细节卷积层的两个流分别接收RGB图像和XYZ图，并且最终输出是用于旋转和平移两者的bin第3.1节）。这两个流进一步与类先验（Sec.3.2）合并，并由对象掩码（Sec.3.2）深度监督。3.3）。当深度数据不可用时，我们只需删除XYZ流。3.1SE的Bin Delta表示已经证明，对物体旋转R的直接回归劣于离散化SO（3）2上的分类方案[31，27，16]。SO（3）的一个常见离散化是沿着每个欧拉角（α，β，γ）（即，偏航、俯仰和滚转）[35，16]。然而，该分箱方案产生SO（3）的非均匀曲面细分因此，一个欧拉角上的小误差可能被放大，并导致最终旋转估计的大偏差在下文中，我们制定了两个新的bin delta表示，它们均匀地划分SO（3）和R（3）。它们还与用于学习判别姿势特征的分类回归方案相结合SO（3）的几乎一致分拆我们首先利用由[45]开发的采样技术来生成N个旋转{R^1，… R≡N}在SO（3）上均匀分布。这N个旋转被用作SO（3）中的N个旋转仓的中心。这些是共享的不同的对象类之间给定任意旋转矩阵R，我们基于{R∈1，…， RN}。箱向量bR包含N个维度，其中第i个维度bR指示R属于箱的置信度I. dR存储N次旋转（即，四元数），其中第i次旋转dR是从R≡i到R的差。在推理过程中，我们取最大值评分并将对应的增量值应用于面元中心以计算最终预测。在训练中，我们对（bR，dR）执行稀疏置信度评分方案来监督网络：θ1:i∈NN1(R)我θ2K.R·RT：i∈NN（R）1我0 :Otherwise0：否则其中θ1<$θ2和NNk（R）是{R<$1，.，RN}根据两个旋转之间的测地距离d（R1，R2）=1log（RTR2）F21R1和R2。请注意，我们设计deltadi以实现R=dR·Ri而不是R=Ri·dR我我因为前者在数值上更稳定。具体地，如果d是dR，使得d=δ·dR，最终预测R’的误差也是δ，因为我我R′=d·Ri=δR。如果我们定义R=Ri·dR，则R′=Ri·d=（Riδ（Ri）−1）R误差为Riδ（Ri）−1。因此，dR的δ误差可以在最终的计算中被放大。旋转估计R。网格化XYZ轴。平移向量是从相机原点到对象中心的3D向量。为了划分平移空间，我们对X、Y和Z轴进行均匀网格化2SO（3）是三维空间中的特殊正交群（二）6C. Li，J.Bai和G. HagerSM1212独立地对于RGB图像，我们将X和Y轴与图像坐标对齐，Z轴是相机的光轴。我们还将ROI重新缩放到CNN的固定尺度，因此我们进一步将每个像素的Z值调整为Z′，使得图像尺度与深度值一致：Z′= Z·s′，其中s′和s分别是重新缩放之前和之后的图像尺度。当深度数据可用时，XYZ轴被简单地选择为规范化点云的坐标轴。我们现在讨论如何构造X轴的bin delta对（bTx，dTx）; Y和Z轴以相同的方式完成。我们首先在[ s min，s max ] 3之间创建M个大小相等的smax-smin的非重叠bin。当X值小于smin（或大于smax）时，我们将其分配给第一个（或最后一个）bin。在推断过程中，我们通过将delta添加到具有最大置信度得分的bin中心来计算X值在训练中，类似于EQ。2中，我们通过在M个bin中找到X值的K′个最近邻来计算X值的bTx然后，我们为顶部最近邻分配θ′和θ′对于剩余的K−1个邻居（θ′θ′）。相应地，三角洲K’个最近邻面元的值为面元中心与实际X值的偏差，其他为0。最后，我们将X、Y和Z轴的所有bin和delta连接起来：bT=[bTx，bTy，bTz]和dT=[dTx，dTy，dTz]。划分平移空间的另一种方法是在XYZ空间上应用关节网格化。然而，容器的总数在实践中3.2类先验融合许多现有方法在姿态分析之前假设由检测系统提供的已知对象类别标签[44，16，31，25，1]。然而，它们在训练期间忽略类先验，并且仅在推理期间应用它。我们的想法是将这个已知的类别标签直接纳入到卷积滤波器的姿势学习过程中。这部分受到基于CNN的手眼协调学习[21]的先前工作的启发，其中平铺的机器人电机运动图与一个隐藏的卷积层连接，用于预测抓取成功概率。给定ROI的类标签，我们创建一个独热向量，其中与类标签对应的条目设置为1，所有其他条目设置为0。我们进一步在空间上平铺这个独热向量以形成具有大小的3D张量。H×W×C，其中C是对象类的数量，H，W是作为网络设计一部分选择的中间层卷积特征映射的高度和宽度如图2，我们将这个平铺的类张量与沿着滤波器通道的颜色和深度流的最后一个卷积层连接起来。因此，原始特征图在所有空间位置处嵌入有类别标签，并且后续层能够对用于姿态估计的类别特定模式进行建模。这对于教导网络为每个单独的对象开发紧凑的类特定的过滤器，同时利用低级特征的共享基础来实现鲁棒性是至关重要的。3.3使用对象分割的由于真实图像上的姿态注释的有限可用性，合成CAD渲染通常用作基于学习的姿态估计方法的训练数据[44，12，14]。3s最小值和s最大值在不同轴上可能不同多视点多类目标位姿估计7˜˜˜˜BDBDi∈{X，Y，Z}16页]。我们采用这种方法，但是，在[24]之后，我们还在隐藏层中加入了对象掩码的深度监督（如图所示）（2）加强培训过程的规范化我们可以将对象掩模视为6-DoF姿态估计的最终任务的中间结果也就是说，良好的对象分割是姿态估计最终成功此外，精确预测的对象掩模有益于诸如迭代最近点（ICP）的后细化步骤。要将遮罩与特征和类别映射合并（第3.2），我们为对象掩码附加一个输出分支，其包含一个卷积层，随后是具有上采样率2的两个去卷积层。我们假设感兴趣的对象在输入图像中占主导地位，使得仅需要二进制掩码（因此，尺寸无论数据库中对象实例的数量如何，用于二进制分割预测的输出层都是固定的相反，当多个对象出现在场景中时，我们必须依赖于一些检测系统来3.4网络架构用于训练网络的完整损失函数由分割图上的五个损失分量、旋转分量和三个平移分量组成：L=lse g+lR（b~R，bR）+lR（d~R，dR）+Σ。lT（b〜Ti，bTi）+lT（d〜Ti，dTi）Σ（3）其中，bR、dR、bTi和dTi是地面真值bR、dR、bTi和dTi相对于水平的二进制和增量估计。我们将cross-entropysoftmax应用于每个像素位置上的分割损失lseg以及面元损失lRb和lTb。我们采用L2损失用于增量值lRd和lTd。所有损失同时反向传播到网络，以更新每个批次的网络参数为了简单起见，我们对每个损失项应用损失权重1每个卷积层都与批规范层[13]和ReLU耦合所有卷积滤波器的大小为3x3。每个bin和delta的输出层由一个全局平均池化（GAP）层和一个具有512个神经元的全连接（FC）层构成。我们在步长为2的卷积的每次下采样之前使用dropout [18]层。我们总共部署了23层。4多视图姿势框架在本节中，我们提出了一个多视图框架，它细化了我们的单视图网络的输出（第二节）。3）在推理阶段。我们假设序列中的每个帧的相机姿态是已知的。在实践中，相机姿势可以由许多SLAM系统提供，例如Kinect Fusion[14]。4.1动机回想一下，我们可以从SE（3）中的所有子空间（包括SO（3），X，Y和Z空间）获得前K估计（第2节）。第3.1节）。因此，我们可以计算K4姿态假设8C. Li，J.Bai和G. Hager1Σ21x2∈M122Σ通过组合来自所有子空间的前k个结果。反过来，我们计算前K精度作为在所有K4个假设中实现的最高姿态精度。图图3示出了我们的姿态估计网络在所有对象实例上的前K个准确度的曲线，根据YCB-Video基准[44]上的mPCK4我们观察到，当我们最初将K从1增加到2时，姿态估计性能显著提高，并且在K = 4时几乎饱和。这表明推断出的置信度得分只有在很小的范围内是模糊的，这是有道理的图3：我们的单视图姿势网络在YCB-Video上的前K精度[44]。尤其是对于具有对称几何形状或纹理的对象问题是我们如何我们现在提出了一种多视图投票算法，该算法从前K个假设集中选择正确的假设。4.2假设投票为了测量来自不同视图的假设之间的差异，我们首先使用所有η个视图的已知相机姿态将所有假设转移到视图1我们考虑假设集H={h1 ，1，···，hi ，j，···，hn，K4}，其中hi，j表示相对于视图1的相机坐标的视图i中的姿态假设j。处理单视图模糊所造成的对称几何，我们测试的一致性到观察到的数据。更具体地说，我们采用[12]提出的距离度量来测量两个假设h1=（R1，T1）和h2=（R2，T2）之间的差异：1D（h，h）=最小值（R x+T）−（Rx+T）（四）x1∈M其中，M表示3D模型点的集合，并且m=| M|. 当3D物体在姿态h1和h2下的占有率相似时，即使h1和h2在SO（3）上具有大的测地距离，D（h1，h2）也产生小的距离。最后，hi，j的投票得分V（hi，j）计算为：V（hi，j）=hp，q∈H\h i，j最大σ−D（hi，j，hp，q），0<$（5）其中σ是离群值拒绝的阈值。我们选择投票得分最高的假设作为最终预测。图1（d）示出了该多视图投票过程。高效实施。上述假设投票算法是计算上的昂贵的，因为Eq.时间复杂度为O（mlogm）4请参阅第二节。有关mPCK度量的更多详细信息，请参见图5。M122多视点多类目标位姿估计9˜˜Σ11222 2x2∈M122M1x2∈M122 2x2∈M12 2ΣΣ实施. 我们的解决方案是解耦方程中的平移和旋转分量4并且通过D~（h1，h2）近似D（h1，h 2）：D~（h，h）=T1- T+最小R x- Rx（六）x1∈M事实上，D（h1，h2）是D（h1，h2）的一个上界：对于任意的h1和h2，D（h1，h2）≤ D（h1，h2），因为基于三角不等式，（R1x1+ T1）−（ R2x2+ T2 ） 2≤ R1x1− R2x2 +T1− T2 。由于 T1−T2 的复杂度是O（1），我们可以专注于加速旋转距离1的计算x∈Mminx2∈MR1x1−R2x22。我们的方法是预先计算来自N个均匀采样的旋转仓{R^1，...，[45][46]。 F或任意的R1和R2，我们从{R1，…， RN}。反过来，我们将旋转距离近似为：1最小R xx1∈M1-R x≈minRx−R中文（简体）其中右手侧可以在推断期间直接从预先计算的距离表中检索当N足够大时，方程的近似误差为：7对我们的投票算法影响不大。在实践中，我们发现当N≥1000时，性能增益饱和。因此，Eq.对于最近邻搜索，7是O（logN）其显著小于等式（1）的O（mlogm）5（m一般>> N）。5实验在本节中，我们在三个大规模数据集上对我们的方法进行了经验评估：YCB-Video [44]，用于6-DoF姿态估计的JHUScene-50 [22]和ObjectNet-3D [42] 用于视点估计。此外，我们进行了消融研究，以验证我们的三个创新的单视图构成网络。评估指标。对于6-DoF姿态估计，我们遵循最近提出的度量“ADD-S”[44]。传统的度量[12]认为姿态估计h是正确的，如果D（h，h≤）在等式（1）中。4相对于地面真值h*低于阈值。“ADD-S”[0，0. 1]）。我们将“ADD-S”重命名对于视点估计，我们使用PASCAL3D+[43]中使用的平均视点精度（AVP）和KITTI[9]中使用的平均方向相似性（AOS）。实施详情。用于软分箱的最近邻数对于SO（3）为4，对于XYZa x es中的每一个为3。我们将分箱得分设置为θ1=θ′=0。7且θ2=θ′=0。1 .一、旋转仓的数量为60。对于XYZ分箱，我们使用10个仓且[smin，smax]=[−0. 2，0。当使用RGB-D数据时，对于每个为对于RGB数据的推断，我们使用20个仓，[s_min，s_max]=[0. 2，0。8]，[s最小，s最大]=[0. 五、四。0]表示Z轴。在多视图投票中，我们设置距离阈值σ =0。02并且距离表的预先计算的大小为2700。输入图像1M12M1M x1∈MN1（R1）N1（R2）Σ10C. Li，J.Bai和G. Hager对象RGBRGB-DP-CNN[第四十四届]MCNMV5-MCN3D注册[第四十四届]P-CNN +ICP [44]MCNMCN +ICPMV5-MCN002主厨可以84.487.890.690.195.789.496.096.2003饼干盒80.864.372.077.494.885.488.790.9004糖盒77.582.487.493.397.992.797.395.3005番茄罐头85.387.991.892.195.093.296.597.5006芥末瓶90.292.594.391.198.296.797.797.0007金枪鱼罐头81.884.789.686.996.295.197.695.1008布丁盒86.651.051.789.398.191.686.294.5009明胶罐86.786.488.597.298.994.697.696.0010罐装肉罐头78.883.190.384.091.691.790.896.7011香蕉80.879.185.077.396.593.897.594.4019投手垒81.084.886.183.897.493.896.696.2021漂白洁面乳75.776.081.089.296.392.996.495.4024碗74.276.180.267.491.782.676.082.0025马克杯70.091.493.185.394.295.397.396.8035电钻73.976.081.189.498.088.295.993.1036木块63.954.058.476.793.181.593.593.6037剪刀57.871.682.782.894.687.379.294.2040大标记56.260.166.382.897.890.298.095.4051大夹钳34.366.877.567.681.591.594.093.3052较大的夹具38.661.168.049.051.688.090.790.9061泡沫砖82.060.967.782.496.493.296.595.9所有73.475.180.283.793.190.693.394.3表1：通过不同方法在YCB-Video数据集上实现的mPCK准确度[44]。最后一行指示所有实例的mPCK的每实例平均值是64x64 在卷积层15处插入大小为H = W = 16的平铺类图。我们使用带动量的随机梯度下降0的情况。9从零开始训练网络。学习率从0.01开始，每70000步减少十分之一。YCB-Video的批大小为105，JHUScene-50和ObjectNet-3D的批大小为100。我们通过混合等量的每个班级的数据我们将我们的多类姿态网络命名为使用η个视图的由于MCN还推断实例掩模，因此当深度数据可用时，我们使用它来提取对象点云，然后通过将对象网格配准到提取的对象云来运行ICP以细化估计姿势我们将这种基于ICP的方法表示为5.1YCB视频YCB视频数据集[44]包含21个对象实例的92个真实视频序列。使用80个视频以及80，000个合成图像进行训练，并从剩余的12个视频中提取2949个关键帧进行测试。我们在训练集上微调当前最先进的“mask-RCNN”[11]作为检测系统。遵循[44]中的相同场景，我们假设一个对象在场景中最多出现一次。因此，我们通过找到具有该对象的最高检测分数的一个来计算特定对象的边界框。对于我们的多视图系统，一个视图是耦合的多视点多类目标位姿估计11其中5个其它随机采样视图处于相同序列中。每个视图输出来自SO（3）、X、Y和Z的每个空间的前3个结果，并且依次输出34=81个姿势假设。表1报告了我们的方法和poseCNN的变体的mPCK准确度[44]（表示为所有方法都按照[44]中定义的相同实验设置进行训练和测试我们首先观察到，多视图框架（MV 5-MCN）在不同的实例中持续改进了单视图网络（MCN），并实现了整体最先进的性能。这种改进在RGB数据上更显著，其中MV 5-MCN和MCN之间的mPCK裕度为5。1%，即远远大于1的边缘。所有实例的RGB-D数据为0%这主要是因为在没有深度数据的情况下单视图模糊性更严重随后，MCN比poseCNN好1。RGB和MCN+ICP上的7%比poseCNN+ICP略好0。2%的RGB-D。我们可以看到，MCN在不同实例中比poseCNN例如，poseCNN+ICP仅获得51。6%，“052较大夹钳”类，即24. 比MCN+ICP单类最低精度低4%这主要归功于我们的阶级融合在学习区分性类别特定特征中的设计，使得相似对象可以在特征空间中很好地分离（例如，“051大夹钳”和“052大夹钳”）。我们还观察到MCN在某些情况下（如泡沫砖）远不如PoseCNN。这主要是由这些实例上的较大检测误差（小于0.5 IoU，具有地面真实值）引起的。我们还在地面实况边界框上运行MCN，并且总体mPCK为86。9%在RGB（11. 比检测到的边界框上的mPCK高8%）和91. 0%对RGB-D（0. 检测到的边界框上的mPCK高4%）。这表明MCN对RGB上的检测误差敏感，而对RGB-D数据是鲁棒的。原因是我们依赖于边界框的图像比例来恢复RGB输入的3D平移。此外，我们在所有对象实例中获得了MCN的高实例分割精度5：89。9%的RGB和90。9%的RGB-D。这意味着MCN实际上学习中间前景掩模作为姿态预测的一部分。我们建议读者在补充材料中获得更多的数值结果，包括分割精度，MCN的PCK曲线和单个实例上地面实况边界框的mPCK精度最后，我们在图的上半部分展示了一些定性的结果。4.我们可以看到，MCN能够预测遮挡下的对象姿态，并且MV 5-MCN进一步细化MCN结果。5.2JHUScene-50JHUScene-50 [22]包含50个具有不同背景杂波和严重对象遮挡的场景此外，目标对象集由10个具有相似外观的手工具实例组成在训练期间仅纹理化CAD模型可用，并且所有5000个真实图像帧包括测试集。为了应对我们的姿势学习框架，我们通过渲染类似于测试数据的密集杂乱场景来模拟大量的合成数据，其中对象随机堆放在桌子上。我们使用UnrealCV [40]作为渲染工具，并生成100k训练图像。5具有正确预测的掩模标签的像素的数目与所有掩模标签的数目的比率。12C. Li，J.Bai和G. Hager地图对象RGBRGB-D汽车[1]MCNMV5-MCN 目标记录[28日]汽车[1]MCNMV5-MCN钻110.633.436.514.570.376.878.1钻头29.948.854.52.949.076.680.1钻具37.645.548.03.750.981.585.4钻49.341.645.56.551.482.087.1锤15.024.930.28.138.780.187.6锤25.128.333.410.735.581.291.5槌37.826.231.28.647.883.188.1槌45.117.220.63.838.373.887.8槌55.237.144.49.635.078.086.3Sander10.735.639.59.554.376.075.5所有7.633.938.47.847.178.984.8表2：JHUScene-50数据集中所有对象的mPCK精度[22]。最后一行指示所有对象实例的mPCK的每类平均值最佳结果以粗体突出显示地图AOSAVP快速R-CNN [10][42]第四十二话MCN[42]第四十二话MCN精度61.651.956.039.4（64.0）50.0（81.2）表3：ObjectNet-3D基准上的对象姿态估计精度[42]。所有方法在快速R-CNN [10]估计的同一组检测到的边界框上执行关于AOS和AVP度量两者的最佳结果以粗体示出对于AVP，我们还在括号中报告AVP我们将MCN和MV 5-MCN与JHUScene-50中的基线方法ObjRecRANSAC6[28]和一种最近的最先进姿态流形学习技术[1]7进行比较。所有方法都在相同的合成训练集上进行训练，并在来自JHUScene-50的5000个真实图像帧上进行测试。我们通过遵循[12]中使用的相同过程来我们评估不同的方法对所有对象的地面实况表2报告了所有方法的mPCK准确度。我们可以看到，MCN的性能明显优于其他比较方法，尽管MCN的性能比YCB-Video差得多，主要是因为JHUScene-50中严重的遮挡和各种杂乱的背景此外，我们观察到MV 5-MCN在RGB和RGB-D数据上均优于MCN。MV 5-MCN在RGB-D数据上实现的性能增益远远大于YCB-Video上的性能增益，特别是对于锤子类别，这是由于对称的3D几何结构。我们将MCN和MV 5-MCN的一些结果可视化在图1的底部。4.右下示例示出了MV 5-MCN校正MCN结果的方向，这经常发生在锤子上。5.3ObjectNet-3D为了评估我们的方法的可扩展性，我们进行了实验ObjectNet-3D，其中包括从100个对象类别的201888个实例的视点注释与大多数针对室内场景和小物体的现有基准测试[44，22，12]相比，ObjectNet-3D覆盖了广泛的室外环境和各种物体6https://github.com/tum-mvp/ObjRecRANSAC7我们重新实现了这个方法，因为源代码不是公开的。多视点多类目标位姿估计13方法RGBRGB-DYCB视频JHUObjectNet-3DYCB视频JHU平原61.025.051.7/38.361.819.6BD +分段66.226.350.3* /41.3*89.570.0BD + TC68.529.356.0/5090.176.4Sep-Branch + Seg + BD73.831.652.5* /42.9*90.277.7Sep-Net + Seg + BD62.128.7NA87.166.9MCN（分段+ TC +BD）80.233.9NA90.878.9表4：YCB-Video上的姿态估计架构的不同变体的消融研究。JHUScene-50和ObjectNet-3D。我们遵循与前几节评估相同的指标对于ObjectNet-3D，我们报告格式为AOS/AVP的精度飞机等类别我们修改MCN模型，只使用旋转分支的视点估计，并删除对象掩码的深层监督，因为对象掩码是在ObjectNet-3D中不可用。据我们所知，只有[42]报告了该数据集的视点估计准确性，其中视点回归分支与Fast R-CNN架构中的边界框回归一起添加[10]。为了公平比较，我们使用[42]的相同检测结果作为MCN的输入。由于ObjectNet-3D仅提供验证集上的检测结果，因此我们在训练分割上训练模型并在验证集上进行测试。表3报告了验证集上不同方法的视点估计精度，根据两个不同的度量AVP [43]和AOS [9]。mAP中的检测性能是AVP的上限括号中的数字是AVP与mAP的比率。我们可以看到MCN在AOS和AVP上都明显优于大规模模型[42]，即使[42]实际上优化了验证集上的网络超参数这表明MCN可以被缩放到大规模的姿态估计问题。此外，对象实例在ObjectNet-3D中的训练集和验证集之间几乎没有重叠，这表明MCN可以概括为类别中的未见过的对象实例。5.4消融研究在本节中，我们将实证验证MCN中引入的三项创新：bin& delta表示（“BD”）、平铺类映射（“TC”）和对象分割的深度监督（“Seg”）。此外，我们还检查了基线架构：每个对象的单独网络（“Sep-Net”）和每个对象的单独输出分支（“Sep-Branch”），如图1B所示。1（a）和图1（b）分别。为了消除使用“BD”的影响，我们直接回归四元数和平移（平原）作为比较。表4显示了不同方法在所有三个基准上的准确度。我们按照前面的章节报告YCB-Video 和 JHUScene-50 的mPCK，以及ObjectNet-3D的AOS/AVP由于ObjectNet-3D不提供分割基础事实，我们在所有与ObjectNet-3D相关的分析中删除了模块“Seg”。此外，我们不报告ObjectNet-3D上“Sep-Net”的我们有三个主要的观察：1.当移除三个创新中的任何一个时，姿态估计性能一致地降低。通常情况下，14C. Li，J.Bai和G. Hager图4：MCN在YCB-Video（上）和JHUScene-50（下）上的姿态估计结果的图示。通过姿态估计变换的投影对象网格点用橙色（YCB-Video）和粉色（JHUScene-50）突出显示从每个数据的左到右，我们显示了原始ROI，RGB上的MCN估计值，RGB-D上的MCN估计值和RGB-D上的MV 5-MCN估计值因为BD的移除导致更大的性能下降; 2. “Sep-Branch” coupled with “BD” and“Seg” appears to be the second best architecture,此外，“Sep-Branch”的模型大小“Sep-Net” is expensive in training and it performs substantially worse than MCN6结论我们提出了一个统一的体系结构推断6自由度对象构成从单一和多个视图。我们首先介绍具有三个创新的单视图姿态估计网络：新的bin& delta姿态表示，将平铺类映射融合到卷积层中，以及在中间层对对象掩模进行深度监督。这些模块为大规模对象类和不受约束的背景杂波提供了一个可扩展的姿势学习架构。随后，我们制定了一个新的多视图框架，选择单视图的姿势假设，同时考虑由对象对称性引起的歧义在未来，一个有趣的方向是将多视图过程嵌入到训练过程中，以联合优化单视图和多视图的性能。此外，可以改进多视图算法以在给定新帧的情况下为任何增量更新维持固定数量的致谢。这项工作得到了IARPA DIVA计划和国家科学基金会的资助IIS-127228和IIS-1637949。多视点多类目标位姿估计15引用1. Balntas，V.，Doumanoglou，A.，沙欣角Sock，J.，Kouskouridas河Kim，T.K.：用于3d物体姿态估计的姿态在：CVPR（2017）2. Brachmann，E.，Krull，A.，Michel，F.，Gumhold，S.，Shotton，J.，Rother，C.：使用3d对象坐标学习6dIn：ECCV. Spuringer（2014）3. Brachmann，E.，Krull，A.，Michel，F.，Gumhold，S.，Shotton，J.，Rother，C.：使用3d对象坐标学习6dIn：ECCV. Spuringer（2014）4. Brachmann，E.，Michel，F.，Krull，A.，Ying Yang，M.，Gumhold，S.，等：不确定性驱动的单一rgb图像中物体和场景的6d姿态估计。见：CVPR（2016）5. Chirikjian，G.S.，马奥尼河Ruan，S.，Trumpf，J.：从不同的角度改变姿势。Journalof Mechanisms and Robotics（2018）6. Doumanoglou，A.，Kouskourid

下载后可阅读完整内容，剩余1页未读，立即下载