HybridPose：一种新颖的6D物体姿态估计方法

88 浏览量更新于2023-10-25 收藏 1.63MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

431HybridPose：混合表示陈松*，宋佳如，黄启星德克萨斯大学奥斯汀网址：song@cs.utexas.edu，jiarus@cs.utexas.edu，网址：www.example.com，huangqx@cs.utexas.edu摘要我们介绍HybridPose，一种新颖的6D物体姿态估计方法。HybridPose利用混合中间表示来表达输入图像中的不同几何信息，包括关键点、边缘向量和对称对应。与单一表示相比，我们的混合表示允许姿态回归在一种类型的预测表示不准确时因为闭塞）。HybridPose使用的不同中间表示都可以通过相同的简单神经网络进行预测，预测中间表示（a）输入图像（b）关键点（c）边缘向量通过鲁棒回归模块对站进行过滤Com-（d）对称对应（e）地面真实姿态（f）预测姿态与最先进的姿态估计方法相比，Hy-bridPose在运行时间上相当，并且更加准确。例如，在 OcclusionLinemod [3]数据集上，我们的方法实现了30 fps的预测速度，平均ADD（-S）准确度为79.2%，比当前最先进的方法提高了 67.4% 。 HybridPose 的实现可在https://github.com/chensong1995/HybridPose获得。1. 介绍从RGB图像估计物体的6D姿态是3D视觉中的基本问题，并且在物体识别和机器人-物体交互中具有多种应用。深度学习的进步已经在这个问题上取得了重大突破。虽然早期的作品通常将姿态估计公式化为端到端姿态分类[39]或姿态回归[16，42]，但最近的姿态估计方法通常利用关键点作为中间表示[38，34]，并将预测的2D关键点与地面实况3D关键点对齐。除了地面实况姿态标签之外，这些方法还将关键点作为中间监督，促进了平滑的模型训练。基于关键点的方法基于两个假设：(1)机器学习模型可以准确地预测2D关键点位置;以及（2）这些预测提供了足够的信息。*作者平均图1. HybridPose预测关键点、边缘向量和对称对应。在（a）中，我们示出了输入RGB图像，其中感兴趣的对象（司钻）被部分遮挡。在（b）中，红色标记表示预测的2D关键点。在（c）中，边缘向量由所有关键点之间的全连接图定义在（d）中，对称对应将对象上的每个2D像素连接到其对称对应物。为了说明的目的，在这个例子中，我们仅从5755个检测到的对象像素中绘制50个随机样本的对称对应通过将所有预测与3D模板联合对齐来获得预测姿态（f），这涉及求解非线性优化问题。有足够的约束来回归潜在的6D姿势。这两个假设在许多现实世界中很容易被打破。由于对象遮挡和预测网络的代表性限制，通常不可能单独从RGB图像准确预测2D关键点坐标在本文中，我们介绍HybridPose，一种新颖的6D姿态估计方法，利用多种中间表示来表示输入图像中的几何信息。除了关键点之外，HybridPose还集成了一个预测网络，可以输出相邻关键点之间的边缘向量。由于大多数对象具有（部分）反射对称性，因此HybridPose还利用了预测的密集像素对应关系，这些对应关系反映了像素之间的基本对称关系。与单一表示相比，这种混合表示具有许多优点。首先，HybridPose在输入图像中集成更多信号：边缘向量编码spa-432物体各部分之间的社会关系和对称对应关系包含了内部细节。其次，HybridPose比单独使用关键点进行姿态回归提供更多的约束，即使预测元素的显著部分是离群值（例如，是闭塞的原因）。最后，可以表明，对称对应稳定了姿态预测的旋转分量，特别是沿着反射平面的法线方向（细节在附录中提供）。材料）。给定第一个模块预测的中间表示，HybridPose的第二个模块执行姿势回归。特别地，HybridPose采用可训练的鲁棒范数来修剪预测的中间表示中的离群值。我们展示了如何将姿态初始化和姿态细化相结合，以最大限度地提高所得到的对象姿态的质量。我们还展示了如何使用姿势预测模块的训练集和姿势回归模块的验证集来有效地我们在两个流行的基准数据集上评估HybridPose，Linemod [12]和Occlusion Linemod [3]。在准确性方面（在ADD（-S）度量下），混合姿态导致了与仅利用关键点的所有现有技术方法相比的相当大的改进。在Oc- clusion Linemod [3]上，HybridPose实现了79.2%的准确度，这比DPOD [44]提高了67.4%，DPOD [ 44 ]是目前最先进的方法。基准数据集。尽管在准确性的增益，我们的方法是有效的，并在商品工作站上运行在每秒30帧。与利用复杂的网络架构来预测单个中间表示的方法（例如Pix2Pose [30]）相比，HybridPose通过使用相对简单的网络来预测混合表示，实现了更好的性能。2. 相关作品姿势的中间表示。为了在RGB图像中表达几何信息，流行的中间表示是关键点，其实现了最先进的性能[34，32，36]。相应的姿态估计流水线将关键点预测和由Pestrian算法初始化的姿态回归组合在一起[18]。关键点预测通常由神经网络生成，并且先前的一种常见的方法将关键点表示为热图的峰值[28，48]，当关键点被遮挡时，这变得次优，因为输入图像不提供其位置的显式视觉提示。替代的关键点表示包括矢量场[34]和补丁[14]。这些表示允许在遮挡下更好的关键点预测，并最终导致姿态估计精度的提高但是，关键点本身是目标姿态，其在提高估计精度方面的潜力是有限的。除关键点外，另一种常见的中间表示是3D物理世界中每个图像像素的坐标，其为姿态对齐提供密集的2D-3D对应，并且在遮挡下是鲁棒的[3，4，30，20]。然而，回归密集对象坐标比关键点预测成本高得多。They are also less accurate than keypoints due to the lackof corresponding visual cues.除了关键点和逐像素2D-3D对应之外，深度是视觉里程计设置中的另一种替代中间表示，其可以以无监督的方式与姿态一起估计[47]。在实践中，深度估计的准确性受到神经网络的代表能力的限制与以前的方法不同，HybridPose结合了多个中间表示，并表现出协作的姿态估计的强度。多模式输入。为了解决来自单个RGB图像的姿态估计的挑战，一些作品已经考虑了来自多个传感器的输入。一种流行的方法是利用来自RGB和深度图像的信息[47，40，42]。在存在深度信息的情况下，姿态回归可以重新表述为3D点对齐问题，然后通过ICP算法[42]解决该问题。虽然HybridPose利用多个中间表示，所有中间表示预测从RGB图像单独。HybridPose处理缺少深度信息的情况。边缘特征。已知边缘可以捕获重要的图像特征，例如对象轮廓[2]、显著边缘[23]和直线段[45]。与这些低级图像特征不同，HybridPose利用在相邻关键点之间定义的语义边缘向量。这种表示方法既能捕捉关键点之间的相关性，又能揭示对象的底层结构，简洁明了，易于预测。这样的边缘向量提供了比单独的关键点更多的约束，并且在遮挡下具有明显的优势。我们的方法类似于[5]，它预测相邻关键点之间的方向，以将关键点链接到人体骨架中。然而，我们预测的方向和幅度的边缘向量，并使用这些向量来估计对象的姿态。图像的对称性检测。对称性检测在计算机视觉中受到了极大的关注。我们建议读者参考[22，27]的一般调查，和[1，41]的最新进展。对称性检测的传统应用包括人脸识别[31]、深度估计[21]和3D重建[13，43]。在对象姿态估计的上下文中，人们已经从对称性为姿态估计引入模糊性的角度研究了对称性（参见图10）。[25，36，42]），因为具有不同姿态的对称对象可以在图像中具有相同的外观。几433精化子模块θφγθ φγ预测网络（a）输入图像（b）预测的关键点、边缘向量和对称对应初始化子模块（d）最终姿态（c）初始姿态图2. 方法概述。 HybridPose由中间表示预测网络和姿态回归模块组成。预测网络将图像作为输入，并输出预测的关键点、边缘向量和对称对应。姿态回归模块由初始化子模块和细化子模块组成。初始化子模块用预测的中间表示求解线性系统以获得初始姿态。细化子模块利用GM鲁棒范数并优化（9）以获得最终的姿态预测。著作[36，42，6，25，30]已经探索了如何解决这种模糊性，例如，通过设计在对称变换下不变的损失函数稳健回归。通过中间表示的姿态估计对预测中的离群值敏感，这些离群值是由遮挡和杂乱的背景引入的[37，32，40]。为了减轻姿态误差，几项工作在2D-3D对齐阶段为不同的预测元素分配不同的权重[34，32]。相比之下，我们的方法还利用鲁棒范数来自动过滤预测元素中的离群值除了重新加权策略，最近的一些作品亲-3.1. 方法概述如图2所示，HybridPose由预测模块和姿态回归模块组成。预测模块（第3.2节）。HybridPose利用三个预测网络f K、f E和f S来估计关键点的集合K={pk}、关键点之间的边缘的集合E ={ve}以及图像像素之间的对称对应的集合S={（qs，1，qs，2）}。K、E和S均以2D表示。θ、φ和γ是可训练参数。关键点网络f K采用现成的预测网络[34]。另外两个预测网络fE和fS被引入以稳定姿态回归，姿势使用基于深度学习的细化器来提升姿势φγ估计性能[19，26，44]。[44，19]使用点匹配损失并实现高精度。[26]使用轮廓信息预测姿势更新与这些作品不同，我们的方法考虑了临界点和鲁棒目标函数的损失面，并且不涉及基于递归网络的方法中使用的固定的预定迭代次数。3. 方法HybridPose的输入是包含已知类别中的对象的图像I，由具有已知内部参数的针孔相机拍摄。假设对象类有一个正则坐标系， 3D点云），HybridPose输出图像对象的6D相机姿态（RI∈SO（3），tI∈R3），其中RI是旋转分量，tI是平移分量。关键点预测不准确。具体来说，f E前-沿着预定义的关键点图来编辑边缘向量，这在关键点在输入图像中杂乱时稳定姿态回归。fS预测反映潜在的（部分）反射对称性的对称性对应。这种对称表示的一个关键优点是对称对应的数量很大：物体上的每个图像像素具有对称对应。因此，即使具有大的异常值比率，对称对应仍然提供用于估计反射对称平面的足够约束，以用于正则化基础姿态。此外，对称对应在底层对象的内部比关键点和边缘向量结合更多的特征姿势回归模块（第3.3节）。 HybridPose的第二个模块优化了对象姿态（RI，tI），以拟合三个预测网络的输出。该模块结合了可训练初始化子模块和训练-434θθφγφ2能够细化子模块。具体地，初始化子模块执行SVD以求解全局仿射姿态空间中的初始姿态。细化子模块利用鲁棒范数来滤除预测元素中的离群值，以进行准确的对象姿态估计。训练HybridPose（第3.4节）。我们训练HybridPose通过将数据集分为训练集和验证集，3D模型可以具有多个反射对称平面。对于这些模型，我们训练HybridPose来预测相对于最突出的反射对称平面的对称对应，即，其中一个在原始3D模型上具有最大网络设计总结。在我们的实验中，fK（I），[1][2][3][4][5][6][7][8][9][10][11][12][13][14][15][16][17][18][19φγ集我们使用训练集来学习预测模块，以及验证集以学习姿势回归模块的超参数。我们已经尝试使用一个训练集来训练然而，训练集和测试集上的预测分布之间的差异导致次优的泛化性能。3.2. 混合表示本节介绍HybridPose中使用的三种中间关键点。第一中间表示由已广泛用于姿态估计的关键点给定输入图像I，我们训练一个神经网络fK（I）∈R2×| K|为了预测预定义的一组图像的2D坐标，|K|关键点在我们的实验中，HybridPose结合了一种名为PVNet [34]的现成架构，这是最先进的基于关键点的姿态估计器它采用投票方案来预测可见和不可见的关键点。除了预测关键点中的离群值之外，基于关键点的技术的另一个限制是，当不同的实现细节在4.1节中讨论。火车-在除了最后一个卷积层之外的所有卷积层上共享可用参数因此，引入边缘预测网络fE（I）和对称预测网络fS的开销是微不足道的。3.3. 姿势回归HybridPose的第二模块将预测的中间表示{K，E，S}作为输入，并输出输入图像I的6D对象姿态（RI∈SO（3），tI∈R3）。类似于最先进的姿态回归方法[35]，HybridPose结合了初始化子模块和细化子模块。这两个子模块都利用了所有预测的元素。细化子模块另外利用鲁棒函数来对预测元素中的离群值进行建模。在下文中，我们将正则坐标系中的3D关键点坐标表示为pk，1≤k≤| K|.为了使符号整齐，我们表示第一个模块的输出，即，预测的关键点，边缘向量和对称对应关系，如pk∈R2，1≤k≤| K|，ve∈相邻关键点之间的方向和距离表征对象姿态的重要信息，R2，1 ≤ e ≤ |E|，且（qs，1∈R2，qs，2∈R2），1≤s≤|S|、精确的关键点预测导致大的姿态误差。分别我们的公式还使用了均匀的坐标pk∈R3，ve∈R3，qs，1∈R3和qs，2∈R3边缘. 第二个中间代表，它包含-沿着预定义的图的边向量的列表，显式地关于pk，ve，qs，1和qs，2分别齐次对每对关键点之间的位移进行如图 2 所示，HybridPose利用简单的网络f E（I）∈ R2×| E|预测2D图像平面中的边缘向量，其中|E|表示预定义图中的边的数目。在我们的实验中，E是一个全连接的图，即， |E|为|K|·（|K| −1）。对称对应。第三代中间代表--坐标由摄像机固有矩阵归一化。子模块。该子模块利用（Ri，ti）和预测元素之间的约束，并在仿射空间中求解（Ri，ti），然后以交替优化方式将其投影到SE（3）为此，我们为每种类型的预测元素引入以下差异向量sentation由预测的像素对称相关组成，KR，t（pk）：=pk×（Rpk+t），（1）反映潜在反射对称性的自发性在我们的实验中，HybridPose扩展了网络架构，ER，t（ve，pes）：=v×（Rpet+t）+pes ×（Rve）（2）FlowNet 2.0的结构[15]，它结合了密集的像素流和PVNet预测的语义掩码。的SR，t（qs，1，qs，2）：=（qs，1×qs，2）TRnr.（三）所得到的对称对应由掩模区域内的预测的逐像素流给出与前两种表示相比，对称对应的数量明显更多，即使对于遮挡对象也提供了丰富的约束然而，对称性对应仅约束对象姿态的旋转分量中的两个自由度（参见图1）。[24]）。有必要-将对称对应与其他元素结合起来其中es和et是边e的端点，ve=pet−pes∈R3，nr∈R3是正则系统中反射对称平面的法线HybridPose修改了EPRECT [18]的框架以生成初始姿势。通过结合预测元素的这三个约束，我们生成形式为Ax = 0的线性系统，其中A是矩阵，其维数为（3|K|+3|E|+|S|） ×12。x=[rT ，rT ，rT ，tT]T是1 2 3 12×1中间表示。包含旋转和平移参数的向量，RRR435R，tR，tΣkR，tR，tΣeFi=1我1我我我仿射空间为了对关键点、边缘向量和对称对应之间的相对重要性进行建模，我们分别通过超参数αE和αS来重新缩放（2）和（3），用于姿态细化的优化问题：Σ|K|有效地，生成A.根据EPR01 [18]，我们计算x为：minR，tρ（λrKk=1（pk），βK）rK（pk）2ΣNx=γivi （4）| Σ|E|E|+ |E|e=1Σ|S|ρ（ve）ε，βE）ε（ve）i=1其中vi是A的第i个最小右奇异向量。伊代-|K|+|S| s=1SR，t（qs，1，qs，2），βS）（9）当预测元素无噪声时，N= 1，x=v1是最优解。然而，这种策略在噪声预测下表现不佳与EP10 [18]相同，我们选择N= 4。为了计算最优x，我们优化其中，βK、βE和βS是独立的超参数，关键点、边和对称对应。kk和ke表示附加到关键点和边缘预测的协方差信息。xA=（xAx）2。当在具有以下目标函数的交替优化过程中的潜在变量γi和旋转矩阵RΣ4预测的协方差不可用，我们简单地设置Ik=Ie=I2。上述优化问题通过高斯-牛顿法从Rinit和tinit开始求解。在supp。材料，我们提供了稳定性分析，最小值R∈R3×3，γii=1γiRi−R2（五）(9), and show how the optimal solution of (9) changes with关于预测表示中的噪声。我们还显示了所有三个中间代表之间的合作力量其中Ri∈R3×3是由Vi的前9个元素整形而成。在得到最优的γi 后，我们投影所得到的仿射变换，4γiRi转化为刚性transfor-mation 由于篇幅所限，我们将把详情留待公告补充材料精炼子模块。虽然（5）结合了混合中间表示并允许良好的初始化，句子而关键点对t的精度有显著贡献，边缘向量和对称对应可以稳定R的回归。3.4. HybridPose训练本节描述如何使用标记数据集T={I，（Kgt，Egt，Sgt，（Rgt，tgt））}训练HybridPose的预测网络和超参数。与我，Kgt，它不直接对预测元素中的异常值进行另一个限制来自（1）和（2），它们不Egt，Sgt我我我我我，以及（Rgt，tgt），我们表示RGB图像，标记为最小化投影误差（即，相对于关键点和边缘），已知其在基于关键点的姿态估计中是有效的（c.f. [35]）。得益于具有一个初始对象pose（Rinit，tinit），细化子模块执行局部优化以细化对象姿态。我们引入了两个涉及投影误差的差向量：k，e，s，关键点、边、对称对应和背景-真值对象姿势。一种流行的策略是端到端地训练整个模型，例如，使用递归网络对优化过程建模，并在对象姿态输出以及中间表示上引入损失项。然而，我们发现这种策略是次优的. 预测元素在训练集和测试集上的分布不同即使通过仔细调整对预测电子设备的监督之间的权衡，KR，tRE（pk）：=PR，t（pk）-pk，（6）（ve）：=PR，t（pe）− PR，t（pe）−ve，（7）在测试中，拟合训练数据的姿势回归模型的泛化能力很差R，T，T，S其中PR，t：R3→R2是从当前姿势（R，t）导出的投影算子。为了删除预测元素中的异常值，我们考虑了广义German-Mcclure（或GM）鲁棒函数数据我们的方法随机将标记集T=TtrainTval分为训练集和验证集。Ttrain用于训练预测网络，Tval用于训练姿态回归模型的超参数。预测网络的实现和训练细节见第4.1节。下面我们重点关注ρ（x，β）：=β2/（β2+x2）。（八）使用Tval训练超参数。initρ（rR436我12子模块。设R为init，t为成为出局者-通过此设置，HybridPose解决了以下非线性问题初始化子模块的put。我们得到了最优的超参数αE和αS，通过求解以下优化问题，我437c2002年c2002年cθ φγ混合化问题：Σ。Σ通过最远点采样算法对关键点进行采样。边缘向量被定义为连接每对键的向量，minRinit−Rgt+tinit−tgt2.（十）点总的来说，每个对象都有|E|为|K|·（|K| −1） = 28αE、αS我I∈T姿态我FII2边缘. 我们进一步使用[8]中提出的算法来anno-带反射对称的由于超参数的数量相当少，姿态初始化步骤不允许显式表达，我们使用有限差分方法来计算数值梯度，即，通过将梯度拟合到当前解周围的超参数的样本然后，我们应用回溯线搜索优化。精炼子模块。设β={βK，βE，βS}是这个子模的超参数。为每个实例（I，（Kgt，Egt，Sgt，（Rgt，tgt）∈Tval，表示对象-测量标签。在每个数据集上，我们随机选择80%的示例进行训练，20个示例进行验证，其余的用于测试。实作详细数据。我们使用 ResNet [11] 和ImageNet [7]上的预训练权重来构建预测网络f K，f E和f S。预测网络将大小为（3，H，W）的RGB图像I作为输入，并输出大小为（C，H，W）的十元，其中（H，W）是图像分辨率。我我在（9）中的函数为fI（c，β），其中c=（cT，cT）T∈C = 1 + 2| K|+2| E|+2是通道数在输出张量中。R6是R1和ti的局部参数化，即，RI= exp（c×）Rgt，tI=tgt+c.c编码不同的cur-输出张量中的第一个通道是二进制段，I Itation maskM.如果M（x，y）= 1，则（x，y）对应于在SE（3）中租赁估计姿态和地面实况姿态。精化模块求解无约束优化问题，其最优解由其临界点和临界点周围的损失面决定。我们考虑两个简单的目标。第一个客观力是fI（0，β）=0，或者换句话说，地面实况近似是一个临界点. 第二个Ob-jective最小化条件数κ（2fI（0，β））=输入图像I中的感兴趣对象上的像素。使用交叉熵损失训练分割掩码。的2| K|输出张量中的通道之后给出所有|K|关键点基于投票的关键点定位方案[34]被应用于从这2个关键点中提取2D关键点的坐标。|K|- 通道张量和分割掩模M。.Σ。2002年c未来2| E|输出张量中的通道给出x和λmaxλ2fI（0，β）/λminfI（0，β）. 这一目标的实现--所有的y分量|E|边，我们将其表示为边。设i（0≤i<|E|）是边的索引。然后在每个最优解周围的损失面，从而使fI（c，β）有较大的收敛半径。通过这种设置，我们制定了以下目标函数来优化β：边i = {（边（2i，x，y），边（2i+ 1，x，y））|M（x，y）= 1}是一组2元组，其中包含边中的第i个边向量。提取边缘i的均值minβΣI∈Tval埃克塞特夫岛c（0，β）α2.2002fI+γκB2c（0，β）（十一）作为预测的边缘。输出张量中的最后2个通道定义x和对称对应的y分量。我们-其中γ被设置为10−4。然后将（10）中使用的相同策略应用于优化（11）。4. 实验评价本节提出了一个实验评估所提出的方法。第4.1节描述了实验设置。第 4.2 节定量和定性地比较了HybridPose与其他6D姿态估计方法。第4.3节介绍了消融研究，以调查对称对应、边缘向量和细化子模块的有效性。4.1. 实验装置数据集。我们考虑两个广泛用于6D姿态估计问题的流行基准数据集， Linemod [12] 和 Occlusion Linemod[3]。与Linemod相比，遮挡Linemod包含更多对象处于遮挡状态的示例。我们的关键点注释策略遵循[34]，即，我们选择|K|= 8将该对称对应的2通道令（x，y）为输入图像中感兴趣对象上的像素，即M（x，y）= 1。假设当n=Sym（0，x，y）和n=Sym（1，x，y）时，我们认为（x，y）和（x+ n =x，y+ n=y）关于反射对称平面对称。我们使用[9]中描述的平滑损失来训练所有三个中间表示。网络训练使用 Adam [17] 优化器进行 500 个epoch。学习率在第200个时期之前为0.02，在第200个时期之后为0.002。分割掩码、关键点、边缘向量和对称对应的训练权重分别为1.0、10.0、0.1和0.1。上述架构在检测精度方面实现了良好的性能。然而，应该强调的是，HybridPose的框架可以结合关键点、边缘矢量和对称对应检测技术的未来改进此外，Hybridpose还可以扩展到处理图像中的多个对象。一种方法是预先-438GT2DI我(a) 猿罐头猫胶鸭蛋盒输入预测关键点预测边缘向量预测对称性预测的姿态图3. 姿势回归结果。HybridPose能够从RGB图像中准确预测6D姿势。HybridPose处理对象没有遮挡（a、d、f、h）、轻度遮挡（b、c）和严重遮挡（e、g）的情况。为了说明的目的，我们在每个示例中仅绘制通过Mask R-CNN [10]等方法进行dict实例级而不是语义级分割掩码然后从每个实例中提取中间表示，并将其馈送到3.3中的姿态回归模块。评估方案。我们使用两个指标来评估HybridPose的性能：1. ADD（-S）[12，42]首先计算分别由预测姿态和地面实况姿态变换的两个点集之间的距离，然后提取平均距离。当物体具有对称姿态模糊性时，从两个变换集之间的最近点计算平均距离。ADD（-S）精度定义为计算的平均距离小于模型直径的10%的示例的百分比。2. 在消融研究中，我们计算并报告了-log（RTRI）角旋转误差和相对平移预测位姿（R，t）和地面实况位姿（Rgt，tgt）之间的误差Δ t I −t gt Δ，其中d是物体直径。4.2. 结果分析如表1、表2和图3所示，HybridPose可实现精确的姿态估计。在 Linemod 和 Occlu- sion Linemod 上，HybridPose的平均ADD（-S）精度分别为94.5和79.2。Linemod的结果优于所有最先进的方法，对象Tekin BB8 Pix2Pose PVNet CDPN DPOD 我们猿21.6 40.458.143.664.487.777.6使变平81.8 91.891.099.997.898.599.6凸轮36.6 55.760.986.991.796.195.9可以68.8 64.184.495.595.999.793.6猫41.8 62.665.079.383.894.793.5司钻63.5 74.476.396.496.298.897.2鸭27.2 44.343.852.666.886.387.0蛋盒†69.6 57.896.899.299.799.999.6胶水†80.0 41.279.495.799.696.898.7穿孔器42.6 67.274.881.985.886.992.5铁75.0 84.783.498.997.9100.098.1灯71.1 76.582.099.397.996.896.9电话47.7 54.045.092.490.894.798.3平均56.0 62.772.486.389.995.294.5表1. 定量评价：线模上的ADD（-S）精度。基准方法：Tekin等人[38]，BB8 [36]，Pix2Pose [30]，PVNet [34]，CDPN [20]和DPOD [44]。用⑴注释的对象具有对称姿态模糊性。从中间表示中回归姿势。闭塞线模的结果优于所有最先进的方法。Linemod的基线比较。HybridPose优于PVNet [34]，这是我们用于预测关键点的主干模型。这种改进在所有对象类中是一致的，除了一个对象类，这表明使用混合表示相对于单一的中间表示具有明显的HybridPose显示出与439对象PoseCNN Oberweger胡Pix2Pose PVNet DPOD 我们猿9.612.117.622.015.8-53.3可以45.239.953.944.763.3-86.5猫0.938.23.322.716.7-73.4司钻41.445.262.444.765.7-92.8鸭19.617.219.215.025.2-62.8蛋盒†22.022.125.925.250.2-95.3胶水†38.535.839.632.449.6-92.5穿孔器22.136.021.349.539.7-76.7平均24.927.027.032.040.847.379.2表2. 定量评价：Occlu上的ADD（-S）精度-Sion Linemod 。基准方法： PoseCNN [42] ， Oberweger etal.[29]，Hu et al.[14]，PVNet [34]和DPOD [44]。用⑴注释的对象具有对称姿态模糊性。DPOD [44]，在六个对象类上获胜。DPOD的优势来自于数据增强和输入和投影图像之间密集对应的显式建模详细的分析表明，HybridPose表现出次优性能的对象类别是Linemod中最小的对象之一。它表明，在我们的管道中使用的基于像素的描述符受到图像分辨率的限制。闭塞线模式的基线比较。 Hybrid- Pose的表现远远优于所有基线在ADD（-S）方面，我们的方法将PVNet[34]从40.8 到 79.2 ，表示94.1% 的增强，这清楚地示出了HybridPose在被遮挡对象上的优势，其中不可见关键点的预测可能是有噪声的，并且可见关键点可能无法单独为姿势回归提供足够HybridPose也比DPOD（该数据集上的最先进模型）高出67.4%。一种解释是，基于渲染的方法如DPOD在被遮挡对象上工作得不太好，这是由于在数据增强和对应计算中难以建模遮挡。运行时间。在配备16核英特尔（R）至强（R）E5-2637 CPU和GeForce GTX 1080 GPU的台式机上，bridPose需要0.6秒来预测中间表示，0.4秒来回归姿势。假设批量大小为30，则平均处理速度约为30 fps，从而实现实时分析。4.3. 消融研究表3总结了HybridPose在Occlusion Linemod数据集上使用不同预测中间表示的性能。Linemod上的消融研究推迟到Supp。材料关键点。作为一种基线方法，我们只利用关键点信息来估计对象的姿态如表3所示，平均绝对旋转误差为1.648°，平均相对平移误差为0.100。关键点和对称性。添加对称对应的关键点导致旋转显着的性能增益。相对性能增益为3.52%，表3. 用不同的中间表示进行定量评价。我们使用两个指标报告错误：旋转中的绝对角误差的中值和相对于物体直径的平移中的相对误差的中值。并且这种改进在所有对象类别中几乎是一致的，这证明了对称对应的有效性另一方面，使用关键点和使用关键点+对称的转换误差几乎相同。一种解释是对称对应仅约束总共三个旋转参数中的两个自由度，并且不提供对平移参数的约束（参见（3））。全模型。将边缘向量添加到关键点和对称对应关系导致旋转和平移估计两者的显著性能增益旋转和平移的相对性能增益分别为25.85%和25.85%。44.12%。一种解释是边缘向量对平移和旋转提供了更多的约束（参见（2））。边缘向量比关键点提供更多的平移约束，因为它们表示相邻的关键点位移并为回归提供梯度信息。与对称对应不同，边缘向量约束旋转参数的3个自由度，这进一步提高了旋转估计的性能。5. 结论和未来工作在本文中，我们介绍HybridPose，一种利用关键点、边缘向量和对称对应的6D姿态估计方法。实验结果表明，Hy-bridPose具有较好的实时性和准确性，优于当前最先进的姿态估计方法。HybridPose对遮挡和极端姿势具有鲁棒性在未来，我们计划扩展HybridPose，以包括更多的中间表示，如形状图元，法线和平面。另一个可能的方向是以类似于[46]的方式在不同的表示中强制一致性，作为网络训练中的自我监督损失。6. 确认我们要感谢NSF DMS-1700234对这项研究的支持，Snap研究的礼物，以及NVIDIA的硬件捐赠。关键点关键点+对称性完整模型腐译腐译腐译猿1.914° 0.1071.809度0.1131.543° 0.092可以1.472° 0.0591.710°0.0730.912° 0.041猫1.039度0.1190.888度0.1170.751° 0.055司钻1.180° 0.0571.180°0.0570.803° 0.027鸭1.773° 0.1161.679°0.1151.439° 0.068蛋盒1.675° 0.1071.587°0.1051.052度0.052胶1.796度0.0971.681°0.0991.224° 0.066440引用[1] 吉姆河Atadjanov和Seungkyu Lee。利用结构描述子的出现进行反射在 Computer Vision-ECCV 2016 - 14thEuropean Conference，Ambassador，The Netherlands，October 11-14，2016，Proceedings，Part III，pages 32[2] Gedas Bertasius ， Jianbo Shi ， and Lorenzo Torresani.Deepedge：一个多尺度分叉深度网络，用于自上而下的轮廓检测。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition ， pages 4380-4389，2015中。2[3] Eric Brachmann、Alexander Krull、Frank Michel、StefanGumhold、Jamie Shotton和Carsten Rother。使用3d对象坐标学习6d对象姿态估计。在欧洲计算机视觉会议上，第536Springer，2014. 一、二、六[4] Eric Brachmann ， Frank Michel ， Alexander Krull ，Michael Ying Yang，Stefan Gumhold，et al.从单幅rgb图像估计物体和场景的不确定性驱动的6d姿态。在IEEE计算机视觉和模式识别会议论文集，第3364-3372页，2016年。2[5] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。使用部分仿射场的实时多人2d姿态估计。在2017年IEEE计算机视觉和模式识别会议上，CVPR 2017，檀香山，HI，美国，2017年日，第1302-1310页2[6] 恩里克·科罗纳，考斯塔夫·昆杜，桑娅·菲德勒。旋转对称物体的姿态估计。2018年IEEE/RSJ智能机器人和系统国际会议（IROS），第7215-7222页。IEEE，2018年。3[7] J. Deng，W.东河，巴西-地索赫尔湖李凯李飞飞。Imagenet：一个大规模的分层图像数据库。 2009年IEEE计算机视觉和模式识别会议，第248-255页，2009年6月。6[8] 亚历山大·埃金斯，科妮莉亚·费尔·穆勒，还有扬尼斯·阿尔·奥莫诺斯.看到幕后：在杂乱的环境中使用对称性来推理物体。2018年IEEE/RSJ智能机器人和系统国际会议（IROS），第7193-7200页。IEEE，2018年。6[9] 罗斯·格希克。快速R-CNN。2015年IEEE国际计算机视觉会议（ICCV），2015年12月。6[10] 何凯明、乔治亚·吉克萨里、彼得·多勒和罗斯·吉尔希克。面具R-CNN。2017年IEEE计算机视觉国际会议（ICCV），2017年10月。7[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习arXiv预印本arXiv：1512.03385，2015。四、六[12] Stefan Hinterstoisser，Vincent Lepetit，Slobodan Ilic，Ste- fan Holzer ， Gary Bradski ， Kurt Konolige ， andNassir Navab.基于模型的训练，检测和姿态估计无纹理三维物体在严重混乱的场景。第11届亚洲计算机视觉- 第I卷，ACCV'12，第548-562页，柏林，海德堡，2013年。史普林格出版社二六七[13] 魏宏，艾伦杨杨，黄坤，马毅。关于对称和多视图几何体：从单个图像中获取结构、姿态和校准。International Journal of Computer Vision，60（3）：241-265，2004。2[14] 胡因林、约阿希

下载后可阅读完整内容，剩余1页未读，立即下载