基于RNN的鲁棒物体姿态估计与优化

100 浏览量更新于2023-10-25 收藏 1.07MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

14880对应场估计RNNPose：具有鲁棒对应场估计和位姿优化的徐燕1林君怡1张国锋2王晓刚1李洪生11香港中文大学2浙江大学CAD/CG国家重点实验室摘要6-从单目图像估计DoF对象姿态是具有挑战性的，并且通常需要后细化过程以进行高精度估计。在本文中，我们提出了一个框架的基础上的递归神经网络（RNN）的对象姿态细化，这是鲁棒的错误，(a)观察到的图像渲染对象参考图像（渲染）目标图像（观察）2新的初始姿势和遮挡。在循环迭代期间，对象姿态细化被公式化为非LM Optim.相似性评分图估计的通信字段��2位导对应域��（线性最小二乘问题的基础上估计的核心，响应场（在渲染图像和观察图像之间）。然后，通过可重构Levenberg-Marquardt（LM）算法解决该问题，(c)姿势结果（显示为绿色蒙版）优化的位置和��位置调整(b)循环姿势优化循环迭代结束训练。在每次迭代中交替进行对应场估计和位姿细化，以恢复对象位姿。此外，为了提高对遮挡的鲁棒性，我们引入了基于3D模型的学习描述符和观察到的2D图像的一致性检查机制，其在姿态优化期间降低了不可靠的对应关系。在 LINEMOD 、 Occlusion-LINEMOD和YCB-Video数据集上的大量实验验证了该方法的有效性，并展示了最先进的性能。1. 介绍6自由度物体姿态估计在各种应用中至关重要，包括增强现实、机器人操作和自动驾驶。受光照和遮挡的影响，不同姿态的物体在不同视角下的外观会有很大差异，这对从单色图像中进行6自由度物体姿态估计提出了很大的挑战最近表现最好的方法[23，27，41，52，58]包括姿态细化过程，其实质上提高了性能。这些框架中的一些[41，52]依赖于深度传感器并使用ICP算法[2]来细化姿态。为了避免昂贵的深度传感器，Li等人。[23]Manhardtet al. [27]开创了基于RGB的姿势细化。在细化期间，这些方法首先根据粗略姿态估计来渲染参考彩色图像。这幅渲染的图像，K. Lin和H.李先生为共同通讯作者。图1.基本的想法。(a)在细化之前，参考图像根据对象的初始姿态（在融合视图中示出）来渲染。(b)我们的基于RNN的框架基于参考图像和目标图像之间的估计的对应字段来递归地细化对象姿态通过可微LM优化，将姿态优化为与由相似性得分图（从学习的3D-2D描述符构建）突出显示的可靠对应性估计一致。(c)输出细化的姿势。然后将观察到的图像馈送到CNN以直接预测用于细化粗略姿态的残余姿态[23，27，58]。虽然这些方法在基于大量训练数据的理想场景中表现良好，但姿势回归在实践中变得不太稳定。最近，Iwaseet al. [20]将对象姿态细化公式化为基于特征对齐的优化问题，并报告了显著的性能改进。在他们的工作中，通过神经网络将3D模型的编码特征投影到2D图像平面根据姿态参数。之后，通过将投影特征与观察到的目标图像特征对准来进行姿态优化。由于姿态优化取决于像素级特征差异的梯度，因此基于特征对齐的方法仅适用于小的帧间姿态变化[57]，并且对于错误的初始姿态不太鲁棒。此外，Iwaseet al. [20]仍然具有有限的闭塞处理设计，这可能会限制部署范围。在这项工作中，我们提出了一个经常性的对象姿态优化框架，被称为RNNPose，这是鲁棒的错误的初始姿态和闭塞。整体管道重新渲染通信现场整改14881M如图1所示。在细化之前，根据初始姿态估计渲染对象的参考图像。我们的细化模块根据这个渲染图像和观察到的图像来细化初始姿势。为了增加对错误初始姿态的容忍度，我们的改进是在递归框架内进行的，其中姿态优化被制定为基于估计的对应场的非线性最在每次递归迭代中，估计渲染图像和观察图像之间的密集对应，然后优化对象姿态以与对应场估计一致。我们的对应性估计的架构受到最近的光流估计技术[39，44]的启发，该技术与我们的姿势优化循环集成为了适合我们的任务，其中未图案化的对象和照明变化是普遍存在的，我们还包括基于当前优化的姿态的每个循环迭代中的对应场校正步骤。通过强制刚性变换约束来纠正不一致的对应关系。校正后的对应场也被用来初始化下一个递归迭代，以进一步提高鲁棒性。对于遮挡处理，我们引入了3D-2D混合使用对比损失训练的网络，其为3D对象模型和观察到的2D图像生成不同的逐点描述符。基于学习的描述符为每个估计的对应对构造相似性得分，利用该相似性得分在姿态优化期间降低不可靠姿势优化通过可微Levenberg-Marquardt（LM）算法（共享[42，43]的思想）进行端到端训练。我们的贡献是三方面的：1）我们提出了一个基于RNN的6-DoF姿态细化框架，该框架对大的初始姿态误差和遮挡具有鲁棒性。在当前迭代期间，基于估计的对应场将姿态优化公式化为非线性最小二乘问题。同时，对应字段也通过优化的姿势进行校正和改进以获得鲁棒性。2)为了处理遮挡，引入3D-2D混合网络来学习逐点描述符，该逐点描述符用于在姿态优化期间降低不可靠的对应估计的权重。3)我们在LINEMOD、Occlusion LINEMOD和YCB-Video数据集上实现了最先进的性能。我们的代码在https://github.com/DecaYale/RNNPose 上公开。2. 相关工作6-DoF对象姿态估计。6-DoF对象姿态估计系统（通常在对象检测器之后[5，11，28，47，54-近年来，深度学习的蓬勃发展显着改善了物体姿态估计。提出了一些方法，以直接从单目彩色图像[7，16，21，24，51，52]或借助深度传感器回归物体姿态。sors [13，49，50].他们利用CNN的回归能力将观察到的图像直接映射到物体的姿态。最近，基于对应的方法[6，15，33他们采用CNN为每个观察到的对象像素估计相应的3D模型点，然后用PSNR求解姿势[10]。这些方法可以估计对象最近，EPOS [15]提出通过将3D模型分割成面片并估计面片中心来处理对称对象。当存在变化的照明和遮挡时，上述直接对象姿态估计方法通常变得不太稳定。因此，几种方法[20，23，27，41，52，58]基于上述估计的粗略初始姿态进行姿态细化，这实现了显著的性能增益。其中一些方法[41，52]依赖于来自昂贵传感器的深度数据，并利用ICP将已知对象模型与观察到的深度图像对齐。而[23，27，58]首先根据初始姿态渲染2D对象图像，然后通过CNN将渲染图像与观察图像进行比较，以估计残余姿态。这些基于RGB的方法由于其经济性而特别有吸引力。然而，这些方法中的大多数需要大量的训练数据，并且在实际场景中不是很鲁棒。此外，他们需要一个繁琐的CNN来进行姿势回归，这牺牲了效率。Iwase等人[20]提出通过重用CNN提取的图像特征来缓解这种困境，并实现实时处理。具体地说，他们采用CNN作为图像特征编码器，在此基础上制定非线性优化问题，以对齐来自推理和目标图像的特征，用于BA-Net [42]启发的姿势细化虽然有效，但是它们的公式化建立在跨参考图像和目标图像的重叠对象区域上，因此其可能在错误的初始姿态输入的情况下不太稳定。以前的工作[1]提出了基于对应关系来细化姿态，但他们的方法仍然限于理想场景。非线性至少小二乘优化有着深厚学习非线性最小二乘优化算法，如Gauss-Newton [30]和Levenberg-Marquardt [31]，由于其高效和有效的性质，广泛用于计算机视觉[17，25，32，53最近，优化算法本身的可微性已经得到了广泛的研究，并且一些工作[37，42，43，48]已经在定位系统和视觉SLAM的网络训练期间包括这些启发了我们的制定对象姿态细化。3. 方法给定观察到的对象图像Iobs、初始对象姿态估计Pinit和对象的CAD模型作为输入，6-DoF姿态细化系统旨在进一步改进对象姿态估计。在本文中，我们提出了一种经常性的姿态细化方法，称为RNNPose，14882输入输出图像特征编码的位姿细化本地校正初始姿态2D Feat.编码器渲染引用共享H1×W1日本语简体中文W1卷数H1W1本地窗口大小更正的通信菲耶尔·德马约尔��通信现场整改图像处理，怀斯-怀斯2D Feat.编码器成对校正224D全局相关体积康卡特RecurrentIterations�� =�� 观察到的目标图像H2× W2ℎ��−1GRUℎ��可微LM优化模板CAD模型顶点3D上下文编码器顶点特征初始姿态渲染上下文特征最小值=arg��对应2M姿势衍生�� −1ℳ3D上下文特征编码网站地图��=��场估计�� 对应域��（图2.所提出方法的概述对于姿态细化，利用对象CAD模型及其初始姿态Pinit来渲染参考图像Iref。图像特征编码模块将渲染图像Iref和观察图像Iobs编码为特征图并构建4D全局相关体积。并行地，3D上下文特征编码模块编码3D模型几何形状，并且根据初始姿态估计将3D特征渲染到2D上下文特征图Fctx。在姿势细化期间，对应字段在一个递归框架中交替估计C_（？）t和剩余位姿δP_（？） t。在LM姿态优化之后，通过用当前优化的姿态δP t强制刚性变换约束，将估计Ct校正为Ct′，以进一步改善下一次迭代估计。在N次循环迭代之后，利用当前姿态估计来重新渲染参考图像Iref其对于错误的初始姿态和遮挡是鲁棒的我们的方法是基于一个渲染管道，并可能有几个渲染周期，如图所示二、在第一渲染周期开始时，参考图像Iref根据其初始姿态P init（通过任何直接方法[ 34，52 ]估计）用对象的CAD模型渲染然后，渲染的参考图像、观察到的目标图像和CAD模型的顶点被编码为高维特征，其将用于在后续姿态细化模块中估计（渲染图像和观察到的图像之间的）对应关系。姿态细化模块构成了我们的主要贡献，在那里我们制定了一个基于对应估计的优化问题。我们将correspondence场估计和构成细化到一个经常性的框架的鲁棒性和效率。为了处理遮挡，我们使用3D-2D混合网络为3D对象模型和观察到的图像生成逐点的独特描述符，从而在姿态优化期间降低不可靠的对应性。在每几次循环迭代之后，参考图像Iref用当前优化的姿态重新渲染，以减小到下一个周期的目标的姿态在随后的小节中，我们将详细介绍特征提取（第3.1），经常性的姿势细化（第3.1节）。3.2），以及训练的损失函数（第3.2节）。3.3）。3.1. 2D-3D特征编码和渲染渲染的参考图像Iref和观察的目标图像Iobs首先需要被编码到高维特征图Fref和Fobs 中以用于后续特征校正。[9，18，19，39，44]. 相关体编码图像像素之间的外观相似性，这是必不可少的对应推理。在我们的工作中，我们采用几个残差块[12]进行图像特征编码，并计算编码特征的成对相关性以创建全局相关体积。全局相关体积将被频繁查询以用于后续姿态细化模块中的对应场估计。除了成对相关体积之外，流行的密集对应估计方法还结合参考图像的上下文特征以用于指导。如图2所示，为了更好地编码几何上下文，与先前编码来自2D图像的上下文特征的方法不同，我们使用基于KPConv的3D上下文特征编码器直接编码来自3D对象点云的特征[46]。逐点几何特征然后根据初始对象姿态估计被渲染为2D上下文特征图Fctx。在这里，我们采用了一个可扩展的渲染器[36]进行特征渲染，以实现几何特征学习。我们根据经验发现，从点云中编码此外，每个对象模型只需要提取一次顶点特征，并在训练后存档用于推理，这是非常有效的。3.2. 递归对应场估计与6自由度位姿细化基于构造的相关体和编码的上下文特征，我们提出了一个6自由度的目标位姿细化系统，可微渲染器渲染器��=��渲染周期14883∈≈··∈MΣ我作为一个循环的框架。对应场估计和位姿优化相互依赖，并不断改进，以实现鲁棒的位姿细化。基本流水线在图1中的姿态细化模块中示出。二、3.2.1对应场估计对于对应场估计，我们采用类似于RAFT [44]的网络架构，但进行了重大修改以适合我们的任务，即，包括3D上下文特征编码（Sec. 3.1）和通信纠正（第3.2.2）。在每次循环迭代开始时，对于参考图像的每个像素，我们首先查找并收集（从全局相关体积）其与目标图像中的候选像素的相关值。候选像素在以来自先前迭代的估计对应性为中心的正方形局部窗口内。然后将收集的相关性重新整形为与参考图像空间对齐的局部相关性体积（2D图）。在第一次迭代中，我们使用全零对应字段来引导相关候选日期识别，而在后面的迭代中，校正的对应字段（将在第2节中详细说明）3.2.2）使用。在相关性查找之后，收集的局部匹配体积、校正的对应字段和预匹配编码的上下文特征图Fctx被连接作为GRU网络的输入以估计对应性域C*t，用于当前（第t次）递归迭代。3.2.26-自由度姿态优化基本配方。给定参考图像（具有深度图）和目标图像，可以基于地面实况残余姿态δPgt逐点地导出参考图像的地面实况对应场：C（xi;δPgt）=π（δPgtπ−1（xi，zi）），（1）其中C（xi;δPgt）R2表示点xi的地面实况对应场值，并且 zi表示相关的渲染深度值。这里，π（）和π−1（;zi）是针孔相机模型的投影（3D到2D）和逆投影（2D到3D）函数为了估计剩余姿态，我们将由G R U估计的对应场C_（？） t作为其地面实况的近似，即。例如，（xi）C（xi;δPgt），并推动由姿态变元δP导出的对应场，即，C（xi;δP），接近GRU以这种方式，残余姿态参数δP将在优化之后近似于地面实况δPgt具体公式是一个非线性最小二乘问题，目标函数表示为校正前/校正后的对应估计相关窗口图3.利用校正的对应关系，相关的局部相关窗口相应地被移位到更好的位置，这改善了下一次递归迭代中的估计。其中，在优化期间，残余姿态变元δP被参数化为其（相关联的李代数的）最小表示形式ε（3）。是第t次递归迭代的GRU估计渲染参考图像中的对象点的数量。用相似性分数处理不可靠的对应关系。公式Eq.公式（2）是基于不切实际的假设，即对应场C_t可以针对所有前景区域被可靠地估计，考虑到普遍存在的遮挡，这是极其困难的。我们还建议在姿势优化过程中引入一致性检查机制来对C语言中的不可靠值为了对估计对应性的可靠性进行建模，一种选择是采用前向和后向一致性检查[26，29]。然而，双向一致性检查使计算成本加倍，并且渲染图像和真实图像之间的主要差距增加了学习难度。因此，我们提出了一个基于指针的一致性检查，以减轻困境。其基本思想是通过3D-2D混合网络（以KPConvs [46]和关键点描述网[8]为骨干）将3D对象模型和观察到的2D目标图像表表示为两组逐点不同的描述符对象模型和对象图像的对应描述符被强制为相似的，而不对应的描述符被强制为不相似的（通过使用在第2.1.1节中描述的对比描述符损失函数3.3）。学习的3D模型描述符根据用于快速索引的参考图像的对象姿态被渲染为2D特征图，表示为DM编码的目标图像描述符映射表被表示为DI。利用这些高维特征描述子，对于每个估计的对应对（xi，Ct（xi）），我们根据它们关联的3D和2D描述符（di，di）。Di和di这里是从上面的desMcriptI或mappMs中收集的：di=IMME（）=（Cti=1（xi）−C（xi;））T（Ct（xi）−C（xi;）），（二）DM（xi）和di=DI（Ct（xi）），其中双线性插值可应用于非整数对应坐标。建立了该对应对的可靠性模型带整流无整流参考图像（渲染）目标图像（观察）148840wiΣ∈△{|}{|}Σ∂ξ−← △◦∈L∈{}MJ.Σd∈fg（Iobs）{dM}+相似度评分：Eq.（3）对对应域进行作为C′（x）=π（δP<$π−1（x;z）），基于当前操作，.|1 −iT我|特鲁姆特wi=exp−dMdIσ、（3）最优姿态δPt.校正加强了对应域之间的刚性变换约束，提高了对应域的整体对应质量。其中σ是调整锐度的可学习参数（初始化为1）。相似性分数被用作等式中的马氏距离测量的权重。（2），其在优化期间有效地降低不可靠的对应的权重。通过引入对角线加权矩阵wi=wi0，等式1的加权版本。（2）写为在下面的循环迭代中进行相关体积查找。为了更好地理解，图3中示出了玩具示例。对象姿态估计更新。在每N次重复迭代之后，通过RNN将残余位姿估计为δP<$ N。我们用估计的残余姿态δP<$ N更新对象姿态估计为P<$δP<$ NPini t，并且我们ME（）=（Ci=1t（xi）−C（xi;））Twi（Ct（xi）− C（xi;n））。（四）基于该更新的参考图像I ref来重新渲染参考图像Iref姿势开始下一个N-递归迭代细化，如图所二、我们将N次递归迭代细化称为渲染周期，并且初始姿态P初始化为姿态优化因此被公式化为：E=arg minE（E），（5）ξ其中，通过最小化由等式（1）定义的目标函数来优化姿态参数α（3）（四）、可微剩余位姿优化。我们解决了非线性最小二乘问题（方程。（5））用LM算法。对于t中的优化-在第六次循环迭代中，姿态参数用来自先前迭代的估计姿态来初始化，即，0=log g（δP从上一次LM迭代的参数p−1继续计算出因此，对于 n ∈ xt ， c∈ {\displaystyle c} 被设置为P∈{\displaystyle P}。性能和效率与不同的渲染周期和经常性的迭代将讨论在节。四点二。3.3. 损失函数模型对齐损失。监督剩余姿态估计δPtt=1。-是的-是的N在每个渲染周期（包括N次循环迭代）中生成，我们将这些残余姿态作为左乘增量应用于初始姿态Pinit，具有相应的对象姿态估计P=1。-是的-是的N，其中Pt=δP tPini t。因此，我们采用3D模型对齐损失来监督每个渲染周期的这些N△p=（J WJ+λI）−1JTWr（Wp−1），（6）Lma=||PtX模型−PgtX模型l||第1条，第（7）项t=1我们将参数更新为ξpp-1，接近最优解。这里，J=r是包含堆叠剩余向量r =（r1，r2，...， r2M）T（由等式（4）关于左乘增量。我们展开参数更新过程，并使LM优化层可区分，以实现端到端网络训练。可微优化过程增强了对应场估计的特征学习，这对于高性能是必不可少的。在LM优化之后，第t次递归迭代的残余姿态估计为：δP t=exp（exp），其中exp表示在使用等式（1）进行多次更新之后的优化参数。（六）、通信现场整改。错误的初始位姿通常会在绘制的参考对象和观察对象之间产生较大的偏移，这给对应性估计带来了挑战。此外，不像其中，Pgt 是上面提到的对象姿态估计，并且Pgt表示地面实况姿态。这里，X模型R4×M包含M个模型点的齐次坐标该损失函数鼓励姿态估计接近地面实况，使得变换的模型点可以很好地对准。通信丢失。我们采用L1损失[44]进行对应场监督，其中地面真实对应场由方程推导得出。（1）基于地面实况姿态。描述符丢失。我们使用圆损失cir[40]作为对比损失来监督3D对象模型和目标图像的逐点描述符学习，以进行相似性得分计算Eq.（三）、具体地，我们将目标图像IOb视为两个部分，即，前景区域（对象区域）表示为 fg （ IObs ），背景区域表示为 bg（IObs）。对于每个前景光流估计的标准场景[18，19，39，44]，描述符di我fg（Iobs），我们首先找到一组其对应的J无图案的物体和变化的照明在我们的任务中是普遍存在的，这进一步增加了难度。考虑到优化的姿态方程。（5）主要由与我们的权重的可靠对应估计基于KNN的物体模型三维描述子d+的提取搜索（详见补充资料）。然后，i被强制为类似于并且diIs类似于剩余的非对应描述符不14885L（d，bg（I ），fg（I ））循环计数IjK我 Σ我MJ我IMM猿罐猫钻鸭蛋盒胶水打孔器图4.我们的姿势估计（第一行）在遮挡LINEMOD数据集上的可视化和相似性得分图（第二行），用于在姿势优化期间降低不可靠对应的权重。对于姿态可视化，白色框表示错误的初始姿态，红色框由我们的算法估计，地面实况框为蓝色。在这里，用于姿态细化的初始姿态最初来自PVNet [34]，但添加了用于鲁棒性测试的显著干扰。{dk}−具有循环损失Lcir[40]，表示为Lci r（di，{d}+，{dk}-）. 更详细地说，为了了解背景情况，目标姿态估计该数据集包含在具有挑战性的illu-100变化捕获的杂乱场景中的无纹理对象。闭塞LINEMOD是一个子集我们将它们限制为相似的，彼此之间的距离越大，彼此之间的距离就越大。类似于前景描述符集合fg（IObs），I.遍历所有目标图像描述符di，描述符损失计算为我Ld=Lcir（d，{d}+，{d}−）的LINEMOD数据集的附加注释的闭塞对象，这是适合于测试的鲁棒性严重闭塞。此外，YCB-Video数据集包含YCB对象集[4]的图像，其中显示出强烈的遮挡和杂波。它包括超过110k的真实图像捕获的21个对象有或没有di∈fg（Iobs）+di∈bg（Iobs）IMMLcir（dI，bg（Iobs），fg（Iobs））（八）纹理我们在数据处理和合成数据生成方面遵循与以前的工作类似的惯例[20，34]。对于初始姿态，我们主要依赖PoseCNN [52]和PVNet [34]，这两种典型的直接估计方法如下：来监督描述符学习。通过对比学习，对应的2D-3D描述符将是相似的，而不对应的描述符将是不相似的，这为相似性得分Eq.（三）、4. 实验4.1. 实验装置实施详情。我们使用Adam [22]优化器以10 - 4的初始学习率训练所有网络端到端，并使用余弦退火策略对其进行调整。模型对准损失L ma和描述器损失L d的权重被设置为1，而对应损失权重被设置为0。五、在训练过程中，我们进行3个渲染周期，每个周期执行4次重复的优化迭代以进行姿势优化。我们所有的模型都被训练为与初始姿态源无关，其中受干扰的地面实况姿态被作为初始姿态用于以下训练[23]。对于测试，如果没有进一步的声明，我们进行与大多数实验详情请参阅补充资料。数据集。我们在三个数据集上评估了我们的方法，包括 LINEMOD [14] ， Occlusion LINEMOD [3] 和 YCB-Video [52]。LINEMOD是6D的标准基准[23][20]。我们还创建了一组非常错误的初始姿态，通过添加随机高斯噪声到原始的初始姿态估计，以评估大的初始姿态误差的鲁棒性。评估指标。我们使用度量ADD-（S）[14]和ADD（-S）的AUC [52]来评估我们的方法。对于ADD-（S）度量，计算利用姿态估计变换的模型点与地面实况对于标准ADD-（S）度量，如果平均距离小于模型直径的10%，则认为姿态估计是正确的。在我们的一些实验中，我们还测试了当阈值设置为模型直径的2%或5%时的性能，对于对称对象，平均距离基于最近点距离计算[14]。在对YCB-Video数据集进行评估时，我们还计算AUC（面积根据[52]，通过将距离阈值从0 cm变化到10 cm来测量ADD（-S）的曲线下）。4.2. 消融研究我们对LINEMOD和闭塞LINEMOD数据集进行了全面的消融研究，以评估我们框架中组件的有效性。通信现场监督。我们首先移除对应损失以验证对应场质量对位姿估计的影响。表1中的结果以来相似性评分图姿势可视化14886休止我们休止我们表1. (a)LINEMOD数据集上的消融研究。(b)使用ADD（-S）度量验证闭塞LINEMOD数据集上相似性评分的有效性为了更详细地比较，使用不同的ADD（-S）度量阈值进行评估。阈值分别设为模型直径的2%、5%和10%，分别表示为0.01d、0.05d、0.1d。（一）（a）（b）图5表2. 左：ADD（-S）精度，相对于在LINEMOD上不同的重现迭代和渲染周期。(a)基于PoseCNN初始姿态的结果[52]（ b ）基于受干扰的 PoseCNN 姿态的结果（高斯噪声σt=15cm，σr=10μ m）。右：单个模块的运行时分析我们的姿态优化直接基于对应场估计，对对应场估计的可靠监督对整个系统是必不可少的。姿势监督和端到端学习的有效性。我们通过将模型对准损失的权重Lma设置为0来进一步去除对姿态估计的监督。这等效于采用典型的不可微LM优化器，因为在训练期间没有梯度通过LM层反向传播。可以发现，仍然可以合理地估计对象姿态（在表1中表示为通过设置较小的阈值0.01d或0.05d。Per-1降级反映了端到端姿势学习的重要性可微LM层使姿势监督能够影响特征学习，以获得更鲁棒的对应场估计，这对我们的公式化至关重要。通信现场整改。在我们的周期性姿态细化中的另一个关键过程是对应场校正。为了验证有效性，我们取消了这一步骤，直接使用对应估计，将来自G R U的mationCt作为第n次迭代的初始化（表示为“w/o C t”t rect.表1）。我们发现，与我们的完整的框架，特别是更严格的指标，即，0.01d和0.05d。这一现象表明，从优化位姿得到的具有刚性变换约束的校正对应场可以促进重新计算。（b）第（1）款无相似性评分w/相似性评分（我们的）对象0.02d0.05d0.1d0.02d0.05d0.1d猿0的情况。178.97三十八岁。630.099 .第九条。7437.18可以7.2953.6985.507 .第一次会议。79五十六0188岁07猫1 .一、6011个国家。7127.971 .一、6011.6329岁15司钻13.7652.4778.42十四岁58五十九8088岁14鸭0.1811个国家。3147.770的情况。2611.13四十九17蛋盒2.9825.9661.284.第一章94三十八岁。4766岁。98胶6.9835.22 六十五0110个。5240.9763.79Holep0.0818.3359.830的情况。4221.4262. 76平均4.1327.2158.05五、0231岁15六十岁。65图6.通过在LINEMOD数据集上使用高斯噪声降低初始姿态（来自PVNet [34在接下来的迭代中进行细化。3D上下文编码器。为了验证我们的3D上下文编码器的有效性，我们测试了没有上下文编码器（表示为“w/o3D上下文F ctx”）或具有常用的2D上下文编码器（表示为“w/ 2D上下文”）的系统这两个版本的性能都下降相比，与3D上下文编码器。退化不仅揭示了上下文信息的重要性，如以前的工作[39，44]所示，而且还证明了我们的3D上下文编码器是比我们任务中的2D对应物更有效的选择。我们认为更鲁棒的性能可能归因于密集的3D点云特征的更细粒度（与低分辨率的2D图像特征相比）。更细粒度的特征可以提供更详细的几何上下文。闭塞处理的相似性评分。在表1（b）中，我们评估了在闭塞LINEMOD数据集上闭塞处理中相似评分的有效性。版本“w/ similarity score”对于严重闭塞的对象表现更好。通过在姿态优化期间包括相似性得分，有效地降低了所包括的不可靠区域中的有缺陷的对应性估计。一些相似性得分图的例子展示在图。4、更好的理解循环迭代与渲染周期。细化迭代的次数影响系统性能，特别是当存在错误的初始姿态估计时。我们在图5中分析了不同递归迭代和渲染周期的性能。从图5无通信丢失不含LmaW/O 不对。无3D上下文Fctxw/二维上下文满（我们的）对象0.02d 0.05d0.1d0.02d 0.05d0.1d0.02d0.05d0.1d0.02d 0.05d0.1d0.02d0.05d0.1d0.02d0.05d0.1d猿1.2917.6061.238.6536.03 70.354.4035.7674.51 14.86 50.4880.1012.1952.2282.33 十八岁76五十七1488岁19本齐维塞 31.60 87.0899.3258.14 94.30 99.71 79岁。5698.72 一百块072.26九十九。13一百块075.2698.3799.8175.1798.25 一百块0相机19.37 70.8994.9045.13 82.31 95.95 五十六7290.0997.91 53.63 90.69九十八7356.9091.6897.7855.3989.1298.04可以8.9577.8896.8332.65 86.71 98.76 47.1394.3799.31 53.25 95.28九十九。80五十三21九十五6299.72 五十四5394.6999.31猫4.5928.3971.6425.24 62.60 92.81 31.7475.7697.98 32.34 74.5596.71 三十六8179岁。15九十八5536.4374.8596.41司钻40.25 84.0492.5749.88 88.50 98.22 59.81九十六。43九十九。7060.46 95.34九十九。7060.6995.5499.4162.4495.44九十九。70鸭5.6222.4469.0816.66 47.46 79.69 19.1855.6887.01 16.71 57.3785.9225.1963岁6288.01二十五8261.1389岁。30模块运行时（毫秒）参考图像渲染8.883D上下文编码(run每个序列一次）35.203D Feat. 渲染（上下文描述符）5.39Feat. 编码6.392D-3D混合网络(2D部分）2.99CF估计6.21姿势优化。6.23CF整流1.4814887（a）可以发现，通过仅增加递归迭代同时仅渲染参考对象图像一次，我们已经实现了 96 的高精度。05%，这是...148885×表3.在ADD（-S）度量方面，比较了LINEMOD数据集上的竞争性直接方法（PoseCNN [52]，PVNet [34]和HybridPose[38]）和细化方法（DPOD [58]，DeepIM [23]和RePOSE [20方法PoseCNN PVNet HybridPose [23]第二十三话DPOD [58] 休止[20个]我们Init.构成---PoseCNN自主设计的PoseCNN PVNet PoseCNN PVNet猿25.6243.6263.176.9587.7347.479.588岁19 85.62本齐维塞77.1199.9099.997.4898.4588.5一百块0一百块0 一百块0相机47.2586.8690.493.5396.0767.0九十九。298.0498.43可以69.9895.4798.596.4699.7188.0九十九。899.3199.51猫56.0979.3489.482.1494.7180.6九十七996.4196.41司钻64.9296.4398.594.9598.8078.599.0 九十九。7099.50鸭41.7852.5865.077.6586.2966.180.389.3089岁。67蛋盒98.5099.15一百块097.0999.9198.6一百块099.53一百块0胶94.9895.6698.899.4296.8295.698.3 九十九。7197.30Holep52.2481.9289.752.8186.8762.796.9九十七4397.15铁70.1798.88一百块098.26一百块080.3一百块0一百块0 一百块0灯70.7399.3399.597.5096.8487.899.899.81一百块0电话53.0792.4194.987.7294.6974.3九十八998.3998.68平均63.2686.2791.388.6195.1578.196.1九十七3797.10表4.在ADD（-S）度量方面，与OC- CLUSION LINEMOD数据集上最新技术水平的准确度比较。对象[52]第五十二话PVNet [34] [38]第三十八话[第51话]DPOD [58] [20]第二十话我们猿9.6015.820.939岁3-31.1三十七18可以45.263.375.379.2-80.088岁07猫0.9316.724.923.5-25.629岁15司钻41.465.770.271.3-73.188岁14鸭19.625.227.944.4-43.0四十九17蛋盒22.050.252.458.2-51.766岁。98胶38.549.653.849.3-54.363岁79Holep22.139.754.258.7-53.662.76平均24.940.847.553.047.351.6六十岁。65”[20]《礼记》云：“礼之以礼，礼之以礼。如果采用更多的迭代次数和绘制周期进行细化，则可以得到稳定的改进，反映了该方法的良好收敛性。为了进一步验证对错误初始姿态的鲁棒性，我们将高斯噪声添加到初始姿态。具体来说，我们随机干扰平移分量和旋转欧拉角与高斯噪声。对于旋转，我们在所有三个轴上添加了标准偏差（STD，表示为σr）为10μ m的角噪声。对于平移干扰，我们沿z轴（垂直于图像平面的轴）施加具有15 cm STD的噪声，并且沿x和y方向施加具有3 cm STDs的噪声（1），考虑到当前方法通常在深度估计上具有较大的方差。从图 5（b），我们发现，经常性的细化的必要性变得更加明显。虽然更多的渲染周期也会带来性能上的提升，但是额外的成本是很大的，因为大多数的输入特性都需要重新编码。基于运行时分析（表2），增加循环迭代对于更好的性能而言更经济，因为循环迭代仅激活CF（对应场）估计、姿态优化和CF校正模块。4.3. 与最新方法的我们比较了 LINEMOD 、 Occlusion LINEMOD 和YCB-Video上的前沿方法。对于LINEMOD数据集，我们与最近的姿态细化方法RePOSE [20]，DPOD [58]和DeepIM [23]以及一些直接估计基线[34，38，52]进行了比较。表3包含比较结果，我们实现了最先进的性能。有趣的是，当使用PoseCNN [52]作为初始姿势生成器而不是14889↗表5.与基于YCB-Video数据集上单个图像的细化方法的比较我们的初始姿态生成器的性能，即，PoseCNN也包括在内。度量[52]第五十二话[23]第二十三话DPOD [58][20]第二十话我们AUC，ADD（-S）61.381.976.380.883.1ADD（-S）21.353.650.460.366.4PVNet [34]，尽管PVNet的姿态精度要好得多，如表3所示。这种现象揭示了我们的系统对错误初始姿势的良好容忍度。为了测试我们对更大的初始姿态误差的鲁棒性，我们将随机高斯姿态噪声分别添加到初始旋转和平移分量中，以进行类似于第二节中的精度评估。四点二。图6绘制了相对于温度的准确度变化。干扰的大小。我们的方法具有很强的鲁棒性，即使在非常嘈杂的初始姿势下也能合理地工作。我们还对闭塞LINEMOD进行了比较如表4所示，我们的表现明显优于前沿方法[20]（51. 660 65），这表明了系统对遮挡的鲁棒性我们从严重遮挡的图像在图的第一行4，其中来自PVNet的初始姿态像之前一样被高斯噪声干扰（σt=15cm，σr=10cm）以提出更多挑战。结果表明，我们的系统是能够处理大的初始姿态误差，即使在高度闭塞的情况下。我们对YCB-Video数据集的额外评估使用PoseCNN作为姿势初始化器，遵循RePOSE的设置[20]。我们比较了基于单目彩色图像的细化方法。我们的系统在这个大规模的复杂数据集上仍然表现良好。我们不断改进PoseCNN [52]提供的初始姿势，并在两个指标上优于最先进的姿势细化方法RePOSE，如表5所示。5. 结论和局限性我们提出了一个循环的框架，6自由度的对象位姿细化。一个非线性的最小二乘问题的基础上的渲染图像和观测图像之间的估计对应字段制定的姿态优化。基于描述符的一致性检查是included，以降低不可靠的闭塞处理对应。我们的方法对

下载后可阅读完整内容，剩余1页未读，立即下载