RGB中基于深度模型的6D姿态细化

164 浏览量更新于2023-10-13 收藏 1.98MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

RGB中基于深度模型的6D姿态细化Fabian Manhardt1 *、Wadim Kehl2 *、Nassir Navab1和Federico Tombari11慕尼黑工业大学，加尔兴b.慕尼黑85748，德国{fabian.manhardt，nassir.navab}@ tum.detombari@in.tum.de2丰田研究所，Los Altos，CA 94022，USAwadim. tri.global抽象。我们提出了一种新的方法，基于模型的6D姿态细化的颜色数据。基于基于轮廓的姿态跟踪的既定思想，我们教授了一个深度神经网络来预测平移和旋转更新。在核心，我们提出了一个新的视觉损失，驱动姿态更新对齐对象轮廓，从而避免了任何明确的外观模型的定义。与以前的工作相比，我们的方法是对应自由，分割自由，可以处理遮挡，是不可知的几何对称性以及视觉模糊。此外，我们观察到一个强大的鲁棒性粗糙的初始化。该方法可以实时运行，并产生接近3D ICP的姿态此外，我们的网络是从纯粹的合成数据中训练出来的，并将与细化代码一起发布在http://campar.in.tum 。 de/Main/FabianManhardt ，以确保再现性。关键词：位姿估计，位姿优化，跟踪1介绍跟踪图像中的CAD模型的问题在诸如机器人、增强现实（AR）和医疗程序的背景中经常遇到通常，跟踪必须在完整的6D姿态中执行，即，人们试图在每一帧中检索对象的3D度量平移以及3D旋转。另一个典型的场景是姿态细化，其中对象检测器提供粗略的6D姿态估计，其必须被校正以提供更好的拟合（图1）。通常出现的困难包括视点歧义，闭塞，照明变化和模型和场景中的对象之间的外观差异此外，对于跟踪应用，该方法还应当足够快以覆盖大的帧间运动。大多数基于RGB数据的相关工作可以大致分为稀疏和基于区域的方法。前一种方法试图建立帧[40，23]之间的局部对应关系，并且对于纹理对象效果良好，而后者* 前两位作者对这项工作的贡献是相等的。2F.曼哈特，W。Kehl，N. Navab和F. 通巴里a) 输入图像b）初始姿态假设c）10次迭代图1：我们的方法的示例性图示。虽然a）描绘了输入RGB帧，但b）示出了我们的四个初始6D姿势假设。对于每个获得的帧，我们细化每个姿势以更好地适合场景。在d）中，我们显示了收敛后的最终结果注意粗略的姿态初始化以及感兴趣的对象所经历的变化的遮挡量。一种是利用关于物体的更全面的信息，例如形状，轮廓或颜色[27，8，37，38]，并且通常更适合于无纹理的物体。它值得一提的是，两套方法的混合物也被提出[30，6，31，24]。最近，仅使用深度[34]或两种模式[21，18，10]的方法已经表明，深度可以通过提供更多关于遮挡和尺度的线索来使跟踪更加稳健。这项工作的目的是探索RGB信息如何单独足以执行视觉任务，例如通过卷积神经网络（CNN）进行3D跟踪和6自由度（6DoF）姿势优化。虽然这已经被提出用于相机姿态和运动估计[19，43，41，39]，但尚未针对手头的问题进行充分研究作为一个主要的贡献，我们提供了一个新的视觉损失，对齐对象的轮廓和隐含的优化度量平移和旋转微分制定。虽然我们的优化受到基于区域的方法的启发，但我们可以跟踪任何纹理或形状的对象，因为我们不需要对全局[27，37，18]或局部外观[11，38]进行建模。相反，我们表明，我们可以通过让网络隐式地学习对象的外观来消除这些手工制作的方法我们教CNN在不断变化的照明和遮挡下对齐合成对象渲染和场景图像之间的轮廓，并表明我们的方法可以处理各种形状和纹理。此外，我们的方法允许处理几何对称性和视觉模糊性，而无需手动调整，并且能够从非常粗略的初始化中恢复正确的姿势。值得注意的是，我们的公式是无参数的，并且避免了手工制作的跟踪或细化方法的典型陷阱（例如，通过分段或对应+ RANSAC），其需要繁琐的调谐以在实践中良好地工作此外，与基于深度的方法（如ICP）一样，我们对遮挡具有鲁棒性，并且在不需要深度数据的情况下产生接近RGB-D方法的结果，因此非常适用于AR，医疗和机器人领域RGB中基于深度模型的6D姿态细化32相关工作由于跟踪和姿态优化的领域是广阔的，我们在这里只关注处理RGB数据中的CAD模型的工作该领域的早期方法使用2D-3D对应关系[29，30]或3D边缘[9，35，32]，并通过迭代投影更新步骤以ICP方式拟合模型。在这个方向上的连续方法设法获得改进的性能[6，31]。此外，其他工作集中在通过水平集密集跟踪轮廓[3，8]。基于这些工作，[27]提出了一种新的方法，该方法遵循投影模型轮廓来估计6D姿态更新。在后续工作中[26]，作者扩展了他们的方法，以实时跟踪和重建手机上的3D对象。来自[37]的作者使用新的优化方案改进了收敛行为，并在GPU上实现了实时实现因此，[38]展示了如何通过使用随时间变化的局部颜色直方图来改进颜色分割正交地，工作[18]近似模型姿态空间，以避免GPU计算，并在单个CPU内核上实现实时性能。所有这些方法都有一个共同的特性，即它们依赖于手工制作的分割方法，这些方法可以在突然的外观变化或闭塞的情况下失效。相反，我们希望完全避免手工制作手动外观描述。另一组作品尝试将学习与RGB中的同时检测和姿态估计相结合。[17]中提出的方法将SSD范例[22]与姿态估计耦合，以产生每个实例的6D姿态池，然后使用基于边缘的ICP对其进行细化。相反，来自[5]的方法使用自动上下文随机森林来回归场景中用于估计姿势的对象坐标。在[28]中，提出了一种方法，该方法替代地回归投影的3D边界框并从这些2D- 3D对应中恢复姿势，而[25]中的作者推断关键点热图，然后将其用于6D姿势计算。3D Interpreter Network[42]推断类别的热图，并回归投影和变形，以使合成图像与真实图像对齐。在工作[10]中，使用深度学习方法来跟踪RGB-D数据中的模型他们的工作基于相似的理由，但我们在多个方面存在差异，包括数据生成，能量公式以及他们对RGB-D数据的使用。特别是，我们表明，一个天真的配方的姿态回归不工作的情况下，对称性，这往往是人造物体的情况下。我们还发现了与2D [16]特别是3D [2]中的空间Transformer网络的共同点，其中所采用的网络架构包含一个子模块，用于通过离散晶格上的回归仿射变换来变换2D/3D输入。相反，我们的网络在一组连续的3D点上回归刚体运动，以最大限度地减少视觉误差。3方法在本节中，我们将解释我们训练CNN的方法，以仅从RGB信息回归6D姿势细化。我们这样设计问题4F.曼哈特，W。Kehl，N. Navab和F. 通巴里图2：整个管线的示意图给定输入图像和姿势假设（R，t），我们渲染对象，计算假设的边界框的中心（绿点），然后切出场景补丁S和渲染补丁H。我们将两者的大小调整为224x224，并将它们分别馈送到预先训练好的InceptionV4层中，以提取低级特征。此后，我们在分支到单独的分支之前连接和计算高级特征最终，我们检索我们的姿态更新为3D平移和归一化的4D四元数。我们向网络提供两个色块（S和H），以便推断平移和旋转更新。在图2中，我们描述了我们的流水线，并显示了一个典型的场景，其中我们有一个6D假设（来自检测器或跟踪器），没有正确对齐。我们希望估计一个细化，使得最终更新的假设与真实对象完美重叠3.1输入面片采样我们首先要讨论我们的补丁提取策略。提供CAD模型和相机空间中的6D姿态估计（R，t），我们创建渲染并计算假设的相关联的边界框的中心，我们随后围绕该中心提取S和H。由于不同的对象具有不同的大小和形状，因此重要的是使裁剪大小适应特定对象的空间属性最直接的方法是简单地相对于渲染遮罩的紧密2D边界框裁剪S和H然而，当采用这种度量裁剪时，网络失去了鲁棒地预测沿Z轴的更新的能力：实际上，由于每个裁剪几乎完全填充输入补丁，因此无法估计深度差异。由于此，我们明确地计算在最小度量距离处的以像素为单位的空间范围（利用所述最小度量距离），并且将其用作特别地，在训练之前，我们从各种不同的视点渲染对象，计算它们的边界框，并取所有生成的边界框的最大宽度或高度。3.2训练阶段为了创建训练数据，我们随机采样相机坐标中对象的地面真实姿态（R*，t*），并将具有该姿态的对象渲染到随机的RGB中基于深度模型的6D姿态细化5背景以创建场景图像。为了学习姿势细化，我们扰动真实姿势以获得噪声版本（R，t）并渲染假设图像。给定这两个图像，我们用上面提到的策略切出补丁S和H提供这些补丁，我们现在想要推断扰动姿态（R，t）的单独校正（R∆，t∆R*= R∆·R，t*= t + t∆。（1）由于SO（3）中优化的困难，我们通过单位四元数进行参数化q*，q，q∆定义一个回归问题，即类似于[20]所提出的相机定位或[10]用于模型姿态跟踪：.. ∗q∆......最小值Qq∆，t∆−||q∆||.. + γ·..不-t∆..（二）本质上，该能量借助于超参数γ来权衡旋转中的数值误差与平移中的数值误差，并且当解是唯一的时可以被正确地优化（例如，相机姿态回归）。不幸的是，上述公式仅适用于单射关系，其中输入图像对总是被映射到相同的变换。在一对多映射的情况下，即图像对可以具有多个正确的解，优化不会收敛，因为它被拉到多个方向上，而是回归平均值。在我们的任务的背景下，视觉模糊性是常见的大多数人造物体，因为它们是对称的或从多个角度共享相同的外观。对于这些对象，有一个大的（有时是无限的）细化解决方案，产生相同的视觉结果。为了在模糊情况下回归q∆和t∆，我们因此提出了另一种表述。视觉对齐的代理损失不是显式地最小化转换中的模糊错误，而是努力最小化测量外观相似性的明确错误。因此，我们把我们的搜索的姿态优化参数作为一个子问题内的另一个代理损失，优化视觉对齐。虽然有多种方法来定义相似性度量，但我们寻求一种满足以下属性的方法：1）对对称或不可区分的对象视图不变，2）对颜色偏差、照明变化和遮挡鲁棒，以及3）相对于姿态平滑和可区分。为了实现前两个属性，我们建议对齐对象轮廓。之前已经提出了通过投影轮廓跟踪对象的6D姿态[18，37，27]，但据我们所知，迄今为止尚未在深度学习框架中引入。轮廓跟踪允许通过移动通过距离变换将3D几何对准的困难问题减少到2D轮廓匹配的更简单的任务，从而避免明确的对应搜索。此外，物理轮廓不受着色或照明偏差的影响，这使得它对于纯RGB方法更有吸引力我们参考图3的训练示例和我们对齐的轮廓的可视化6F.曼哈特，W。Kehl，N. Navab和F. 通巴里∆∆∆a) 合成场景输入图像Sb)6D假设渲染Hc) 初始训练状态下的姿态估计d) 收敛后精化图3：我们的训练过程的可视化。在（a）和（b）中，我们示出了构成一个训练样本的两个图像块和网络的输入。我们为读者突出了我们寻求从白色到红色的投影对齐的轮廓在（c）中，我们看到没有细化的初始训练状态以及场景的距离变换DS和来自初始6D假设的3D样本点VH最后，在（d）中，我们可以看到收敛后的细化。实现光滑性和可微性更加困难。针对该能量的优化步骤需要利用用于轮廓提取的当前姿态假设来渲染对象，估计与目标轮廓的相似性，并且在下一次迭代中，当所确定的当前姿态假设的所提取轮廓更接近时，对所述目标轮廓进行预处理。不幸的是，通过渲染流水线的反向传播是不平凡的（尤其是由于z缓冲和光栅化）。因此，我们在这里提出了一种新的配方，通过模糊的6D解决方案空间成功地我们采用[18]中介绍的一个想法，该想法允许我们使用近似轮廓进行优化，而无需迭代渲染。当创建训练样本时，我们使用渲染的深度图来计算相机空间中的3D点云，并对轮廓上的稀疏点集进行采样，表示为V：={v∈R3}。然后，想法是用当前细化估计（q∆，t∆）变换这些轮廓点，然后投影到场景中。这模拟了渲染加轮廓提取，没有成本，并允许反向传播。对于给定的训练样本，输入面片对（S，H），场景轮廓DS和假设轮廓点VH的距离变换，我们定义损失L（q∆，t∆，DS，VH）：=Σv∈VHΣ。DSπ q∆Σ·v·q−1+tΣ（三）其中q−1是共轭四元数。通过上述公式，我们还摆脱了标准回归公式中四元数和平移幅度之间的任何γ用梯度下降步骤最小化上述损失迫使向距离变换的0水平集的步骤我们基本上调整网络权重，以旋转和平移6D中的对象，从而最大化投影轮廓RGB中基于深度模型的6D姿态细化7∆重叠虽然这在实践中效果很好，但我们已经观察到，对于某些对象和较强的姿态扰动，优化可能陷入局部最小值。当我们的损失将轮廓点驱动到距离变换允许它们停留在局部谷中的配置中时，就会发生这种情况为了解决这个问题，我们引入了一个双向的损失制定，同时对齐的轮廓的假设，以及场景到彼此，耦合和约束相同的姿势更新。因此，我们有一个额外的项，其方向相反：L：=L（q∆，t∆，DS，VH）+L（q−1，−t，DH，VS）的情况。（四）这个最终损失L不仅缓解了局部性问题，而且还显示出导致整体更快的训练因此，我们选择这种能量进行所有实验。3.3网络设计和实施我们在图2中给出了我们的网络结构的示意图，并提供了一个示例。请参阅此处的更多详细信息。为了保证快速推理，我们的网络遵循全卷积设计。该网络被馈送有两个224× 224× 3的输入块，这两个输入块表示裁剪的场景图像 S 和裁剪的渲染图像 H 。这两个补丁程序在InceptionV4的第一个级别中的单独路径中运行[33]实例以提取低级别特征。此后，我们将两个特征张量连接起来，通过使用最大池化以及步幅3× 3卷积进行下采样，并再次将结果连接在两个Inception-A块之后，我们分支成两个单独的路径，用于旋转和平移的回归。在每一个中，我们使用两个以上的Inception-A块，然后通过另一个跨越的3× 3卷积进行下采样。然后将所得张量与6× 6× 4内核卷积以回归4D四元数或6× 6× 3内核以预测3D更新平移向量。最初的实验清楚地表明，从头开始训练网络不可能弥合合成图像和真实图像之间的领域差距与[17，13]类似，我们发现该网络专注于渲染的CAD模型的特定外观细节，并且在真实图像上的性能急剧下降。合成图像通常具有非常尖锐的边缘和清晰的角落。由于第一层学习低级特征，因此它们在训练期间快速过拟合到这个完美渲染的世界因此，我们从预先训练的模型中复制前五个我们在补充中的真实数据的泛化方面的改进。此外，我们初始化最终回归层，使得偏置等于单位四元数和零平移，而权重被赋予σ = 0的小高斯噪声水平。001. 这确保了我们从中性姿势开始细化，这对于投影视觉损失的评估至关重要虽然我们的方法在单次拍摄中产生非常好的细化，但我们决定还实现迭代版本，其中我们多次运行姿势细化，直到回归更新低于阈值。∆8F.曼哈特，W。Kehl，N. Navab和F. 通巴里4评价我们使用TensorFlow 1.4 [1]在配备NVIDIA GTX 1080的i7-5820K@3.3GHz上运行了我们的方法。对于所有的实验，我们使用100k次迭代进行训练，批量大小为16，ADAM的学习率为3· 10−4。此外，我们将每个视图的3D轮廓点的数量固定为|VS|为|VH|= 100。此外，我们的方法是实时的能力，因为一个迭代在测试期间需要大约25ms。为了评估我们的方法，我们在三个合成和真实数据集上进行了实验，并将传达我们的方法可以接近RGB-D basedapproa ches。在特定情况下，在[ 12]中引入了第一个数据集，称为“Hi nt e rsti ss e r”，并且由15个序列组成，每个序列拥有大约1000个具有杂乱和轻度遮挡的其中只有13个提供水密CAD模型，因此，我们像我们之前的其他人一样，跳过其他两个序列。该选择被称为“T e j an i”，其在[ 36]中是可选的，并且由六个大部分半对称的纹理化对象组成，每个对象与前两个真实数据集相比，后者被称为“Choi”[ 7]，包含四个序列中的序列。本质上，我们将首先进行一些自我评估，其中我们说明了相对于a处的real上的不同程度的姿态扰动的收敛性质。现在我们将介绍应用程序如何在“C h oi”上执行捕获。作为第二个应用，我们通过在“Hi n t e r s t o i ss e r”上进行姿势细化实验，将我们的方法与各种其他最先进的RGB和RGB-D方法进行比较。最后，我们选择了一些失败的案例，并以定性的类别水平实验作为结论4.1位姿扰动我们研究了我们的方法的收敛行为，采取正确的姿势，apply- plying一个扰动的一定量，并衡量如何以及我们可以细化 bac k 到他或iginalpose。因此，我们使用所研发的高分辨率存储器，因为对于特定序列的每一帧，我们通过角度或通过向量上的t_an_l来扰动地面真实姿态。在图4中，我们将使用我们的应用程序和数据库，并将其用于所有组的备份。特别是，我们报告了我们的结果，从5 ◦到45 ◦增加角度扰动和从0到1增加平移扰动相对于该object的D i am e t e r。如果重新定义的深度大于45 °，则重新定义的深度大于对象的深度的一半，并且我们采用10个迭代步骤来最大化我们可能的在一般情况下，我们的方法可以恢复姿态非常鲁棒，即使在强perturbations。在超过60%的所有试验中，如果在45 ◦的最大值下运行，则可以将误差细化到小于5 ◦，并且在超过80%的所有运行中，此外，我们的方法仅适用于1%。然而，如果效率更高，我们的数字就会特别是在几乎50%的病例RGB中基于深度模型的6D姿态细化9扰动精化图4：顶部：来自[12]的两个对象的扰动结果，用于增加旋转和平移水平。下图：来自同一实验的定性结果。将对象旋转回小于10%的误差。然而，这可以通过对象的应用容易地实现。该图像是与纹理和非独特形状相结合的图像，其不能提供足够的信息来查看图像，因为图像是大的和清晰的。并不意味着旋转中的实际发散行为对于两者是相似的，并且对于每个节点的实际发散行为是不存在的。平移误差在初始和最终姿态之间几乎线性相关我们还观察到一个有趣的趋势，从0.6左右的扰动水平开始，之后的结果可以分为两个不同的集合：或者姿态发散或者误差停留在某一水平上。这意味着某些视点很容易对齐，只要它们一开始就有一定的视觉重叠，而与我们的干扰强度无关相反，其他观点在更高的扰动下更困难，并且从某个点开始发散10F.曼哈特，W。Kehl，N. Navab和F. 通巴里PCL C C Krull谭凯尔·查登(a)Kinect Boxtxtytzαβγ43.9942.5155.897.621.878.311.842.231.366.410.766.320.81.670.791.110.551.041.541.900.340.420.220.680.761.090.380.170.180.2055.7570.57402.1442.6127.7438.9791.462.2810.611.842.091.23(b)牛奶txtytzαβγ13.3831.4526.0959.3719.5875.030.931.941.093.831.413.260.511.270.622.191.441.901.230.740.240.500.280.460.640.590.240.410.290.4239.2148.13332.1145.5426.3721.723.894.2557.6838.7427.6242.68(c)橙汁txtytzαβγ2.532.201.9185.8142.1246.370.961.441.171.320.751.390.520.740.631.281.081.201.100.940.180.350.240.370.500.690.170.120.200.192.292.8548.618.465.952.240.650.696.491.50.680.39(d)潮txtytzαβγ1.462.250.925.152.132.980.8531.371.201.781.091.130.690.810.812.101.381.270.730.560.240.310.250.340.340.490.180.150.390.371.310.8312.492.031.561.391.740.7410.711.781.640.80(a) 其他人也会觉得这很奇怪。（b）Trackingqual ityc omparedo[37]。F ig. 5 ： Left ： T r anslation （ mm ） anddr ation （ degrees ） errorsonChoiforPCL&'s ICP，Choi and Christensen（C C）[ 7]，Krull[ 21]，Tan[ 34]，Kehl[ 18]，Tjaden[ 37] and our method.右：仅使用RGB将[37]（左）与我们（右）进行比较。4.2跟踪作为第一个例子，我们将我们的方法作为一个标记[ 7]上的“C h oi”进行了评估。该RGB-D数据集由四个合成序列组成，并且我们在图5中呈现了详细的数字。请注意，所有其他方法都利用深度信息。我们决定使用这个数据集，因为它对于仅RGB的方法来说非常困难为了提供一个有趣的比较，我们还对[37]的跟踪器实现进行了定性评估。虽然他们的方法通常对无纹理物体是鲁棒的，但它在3个序列上有分歧，我们在图5和补充材料中展示了这3个序列，并为此提供了推理3本质上，除了Milk的等式之外，可以重新创建代码。关于我们如何将“Mil k”视为一个相当对称的对象的问题，我们已经将其视为一个相当对称的对象。因此，有时它会沿其Y轴旋转对象，这会对总数产生负面影响。特别地，当已经未对准时，该方法仍然尝试将对象完全填充到场景中，因此，它稍微进一步旋转和平移对象。对于这些对象，我们可以为所有对象以及Choi和Christensen [ 7]为大多数情况导出公式。相比3作者在通信中承认了我们的结论。RGB中基于深度模型的6D姿态细化11◦腐错误[ ]Transl.误差[mm]ADD [%]无参考27.969.75，9.33，71.097.4三维ICP17.62十点四十二分、十点五十六分、二十七点三十一分90.9我们16.174.9、5.87、42.6934.1[28日]––43.6[五]《中国日报》––50.2序列我们 MSE损失凯尔[18] Tjaden [37]相机0.8030.5620.4930.385咖啡0.8480.7170.7470.170操纵杆 0.8500.7460.7730.298汁0.8280.6130.5230.205牛奶0.7660.7210.5800.514洗发水 0.8040.7000.6480.250总0.8170.6760.6270.304凸轮轴猫钻鸭盒胶洞铁灯电话总无细化0.64 0.65 0.71 0.72 0.630.620.65 0.64 0.640.690.71 0.630.690.662D基于边缘的ICP 0.73 0.67 0.73 0.76 0.680.670.72 0.73 0.720.710.74零点六七0.700.71Copyright © 2018 - 2019 www.365.com All Rights Reserved.粤ICP备05018888号-10.83 0.83 0.75 0.87 0.790.85 0.87 0.88 0.85 0.82 0.850.830.83表1：具有从SSD-6D初始化的姿势的[12][17]第10段。前三行由[17]提供。我们明显优于基于2D的ICP，并且与基于3D的ICP相当。(a)[12]和[4]上的绝对姿势误差。(b)每个序列的VSS评分[36]。表2：具有从SSD-6D初始化的姿势的细化分数[17]。左：“高分辨率分辨率”[ 12]（上图）和“低分辨率”[ 4]（下图）上的平均AD数据。 Rig ht：VSSscoreson' T ej an i'. 对于RGB [37]和RGB-D [18]的情况，我们将我们的常用操作系统与现有技术以及两个最先进的跟踪器进行了比较。对于Krull [21]，这是一种学习的RGB-D方法，我们对一些值表现得更好，对其他值表现得更差。请注意，我们沿Z轴的平移误差相当高。由于当对象仅移动几毫米时像素的差异几乎不存在，因此在不利用深度信息的情况下估计对象的确切距离几乎是不可能的。在[15]中也讨论了这一点，并且由于池化操作，对于CNN尤其如此。4.3检测细化这组实验分析了我们在检测场景中的性能，其中对象检测器将提供粗略的6D姿势，目标是改进它们。我们决定使用SSD-6D [17]的结果，这是一种基于RGB的检测方法，它输出2D检测，每个检测都有一个6D姿态估计池。作者公开提供了他们的训练网络，我们使用它们来检测和创建6D姿态估计，并将其输入到我们的系统中。表1、2（a）和（b）描绘了我们对“高可靠性”、“Occulsion”和“Tjaniated”的结果，这些结果使用不同的度量我们最多运行了我们的方法的5次迭代，但是，如果最后一次更新小于1.5◦和7.5mm，我们也会停止由于我们的方法在从糟糕的初始化中恢复方面特别然而，我们在进行细化之前应用它，因为与它们相反，我们也可以处理不完美的初始化，只要它们没有完全错位。我们使用VSS指标报告错误12F.曼哈特，W。Kehl，N. Navab和F. 通巴里10图6：在Tejani上比较（从左到右）我们的视觉损失，均方误差损失，[18]的RGB-D跟踪器和[37]的RGB跟踪器。（其是来自[ 14]的VSD，其中τ=∞），其将视觉2D误差计算为地面实况姿态和估计姿态的渲染之间的逐像素重叠。此外，为了更好地与相关工作进行比较，我们还使用了ADD得分[12]来测量3D测量误差，作为在变换到场景中时真实姿势和推断姿势之间的平均点云偏差。如果偏差小于对象直径的1/1，则姿势被计为正确通过使用VS系统，我们可以为大多数对象提供最先进的技术。特别地，对于仅RGB的情况，我们可以报告83%的平均VSS分数，这是令人印象深刻的改进，并且因此可以成功地弥合RGB和RGB-D之间在姿态准确度方面的差距。检查的效率和对我们的连接的要求比SSD-6D + 3D细化更高。ICP依赖于良好的对应关系和鲁棒的离群值去除，这反过来需要非常仔细的参数调整。此外，ICP对于较粗糙的初始化通常是不稳定的。相比之下，我们的方法学习端到端的细化，并且更强大，因为它在训练过程中适应对象的特定属性然而，由于这一点，我们的方法需要良好的质量网格。因此，类似于SSD-6D，我们特别有针对“相机”的问题，因为来自真实图像的现代应用程序的差异加剧了训练。还要注意，他们的3D细化策略对池中的每个姿势使用ICP，然后对深度法线进行验证相反，我们的方法使用简单的图像梯度检查来选择最佳。关于ADD度量，我们稍微落后于其他最先进的RGB方法[5，28]。我们从SSD-6D作者处获得3D-ICP细化的姿态，并在表2（a）中更详细地分析了误差。我们再次看到，沿着Z轴的误差较大，但是沿着X和Y轴的误差较小。不幸的是，ADD度量惩罚该偏差过强。有趣的是，[5，28]的得分更高，我们认为这来自两个事实。数据集通过ICP用3D模型对深度数据进行注释。不幸的是，RGB和D之间的不准确的本征函数和传感器配准误差导致固有的失配，其中ICP 6D姿态并不总是在RGB中完美地对准。像我们的或[ 17]的纯合成RGB方法遭受（1）纹理/形状方面的域间隙，以及（2）更好的RGB性能可以实现的困境，其中，组合物具有“真正的”IC p ose。WeRGB中基于深度模型的6D姿态细化13图7：定性类别级实验，我们在一组特定的杯子和碗上训练我们的网络，并跟踪迄今未见的模型。第一帧描绘了非常粗略的初始化，而接下来的帧示出了整个序列中的一些中间细化的姿势。补充显示完整的视频。怀疑[5，28]可以隐式地学习该配准误差，因为它们在具有相关联的ICP姿势信息的真实RGB切口上训练，从而避免了这两个问题。我们经常观察到我们在RGB中的视觉完美对齐不符合ADD标准，我们在补充中展示了示例由于我们的损失实际上优化了一种形式的VSS以最大化轮廓重叠，因此我们可以预期只有当颜色上的完美对齐等同于深度上的完美对齐时，ADD分数才会上升。实际上，尽管存在强遮挡，但与来自SSD-6D的原始数字相比，恢复到目前的“O遮挡”，我们可以恢复或改进。特别地，虽然旋转误差减小了大约8个方向，但是通过4mm的“X”和“Y”轴以及28mm的“Z”来减小或减小该旋转误差。因此，我们可以将其视为来自6的AD。上升2%至28。5%，这表明我们可以处理场景中的强遮挡。为了说明如何使用标准回归损失（MSE）来恢复网络负载，我们进行了分析。此外，我们重新实现了[37]中的RGB跟踪器，并从[18]中的RGB-D跟踪器的作者那里获得了数字（见图6）。由于数据集主要由具有几何对称性的对象组成，因此我们在这里不测量绝对姿势误差，而是使用VSS度量报告我们的数字MSE训练的网络经常表现不佳，因为数据集模型具有对称性，这反过来导致与我们的视觉损失相比有14%的巨大差异。这一结果强调了在训练过程中正确的对称纠缠的重要性。RGB跟踪器不能很好地细化，这是由于颜色分割被遮挡或不完美的初始化破坏基于相同想法的RGB-D跟踪器表现更好，因为它使用额外的深度通道进行分割和优化。4.4类别级跟踪我们很想知道我们的方法是否可以推广到特定的CAD模型之外，因为来自同一类别的许多对象共享类似的14F.曼哈特，W。Kehl，N. Navab和F. 通巴里图8：两个突出的故障情况：遮挡（左对）和颜色和形状非常相似的对象（右对）可能会对回归产生负面影响。外观和形状特性。为此，我们进行了最终的定性实验（见图7），我们收集了总共八个杯子、马克杯和碗的CAD模型，并同时对所有模型进行了训练。在测试过程中，我们使用这个网络来跟踪来自同一类别的新的、看不见的模型我们惊讶地看到，这种方法确实学会了度量跟踪以前看不见但相似的结构。虽然姿势不像单实例情况那样准确，但似乎确实可以学习结构的投影关系以及它在6D运动下如何变化，只要至少投影函数（即，投影函数）是正确的。相机固有特性）是恒定的。我们在补充材料中展示了完整的序列。4.5失败案例图8示出了两个已知的故障情况，其中每对的左侧图像表示初始化，并且右侧图像表示细化结果。尽管我们使用遮挡训练，但某些情况会恶化我们的精炼。虽然两个内存存储都被发现存在漏洞，但无法正确恢复内存存储的剩余部分网络假设对象在黄色笔处结束，并且仅最大化剩余的像素重叠。除了遮挡，颜色和形状相似的物体在极少数情况下会导致混淆。如右图所示，网络错误地认为订书机而不是杯子是真正的感兴趣对象。5结论我们相信，在深度学习的帮助下，我们已经提出了一种在RGB中进行6D模型跟踪的新方法，并且我们展示了我们的方法在多个数据集上以及姿势细化和例如/类别跟踪的场景未来的工作将包括向其他领域推广的调查，例如：对视觉里程计的适用性致谢我们要感谢丰田汽车公司对这项工作的RGB中基于深度模型的6D姿态细化15引用1. Abadi，M.，Barham，P.，陈杰，陈志，戴维斯，A.，迪恩J Devin，M.，Ghe-mawat，S.，Irving，G. Isard，M.，Kudlur，M.，Levenberg，J.，蒙加河 Moore ， S. ， Murray ， D. Steiner ， B. ， Tucker ， P. Vasudevan ， V. ，Warden，P.，Wicke，M.，Yu，Y.，郑X：TensorFlow：异构系统上的大规模机器学习。在：OSDI（2016）2. Bhagavatula，C. Zhu，C.，Luu，K.，Savvides，M.：比实时面部对齐更快：无约束姿势的3D空间Transformer网络方法In：ICCV（2017）3. Bibby，C. Reid，I.：使用像素后验的鲁棒实时视觉跟踪。In：ECCV（2008）4. Brachmann，E.，Krull，A.，Michel，F.，Gumhold，S.，Shotton，J.，Rother，C.：使用3D对象坐标学习6D对象姿态估计In：ECCV（2014）5. Brachmann，E.，Michel，F.，Krull，A.，Yang，M.Y.，Gumhold，S.，Rother，C.：不确定性驱动的6D姿态估计的对象和场景从一个单一的RGB图像。见：CVPR（2016）6. Brox，T.，Rosenhahn，B.，Gall，J.，Cremers，D.：基于区域和运动的刚性和铰接物体的三维跟踪TPAMI（2010）7. Choi，C.，Christensen，H.：RGB-D对象跟踪：GPU上的粒子滤波方法03 The Dog（2013）8. Dambreville，S.，桑德胡河Yezzi，A.，Tannenbaum，A.：使用3D形状先验的联合2D基于区域的分割和3D姿态估计的几何方法SIAM Journalon Imaging Sciences（2010）9. Drummond，T. Cipolla，R.：复杂结构的实时视觉跟踪。TPAMI（2002）10. Garon，M.Lalonde，J.F.：深度6自由度跟踪。在：ISMAR（2017）11. Hexner，J.，Hagege，R.R.：使用基于区域的方法的异质对象的2D-3D位姿估计。IJCV（2016）12. Hinterstoisser ， S. ，莱佩蒂 Ilic ， S. ， Holzer ， S. ， Bradski ， G. ，Konolige，K.，Navab，N.：基于模型的训练，检测和姿态估计的纹理较少的三维物体在严重混乱的场景。In：ACCV（2012）13. Hinterstoisser，S.，莱佩蒂Wohlhart，P.，Konolige，K.：关于用于深度学习的预训练图像特征和合成图像CoRR（2017）14. Hodan，T.，Matas，J.，Obdrzalek，S.：6D物体位姿估计的评价在：ECCV研讨会（2016）15. Holloway ， R.L. ：增强现实中的配准误差分析。存在：电话操作。VirtualEnviron. 6（4），41316. Jaderberg，M.，西蒙尼扬，K.，Zisserman，A.，Kavukcuoglu，K.：空间Transformer网络In：NIPS（2015）17. Kehl，W.，Manhardt，F.，Ilic，S.，Tombari，F.，Navab，N.：SSD-6D：使基于RGB的3D检测和6D姿态估计再次伟大In：ICCV（2017）18. Kehl，W.，Tombari，F.，Ilic，S.，Navab，N.：在单个CPU内核上实时跟踪3D模型的在：CVPR（2017）19. Kendall，A.，Cipolla，R.：使用深度学习进行相机姿态回归的几何损失函数。在：CVPR（2017）20. Kendall，A.，Grimes，M.，Cipolla，R.：PoseNet：一种用于实时6自由度摄像机重新定位的卷积网络。In：ICCV（2015）21. Krull，A.，Michel，F.，Brachmann，E.，Gumhold，S.，Ihrke，S.，Rother，C.：基于目标坐标回归的6-DOF模型跟踪在：ACCV（2014）16F.曼哈特，W。Kehl，N. Navab和F. 通巴里22. 刘伟，Anguelov，D.，Erhan，D.，塞格迪角Reed，S.，Fu，C.y.，Berg，A.C.：SSD：单次激发多盒探测器。In：ECCV（2016）23. Park，Y.Lepetit，V.：用

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

RGB中基于深度模型的6D姿态细化

OVE6D：基于深度的6D物体姿态估计的视点编码方法

"无模型通用姿态估计器Gen6D：基于RGB图像的物体6自由度姿态估计

基于深度引导的边缘卷积网络用于端到端的6D姿态估计

"用于6D姿态估计的Pix2Pose方法及其在RGB图像中的应用

给我介绍一下“SSD-6D: Making RGB-Based 3D Detection and 6D Pose Estimation Great Again”算法

基于深度学习的人体姿态估计python

python 带rgb点云转深度 附加rgb

RGB图像怎么和深度图有效融合

RGB-D 三维人体姿态估计

基于深度学习与rgb图像的土壤类型与诊断层识别研究

在RGB-D显著性目标检测中，怎么将RGB特征和深度特征有效融合，请帮我设计一个融合模块

深度估计模型midas

2023年现有的姿态估计模型

帮我写一段c++代码，输入对齐的RGB图与深度图，当RGB图中像素为黑色时，其对应的深度图中深度值数据删除

RGB图和深度图融合结构图

可以帮我写一篇6D位姿估计的综述吗

基于深度学习的 RGBD 图像语义分割相关原理

基于深度学习的RGBD图像语义分割研究现状

rgb相机相对于深度相机的优点

最新资源

python 带rgb点云转深度附加rgb