无纹理物体3D跟踪：迭代对应几何融合区域和深度实现高效的方法

118 浏览量更新于2023-10-25 收藏 12.41MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1,21,21,2{firstname.lastname}@dlr.de1https://github.com/DLR-RM/3DObjectTracking68550迭代对应几何：融合区域和深度实现高效的无纹理物体3D跟踪01 德国航空航天中心（DLR） 2 慕尼黑工业大学（TUM）0摘要0在计算机视觉中，跟踪物体在3D空间中的位置和预测其6自由度姿态是一项重要任务。目前的先进方法通常依赖于物体纹理来解决这个问题。然而，虽然它们取得了令人印象深刻的结果，但许多物体并不包含足够的纹理，违反了主要的基本假设。因此，我们提出了ICG，一种新颖的概率跟踪器，它融合了区域和深度信息，只需要物体的几何形状。我们的方法使用对应线和点来迭代地改进姿态。我们还实现了鲁棒的遮挡处理，以提高在实际环境中的性能。在YCB-Video、OPT和Choi数据集上的实验证明，即使对于有纹理的物体，我们的方法在准确性和鲁棒性方面也优于当前的最新技术。同时，ICG具有快速收敛和出色的效率，在单个CPU核心上每帧只需1.3毫秒。最后，我们分析了各个组件的影响，并讨论了与基于深度学习的方法相比的性能。我们的跟踪器的源代码是公开可用的。01. 引言0对于机器人操作和增强现实中的许多应用，了解相关物体的六自由度（6DoF）姿态是至关重要的。为了以高频率提供这些信息，使用3D物体跟踪。其目标是根据连续的图像帧给出物体的3D模型，估计物体的位置和方向。在实际应用中，遮挡、运动模糊、背景杂乱、无纹理表面、物体对称性和实时要求仍然是困难的问题。多年来，已经开发了许多方法[29,69]。它们可以通过使用关键点、边缘、直接优化、深度学习、物体区域和深度图像来区分。虽然基于关键点的方法[38, 47, 48, 54, 61]等等，0图1.用于机器人操作的五边形物体的跟踪。左侧的图像显示了预测姿态下物体模型的叠加。右侧的图像中，像素属于背景的概率以灰度图像的形式编码。对应线以黄色显示，高概率以红色表示。投影的对应点以蓝色表示。0过去，边缘[12, 17, 20, 52]和直接优化[1, 13, 34,53]非常流行，但存在多个缺点。关键点和直接优化都不适用于无纹理的物体。另一方面，基于边缘的方法通常难以处理背景杂乱和物体纹理。反射和运动模糊会导致纹理和边缘的外观变化，进一步产生问题。为了克服这些问题，提出了使用卷积神经网络（CNN）的数据驱动技术[15, 31, 62,64]。虽然大多数这些方法需要大量计算资源和详细的3D模型，但它们取得了有希望的结果。对于在杂乱环境中跟踪无纹理物体，基于区域的技术也变得非常流行[42, 56, 60,73]。此外，消费级深度传感器的出现使得不依赖纹理的额外跟踪器成为可能[11, 24, 37, 51,66]。最后，虽然所有这些方法都可以独立使用，但许多方法展示了结合不同技术的好处[25, 26, 44,59]。过去的研究表明，区域和深度的组合对于跟踪无纹理物体具有巨大潜力[25,44]。然而，基于区域的技术存在一些问题。,(1)68560虽然近年来技术在效率和质量方面取得了很大改进[55,56]，但目前还没有最新的综合方法。因此，在接下来的工作中，我们基于当前的发展提出了一种高效的方法ICG，该方法融合了基于区域的对应线和基于深度的对应点的几何信息。图1显示了所使用的对应关系的示例。通过对三个不同数据集进行详细评估，我们的方法在与传统方法和基于深度学习的技术相比表现出了最先进的性能。此外，鉴于过去只进行了少数这样的比较，我们能够对当前基于深度学习的物体跟踪和姿态估计的现状有新的认识。02. 相关工作0在接下来的内容中，我们将对基于区域、深度和深度学习的技术进行概述。基于区域的方法通常使用颜色统计来建模像素属于对象或背景的概率。然后，优化对象姿态以最好地解释图像的分割。早期的方法将分割和优化分开处理[6, 46,50]，随后的工作[14]将这两个步骤结合起来。之后，基于[3]的像素级后验成员资格被用来开发PWP3D[42]。基于这种方法，开发了多种结合了深度信息[25,44]、边缘[30, 57]、惯性测量[41]或使用直接优化[32, 33,72]的组合方法。此外，还建议对概率分割模型进行定位[22,60,73]。还提出了不同的优化技术，如粒子滤波器[71]、Levenberg Marquardt[41]、GaussNewton[60]或带有Tikhonov正则化的Newton[55,56]。最后，从[25]的思想出发，通过开发稀疏跟踪器SRT3D [55,56]解决了基于区域的方法的效率问题。基于深度的方法试图最小化3D模型表面与深度相机测量值之间的距离。通常使用基于迭代最近点（ICP）框架[2,9]的方法。虽然存在许多变种[40,49]，但所有算法都是迭代地建立对应关系并最小化相应的误差函数。对于跟踪，投影数据关联[4]和点到平面误差度量[9]非常常见[25, 37, 39,59]。除了对应点和ICP，还经常使用利用有符号距离函数的方法[18, 44, 45, 51]。此外，使用粒子滤波器[10, 11, 27,66]或鲁棒高斯滤波器[24]而不是基于梯度的优化的方法也非常流行。虽然深度学习在6DoF姿态估计方面取得了巨大成功[21, 28, 58, 63,68]，但纯跟踪方法只是最近才提出的。许多方法受到姿态细化的启发，预测对象渲染和后续图像之间的相对姿态[31,35,064]。此外，PoseRBPF[15]使用基于姿态的潜在代码的Rao-Blackwellized粒子滤波器[58]，而6-Pack [62]跟踪基于锚点的关键点。03. 概率模型0在本节中，介绍了数学概念和使用的符号。接下来解释了稀疏视点模型。最后，推导出了区域和深度的概率密度函数（PDF）。03.1. 准备工作0在这项工作中，我们使用 XXX = [X Y Z] � ∈ R3 和0使用齐次形式的矩阵表示为 � X � X � X = [X Y Z 1] �03D模型点。图像坐标 xxx = [x y] � ∈ R20从相应的彩色和深度图像中获取颜色值 yyy = I(c(xxx))和深度值 dZ =I(d(xxx))。根据针孔相机模型，将3D模型点投影到无畸变图像中，如下所示0xxx = πππ(XXX) =0�XZfx + pxxYZfy+ py0�0其中fx和fy是焦距，px和py是主点坐标。为了描述两个参考帧A和B之间的相对姿态，使用了齐次矩阵ATTTB ∈SE(3)。它将3D模型点转换如下：0A�XXX = ATTTB�XXX =ARRRBAtttB00010�0B�XXX, (2)0与A�XXX和B�XXX分别表示在坐标系A和B中的点。旋转矩阵ARRRB ∈ SO(3)和平移向量AtttB ∈R3定义了从B到A的变换。在本文中，M、C和D将用于表示模型、彩色相机和深度相机的坐标系。对于模型参考帧M中姿态的小变化，我们使用以下最小表示：0M�XXX(θθθ) = MTTT(θθθ)M�XXX =I+ [θθθr] × θθθt 000 10�0M�XXX, (3)0�03.2. 稀疏视点模型0为了保证效率并避免在跟踪过程中渲染3D模型，我们使用稀疏视点模型来表示几何形状[56]。在生成过程中，物体从大量的虚拟相机上渲染，这些相机放置在一个大圆网格的顶点上。psi(rs) =�yyy∈sssp(yyy | mi)ysp(yyy | mf) +ysp(yyy | mb),i ∈ {f, b},hf(x) = 12 − αh tanh� x2sh�,(5)hb(x) = 12 + αh tanh� x2sh�,(6)CXXX(θθθ) = CTTT MMTTT(θθθ)MXXX,ds(θθθ) =�nnn⊤ πππ CXXX(θθθ) − ccc− ∆r� ¯ns ,(8)p(ds(θθθ) | ωs,lll) ∝�rs∈ωs�i∈{f,b}hi�rs − ds(θθθ)�psi(rs),(9)p(θθθ | ωs,lll) ∝ p(ds(θθθ) | ωs,lll)shs2σ2r ¯n2 .(10)68570r0rs−10d(θθθ)0ds(θθθ)20∆r0cccnnn0XXX(θθθ)0图2.将对应线从图像空间投影到尺度空间。对应线由中心ccc和法向量nnn定义。沿着对应线的像素被组合成段，用蓝色和黄色表示。每个段中的像素数量由尺度s =2指定。在可视化中，还显示了与对应线相关联的姿态相关的3D轮廓点XXX(θθθ)。它用于计算从估计的轮廓到中心ccc的距离d(θθθ)。从r到尺度空间rs的转换由虚线垂直线表示。请注意，空间通过∆r进行了平移，并根据s和线的角度进行了缩放。0与[59]类似，然后在渲染的轮廓和表面上随机采样图像坐标。对于每个坐标，都会重建3D点MXXX和3D法向量MNNN。这些向量与从相机指向模型中心的方向一起，对于每个视点都会存储。给定姿态估计，获取轮廓和表面表示就变成了搜索最接近的方向向量。03.3. 区域模态0在接下来的工作中，我们采用了SRT3D的基于区域的方法[55,56]，并对其进行了修改以加入用户定义的不确定性。一般来说，SRT3D沿着所谓的对应线lll稀疏地考虑区域信息，这些对应线穿过了估计的物体轮廓。类似于图像函数IIIc，对应线将坐标r ∈ R映射到颜色值yyy =lll(r)。每条线由图像空间中的中心ccc ∈ R2和法向量nnn ∈R2定义。这两个向量是通过将3D轮廓点XXX和相关的3D法向量NNN从稀疏视点模型投影到图像中来计算的，以建立对应关系。为了使对应线更加高效，SRT3D引入了一个尺度空间的表达形式，将多个像素值yyy组合成段sss。像素的数量由尺度s ∈N+定义。此外，线的坐标r被缩放和平移，使得对应线不依赖于其方向和亚像素位置。如图2所示。与大多数基于区域的方法一样，颜色统计信息用于区分前景和背景。概率p(yyy | mf)和p(yyy |mb)使用归一化的颜色直方图进行近似。它们描述了像素颜色yyy属于前景的可能性。0或背景模型 m f 或 m b。基于这些概率，计算出段的后验概率0(4) 其中段 sss 由坐标 r s定义。该值描述了特定段属于前景还是背景的概率。除了这些测量值之外，还开发了依赖于物体轮廓位置的理论概率。它们由平滑阶跃函数建模0其中振幅参数 α h ∈ [0 , 0 . 5] 以及斜率参数 s h ∈ R +。使用变化的3D模型点0从估计的轮廓到对应线中心 ccc的距离在尺度空间中近似如下0其中 ¯ n = ∥ nnn ∥ max投影到最接近的水平或垂直图像坐标，并且 ∆ r ∈ R是到定义的像素位置的偏移量。变换的示意图如图2所示。最后，基于这些函数，SRT3D估计了缩放轮廓距离的概率密度函数0其中 ω s是考虑的对应线域。请注意，此概率密度函数在尺度空间中定义。根据[55]中的证明，我们知道，在一定条件下，概率密度函数的方差等于平滑阶跃函数 h f 和 h b 的斜率参数 sh 的定义。给定这个方差，像素单位的期望无标度方差为 σ2 = s h s 2 / ¯ n 2。与以往的工作不同，我们希望对应线与尺度和斜率参数无关。这样做的好处是，对于所有的对应线，方差都以相同的像素单位定义。此外，我们还希望定义区域模态的置信度。引入用户定义的标准差 σ r，将公式（9）中的概率密度函数进行缩放，如下所示0该公式有助于将区域模态与其他信息融合在一起，给定一个定义的不确定性。此外，如附录所示，与 SRT3D相比，它改善了结果。p(θθθ | PPP) ∝ exp�−12d2Zσ2d�MNNN ⊤�MXXX−MPPP(θθθ)��2�(11)MPPP(θθθ) = MTTT( θθθ)MTTT DDPPP.(12)p(θθθ | DDD) =p(θθθ | ωsi,llli)p(θθθ | PPP i),(13)ˆθˆθˆθ =�− HHH +�λrIII3000000λtIII3� �−1ggg,(14)ATTT +M = ATTT M�exp([ˆθˆθˆθr]×)ˆθˆθˆθt0001�,A ∈ {C, D}.(15)685803.4. 深度模态0基于 ICP [2,9]，深度模态从搜索对应点开始。类似于投影数据关联[4]，首先将稀疏视点模型的3D表面点 X X X投影到深度图像中。在给定用户定义的半径和步长的情况下，重建一个二次区域内的多个3D点。最后，选择一个与点 XX X 最接近的对应点 PPP ∈ R 3。距离大于阈值的对应点将被拒绝。请注意，还测试了诸如法向量投射[9,19]，基于中值距离[16]、最佳百分比[43]和法向量兼容性[70]的拒绝策略等技术。然而，最终发现这个简单的过程效果最好。对于概率模型，我们制定了一个使用点到平面误差度量[9]的正态分布。3D表面点 X X X 与对应点 PPP之间的距离是沿着关联法向量 NNN 计算的。给定对应点PPP ，姿态变化向量 θθθ 的概率可以写成0其中0请注意，用户定义的标准差σd被对应点PPP的深度值dZ缩放。这种缩放考虑到深度测量的数量和质量随着与相机的距离增加而减少。此外，它还确保与区域模态的不确定性相容，后者随着相机距离的增加而增加。在公式（11）中，我们变化的是对应点PPP而不是模型。这样做的好处是法向量保持固定，只需要变化一个向量。基于区域和深度的推导出的概率密度函数，我们现在可以优化最能解释数据的姿态。04. 优化0接下来，我们首先介绍用于最大化概率的带有Tikhonov正则化的牛顿方法。随后，我们定义在此优化中所需的梯度向量和Hessian矩阵。04.1. 带有正则化的牛顿方法0假设两种模态的测量是独立的，联合概率函数可以写成0nr �0nd�0其中，DDD是考虑的数据，nr和nd是使用的对应线和对应点的数量，0模型0物体0图像平面0图3.对应几何体的优化。对于蓝色表面点和法向量，给定红色对应点的概率由正态分布表示。对于黄色对应线，使用离散分布表示。因此，3D轮廓点的位置被投影到图像平面上。在优化过程中，最大化联合概率。0因此，对应线和对应点的联合优化在图3中进行可视化。为了最大化概率，执行多次迭代，计算变化向量ˆθˆθˆθ并更新物体姿态。在每次迭代中，使用带有Tikhonov正则化的牛顿方法，如下所示0其中，ggg是梯度向量，HHH是Hessian矩阵，λr和λt是旋转和平移的正则化参数。梯度向量和Hessian矩阵分别定义为公式（13）中联合概率函数的一阶和二阶导数。牛顿公式的一个重要优势是，通过Hessian矩阵，可以在所有维度上考虑不确定性。这意味着除了使用σr和σd对两种模态进行加权之外，还考虑了每个对应关系对不同方向的约束程度。此外，Tikhonov正则化作为先验概率控制我们对先前姿态的信任程度。对于信息较少的方向，这种正则化有助于保持优化的稳定性。最后，根据知道ˆθˆθˆθr对应于轴角表示的旋转向量的事实，我们可以使用指数映射来更新姿态，如下所示0请注意，通常情况下，使用公式（15）计算相对于彩色相机或深度相机的姿态。然后使用已知的相对变换来更新另一个姿态。04.2.梯度和Hessian矩阵0因为在计算梯度向量和Hessian矩阵时应用了对数，所以乘积变成了求和，根据公式(13)，我们可以写成：19)gggdi = −HHHdi = −68590求和，基于公式(13)，我们可以写成：0ggg=0i=1gggri+0i=1gggdi, (16)0HHH=0i=1HHHri+0i=1HHHdi, (17)0其中gggri和HHHri是根据区域模态的各个对应线计算得出的，gggdi和HHHdi基于深度模态的对应点计算得出。对于区域模态，我们应用链式法则计算梯度向量和Hessian矩阵，如下所示：0gggri=shs20σ2r¯n2i0∂ln[p(dsi|ωsi,llli)]0∂dsi0∂dsi∂CXXXi0∂CXXXi/∂θθθ0θθθ=000,(18)0H H H ri≈shs20σ2r¯n2i0∂2ln[p(dsi|ωsi,llli)]0∂dsi20∂dsi0∂CXXXi0∂CXXXi/∂θθθ0�0∂dsi0∂CXXXi0∂CXXXi/∂θθθ0θθθ=000.0注意，与[55]类似，我们忽略了dsi和CXXXi的二阶偏导数。使用公式(7)和(8)，可以计算出以下一阶偏导数：0∂dsi∂CXXXi=¯0s10CZ2i0nxi fx CXi nyi fy CYi0−nxi fx CXi−nyi fy CYi, (20)0∂CXXXi/∂θθθ = CRRRM−[MXXXi]×III3. (21)0为了估计后验概率分布p(dsi|ωsi,llli)的一阶和二阶偏导数，我们使用与[56]中相同的技术，并区分全局优化和局部优化。对于全局优化，通过对dsi进行采样，计算均值μi和方差σ2i以近似正态分布。基于这个正态分布，计算导数如下：0∂ln[p(d0∂dsi≈−10σ2i(dsi−µi)，(22)0∂2ln[p(0∂dsi2≈−10σ2i. (23)0对于局部优化，使用与dsi最接近的离散距离dsi和dsi的两个概率值来近似计算一阶偏导数，如下所示：0∂ln[p(d0∂dsi≈αs0σ2iln[p(d+si|ωsi,llli)0p(d−si|ωsi,lll0, (24)0其中αs是用户定义的学习率。根据公式(23)再次计算二阶偏导数。0最后，对于深度模态，可以使用公式(11)和(12)计算梯度向量和Hessian矩阵：0d2Zσ2dMNNN�iMXXXi−MPPP i ×MNNNi0, (25)0d2Zσ2d0MNNNi0MNNNi0� . (26)05. 实现0下一部分提供了实现细节，讨论了如何使用ICG进行姿态细化，并解释了如何处理遮挡。对于我们的实现，我们基于SRT3D[56]的代码进行构建。为了生成稀疏视点模型，对象从2562个虚拟相机中渲染，这些相机位于以0.8m为距离的等距离正二十面体网格上。对于每个视图，采样轮廓和表面点，并近似法线向量。对于轮廓点，还计算了沿法线向量的前景和背景不中断的距离。为了确保在对应线上只存在一个过渡，拒绝了至少有两个距离小于3个线段的线。前景和背景的两个颜色直方图由4096个等距离的箱子离散化。在跟踪过程中，我们使用[3]的在线适应方法，在计算出最终姿态后以学习率α =0.2更新直方图。除了跟踪，我们的算法还可以用于姿态细化。在这种情况下，我们在建立对应关系之前的每次迭代中初始化直方图。由于我们不进行连续更新，直方图的质量不如跟踪时那么好。然而，它们仍然包含有助于算法收敛的有用信息。在补充材料中提供了展示姿态细化性能的实验。对于区域模态，概率分布p(dsi | ωsi, llli)在12个离散距离值dsi∈ {−5.5, −4.5, ...,5.5}上进行评估。在计算每个概率值时，我们使用了对应于x∈ {−3.5, −2.5, ...,3.5}的8个预计算的平滑阶跃函数hf和hb的值。此外，我们定义了斜率参数sh = 0.5，振幅参数αh = 0.43和学习率αs=1.3。为了找到深度模态的对应点，考虑到具有步幅为5mm和半径等于对应阈值rt的二次网格上的图像值。这两个参数值是基于3D表面点的深度将米投影到像素。距离大于阈值rt的对应点被拒绝。有效的对应关系然后在正则化参数λr =1000和λt = 30000的优化中使用。68600遮挡0跟踪对象0模型0图4.遮挡处理策略的可视化。对于每个蓝色模型点，考虑的区域由蓝线和虚线灰色锥体定义。每个锥体中的下黄线可视化从模型偏移计算得到的深度值，而上黄线则添加了用户定义的阈值。红线表示来自相机的最小深度测量。对于右侧的点，检测到遮挡，因为红色深度测量值小于黄色中的预期值。0为了找到最终的姿态，我们进行4次迭代来建立对应关系。对于每次迭代，可以调整标准差σr和σd、比例s和阈值rt。这允许我们定义对数据的信心以及考虑区域和深度信息的范围。许多特征，如分辨率、深度图像质量或帧与帧之间的姿态差异，取决于序列。因此，我们针对每个数据集调整参数，并在评估部分提供它们。最后，在每次迭代中，进行两个优化步骤。对于区域模态，第一步使用全局优化，第二步使用局部优化。在许多实际情况下，对应线和对应点会受到遮挡的影响。基于深度相机的测量和3D模型点的估计位置，可以检测到遮挡。首先，在20×20mm的二次区域内计算基于25个深度图像值的最小深度。类似地，在模型生成过程中，计算采样模型点的深度与20×20mm二次区域内的最小深度之间的偏移量。最后，我们能够拒绝深度模型点减去预计偏移量和用户定义的30mm阈值小于测量最小深度的对应关系。考虑到值的区域使得该技术对于缺失的深度测量和物体表面的大的局部深度差异具有鲁棒性。在没有深度图像的情况下，可以使用深度渲染。策略的示意图如图4所示。06. 评估0在本节中，我们对YCB-Video数据集[68]、OPT数据集[67]和Choi数据集[10]上的方法进行了广泛的评估。我们评估了ICG相对于现有技术的鲁棒性、准确性和效率。此外，我们进行了消融研究，证明了各个组件的重要性。0最后，我们解释了我们方法的局限性。请注意，在补充材料中，我们还展示了区域模态和Choi数据集的进一步结果。此外，我们讨论了ICG在姿态细化方面的性能以及我们的跟踪器与现代6DoF姿态估计算法的比较。在提供的视频1中展示了YCB-Video数据集和现实世界中的定性结果。06.1. YCB-Video数据集0YCB-Video数据集[68]包含21个YCB物体[8]，并在12个序列上进行评估，共有2949个关键帧。由于包含了额外的训练序列，它在基于深度学习的方法中非常受欢迎。在评估中，计算传统和对称平均距离误差e ADD和e ADD-S[23]，如下所示：0e ADD = 10n0n�0i=10��M�X�X�Xi−MTX�X�Xi�03×1��2，(27)0e ADD-S = 10n0i=1 minj∈[n]0��M�X�X�Xi−MTX�X�Xj�03×1��2，(28)0其中MTTTMgt是地面真值和估计模型姿态之间的差异，XXXi是物体网格的一个顶点，n是顶点数。根据这些单帧的误差度量，[68]报告了ADD和ADD-S曲线下面积得分。它们可以计算如下：0s i = 10m0j=1 max 1−eij0e t，0，(29)0其中i∈{ADD，ADD-S}，相应的帧误差eij，帧数m和阈值et=0.1m。在YCB-Video数据集上的评估结果如表1所示。对于我们的算法，我们使用参数σr={25，15，10}，σd={50，30，20}，s={7，4，2}和rt={70，50，40}，其中数值以像素和毫米为单位给出。我们的方法与PoseCNN[68]、基于粒子滤波的方法[66]和[24]以及基于深度学习的3D物体跟踪的当前最新技术[31]、[64]和[15]进行比较。评估结果显示，ICG在ADD-S指标方面取得了最先进的结果，优于所有其他算法。对于ADD得分，无纹理的方法具有明显的劣势，因为对于某些物体，几何形状不确定。例如，不使用纹理无法确定旋转对称物体的旋转。然而，即使在这种劣势下，ICG也超过了基于纹理的方法PoseCNN和DeepIM。它的结果非常接近PoseRBPF的结果。最后，只有se(3)-TrackNet能够表现得更好。为了充分利用现代相机的频率，同时跟踪多个物体并节省资源，在现实世界的应用中，效率至关重要。因此，我们报告了所有算法的速度和所需硬件。PoseRBPF +SDF [15]ICG (Ours)PoseCNN+ICP+DeepIM [68]✗0.1 HzW¨uthrich [66]✓✓12.9 HzRGF [24]✓✓11.8 HzDeepIM [31]✗12.0 Hzse(3)-TrackNet [64]✗90.9 HzPoseRBPF [15]✗7.6 HzICG (Ours)✓✓788.4 HzPWP3D [42]5.875.553.923.585.365.815.01ElasticFusion [65]1.901.531.692.701.571.861.87UDP [5]8.496.795.255.976.102.345.82ORB-SLAM2 [36]13.4415.5311.2017.2810.419.9312.97Bugaev [7]14.8514.9714.7114.4812.5517.1714.79Tjaden [60]8.8611.7611.9910.1511.9013.2211.31Zhong [73]9.0112.2411.2113.6112.8315.4412.39Li [30]9.0014.9213.4413.6012.8510.6412.41SRT3D [56]17.4116.3613.0215.6415.7368610表1. 在YCB-Video数据集[68]上使用ADD和ADD-S曲线下面积得分的结果，以百分比表示。除了PoseRBPF[15]之外，结果都来自[64]。对于DeepIM[31]，将所有帧的得分调整为与其他方法的评估一致。没有确定几何形状的物体用�表示，没有或几乎没有纹理的物体用�标记。0方法 PoseCNN + ICP + DeepIM [ 68 ] W¨uthrich [ 66 ] RGF [ 24 ] DeepIM [ 31 ] se(3)- TrackNet [ 64 ]0初始姿态 - 真实姿态真实姿态真实姿态真实姿态 PoseCNN 真实姿态重新初始化 - 否否是（290）否是（2）否0物体 ADD ADD-S ADD ADD-S ADD ADD-S ADD ADD-S ADD ADD-S ADD ADD-S ADD ADD-S0002主厨罐头�78.0 96.3 55.6 90.7 46.2 90.2 89.0 93.8 93.9 96.3 89.3 96.7 66.4 89.7 003饼干盒91.4 95.3 96.4 97.2 57.0 72.3 88.5 93.0 96.5 97.2 96.0 97.1 82.4 92.1004糖盒97.6 98.2 97.1 97.9 50.4 72.7 94.3 96.3 97.6 98.1 94.0 96.4 96.1 98.4 005番茄汤罐头�90.3 94.8 64.7 89.5 72.4 91.6 89.1 93.2 95.0 97.2 87.2 95.2 73.2 97.3006芥末瓶97.1 98.0 97.1 98.0 87.7 98.2 92.0 95.1 95.8 97.4 98.3 98.5 96.2 98.40007金枪鱼罐头�92.2 98.0 69.1 93.3 28.7 52.9 92.0 96.4 86.5 91.1 86.8 93.6 73.2 95.8 008布丁盒83.5 90.6 96.8 97.9 12.7 18.0 80.1 88.3 97.9 98.4 60.9 87.1 73.8 88.9009明胶盒98.0 98.5 97.5 98.4 49.1 70.7 92.0 94.4 97.8 98.4 98.2 98.6 97.2 98.8 010罐装肉82.2 90.3 83.7 86.7 44.1 45.6 78.0 88.9 77.8 84.2 76.4 83.5 93.3 97.3 011香蕉�94.997.6 86.3 96.1 93.3 97.7 81.0 90.5 94.9 97.2 92.8 97.7 95.6 98.4 019水壶底座�97.4 97.9 97.3 97.7 97.9 98.2 90.4 94.7 96.8 97.5 97.7 98.1 97.0 98.8 021漂白剂清洁剂91.6 96.995.2 97.2 95.9 97.3 81.7 90.5 95.9 97.2 95.9 97.0 92.6 97.5 024碗��8.1 87.0 30.4 97.2 24.2 82.4 38.8 90.6 80.9 94.5 34.0 93.0 74.4 98.4 025杯子�94.2 97.6 83.2 93.3 60.0 71.283.2 92.0 91.5 96.9 86.9 96.7 95.6 98.5 035电钻97.2 97.9 97.1 97.8 97.9 98.3 85.4 92.3 96.4 97.4 97.8 98.2 96.7 98.5 036木块81.1 91.5 95.5 96.9 45.7 62.5 44.3 75.4 95.296.7 37.8 93.6 93.5 97.2 037剪刀�92.7 96.0 4.2 16.2 20.9 38.6 70.3 84.5 95.7 97.5 72.7 85.5 93.5 97.30040大记号笔�88.9 98.2 35.6 53.0 12.2 18.9 80.4 91.2 92.2 96.0 89.2 97.3 88.5 97.80051大夹具�54.2 77.9 61.2 72.3 62.8 80.1 73.9 84.1 94.7 96.9 90.1 95.5 91.8 96.9 052超大夹具�36.5 77.8 93.7 96.6 67.5 69.7 49.3 90.3 91.7 95.8 84.4 94.1 85.9 94.3061泡沫砖�48.2 97.6 96.8 98.1 70.0 86.5 91.6 95.5 93.7 96.7 96.1 98.3 96.2 98.50所有帧 80.7 94.0 78.0 90.2 59.2 74.3 82.3 91.9 93.0 95.7 87.5 95.2 86.4 96.50表2. 每秒帧数和CPU、GPU的硬件要求的平均速度。除了PoseRBPF [15 ]，结果来自[ 64 ]。PoseRBPF在没有SDF的情况下进行了评估。0方法单核心无GPU FPS0在表2中。ICG的评估是在Intel Xeon E5-1630 v4CPU上进行的。相比之下，[64]使用了Intel Xeon E5-1660v3 CPU和NVIDIA Tesla K40cGPU。结果显示了我们方法的出色效率。虽然ICG只在单个CPU核心上运行，但它的速度几乎比第二好的算法se(3)-TrackNet快一个数量级，后者需要高性能的GPU。06.2. OPT数据集0尽管YCB-Video数据集在真实环境中具有挑战性的序列和大量物体，但地面真值的准确性有限，而且在较大的阈值et =0.1m下，该数据集主要评估了鲁棒性。0表3.在OPT数据集[67]上的结果。报告的AUC分数在0到20之间进行了缩放，以匹配其他评估。结果来自[67]和相应的出版物。0方法 Soda Chest Ironman House Bike Jet Avg.0ICG (我们的方法) 15.32 15.85 17.86 17.92 16.36 15.90 16.540此外，图像不包含运动模糊，有利于基于纹理的方法。OPT数据集[ 67]很好地补充了这些特性。它包括6个物体，并由552个带有显著运动模糊的真实世界序列组成。通过使用校准板获得了真实值。在评估中，使用ADD度量的曲线下面积，阈值为rt=0.2d，其中d是模型顶点之间的最大距离。最终值在0到20之间缩放。根据[ 67 ]，我们将其称为AUC分数。0评估结果在表3中报告。对于ICG，使用参数σr = { 15 , 5 ,1.5 }，σd = { 35 , 35 , 25 }，s = { 6 , 4 , 1 }，rt = { 50 ,20 , 10 }。此外，像[ 56]中一样，我们使用约束旋转对称的苏打物体01234565060708090100ADD-SADD0123456101214161820AUC012345610−210−210−110010110210368620表4. Choi数据集[ 10]上平移和旋转参数的平均均方根误差。结果来自于各自的论文。0方法 Choi [ 10 ] Krull [ 27 ] Tan [ 59 ] Kehl [ 25 ] ICG (我们的方法)0平移 [mm] 1.36 0.82 0.10 0.51 0.04 旋转 [度] 2.45 1.38 0.07 0.26 0.040表5. 我们算法关键组件的消融研究。0数据集Choi [ 10 ] OPT [ 67 ] YCB-Video [ 68 ]0实验平移旋转 AUC ADD ADD-S0原始 0.04 0.04 16.54 86.4 96.5 无区域 0.06 0.04 8.94 66.1 84.1 无深度 41.6523.39 15.88 26.6 42.8 无正则化 0.04 0.04 14.48 72.0 91.5 无遮挡手 - - - 77.6 91.90λr =70000。在评估中，ICG与使用不同信息源的最先进的经典方法进行比较，包括区域、边缘、纹理和深度。我们的方法在所有物体上表现最好或次好，并且在技术水平上有显著提高。06.3. Choi数据集0最后，我们还想评估我们方法的准确性。为此，使用了Choi[ 10]的模拟数据集，该数据集包含四个序列和完美的真实值。评估准确性时，计算x、y和z方向以及滚动、俯仰和偏航角的均方根误差（RMS）。在所有四个序列上的旋转和平移均值在表4中报告。详细结果在补充材料中提供。对于我们的算法，我们使用参数σr = { 5 }，σd = { 10 , 1 }，s = { 2 , 1}，rt = { 10}。请注意，由于数据集提供了完美的深度和无杂乱的彩色图像，结果必须被视为上限。然而，实验证明，只要数据足够好，该方法就具有高度的准确性。06.4. 消融研究0为了证明算法组件的重要性，我们对所有三个数据集进行了消融研究。该评估的平均结果在表5中提供。实验表明，尽管深度和区域模态在数据集之间的影响不同，但每种模态都对最终结果有显著贡献。此外，我们观察到，尽管在没有正则化的情况下，Choi数据集上的值保持不变，但它对于OPT和YCB-Video数据集的具有挑战性的序列非常重要。对于没有遮挡处理的情况，获得了类似的结果。最后，我们评估了我们方法的收敛性，结果显示在图5中。对于重视鲁棒性的YCB-Video数据集，算法仅经过两次迭代就收敛。0迭代次数0平移.旋转0图5. 收敛图显示YCB-Video、OPT和Choi数据集的最终结果，分别用红色、黄色和蓝色表示。0在Choi和OPT数据集上, 通过进行一次额外的迭代,可以获得准确的结果. 不论准确性和鲁棒性如何,快速收敛确保最多只需四次迭代即可获得优秀的结果.06.5. 限制0尽管ICG取得了显著的结果, 但仍存在一些限制. 首先,我们的方法需要跟踪对象的几何形状. 此外, 对于区域模态,对象必须与背景区分开来. 另外,深度相机必须为物体表面提供合理的测量值.如果物体在特定姿态附近的几何形状非常相似,则会出现另一个重要的限制. 自然地,仅使用几何信息无法在这种情况下预测正确的姿态. 最后,像许多使用线搜索的传统方法一样,该算法只能对六维联合概率分布进行局部观察. 因此,它受限于局部极小值,并且在连续帧之间的最大姿态差异上有限制.07. 结论0在这项工作中, 我们开发了ICG,一种高效的无纹理3D物体跟踪方法.该方法融合了区域和深度, 采用了基于概率的良好公式,能够以稳健的方式处理遮挡.尽管整体算法相对简单且计算量较小,但在多个数据集上表现出色, 在鲁棒性,准确性和效率方面超过了当前的最新技术.这更加引人注目的是,ICG在不使用纹理的情况下具有固有的劣势.假设纹理会进一步改善结果, 我们的评估表明,基于深度学习的技术尚未超越传统方法. 这尤其令人惊讶,因为这些算法可以在理论上直接考虑所有可用的信息,但

下载后可阅读完整内容，剩余1页未读，立即下载