没有合适的资源?快使用搜索试试~ 我知道了~
66970BCOT:一种无标记高精度3D物体跟踪基准0Jiachen Li 1,Bin Wang 1,Shiqiang Zhu 2,Xin Cao 1,Fan Zhong 1,Wenxuan Chen 2,Te Li 2 *,Jason Gu3和Xueying Qin 1 *01山东大学2浙江实验室3达尔豪斯大学0摘要0由于在没有使用标记的情况下注释真实场景中移动视频物体的准确3D姿态的困难,基于模板的3D物体跟踪仍然缺乏高精度的真实场景基准。在本文中,我们提出了一种多视图方法来估计真实移动物体的准确3D姿态,然后使用双目数据构建一个新的用于单目无纹理3D物体跟踪的基准。所提出的方法不需要标记,相机只需要同步,相对固定为交叉视图并进行校准。基于我们的物体中心模型,我们通过在所有视图中最小化形状重新投影约束来联合优化物体姿态,这大大提高了与单视图方法相比的准确性,并且甚至比基于深度的方法更准确。我们的新基准数据集包含20个无纹理物体,22个场景,404个视频序列和126K个在真实场景中捕获的图像。根据理论分析和验证实验,注释误差保证小于2mm。我们使用我们的数据集重新评估了最先进的3D物体跟踪方法,并报告了它们在真实场景中的性能排名。我们的BCOT基准和代码可以在https://ar3dv.github.io/BCOT-Benchmark/找到。01.引言0基于模板的3D物体跟踪旨在估计具有已知3D模型的移动物体的准确6自由度姿态。它是计算机视觉的一个基本任务[21],并广泛应用于需要高精度3D物体姿态的应用,如增强现实,机器人抓取等。尽管单帧6自由度姿态估计方法[32,41]的快速发展,但对于视频分析,3D跟踪可以更准确,更高效,因此是不可或缺的。由于在真实视频中注释移动物体的准确3D姿态很困难,这是一个巨大的挑战。0*通讯作者:秦学英(qxy@sdu.edu.cn)和李特(lite@zhejianglab.com)0图1。捕捉相机组由两个大致正交的相机组成。基于双目数据和提出的联合优化框架,我们可以组织带有精确注释的姿态作为红色轮廓渲染的基准。0以评估真实场景中的3D跟踪方法。以前的工作只使用合成数据集或低精度数据集,物体和相机的移动也受到限制。目前主要采用的数据集包括RBOT [38],OPT [45]和YCB-Video[47]。RBOT数据集是半合成的,其中包含在真实背景图像序列中渲染的移动物体,这可能与真实视频中的相机效果和物体运动不同。OPT数据集是真实捕获的,但物体周围有许多人工标记,并且不允许物体移动。YCB-Video是一个没有标记的真实RGB-D数据集;然而,它只包含静态物体,并且姿态注释包含显著错误,阻止其在高精度场景(许多AR应用所需)中使用。以上限制对于基于学习的跟踪方法[43,44]尤为重要,由于域差异以及对训练数据集中的视觉线索和物体运动的偏见。表1列出并比较了相关数据集,包括一些用于单帧姿态估计的数据集[1,13,14,18,47]。请注意,即使使用深度相机,仍然很难注释准确的3D姿态,这是由于深度误差引起的。66980用于跟踪物体序列帧的无标记深度室外动态物体数据集0Linemod [ 13 ] 真实 × � × × × 13 - 15K0Linemod Occlusion [ 1 ] 真实 × � × × × 8 - 1.2K0T-LESS [ 14 ] 真实 × � × × × 30 - 49K0HomebrewedDB [ 18 ] 真实 × � × × × 33 - 17K0TOD [ 27 ] 真实 × � × × × 20 - 64K0StereOBJ-1M [ 26 ] 真实 × × � × × 18 - 397K0YCB-Video [ 47 ] 真实 � � × × � 21 - 134K0OPT [ 45 ] 真实 × � × × � 6 552 101K0RBOT [ 38 ] 半合成 � × × � � 18 72 72K0BCOT(我们的方法)真实 � × � � � 20 404 126K0表1. 数据集比较。我们的BCOT基准是唯一提供动态物体的真实场景基准。该基准没有侵入性的人工标记,并包含室内和室外场景。0对于纹理缺失的物体,我们采用了一种基于形状的方法,该方法不依赖于视图之间的点对应关系。通过联合优化多个视图的形状重投影误差,我们解决了物体姿态的问题,提出了一种新颖的以物体为中心的姿态估计框架。基于我们提出的方法,我们贡献了一个新的3D跟踪基准,即BCOT(BinoCular ObjectTracking)基准,其中包含准确注释的真实视频,摄像机和物体都可以自由移动。BCOT基准的最大注释误差为2毫米,目前达到了最佳的注释精度。主要贡献可以总结如下。0•我们提出了一种多视图方法,可以估计真实视频物体的准确3D姿态。我们的方法是无标记的,适用于纹理缺失和移动的物体,从而提供了一种注释真实跟踪视频的方式。0•我们建立了一个具有高精度地面真实场景的3D跟踪基准,具有由理论分析和验证实验保证的注释准确性。0• 我们在提出的BCOT基准上全面评估了现有的SOTA3D物体跟踪方法。02. 相关工作0相关数据集。早期的3D跟踪算法通常使用自己收集的视频序列作为测试数据,这些数据规模小,很难反映算法的性能。近年来,一些大规模的3D物体跟踪数据集已经发布。RBOT数据集[ 38]是一个半合成数据集,具有真实场景背景和渲染的物体。它提供了绝对的GT姿态,但缺乏真实性。虚拟物体的运动轨迹也是预设的,所有序列共享相同的轨迹,限制了物体运动的多样性。OPT数据集[ 45]是一个真实场景数据集,它使用人工标记来计算GT姿态。然而,标记占据了大部分背景区域,使背景具有侵入性。基于单帧的姿态估计数据集[ 1 , 6 , 8 , 13 , 14 , 18 , 26 ,27 , 47],由于它们没有在序列上注释姿态,或者注释精度不足,无法有效评估3D跟踪方法。纹理缺失的单目3D物体跟踪。根据所使用的特征,纹理缺失的3D物体跟踪可以分为基于边缘的方法[ 2 , 5 , 9 , 29 , 34 , 39 , 40 , 42 , 46]和基于区域的方法[ 11 , 33 , 35 – 38 , 49]。还有一些基于特征融合的方法,明确地使用多个特征[ 23, 24 , 48 ]或隐式地使用多个特征[ 15 , 16 , 42]来获得更好的结果。近年来,一些基于深度学习的方法也得到了探索[ 4 , 7 , 25 , 43 , 44],但它们的性能仍然无法与基于传统特征的方法相媲美。多视图跟踪。多视图几何[ 10]在计算机视觉中被广泛应用,通过对应的特征匹配[ 13 ,14 , 17 , 28]来估计相机和物体的姿态。然而,对于纹理缺失的物体,由于无法提取和匹配稳定的点或边缘特征,这些约束将失效。Li等人[ 22 ]和Labb´e等人[ 20 ]提出了一个两步方法∆ξo = arg min∆ξo�∆ξo =arg min∆ξo�N=arg min∆ξo�66990他们提出了一种用于无纹理物体的多视图优化框架。他们首先使用每个单独相机下的图像特征估计物体姿态,然后在世界坐标系中最小化一个与图像特征无关的重建损失([20]使用二维投影点,[22]使用三维点)。这种策略将特征和坐标系分离,限制了精度。此外,它们是单帧姿态估计方法,其准确性低于跟踪方法。03. 多视图姿态估计0由于单视角基于 RGB的方法只能利用二维重投影误差进行三维姿态估计,在相机视角(Z 轴方向)上容易出现误差,如图 2所示。在多视图跟踪中,每个相机具有不同的视角,因此可以大大减小不确定性。03.1. 以物体为中心的模型0我们应该注意到,所有之前的三维跟踪方法都是基于相机坐标系来优化物体姿态的,无法直接建立多个相机之间的关联。因此,我们首先选择一个基本的坐标系。考虑到所有相机都直接与物体相关联,我们使用以物体为中心的坐标系 O o进行姿态优化,将物体模型的中心作为坐标原点,如图 2所示。请注意,物体模板坐标系 O t 与 O o 不同。O t的原点可以位于任何位置,由 CAD模型决定。同时,我们需要知道相机之间的相对位置。在这里,我们将基于相机坐标系 O c的模型称为以相机为中心的模型,将基于物体为中心的坐标系 O o的模型称为以物体为中心的模型。在使用多视图信息时,多个相机之间的坐标系不再是独立的。因此,姿态不能在每个相机坐标系 O c i 中独立估计,而应该基于基本坐标系 O o共同求解。下标 i表示相机索引。我们需要重新推导相机投影模型和姿态更新过程。在 O o 中,投影模型的公式为:0x = π(K(c T t˜X t) 3 × 1) (1)0= π(K(o T − 1 c o T c c T t ˜ X t) 3 × 1) (2)0= π(K(o T − 1 c ˜X o) 3 × 1) . (3)0X m 表示物体的三维点,下标 m 表示相应的坐标系 O m。˜ X = (X, Y, Z, 1) � 是 X =(X, Y, Z) � = ( ˜ X ) 3 × 1的齐次表示,π(X)=[X/Z, Y/Z] � 。0(a)0(b)0图 2. 单目三维跟踪的误差分析和消除。 (a)仅使用左视图进行优化时,预测的三维位置(灰色)与 GT位置(红色)非常不同,即使存在合理的视觉结果。这意味着在视线方向上存在较大的平移误差,其中在右视图中可以观察到重投影误差。 (b) 通过提出的联合优化框架,我们可以获得精确的 6自由度姿态,可以在每个图像上呈现出精确的轮廓。0x 是图像上的二维点,K 是预先校准的相机内参。n T m表示从 O m 到 O n 的坐标变换。特别地,c T t 也表示在O c 中的物体姿态。o T c 可以通过 O t、O o和初始姿态(即前一帧的姿态)计算得到。在实际应用中,也可以选择 O t、O c i 或其他统一的坐标系。03.2. 联合姿态估计0在 O o 中,单目能量函数的公式为:0x ∈ Ω F(x,ξ ′ c,o Tc),(4)0然后我们将更新的姿态增量∆ξ o 映射到O c 上,通过∆T c= c T o exp(ˆ∆ξ o)c T − 1 o。ξ ′ c 是O c中的初始姿态。F表示3D跟踪的任意能量函数,这里我们采用了[38]中介绍的基于区域的姿态估计方法。O o中的F可以重新表述为:0F(x,ξ ′ c,o0= -log�H e(Φ(x(ξo)0+(1-H e(Φ(x(ξ o))))Pb(x)�,(6)0它最小化了与渲染的形状模板Φ和估计的软物体分割P f,Pb 相对应的形状重投影误差。原始的[38]中的F与O c中的姿态ξ c 相关联,我们使用以物体为中心的模型将F与ξo 相关联,并求解O o中的姿态增量。对于多视图的情况,我们提出优化以下联合能量函数:0i = 10x ∈ Ω i F i(x,ξ ′ c i,o Tc i)(7)0x ∈ Ω F(x,ξ o),(8)67000其中N表示视图数量。Ωi表示每个视图中的优化点集。通过以物体为中心的模型,我们将每个视图中的所有优化点组合成一个优化区域Ω,其中所有采样点是独立的。方程7使用最大似然估计来最大化前景和背景之间的颜色概率差异,以解决姿态问题。通过取对数,它变成了一个求和。因此,所有采样点可以联合起来,方程8可以通过统一图像特征和坐标系来约束姿态。在跟踪过程中,物体可以自由移动。相机的移动需要讨论两种情况。第一种情况是相机的相对空间位置固定,相机之间的变换可以提前校准。第二种情况是相机自由移动。这时,我们需要在跟踪过程中实时校准相机。例如,在场景中放置一个人工标记物[19]或使用SLAM[30]或其他技术,但这种方式会引入校准误差。对于数据采集,我们更倾向于第一种方法,允许相机以固定的相对姿态移动(参见第4.3节)。优化。我们使用高斯-牛顿方法来求解联合能量函数。详细信息请参阅补充材料。04. BCOT基准测试0基于我们的高精度多视图跟踪方法,我们构建了BCOT基准测试。04.1. 数据采集0我们在数据采集阶段使用两台高分辨率、高速度相机(MER-131-210U3)同步拍摄图像,使用Cam1和Cam2进行指示。相机曝光时间为5毫秒(200FPS),因此不会出现运动模糊。图像分辨率为1280×1024。由于USB3.0接口的传输带宽限制,两台相机的图像只能以60FPS的速度存储,但存储速度不影响曝光时间。两台相机之间的夹角约为90度。它们在场景中的相对位置是固定的,并且我们提前进行了预校准。在采集过程中,相机组和物体可以在场景中自由移动。然后,我们使用Cam1和Cam2相机拍摄的双目图像对物体姿态进行注释。如图1所示,Cam1拍摄的图像是事先设计的复杂场景,而Cam2拍摄的图像是相对干净的背景,以提高注释精度。姿态注释过程不需要考虑计算效率。我们增加了数量0图3. BCOT基准测试中的3D模型。0(a)0(b)0图4. 摄像机布局:(a) 安装在三脚架上;(b) 安装在可移动支架上。0在优化过程中,我们使用了多次迭代以确保收敛。第一帧的初始姿态可以手动粗略设置。借助摄像机之间的空间位置关系约束,可以将其优化到精确值。我们在高帧率(60FPS)图像下逐帧标注物体姿态。此时,帧之间的姿态增量较小,可以获得更高的精度。在标注完整序列后,我们对帧和分辨率进行下采样,即30FPS,640×512分辨率。这种策略将标注出更精确的物体姿态。最后,我们向用户提供带有标注物体姿态的图像。通过这种方式,我们可以收集复杂场景的图像,并提供物体的精确姿态,而无需任何人工标记的干扰,确保场景和物体运动的真实性。04.2. 3D模型0BCOT基准测试包含20个物体,如图3所示。第一行是不规则物体,第二行是空心物体。最后三行是对称物体。真实物体是根据模型进行3D打印,并涂上单一颜色以确保纹理。x = fxZcXc + cx, y =cx and cy are constants, so Xc and Yc are proportional tox and y, respectively. In the original data of our bench-67010此外,所有物体都具有反射特性。模型边界框最长边的范围从91.7毫米到229.5毫米。04.3. 场景0BCOT基准测试包含多种场景属性和多种运动模式,部分组合成了总共22个场景。静态摄像机设置。场景中的摄像机设置是固定的,因此其背景基本上是静态的,只有少数物体在转盘上缓慢移动。场景中的物体可以自由移动。摄像机布局如图4(a)所示。可移动摄像机设置。摄像机设置固定在一个支架上,如图4(b)所示。摄像机之间的相对姿态是固定的,摄像机设置可以自由移动。其他配置与静态摄像机设置相同。在移动支架时,上面的摄像机可能会轻微晃动。因此,我们会缓慢移动支架以确保标注的精度。室内场景。对于室内场景,我们只提供由Cam1拍摄的图像,背景经过精心设计,如图1所示。同时,我们分别构建了简单场景和复杂场景。室外场景。对于室外场景,两台摄像机拍摄的图像具有相同的优先级,因此我们向用户提供两台摄像机拍摄的图像。运动模式。物体的运动主要分为三种模式。1)平移运动:将物体绑在玩具车上,同时操作车产生自由平移。2)悬挂运动:使用透明的钓鱼线将物体绑在上面进行悬挂运动。同时,移动顶点以产生随机运动和旋转。3)手持运动:人们手持物体自由移动。动态光照。在室内场景中,我们添加了动态光源以增加场景的复杂性。在室外场景中,不同时间的自然光会自然产生光照变化。遮挡。在悬挂运动模式中,我们同时绑定两个物体以创建相互遮挡。由于遮挡会影响我们的多视角跟踪方法的精度,在BCOT基准测试中遮挡序列较少。04.4. 数据后处理0在某些特定场景中,一些模型可能会面临相当大的挑战,例如反射、对称和快速旋转的场景,在这些场景中,我们的联合优化框架无法精确跟踪物体。如果原始分辨率图像上的投影误差大于2个像素,我们将丢弃该序列。在BCOT基准测试中,我们提供了404个有效序列。0数据集 RGB-D数据集 TOD [ 27 ] StereOBJ-1M [ 26 ] BCOT0误差 ≥ 17 毫米 3.4 毫米 2.3 毫米 < 2.0 毫米0表2. 3D空间中的标注误差04.5. 为什么使用双目数据?0决定我们跟踪精度的关键因素是相机之间的夹角(见第5.1节)。正交角度已经可以在空间中约束物体并消除姿态的不确定性。如果在正交相机之间添加其他相机,可能会引入新的不确定性以影响精度。如果相机在各个视角下均匀排列在空间中,可以最大程度地约束物体。但这也会带来存储和相机移动的限制,并且相机同步也会引入额外的误差。因此,为了平衡精度和可操作性,我们采用了两个相机。04.6. 错误分析0姿态标注的误差主要来自三个方面:相机之间的校准误差、相机同步和提出的多视角跟踪方法的估计误差。相机之间的校准是离线过程,因此可以认为是精确的。然后我们使用系统时钟来确保相机之间的同步。我们综合分析了由相机同步和姿态估计引起的误差。在双目数据中,我们通过观察物体轮廓的投影误差来分析标注误差。具有90°夹角的相机可以从3个方向约束物体,一个相机约束X轴和Y轴,另一个相机约束Z轴。理想情况下,注释姿态下的投影轮廓可以与每个图像中的物体轮廓精确对齐。可以从双目数据中观察到投影像素误差。然后我们使用公式1中的相机投影模型转换为空间位置误差。在公式中,c Tt是标注的物体姿态,将物体模板坐标系Ot转换为相机坐标系O c。c T t是刚性变换矩阵,˜ Xt是模型顶点,因此相机坐标系中的˜ Xc的误差等同于标注误差c Tt。然后我们扩展公式以获得映射关系:0Z c Y c + c y . (9)0Z c都在[1,2]之间,这意味着每个像素误差对应着0.5-1毫米的空间3D误差。Included AngleMono.5◦10◦20◦30◦45◦60◦90◦120◦5◦10◦30◦45◦The precision of the proposed joint optimization frame-work is the basis for the construction of the BCOT bench-mark. This section uses the synthetic data to prove thatthe method can obtain sufficient annotation precision. Thesynthetic data contains 4 objects, namely Cat, Clown,Driller and Squirrel, and there diameters are 127.6mm,142.3mm, 229.5mm, and 194.3mm. Each object includes3 modes of multi-view data, i.e.: 1) Object moves freely withfixed cameras, 2) Object rotates only with fixed cameras and3) Cameras move freely. Its resolution is 640×480px.Binocular tracking result. We first perform the binocu-lar tracking evaluation on the mode 1, as shown in Table 3.The basic camera C-0 and other cameras constitute binocu-lar data. C-0 to C-8 are on an arc, forming a plane with theobject. C-9 to C-12 are outside the plane, and C-0/C-1/C-9,C-0/C-2/C-10, C-0/C-3/C-11 and C-0/C-4/C-12 constitute4 sets of cone-type cameras with the object. The data inthe table is the average error of the two views, which alsoaveraged all 4 objects. Lost Number represents the numberof tracking failure, i.e., the rotation error is larger than 5◦,or the translation error is larger than 5cm, under the C-0 co-ordinate frame (first camera of the set). When the object islost, we reset the GT pose.The second column of Table 3 is the tracking result un-der C-0 with only monocular data. Overall, the rotationand translation errors of our binocular tracking graduallydecrease with the included angle increasing between 5◦ to90◦, and this tendency is especially obvious in the Z-axisdirection. When the included angle is 90◦, the Z-axis trans-lation error is 0.28mm, which is less than 2‰ of the diam-eter of the model.The object may be lost in the case that the camera in-cluded angle is small. This is because the uncertainty of thepose cannot be eliminated in a small view angle. As the in-cluded angle increases, while the object may be lost in oneview, the other view can constrain the object so that the jointoptimization will pull the object back to the correct pose.Multi-view tracking result. We further introduce the67020相机索引 C-0 C-0/C-1 C-0/C-2 C-0/C-3 C-0/C-4 C-0/C-5 C-0/C-6 C-0/C-7 C-0/C-8 C-0/C-9 C-0/C-10 C-0/C-11 C-0/C-120r(度)1.62 1.31 1.22 1.17 1.07 0.94 0.87 0.76 0.62 1.33 1.27 1.06 0.820tx(毫米)4.36 3.27 2.12 1.12 0.80 0.57 0.41 0.28 0.31 3.18 2.01 0.53 0.400ty(毫米)2.39 1.80 1.15 0.55 0.34 0.28 0.26 0.23 0.22 1.82 1.19 0.45 0.380tz(毫米)22.09 16.67 10.64 5.11 2.86 1.35 0.67 0.28 0.37 16.30 10.48 1.72 0.930丢失数量 21 15 10 4 1 0 0 0 0 18 11 0 00表3. 自由移动物体固定相机模式下的双目跟踪评估0在所有序列中,我们确保两个视图中的像素误差都在2个像素以内,因此所提出的基准的最大空间误差为2毫米,这是目前具有最高标注精度的基准。表2显示了与其他数据集相比的标注误差。RGB-D传感器的随机误差标准差为17毫米1,基于关键点的标注方法[27]和[26]的RMSE(均方根误差)分别为3.4毫米和2.3毫米。04.7. 评估指标0我们使用n◦、n cm和ADD指标来评估单目跟踪方法。n◦、ncm。当旋转误差小于n◦且平移误差小于ncm时,跟踪被认为是准确的[38]。通常将此值设置为5◦,5cm。如果大于此预设值,则将初始姿态重置为GT姿态。对于室内物体来说,5cm通常是一个较大的阈值,因此我们将调整n的值以重新评估单目3D跟踪方法。给定GT平移t和旋转R,以及预测的平移ˆt和旋转ˆR,定义平移误差和旋转误差如下:0e(R)= cos−102(trace � ˆ R � R � − 1)�.(11)0ADD度量。ADD度量[12]表示预测姿态中模型点与GT姿态之间的平均距离。当误差小于预设值时,认为跟踪正确。虽然我们的BCOT基准包含许多对称物体,但对于对称物体我们没有使用ADD-S度量,因为我们有前一帧的姿态作为先验信息。ADD度量的公式为:0ADD = 10M0� M0i=1∥(ˆ RX + ˆ t)−(RX +t)∥。(12)05. 实验0在本节中,我们对提出的联合优化框架和BCOT进行了详细评估。我们还在补充材料中展示了更多结果。我们的实验环境是一台配备Intel(R) Core(TM) i7-8565U@1.8GHz CPU、NVIDIA GeForce MX250 GPU和8GB RAM的笔记本电脑。01 Azure Kinect DK 硬件规格:https://docs.microsoft.com/en-us/azure/kinect-dk/hardware-specification05.1. 多视角跟踪评估67030图5.多视角跟踪结果。随着摄像机数量的增加,两种模式的误差趋势。0包含角度 单目 自由 自由 自由0相机索引 C-0 C-0/C-1 C-0/C-2 C-0/C-1/C-20r(°)1.47 0.59 0.80 0.500tx(毫米)1.18 0.24 0.26 0.210ty(毫米)1.22 0.26 0.18 0.160tz(毫米)12.96 0.78 0.33 0.320丢失数量 17 0 0 00表4. 相机自由移动模式下的多视图跟踪评估0分辨率(宽度) 320 640 1280 1920 2560 40960旋转(◦) 1.01 0.68 0.40 0.37 0.34 0.360平移(mm) 0.28 0.21 0.13 0.10 0.07 0.060误差(mm) 0.40 0.21 0.11 0.08 0.05 0.030平移(mm) 0.28 0.20 0.12 0.10 0.08 0.060丢失数量 0 0 0 0 0 00表5. 不同分辨率下的双目跟踪评估0当相机数量逐渐增加时,错误趋势的变化。我们以C-0为基本相机,根据以下两种模式添加相机,即从小到大添加相机包括角度(模式1,C-0/C-4/C-5/C-6/C-7),以及从大到小添加相机包括角度(模式2,C-0/C-7/C-5/C-6/C-4)。图5显示了平移和旋转的错误趋势。我们可以看到模式1的平移和旋转误差呈下降趋势。但是在模式2中,添加一个相机在现有相机之间可能会增加错误,特别是平移分量。此外,大多数情况下,多视图性能不如具有大包括角度的双目跟踪,即2个相机的绿点。所有这些都表明相机包括角度对跟踪精度有决定性影响。模式2的结果与模式1的结果一致。其他结果可以在补充材料中找到。相机自由移动。我们接下来评估相机自由移动模式。相机之间的相对变换不断变化,我们使用每个相机的真实姿态来计算它。平均误差显示在表4中。我们可以看到当两个相机自由移动时,我们的方法可以精确跟踪。精度略微提高。0通过扩展到3个相机来改进。这是因为跟踪过程中的一些小包括角度情况可能会增加误差,而添加具有较大包括角度的相机可以减少这种误差。总体而言,两个相机的自由移动已经可以满足一般场景下的多视图跟踪需求。不同分辨率的评估。表5显示了在双目跟踪下不同分辨率下的精度评估。我们使用Cat模型进行评估,由于其独特的结构,其误差低于平均误差。这里的相机包括角度为90◦,分辨率逐渐从320×240px增加到4096×3072px。随着分辨率的增加,旋转和平移的精度也逐渐提高。当分辨率为2560px时,每个轴的平移误差都小于0.1 mm,达到亚毫米级别。05.2. 在BCOT基准上的评估0BCOT基准示例。图6显示了BCOT基准的示例。红色轮廓根据注释姿态进行渲染,它可以与图像上的物体轮廓精确对齐。单目3D跟踪方法评估。表60显示了n◦、ncm和ADD度量的评估结果。ADD度量中的d表示物体模型边界框的最长边。对于表中的所有度量,如果旋转误差大于5◦或平移误差大于5cm,我们将重置GT姿态。所有方法均使用作者提供的代码。ACCV2020 [35]在5◦、5cm下实现了最高的准确性。然而,当遇到新物体时,它需要预渲染模板,这将耗费几分钟的时间。考虑到5◦、5cm对于跟踪来说是一个相对宽松的度量标准,我们进一步测试了2◦、2 cm下的准确性。我们发现TVCG2021[15]具有更高的旋转准确性,而ACCV2020[35]具有更高的平移准确性。图7显示了在不同ADD误差容限下的跟踪准确性。横轴的单位是模型的边长d。更详细的比较可以在补充材料中找到。05.3. 限制和未来工作0尽管我们的多视角联合优化框架可以实现足够的精度用于基准构建,但仍存在一些局限性。我们需要保持摄像机之间的关系相对固定以进行多视角跟踪,这限制了许多应用场景。在未来的工作中,我们将探索使用自由移动摄像机的高精度优化方法。对于BCOT基准,为了保证精度,物体的运动速度相对较慢。此外,目前还没有适当的方法来评估注释的旋转误差,我们将在未来的工作中进行探索。67040(a)0(b)0(c)0(d)0(e)0图6. BCOT基准的示例,红色轮廓根据注释姿态渲染:(a) Vampire Queen模型,静态摄像机组,简单场景,手持移动;(b)Flashlight模型,静态摄像机组,复杂场景,动态光照,平移运动;(c) Bracket模型,可移动摄像机组,复杂场景,悬挂运动;(d)Deadpool模型,可移动摄像机组,复杂场景,遮挡,悬挂运动;(e)Standtube模型,可移动摄像机组,户外场景,手持移动,提供两个视图。0方法 ADD − 0.02 d ADD − 0.05 d ADD − 0.1 d 5 ◦ , 5 cm 5 ◦ 5 cm 2 ◦ , 2 cm 2 ◦ 2 cm 时间(毫秒)0MTAP2019 [40] 5.5 32.7 64.6 54.4 54.9 97.8 12.4 13.7 77.9 8.80TPAMI2019 [38] 11.7 31.6 57.1 77.1 79.2 91.7 40.8 48.3 67.8 34.60CGF2020 [16] 12.0 31.3 57.5 84.1 85.1 95.7 45.1 55.1 70.1 33.00ACCV2020 [35] 10.9 45.5 76.9 89.0 89.3 99.5 46.0 49.5 87.8 3.50C & G2021 [23] 9.1 31.5 58.1 82.5 84.7 95.0 38.5 47.0 69.9 18.90JCST2021 [24] 14.4 38.1 65.7 87.0 88.1 97.2 50.2 57.3 77.2 38.50TVCG2021 [15] 15.6 39.8 66.1 87.1 88.5 96.3 51.4 59.0 76.4 34.80表6. 单目3D跟踪方法的比较。0图7. 在各种ADD误差容限阈值下的整体跟踪精度。06. 结论0我们提出了一个用于多视角无纹理3D物体跟踪的联合优化框架,基于该框架我们进一步构建了一个具有高精度注释姿态的真实场景基准。增加摄像机的包含角度以消除姿态不确定性是提高精度的关键。正交两个摄像机已经达到足够的精度,增加摄像机数量不会显著提高跟踪精度。我们在提出的BCOT基准上全面评估了SOTA3D物体跟踪方法。同时,该基准为深度学习模型训练提供了真实数据,为基于深度学习的跟踪方法的未来研究提供了可能。致谢:本工作得到了中国国家重点研发计划(No.2020YFB1708903),浙江实验室(No.2020NB0AB02)和中国自然科学基金(No.62172260)的部分支持。67050参考文献0[1] Eric Brachmann, Alexander Krull, Frank Michel, StefanGumhold, Jamie Shotton和Carsten Rother.使用3D对象坐标学习6D对象姿态估计. 在ECCV (2)中,计算机科学讲义的卷8690, 页536-551. Springer, 2014年. 1, 20[2] Changhyun Choi和Henrik I. Christensen.使用粒子滤波在特殊欧几里德群上进行鲁棒的3D视觉跟踪:关键点和边缘特征的综合方法. I. J. Robotics Res. , 31(4):498–519,2012. 20[3] Alberto Crivellaro和Vincent Lepetit.具有描述符字段的鲁棒3D跟踪. 在CVPR中, 页3414-3421.IEEE计算机学会, 2014年. 20[4] Alberto Crivellaro, Mahdi Rad, Yannick Verdie, KwangMoo Yi, Pascal Fua和Vincent Lepetit.从单目图像中稳定部分进行鲁棒的3D物体跟踪. IEEE Trans.Pattern Anal. Mach. Intell. , 40(6):1465–1479, 2018. 20[5] Tom Drummond 和 Roberto Cipolla.复杂结构的实时视觉跟踪. IEEE Trans. Pattern Anal. Mach.Intell. , 24(7):932–946, 2002. 20[6] Haoshu Fang, Chenxi Wang, Minghao Gou, 和 Cewu Lu.GraspNet-1Billion: 一个用于一般物体抓取的大规模基准. 在CVPR , 页码11441–11450. Computer Vi- sion Foundation /IEEE, 2020. 20[7] Mathieu Garon 和 Jean-Franc¸ois Lalonde. 深度6-DOF跟踪. IEEE Trans. Vis. Comput. Graph. , 23(11):2410– 2418, 2017.20[8] Till Grenzd¨orffer, Martin G¨unther, 和 JoachimHertzberg. YCB-M:一个用于物体识别和6DoF姿态估计的多摄像头RGB-D数据集. 在ICRA , 页码3650–3656. IEEE, 2020. 20[9] Chris Harris 和 Carl Stennett. RAPID - 一个视频速率的物体跟踪器. 在 BMVC , 页码1–6. BMVA Press, 1990. 20[10] Richard Hartley 和 Andrew Zisserman.多视图几何在计算机视觉中的应用 . Cambridge University Press,2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功