六自由度目标跟踪器的数据集和评估

22 浏览量更新于2023-10-14 收藏 1.48MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

一种六自由度目标跟踪器Mathieu Garon[0000−0003−1811−4156]、Denis Laurendeau[0000−0003−2858−5955]和Jean-FrancoisLalonde[0000−0002−6583−2364]⋆⋆你在哪里？抽象。我们提出了一个具有挑战性和现实的新数据集评估6自由度目标跟踪算法。现有的数据集显示出严重的局限性，特别是不切实际的合成数据，或具有大基准标记的真实数据，阻止社区获得最先进的准确图片。使用基于商业运动捕捉系统的数据采集管道，用于获取真实物体相对于KinectV2相机的准确地面真实姿态，我们构建了一个数据集，其中包含总共297个校准序列。它们在三种不同的情况被获取以评估跟踪器的性能：在人与对象之间具有挑战性的交互期间的稳定性我们进行了广泛的研究，深6自由度跟踪架构，并确定了一组最佳参数。我们增强了架构和训练方法来训练6-DOF跟踪器，该跟踪器可以鲁棒地概括训练期间从未见过的对象，并且与以前专门针对要跟踪的对象训练的方法关键词：3D物体跟踪，数据库，深度学习1介绍随着支持3D的增强现实设备的最近出现，在6个自由度（DOF）中跟踪3D对象是在过去几年中受到越来越多关注的问题。与可以使用来自整个场景的特征的基于SLAM的相机定位技术（现在在各种商业设备上稳健地实现）相反，6-DOF对象跟踪方法必须依赖于（通常是小的）对象上存在的特征，这使得其成为挑战问题。尽管如此，最近的方法在速度和准确性方面都表现出了巨大的性能[1不幸的是，获得6- DOF对象跟踪方法的性能的准确评估变得越来越困难，因为用于此目的的主要数据集上的准确度现在已经达到接近100%。Choi和Christensen于2013年推出[4]，他们的数据集由4个纯合成场景的短序列组成场景是由不切实际的，无纹理的背景与一个单一的彩色对象跟踪，导致无噪音⋆⋆我是你。garon. 2@ulaval. ca，denis. lauren d eau@gel. 你好。ca，jflalonde@gel. 你好。Ca2MathieuGaron，DenisLaurendeauandJean-FrancoisLal onde(a) [3]第四届中国国际汽车工业展览会Fig. 1. 用于评估6-DOF跟踪算法的数据集的比较。典型的RGB（顶部）和深度（底部）帧（a）Choi和Chris- tensen [4]的合成数据集，（b）Garon和Lalonde [3]的真实数据集，以及（c）我们的数据集。与以前的工作相比，我们的数据集包含由传感器捕获的真实对象，并且不使用校准板，因此模仿真实的现实世界场景。RGBD图像（参见图1-（a））。对象是静态的，并且相机以大范围运动围绕它旋转虽然一开始很有挑战性，但现在数据集基本上已经解决了RGBD的问题。例如，Kehl et al.[1]（2017）报告平移/旋转的平均误差为0.5mm/0。26 ◦，这是0.3mm/0. 1 ◦在Tan等人的工作。（2015）[5] ，他们自己报告了 Krull 等人设计的方法的 0.01mm/1 ◦ 改进。（2014）[6]。数据集上的现有技术已经达到了0.1mm/0的近乎完美的误差。07年12月[2]，强调了需要一个具有更具挑战性的场景的新数据集。Garon和Lalonde [3]介绍的另一个数据集包括用真实传感器捕获的真实对象的12个虽然相对于[4]的合成数据集的显著改进，但处理真实数据提出了始终提供对象的准确地面实况姿态为了获得该地面实况信息，他们的策略（也在6-DOF检测数据集[7，8]中采用）是使用具有基准标记的校准板。虽然这对于准确且容易地确定对象姿态是有用的，但是这具有将对象约束为位于大的平面表面上的不幸后果（图1）。1-（b））。在本文中，我们提出了一个新的数据集，允许系统评估6自由度跟踪算法在各种各样的实际情况下，而不需要校准板（图1）。1-（c））。我们的数据集比以前的工作大一个数量级：它包含11个真实对象的297个序列。序列被分成3个不同的场景，我们称之为稳定性，遮挡和相互作用。稳定性方案旨在量化跟踪器中的抖动程度。对象保持静止并放置在距相机的各种角度和距离受[3]启发的遮挡场景使对象在转盘上旋转并逐渐被平板遮挡闭塞范围从一种六自由度目标跟踪器的评估框架30%（未遮挡）到75%，从而在非常具有挑战性的情况下测试跟踪器最后，在交互场景中，一个人在摄像机前自由地移动物体（图11）。1-（c）），产生遮挡并改变对象速度。此外，我们还介绍了两个新的基于深度学习的6自由度实时对象跟踪器第一个是针对特定对象训练的，在新数据集上实现了最先进的性能第二，训练没有先验知识的对象跟踪，是能够实现的准确性，是与以前的工作专门训练的对象。这两个跟踪器依赖于相同的深度学习架构，仅在训练数据方面有所不同此外，我们的两个跟踪器都具有仅需要合成训练数据（即，训练不需要实际数据）。我们相信这是朝着训练通用跟踪器的方向迈出的令人兴奋的第一步，这些跟踪器不需要在训练时跟踪对象的知识。总之，本文为6-DOF对象跟踪带来了3个关键贡献1. 一种新的真实RGBD序列数据集，用于系统评估6- DOF跟踪算法，该算法比现有算法大一个数量级，并包含3种具有挑战性的场景;2. 用于跟踪6-DOF中的对象的实时深度学习架构，其比先前的方法更稳定且对遮挡更鲁棒;3. 一个通用的6-DOF对象跟踪器，在不知道要跟踪的对象的情况下进行训练，实现了与以前专门针对对象进行训练的方法相当的性能。2相关工作在6-D 0 F姿态估计中存在两个主要相关方面：单帧目标检测和多帧时间跟踪器。前者在文献中得到了很多关注，并受益于大量的公共数据集。最臭名昭著的数据集可以说是Linemod[7]，它提供了15个对象的网格模型和表面颜色。为了获得地面实况对象姿态，使用具有基准标记的校准板。从那时起，许多作者创建了类似但更具挑战性的基准[8然而，这些数据集不包含每个帧之间的时间和位移相关性，这使得它们不足以评估时间跟踪器。在时间跟踪的情况下，只有少数数据集存在的方法进行评估。如引言中所述，当前广泛使用的标准数据集是Choi和Christensen [4]的合成数据集，其包含在无纹理虚拟场景中渲染4个对象的4个序列。另一个可用的选项是Akkaladevi等人提供的选项。[11]他用Primesense传感器捕获了包含4个不同物体的场景的单个序列。然而，3D模型并不完整，并且不包括可以通过基于学习的方法利用的训练数据。最后，Garon和Lalonde [3]最近的工作提出了一个包含4个对象的公共数据集，其中包含4个具有杂波的序列和一个特定对象上具有受控遮挡的8个序列的附加集合。基准标记用于生成地面实况姿态4MathieuGaron，DenisLaurendeauandJean-FrancoisLal onde这限制了可以实现的位移范围。相比之下，我们提出了一种新的方法来收集地面实况姿态数据，使采集更简单，而不需要基准标记。6-DOF时间跟踪器越来越受到关注，因为它们被证明比单帧检测方法更快且更鲁棒。在过去，基于ICP [4，12-14]的几何方法数据驱动的方法，如[5，6，15]中报告的方法，可以学习更鲁棒的特征，并且使用随机森林回归器[16]显着降低了计算开销。其他方法表明，RGB和深度数据中对象的轮廓为估计姿态提供了重要线索[1，2，17]。虽然它们的优化技术可以是准确的，但对限制可以处理的对象类型和背景类型的特征进行了许多假设。最近，Garon和Lalonde [3]提出了一个深度学习框架，可以从数据中自动学习鲁棒特征。它们通过在运行时以先前姿势渲染3D模型来使用反馈循环，并且回归渲染对象和真实图像之间的姿势差异。虽然他们的方法在准确性方面与以前的工作相比，但他们学习的特征对更高水平的遮挡和噪声更鲁棒。缺点是他们的方法需要真实图像的数据集，并且必须为每个对象训练特定的网络，这可能很耗时。我们利用他们的架构，但引入新颖的想法，以提供一个性能更好的跟踪器，可以完全在合成数据上进行训练。此外，我们的网络可以被训练来推广到以前看不见的对象。3数据集捕获和校准在每个帧处构建具有相对于传感器的校准对象姿态的数据集是这是一项具有挑战性的任务，因为它需要一种准确的方法来收集地面实况对象姿态。到目前为止，实现这一任务最实用的方法是使用基准标记并校准这些标记的对象姿态[3，7然而，该方法具有两个主要缺点。首先，对象不能独立于面板移动，因此这限制了相机围绕感兴趣的对象移动。第二，场景总是包含视觉线索（标记），其可以自动地“定位”该算法。我们的方法消除了这些限制。使用ViconTM MX-T40运动捕获系统来收集场景中对象的地面真实姿态。必须使用的逆向反射Vicon标记尺寸非常小（直径3 mm），并且可以在后处理步骤中自动移除。在本节中，我们将描述对齐对象模型并估计其真实姿态所需的捕获设置和各种校准步骤。使用此设置捕获的RGBD视频序列的结果在第2节中给出。4.第一章一种六自由度目标跟踪器的评估框架5obj一obj奥布吉姆Vicon“vcn”Kinect（标记）“kntm”针织Kinect（RGB摄像头）“knt”对象（标记）“objm”奥布吉姆对象（网格）“obj”(a)（b）第（1）款图二. 用于捕获我们的新数据集的采集设置。(a)实际设置，其中包括一个8摄像头的Vicon动作捕捉系统和一个Kinect V2。从Kinect得到的视图显示在插图中。这里，遮挡器被放置在对象的前面。(b)为了获得K i n e c t R G B中的有效位置而必须校准的各种变换相对于Tknt。以黑色示出的形式的帧直接从运动捕捉系统获得，而灰色的帧需要在本文的主体中描述的特定校准过程。3.1采集装置运动捕捉装置由一组8个校准的摄像机组成，这些摄像机跟踪安装在3× 3×3m3工作区域中的感兴趣对象上的直径为3mm的回射标记根据[18]，Vicon系统可以在静态物体上提供高达0.15 mm的标记检测精度，在移动物体上提供2mm的标记检测精度。Kinect V2用于获取RGBD帧，并使用Vicon进行校准，以记录Kinect坐标系中对象的地面真实姿态。用于捕获数据集的实际设置如图所示2-（a）.3.2校准使用Kinect V2等RGB-D传感器，颜色和深度值将投影到不同的平面上。我们将Kine ctreferereframe（“k n t”）定义为其RGB相机的原点，且通过使用工厂校准参数将深度数据重新投影到色彩平面来对准深度数据。我们将深度c或r_i_on校准为在H 〇d_al中。 [8]的一项建议。在此区域中，不使用任何数据库从参考系“a”到“b”的刚性变换我们将检查 K i nectr eferencerameTknt 中的对象的位置（图 2-（b））。为此，我们首先依靠Vicon动作捕捉系统，该系统具有其自己的参考系“VCN”。安装在对象上的回射标记的集合限定局部参考系“objm”。类似地，放置在K上的标记集合指示局部标记的范围“k n tm“。这是一个很好的机会您可以在Tvcn上设置转换器格式vcnkntm 也就是说，映射在对象和Kinect标记与Vicon参考框架之间，活泼地对象标记和Kinect标记之间的转换8台Vicon MX-T40摄像机从Kinect查看（裁剪）Kinect V2封堵器对象T结objTVCNKNTMTVCN奥布吉姆不不和T6MathieuGaron，DenisLaurendeauandJean-FrancoisLal ondeobjKNTMKNTM奥布吉姆通过链接先前的转换获得：Tkntm=（Tvcn Tvcn.（一）奥布吉姆KNTM奥布吉姆位置Tknt 通过由标记定义的本地框架和对象约束/K约束约束框架（Tojm和Tkntm）所组成的框架，重新定义了跨平台框架：奥布杰克恩特Tknt=（Tkntm）−1TkntmTobjm。（二）objknt奥布吉姆obj获得这两个变换所需的校准程序，也在图2中以灰色示出。2-（b），下面详细说明。Kineclibratinr我的朋友们在由安装在Kinect及其RGB摄像头上的标记定义的框架中，我们依赖于一个平面棋盘目标，Vicon标记随机放置在该棋盘目标上。然后，通过以下过程相对于标记确定棋盘的每个角的位置为此目的设计了一个15cm长的笔形探针，其一端连接有1cm的Vicon标记将尖端放置在待检测的拐角上，并且探头围绕该点以圆周运动移动。然后将球体拟合（使用最小二乘法）到所得到的标记位置（实现0.7mm的平均半径估计误差），并且球体的中心保持为棋盘角的位置然后在捕获体积中移动棋盘目标，并通过Kinect RGB相机检测角，从而在这些点之间建立2D-3D对应关系。透视n点算法[19]最后，我们使用它来计算Tknt .物体校准估计局部框架通过对象上的标记应用程序进行查找，并在对象系统中进行更改、我们依赖于用前述方法校准的Kinect姿势。作为惯例，我们将对象局部坐标系的原点定义在标记的质心处，通过使用顶点的质心，将相同的惯例用于网格我们粗略对齐轴并使用ICP来优化其位置（基于Kinect深度值）。最后，在用户可以移动和可视化对象对齐的可视界面的帮助下，可以从多个视点手动执行精细尺度调整，以最大限度地减少观察到的对象和重新投影的网格之间的误差。同步除了空间校准之外，还必须实现精确的时间对齐，以同步Vicon和Kinect帧。遗憾的是，Kinect不提供硬件同步功能，因此我们采用以下软件解决方案。我们假设序列足够短以忽略时钟漂移。我们还假设一个稳定的采样的Vicon系统在一个高带宽的封闭网络。在此设置中，可以通过估计Vicon和Kinect之间的（恒定）时间差δt来实现同步一种六自由度目标跟踪器的评估框架7图三. RGB和深度帧的示例，在平面上包含2个标记，在边缘附近包含2个标记我们利用我们对对象网格和姿势的了解，将标记周围10× 10像素的补丁替换为相同姿势下渲染的深度值。我们捕获没有标记的图像以比较误差。在修改后的补丁，我们报告的RMSE为139.8毫米的深度与标记，4.7与校正版本。帧时间戳。通过移动SEC的检查板3.2在速度变化的情况下，我们估计使来自sec的棋盘格角之间的重投影误差最小化的δt3.2和Vicon标记。用于跟踪对象的3mm标记是回射的，并且尽管它们的尺寸小并且数量少（平均每个对象7个），但是它们仍然在由Kinect测量的深度数据中产生可见的伪影，参见图2。3.第三章。我们提出了一个后处理算法自动删除它们在所有的序列。首先，为了确保Kinect可以观察到标记，我们将（已知）标记位置重新投影到深度图像上，并计算重新投影点周围的小窗口中的深度与其地面真实深度之间的中值距离如果差异小于1cm，则该点被视为未被遮挡，并将被处理。最后，我们在给定的姿势下渲染3D模型的深度值，并用渲染的深度值替换原始图像中的10× 10像素窗口为了更真实，添加了少量的高斯噪声来自背景的像素被简单地忽略。平均而言，只有3.4%的目标像素被校正。我们还通过将标记放置在平面上来最小化影响对象的几何结构的机会图图3显示了使用标记捕获的Kinect深度图像与使用我们的算法校正的具有标记的同一场景的另一图像之间的误差比较标记周围的像素块的RMSE在没有校正的情况下为139.8mm，在校正的情况下为4.7mm。4数据集方案、指标和统计信息本节定义了新的方法来评估6自由度跟踪器使用校准序列捕获的设置在第2节。3.第三章。我们提供评估8MathieuGaron，DenisLaurendeauandJean-FrancoisLal onde该方法将反映跟踪器在不同情况下的整体性能。为了实现这一目标，我们捕获了297个序列的11个不同的物体的各种形状在3种情况下：稳定性，遮挡和相互作用。我们还提供了定量指标来衡量每个场景中的性能。我们的数据集和附带代码可在http://www.jflalonde.ca/projects/6dofObjectTracking上找到。4.1性能度量在我们创建一个cribeeachscnario之前，我们首先要执行以下操作来评估价值两个姿态P1和P2之间的差异。这里，描述姿态P = Rt通过旋转矩阵R和平移向量t。以前的作品考虑的平均值的每个轴分量的平移和旋转分开。该度量的副作用是单个分量上的大误差较少受到惩罚。为了克服这个限制，平移误差被简单地定义为两个平移向量之间的δt（t1，t2）=||t1-t2||二、（3）使用以下公式计算两个旋转矩阵之间的距离：. Tr（R TR）− 1 ΣδR（R1，R2）=arccos122、（四）其中Tr（·）不表示该矩阵。4.2场景在第一种情况下，我们建议量化跟踪静态对象时姿态抖动的程度。为了评估这一点，我们在4个不同的视点下捕获了对象的5秒序列，并且具有3种配置：在距传感器0.8m的距离处（“近”），在距传感器1.5m的距离处（“远”），以及在d为0处。从这些图像中可以看出，但是该图像具有部分遮挡感兴趣对象（“被遮挡”）的障碍。为了测量稳定性，Tan等人。[2]使用序列上姿态参数的标准差。我们提出了一个不同的度量，灵感来自[20]，惩罚帧到帧的变化，而不是整个序列的一般分布。我们计算在时间i，姿态P i-1和P i之间的距离。换句话说，我们报告了稳定性情景的所有框架的δt（ti−1，ti）和δR（Ri−1，Ri）的分布。为了评估对遮挡的鲁棒性，我们遵循[3]并将物体放置在距离传感器1.2m的转盘上，在物体的正前方垂直和水平放置一个静态遮挡器。我们根据对象的最大维度计算遮挡量，并为每个对象提供15%中从0%到75%遮挡的序列一种六自由度目标跟踪器的评估框架9我我时钟（222）龙（207）狗（187）鞋（314）kinect（287）头骨（218）乌龟（225）乐高（118）喷壶（287）随身听（141）饼干罐（187）图4.第一章我们数据集中的11个对象的概述，上面显示了两个顶点之间的最大距离增量，这导致每个对象总共11个序列在这里，我们通过将时间i的姿态Pi与该时间的地面真实值P*进行比较来计算误差。萨姆埃弗拉姆埃岛例如， δt（t*，ti）和δR（R*，Ri）。时间段或替代时间段可能会丢失我我在困难的框架。这可能会影响整体得分取决于时刻跟踪器失效的地方。为了绕过这个限制，我们每15帧在地面真实姿态P* 处初始化跟踪器，如[3]所示。在最后一个场景中，实验者将物体握在手中，并以4种不同的方式操纵它：1）通过移动物体但不旋转它（“仅平移”）; 2）通过旋转物体本身而不平移它（“仅旋转”）; 3）通过以低速自由移动和旋转物体（“低速”）;以及4）通过自由移动和旋转物体以更高的速度并且通过主动地产生更多的闭塞（“FREE-HARD”）。除了“免费”之外，所有的内容都是免费的，我们会将其存储f ramesandwereportδt（t*，ti）anddδR（R*，Ri）asinsec. 四点二。如果你不介意的话我我速度变化，我们还计算平移和旋转帧间距离。placement（δt（t*，t*），δR（R*，R*））和perfmenabovei−1 i i−1ias a function函数of that displacement位移.此外，细数起来也是有参考价值的跟踪器失败的次数我们认为跟踪失败，如果有7个以上的连续方程组，则δt（t*，ti）>3cm或δR（R*，Ri）>20 ◦。我我当检测到故障时，跟踪器被重置在地面真实姿态P*。我们仅在“自由”等式上保留此错误。4.3数据集统计数据我们选择了11个不同的对象，以获得各种各样的对象几何形状和外观，如图所示4.第一章为了获得数据库中每个对象的精确3D模型，使用Creaform GoScanTM手持式3D扫描仪以1mm体素分辨率扫描每个对象。使用Creaform VxElementsTM手动清理扫描，以去除背景和伪顶点。总的来说，数据集包含297个序列：每个对象有27个序列。细目如下：12个稳定性序列（4个视点，3种配置：“近”、“远”、“闭塞”）;11个闭塞序列（0%至75%）10MathieuGaron，DenisLaurendeauandJean-FrancoisLal onde图五. 在这项工作中，用于跟踪3D对象的深度学习架构由[3]提供。“卷积x-y”表示x × x方向的y个滤波器的卷积层， “fire-x-y” 表示 “fire-m” 模[ 21 ]，其中将信道的数量减少到x并扩展到y，并且“fire-x”是x个单元的全卷积层。每个层都有一个类似于DenseNet [22]的跳过链接，然后是一个最大池化2× 2操作。我们在FC- 500层的输入连接上使用50%的压差。所有层（除了最后一个FC-6）都具有批量归一化和ELU激活功能[23]。输入：xpred 输入：xobs产品编号：conv 3 -96fire-48-96fire-48-96串联火灾-96-384火灾-192-768火灾-384-768FC-500FC-6输出：y水平和垂直遮挡器均以15%的增量增加）;和4个用于插入的序列（“r〇 tat i〇n-on ly”、“t r an s l at i 〇 n-on ly”、“f r ee - s l 〇 w”、“f r ee - h ar d”）。它还包含每个对象的高分辨率纹理3D模型5使用我们的数据集分析作为评估新数据集相关性的测试平台，我们借用了Garon和Lalonde [3]的技术，他们使用深度学习训练6-DOF跟踪器，但对他们的架构和训练方法提出了改变我们在我们的数据集上评估了网络的几个变体，并表明它可以用于准确地量化跟踪器在各种场景中的性能。5.1训练特定于对象的跟踪器我们建议通过增加5个主要变化来改进[ 3]的先前工作：2到网络体系结构，和3到训练过程。新提出的网络架构如图所示。五、与[ 3]中一样，网络接受两个输入：在其预测位置（来自视频序列中的先前时间戳）处呈现的对象的图像x pred，以及在当前时间戳处观察到的对象的图像x obs。最后一层输出6-D 0 F（3个用于平移，3个用于以欧拉角旋转），其表示两个输入端之间的姿态变化。我们首先通过[ 21]中提出的“第一“模块来实现生态规划受DenseNet [22]启发的第二个变化是在最大池化之前将每个层的输入特征连接到输出。我们的改进需要与[3]相同的运行时间，在Nvidia GTX-970 M上为6 ms。如在[3]中，所使用的损失是预测和地面真实姿态变化之间的MSE。请注意，我们实验了重投影损失[24]，但发现它在我们的上下文中没有帮助。我们还建议对[3]的训练程序进行修改。他们的方法包括生成具有随机姿态的对象的合成视图对一种六自由度目标跟踪器的评估框架11他们之间的变化。为了对随机姿态变化进行采样，他们建议在欧拉角符号中独立地对随机平移tx，y，zU（20mm， 20mm）和旋转rα，β，γU（−10◦， 10◦）进行采样，其中U（a，b）指的是区间[a，b]上的均匀分布不幸的是，这样做会使所产生的姿势变化产生偏差。例如，很不可能产生小幅度平移（因为这要求所有三个平移分量同时很小）。我们的第一个变化是分别对随机平移向量和幅度进行采样。平移向量vt在球坐标（θt，φt）中采样，其中θtU（−180◦， 180◦）和φt= cos−1（x），xU（−1， 1）。平移幅度mt由高斯分布mtN（0，∆t）得出对于旋转重复相同的过程，其中旋转轴vr和角度mrN（0，∆r）被类似地采样。这里，我们有意地用Δ t和Δ r来参数化平移幅度mt和旋转角度mr分布，因为这些参数的范围可能会影响网络的行为。我们的第二个变化是对深度通道进行下采样，以更好地匹配Kinect V2的分辨率。我们的第三个变化在于RGBD图像的数据增强方法，其中我们在训练期间将模态（深度或RGB）随机设置为零，这具有解开两种模态特征的效果。有了这些变化，我们现在可以完全依靠合成数据来训练网络（在[3]中，需要一组真实帧来微调网络）。5.2训练通用跟踪器为了训练通用的6-DOF对象跟踪器，我们试验了两种生成训练数据集的方法，使用与第2节中描述的相同的网络架构、损失和训练过程。5.1. 首先，我们生成一个训练图像集，其中包含数据集中的所有11个对象以及其他30个对象。这些其他物体，从3DWarehouse1和从“Li n e mo d“[ 7]加载，在几何形状和纹理上具有我们将在此数据上创建的新任务命名为“多任务ject”新任务。例如，我们在一个训练集的图像只包含30个其他对象的实际对象跟踪不包括在内。我们称这个网络为然而，请注意，所有这些方法都需要在测试时跟踪对象的3D模型6实验在本节中，我们将对第二节中介绍的各种方法进行详尽的评估。5使用我们的新的数据集和第二节中提出的框架。4. 首先，我们分析了针对对象特定情况改变训练数据生成超参数Δ t和Δ r的影响。然后，我们将继续比较我们的对象jec-specific、“mul t i- o b jec t”和“ge n e r ic”track er s与两种常用的方法：Garon和Lalonde [ 3]和Tan等人。[5]的文件。1可查阅：https://3dwarehouse.sketchup.com。12MathieuGaron，DenisLaurendeauandJean-FrancoisLal onde阿阿阿稳定性场景平移（mm/帧）旋转（度/帧）近远遮挡近远遮挡100.42 0.53 0.48150.35200六二零770。71200.550680。88300七二零。84 0 89250. 530 660。97400750。891. 00300.610741. 04500951.031. 16350. 680。871. 10阻塞场景平移（mm）旋转（度）阻塞% 0 15 30 45 60 75 0 15 30 45 60 7510 14812个。5十三岁115.5 20.025.3152.12.95.48.115.7 26.0207.57.6 12.5 15.5 22. 329岁520 3.三四。八点七五点九9十七岁2四十八030 11. 011个国家。5十七岁421岁五点二十六6三十三岁。9253.三四。八点八。七点十六分8三十641岁140 127十四岁8十七岁9二十六岁036068岁一百三十两。七点三九点六912个。3二十六岁962. 950 10. 411个国家。1十七岁7三十6438七十三。七三五三。24岁。69. 1十六岁1三十六766岁。1平移（mm）旋转（度）速度（每帧）（0，10]（10，20](20、30]（30，40]（0，4]（4，8]（8，12]（12，16]1010.111。八点十六分。四点十八8152.9 3.8 4.2 4.4206.58.711.0180203. 七点四。七点四。九五0309. 七点九。9点 11分。五点九5255.75. 九五八六。14010八点十一411. 76.6304.三四。六四七点四。75010. 五点十一410.97. 2354. 七点四。八点五四点五1(a) ∆t对δt的影响（b）∆r对δR表1. 应用我们的评估方法来确定平移Δ t和旋转Δ r的最佳范围，以便在训练深度6-DOF跟踪器时生成合成数据。我们展示了（a）改变∆t对误差δt的影响，以及（b）改变∆r对所有三种情况下的误差δR的影响（从上到下：稳定性、闭塞和相互作用）。6.1训练数据生成参数我们现在应用的评估方法，建议在第二节。4对上述方法的影响，并评估Δ r和Δ t超参数对我们数据集的各种度量和序列我们通过改变Δ t∈ {10， 20， 30， 40， 50} mm和Δ r∈ {15， 20， 25， 30， 35}◦，一次一个（另一个参数保持在其最低值）。对于这些参数中的每一个，我们使用[3]和第2节中提出的修改来合成每个对象的200，000个训练图像对。5.1. 然后，我们为每个对象、每组参数训练一个网络，并在我们的数据集上评估每个网络。的结果的子集分析结果显示在选项卡中。1. 注意，对于交互场景，“自由”等式（例如，4.第一章2）我们会忽略某个年度的数据库，而忽略其他数据库，从而使结果产生偏差。特别是，我们显示了不同的影响Δ t对δt有影响，变化Δ r对δ R也有影响。在这里，我们将δ { t，R }的值或e的值进行比较，作为n的值。4定义）。该图显示了一个明显的趋势：增加的BPR（选项卡。1-（b））系统地导致旋转性能变差这对于高遮挡情况（45%和60%）尤其明显，其中旋转误差δR作为Δ R的函数显著增加。当∆t增加时，情况就不那么简单了（表1）。1-（a））。事实上，虽然增加Δ t会对稳定性和遮挡场景中的δ t产生负面影响，但当对象速度更高时，性能实际上会有所改善，如在交互场景中所见。因此，为了在更高速度下实现稳定性和精度之间的良好平衡，Δ t= 30mm的值该分析的其余图，如∆t∆t∆t一种六自由度目标跟踪器的评估框架13稳定性场景平移（mm/帧）旋转（度/帧）附近远闭塞附近远闭塞我们特有的0的情况。560的情况。680的情况。720.520.590.76我们的多对象0.380.410.570的情况。690的情况。791 .一、09我们的仿制药0的情况。720的情况。751 .一、190的情况。950的情况。981 .一、67加龙和拉隆德[1]0的情况。931 .一、061 .一、241 .一、131 .一、231 .一、49Tan等人[5]1 .一、201 .一、311 .一、531 .一、301 .一、441 .一、92阻塞场景平移（mm）旋转（度）闭塞%0153045607501530456075我们特有的7 .第一次会议。49 .第九条。811.512.5十五岁5二十四岁23.65.97.910.012.6 二十二岁2我们的多对象23岁3十六岁9十四岁6十四岁313.213.44.第一章08. 612个。312个。1十四岁715.4我们的仿制药6.711个国家。1十八岁9二十五9三十四4四十七4五、38. 4十六岁1二十六岁8四十三750块6加龙和拉隆德[1]7 .第一次会议。411个国家。2十八岁9二十六岁8三十八岁。155. 0五、38. 8十七岁728岁241岁7四十九8Tan等人[5]8. 28.5十五岁91381862134.第一章07 .第一次会议。4三十三岁。1七十389岁。588岁0平移（mm）旋转（度）速度（每帧）（0，12.5]（12.5，25]（25，37.5]（37.5，50]（0，19]（19，37]（37，56]（56，75]失败我们特有的8. 210个。311个国家。1十三岁43.75.83.65.837我们的多对象二十二岁1二十七岁3二十六岁041岁9六、08. 6二、9六、1127我们的仿制药9 .第九条。39 .第九条。911个国家。7十三岁4六、3六、88. 87 .第一次会议。038加龙和拉隆德[1]9 .第九条。510个。210.312.47 .第一次会议。89 .第九条。5十三岁411个国家。853Tan等人[5]8.18.510个。767岁14.第一章5六、08. 110个。186Table2. 本文件不包含[3]和[5]的预审查工作。我们的业务专长是在大多数存储区域中创建数据库，并且这些数据库可以轻松地防止数据库的损坏。我们的常规训练方案显示了以下几个方面：尽管在训练过程中没有看到任何对象，但与[ 3 ]相比，它的结果仍然较低。有关跟踪器的视觉定性比较，请参见补充视频并且在补充材料中示出了评估裁剪的分辨率和边界框的尺寸对对象6.2与以前工作的我们的追踪器得到了1. 7mm/0. 6 ◦错误的4序列[4]，这是略高于[5]谁获得0。81mm/0. 37o.但是，如tab. 2，当使用我们的新数据集时，可以观察到跟踪器之间更有趣的差异。我们比较对象的具体版本的工作Garon和Lalonde [3]以及随机森林的方法谭等人。[5]的文件。对于[3]，14MathieuGaron，DenisLaurendeauandJean-FrancoisLal onde我们使用他们论文中报告的训练参数。对于我们的跟踪器，Δ m和Δ r超参数是通过留一交叉验证获得的，以确保不需要重新计算/测试。因此，对于相互作用实验，“自由基”方程被总体而言，如表中所示。2、所提出的深度学习方法与现有的方法相比，具有一定的优越性。除了在交互场景中的平移错误的情况之外，“objec t-s pec i fi c”网络优于几乎所有其他技术。它在预测旋转方面表现得非常好，与其他平移方法相当。相比之下，[5]在低闭塞时表现良好，但在闭塞水平为30%或更高时（特别是在旋转时）失败。 [3]示出了对遮挡的改进的鲁棒性，但是在45%遮挡下仍然实现了高旋转误差，并且也是可扩展的（例如，P。在一个或多个实施例中，我们可以使用一个或多个特定的网络工具。从本质上讲，我们的“通用”检索，在检索中可以看到一个对象，一种六自由度目标跟踪器的评估框架15执行类似于专门针对这些对象训练的先前工作。事实上，它显示了与[3]和[5]相似的稳定性，对遮挡和更高速度下的行为的鲁棒性，表明可以实现对跟踪对象有用的学习通用特征。最后，我们使用“自由度”积分方程来计算存储丢失的时间的数量（例如：4.第一章2）的情况。在这种情况下，“执行”和“执行”两个任务可以显示并排比较的定性视频补充材料中提供了这些方法7讨论最近的演变6自由度跟踪性能的流行数据集的崔等。[4]强调需要一个包含真实数据和更具挑战性场景的新数据集。在本文中，我们提供了这样一个数据集，我们希望这将刺激该领域的进一步研究。我们的数据集包含297个序列，其中包含11个不同形状和纹理的对象序列分为3个场景：稳定性、遮挡和相互作用。数据集和配套评估代码公开发布2.此外，我们在[3]的框架基础上构建了改进的架构和训练过程，允许网络纯粹从合成数据中学习，但在真实数据上很好地泛化。此外，该架构允许在多个对象上进行训练，并在训练中从未见过的不同对象上进行据我们所知，我们是第一个提出这样一个通用的学习器的6自由度对象跟踪任务。最后，我们的方法进行了广泛的比较，最近的工作，并取得更好的性能。当前的限制是必须在后处理步骤中去除Vicon标记，这可能留下一些伪影。虽然标记非常小（3mm），并且所得到的无标记图像具有低误差（参见图1）。3），则仍将继续进行改进。最终，我们的“通用”检索是可行的，但它仍然不适用于“特定”模式，特别是对于旋转。此外，在测试时仍然需要物体的3D模型，因此探索如何消除这种约束将成为未来令人兴奋的研究方向。确认作者希望感谢Jonathan Gilbert在数据采集方面提供的帮助。和SylvainComtois进行Vicon设置。这项工作得到了NSERC/Creaform 3D扫描工业研究主席的支持：创建3D。我们衷心感谢英伟达的支持，捐赠了用于本研究的2http://www.jflalonde.ca/projects/6dofObjectTracking16MathieuGaron，DenisLaurendeauandJean-FrancoisLal onde引用1. Kehl，W.，Tombari，F.，Ilic，S.，Navab，N.：在单个CPU内核上实时跟踪3D模型的颜色和深度。IEEE计算机视觉与模式识别会议。（2017年）2. Tan，D.J.，Navab，N.，Tombari，F.：超越简单场景：在3D时间跟踪中结合学习器和优化器。IEEE Transactions onVisualizationandcmputeraphics23（11）（2017）23993. Garon ， M.Lalonde ， J.F. ：深度 6 自由度跟踪。 IEEE Transactions onComputer

下载后可阅读完整内容，剩余1页未读，立即下载