没有合适的资源?快使用搜索试试~ 我知道了~
基于关键点的对象级SLAM:全局6DoF姿态估计
14901用于6DoF物体位姿估计Nathaniel Merrill1郭 玉良2左星星3黄新宇2StefanLeutenegger3奚鹏1刘仁2黄国权11特拉华大学2博世研究北美3慕尼黑工业大学{nmerrill,xipeng,huang} @ udel.edu{ yuliang.guo2,xinyu. huang,liu.ren} @ us.bosch.com{xingxing.zuo,stefan.leutenegger} @ tum.de摘要我们提出了一种基于关键点的对象级SLAM框架,可以为对称和非对称对象提供全局一致的6DoF姿态估计。据我们所知,我们的系统是第一个利用SLAM的相机姿态信息来提供先验知识以跟踪对称对象上的关键点的系统之一-确保新的测量与当前3D场景一致。此外,我们的语义关键点网络经过训练,可以预测关键点的高斯实验表明,我们的方法提供了有竞争力的性能,最先进的6DoF对象姿态估计,并在实时速度。我们 的 代 码 、 预 训 练 模 型 和 关 键 点 标 签 可 以 在https://github.com/rpng/suo_slam上找到。1. 介绍6自由度(DoF)中的对象姿态估计在各种下游应用(例如,自动驾驶、机器人导航、操纵和增强现实),并且已经在计算机视觉和机器人领域得到广泛研究[5,14,17,22,26,28,33]。一些方法依赖于RGB输入[15,22,31,32,37],而其他方法则利用额外的深度输入来提高性能[15,29,32,35]。一些处理单个视图[22,28,35],而另一些则利用多个视图来增强结果[2,3,5,14,15,29]。特别地,多视图方法可以进一步分类为从运动到离线结构(SfM)-图1.我们所提出的方法利用检测到的非对称对象的关键点和从SLAM系统创建的3D场景来一致地跟踪对称对象的关键点。给定从不对称对象的关键点估计的当前相机姿态这是预期的[5,29]。本文主要研究在线单目SLAM系统中基于图像的多目标6DoF位姿估计典型的多视图6DoF姿态估计方法可以可以分解为单视图估计阶段和多视图增强阶段。虽然来自多个视图的姿态估计可以融合以获得更好的性能[3,5,14],但处理极端不一致性由物体的旋转对称性引起的-仍然具有挑战性。手动调整阈值进行离群值剔除和分配残差权重进行非线性优化也是不可靠的。为了应对这些挑战,在本文中,我们提出了一种对称性和不确定性感知的6DoF对象姿态估计方法,该方法在SLAM框架内融合来自所有视图的语义关键点测量这项工作的主要贡献是:• 我们设计了一个基于关键点的对象SLAM系统,该系统实时联合估计全局一致的对象和相机姿态14902• 我们提出了一种能够随着时间的推移一致地预测和跟踪对称对象的2D语义关键点的方法,该方法利用现有3D关键点到当前图像中的投影作为关键点网络的信息先验输入。• 我们开发了一种方法来训练关键点网络以估计其预测的不确定性,使得不确定性度量量化关键点的真实误差,并且显著地改进了对象SLAM系统中的对象姿态本文其余部分的组织结构如下:在简要回顾了相关文献的基础上,2,我们详细描述了我们的方法在第二节。3-包括关键点检测器以及它如何在整个系统中使用。对我们框架的全面评估在第二节中介绍。4、在结束前,五、2. 相关工作单视图对象姿态估计。近年来,出现了大量的单视点目标位姿估计方法一个主要趋势是利用深度网络以回归和细化的方式预测对象相对于相机的相对姿态[14,15,35,37]。虽然有效,迭代精化过程通常是在一个高的计算成本。另一种趋势是从CAD模型估计稀疏3D语义点的2D投影位置[25,26,28],或者从对象掩模内的密集2D像素回归3D坐标[22,33],然后解决透视n点(Pvp)问题以估计对象姿势。然而,这种类型的方法更有效,在遮挡下并不总是可靠的。为了同时实现对遮挡的鲁棒性和实时性,我们开发了一种多视图方法,该方法在对象级SLAM系统中集成了稀疏语义关键点检测。我们没有采用传统的描述符[2,3我们表明,一个对象SLAM系统可以有效地利用稀疏的语义关键点集,以优化在关键点级别的离群拒绝束调整(BA)优化对象级SLAM。对象级SLAM通常建立在单视图对象姿态估计器的基础上,这通过多视图优化提高了估计姿态SLAM++ [29]是这方面的第一个工作,但他们的系统只适用于深度图像。还有一些作品将对象建模为3D关键点的稀疏集合,并使用2D关键点检测器来估计随时间融合的对应关系[23,30],但是没有考虑对称对象。另一方面,PoseRBPF [4]提出了一种方法,通过自动编码器和粒子滤波器来跟踪对象,以推断对称性,但是他们的系统一次只能跟踪一个对象CosyPose [14]提出了一种通过对象级RANSAC从多个视图消除对称对象的姿势估计的歧义的方法Fu等人al[5]提出了一种多假设SLAM方法来估计对称对象的姿态,该方法使用最大混合模型进行优化。相比之下,我们的方法只跟踪一个假设,并显示出优越的性能。关键点不确定性估计。使用预测的对象关键点作为测量的典型全局优化(即,多视图图形优化),需要对残差进行适当的加权。在没有伴随关键点测量的任何确定性测量的情况下,该权重通常被设置为身份或某个手动调整的值。一些作品直接从关键点网络的输出中检索权重[25,26],以在Pestrian中用作确定性的标量度量[25]或高斯协方差矩阵[26],而[30]采用贝叶斯方法[10]通过随机批次采样来估计关键点尽管这些方法已被证明在实践中有效,但没有一种方法表明它们预测的不确定性实际上限制了与地面实况相比的预测的真实误差除残差加权外,不确定度尤其重要。这对于离群值拒绝通常是有用的,因为假设不确定性是高斯协方差矩阵,与手动调整相比,χ2分布可以更系统地确定离群值阈值受最近大量关于网络自不确定性预测的工作(与关键点预测无关)的启发[1,9,12,16,18,36,38],我们设计了一个最大似然估计(MLE)损失,它训练网络准确预测关键点位置,并联合预测不确定性,使其紧密结合在预测的实际误差周围。3. 该方法我们的多视图6DoF对象姿态估计方法统一在对象SLAM框架中,该框架联合估计对象和相机姿态-同时考虑检测到的对象的对称性并利用来自网络的不确定性估计来增强系统。一个完整的管道描绘可以看出,在图。二、管道涉及两个通道,分别处理非对称和对称对象。在第一遍中,从3D场景跟踪非对称对象以估计14903P--{}图2.所提出的对称性和不确定性感知对象SLAM流水线的概述相机姿势。在第二遍中,对称对象的估计的3D关键点被投影到当前相机视图中以用作先验知识来帮助预测与3D场景一致的这些对象的关键点。对象SLAM系统主要由两个模块组成,即使用关键点网络的前端跟踪和用于细化对象和相机姿态估计的后端全局优化因此,所提出的系统可以操作顺序输入,并估计当前状态的实时使用的操作员或机器人需要在反馈回路中的对象和相机的姿态。3.1. Keypoint网络我们开发了一个关键点网络,不仅预测2D关键点坐标,而且预测它们的不确定性。此外,为了使其能够为对称对象提供一致的关键点轨迹,网络可选地采用预期会有些噪声的先前关键点热图输入。我们的关键点网络的架构可以在图中看到。3.第三章。我们的关键点网络的骨干架构是堆叠的沙漏网络[20],它已被证明是对象姿态估计的良好选择[23,25,30]。与原始[20]类似,由于其简单性,我们选择多通道关键点参数化。通过这种公式,每个通道负责预测单个关键点,我们可以将数据集的所有关键点组合到一个输出张量中给定图像和之前的输入裁剪到一个边界-W是输入分辨率,d是下采样率(在我们的实验中为4),N是数据集的关键点总数。从p,N个2D关键点的u1,u2,. ..,uN,22个协方差矩阵201,202,. ..,预测的。 每一个通道的p,是一个2D概率质量,通过利用spa-tial softmax.预测的关键点被视为该概率质量上的2D坐标的预期值ui=u,vpi(u,v)[u v]>.与不可微的argmax操作不同,这允许我们使用关键点cor-直接在损失函数中进行标定不确定性的关键点 由于关键点ui是2D坐标分布的期望值,概率质量由pi的值给出,因此可以直接通过该分布的协方差和关于均值的二阶矩来估计不确定性度量i=Xpi(u,v).[uv]>-ui.[uv]>-ui>.(一)u,v然而,如果没有协方差的任何特定标准,就没有什么可以强制执行的不确定性实际上捕获了预测的真实误差。为此,我们建议使用高斯最大似然估计(MLE)损失来联合优化关键点坐标和协方差:在一个静态输入分辨率下,L(i)=(u-u)>-1(u-1|、(二)|,(2)我的工作预测了N<$H/d<$W/d张量p,其中H<$MLE我我我iui)+2logi14904OKSM2B KK{}2{}2 BMLEXK2个S1S2SM2 S图3.关键点网络的整体架构网络输入被增强以包括用于先前关键点输入的附加N个通道当没有先验可用时,这些通道用零填充该网络输出对应于原始logit的N通道特征图,其中空间softmax头预测关键点ui和不确定性mi,而平均池头预测关键点掩码m。其中,是地面真值kepoint坐标。从高层次的角度来看,第一个任期强制执行,共同,对象的关键点。如图在图2中,在SLAM系统中的部署期间,先前关键点检测来自于一旦找到对应的相机姿态就将来自全局对象帧的3D关键点投影到当前图像中(即,第二次通过)。在这种模式下,有两个主要问题需要解决:如何创建先前检测的训练示例(因为SLAM系统在训练期间不运行),以及当还没有对象姿态估计可用时如何检测对称对象上的初始关键点。在这里,我们描述了用于解决这些问题的培训计划。为了创建训练先验,我们模拟SLAM系统将通过将来自对象帧的3D关键点投影到具有扰动的地面真实对象姿态6TCTB的图像平面中来创建的噪声先验检测(参见补充的第 A关于符号)。 为了进一步-为了确保网络能够学习遵循对称性假设的先验检测,我们利用对称性集方差限制预测的真实误差,而变换S ={0 T,0T,. ......、 OT},我们期望第二,防止它变得太大。这样,可用于每个对象(离散化为具有con的对象),该网络可以以高斯协方差矩阵的形式预测其自身的不确定性,该高斯协方差矩阵被训练为紧密地限制所估计的关键点的真实误差。虽然我们的网络预测了总共N个关键点,这些的子集,(`)1,2,. ..,N,对特定对象有效。此 外 ,考虑单个图像,只有关键点的子集( “ ) 位 于 对象”的边界框内(注意,被遮挡的关键点仍然被预测)。然而,在部署期间,虽然从对象类和关键点标记已知(`),但是可能不可能知道哪些关键点位于检测到的边界框内。 出于这个原因,我们将另一个头添加到网络上以预测S形向量m [0,1] N,该S形向量被训练以估计真实二进制掩码m [0,1] N。0,1N,其中mi=1,如果i和 0 否 则 ( 见图。3、建筑)。因此,对于单个对象,在单个图像中,全部损失变为连续对称轴)。每个OT当应用于对象CAD模型时,使渲染看起来(几乎)完全相同,并且在实践中,可以相当容易地手动选择这些变换因此,在构建具有先验检测的训练示例时,我们选择一个随机对称变换,并在进行投影之前将其应用于地面实况为了让网络学习预测对称对象上的初始关键点(当没有先验知识时),我们只为大约一半的示例随机提供这种模拟先验知识。然而,如果没有预先检测,网络就只能靠自己的设备来推理物体的绝对方向--如果不特别小心,这在理论上是不可能的与[28]提出的镜像技术和额外的对称分类器相反,我们教导网络使用选择与虚拟有效姿势对应的关键点的简单标准来处理这个问题Ltot = BCE(m,m)+1L(i)|i 2B|i2B、(3)它最接近一个标准视图,其中对象的前面面向相机,对象的顶部面向相机。其中BCE(. )是二进制交叉熵损失函数。对于本文的其余部分,为了简化符号,我们将k 1、2、. ..,K作为通过用于训练的地面实况掩模M的关键点的索引(即,下一节)或用于在SLAM系统中部署的估计掩模m(以及已知的(`))(第二节)。3.2)。对称对象的关键点。由于我们想要在部署期间随时间有效地跟踪关键点,因此方便地获得具有与3D场景一致的对称性假设的关键点预测。受[19]的启发,我们选择包括N个额外的通道作为关键点网络的输入,其中包含先前的检测,图像的顶部。我们请读者参考补充材料(第二节)。(二)关于这个过程的更多细节。3.2. 对象SLAM系统我们的对称性和不确定性感知对象SLAM系统由两个模块组成:前端跟踪和后端全局优化。前端负责处理传入的帧-我们再次请读者参阅图。2为我们的系统的视觉表示。14905Oj,`,k2个G⇥O`X轴前端跟踪我们前端的第一步是将当前图像中检测到的边界框分为两个信息流-第一个用于不对称对象和对称对象的首次检测,第二个用于已经有3D估计的对称对象。同样,我们期望对称信息(即,对称或不对称)被包括在每个对象类中。第一信息流将在绑定框处裁剪的图像发送到关键点网络,而没有任何预先检测关键点和不确定性。然后,这些关键点用于通过使用具有RANSAC的PSNR来估计当前相机帧中的每个不对称对象CTpnp然后使用这些PSNR姿态来粗略估计当前相机姿态,然后初始化尚未具有3D估计的对象参见补充材料第二节。C来获得更多关于如何完成的细节以及前端的更通过对当前摄像头的粗略估计,到前端的第二信息流上。我们使用相机姿态的粗略估计来创建对称对象的关键点的先验检测,通过将这些对象的3D关键点投影到当前图像中,并构建用于网络输入的先验关键点热图。在这些对称对象上运行关键点网络之后,我们存储来自两个信息流的关键点测量值以供稍后在全局优化中使用。后端全局优化。全局优化步骤周期性地运行,以基于来自每个图像的测量来细化整个场景(对象和相机姿势)而不是将问题简化为姿态图(即,使用来自Pennsylvania的相对姿态测量),我们保持使用关键点检测作为测量的原始噪声模型,这允许我们用来自网络的协方差预测来加权每个残差全局优化问题通过创建残差来表示,约束图像j的姿态CjT和ob的姿态GT优化步骤。 和sj,k都使用相同的离群值阈值,其从2维χ2分布导出,并且总是被设置为95%置信度阈值ε =5。九九一因此,我们不需要手动调整离群值阈值,只要协方差矩阵uj,“,k可以适当地捕获关键点uj,”,k的真实误差。4. 实验我们的实验是在两个最具挑战性的对象姿态估计数据集上进行的:YCB-Video数据集[35]和T-LESS数据集[6]。这两个数据集都提供了在多个关键帧序列的杂乱环境中对称和非对称物体的地面真实姿态。YCB-Video包含21个家用物体,包括4个具有离散对称性的物体和一个具有连续对称轴的物体(碗)T-LESS数据集包含30个与行业相关的对象,几乎没有纹理,大多数都是对称的。注意,每个对象的对称信息由[7]提供。4.1. 实现细节关键点的选择。虽然我们的设计与关键点的选择无关,但为了减少网络需要预测的通道数量,我们创建了一组规则来手动标记关键点,使得每个关键点可以应用于多个对象实例,并且相同的规则可以应用于YCB-Video和T-LESS数据集。我们手动标记两个数据集的3D CAD模型,并将关键点从3D投影到2D,以创建第2节中描述的地面实况关键点。第3.1条我们建议读者参考补充材料。D以获得关于我们如何注释关键点的更多细节。培训程序。我们在PyTorch中实现了关键点网络[24]。对于所有训练,我们使用Adam优化器[11],学习率为10- 3。对于YCB-视频数据集,我们利用了实时训练数据,用k表示反对Gth关键点O`与官方80K合成图像。由于高度的再-在真实的训练数据中,我们只使用了每五个rj,`,k=uj,`,k-j,`CjTGTO`p<$k,(4)形象我们在这个数据集上训练了60个epoch,批次大小为24,随机背景用于合成,其中,是图像j中对象的边界框的透视投影函数。因此,整个问题变成了最小化整个场景的成本C=sj,`,kHrj>,`,k-1rj,`,k(5)j,`,k其中,是由网络针对关键点uj,k,sj,k预测的2× 2协方差矩阵,0,1是恒定指示符,如果在优化开始之前测量被认为是内点,则该指示符为1,否则为0,并且是Huber范数,其在优化期间减少离群值的影响。模拟数据集以及随机边界框、颜色和图像变形。对于T-LESS数据集,只有黑暗背景上单个对象的真实训练图像,因此对于合成数据,我们选择使用[8]提供的基于物理的pbr对于real和pbr分割,我们使用随机背景、边界框、颜色和变形以及仅针对真实数据的随机粘贴对象来增强示例,因为它只包含孤立对象的图像。我们训练了89个时期的TLESS模型,批次大小为8,由于pbr数据的图像分辨率更高,因此小于YCB-Video的批次大小。14906方法数据UMADD-S ADD(-S)表1. YCB-Video数据集上的结果数据是指除真实数据外所使用的合成数据,而U.M.如果针对所有对象仅训练了一个模型而不是针对每个对象分别训练了一个模型,则检查(统一模型)粗体是最好的,下划线是第二好的。SLAM系统。我们的SLAM系统用Python实现。GPU仅用于网络推理,而所有其他操作都在CPU上执行。所有优化都是使用g2o库的Python包装器[13]1实现的,除了使用Lambda Twist求解器[27]和RANSAC2完成的PNDIX。我们的前端跟踪工作在每一个传入帧,而后端运行每10帧。请注意,两个数据集的测试序列已经作为关键帧提供,因此不需要关键帧过程。虽然对于实际部署来说,在单独的工作线程上运行后端图优化是理想的,但由于操作系统在两个线程之间分配资源的随机性,这将使得不可能再现精确的结果为了使结果可重现,我们简单地在主线程上执行前端和后端以进行评估。我们的前端跟踪通常可以在配备GTX1080Ti显卡的台式机上以11Hz的速度运行,后端可以以2Hz的平均速度运行。4.2. YCB-视频数据集对于YCB-Video数据集,我们将其与单视图方法[14,15,33,35]和SLAM方法[4,5]进行比较。请注意,我们不包括CosyPose [14]的多视图结果,因为它是一种离线SfM方法,无法与实时SLAM方法相比。根据[4,5,14,15,33,35],我们通过将准确度阈值从0变化到10 cm来报告ADD-S和ADD(-S)的曲线下面积(AUC),对每个对象分别计算,然后取平均值。为了公平地比较这些方法,1https://github.com/uoip/g2opy2https://github.com/midjji/pnp图4. YCB视频上的定性结果。从左到右的列示出了具有到关键点网络的先前输入的检测到的对象框、具有不确定椭圆的预测关键点上图:对于纹理表面或角点上的可见关键点,不确定性椭圆往往较小,而对于被遮挡的关键点和光滑表面上的关键点(如夹钳),不确定性椭圆则显得较大。中心:尽管存在对称对象,我们的系统仍然能够始终跟踪整个场景中的关键点。下图:使用固定方差损失训练的网络预测的不确定性椭圆明显太小-我们使用了与PoseCNN相同的边界框在实践中,边界框可以来自任何实时边界框检测器。基准结果以及几项消融研究报告见表1,我们的方法标记为表1中的方法被标记为使用标准合成数据(syn),除了真实数据之外,还使用随机放置的对象或基于物理的(pbr请注意,虽然pbr数据通常被认为优于随机放置的对象[8],但它不是官方YCB-Video数据集训练分割的一部分。不管怎样,我们的方法在ADD(-S)的AUC方面击败了所有最先进的单视图和SLAM方法-即使是那些利用pbr数据而仅对所有对象使用一个网络的ADD(-S)的AUC是这里最重要的度量,因为它考虑了实际对象的对称性,而不仅仅是像ADD-S那样的形状匹配。这表明我们的系统可以为对称对象提供高度准确的全局一致的姿态,同时仍然保持对纹理不对称对象的高精度。定性结果见Fig.4.第一章关于每一物体类别的更详细的结果,可查阅补充材料第10节。E.事前检测的效果。第一个消融研究是在没有预先检测的情况下运行我们相同的系统结果[35]第三十五话synX75.361.3DeepIM [15]PoseRBPF [4]同步同步X88.176.381.964.4MHPE [5]synX82.969.7CosyPose [14]PBRX89.884.5[33]第三十三话[33]第三十三话pbrpbrX89.191.680.284.4我们synX90.384.714907⇥略微下降,但这在该数据集上是预期的,其中21个对象中只有5个被认为是对称的,并且只有碗显示连续的旋转对称。在下一节中,我们将看到先验检测实际上在T-LESS数据集上产生了更大的差异,其中大多数对象都是对称的,并且摄像机完全围绕场景旋转多次-手动协方差权重。对于表1中的下一个消融,“手动cov”,我们手动调整权重以替换SLAM系统的残差和离群值拒绝机制中的协方差。在这里,我们发现对应于网络的平均预测标准差(约为2.5像素)的权重获得了最佳得分。如所观察到的,与使用网络预测协方差相比,结果显著下降。图5.预测关键点的误差与网络在一组单独的渲染YCB-Video对象上预测的标准差的关系图。3σ边界显示为红色虚线所示的圆锥体左:我们的网络在MLE损失下训练的结果右:使用典型的固定方差损失训练的相同网络的结果,3σ锥内的点要少得多。表2.T-LESS数据集上的基准结果MLE损失的影响对于标记为“无MLE”的消融loss”, we trained a network with the same procedure, butreplaced the MLE loss with a fixed-variance loss withvari-ance regulation similar to that used by the popular humanpose estimation [21].正如所观察到的,当放置在SLAM系统中时,结果显着低于我们使用MLE损失训练的网络该实验的定性结果也在图1B中。4.第一章除了SLAM系统的准确性之外,变化,我们还测试了预测协方差本身的准确性。为此,我们在一组单独的模拟YCB-Video对象上运行两个网络(有和没有MLE损失)(在训练),其对于关键点具有完美的地面实况。在这里,我们用地面真实边界框运行网络,没有事先检测。为了评估预测协方差的准确性,我们绘制了关键点误差与网络预测标准差的关系理想地,如果er是关键点预测的误差残差的标量x或y分量,则误差将总是位于圆锥er3σ<这个实验的结果可以在图中看到。五、如观察到的,用MLE损失训练的网络在3σ锥内具有更多的误差。事实上,图中左侧的91.0%的数据点。5通过99%置信度χ2检验,而右侧点仅7.1%通过。这表明预测的不确定性很好地描述了实际误差分布(除了由于严重遮挡和对称性而导致的一些预期离群值之外),并且包括MLE损失对于实现这一点至关重要。与单一视图相比。对 于 表1中的最终消融,我们仅运行了单视图网络并比较了准确度。具体地说,对于每个视图,我们只是运行了Pests,并使用与Eq相同的过程对其进行了细化。5,但每次优化只有一个固定的相机姿势显然,SLAM系统更精确。值得注意的是,单视图的结果实际上比使用手动协方差或固定方差网络的SLAM结果更准确。这很可能是由于我们的SLAM系统中不正确的协方差可能导致离群值拒绝机制不可靠,并且离群值可能会将对象姿势拉向不正确的方向并损害所有视图的准确性,尽管大多数关键点都是正确的。相机姿态的准确性在这个实验中,用数据集提供的姿态初始化相机姿态的影响很小。使用给定的相机姿态,系统实现了ADD-S评分的90.5 AUC,而具有估计相机姿态的系统评分为90.3,如表1所示。这表明估计的相机姿势在该数据集上非常准确。4.3. T-LESS数据集对于T-LESS数据集,我们比较了两个单视图基线[22,31]以及PoseBPF [4]和CosyPose [14]。与其他方法相比方法数据毛勒e vsd<0. 3[31]第三十一话[22]第四届全国政协委员CosyPose [14]同步同步同步PBRX26.829.541.763.8我们真 正 的 只pbrN/APBRXXX63.745.914908图6.关于T-LESS的定性结果。上图:在先验检测和对象之间的未对准情况下(左列),网络仍然准确地预测关键点(中列),这只是使用先验作为对称性的一般指导。中心:系统在这里显示对缺失和错误边界框的鲁棒性底部:相同的系统,但没有先前的检测,无法跟踪对应于当前位于对称对象的后侧的相同3D位置的关键点,因此导致估计的对象姿态飞走。请注意,在所有这些图像中使用了预测协方差,但为了清楚起见,将其排除在可视化之外。最好用彩色观看。我们使用与[22]相同的RetinaNet边界框,为每个对象获取最高得分边界框。我们使用标准的视觉表面差异(vsd)召回指标,evsd<0。3[7],其他方法报告。由于T-LESS数据集具有仅具有对称对象的多个场景,并且我们的系统需要不对称对象来估计相机姿态,因此我们使用数据集提供的姿态来初始化我们的相机姿态虽然这是我们系统的一个潜在缺点,但典型的部署场景将包含对称对象或允许从另一个源(例如附加的IMU传感器或传统的基于特征的SLAM)检索外部里程。基准结果和消融研究报告在表2中,我们的系统显示出63.7的召回分数-仅次于CosyPose的63.8。然而,有趣的是要注意CosyPose是一种迭代细化方法,它利用在距离相机1米处渲染的初始对象姿势定性结果也可以在图中看到。六、训练数据的影响。为了测试对训练数据的敏感性,我们只在小的真实训练分割上训练它,其中包含每个对象在黑暗背景上的1,231个图像。从表2中我们观察到,即使只有这么少量的数据,我们仍然击败了除CosyPose之外的所有最先进的方法-所有这些方法都使用了真实数据之上的合成数据这表明我们的方法能够处理有限数量的数据,这些数据甚至没有覆盖对象的所有方向。事前检测的效果。在T-LESS数据集上,其中大多数对象以某种方式对称,当去除先前检测时,表2中的63.7这表明,当相机多次围绕对称轴旋转时,先验检测对于解决这些具有挑战性的T-LESS对象至关重要在没有先前检测的情况下,SLAM系统的离群值拒绝简单地拒绝对称对象上的大部分关键点测量,因为它们不对应于相同的3D位置。图6还包括该实验的一些定性结果。手动协方差权重。这里我们再次将SLAM系统的残差中的协方差设置为手动调整的权重。在这种情况下的结果下降到13.8召回,这进一步证实了我们的协方差估计在SLAM系统中的有用性此外,我们发现这个数据集的最佳权重比YCB-Video的要大得多,这并不奇怪,但表明通过使用预测的协方差来消除手动调整权重的需要是我们系统的一个有用属性。与单一视图相比。在这种情况下,表2中的单视图结果优于SLAM系统在使用手动协方差权重或没有先前检测时的单视图结果。由于单视图结果不使用先验检测,这表明针对每个视图独立考虑的关键点是合理的,而先验检测对于跨时间跟踪它们是至关重要的。5. 结论和未来工作在这项工作中,我们设计了一个基于关键点的对象级SLAM系统,该系统为具有或不具有对称性的对象提供全局一致的我们的方法可以跟踪对称对象上的语义关键点一致的援助,提出的先验检测,和我们的网络预测的不确定性已被证明捕捉预测的关键点的真实误差,以及大大提高对象姿态的准确性。在未来,我们希望使我们的系统适应更大的环境,并推广到具有不可见实例的类级关键点预测谢谢。我们要感谢评论者的建设性反馈。这项工作得到了特拉华大学工程学院、NSF(IIS-1924897)、ARL(W 911 NF-19-2- 2000)和美国国家科学基金会(NSF)的部分支持。0226,W 911 NF-20-2-0098)、Bosch Research NorthAmerica和慕尼黑工业大学。14909引用[1] Michael Bloesch、Jan Czarnowski、Ronald Clark、StefanLeutenegger和Andrew J.戴维森Codeslam在IEEE计算机视觉和模式识别会议论文集,2018年6月。2[2] 阿尔瓦罗·科莱,曼努埃尔·马丁内斯和悉达多·斯里尼瓦萨。助力车框架:用于操作的对象识别和姿态估计。国际机器人研究杂志,30:1284-1306,2011年9月。一、二[3] Alvaro Collet和Siddhartha S.斯里尼瓦萨有效的多视角物体识别和全姿态估计。在IEEE机器人与自动化国际会议上,ICRA 2010,安克雷奇,阿拉斯加,美国,2010年5月3日至7日。一、二[4] 邓新科,穆萨维,于翔,夏飞,蒂莫西·布雷特,迪特尔·福克斯. Poserbpf:一个rao-blackwellized粒子滤波器,用于6d物体姿态跟踪。在机器人:科学与系统(RSS),2019年。二六七十四[5] Jiahui Fu , Qiangqiang Huang , Kevin Doherty , YueWang,and John J.莱纳德基于目标的slam中位姿模糊的多假设方法在智能机器人和系统国际会议,2021年。一、二、六、十四[6] Toma'sHodanEm , PavelHaluza , Stepa 'nObdrza' lek , Jir'sMatas , Manolis Lourakis , and Xenophon Zabulis.T-LESS:用于无纹理物体的6D姿态估计的RGB-D数据集。IEEE计算机视觉应用冬季会议,2017年。5[7] Tomm´sˇHodanˇ、FrankMichel、EricBrachmann、WadimKehl、Anders Glent Buch、Dirk Kraft、BertramDrost、Joel Vidal、Stephan Ihrke、Xenophon Zabulis、Caner Sahin 、 Fabian Man- hardt、 Federico Tombari 、Tae-Kyun Kim、Jiˇr´ı Matas和Carsten Rother。BOP:用于6D对象姿态估计的基准。欧洲计算机视觉会议(ECCV),2018年。五、八[8] 我的朋友是马丁·桑德姆、伯特伦·德罗斯特、扬·拉布、埃里克·布拉克曼、米歇尔神父、卡斯滕·罗特和吉尔·马塔斯。BOP挑战2020 6D对象定位。欧洲计算机视觉研讨会(EC-CVW),2020年。 五、六[9] Tong Ke,Tien Do,Khiem Vuong,Kourosh Sartipi,and Stergios I.鲁梅利奥蒂斯预测不确定性的深度多视图深度估计,2021年。2[10] Alex Kendall , Vijay Badrinarayanan , and RobertoCipolla.贝叶斯分段:用于场景理解的深度卷积编码器-解码器架构中的模型不确定性,2016年。2[11] Diederik P. Kingma和Jimmy Ba。Adam:随机最佳化的方法。第三届国际学习表征会议,ICLR,2015年。5[12] Maria Klodt和Andrea Vedaldi监督新与旧:从SFM学习SFM。在欧洲计算机视觉会议(ECCV)的会议中,2018年9月2[13] Rainer Kuemmerle,Giorgio Grisetti,Hauke Strasdat,Kurt Konolige,and Wolfram Burgard. g2o:一个图优化的通用框架在IEEE Inter-国家机器人与自动化会议(ICRA),第3607-3613页,中国上海,2011年5月。6[14] YannLabbe´,JustinCarpentier,MathieuAubry,andJosefSivic.Cosypose:一致的多视图多对象6D姿态估计。欧洲计算机视觉会议(ECCV),2020年。一、二、六、七[15] 易 离 , 顾 望 , 向 阳 季 , 于 翔 , 迪 特 尔 福 克 斯 。Deepim:深度迭代匹配6D姿态估计。欧洲计算机视觉会议(ECCV),2018年。一、二、六、十四[16] 刘文新,David Caruso,Eddy Ilg,Jing Dong,Anastas-sios I. Mourikis, Kostas Daniilles,Vijay Kumar ,andJakob Engel. Tlio:紧学习惯性里程计。IEEE Roboticsand Automation Letters,第5653-5660页,2020年10月。2[17] David G.洛基于局部尺度不变特征的目标识别。在希腊科孚岛Kerkyra举行的计算机视觉国际会议上1999年9月20日至25日,1999年。1[18] 松木保信,拉卢卡·斯科纳,扬·恰诺夫斯基,安德鲁·戴维 森 .Codemapping: Real-time dense mapping for sparseslam using compact scene representations.在IEEE机器人和自动化快报(RA-L),2021年。2[19] 放 大 图 片 作 者 : Oliver Moolan-Feroze , KonstantinosKarachalios,Dimitrios N.尼古拉和安德鲁·卡尔威使用基于单目模型的跟踪改善风力涡轮机周围的无人机定位,2019年。4[20] Alejandro Newell,Kaiyu Yang,and Jia Deng.用于人体姿 态 估 计 的 堆 叠 沙 漏 网 络 。 在 Bastian Leibe , JiriMatas,Nicu Sebe和Max Welling的编辑中,欧洲计算机视觉会议(ECCV)的Proceedings,第483-499页3[21] 艾登·尼巴利,何震,斯图尔特·摩根,卢克·普利德-加斯特.卷积神经网络的数值坐标回归,2018。7[22] Kiru Park , Timothy Patten , and Markus Vincze.Pix2pose:Pix2pose:用于6d姿态估计的对象的逐像素坐标回归。在IEEE计算机视觉国际会议(ICCV),2019年10月。一、二、七、八[23] Parv Parkhiya,Rishabh Khawad,J. Krishna Murthy,Bro- jeshwar Bhowmick,and K.玛达瓦·奎师那为单目目标建立类别特定模型。2018年国际机器人与自动化会议(ICRA)二、三[24] Adam Paszke 、 Sam Gross 、 Francisco Massa 、 AdamLerer 、 James Bradbury 、 Gregory Chanan 、 TrevorKilleen 、 Zem- ing Lin 、 Natalia Gimelshein 、 LucaAntiga 、 Alban Desmai- son 、 Andreas Kopf 、 EdwardYang 、 Zachary DeVito 、 Martin Raison 、 AlykhanTejani 、 Sasank Chilamkurthy 、 Benoit Steiner 、 LuFang、Junjie Bai和Soumith Chintala。Pytorch:命令式的高性能深度学习库。神经信息处理系统进展32,第8024-8035页。Curran Associates,Inc. 2019. 5[25] Georgios Pavlakos , Xiaowei Zhou , Aaron Chan ,Konstanti- nos G Derpanis,and Kostas Daniilidis. 6-从语义关键点的DOF对象姿态。2017年国际机器人与自动化会议(ICRA
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功