没有合适的资源?快使用搜索试试~ 我知道了~
基准测试:一种用于6D物体位姿估计的方法综合评估
BOP:6D物体位姿估计的基准Toma´sHodanˇ1*,Frank Michel2*,Eric Brachmann3,Wadim Kehl4Anders Glent Buch5,Dirk Kraft5,Bertram Drost6,Joel Vidal7,StephanIhrke2 Xenophon Zabulis8,Caner Sahin9,Fabian Manhardt10,FedericoTombari10Tae-KyunKim9,Jiˇr´ıMatas1,CarstenRother31布拉格CTU,2德累斯顿TU,3海德堡大学,4丰田研究所5南丹麦大学、6MVTec软件、7台湾科技8FORTH Heraklion,9Imperial College London,10TU Munich抽象。我们提出了一个基准的6D姿态估计的刚性物体从一个单一的RGB-D输入图像。训练数据由纹理映射的3D对象模型或已知6D姿态的对象的图像 该基准测试包括:i)涵盖不同实际场景的统一格式的八个数据集,包括两个专注于不同照明条件的新数据集,ii)具有处理姿势模糊的姿势误差函数的评估方法,iii)对捕获该领域现状的15种不同最近方法的综合评估,以及iv)开放用于继续的在线评估系统。新成果的提交。评估表明,基于点对特征的方法目前表现最好,优于模板匹配方法,基于学习的方法和基于3D局部特征的方法 该项目的网站是bop.felk.cvut.cz。1介绍估计6D姿态,即随着消费级RGB-D传感器的引入,刚性物体的3D平移和3D旋转已经成为一项可访问的任务。一种准确、快速、鲁棒的方法来解决这一任务,将对机器人或增强现实等应用领域产生重大影响。最近已经公布了许多用于6D对象姿态估计的方法例如[34,24,18,2,36,21,27,25],但不清楚哪些方法性能良好以及在哪些情况下。最常用的评价数据集由Hinterstoisser等人创建[14],它并不打算作为一个通用的基准,并有几个限制:照明条件是恒定的,并且对象容易区分、未被遮挡并且位于图像中心周围。从那时起,一些局限性得到了解决。Brachmann等人 [1]增加了接地电阻,但在[14]的数据中不存在接地电阻。 H odanˇetal. [16]创建了一个数据集,该数据集具有对称性和相似性的行业相关对象,Drost等人。[8]引入了一个包含具有反射表面的对象的数据集。然而,数据集有不同的格式,没有出现标准的评价方法。新方法通常只在一小部分数据集上与少数竞争对手进行比较。*作者一直在共同领导该项目2H odanˇ,Mic heletal.LM/LM-O [14,1] IC-MI [34] IC-BIN [7] T-LESS [16] RU-APC [28] TUD-L -new TYO-L -new1234 5 6 7 8 91011 12 13 14 15 16171819202122232425 26 27 28 29 30T-LESS1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1 2 3 4 5 6LM/LM-O IC-MI/IC-BIN1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21TYO-L1231234 5678910 1112 13 14TUD-LRU-APCFig. 1.基准数据集的集合。顶部:示例测试RGB-D图像,其中第二行显示了在地面实况6D姿势中覆盖有3D对象模型的图像底部:纹理映射的3D对象模型。在训练时,方法被给予对象模型或具有地面实况对象姿态的训练图像的集合。在测试时,该方法被提供有一个测试图像和目标对象的标识符任务是估计该对象的实例的6D姿态这项工作作出了以下贡献:1. 统一格式的八个数据集,包括两个专注于不同照明条件的新数据集,可供使用(图1)。①的人。数据集包含:i)具有广泛尺寸、形状和反射特性的89个对象的纹理映射3D模型,ii)从不同视点显示孤立对象的277 K训练RGB-D图像,以及iii)具有分级复杂性的场景的62 K测试RGB-D为所有图像提供建模对象的高质量地面实况6D姿态2. 一 种 基 于 [17] 的 评 估 方 法 , 包 括 制 定 行 业 相 关 任 务 , 以 及 与Hinterstoisser等人常用的函数相反,很好地处理对称或部分遮挡对象的姿势模糊的姿势误差函数[14]第10段。3. 使用所提出的评估方法对基准数据集上的15种方法进行了全面评估。我们提供了一个分析的结果,报告的最先进的,并确定开放的问题。4. 在线评估系统bop.felk.cvut.cz,允许连续提交新结果并提供最新排行榜。BOP:6D物体位姿估计的基准3o=11.1相关工作计算机视觉研究的进展受到挑战和基准的强烈影响,这使得能够评估和比较方法并更好地了解其局限性。来自立体和光流估计的深度的Middlebury基准[31,32]PASCAL VOC挑战赛[10]基于互联网上的照片集,是第一个标准化对象检测和图像分类评估的挑战赛。随后是ImageNet挑战赛[29],从2010年开始已经运行了八年,并将图像分类方法推向了新的准确性水平关键是一个大规模的数据集,可以训练深度神经网络,然后迅速成为许多其他任务的游戏规则改变者[23]。随着计算机视觉方法的日益成熟,最近的基准转向了现实世界的场景。一个很好的例子是KITTI基准[11],专注于与自动驾驶相关的问题它表明,在既定基准上排名靠前的方法,如Middlebury,在实验室条件之外时表现低于平均水平。与PASCAL VOC和ImageNet挑战不同,这项工作中考虑的任务需要一组特定的校准模式,这些模式无法从互联网上轻松获取。与KITTY相比,它不需要记录大量的新数据。通过结合现有的数据集,我们已经涵盖了许多实际场景。此外,我们创建了两个具有不同光照条件的数据集,这是现有数据集未涵盖的方面。2评价方法建议的评估方法制定的6D对象姿态估计任务,并定义了一个姿态误差函数,它是比较常用的功能Hinterstoisser等人。[13]第10段。2.1任务的制定用于6D对象姿态估计的方法基于两个信息来源首先,在训练阶段,给出了一种基于训练集T={To}n其中o是对象标识符。训练数据T0可以有不同的形式,例如:对象的3D网格模型或一组RGB-D显示已知6D姿态的对象实例的图像其次,在测试时,该方法被提供有由对(I,o)定义的测试目标,其中I是示出对象o的至少一个实例的图像。目标是估计图像I中可见的对象o的实例之一的6D姿态。如果存在同一对象模型的多个实例,则姿态可以报告任意实例的。如果在测试图像中示出多个对象模型,并且用它们的地面实况姿态来注释,则每个对象模型可以定义不同的测试目标。例如,如果测试图像显示三个对象模型,每个对象模型在两个实例中,则我们定义三个测试目标。对于每个测试目标,必须估计两个对象实例中的一个的姿态4H odanˇ,Mic heletal.该任务反映了与行业相关的箱子拾取场景,其中机器人需要抓取所需对象的单个任意实例,例如螺栓或螺母等部件,并使用它执行某些操作。它是6D定位任务[ 17]的最简单变体,也是其其他变体的共同点,这些变体处理多个对象的单个实例,单个对象的多个实例或多个对象的多个实例。它也是6D检测任务的核心,其中不提供关于测试图像中对象存在的先验信息[17]。2.2测量误差三维物体模型被定义为R3中的一组顶点和描述物体表面的一组多边形物体姿态由4× 4矩阵P =[R, t; 0, 1]表示,其中R是3× 3旋转矩阵,t是3 ×1平移向量。矩阵P将模型坐标系中的3D齐次点Xm变换为相机坐标系中的3D点Xc:x c= Px m。VisibleSurfaceDiscrepancy. 对一个估计值的估计值进行计算W. R. t. theground-trutthoposeP¯在测试图像I中,首先在这两个选项中重新搜索。 THERESULTOFTHERER E R ERERINGISTWODISTA NEMAP 1 SANDS¯。如在[17]中所述,该分布映射与以下的分布映射SI相比较:获得v的时间I是唯一的掩码V和V,i。e. pixels的集合其中模型M在图像I中可见(图2)。由于未对准公差τ,误差计算为:.室间隔缺损(S,S¯,SI,V,V¯,τ)=avgp∈V{ ∪V¯0ifp∈V{∩V¯1否则,请执行以下操作。∧|S(p)−S¯(p)|<τ(一)eVSD的性质。对象姿态可以是不明确的,即可能存在多个不可区分的姿势。这是由物体表面的可见部分与整个物体表面的多次拟合的存在引起的可见部分由自遮挡和被其他对象遮挡确定,并且多个表面拟合由全局或部分对象对称性引起位姿误差eVSD仅在模型表面的可见部分上计算,因此不可区分的位姿被视为等同的。这是文献[17]中常用的姿态误差函数(包括下面讨论的eADD和eADI)没有提供的期望性质作为常用的姿态误差函数,eVSD不考虑颜色信息。定义(1)不同于[ 17]中的原始定义,其中,像素宽度被近似地计算为|S(p)−S¯(p)|increasestot。新的定义更容易解释,并且不会惩罚可能由深度传感器或地面实况姿态的不精确性引起的小的距离差异。1距离图在像素p处存储从相机中心到投影到p的3D点xp的距离。它可以容易地从深度图计算,该深度图在p处存储Xp的Z坐标并且可以由类似Kinect的传感器获得。BOP:6D物体位姿估计的基准5RGBISIVSS图二、eVSD计算中使用的量。左:颜色通道RGBI(仅用于不良用途)和图像的分布图。 Right:DistancemapsSandSareobtaindb y rengheo bct emodelMa t h e s t i m a te m ated p o s e P and th e g r o n d - tr u t h p os e P ect i v e l y r eng t e s t i m a t ed posePat h e t h e t t e m a t e t e t t e t t e t t e t e t t eteVandVareamasks of themoddelsurfacethatisibleinI ,obtainedby commparinggSandSwithSI. DistancedifferesS∆(p)=S(p)−S¯(p),p∈V(∩V¯),是对p的一个结果,它是对所有已知函数的一个平均值。a:0.04b:0.08c:0.11d:0.19e:0.28f:0.34g:0.40h:0.443.7/15.23.6/10.93.2/13.41.0/6.41.4/7.72.1/6.42.1/8.64.8/21.7i:0.47j:0.54k:0.57l:0.64m:0.66n:0.76〇:0.89p:0.954.8/9.26.9/10.86.9/8.921.0/21.74.4/6.58.8/9.949.4/11.132.8/10.8图三. e VSD(粗体,τ=20 mm)与e ADI/θ AD(mm)的比较(按e VSD递增排序的示例姿态估计)。顶部:裁剪和增亮的测试图像,覆盖有修改后的图像i) 结 构 化 的 像 素Pinblue,和ii)圆形的truthposePingreen. 只有模块化的部分才能满足要求显示了可见性遮罩下图:差异图S。案例(b)在图中分析二、C或Rectness的C r i t e r i on。AestimatedposeP被认为是正确的w.r.t.theground-truthopepå如果误差eVSD<θ. 如果多个实例的如果目标对象在测试图像中可见,则将所估计的姿态与所估计的姿态进行比较最小化错误的地面实况实例未对准容差τ和正确性阈值θ的选择取决于目标应用。对于机器人操纵,其中机器人臂在3D空间中操作,τ和θ两者都需要较低,例如τ = 20mm,θ = 0。3,这是第2节所述评估五、对于增强现实应用,要求是不同的。这里,Z维度上的表面对准,即,照相机的光轴不如X和Y维度上的对准重要因此,公差τ可以放宽,但θ需要保持较低。6H odanˇ,Mic heletal.与Hinterstoisser等人的比较在[14]中,误差被计算为从底层的现代化M的存储空间中提取数据--Minthe stimatp o se PP 的 值 。 如果对 象不具有不 可区分的视图(eADD),则对于相同顶点的位置的距离是必要的,否则对于闭合的顶点的位置的距离是必要的(eADl)。 该最小位姿P(isc onsid e r e d c orre tife≤θAD=0。1d,如果是ADD或ADI,并且是对象对象,即任何一对模型顶点之间的最大距离。误差eADI可能不直观地低,因为通过搜索最接近的顶点建立了多对一顶点匹配。如图所示。图3示出了具有不可区分视图的对象的示例姿态估计的eVSD和eADI的比较。总的来说,(f)-(η)产生低eADI分数并且满足Hinterstoisser等人的正确性标准。根据我们的标准,这些估计不被认为是正确的。根据这两个标准,估计值(a)-(e)被认为是正确的,而(o)-(p)被认为是错误的。3数据集我们收集了六个公开可用的数据集,其中一些我们减少了以消除冗余2并重新注释,以确保高质量的地面真相。此外,我们创建了两个新的数据集,专注于不同的照明条件,因为这种变化不存在于现有的数据集中。数据集的概述如图所示。1中描述,并且详细描述如下。3.1训练和测试数据这些数据集包括纹理映射的3D对象模型以及用地面真实6D对象姿势注释的训练和测试RGB-D图像。使用KinectFusion类系统创建3D对象模型,用于3D表面重建[26,33]。所有图像的分辨率均接近VGA。为了训练,方法可以使用3D对象模型和/或训练图像。虽然3D模型通常可用或可以以低成本生成,但捕获和注释真实训练图像需要大量工作。因此,基准测试主要集中在更实际的场景上,在这种场景中,只有可用于渲染合成训练图像的对象模型在训练时可用。所有数据集都包含已经合成的训练图像。方法被允许合成额外的训练图像,但该选项未被用于本文中的评估 只有T-LESS和TUD-L包括孤立的真实训练图像,即无遮挡的物体。为了生成合成训练图像,来自相同数据集的对象从覆盖测试场景中的对象姿势的分布的相同方位角/仰角范围被渲染视点从球体采样,如[14]所示,球体半径设置为测试场景中最近对象实例的距离这些物体是用固定的光照条件和黑色背景渲染的2所选图像的标识符可在项目网站上找到BOP:6D物体位姿估计的基准7数据集对象培训 images/obj.测试图像测试目标房合成使用所有使用所有LM [14]15–1313300018273300018273LM-O [1]8–1313200121414458916IC-MI [34]6–131330020673002067IC-BIN [7]2–2377150177200238T-LESS [16]3012962562200010080981949805RU-APC [28]14–25621380596413805911TUD-L -new3>1100018276002391460023914TYO-L -new21–2562–1680–1669总8974506215516951110793表1.数据集的参数 注. 如果测试图像显示多个对象模型,则每个模型定义不同的测试目标-参见第2节。2.1.测试图像是来自结构光传感器的真实图像测试图像源自具有不同复杂性的室内场景,范围从具有单个孤立对象实例的简单场景到具有多个对象的多个实例以及大量杂乱和遮挡的非常具有挑战性的场景。模型化对象的姿态被手动注释虽然LM、IC-MI和RU-APC为每个图像仅一个对象的实例提供注释数据集的详细信息见选项卡。1 .一、3.2数据集集合LM/LM-O [14,1]。LM(a.k.a. Linemod)已经是用于6D对象姿态估计的最常用的数据集。它包含15个无纹理的家居物品,具有区分颜色,形状和大小。每个对象与测试图像集相关联,该测试图像集示出具有显著杂乱但仅轻微遮挡的一个注释对象实例。LM-O(a.k.a.线模遮挡)为测试集中的一个测试集中的建模对象的所有其他实例提供这引入了具有各种阻塞水平的挑战性测试用例。IC-MI/IC-BIN [34,7]。IC-MI(a.k.a. Tejani等人)包含两个无纹理和四个有纹理的家用物体的模型。测试图像示出了具有杂乱和轻微遮挡的多个对象实例。IC-BIN(又名Doumano-Glou等人,场景2)包括来自IC-MI的两个对象的测试图像,这两个对象出现在箱子拾取场景中具有严重遮挡的多个位置我们已经从两个数据集中删除了具有低质量地面实况注释的测试图像,并在IC-BIN中改进了剩余图像的注释T-LESS [16].它具有30个行业相关的对象,没有显着的纹理或歧视性的颜色。对象在形状和/或大小上表现出对称性和相互相似性,并且一些对象是其他对象的组合。T- LESS包括来自三个不同传感器的图像和两种类型的3D对象模型。对于我们的评估,我们仅使用来自Primesense传感器的RGB-D图像和自动重建的3D对象模型。8H odanˇ,Mic heletal.RU-APC [28]。该数据集(A.K.A.)Rutgers APC)包括来自AmazonPicking Challenge 2015 [6]的14个纹理产品,每个产品都与杂乱仓库货架的测试图像相关联相机配备了LED灯带,以确保持续照明。从原始数据集中,我们省略了十个非刚性或深度传感器捕获不佳的对象,并且仅包括从同一视点捕获的四个图像中的一个。TUD-L/TYO-L。两个新的数据集,在不同的环境光和定向光设置下捕获的家居对象。TUD-L(TU Dresden Light)包含训练和测试图像序列,在八种照明条件下显示三个移动物体通过手动将3D对象模型与序列的第一帧对齐并使用ICP将初始姿态传播通过序列来注释对象姿态TYO-L(Toyota Light)包含21个对象,每个对象在桌面设置上以多个姿势捕获,具有四种不同的桌布和五种不同的照明条件。为了获得地面实况姿态,利用手动选择的对应关系来估计粗略姿态,然后通过ICP对粗略姿态进行细化。这两个数据集中的图像通过分类的照明条件来标记。4评价方法评价方法涵盖了6D对象姿态估计领域的主要研究方向本节回顾了这些方法,并说明了其关键参数的设置。如果没有另外说明,则基于图像的方法使用合成训练图像。4.1基于学习的方法Brachmann-14 [1]. 对于输入图像的每个像素,回归森林预测对象身份和对象模型在坐标系中的位置,也称为“对象模型”。简单的RGB和差分用于预测。每个对象坐标预测定义图像与3D对象模型之间的3D-3D对应关系。基于RANSAC的优化模式对三个对应的集合进行采样以创建姿势假设池。最终假设被选择,并且被迭代地细化,以最大化预测的对应性的对准,以及观察到的深度与对象模型的对准。该方法的主要参数设定如下:最大特征偏移:20 px,每个树节点的功能:1000,训练每个对象的补丁:1.5米,树木数量:3、假设池的大小:210,精炼假设:25. 真实训练图像用于TUD-L和T-LESS。Brachmann-16 [2]. [1]的方法以多种方式扩展。首先,使用自动上下文算法改进随机森林以支持仅RGB图像的其次,基于RANSAC的优化BOP:6D物体位姿估计的基准9在不知道哪些对象在输入图像中可见的情况下,不仅关于对象姿态而且关于对象身份进行假设由于我们处理的是RGB-D输入,并且知道图像中哪些对象是可见的,因此这两项改进都被禁用。第三,随机森林为每个像素预测捕获不确定性信息的对象坐标上的完整三维分布。在每个森林叶中使用均值漂移估计分布,并且因此可以是多模态的。最终的假设被选择,并迭代地细化,以最大化预测分布下的可能性。3D对象模型不用于拟合姿势。最大特征偏移:10px,每个树节点的特征:100、树木数量:3、抽样假设数:256,在每个RANSAC迭代中绘制的像素:10K,内点阈值:1厘米Tejani-14 [34]. Linemod [14]适用于尺度不变的补丁描述符,并集成到具有新的基于模板的分割函数的回归森林中。该分割函数比简单的像素测试更具鉴别力,并且经由二进制位操作来加速。该方法仅在阳性样本上训练,即3D对象模型的渲染图像在推理期间,叶节点处的类分布被迭代地更新,从而提供遮挡感知的分割掩模。通过从估计的前景块累积姿态回归投票来估计对象姿态本文中评价的基线实现了[34],但省略了迭代分割/细化步骤,并且不执行ICP。特征和森林参数设置为[34]:树的数量:10,每棵树的最大深度:25,颜色梯度和表面法线通道中的特征数量:20,补丁大小:图像的1/2,用于训练每个森林的渲染图像: 360。Kehl-16 [22].尺度不变的RGB-D补丁从附接到输入图像的规则网格中提取,并且通过使用卷积自动编码器计算的特征来描述。在训练时间,从来自训练图像的块的描述符构建码本,其中每个码本条目保存关于6D姿态的信息。对于来自测试图像的每个块描述符,找到来自码本的k个最近邻居,并且使用距离低于阈值t的邻居来投6D投票。在投票阶段之后,对6D假设空间进行过滤以去除虚假投票。模式识别的均值漂移和完善的ICP。最后的假设是验证颜色,深度和表面法线,以抑制误报。具有所使用的值的方法的主要参数:块大小:32X 32 px,块采样步长:6px,k-最近邻:3,阈值t:2,从姿态空间提取的模式的数量真实训练图像用于T-LESS。4.2模板匹配方法H odanˇ-15[18]。应用程序所具有的处理器对每个滑动窗口位置进行高效的插件式评估。一个简单的对象过滤器是applied第一,迅速拒绝大多数位置。对于每个剩余的位置,一组10你好,我的宝贝。通过基于散列的投票过程来识别候选模板,这使得计算复杂性在很大程度上不受所存储的模板的总数的影响。然后,如Linemod [14]中所述,通过匹配不同模态(表面法线、图像梯度、深度、颜色)中的特征点最后,与检测到的模板的对象构成的粒子群优化算法(PSO)进行了改进。通过对合成训练图像的一部分应用具有10μ m步长的平面内旋转的完整圆来生成模板其他参数如[18]中所述设置。 我们也给出了没有最后一个refinemttep(H odanˇ-15-nr)的结果。4.3基于点对特征的Drost-10 [9].基于测试场景的点云和对象模型之间的匹配定向点对,并且使用局部投票方案对匹配进行分组的方法。在训练时,来自模型的点对被采样并存储在散列表中。在测试时,参考点被固定在场景中,并且通过限制到将参考点与模型对准的那些姿势来创建用于投票方案的低维参数空间。创建参考点和其他场景点之间的点对,使用散列表搜索相似的模型点对,并且为每个匹配点对投票。提取并使用累加器空间中的峰值作为姿态候选者,其通过由粗到细的ICP来细化并且通过可见模型表面的相对量来重新评分。注意,不使用颜色信息。使用HALCON的函数查找表面模型对其进行了评价13.0.2 [12]。模型和场景的采样距离设置为对象直径的3%,10%的点用作参考点,并且使用mls方法计算法线。超过2m的点被丢弃。Drost-10-edge [9]的扩展,其另外检测来自场景的3D边缘,并且支持其中模型轮廓与边缘对齐的姿势。多模态细化使表面距离和重新投影的模型轮廓到检测到的边缘的距离最小化。使用与Drost-10相同的软件和参数进行评价,但在模型创建期间使用激活的参数序列3d边缘Vidal-18 [35].首先通过基于表面法线方向聚类点来对点云进行子采样受[15]改进的启发,通过减轻特征离散化步骤的影响来改进[9]另外,来自不同参考点的姿态候选的改进的非最大抑制去除了虚假匹配。投票最多的500个姿势候选者通过表面拟合得分来排序,并且200个最佳候选者通过投影ICP来细化。对于最后的10个候选者,评估对象表面和轮廓与场景的一致性。模型、场景和特征的采样距离设置为物体直径的5%,场景点的20%用作参考点。BOP:6D物体位姿估计的基准114.4基于三维局部特征的Buch-16 [3].一种基于RANSAC的方法,迭代地对对象模型和场景之间的三个特征对应进行采样。通过匹配3D局部形状描述符获得对应关系,并用于生成6D姿态候选者,其质量由共识集大小来测量。最终的姿势由ICP细化该方法在LIDAR捕获的早期对象识别数据集上实现了最先进的结果,但在对应关系的数量上存在立方复杂度。RANSAC迭代的数量被设置为10000,仅允许在杂乱场景中进行有限的搜索使用以下几个描述符评价该方法:153d SI [19]、352d SHOT [30]、30dECSAD [20]和1536d PPFH [5]。没有一个描述符使用颜色。Buch-17 [4].该方法基于以下观察:对象表面上的两个定向点之间的对应关系被约束为在全组姿态SE(3)的1-DoF旋转子组中投票。因此,该方法的时间复杂度在对应的数量上是线性的核密度估计用于有效地组合投票并生成6D姿态估计。如Buch-16,该方法依赖于3D局部形状描述符,并通过ICP细化最终姿态估计参数设置如论文中所述:使用60个角度的镶嵌来投射旋转投票,并且平移/旋转带宽被设置为10mm/22.5◦。5评价在SEC中审查的方法。4由其原始作者在第2节中描述的数据集上进行了评估。3,使用SEC的评估方法。二、5.1实验装置固定参数。对于所有对象和数据集,每种方法的参数都是固定的。测试场景中的对象姿势的分布是所述方法使用的唯一数据集特定信息该分布确定了从其渲染对象模型以获得合成训练图像的视点范围姿势错误。6D对象姿态估计的误差用在第12节中定义的姿态误差函数eVSD来测量。2.2. 可见性遮罩计算为在[17]中,闭塞公差δ设置为15mm。在评估中仅考虑其中对象从至少10%可见的地面实况姿态。性能评分。性能通过召回分数来测量,即估计了正确的对象姿态的测试目标的分数。报告每个数据集和每个对象的召回分数。整体性能由每个数据集召回分数的平均值给出。因此,我们将每个数据集视为一个单独的挑战,并避免整体得分由较大的数据集主导。12你好,我的宝贝。用于评估的子集。我们减少了测试图像的数量,以消除冗余,并鼓励新的,特别是缓慢的方法的参与从总共62K个测试图像中,我们对7K进行了子采样,将测试目标的数量从110K减少到17K(表1)。①的人。包含所选测试图像标识符的完整数据集位于项目网站上TYO-L没有用于本文中所介绍的评估,但它是在线评估的一部分5.2结果精度选项卡. 图2和图3分别显示了每个数据集和每个对象的评估方法的召回分数,其中未对准公差τ = 20 mm,正确性阈值θ = 0。3.根据召回分数的方法的排名在数据集上大多是稳定的。基于点对特征的方法性能最好。Vidal-18是表现最好的方法,平均召回率为74.6%,其次是Drost-10-edge、Drost-10和模板匹配方法H odanˇ15,平均召回率均为67%。基于学习的方法中,Brachmann-16最好,占55.4%,基于3D局部特征的方法中,Buch-17-ppfh最好,占54.0%。Buch-16-si和Buch-16-shot的评分劣于该方法的其他变体,未给出。图4示出了针对τ和θ的不同值的每数据集召回分数的平均值。如果未对准公差τ从20mm增加到80mm,则对于大多数方法,分数仅略微增加类似地,对于θ > 0,分数仅缓慢增加。3. 这表明通过大多数方法估计的姿态是高质量的或完全不合格的,即这是一个命中或错过。速度每个测试目标的平均运行时间报告在表1中。2. 然而,在不同的计算机3上评估了这些方法,因此所呈现的运行时间不是直接可比的。此外,这些方法主要针对召回分数而不是速度进行优化。例如,我们用几个参数设置评估了Drost-10,并观察到运行时间可以降低5到0。5秒,平均召回分数从68下降了相对较小。1%至65。8%。然而,在Tab。2我们呈现得分最高的结果。Brachmann-14可以通过对3D对象模型进行二次采样来加速,而H odanˇ15可以通过使用对象模型来加速。这样的速度/准确性权衡的一个结果是留给未来的工作。开放问题。遮挡是当前方法的一大挑战,如在低水平遮挡下分数已经迅速下降所示(图11)。4,右)。LM和LM-O评分之间的所有方法在LM上的表现比在LM-O上好至少30%,LM-O包括相同但部分被遮挡的对象。T-LESS测试图像上的估计姿态的检查证实了针对被遮挡对象的弱性能TUD-L上的分数表明,变化的照明条件对依赖于光的方法提出了严重的挑战。3用于评估的计算机规格见项目网站。BOP:6D物体位姿估计的基准13481413 49023 0639 32 5312 52202412 636001070011101331720100 100000002 111112000 101214200002639121441199413210 1360101 11170271 223727 181240950045803975 47 62 59427883 46 39346 1943 5475 9275 49 500376290 94 84 60 24 59 75 67 2481 25 79 68 17 6842 91 4516381 47128 36431877 75 88 66 11 81 69 6650219663309 49177 6560 5240 4374703128182756665356347634829449994429828 34 206248411631 244 10 13 10 133604026 744 160110000000524288886646 9228 20001000001066 7296 10034 972101 17 1793140862 5262100 9470 722210088 100 94 100 100 88 100501705 25 164 35 374862100 100 9278 84298 10 21446 1952 22 12794 93 59 64 67 71 73 62 57 49 56 85 7064608870100 100 10074 98 100 100 81 66 67 72 72 61 60 52 61 86 72463453 4443 4695714015371611717754924699214847201548 47891419543259380245725 339143156412437975936713329 264529112032288289122256 5249749046 65 7343 26 64 79 887446 7542 44 36 57 85 8890039005619212 348501111 131. 维达尔-182. Drost-10-edge3. Drost-104. 霍丹-155. Brachmann-166. Hodan-15-nopso7. Buch-17-ppfh8. 凯尔-169. Buch-17-si10. Brachmann-1411. Buch-17-ECSAD12. Buch-17-shot13. Tejani-1414. Buch-16-ppfh15. Buch-16-ECSAD3.700.973.674.001.242.900.172.384.721.52.313.54.412.314.21.815.91.45.96.71.447.139.10.678.997.812.5020.002.288.1315.649.237.2016.670.000.071.523.830.1338.5010.0043.0036.331.454.505.9712.1036.9736.8134.6122.907.5041.170.0024.0025.5823.1230.226.5924.6013.340.257.1644.0059.0024.0059.0040.679.6241.5278.6765.0067.3333.9120.3558.2033.3367.6013.2727.8368.6732.3920.8062.7025.1076.0075.0036.969584.6734.3969.8356.6055.4455.4054.0288.6724.3517.8456.5073.3352.0475.3367.2345.5037.6163.1822.2571.7368.0687.3378.6774.6080.1736.5227.1766.5167.5056.8196.5092.0087.0090.5095.3394.0094.3395.3359.3154.9555.3651.4287.8379.1382.0087.10#方法LMLM-OIC-MIIC-BINT-LESS RU-APCTUD-L平均时间(s)表2. τ = 20 mm和θ = 0时的回忆评分(%)。3. 召回分数是估计正确对象姿势的测试目标这些方法按其平均召回分数排序,平均召回分数计算为每个数据集召回分数的平均值最右边的列显示了每个测试目标的平均运行时间。#方法LM LM-O TUD-L123456789 10 11 12 13 14 1515689 10 11 121231. 维达尔-182. Drost-10-edge3. Drost-1089 96 91 94 92 96 89 89 87 97 59 69 93 92 90 6677 97 944098 94 83 964594 68 66 72 88 794786 83 89 84 93 87 86 92 66 96 53 67 7991 80 6239 70 574626 57734. 霍丹-1591 97 79 97 91 97 73 69 90 97 81 7974 95544026 733744 6827 63485. 布拉赫曼-16 92 93 76 84 86 9072 85 79 466760 66 6444 68 7133261 81 95 916. Hodan-15-nr7. Buch-17-ppfh8. 凯尔-1691 574089 66 87 59 49 92 90 65 63 71 54 794718 35 60 175 30 55892430 489. Buch-17-si112 1691327410. Brachmann-1411. Buch-17-ECSAD12. Buch-17-shot13. Tejani-143436027440076 30 620081016214. Buch-16-ppfh11015. Buch-16-ECSAD20IC-MI-BIN0 17351302200001 0T-LESS12345624123456789 10 11 12 13 14 15 16 17 181. 电话:+86-10 - 8888888传真:+86-10 -88888882.Drost-10-edge 78 100 100 100 90 96 100 843. 1076 100 98 100 96 96 100 744. 霍丹-155. Brachmann-166. Hodan-15-nr68 65 69 71 76 76 92 69 68 84 55 47 54 85 82 7961 67 71 73 75 89 92 72 64 81 53 46 55 85 88 7863 63 68 64 54 48 5954 516943 45 5380 795655 54215981 81330005357 55 60 23 60 82 81 777. Buch-17-ppfh8. 凯尔-169. Buch-17-si96304177 10 18 24 23 10
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功