没有合适的资源?快使用搜索试试~ 我知道了~
10870StereoOBJ-1 M:用于6D物体位姿估计的大规模立体图像数据集星宇刘顺岩濑Kris M.卡内基梅隆大学摘要我们提出了一个大规模的立体RGB图像对象姿态估计数据集命名为StereOBJ-1 M数据集。该数据集被设计为解决具有挑战性的情况,例如对象透明度、半透明度和镜面反射,以及遮挡、对称性和照明和环境变化的常见挑战。为了为现代深度学习模型收集足够规模的数据,我们提出了一种新的方法,用于以多视图方式有效地注释姿势数据,该方法允许在复杂和灵活的环境中捕获数据。我们的数据集包含超过396K帧和超过1.5M的注释,记录在11个不同环境中构建的183个场景中的18个对象18个对象包括8个对称对象、7个透明对象和8个反射对象。我们在StereOBJ-1 M上基准测试了两个最我们还提出了一种新的对象级姿态优化方法,用于从多个图像中的关键点预测计算6D姿态。1. 介绍有效地利用来自视觉数据的3D线索来推断对象的姿态对于诸如增强现实(AR)和机器人操纵之类的应用至关重要与具有不透明和朗伯表面的对象相比,估计透明和反射对象的姿态尤其具有挑战性。为了利用来自传感器的深度信息,先前的方法已经探索了将RGB-D图作为输入的深度模型[34,35,8,28,32]。不幸的是,如[17,37,29,12]中的实验所示,现有的商业深度感测方法,例如飞行时间(ToF)或投影光传感器,未能捕获透明或反射表面的深度。因此,在这些具有挑战性的场景中,单目RGB-D图不能用作对象姿态估计模型的可靠输入基于该观察,我们专注于使用立体RGB图像作为我们的输入模态,允许对更宽范围的对象(包括透明或高度反射的对象)进行对象姿态估计。图1:StereoOBJ-1 M数据集。上部:数据集中对象的CAD模型。下:具有边界框注释的四个数据立体图像对样本。现代物体姿态估计中的主要挑战是获取大规模训练数据集。为了增加用于训练大规模神经网络的数据大小,先前的工作已经探索了利用具有3D网格模型的合成渲染[33,27,10]或增强图像[35然而,真实感渲染仍然是具有挑战性的,只有基本的图形渲染工具和有限的经验。当前可用的合成图像数据集通常引入非常大的域间隙。这尤其适用于透明和反射对象,其中照明和背景场景的变化是至关重要的,但难以建模。为了解决昂贵的姿态数据采集的挑战,并使现代物体姿态估计模型的进一步训练和评估,我们引入了一种新的方法,用于捕获和标记大规模数据集,具有高效率和高质量。我们的方法是基于多视图的几何形状,以准确地定位基准标记,摄像机和对象的关键点在场景中。我们使用手持立体摄像机来记录视频数据。在安装在三脚架上的另外两个静态摄像机的帮助下,10871数据集数据类型立体声深度闭塞透明对象反射对象数量帧#户外环境数量场景数量对象数量注释脂肪[33]合成✓✓✓✗✗60,00003,07521205,359摄影机[35]混合现实✗✓✓✗✗300,000030424,350,656YCB [1]房✗✓✓✗✗133,93609221613,917LINEMOD [9]房✗✓✓✗✗18,0000151515,784GraspNet-10亿[4]房✗✓✓✗✗97,280019088970,000T-LESS [10]房✗✓✓✗✗47,7620-3047,762kPAM [21]房✗✓✓✗✓100,0000-91-标签融合[22]房✗✓✓✗✓352,0000138121,000,000REAL275 [35]房✗✓✗✗✗7,0720134235,356[17]房✓✓✗✓✗64,0000102064,000StereOBJ-1M(Ours)房✓✗✓✓✓396,5093183181,517,835表1:数据集比较。我们的StereOBJ-1 M数据集是唯一一个提供立体RGB作为输入模式的大型6DoF对象姿态数据集,包括透明和反射对象,并在室内和室外环境中捕获就容量而言,我们的数据集也是大小最大的真实图像数据集和场景多样性最多的数据集可以在运行中计算一组基准标记,根据该组基准标记,可以自动计算每个记录帧的姿态。通过仅在长记录视频中选择的几个帧中注释2D对象关键点,可以通过三角测量来计算关键点的3D位置。然后,可以通过在传播到所有其他帧之前将3D CAD模型与关键点对齐来计算对象的6D姿态。使用上面概述的过程,我们生成StereoOBJ-1 M数据集,这是第一个以立体RGB作为输入模态的姿态数据集,具有超过100 K帧。它也是历史上最大的6D对象姿势数据集:它由396,509个高分辨率立体帧和183个室内和室外场景中记录的18个对象的超过150万个6D姿势注释组成。StereoOBJ-1 M的能力足以训练大规模的神经网络,而无需额外的合成图像。StereOBJ-1M的平均标注误差为2.3mm,是所有公共对象姿态数据集中标注精度最高的。我 们 实 现 了 两 种 最 先 进 的 方 法 [27 ,17] 作 为 在StereOBJ-1 M数据集上使用立体声进行6D姿态估计的基线比较。为了处理两个或多个图像中的2D-3D对应预测,我们提出了一种新的对象级6D位姿优化方法,称为对象三角剖分。与优化点的3D位置的经典三角测量相反,我们直接从多个图像中的2D关键点位置优化对象实验结果表明,物体三角剖分一致地提高了单目输入的姿态利用对象三角测量,两种基线方法的立体变体在StereOBJ-IM上显著优于我们预计,StereOBJ-1M将作为一个共同的基准数据集立体RGB为基础的对象姿态估计。2. 相关工作姿势注释方法。第一类姿态数据注释方法依赖于捕获RGB-D图像,重建3D点云,并通过构建3D网格[21]或将3D对象网格模型拟合到3D点云[22,1,9]来标记姿态。然而,这种类型的方法不能可靠地处理深度感测通常不可能的透明对象。第二类姿态数据注释方法采用关键点作为表示,并利用多视图几何进行三角测量[11,17]。我们的新的数据标注方法是基于关键点和多视图与以前的方法不同,我们使用立体RGB相机记录的场景,其姿势是在飞行中计算的基准标记,其位置也计算在飞行中的基础上。立体方法从两个或多个RGB图像中研究对应性、深度和其他下游任务一直是计算机视觉和机器人技术中的一个长期主题。先前的工作已经探索了用于3D对象检测[16]、视差估计[38]、基于点的3D重建[3]和关键点检测[17]的基于立体的方法。最近,已经提出了用于对象姿态估计的基于多视图的方法[15,14]。我们的6D对象姿态数据集提供双目立体RGB图像作为输入模态,允许基于立体的深度方法在对象姿态数据上进行训练。此外,我们的数据集的注释过程利用多视图几何。姿势表示中的关键点。关键点是对象或人姿势的流行中间表示。以前的工作已经探索了深度学习方法,用于从RGB图像中定位对象[31,26,17,8,13]或人[30,24,2还通过使用关键点来简化姿势注释[22,17]来构建若干公共对象姿势估计数据集。我们的数据注释流水线还使用关键点作为到6D姿态的桥梁,其中关键点的3D位置通过多视图三角测量来计算。相关数据集。 大多数现有的姿势数据集提供10872我1关于我们122∈(一)(b)第(1)款(c)(d)(e)(f)(g)图2:我们为一个捕获的视频的数据捕获和标记管道:(a)使用PnP从基准标记板计算固定相机的全局位姿;(b)基准标记位置的三角测量;(c)用立体相机扫描场景;(d) 使用PnP从基准标记计算移动相机的全局姿态;(e)在采样图像上注释关键点;(f)对象3D关键点的三角测量;(g)来自3D关键点的6D姿态拟合并传播到所有图像。RGB-D作为输入模态[1,7,9,4,10,21,22,35]。由于直接标记真实RGB图像中的3D对象姿态是昂贵且不准确的,因此大多数现有数据集依赖于捕获RGB-D图像并将3D网格模型拟合到3D点云作为其标记方法[22,1,35,10,9]。TOD [17]是第一个以双目立体RGB作为输入模态的对象姿态数据集,并且它使用基于多视图几何的数据标记方法但是,TOD在演播室环境中录制我们的数据集提供了双目立体RGB作为输入模态,并记录了11个不同的真实环境中的遮挡对象。数据集的更全面比较如表1所示。3. 数据捕获和标签流水线三维物体位姿估计中的主要挑战之一以前的努力的局限性表现在以下三个方面。传感器模态。大多数现有的数据集,如[1,7,9,10、21、22、35]仅提供来自商用深度传感器的单眼RGBD作为3D提示。这些数据集和相关的标记方法没有也不能处理深度感测不可靠的透明或反射对象。此外,可以使用不同的深度感测技术,例如红外线和激光雷达可以返回相同对象和场景的不同深度。因此,在一个基于RGBD的姿态数据集上训练的模型可能无法推广到具有不同深度感测技术的另一个。数据注释。现有的数据标注方法通常需要标注者手动将对象CAD模型与3D传感器信号对齐,例如,然而,这需要从深度图重建3D点云,这是昂贵且不准确的。受数据注释成本的限制,公共真实世界数据集(如[7,9,10,35])的大小在场景环境。诸如[17,4,10,9]的数据集是在少量(3)特殊室内环境或工作室中捕获的<在这些数据上训练的模型很难推广到看不见的环境,特别是对于背景场景和照明至关重要的透明和反射物体。3.1. 数据捕获和标记为了解决上述问题,我们提出了一种新的方法,用于有效地捕获和标记3D对象姿态数据。我们选择使用立体RGB模态来为数据提供3D提示。对于标记,我们的理念是放弃深度感测,并利用多视图几何结构来对用于姿态拟合的对象关键点进行高精度3D定位。我们的流水线概述如图2所示。它由分别对应于图2(a)-(g)的以下七个步骤组成。1. 静态摄影机的姿势计算 我们设置了两台静态摄像机,同时记录现场。摄像机由两个三脚架支撑。为了获得世界坐标中的相机姿势,我们将印刷有基准标记阵列的大型定制塑料板放置到场景中,使得大多数基准标记在两个静态相机中都是可见的。板上的基准标记的准确3D位置由游标卡尺测量两个静态摄像机的姿势-用透视n点(PnP)算法[5]计算了[RS,TS]R3×4和[RS,TS]2. 基准标记的三角测量。我们移除塑料基准标记阵列板并将若干其他小基准标记放置到场景中,使得它们在两个静态相机中都是可见的。小基准标记板的尺寸也通过游标卡尺精确测量。从[RS,TS]和[RS,TS],我们使用三-1 1 2 210K或更少的图像数量级,这不足以训练大规模深度神经网络模型。替代解决方案是利用合成渲染或增强的图像。然而,畴隙的问题仍然有待解决,并且对于透明和反射物体尤其具有挑战性。角度测量,以在世界坐标xFR4×3中定位小基准标记的角的3D位置。在该步骤期间,两个静态相机继续记录视频并且它们的姿势保持不变。3. 场景构建和扫描。为了构建场景,我们首先将一些随机选择的对象从10873我--J联系我们数据集RGBD数据集[17]立体OBJ-1 M3D标注深度图多视图标签错误≥1.7cm10.34cm0.23cm表2:在3D RMSE中测量的标记误差。我们的数据集,并将它们与小基准标记混合。如果需要,还可以包括其他遮挡对象。注意,在该步骤期间,小基准标记的位置必须保持不变,同时可以移除静态相机。然后,人类数据收集器持有立体RGB相机,在场景中缓慢移动它,从不同的视点扫描对象,并记录立体视频。选择扫描路径的目的是覆盖尽可能多的视点。4. 移动摄影机的姿势计算。给定长度为L的RGB立体视频,再次使用PnP算法计算运动立体摄像机在世界坐标[RM,TM]∈R3×4中误差可能来自两个步骤:小基准标记板的自动检测和关键点2D位置的注释,这分别导致两个非线性优化中的误差:相机姿态估计和来自多个视图的3D点估计。我们使用蒙特卡罗模拟来量化姿态符号误差,其过程与[17]中类似。具体地,我们根据关键点重投影RMSE统计来抖动关键点2D投影,并估计3D关键点误差作为标记误差的近似。我们报告的关键点标签误差为2.3mm RMSE,如表2所示。标签错误改善的原因超过”[17]两个字。首先,我们的立体相机具有比[17]更高其次,我们的对象扫描路径是由人类数据收集器在飞行中确定的,而不是由机器人硬编码和执行[17],因此更灵活,可以适应特定场景以覆盖更多的视点并提供更好的视觉效果。提供 较宽的基线用于三角测量。j1、2、. . .,L,使用小基准标记位置XF。为了减少PnP的误差,在实践中,仅具有至少两个小基准标记的帧或者选择检测到的八个角作为有效帧。5. 关键点注释。从所有有效帧中,我们选择一些来注释图像上投影对象关键点的2D位置。使用最远点采样(FPS)来选择帧,使得它们的相机平移T,M尽可能远离彼此。对象的关键点由专家定义,并且容易被发现和准确定位,例如。角落注意,有可能在一个特定帧中仅注释全部关键点的子集。6. 关键点三角测量。的每个关键点对象,我们检索其中注释了关键点的所有帧使用移动相机姿势[RM,TM]和2D3.3.与先前标记方法的我们指出,使用多视图和关键点进行姿势标记的想法也可以在人类姿势估计场景中找到,例如PanopticStudio数据集[11]。与[ 11 ]不同的是,[ 11]依赖于安装在专门构造的工作室中的480个固定摄像机进行三角测量,我们的数据采集方法是负担得起的和便携式的-它只需要三个摄像机和两个三脚架,因此可以部署在不同的室内和室外环境中。相反,为了构造诸如[4,17]的数据集,必须专门构造配备有多个传感器或机器人辅助的工作室。除了物流成本之外,这种设置对于野外环境不够灵活,因此缺乏数据的多样性。J J通过使用注释,可以通过多视图三角测量来计算世界坐标中的关键点的3D位置。7. 姿势拟合。为了获得世界坐标中对象的6D姿态,我们解决了正交Procrustes问题[6],以将对象CAD模型拟合到注释的3D关键点。最后,通过摄像机姿态的逆变换将目标姿态传播到所有有效帧[RM,TM]。TOD [17]是提供立体RGB模态的第一个对象姿态估计数据集。我们的数据捕获流水线在移动相机姿态计算方面与[17[17,9,10]等数据集依赖于打印有基准标记的定制板,并且对象被放置在板的中心附近。因此,只有最简单的平面地形可以与对象一起使用,并且缺乏多样性。相反,在我们的数据管道中,我们分发小的基准J J3.2.标签错误分析需要回答的一个有趣的问题是:我们的标记方法有多准确?我们假设大基准标记阵列板和小基准标记的尺寸误差是可忽略的,因为它们都是然后是标签1最新和最先进的商业深度传感器之一Microsoft Azure Kinect具有17mm的随机深度传感误差标准差:https://docs.microsoft.com/en-us/azure/kinect-dk/hardware-specification在两个静态摄像机的帮助下,将标记插入场景并计算它们的位置。这允许对象被放置在更灵活和复杂的背景地形中。我们的数据管道具有比TOD高得多的数据效率[17]。利用所提出的数据管道,在每个构造的场景中,我们可以通过单次扫描捕获和注释超过2,000个有效帧作为比较,[17]在机器人手臂的帮助下,每个场景只捕获80帧。一种解释是,在[17]中,机器人的预定义自动扫描路径受其操作限制。10874(a)(b)(c)(d)(e)(f)(g)(h)(i)(j)(k)(l)(m)(n)(o)(p)(q)(r)图3:StereoOBJ-1 M数据集中18个对象的3D CAD模型。(a)剃刀片;(b)锤子;(c)尖嘴钳(d)螺丝刀;(e)偏口钳;(f)卷尺;(g)剥线;(h)扳手;(i)离心管;(j)微孔板;(k)试管架2;(l)试管架50;(m)移液管0.5 × 10;(n)移液管10 100;(o)移液管100 1000;(p)无菌架10;(q)无菌架200;(r)无菌架1000。在扫描过程中,物体的反射部分被白色扫描喷雾覆盖。在这些物体中,(c)(d)(e)(g)(j)(k)(l)具有离散的2重旋转对称性;(i)具有连续旋转对称性。理性空间在我们的数据管道中,扫描由人类执行,可以适应不同的场景,这导致(1)每个视频的有效帧更多;(2)更大的视点覆盖范围;以及(3)在三角测量期间更宽的基线,因此更高的精度。4. StereOBJ-1 M数据集利用所提出的方法,我们构建了StereOBJ-1 M,一个大规模的数据集,并从立体RGB图像的三维物体姿态估计的基准在本节中,我们将提供StereoOBJ-1 M数据集的技术细节,包括对象3D模型和数据示例说明。4.1. 数据集中的对象我们的数据集中包含18个对象。其中,10个物体是生化实验室中使用的塑料工具,8个物体是金属力学工具,它们一起包括透明和反射实例。我们提供18个物体的3DCAD模型,如图所示3 .第三章。使用高精度EinScan Pro 2X Plus扫描仪[20]获得CAD模型,扫描精度为0.04mm。在扫描过程中,物体的反射金属部分被白色扫描喷雾覆盖。在这18个天体中,有8个天体具有离散的二重旋转对称性,有1个天体具有连续的旋转对称性。在18个对象中,微孔板、2 ml管架和50 ml管架是透明的;离心管、10ml无菌架、200 ml无菌架、1 0 0 0 m l 无菌架为半透明。在我们的数据集中使用的对象集有一个特殊的功能:它包括视觉上相似但不同的对象-姿态例如,如图3所示,三个移液管的几何特征几乎相同。在我们的数据集中,我们包括图像序列,其中两个或多个相似但不同的对象实例存在于同一场景中。因此,它为计算机视觉社区提出了一个新的研究问题:如何检测和估计视觉上非常相似但不同的物体的姿态?我们期望这个问题可以用我们的数据集来研究。4.2. 数据收集和注释我们在8个真实的室内环境中收集数据,包括桌面,洗脸盆,木地板等。除了室内环境,我们还采用了3种室外环境,以丰富背景场景的多样性。在每个环境中,我们将对象和遮挡杂波混洗几次以构建多个场景。我们总共构建了183个场景。在每个构建的场景中记录立体视频。视频的长度从2到7分钟不等。当以15帧/秒采样时,所记录的视频总共产生396,509个立体帧。平均而言,每个场景中有超过2,100个立体帧我们的数据集由183个视频组成,包含超过150万个对象姿势注释。每个环境中每个对象的注释数量如图4所示。每个对象的视点覆盖在图5中示出。对于诸如微孔板和无菌尖端架之类的物体,当放在桌面上时,只有一个可能的侧面,因此最多50%的视点覆盖。我们数据集中的注释是场景中每个对象的6D姿势,从中可以推断出对象实例分割遮罩,2D和3D边界框以及归一化坐标图[35]。我们在图6中可视化了数据集中的一些数据样本。如图所示,注释-1087572.5667.4056.5460.8955.8286.1166.8672.4463.68||1Σ104123456789 10 11 123456789 10 11 123456789 10 11 123456789 10 11 123456789 10 11 123456789 10 11 123456789 10 11 123456789 10 11 123456789 10 11 123456789 10 11 123456789 10 11 123456789 10 11 123456789 10 11 123456789 10 11 123456789 10 11 123456789 10 11 123456789 10 11 123456789 10 11环境ID图4:每个环境中每个对象的注释总数环境ID的范围为1到11。100M={x,i}∈R3},ADD距离计算为:8060ADD=40|M|xΣ∈M||第二章(一)||2(1)其中[R*T*]和[R T]是地面真实和估计的6D姿势。对于对称对象,使用ADD-S [36]。当计算ADD-S距离时,3D距离被计算为每个点到另一个点集的最近距离的平均值图5:StereoOBJ-1 M中所有对象的总体视点覆盖百分比。ADD-S=1分钟|x ∈M x 2∈M|x ∈Mx2∈M||(Rx1+T)−(Rx2+T)||2(二)我们的数据集具有高质量。4.3. 基准和评估培训/确认/测试拆分。图像序列被划分为训练/验证和测试集,使得训练集中呈现的场景在验证和测试集中保持。测试集包含32个图像序列,选择这些图像序列以覆盖大多数环境,并确保在至少3个不同场景的至少4,000个图像中测试在第5节的基线实验中,除了基本的几何和光度增强之外,我们没有渲染额外的合成数据,因为StereOBJ-1 M训练集的容量足以训练大型深度模型。然而,数据集的未来用户仍然可以选择在训练期间使用我们提供的3D网格模型渲染额外的合成数据在这些物体中,离心管是唯一一个在一个场景中记录多个实例的物体类别,并且用于多物体姿态检测任务。其余的17个对象用于单对象的姿态估计任务,这是本文的主要重点。离心管姿态检测的结果在补充中提供评估指标我们在6D姿势的评估中使用流行的ADD[9]和ADD-S [36]。在计算ADD距离时,我们分别用预测的和真实的姿态来变换模型点集,并计算两个点集之间的平均3D欧氏距离。给定对象的3D模型点集为我们使用以下两个评估指标。(1)ADD(- S)准确度:ADD(-S)准确度测量正确姿势预测的比例。如果ADD(-S)距离小于模型直径的10%的阈值,则姿势预测被认为是正确的(2)ADD(-S)AUC:ADD(-S)准确度-阈值曲线下面积,其中最大阈值设置为10 cm。5. 实验5.1. 基线方法我们实施和评估两种方法的Stereobj-1 M数据集作为基线,为未来的实验。具体来说,我们实现了PVNet[27]和KeyPose [17],这两个经典的基于关键点的6D姿态估计框架已经在各种数据集上实现了最先进的性能。PVNet [27]是基于单RGB关键点的方法。它使用2D方向字段表示关键点,并通过基于RANSAC的投票方案[5]估计关键点的2D位置6D姿态通过解决透视n点(PSPs)问题来确定[5]。KeyPose [17]是基于立体RGB关键点的方法。与PVNet不同,它通过预测两个立体图像中的热图来定位对象关键点。6D物体位姿通过关键点三角剖分和正交Procrustes位姿拟合来计算。5.2. 单目图像实验我们进行单眼图像实验,其中仅使用左侧图像作为刀片剃刀离心管锤微孔板尖嘴钳移液器_0.5_10移液管_100_1000移液管_10_100螺丝刀侧铣刀sterile_tip_rack_10sterile_tip_rack_1000sterile_tip_rack_200卷尺管架1.52mltube_rack_50_ml剥线钳注释数量(对数标尺)视点覆盖率(%)刀片剃刀33.6899.89离心管锤微孔板34.49尖嘴钳移液管_0.5_10移液管_100_1000移液管_10_100螺丝刀侧铣刀sterile_tip_rack_100029.29sterile_tip_rack_1027.94sterile_tip_rack_20031.91卷尺36.25tube_rack_1.5_2_ml38.9242.00tube_rack_50_ml剥线钳扳手120010876输入来预测6D姿态。10877输入模态单目RGB双目立体RGB位姿优化PNP [五]《中国日报》经典三角测量对象三角测量度量ADD(-S)ADD(-S)AUC-10 cm准确度-0.1dADD(-S)ADD(-S)AUC-10 cm准确度-0.1dADD(-S)ADD(-S)AUC-10 cm准确度-0.1d刀片式剃刀锤微孔板尖嘴钳吸管0.5 10移液管100 1000吸管10 100螺丝刀侧切刀无菌尖端架1000无菌尖端架10无菌尖端架200卷尺管架1.5 2 ml管架50 ml剥线器扳手20.409.9638.6938.2520.8412.4122.1331.7417.9374.9268.5671.6618.4728.1563.2430.928.113.643.6824.6623.0614.351.6211.4421.246.0967.6360.3563.431.3815.0659.8021.600.8240.0118.9658.3563.5218.1015.1224.4564.3160.7139.2437.1739.5057.4257.7257.5164.7533.810.022.0822.4011.872.260.351.0321.089.1111.322.032.030.0034.6832.6126.470.0254.5237.8458.8074.1734.4022.3845.0271.3768.8477.2973.9675.4568.8543.6773.2681.4042.4012.1917.6238.2551.5520.951.7424.1046.9538.1070.7462.5564.8514.6731.8269.3170.987.69平均33.9023.5244.1610.5559.0437.89表3:KeyPose [17]在StereoOBJ-IM数据集上的ADD(-S)AUC和ADD(-S)准确度方面对单对象姿态估计的结果输入模态包括单目和双目立体RGB图像。输入模态单目RGB双目立体RGB位姿优化PNP [五]《中国日报》经典三角测量对象三角测量度量ADD(-S)ADD(-S)AUC-10 cm准确度-0.1dADD(-S)ADD(-S)AUC-10 cm准确度-0.1dADD(-S)ADD(-S)AUC-10 cm准确度-0.1d刀片式剃刀锤微孔板尖嘴钳吸管0.5 10移液管100 1000吸管10 100螺丝刀侧切刀无菌尖端架1000无菌尖端架10无菌尖端架200卷尺管架1.5 2 ml管架50 ml剥线器扳手24.5012.1016.928.987.232.3117.3042.9851.0164.4463.1662.9251.6432.3169.5671.6516.9610.883.366.794.262.490.004.5828.8029.1352.9551.5847.187.3321.9866.3454.544.2741.7017.2244.5659.4820.3511.8120.1357.5462.2420.8319.4822.3356.0047.9750.7155.4033.510.022.269.109.122.540.190.8016.6612.003.090.520.230.0017.4621.1215.900.0375.8238.9543.3574.6039.5825.2648.8976.2783.7871.5566.5073.2879.4932.3174.8782.3760.0047.0921.3420.9152.4118.730.8124.5156.3868.6961.7250.5559.1629.5921.9872.3571.8623.13平均36.2323.3237.726.5361.5841.25表4:PVNet [27]在StereoOBJ-IM数据集上的ADD(-S)AUC和ADD(-S)准确性方面对单对象姿态估计的结果。输入模态包括单目和双目立体RGB图像。立体方法KeyPose [17]适用于其monocular变体,其中仅使用热图预测左立体图像中的关键点,并且通过解决PnP问题[5]来计算6D姿态。结果示于表3和表4中的列1-2中。PVNet和KeyPose平均ADD(-S)AUC分别为33.90%和36.10%,在对象中,两种基线方法的性能尤其在吸管类别上受到影响,这突出了视觉模拟的姿势估计的挑战。10878K∈2R、T∈k=1KK2kk2k k kk螺 丝刀刀片剃刀扳 手针钳子锤测量nsiedetntersse_pliers磁带ed_lceu_管架c5e0ntmril离心管_2_ml移液管_100_1000tube_rack_1.5sterile_tip_rack_1000ptube_rack_50_ml离心机p_tipuebtete_100_1000ipette_10_100tube_rack_50_mltube_rack_1.5_2_ml离心管离心管螺 丝刀无针铣刀图6:来自StereOBJ-IM数据集的数据样本的可视化。第一行是叠加了语义掩码和边界框的左立体图像。在第二行中,我们使用归一化坐标图[25,35]来说明相应对象的6D姿态,其中对象表面点的坐标被归一化为[0,1]3,并在投影像素处转换为[0,255]3类似但不同的对象实例。5.3. 立体图像实验我们进行立体实验,其中两个立体图像被用作输入来预测6D姿态。单目方法PVNet [27]适用于其立体声变体,其中对象三角剖分结合了等式中的两个步骤(3) 6D姿态的一个统一优化[R〇|To]:[Ro|To]=argminΣ||ΠL(Rx*k +T)−[uL,vL]||2个以上单独预测两个立体图像中的关键点对于两种基线方法,假设[uL,vL]和[uR,vR]||第二(四)条||2(4)k k k k是左侧中的第k个关键点的预测2D位置,并且分别是右摄像机,ΠL和ΠR是左摄像机和右摄像机相对于iv el y的摄像机投影,并且R3是规范对象姿态中的第k个关键点。我们投资-参考以下两种用于从两个立体图像中的关键点预测计算6D姿态的方法。经典三角测量对于所有k,给定[uL,vL]和[uR,vR],计算对象6D姿态的一种简单方法是遵循KeyPose[17]中使用的经典点级三角测量,即,从立体中对3D关键点进行三角测量,并通过求解正交Procrustes问题将它们拟合到规范对象3D关键点,以获得估计的姿态[Rc|Tc]:xk= arg min ||ΠL(x)−[u L,v L] ||2 个以上||ΠR(x)−[u R,v R] ||2我们使用Levenberg-Marquardt算法[23]作为非线性优化方法以及RANSAC [5]。在表3和表4的列3-6中示出了具有两种姿态优化方法的两种基线架构的结果。基线方法与对象三角测量一致地改善了所有对象类别上的单眼变体,而经典三角测量可能会产生更差的结果。使用对象三角测量,两种基线方法的立体变体在StereOBJ-1 M上显著优于其单眼对应物,在ADD(-S)AUC中至少25%,在ADD(-S)准确度中至少14%。6. 结论在这项工作中,我们提出了一种新的对象姿态数据帽-x∈R3kk2Kkk2和注释管道,并提出了一个大规模的获取-[Rc|Tc]=a rgmin||(Rx*k +T)−xk||2(三)使用立体RGB作为输入的对象姿态数据集。 我们基准R、 Tk=1两个国家的最先进的算法6D对象姿态估计-其中XkR3是第k个关键点的三角测量的3D位置。(3)中的第二步骤可以使用RANSAC [5]。对象三角剖分。我们提出了一种新的对象级三角测量方法作为一个更强的基线。与优化点的3D位置的经典三角测量相比,我们直接从两个图像中的2D关键点从数学上讲,提出了一种新的立体目标姿态优化方法,该方法优于经典的三角剖分方法。除了姿态估计之外,我们的数据集还能够实现未来的研究方向,例如来自立体RGB的对象重建和场景流估计[18,19]。谢谢。这项工作部分由日本JST AIP Acceleration资助,资助号为JPMJCR20U1。10879引用[1] Berk Calli,Aaron Walsman,Arjun Singh,SiddharthaSrini-vasa,Pieter Abbeel,and Aaron M.美元. 操纵研究中的基准:ycb对象和模型集以及基准测试协议。CoRR,abs/1502.03143,2015。二、三[2] 曹哲、吉内斯·伊达尔戈、托马斯·西蒙、魏世恩和亚瑟·谢赫。使用部分亲和场的实时多人2d姿态估计。TPAMI,2019。2[3] 陈睿,韩松芳,许静,苏浩。基于点的多视点立体网络。在ICCV,2019年。2[4] 方浩树,王晨曦,郭明浩,陆策武。Graspnet-10亿:一般物体抓取的大规模基准。在CVPR,2020年。二、三、四[5] Martin A Fischler和Robert C Bolles。随机样本一致性:一个范例模型拟合与应用程序的图像分析和自动制图。ACM通讯,1981年。三六七八[6] 约翰·C·高尔广义procrustes分析。心理治疗,1975年。4[7] TillGrenzd oürf fe r,MartinGuünther,andJoachimHertzbe r g.Ycb-m:用于对象识别和6dof姿态估计的多相机rgb-d数据集。在ICRA,2020年。3[8] Yisheng He ,Wei Sun ,Haibin Huang ,Jianran Liu ,Haoqiang Fan,and Jian Sun.Pvn3d:一个用于6dof姿态估计的深度逐点3d关键点投票网络。在CVPR,2020年。一、二[9] Stefan Hinterstoisser、Stefan Holzer、Cedric Cagniart、Slobodan Ilic、Kurt Konolige、Nassir Navab 和VincentLepetit。多模态模板用于在严重杂乱的场景中实时检测无纹理物体。见ICCV,2011年。二三四六[10] 汤姆·马尔斯·霍丹、帕维尔·哈卢扎、斯特 普 ·奥布德·扎列克、伊日·马塔斯、马诺利斯·卢拉基斯和色诺芬·扎布利斯。T-less:用于无纹理对象的6D姿态估计的rgb-d数据集。在WACV,2017年。一、二、三、四[11] Hanbyul Joo、Tomas Simon、Xulong Li、Hao Liu、LeiTan、Lin Gui、Sean Banerjee、Timothy Scott Godisart、Bart Nabbe 、 Iain Matthews 、 Takeo Kanade 、 ShoheiNobuhara和Yaser Sheikh。Panoptic Studio:用于社会互动捕捉的大规模多视图系统。TPAMI,2017。二、四[12] 金京民和沈贤贞。使用飞行时间深度相机重建透明对象的鲁棒方法Optics Express,2017年。1[13] Jogendra Nath Kundu,MV Rahul,Aditya Ganeshan和RVenkatesh Babu。基于多视点关键点对应的单目图像目标姿态估计在ECCV,2018。2[14] YannLabbe´,JustinCarpentier,MathieuAubry,andJosefSivic.Cosypose:一致的多视图多对象6D姿态估计。在ECCV,2020年。2[15] Chi Li,Jin Bai,and Gregory D Hager.多视角多类别目标姿态估计的统一框架。在ECCV,2018。2[16] Peiang Li,Xiaozhi Chen,and Shaojie Shen.用于自动驾驶的基于立体r-cnn的3d目标检测在CVPR,2019年。2[17] Xingyu Liu,Rico Jonschkowski,Anelia Angelova,andKurt Konolige.关键点:多视图3D标注和关键点透明物体的估计。 在CVPR,2020年。 一,二,三,四、六、七、八[18] Xingyu Liu , Charles R Qi , and Leonidas J Guibas.Flownet3d:学习3D点云中的场景流。在CVPR,2019年。8[19] Xingyu Liu , Mengyuan Yan , and Jeannette Bohg.Meteor- net:动态三维点云序列的深度学习。在ICCV,2019年。8[20] SHINING 3D 技 术 Co. Ltd. Einscan pro 2x plus.https://www.einscan.com/handheld-3d-scanner/2x-plu
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功