没有合适的资源?快使用搜索试试~ 我知道了~
11602KeyPose:透明物体的多视图3D标注和关键点刘兴宇1Rico Jonschkowski2Anelia Angelova2Kurt Konolige21斯坦福大学2Google的机器人摘要估计桌面对象的3D姿态对于机器人操作等应用至关重要。针对该问题的许多现有方法需要对象的深度图以用于训练和预测,这将它们限制为在RGBD传感器中产生良好回报的不透明朗伯对象。在本文中,我们放弃使用深度传感器,有利于原始立体声输入。我们解决了两个问题:第一,我们建立了一个简单的方法来捕捉和标记的三维关键点的桌面对象与RGB相机;其次,我们开发了一个深度神经网络,称为Key-Pose,它可以学习使用3D关键点准确预测物体的姿势,从立体声输入,甚至适用于trans-parent物体。为了评估我们的方法的性能我们训练实例和类别模型,并展示对新纹理、姿势和对象的泛化。KeyPose在此数据集上的3D姿态估计方面的最新性能超过1.5至3.5倍,即使在竞争方法提供地面实况深度的情况下也是如此。立体声输入是必不可少的性能,因为它提高了结果COM-兼容使用单眼输入的一个因素2。我们将发布数据捕获和标签管道的公共版本,透明对象数据库,以及KeyPose模型和评估代码。项目网址:https://sites.google.com/corp/view/keypose网站。1. 介绍估计3D对象的位置和方向是计算机视觉应用中的核心问题之一,所述计算机视觉应用涉及对象级感知,诸如增强现实(AR)和机器人操纵。 刚性对象, 已知模型可以由4D姿态(例如,vehi- cles [13,10])、6D姿势[31,5]和预测比例的9D姿势[29]。一种更灵活的方法使用3D关键点 [16,26],它可以处理铰接和可变形的物体。在Google Research/Robotics实习。图1:RGB图像(上),深度图(中)和点云(下)的不透明瓶(左)和它的透明孪生(右)。不透明的瓶子返回合理的深度,而透明的瓶子使用Microsoft AzureKinect传感器返回无效的深度值如人的手或身体[25,12]。虽然其中一些方法从单个RGB图像预测3D关键点,但其他方法使用深度传感器收集的RGBD数据[28,16,3]来实现更好的准确性。不幸的是,诸如投射光或飞行时间(ToF)传感器之类的前商业深度传感器假定对象具有可以支持来自传感器的漫反射的不透明朗伯表面。当这些条件不成立时,例如,用于透明或有光泽的金属物体。图1示出了这样的示例。在本文中,我们提出了第一种方法的关键点为基础的姿态估计(透明)三维物体从立体RGB图像。有几个挑战:首先,没有透明3D可用的大规模数据集11603从具有注释关键点的立体图像估计对象姿态。诸如NYUDepth v2 [19]的数据集缺乏每个单独对象的精确姿态的注释,而诸如LabelFusion [16]、YCB数据集[3]和REAL275 [29]的其他数据集注释不透明对象的单眼RGBD图像。第二个挑战是透明3D对象的姿态标注。现有的数据集,如[16,3,29]需要准确的深度信息以及对象CAD模型,以便可以应用迭代最近点(ICP)[2]等对齐算法。第三个挑战是如何仅利用RGB图像进行3D关键点估计,从而避免对深度传感器的需要为了解决数据采集和注释方面的挑战,我们引入了一种有效的方法来捕获和标记透明(和其他)对象的立体RGB图像。虽然我们的方法不需要它们,但我们也捕获和配准对象的深度图,对于透明对象和它的不透明孪生体,与立体图像配准;我们使用机械臂来帮助自动化这个过程。配准的不透明深度允许我们与需要深度图作为输入的方法进行比较,例如Dense- Fusion [28]。根据所提出的数据捕获和标记方法,我们构建了一个由来自15个透明对象实例的48k图像我们称透明对象数据集(Transparent Object Dataset)为了降低对可靠深度的要求,我们提出了一种深度模型KeyPose,它从裁剪的立体RGB输入预测跨父对象上的3D关键点裁剪是从检测阶段获得的,我们假设可以松散地绑定对象(参见[23]用于透明对象的适当方法)。该模型通过组合来自图像对的信息并预测对象实例和类的关键点的3D位置来在对TOD进行训练后,我们将KeyPose与现有的最佳RGB和RGBD方法进行了比较,发现它在此数据集上的性能大大优于它们。总之,我们做出以下贡献:• 在真实世界的物体上标记3D关键点的管道,包括不需要深度图像的透明物体,从而使基于学习的3D es-based无需模拟数据或精确的深度图像,即可对先前未知的物体进行估计此管道支持双不透明技术,以便与需要深度输入的模型进行比较。• 6类15个透明对象的数据集,标记有相关的3D关键点,包括48k立体和RGBD图像,透明和不透明深入该数据集也可用于其他透明3D对象应用。• 深度模型KeyPose仅使用RGB立体输入就可以高精度地预测这些对象上的3D关键点,甚至优于使用地面实况深度输入。2. 相关工作4D/6D/9D姿势表示。这些表象背后的假设是物体的刚性,因此平移、旋转和大小足以描述其构型。用于4D/6D/9D姿态估计的现有技术通常可以通过3D CAD模型是否用于训练或推断来分类。第一种类型的技术将观察到的RGB图像与渲染的CAD模型图像对齐[5,11],或者使用诸如ICP [28]的算法将观察到的3D点云与3D CAD模型点云对齐,或者将来自3D CAD模型的混合现实数据渲染为额外的训练数据[29]。虽然可以使用光线跟踪渲染透明对象的高质量RGB场景,但还没有在渲染深度图像方面进行工作,以忠实地再现真实世界RGBD数据中看到的降级深度(参见图1)。第二种类型的技术从RGB图像或3D点云回归对象坐标值[31,13,10,21,22]。我们的方法不假设对象刚性,并且对象姿势基于3D关键点的位置,其可用于铰接或可变形对象。我们的方法也不依赖于关于每个单独对象的先验知识,例如3D CAD模型。基于关键点的姿态表示。 先前的工作已经探索了用于检测给定单目RGB图像[26]或RGBD图像[15]的对象的3D关键点的深度学习方法。核心是预测概率图对于2D关键点位置,然后使用给定或预测的深度图像用于3D。其他作品提出了类似的方法用于单目姿态估计[25,18,27]。虽然从单个RGB图像估计3D位置是病态问题,但是这些方法在训练期间隐含地学习对象大小的先验,或者依赖于已知的对象3D模型。 我们的方法受到这些作品的启发,并专注于从立体而不是单个图像的3D关键点位置估计,并且即使对于尺度不同的类似对象也是良好的。最近,提出了一种类似于我们的方法,用于使用原始streeo进行手部跟踪[12]。对于具有已知模型的刚性对象,可以使用Pro- crustes算法恢复6D姿态(参见补充材料)。视差估计的立体声。从立体声中估计视差和深度一直是计算机视觉中的一个长期问题。深度学习的成功计算机视觉中的方法启发了这一领域的研究,使用配备相关成本卷的端到端深度网络[17,9,6,32]或基于点的深度表示和迭代细化[4]。在这里,而不是生成一个密集的视差场,我们专注于估计的3D位置的稀疏关键点直接从立体图像。3D对象姿态估计数据集。 在真实RGB图像中直接标记3D对象姿态是昂贵的。用于3D对象姿态估计的11604多视图数据采集可选,用于与基于深度的方法和其他应用图2:数据捕获管道。我们安装在机器人的末端执行器的然后,我们使用机器人手臂执行类似的路径来扫描不透明的朗伯物体(左)和放置在纹理表面相同位置的其trans-parent孪生物体AprilTags [30]用作摄像机的这依赖于捕获RGBD图像并通过构建3D网格[15]或将3D CAD模型拟合到3D点云[16,3,29,7]来注释姿态,这两种方法都不可能用于透明对象。相反,我们构建了一个数据捕获管道,其中可以有效地获得透明对象关键点的地面实况深度,而不依赖于深度或3DCAD模型。透明和反射物体的估计。 透明或反射的Ob-1对所有基于相机的深度估计提出了重大挑战。用于估计透明对象的姿势和几何体,假设已知对象3D模型[20,14]或依赖于合成数据来训练视觉模型[24,23]。我们的数据捕获和标记能够生成大规模的真实数据集,用于训练和测试透明对象的姿势和几何形状,因此不需要合成数据。3. 透明对象数据集(TOD)在本节中,我们描述了数据捕获流水线,该数据捕获流水线使得能够在不需要深度传感器的情况下高效地捕获和标记大量样本3.1. 使用机器人收集数据由于关键点深度的不确定性,在单个RGB图像中手动标记3D关键点是困难或不可能的。相反,我们利用多视图几何将少量图像的2D标签提升为对象未移动的一组图像的3D标签图2说明了总体思路。我们使用具有已知参数的立体相机来捕获序列中的图像,用机器人图3:我们数据集中的模糊案例,包括深色背景纹理(左),马克杯的薄手柄(中)和运动模糊(右)。准确定位这些对象是一项艰巨的任务,即使是人类。手臂(我们也可以用手移动它)。为了估计相机相对于 世 界 的 姿 态 , 我 们 使 用 可 以 在 图 像 中 识 别 的AprilTags [30]建立了一个平面形式从广泛分离的姿势的一个小子集,我们标记对象上的2D关键点。从多视图几何优化给出了关键点的3D位置,其可以被重新投影到序列中的所有图像。为了增加多样性,我们在对象下放置各种纹理图3显示了一些具有挑战性的数据示例。所 得 到 的 标 记 的 立 体 声 样 本 足 以 训 练 和 评 估KeyPose模型。我们可以在几个小时内收集和标记新对象 的 数 据 。 除 了 立 体 数 据 , 我 们 还 使 用 MicrosoftKinect Azure RGBD设备捕获和注册深度数据。这些数据纯粹是我们模型的辅助数据,但它可以让我们将Key-Pose与需要深度数据的方法进行比较。我们收集了两个深度图像,一个是在初始扫描期间使用共同安装的立体声和RGBD设备,另一个是在第二次扫描期间将透明对象替换为不透明(着色)双对象(图2,右)。尽管RGBD图像是以与立体图像略有不同的姿态捕获的(由于轨迹和相机捕获时间的变化),但我们可以利用RGBD相机的计算姿态(使用RGB图像中的AprilTags)以及深度传感器与RGB传感器的已知偏移,以扭曲深度图像,从而与左侧立体图像精确对齐(参见图1)。3.2. 关键点标记和自动传播为了准确地构建这个数据集,我们需要解决不同的错误来源。首先,由于AprilTag检测在寻找标签位置方面是不完美的,因此我们将这些标签分散在目标上以产生用于相机姿态估计的大基线。其次,由于2D图像上关键点的人类标记会引入错误,因此我们在相机姿势上使用最远点算法,以确保从2D到3D的注释图像具有较大的基线。我们想知道手册注释的准确性。虽然3D关键点的绝对地面真实值是未知的,但我们可以估计标记误差,给定AprilTags和2D注释的已知重投影误差。使用基于复制的蒙特卡罗模拟,不透明双床房11605(X,Y,Z)图5:早期融合架构。图4:使用左右图像的边界框裁剪示例。为了消除投影误差,我们计算出标记的3D关键点的随机误差约为3.4 mm RMSE,这是相当准确的。有关模拟的详细信息,请参见补充资料立体图像概率图(UL,VL)(UR,VR)(X,Y,Z)材料4. 从RGB立体在本节中,我们描述了KeyPose方法,该方法使用3D关键点的超监督训练来从我们首先介绍了从边界框裁剪补丁,然后描述了我们的CNN架构。最后,我们提出了在训练中使用的损失函数的选择,这显着影响性能。4.1. 培训过程的数据输入我们假设检测阶段大致确定对象的位置(参见[23]检测和分割透明对象的方法;或者,可以使用图5的UV从这个边界框中,我们从左边的图像中裁剪一个固定大小的矩形,从右边的图像中裁剪一个相同高度的相应矩形,保留对极几何(图4)。由于右目标图像从左偏移-在我们的例子中,通过48到96像素,给定立体设备并假设物体距离从0.5米到1米-矩形必须延伸足够远以包含右目标,无论它可能出现在哪里。为了限制矩形的扩展,我们将右裁剪水平偏移30个像素,将视在视差改变为18-66像素。每个裁剪的输入大小为180 × 120像素。输入图像由模型处理以产生,对于每个关键点,关键点的UV(2D)图像位置和视差D,视差D对深度进行编码并且是左和右关键点的偏移(以像素为单位)。 UVD三元组通过以下方式对3DXYZ坐标进行编码:Q:=UVD7!XYZ,其中Q是由相机参数确定的重投影矩阵ters [1]。我们使用这些XYZ位置作为标签,通过投影回相机图像并比较UVD差异来生成训练误差。重新投影像素误差是广泛用于测量像素的稳定的、物理上可实现的误差方法。图6:后期融合架构。多视图几何[8]。直接比较3D误差会引入较大的偏差,因为它们随距离呈二次方增长,压倒了较近物体的误差。为了鼓励泛化,我们对输入图像进行几何和光度增强。更多细节在补充材料中请注意,几何增强必须限于不违反极线约束的变换,即缩放、Y轴剪切、镜像和视图绕X轴的旋转。4.2. 3D姿态估计的架构KeyPose模型结合了以下原则:Stereo for Implicit Depth. 使用立体图像向模型引入深度信息。早期融合尽早合并来自两个图像裁剪的信息让深度神经网络隐式地确定差异,而不是形成显式相关性(如[6])。广泛的背景。尽可能广泛地扩展每个关键点的空间上下文,以利用对象的任何相关形状信息。图5显示了该模型的基本结构,该模型改编自[26]。立体图像被堆叠并馈送到一组指数扩张的3x3卷积[33]中,该卷积扩展了用于预测关键点的上下文,同时保持分辨率恒定。两个这样的分组确保每个关键点的上下文完全混合。在整个CNN块中,特征的数量保持恒定在48(例如模型)和64(对于类别模型)。在此之后,每个关键点一个投影头提取UVD坐标。我们研究两种投影方法:1. 直接回归。三个1x1卷积层产生N×3数值UVD坐标,其中N是视差图立体图像概率图扩张CNN块D(U,V)共享扩张CNN块扩张CNN块左图像右图像11606我我我我e关键点的数量2. 热图对于每个关键点i,CNN层产生一个热图,然后是空间softmax以生成概率图probi,然后积分以获得UV坐标,如IntegralNet [25]所示。还计算视差热图,与概率图卷积,并积分以产生视差(图5)。这种方法对于可视化也很有用。为了测试早期融合的有效性,我们还实现了一个后期融合模型(图6),其中连体扩张CNN块分别预测左右图像的UV然后使用标准立体几何来生成3D关键点预测。4.3. 损失我们使用三种损失:直接关键点UVD损失、投影损失和局部性损失。我们还置换了总损失,并对对称关键点取最小值。关键点丢失。通过平方误差比较预测(UVD)和标记(UVD图7:对象实例的精度曲线。Y轴为累积百分比。X轴为3D MAE,单位为mm;注意,它被限制为50 mm,而不是通常的100 mm,以放大曲线。是一个归一化的逆1-N/max(N)。(四)当预测的UV概率集中在UV标签附近时,该损失给出非常低的值。我们使用10像素的σLkp =XkUVDii2kps-UVDBronze2(1)总损失定义为加权和Ltotal=Lkp+ αLproj+0. 001L锁(5)我们尝试了直接的3D损失,但误差随着距离的平方增长,压倒了较近物体的误差。这在模型性能中引入了较大的偏差。投影损失。预测的UVD值转换为3D点,然后重新投影到用于创建3D点的宽分离视图。的差异预测的和标记的UV重新投影之间的距离平方为损失。设Pj是投影函数,并且Q:=UVD7!XYZ。然后Lloc上的小权重将概率分布轻推到正确的局部形式,同时在必要时留出空间进行扩展。为了稳定,重要的是要应用曲线-Lproj.权重α在训练步骤的间隔[1/3,2/3]上从0斜升到2.5,以允许预测的UVD值稳定。否则,收敛可能这是困难的,因为重新投影误差梯度最初可能非常大。对称关键点的排列。对称的ob-L= XXkP Q(UVD)-P Q(UVD)k2这可能会导致关键点ID之间出现锯齿。比如说,projJi2次浏览j2次浏览i ji(二)图9中的树对象在旋转180°围绕其垂直轴。一个关键点放置在ob上-与宽视点在生成标签时精确定位关键点的3D坐标的方式相同,它们在这里重新创建用于约束预测关键点的相同条件。这种损失对于良好的性能是至关重要的([8],参见第5.3节)。局部缺失。尽管关键点位置是从UV概率图估计的,但是该图可能不是单峰的,并且可能具有远离真实关键点位置的高概率这种损失鼓励概率图来定位关键点。Lloc=X Xprob[uv]·N(UVλ,σ)[uv](3)i2kpsuvN是以标记为关键点i的UV反射坐标,标准差为σ。11607因此,对象可以获得不同的、不可区分的位置从姿态估计器的角度来看。我们通过允许损失函数中的相关关键点id的置换来例如,在树的情况下,存在关键点id的两个允许的置换,[1,2,3,4]和[1,2,4,3]。对于这些排列中的每一个,评估L总,并且最小-选择μ m作为最终损耗。关键点无需任何置换即可处理某些对称性。球、瓶子和杯子对象对此进行了说明。对于球,中心处的单个关键点将赋予完全旋转对称性。对于瓶子和杯子来说,沿着圆柱轴线的两个关键点赋予了圆柱对称性.请注意,我们可以选择使用比必要的更少的关键点11608方法输入模态度量球瓶0瓶1瓶2杯0杯1杯0杯1杯1杯2杯3杯4杯5杯6心树是说DenseFusion单色RGBAUC↑90.088.6 69.1 56.0 84.0 80.7 67.8 66.3 71.4 70.0 69.0 76.8 51.2 61.7 75.571.9[28日]+ 不透明深度 <2cm↑94.497.8 9.1 28.479.1六十五点三 12.5 10.3 28.1 20.34.741.93.117.2 50.937.5MAE↓9.9 11.3 57.6 77.8 16.0 37.5 32.2 33.7 28.6 30.0 31.0 23.2 75.2 38.3 24.535.1DenseFusion单色RGBAUC↑84.781.6 72.3 47.5 59.4 77.8 54.5 51.3 60.4 67.3 48.1 70.6 64.9 61.2 55.663.8[28日]+ 真实深度<2cm↑78.867.5 18.1 9.1 5.6 54.4 4.6 0.3 十二点二 8.1 0.0 20.0 4.7 0.0 0.018.9MAE↓15.318.4 27.6 65.6 40.5 22.1 45.5 48.7 39.5 32.7 54.9 29.4 35.9 38.8 44.437.2AUC↑96.195.4 94.993.1 92.0 91.078.189.788.687.891.090.387.190.0我们立体RGB<2cm↑100 99.8 99.7 91.497.8 95.3 94.663.690.187.287.193.192.2 77.2 82.590.1MAE↓3.8 4.6 5.1 9.3 6.8 7.1 8.921.910.111.312.1 9.0 9.715.6 12.89.9表1:实例级姿态估计结果。对于每个对象实例,模型在九个背景纹理上进行训练,并在看不见的纹理上进行评估。AUC和2cm越高越好,MAE越低越好。<方法[28]第二十八话[28]第二十八话我们输入模态单目RGBD+ 不透明深度单目RGBD+ 真实深度立体声RGB度量AUC↑2cm↑MAE↓AUC↑2cm↑MAE↓AUC↑2cm↑MAE↓马克杯76.440.723.574.343.425.784.778.615.6表2:类别级姿态估计结果。评估看不见的纹理。粗体是最好的结果。4.4. 培训我们训练了KeyPose模型,批量大小为32,步骤数恒定,大约300个epoch。对于DenseFusion,我们在Ten- sorFlow中重新实现了该算法,并进行了训练,直到收敛,大约80个epoch。由于DenseFusion不返回关键点,因此我们添加了层以回归到每个关键点的3D位置更多的训练细节在补充材料中。5. 实验我们在TOD数据集上进行了实验来测试KeyPose模型和DenseFusion [28]。我们比较了DenseFusion的两个输入变量,深度来自对象的不透明和透明(真实)版本请记住,在不透明深度的情况下,我们仍然使用透明对象的RGB图像。我们训练了实例和类别模型,并通过保持纹理的所有序列和对象的所有序列来导出测试集。我们还进行了消融研究,以了解立体声的影响和各种损失。文献[5,28,31]中标准的两个误差测量是曲线下面积(AUC)和2cm的3D关键点误差百分比AUC百分比基于0至10 cm的X轴范围计算,其中曲线显示在该度量值下的累积误差百分比(图7)。这些测量是针对较低精度的方法开发的,并且我们更喜欢更精确的测量,即3D关键点的平均绝对误差(MAE)。表3:马克杯类别的姿势估计。对未见过的实例mug0进行评估。5.1. 实例级姿态估计15个对象中的每一个都被单独训练,并为保持的纹理计算统计量。大约有3000个训练样本和320个测试样本。这个实验捕捉了实例级模型在新设置中的泛化能力。结果示于表1中。毫不奇怪,除了杯子1和马克杯6之外,DenseFusion(不透明)在几乎所有情况下都比DenseFusion(真实)表现得更好。这些后者可能是由于深度设备的深度误差,即使在不透明的情况下也可能有显著的误差-对于这两种情况,3D误差都很大,整个数据集的平均误差超过35 mm。KeyPose的性能全面优于DenseFusion(真实),通常是大量的。令人惊讶的是,它在所有对象上的表现都优于DenseFusion(不透明)。尽管良好的深度信息为后者提供了巨大的溢价。KeyPose MAE为9.9 mm,在所有对象上平均,比DenseFusion准确3.5倍以上。这些结果表明,立体声输入的KeyPose对于trans-parent对象非常有效鉴于其相对于DenseFusion(不透明)的性能,它能够超越桌面对象实例的姿态估计的最先进的结果。5.2. 类别级姿态估计我们定义了三个类别:瓶子(3个对象)、瓶子和杯子(5个对象)以及马克杯(7个对象)。对于每个类别,我们训练了DenseFusion和KeyPose模型,在所有对象上留下一个纹理作为测试集。因此,这个实验捕捉到了一个类别级别的模型在新的环境中泛化到它的任何成员的能力。从方法[28]第二十八话[28]第二十八话我们输入模态单目RGBD+ 不透明深度单目RGBD+ 真实深度立体声RGB度量AUC↑2cm↑MAE↓AUC↑2cm↑MAE↓AUC↑2cm↑MAE↓瓶83.488.434.276.971.026.494.297.85.8机器人+杯子90.093.410.577.270.324.593.497.86.611609图8:验证集上预测结果的可视化。每行从左到右:具有地面实况关键点的左立体图像、右立体图像、第一关键点的预测概率图、第二关键点的预测概率图以及预测关键点。我们使用红色,黄色,绿色和蓝色来标记关键点1,2,3和4。结果如表2所示,KeyPose在精度上超过DenseFusion 2到5倍。这两种方法似乎都受益于大量的样本进行训练。在第二个类别级别的实验中,我们拿出0号杯子进行测试;该实验显示了该方法推广到不可见对象的效果。考虑到该类别中杯子的数量很少,结果显示出令人惊讶的良好概括性(表3)。KeyPose比DenseFusion(不透明和真实)更准确,是1.5倍。随着马克杯类别中的对象越来越多,这两种方法可能都会有所改进。5.3. 消融研究为了找出KeyPose的哪些部分是有效的,我们对损失和架构进行了消融研究(立体声与单眼,早期融合与晚期融合,退化,对集成,投影损失,置换损失),用于选择实例和类别模型。结果见表6、表4。首先,请注意,使用立体声将单目输入的准确性提高了2倍,无论是实例训练还是类别训练。虽然单目系统可以通过物体的外观尺寸来测量距离,但斜视和不同尺寸的物体会使这一点变得困难。最明显的区别是视差误差,它几乎增长到一个像素,而立体声是一半。这清楚地表明,立体声输入被网络用来确定距离,并且保持低视差误差是良好3D估计的关键。早期和晚期融合之间存在相似但较小的差异回想一下,在后期融合中(第2列),针对左图像和右图像两者计算关键点,然后计算它们的11610表4:结构和功能损失的消融研究。剪辑尺寸180x120270x180360x2403D MAE(mm)4.65.05.3表5:瓶0的裁剪区域尺寸的消融研究。比较U值以给出差异。由于U值具有低误差,因此视差值也具有低误差。然而,它们比早期融合中的要高,早期融合可以利用网络中两幅图像的混合信息。我们还观察到一个更长的误差尾部后期融合,一些大的度量误差。投影损失L_proj(列3)有助于保持视差误差较低。如果没有它,视差误差会更高,在实例情况下多0.09个像素,在类别情况下多0.41个当不使用投影损失时,UV误差实际上更低,但它不太重要。虽然0.41像素看起来可能不是很大的差异,但它可能对度量误差产生巨大影响。根据立体几何学,视差变化的深度变化由下式给出:Z2(6)其中f是焦距,b是基线。例如,在0.8米的物体距离处,视差中的0.41像素误差产生我们的立体系统的深度中的5.5毫米误差。使用UVD值的直接回归与一个整体的方法,显示了一个小的偏差,有利于回归。积分方法的优点是可以生成UV和视差图,这对于网络预测的可视化非常有用(见图5,8)。对于置换损失,结果在表6中。我们检查了树对象,并关闭了侧关键点的排列图9显示了效果:由于树的两侧是对称的,因此选择标记哪个关键点是随机的没有排列损失的训练导致两个关键点聚集在中心以最小化损失。这反映在结果之间的巨大差异上。最后,我们考虑的结果是否依赖于一个紧密的作物的对象。首先要注意的是,裁剪是通用的,特别是对于小对象(见图8)。然后,我们将对象的位置抖动20个像素,使Key-图9:消融研究的可视化:无(左)与(右)的损失。我们使用红色,黄色,绿色和蓝色来标记关键点1,2,3和4。实例树0具有对称关键点34.度量3D MAE(mm)UV MAE(px)Disp MAE(px)染损失726.411.11.46312.82.791.05表6:树0上置换损失的消融研究。姿势对边界框放置的鲁棒性。我们还检查了表5中的较大作物,达到原始面积的4倍。结果显示最小降解,小于表4中的任何消融损失。许多CNN方法使用对象的紧密裁剪,然后缩放以向网络呈现相同的大小。在这里,我们选择了更难的问题,并使用了固定大小的裁剪,没有重新缩放。物体的表观尺寸变化约2.5倍,这对于许多应用是合理的,例如使用固定摄像机的分箱拾取这仍然是未来的工作,看看是否紧缩作物和规模将更准确。6. 结论与讨论在本文中,我们研究的问题,估计的三维物体姿态表示的三维关键点位置从立体图像。通过提供易于使用的3D关键点标记工具,我们生成了TOD,这是一个透明对象的大规模标记数据集,以及注册深度,用于训练和比较关键点姿态估计方法。KeyPose模型利用了立体图像的早期融合,在实例和类别级别的所有基准测试中都超过了最先进的水平,包括使用不透明深度时它概括了看不见的纹理和看不见的对象。消融研究验证了我们对早期融合和多视图重投影损失的重视。还有一些地方需要进一步完善和探索。其中包括使用我们的热图技术检测透明物体,添加更复杂的背景,改变照明,并将多个物体样本纳入数据集中。我们还将研究使用移动机器人在野外捕获数据。虽然我们集中在透明的刚性对象,KeyPose也可以应用于不透明的,有关节的和可变形的对象。这些方向将作为今后的工作。立体声73333早期融合37333投影损失33733直接回归333733D MAE(mm)10.07.95.44.74.6瓶0UV MAE(px)1.621.071.081.141.21位移MAE(px)0.910.670.450.380.363D MAE(mm)10.110.69.96.05.811611引用[1] OpenCVreprojectImageTo3D 函 数 。 https : //docs.opencv.org/2.4,2020年。4[2] P. J. Besl 和 N.D. 麦 凯 一 种 三 维 形 状 配 准 方 法 IEEETPAMI,1992年。2[3] Berk Calli,Aaron Walsman,Arjun Singh,SiddharthaSrini-vasa,Pieter Abbeel,and Aaron M.美元. 操纵研究中的基准:ycb对象和模型集以及基准测试协议。CoRR,abs/1502.03143,2015。一、二、三[4] 陈睿,韩松芳,许静,苏浩。基于点的多视点立体网络。在ICCV,2019年。2[5] 邓新科,穆萨维,于翔,夏飞,蒂莫西·布雷特,迪特尔·福克斯. Poserbpf:一个rao-blackwellized粒子滤波器,用于6d物体姿态跟踪。在RSS,2019. 一、二、六[6] Xianzhi Du , Mostafa El-Khamy , and Jungwon Lee.Amnet:Deep atrous multiscale stereo disparity estimationnetworks.arXiv预印本arXiv:1904.09099,2019。二、四[7] Stefan Hinterstoisser、Stefan Holzer、Cedric Cagniart、Slobodan Ilic、Kurt Konolige、Nassir Navab 和VincentLepetit。多模态模板用于在严重杂乱的场景中实时检测无纹理物体。见ICCV,2011年。3[8] 亚历克斯·肯德尔和罗伯托·西波拉使用深度学习进行相机姿态回归的几何损失在CVPR,2017年。四、五[9] Alex Kendall、Hayk Martirosyan、Saumitro Dasgupta、Peter Henry、Ryan Kennedy、Abraham Bachrach和AdamBry。深度立体回归的几何和上下文的端到端学习InICCV,2017. 2[10] Alex H Lang , Sourabh Vora , Holger Caesar , LubingZhou,Jiong Yang,and Oscar Beijbom.点柱:用于从点云中检测物体的快速编码器。在CVPR,2019年。一、二[11] 易 离 , 顾 望 , 向 阳 季 , 于 翔 , 迪 特 尔 福 克 斯 。Deepim:深度迭代匹配6D姿态估计。在ECCV,2018。2[12] 李运城,薛泽浩,王莹莹,周仁。从立体相机端到端的3d手部姿态估计在BMVC,2019。一、二[13] Wenjie Luo,BinYang,and Raquel Urtasun.快速和狂热:利用单个卷积网络进行实时端到端3d检测、跟踪和运动预测。在CVPR,2018年。一、二[14] 伊利亚·李森科夫和文森特·拉博。透明杂波中刚性透明目标的位姿估计InICRA,2013. 3[15] Lucas Manuelli , Wei Gao , Peter Florence , and RussTedrake.kpam:类别级机器人操作的关键点启示。arXiv预印本arXiv:1903.06684,2019。二、三[16] 作者:Peter R.弗洛伦斯,卢卡斯·曼努埃利,拉斯·泰德雷克. Labelfusion:为杂乱场景的真实rgbd数据生成地面真实标签的管道在ICRA,2018年。一、二、三[17] Nikolaus Mayer , Eddy Ilg , Philip Hausser , PhilippFischer , Daniel Cremers , Alexey Dosovitskiy , andThomas Brox.用于训练卷积网络的大型数据集,用于视差,光流和场景流估计。在CVPR,2016年。2[18] Dushyant Mehta Helge Rhodin Dan CasasPascal Fua,Oleksandr Sotnychenko , Weipeng Xu , and ChristianTheobalt.使用改进的cnn监督进行野外单目三维人体姿态估计。在3DV,2017年。2[19] Pushmeet Kohli Nathan Silberman,Derek Hoiem和RobFergus。室内分割和支持从rgbd图像推断。ECCV,2012年。2[20] Cody J Phillips,Matthieu Lecce,and Kostas Daniillem.透明玻璃器皿:从边缘检测到姿态估计和形状恢复。在RSS,2016. 3[21] Charles R Qi , Wei Liu , Chenxia Wu , Hao Su , andLeonidas J Guibas.从rgb-d数据中检测三维目标的截头体点网在CVPR,2018年。2[22] 马赫迪·拉德和文森特·莱佩蒂特BB8:一个可扩展的,准确的,鲁棒的部分遮挡方法,用于预测具有挑战性的物体的3DCoRR,2017年。2[23] Shreeyak S Sajjan,Matthew Moore,Mike Pan,GaneshNa- garaja,Johnny Lee,Andy Zeng和Shuran Song。清除-抓取:用于操纵的透明对象的3D形状估计。arXiv预印本arXiv:1910.02550,2019。二、三、四[24] Ashutosh Saxena,Justin Driemeyer,and Andrew Y Ng.机器人利用视觉抓取新物体。IJRR,2008年。3[25] 小孙、肖斌、魏方银、梁爽、魏奕辰。整体人体姿态回归。在ECCV,2018。一、二、五[26] Supasorn Suwajanakorn 、 Noah Snavely 、 JonathanTompson和Mohammad Norouzi。经由端到端几何推理发现潜在3d关键点。在NIPS,2018年。一、二、四[27] Bugra Tekin,Federica Bogo,and Marc Pollefeys.H+O:3D手-物体姿态和交互的统一自我中心识别。CoRR,2019。2[28] Chen Wang,Danfei Xu,Yuke Zhu,Roberto Mart´ın-Mart´ın,Cewu Lu,Li Fei-Fei,and Silvio Savarese.致密化:基于迭代密集融合的6D目标姿态估计。在CVPR,2019年。一、二、六[29] He Wang , Srinath Sridhar , Jingwei Huang , JulienValentin,Shuran Song,and Leonidas J. Guibas用于类别级6d对象姿态和大小估计的归一化对象坐标空间。在CVPR,2019年。一、二、三[30] John Wang和Edwin Olson。4月2日:高效可靠的基准点检测.在IROS,2016年。3[31] Yu Xiang,Tanner Schmidt,Venkatraman Narayanan,Dieter Fox. Posecnn:一种卷积神经网络,用于在杂乱场景中进行6D物体姿态估计。在RSS,2018. 一、二、六[32] Guorun Yang , Hengshuang Zhao , Jianping Shi ,Zhidong Deng , and Jiaya Jia. Segstereo : Exploitingsemantic information for disparity estimation. 在 ECCV ,2018。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功