CAPTRA：点云中的刚性和铰接物体姿态跟踪

113 浏览量更新于2023-10-13 收藏 1.34MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13209†CAPTRA：类别级姿态跟踪用于点云中的刚性对象和铰接对象Yijia Weng1* He Wang1，2，5 *†Qiang Zhou4 Yuzhe Qin3 Yueqi Duan2Qingnan Fan2，6 Baoquan Chen1 Hao Su3 Leonidas J.Guibas21北京大学CFCS2斯坦福大学3UCSD4山东大学5北京通用AI研究院6腾讯AI Lab图1.我们的方法跟踪9DoF类别级别的姿态（3D旋转，3D平移和3D大小）的新的刚性对象，以及在铰接对象的部分从现场点云流。我们演示：（a）我们的方法可以从具有挑战性的NOCS-REAL 275数据集[ 29 ]中可靠地跟踪刚性物体姿势;（b）我们的方法可以从SAPIEN数据集[ 34 ]中完美地跟踪具有大的全局和铰接运动的铰接物体;（c）（d）仅在SAPIEN上训练，我们的模型可以直接从BMVC数据集[ 18 ]推广到新型真实笔记本电脑，以及机器人交互下的新型真实抽屉。在所有情况下，我们的方法显著优于以前的最先进的和基线。在这里，我们将估计的9DoF姿势可视化为3D边界框：绿色框指示跟踪中，而红色框指示跟踪外。摘要在这项工作中，我们解决了问题的类别级在线姿态跟踪的对象从点云序列。对于第一次，我们提出了一个统一的框架，可以处理9DoF姿态跟踪的新的刚性对象实例，以及每部分的姿态跟踪关节对象从已知的类别。这里，包括6D姿态和3D大小的9DoF姿态等效于具有自由6D姿态的3D非模态边界框表示。给定当前帧处的深度点云和来自上一帧的估计姿态，我们的新颖的端到端流水线学习准确地更新姿态。我们的管道由三个模块组成：1）姿势规范化模块，其正常化-* ：等额缴款，：项目页面：https://yijiaweng.github.io/CAPTRA2）RotationNet，直接回归小帧间增量旋转的模块;以及3）CoordinateNet，预测归一化坐标和分割的模块，使得能够分析计算3D尺寸和平移。利用姿势规范化点云中的小姿势状态，我们的方法通过组合密集坐标预测和直接旋转回归来集成两个世界的最佳，从而产生针对9DoF姿势精度优化的端到端可微分流水线（而不使用不可微分RANSAC）。我们广泛的实验表明，我们的方法在类别级刚性物体姿态（NOCS-REAL 275[29]）和铰接物体姿态基准上实现了新的最先进性能（SAPIEN [34]，BMVC [18]）以最快的FPS12。132101. 介绍物体姿态估计对于各种计算机视觉和机器人应用（诸如3D场景理解、机器人操纵和增强现实）是至关重要的。大多数对象姿态估计起作用，例如，[35，24]，主要在于实例级估计，其中任务是从一小组先验已知实例中估计对象的姿态为了减轻这种限制，Wang等人。 [29]提出将实例级6DoF（自由度）对象姿态估计问题推广到类别级9DoF姿态估计问题，该问题考虑了传统的6D对象姿态（旋转，平移）以及3D对象大小。[29]中提出的方法可以处理已知类别中的新对象实例，而不需要对象的CAD模型。超越刚性物体，本着同样的精神，Li等人。 [14]提出估计铰接物体（如笔记本电脑，抽屉和眼镜）的类别级每部分9DoF姿势虽然大多数现有的类别级姿态估计工作集中在单帧估计上，但我们认为时间平滑的姿态跟踪对于许多机器人应用更有用，例如。、即时反馈控制以及AR应用。在这项工作中，我们解决了一个问题，名为CAPTRA-类别级的姿态跟踪刚性和铰接对象，从现场点云流。给定第一帧的初始对象姿态，我们的任务是连续跟踪刚性对象或铰接对象的每个单独刚性部分的9DoF姿态。与我们最相关的工作是6-PACK [28]，它解决了仅针对刚性对象的类别级6D姿态跟踪的问题（有关详细比较，请参阅相关工作部分）。为了准确跟踪9DoF姿态，我们考虑两种类型的方法：广泛用于对象姿态[2，29，14]和相机姿态估计[4]的基于坐标的方法以及[35，32]中的直接姿态回归。这两种方法各有利弊。基于坐标的方法预测密集对象坐标，然后进行基于RANSAC的姿态拟合，通常更准确和鲁棒，特别是在旋转估计 [27] 上，受益于RANSAC中的离群值去除。然而，基于RANSAC的姿态拟合是不可微的和耗时的，这十导致其运行速度的瓶颈。相比之下，直接姿态回归执行端到端姿态预测，因此可以实现非常高的运行速度，代价是更容易出错。在这项工作中，我们寻求两全其美，并建立一个端到端的微分管道，以实现准确和快速的姿态跟踪。为了实现高精度的姿态估计，我们建议联合规范化的输入和输出空间的估计问题，通过转换点云使用逆姿态从以前的frame. 所产生的姿势规范化的点云具有关于对象/部件的接近相同的姿势，其姿势更回归友好。因此，我们提出了Rota-tionNet，一种基于PointNet++ [23]的神经网络，它直接回归小的剩余旋转。由于部分深度观测中遮挡和中心平移之间的模糊性，我们发现尺度和平移回归仍然具有挑战性。相反，我们建议构建CoordinateNet来预测密集的归一化坐标，由于它们对类别级别形状先验的感知，这些坐标包含有关平移和对象大小的更准确信息。结合来自两个网络的输出，我们可以分析地计算大小和平移，从而产生针对9DoF姿态准确度优化的端到端可微分流水线，而无需使用不可微分RANSAC。通过利用这两种方法，我们提出的方法获得了显着的性能改进的类别级刚性物体姿势基准和关节式物体姿势基准。在NOCS-REAL 275数据集[29]上，我们的表现优于先前最先进的6-PACK [28]，平均绝对改善40.03%精确度为5○5cm，平均IoU指标绝对改善10.52%。在SAPIEN关节头上数据集[34]，我们是第一个执行跟踪和超越单帧铰接姿态估计基线的人，使用ANCSH [14]和地面实况片段构建。站掩模，由一个大的利润，例如。，在具有挑战性的眼镜类别中，平均精度为5○5cm，约为20分。在来自BMVC数据集[18]的新型真实笔记本电脑轨迹上，我们实现了直接从SAPIEN推广的最佳性能，而无需进一步微调。最后，我们的大量实验进一步证明了我们的跟踪方法对姿态误差的鲁棒性，并在所有方法中实现了最快的速度（12FPS）2. 相关作品为了定义新对象实例的类别级姿态，Wang等人。[29]提出了归一化对象坐标空间（NOCS）作为刚性对象的类别特定规范参考框架。来自NOCS中的相同类别的对象一致地对齐到类别级规范取向。这些对象进一步以零为中心并均匀缩放，使得它们的紧密边界框以NOCS的原点为中心，对角线长度为1。 Li等人 [14]将NOCS的定义扩展到铰接对象中的刚性部件，并提出了归一化部件坐标空间（NPCS），这是一种部件级规范参考系（详细介绍见附录A几项工作已经通过[7，6]中的杠杆合成分析和形状生成模型以及[26]中的可学习变形来改进[29]这些方法中的大多数利用RANSAC进行姿态拟合，这防止它们的流水线是端到端可区分的。132110不--B不电话+1不电话+1不电话+1不| |||||电话+1电话+1电话+1电话+1电话+1电话+1电话+1不电话+1电话+1潜在地使这些方法次优。虽然若干工作已经提出了可微分RANSAC层来弥合这一差距，例如，，DSAC[2]，DSAC++[3]，我们将表明我们的方法比不使用RANSAC的这些方法表现得更好。类别级对象姿态跟踪作为该领域中唯一存在的工作，Wang等人。 [28]通过跟踪RGB-D视频中的关键点提出了一种基于6D姿态锚的类别级关键点跟踪器（6-PACK）。6-PACK首先在锚点上使用注意力机制，然后以无监督的方式生成关键点，这些关键点用于计算帧间姿势变化。重要的是要注意6-PACK和我们的工作之间的几个关键差异：1）6-PACK仅设计用于刚性物体，并且不能处理铰接物体; 2）6-PACK仅估计包含旋转和平移的6D姿态，并且省略获得3D非模态对象边界框所需的重要3D尺寸估计。作为类别级铰接对象姿态跟踪的特殊情况，手和人体姿态跟踪问题由于其广泛的应用而非常流行[21，31，20，12，11，36，1]。然而，所开发的方法利用手和人体的领域特定的知识，从而防止它们被应用于通用的铰接对象。实例级6D姿态跟踪实例级姿态跟踪工作跟踪已知对象实例的姿态。经典方法，例如基于ICP的跟踪[38]明确依赖于对象CAD模型。一些最近的作品[8，9，33，13，9]使用粒子滤波来估计对象姿势的后验其他方法测量差异对于包含对象实例0以及其每部分姿态初始化{P（j）}j的深度点云流{ X t } t> 0，我们的目标是以在线方式跟踪其部分姿态P（j）j，其中我们处理点云并估计所有帧t> 0的姿态。换句话说，在帧t+1处，给定来自帧t的估计的{P（j）}j和深度点云Xt+1，我们的系统需要估计{P（j）}j。4. 端到端可微分位姿跟踪在本节中，我们将详细介绍我们的方法。我们在第4.1节中呈现姿势规范化模块，并且在第4.2节中呈现姿势跟踪，其包括所提出的 RotationNet 模块和CoordinateNet模块，最后，我们在第4.3节中描述我们的训练协议。整个框架是可区分的，并且是端到端训练的，没有任何预处理或后处理。4.1. 姿势规范化受[29]的启发，我们将9DoF姿态P（j）预测分解为7DoF相似性变换T（j）2Sim（3）估计问题和3D纵横比d（j）估计问题。形式上，我们将每部分1D均匀比例定义为||d（j）||和3D纵横比为d（j）=d（j）/s（j），使得d（j）=s（j）d（j）。然后，We可以表示T（j）={s（j），R（j），T（j）}。为了从观察到的点云Xt+1估计（j），存在两种类型的方法。一种方法是训练a直接姿态回归的神经网络。另一种方式是以估计C（j）的归一化坐标Y（j），其t+1t+1当前观察与先前状态之间的关系，以及满足C（j）=s（j）R（j）Y（j）+T（j），然后计算通过优化执行跟踪[25，22]。最真实的-电话+1电话+1电话+1电话+1电话+1我们的优势是基于增量姿态的方法[15，32]，其通过使用深度神经网络回归连续帧之间的姿态变化来执行跟踪。3.问题定义和符号在本文中，我们的目标在跟踪问题的9自由度的刚性或铰接的对象，从已知的categories。我们遵循类别级刚性对象和零件在[29，14]中的姿势定义，并采用[14]中的假设，即刚性部分的数量M是已知的并且对于使用Umeyama算法[27]以及RANS A C来计算T（j），因此可以使用Y（j）的轴范围（x max，y max，zmax）来估计3D纵横比d（j）。在我们的框架中，为了简化将输入Xt+1映射到输出T（j），我们建议使用（j）规范化其输入和输出空间，这允许进一步组合上述两个方法.定义（姿势规范化点云）。摆姿势-关于零件j的规范化点云Z（j）已知类别中的所有对象，其中M>1indi-表示一个铰接对象类别，M= 1表示在输入点云中电话+1Xt+1定义为乘积刚性对象类别。在不丧失一般性的情况下，我们仅T（j）和Xt+1的逆变换，即不描述用于铰接对象姿态跟踪的符号Z（j）=R（j）-1X-T（j）/s（j）。对于点云X={x2R3}N载有物体-t+1tt+1t t立场我（j）Mi=1我们观察到对于映射O={ C}j=1，其中N是点X到T（j），通过规范化其输入X摆出-且C（j）X表示第j个刚性部分的点，我们电话+1电话+1电话+1将类别级部件姿态表示为（j）（j）（j）（j），规范化点云Z（j），其输出T（j）将P={d，R，T }电话+1电话+1其中d（j）2R3是3D尺寸，R（j）2SO（3）是旋转，并且规范化为T（j）={s（j），R（j），T（j）}对应-T（j）2R3是平移。我们的问题定义如下：给定一个ingly，其中s（j）B为证明）。1，RI，T（j） 0。（见附录13212Z电话+1电话+1电话+1不电话+1电话+1不电话+1电话+1不不电话+1电话+1计算对象，隐式估计st和T图2. 我们的端到端可微分姿态跟踪流水线将M部分对象的深度点云以及从最后一帧估计的其每部分缩放、旋转和平移作为输入。我们首先采用每个部分的姿势规范化转换的深度点，使用逆估计的姿势，并生成M姿势规范化点云。标准化的点云将被输入RotationNet进行每个零件的旋转估计，以及CoordinateNet进行零件分割和标准化坐标预测。其用于计算更新的比例和平移。当RGB图像可用时，分割可以由来自现成的图像检测器的结果代替，以获得更好的准确性。当M=1时，这样的管线可以自然地适应于刚性物体。注意，T（j）可以使用T（j）和T（j）来表示，（j）位于I3 3附近的一个小社区，该区域-电话+1即y，st+1=s（j）s∈（j），R（j）t+1t=R（j）R（j），T（j）为电话+1可以以高精度进行选择然而，我们前-t tt+1t tt+1（j）（j）s（j）R（j）T（j）+T（j）。现在是姿态估计问题perimentally发现直接回归st和Tt仍然不同-t t t t t t翻译中的歧义是由不一致性引起的已经被转化成了学习地图的典范平（j）电话+1到T（j）。输入（j）电话+1包含C（j）=部分观测Z（j）的完备性。想象一支笔-由于一端被封闭，铅笔的长度不能R（j）-T（j）/s（j），其在不同的，从而预测其中心平移。帧和输出空间相当有限围绕着身份转变以这种方式，我们同时规范化输入点云空间和输出姿态空间。通过这样做，我们大大简化了回归任务，大大提高了姿态估计。高度模糊。尽管某些线索，例如，对象对称性，可能有助于消除歧义，我们的实验表明，给定不对称物体的部分观察回归T（j）仍然是一个挑战。相比之下，我们的实验表明，预测归一化坐标在不同的领域具有更高的准确性和更好的概括性Y（j）从Z（j）在所有刚性和艺术上都相当成功姿态注意，将T（j）的估计转化为T（j）电话+1电话+1（j）（j）与估计在实例级6D姿态估计和跟踪工作中广泛使用的帧间增量6D姿态密切相关[15，32]。更具体地，我们估计类别级规范帧中的帧间7D增量变换，即，NOCS用于刚性物体和NPCS用于零件，而没有delta姿态的输入和输出空间不这一成功的原因是归一化坐标Y（j）捕获了类别先验并强制执行零中心框架，从而使平移估计比直接回归更好考虑和准确。因此，我们设计了一个CoordinateNet来将C（j）从[15，32]中的估计是典型的。（j）电话+1并预测Y（j）（见4.2.2节）。4.2. 姿势跟踪通过结合RotationNet和CoordinateNet取姿势规范化的点云Z（j）如─已知C（j）=s（j）R（j）Y（j）+T（j），我们可以电话+1电话+1电话+1电话+1电话+1电话+1ZX.13213我们学习一个RotationNet（参见第4.2.1节），它直接解析计算s（j）和T（j）通过Umeyama算法回归（j）（j）（j）（j）电话+1电话+1Rt+1，然后恢复Rt+1=RtRt+1。以来[27]（假设R是给定的）。通常是不可微的13214电话+1电话+1电话+1电话+1电话+1--NN电话+1电话+1--电话+1i，t+1i，t电话+1i、j任意轴任意角旋转矩阵电话+1电话+1电话+1电话+1--当使用如[29，14]中的Umeyama算法时，由于预测的Y（j）中的多模态噪声，需要RANSAC。由于姿势规范化，我们发现我们的Y（j）对于对称对象，参见附录C.3，了解我们如何处理其归一化坐标中的二义性。每部分缩放和平移计算Y（j）和C（j）之间的稠密对应，并假设-预测是非常成功的，RANSAC只带来电话+1电话+1对我们的预测有有限的改进（见第二节）。5.6）。ingR（j）是由RotationNet给出的，我们可以分析地计算-由于没有不可微的RANSAC步骤，我们的端到端可微姿态跟踪流水线可以直接优化姿态准确性，强制姿态损失（例如，，IoU损耗），并提高其运行速度。4.2.1旋转估计RotationNet为了预测每个单独部分的R（j）j，我们设计了一个基于点云的深度神经网络，Rota。tionNet，它将姿势规范化的点作为输入云{Z（j）}j关于每个单独的部分j。建造通过Umeyama算法来计算s（j）和T（j）[27]。更多详情见附录C.44.3. 训练协议训练数据生成为了训练CoordinateNet和Ro- tationNet，我们需要姿势规范化的点云及其相应的地面真实姿势的配对数据。我们建议在不使用任何真实的时间数据。对于深度点云X和其中的部分j，我们通过将随机高斯噪声添加到电话+1在PointNet++[23]上，RotationNet按每个点进行回归，即s0（j）=s（j）（1+ns），R0（j）=R（j）R兰德，部分旋转{R（j）}以6D连续旋转的形式存在T0（j）=T（j）+nT，其中nsN（0，σs），Rrand是a站表示[39]。请注意，PointNet++不是确定性的，因为它在集合抽象和球查询操作中使用随机的进一步点采样，从而导致难以实现精确回归任务的收敛为了抑制噪声，我们对旋转前的使用欧氏平均[19]从部分n✓（0，στ），nT是一个具有随机方向和随机长度t的三维向量（0，σT）。然后，我们生成姿势规范化的点云，并计算它们的相关值。回应地面实况。RotationNet和CoordinateNet的位姿损失（j）s（j），R（j），T（j），它们的预测是端到端不同的。j，以获得最终预测Rt+1。对于对称物体，如碗，旋转歧义围绕其对称轴存在。关于我们如何监督他们的轮换，请参见附录C.2训练和推断在训练时，我们对地面真实值内的点强制执行每点均方损失掩码m（j）。在测试时，掩模来自CoordinateNet的预测部分分割。4.2.2尺度和平移估计CoordinateNet 为了估计 Y（ j ） j ，我们设计了CoordinateNet，其将相对于第一部分（j=1）的姿势规范化点云Z（1）作为输入，并且电话+1电话+1电话+1因此，直接影响到这些预测。我们使用RMSE损失来监督尺度误差L尺度和平移误差L变换。为了直接改进最终的3DIoU预测，我们引入了角损失L角[16]，其被定义为地面真实边界与地面真实边界之间的对应的每顶点距离在相机帧中的边界框和在归一化坐标空间中的地面实况边界框，我们预测的s（j），R（j），T（j）。对于对称对象，我们在对称轴和边界框表面。总损失Ltotal=λs egLs e g+λcoordLcoord+λrotLrot+λscale eLscale+ λ scaleλ平移L平移+ λ角L角。预测其每点部分分割和每点每-部分归一化坐标Y（j）i，j.请注意，相对于不同部分的姿势规范化点云共享相同的分割和归一化坐标;5. 实验5.1. 数据集和评估指标因此，我们只需要取Z（1）作为输入。NOCS-REAL275对于刚性对象姿态跟踪，我们基于PointNet++分割网络构建，CoordinateNet在最终特征传播层之后分支为两个头：一个头用于分割，另一个对于分段头，我们使用宽松的IoU损失[37]。对于归一化的坐标头，我们预测类感知的归一化坐标，类似于[29，14]。在训练期间，我们对地面真实部分掩码内的点强制执行RMSE损失在测试时，我们使用预测的掩码来选择坐标M部分的预测。在包含六个类别的NOCS数据集[ 29 ]上评估我们的方法：瓶、碗、照相机、罐、膝上型计算机和马克杯，其中瓶、碗和罐是对称的。训练集包含： 1 ）CAMERA数据集[ 29 ]的火车分裂，由300 K混合现实数据组成，其中来自ShapeNetCore [ 5 ]的合成对象模型作为在IKEA中捕获的前景和真实背景;以及2）捕获具有挑战性的杂乱场景的七个真实视频，对于每个对象类别总共具有三个对象实例。测试集，NOCS-REAL275，有六个真实的视频de-13215方法NOCS[29]中国社会科学院[6]CPS++[17] Oracle ICP6件装[28]6件装[28]我们 Ours+RGB seg.输入RGBDRGBDRGB深度RGBDRGBD深度RGBD设置单个帧跟踪初始化N/AN/AN/AGTGT很好很好很好5○5cm“mIoU“R 错误编号错误编号16.9755.1520.184.8529.4455.9814.1712.072.2430.0225.3221.620.6514.6940.287.7128.9255.4219.333.3122.1353.5819.663.6262.1664.105.947.9263.6069.196.434.18表1.NOCS-REAL 275上的类别级刚体姿态跟踪结果。结果是所有6个类别的平均值为每个对象类别绘制总计3200帧的总共三个不同（未看见）的实例。SAPIEN中的铰接对象对于铰接对象姿态跟踪，我们使用SAPIEN创建了一个合成数据集[34]。我们的数据集包含四个类别：眼镜，剪刀，笔记本电脑和抽屉，其中抽屉具有棱柱关节，其他具有旋转关节。训练集包含具有随机关节状态和视点的164个独立对象实例的98K深度图像。测试集包含190个深度视频的19个看不见的实例，总长度为19K帧，其中实例不断移动并改变其关节状态。更多信息见附录E来自BMVC数据集的真实世界笔记本电脑测试轨迹[18]我们还在来自[18]的真实铰接对象轨迹上测试我们的模型，其中对象保持相同的关节状态并且仅视点改变。在数据集中的4个实例中，我们只能在笔记本电脑上评估我们的方法，因为我们有SAPIEN的类别级训练两个膝上型计算机深度序列总共包含1765帧。评估指标我们报告了刚性和铰接对象姿态跟踪的以下指标：1）5〇5cm精度，具有旋转的姿势预测的百分比2<<）mIoU，地面实况和预测边界框的并集上的平均3D交集; 3）Rerr（〇），平均旋转误差;和4）Terr（cm），平均平移误差。铰接式对象，我们还报告了平均关节状态精度：5） ✓err（○）旋转误差的re olute关节;和6）derr（厘米）平移误差的棱柱关节。说真的世界笔记本电脑轨迹，我们遵循[18]并使用姿势tol。精度，即平均距离（AD）精度10%的对象部分直径作为阈值。5.2. 类别级刚体姿态跟踪为了跟踪来自NOCS-REAL 275数据集的杂乱场景中的对象，我们建议首先从场景中裁剪包围感兴趣对象的深度点球我们根据前一帧的9DoF姿态估计来设置球的中心和半径。为了生成训练数据，我们抖动地面实况具有高斯噪声的姿态（σ 尺度= 0. 02，σrot=5〇，和σtrans=3cm），以相应地模拟帧间姿态变化和裁剪球在测试时，我们随机抽取一个ini-第一帧的真实姿态周围的真实姿态从的相同分布结果表1总结了刚性对象姿态跟踪的定量结果我们报告了仅使用深度和使用RGBD的方法的性能，其中可以通过在CASS[6]中的RGB图像上运行现成的检测器来我们将我们的方法与以下方法进行比较：6-PACK [28]，一种基于跟踪的方法，使用相同的姿态误差分布或地面实况姿态进行初始化（6-PACK最初仅使用平移误差进行初始化）;Oracle ICP，它利用了地面实况对象模型;以及几种基于单帧的方法，包括NOCS [29]，CASS [6]和CPS++[17]。我们的方法实现了最佳的性能和signif- icantly优于以前的国家的最先进的方法，6-PACK，在两个初始化设置。我们在旋转误差和5○ 5cm规格下尤其具有竞争力，与6-PACK相比，旋转误差不到三分之一，5○ 5cm百分比高出105%。仅使用深度，我们的方法在翻译错误方面产生相对较弱的性能，然而，这仅仅这是由于在真实测试深度图像上未能分割出相机，因为我们的大部分合成训练数据和噪声真实数据之间存在巨大的sim2real域差距详细分析见第5.8节和附录H.1。排除此摄像机类别，我们的方法将是所有指标下的最佳方法（见附录H.1）。值得注意的是，虽然我们的方法跟踪完整的9DoF姿态并预测边界框，但6-PACK仅跟踪6DoF刚性变换，并且必须使用地面实况框比例来计算3D IoU，这在比较期间不公平地优于6-PACK图1进一步显示了我们的方法和6-PACK之间的定性我们的方法失去跟踪的频率较低，并提供更好的姿态估计。5.3. 类别级关节位姿跟踪在表2和Fig.1，我们展示了SAPIEN数据集上保持的测试实例的关节姿态我们将我们的方法与 1 ）ANCSH*（ora-1）进行比较。 cle ANCSH），其中我们向现有技术的单帧关节式对象姿态估计工作ANCSH[14]提供地面实况对象分割掩模。由于从任意视点渲染的无纹理对象点云的部分模糊性，原始ANCSH在我们的数据集上的部分分割上彻底失败;以及2）oracle13216电话+1方法CrdNet C-Crd。C-Crd.+产品介绍 C-sRT我们的w/oLc，Ls，Lt我们5○5cm“mIoU“R 错误编号错误编号14.9349.4853.639.4846.7459.9935.0812.9754.7753.898.889.9525.9932.8634.7421.8460.4858.806.4112.6462.1664.105.947.92表2. 实验结果和消融研究的关节对象的姿态跟踪上保持了实例从 SAPIEN。✓Err在所有转动关节上平均，而Derr在所有移动关节上平均其他结果在部分和部分上平均。类别每个部件、每个类别的结果见附录H.2。我们的+腐烂。投影利用运动学约束，参见第5.8节。方法Michel等人ANCSHANCSH*我们设置已知实例类别层级1全部/部分64.8 65.5 66.994.1 94.774.7电话：+86-10 -888888895.5/99.82全部/部分65.7 66.3 66.698.4 98.999.097.0电话：+86-021 -888888898.9/100.0表3.在姿势容差中测量看不见的笔记本电脑的两个真实序列的结果（越高，越好，参见[18]）。[18，14]报告的左两列直接在实例上训练，而ANCSH*（带GT部分掩码）和我们的仅在SAPIEN上训练，从未见过实例。图3. 真实剪刀轨迹的定性评价。ICP，其中我们假设可用的地面实况部分标签和对象部分模型，然后使用ICP跟踪每个部分。请注意，我们的铰接式SAPIEN数据集是仅深度的，而RGB-D输入对于6-PACK是必不可少的，因此我们没有运行每个部件的6-PACK跟踪作为基线。我们在所有指标下的表现都优于基准虽然ANCSH*使用地面实况标签并通过联合约束来调节其预测，但我们的每部分方案仍然以非常精确的旋转估计击败了它。5.4. 基于真实数据的类别级关节位姿跟踪我们进一步测试了我们的模型，仅在合成SAPIEN数据集上训练，在真实世界的数据上。由于训练数据不包含背景，因此我们在以下实验中使用预分割的对象点云。表3和图4中的实际笔记本电脑轨迹1、我们来--表4.基于NOCS-REAL275的刚体位姿跟踪消融研究。结果是所有6个类别的平均值。这里C代表规范化。使用Kinect2的真实抽屉轨迹，其中Kinova Jaco2臂拉出中间抽屉。如图第1段（d）分段。我们的模型成功地跟踪移动的抽屉和其他部分。更多详情见附录F实际剪刀轨迹图3显示了我们使用Kinect 2捕获的真实剪刀轨迹的定量5.5. 消融研究为了证明我们的多组分设计的有效性，我们构建了我们的网络的几个变体：1）Co-ordinateNet，其中我们直接回归NOCS/NPCS没有姿势规范化的X坐标;2）规范化 CoordinateNet，哪里我们表演姿势规范化但没有RotationNet; 3）使用DSAC++规范化的CoordinateNet，其中我们遵循[3]并使用可微姿态估计模块训练我们的CoordinateNet; 4）规范化的sRT回归，其中我们扩展我们的RotationNet以基于规范化的点云进一步回归缩放和平移，而无需使用Coordi。nateNet;以及5）我们的w/oLc、Ls、Lt损失，其中我们在训练期间丢弃姿态损失Lscale、Ltrans、Lcorner。对于1）、2）和3），我们从下式中获取坐标预测：CoordinateNet并使用基于RANSAC的姿势拟合。我们在用于刚性对象跟踪的NOCS-REAL 275和用于铰接对象跟踪的SAPIEN合成数据集上测试变体结果总结在表4和表2中，其中我们的方法通过成功地组合姿态规范化、坐标预测和姿态回归的益处而优于所有消融请注意，由于未着色、任意设定的合成对象的部分模糊性，我们没有在没有规范化的情况下对铰接对象进行CoordinateNet规范化的CoordinateNet明显优于CoordinateNet，证明了姿势规范化带来的好处。通过额外的RotationNet ，我们的方法进一步改进了规范化的CoordinateNet ，并击败了可微管道 CoordinateNet +DSAC++，后者还包括显式姿态损失，证明了直接回归将我们的方法与Michel et al.[18 ][19][19][19]小R（j）在跟踪场景中是更好的选择。来自[18]的两个真实笔记本电脑轨迹上的ANCSH*我们遵循[14]并使用其渲染对象掩码进行分割。尽管存在方法5○ 5cm“ mIoU“错误编号错误编号✓错误编号错误编号ANCSH*[14]92.5568.692.180.481.620.64Oracle ICP62.8756.618.953.047.211.05我们98.3574.001.030.291.380.34C-sRT回归21.6934.2120.4811.466.087.57C-CoordinateNet95.0671.992.090.401.520.75C-Crd。+ DSAC++[3]95.6868.211.800.471.610.56我们的不含Lc、Ls、Lt97.6372.091.240.351.430.3613217Sim2Real缺口和类别级生成缺口，但我们的模型优于所有其他方法。机器人与物体交互下的真实抽屉为了在机器人操作场景中测试我们的方法，我们捕获了一个相比之下，由于输入中关于缩放和平移的模糊性和视觉提示不足，纯回归管道，规范化的sRT回归，产生最差的结果。最后，与我们的w/o相比，显式缩放、平移和角点Lc、Ls、Lt损失。13218⇥⇥604530150原稿+1噪音+2噪音图4. 5○5cm（%）w.r.t.更多噪音+m噪声意味着将m倍训练时间误差添加到1）初始姿态（表示为Init. ），已包含1个列车时间误差;或2）每训练期间的帧（表示为All）。方法国家奥委会6包ANCSH我们FPS4.053.530.8012.66表5.FPS中的跟踪速度5.6. 跟踪鲁棒性我们的姿势预测是以来自前一帧的姿势为条件的，无论是初始姿势还是估计姿势。因此，值得测试我们的方法对噪声姿态输入的跟踪鲁棒性。如第5.2和SEC。在图5.3中，从高斯分布中随机采样初始姿态误差。我们直接测试我们的模型，将1或2倍的原始姿势误差添加到（1）初始姿势和（2）每个先前帧分别检查姿态初始化和估计误差的鲁棒性我们绘制了每种设置下5○5cm精度的退化，并与图6中的6-PACK进行了比较4.第一章我们的方法是显着更强大的姿态噪声比6-PACK。我们在铰接式物体上也非常稳健，见附录H.3.5.7. 跟踪速度除了最先进的性能之外，我们的方法还具有所有其他方法中最高的跟踪速度，如表5所示。所有方法均在同一器械上进行测试。 NOCS和ANCSH由于RANSAC和优化，我们6-PACK在每一帧的潜在对象中心的网格处转发27次，以实现其报告的性能。5.8. 讨论跟踪尺度虽然在跟踪过程中对象的实际尺度是恒定的，但我们仍然在框架中跟踪尺度以处理不准确的初始尺度。相比到固定的规模作为嘈杂的初始规模在整个在跟踪方面，我们的尺度跟踪方案将平均尺度误差从1.09%降低到0.30%，并将铰接对象上的mIoU从71.70%提高到74.00%; 并将刚性对象上的 mIoU 从 73.43% 提高到76.42%（不包括两种方案都失败的相机）。利用运动链约束对于铰接对象，我们的方法侧重于每部分跟踪，而不明确利用联合约束在测试时。先前的工作在实例级跟踪[18，10]和类别级跟踪[14]中利用这些约束。[18]和[10]假设关节参数的完美知识，并将其视为硬约束。然而，在类别级设置中，关节参数是未知的，并且由于遮挡而难以预测，特别是对于枢轴点预测。实际上，我们已经尝试预测它们，并实现了与最新技术水平[14]相似的准确度，例如，笔记本电脑枢轴点的误差为1.1cm。然而，强制执行这些不准确的约束损害了我们的性能，导致翻译错误增加了80%。ANCSH [14]提供了一种替代方案，其中仅使用估计的关节轴方向作为旋转预测的软约束，代价是较低的速度。请注意，在不利用约束的情况下，我们的方法已经显著优于ANCSH [14]。在不牺牲速度的情况下，我们检查了地面真实关节轴取向作为硬约束的使用，但仅获得很少的改进，如表2（Ours + Rot.项目）。我们把这个方向留给未来的工作。限制和失败案例我们的大多数失败案例来自真实深度图像中的大传感器噪声。在极端情况下，例如，在来自NOCS-REAL 275的真实摄像机上，反射太强或太暗，我们的Coordi- nateNet无法产生合理的分割，整个管道崩溃（见附录H.1）。在较温和的情况下，域间隙所造成的传感器噪声也降低了我们的性能。可能需要特定的域适应技术来处理这个问题，这超出了本文的范围。6. 结论在本文中，第一次，我们解决了类别级的9自由度的刚性和articulated对象的姿态跟踪的问题。为了实现这一目标，我们提出了一个端到端的微分姿态跟踪框架，包括三个模块：姿态规范化，RotationNet，和Co-ordinateNet。我们的算法实现了国家的最先进的性能在两个类别级别的刚性和铰接姿态基准和运行速度比较快的评估。鸣谢：这项研究得到了SAIL-Toyota人工智能研究中心的资助，三星 GRO 计划的资助， NSF 资助 IIS-1763268，Van- nevar Bush学院奖学金，斯坦福大学UGVR计划的支持，以及Kwai和Qualcomm的礼物。62.16五十九83五十九64五十八6955.946件装，初始化6件装，全我们的，初始。二十二岁13十七岁95十四岁827 .第一次会议。444.第一章9813219引用[1] Mykhaylo Andriluka，Umar Iqbal，Eldar Insafutdinov，Leonid Pishchulin ， Anton Milan ， Juergen Gall ， andBernt Schiele. Posetrack：人体姿态估计和跟踪的基准。在IEEE计算机视觉和模式识别会议论文集，第5167-5176页，2018年。3[2] Eric Brachmann、Alexander Krull、Sebastian Nowozin、Jamie Shotton、Frank Michel、Stefan Gumhold和CarstenRother。用于相机定位的Dsac可微分RANSAC。在IEEE计算机视觉和模式识别会议论文集，第6684-6692页，2017年。二、三[3] Eric Brachmann和Carsten Rother。学习越少越好-通过3D表面回归进行6D相机定位。在IEEE计算机视觉和模式识别会议的论文集，第4654-4662页，2018年。三、七[4] Tommaso Cavallari、Stuart Golodetz、Nicholas A Lord、Julien Valentin、

下载后可阅读完整内容，剩余1页未读，立即下载