关节感知归一化坐标空间层次结构（ANCSH）网络用于关节物体姿态估计

73 浏览量更新于2023-10-24 收藏 24.43MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

37060类别级别的关节物体姿态估计0Xiaolong Li 1 � He Wang 2 � Li Yi 3 Leonidas Guibas 2 A. Lynn Abbott 1 Shuran Song 401 弗吉尼亚理工大学 2 斯坦福大学 3 谷歌研究 4 哥伦比亚大学0articulated-pose.github.io0摘要0本文针对从单个深度图像中对关节物体进行类别级别的姿态估计任务。我们提出了一种新颖的类别级别方法，能够正确地适应在训练过程中之前未见过的物体实例。我们引入了关节感知的归一化坐标空间层次结构（ANCSH）-一种给定类别中不同关节物体的规范表示。作为实现类别内泛化的关键，该表示构建了一个规范化的物体空间以及一组规范化的部分空间。规范化的物体空间对物体的方向、尺度和关节（如关节参数和状态）进行了规范化，而每个规范化的部分空间进一步规范化了其部分姿态和尺度。我们基于PointNet++开发了一个深度网络，从单个深度点云中预测ANCSH，包括部分分割、规范化坐标和规范化物体空间中的关节参数。通过利用规范化的关节，我们证明：1）使用关节引导的运动约束改善了部分姿态和尺度估计的性能；2）在相机空间中对关节参数进行高精度估计。01. 引言0我们的环境中充满了关节物体，从家具如柜子和烤箱到小型桌面物体如笔记本电脑和眼镜。有效地与这些物体进行交互需要对它们的关节状态和部分级别姿态有详细的理解。这种理解超出了典型的6D姿态估计算法的范围，这些算法是为刚性物体设计的[31, 25, 24, 28]。考虑到物体关节的算法[13,14, 12,16]通常需要在测试时知道精确的物体CAD模型和相关的关节参数，这使它们无法推广到新的物体实例。在本文中，我们采用了一种基于学习的方法来执行关节物体的类别级别姿态估计。具体而言，我们考虑了估计每个部分的6D姿态和3D尺度、关节参数（即类型、位置、轴方向）和关节状态（即关节角度）的任务。0* 表示相等的贡献。0从单个深度图像中的3D点云0θ0`0部分姿态0分割部分全模边界框0关节参数0关节状态0对不同物体实例的泛化0输出：输入：0图1.类别级别的关节物体姿态估计。给定一个已知类别的新型关节物体的深度点云，我们的算法估计：部分属性，包括部分分割、姿态、尺度和全模边界框；关节属性，包括关节参数和关节状态。0从单个深度图像中的已知类别的新型关节物体实例。这里，同一类别的物体实例将共享由一定类型的关节连接的固定数量的刚性部分组成的已知运动链。我们特别关注两种最常见的关节类型，即引起1D旋转运动的旋转关节（例如门铰链）和允许1D平移运动的平移关节（例如柜子中的抽屉）。图1显示了一个概述。为了实现这个目标，需要解决几个主要挑战：首先，为了处理不知道精确的3DCAD模型的新型关节物体，我们需要找到一个适用于给定类别内不同实例的共享表示。该表示需要适应部分几何形状、关节参数、关节状态和自遮挡模式的大变化。更重要的是，对于这样多样化的数据进行学习，该表示需要促进类别内泛化。其次，与刚性物体相比，关节物体由多个刚性部分组成，导致其姿态具有更高的自由度。此外，这些部分通过特定的关节连接和约束。37070姿态不是独立的。在遵守物理约束的同时，在这样一个高维空间中准确估计姿态是具有挑战性的。第三，各种类型的关节为部件的关节提供不同的物理约束和先验知识。设计一个能够准确预测参数并有效利用旋转关节和平移关节约束的框架仍然是一个开放的研究问题。为了解决表示挑战，我们提出了一种用于不同关节物体实例的共享类别级表示，即关节感知的归一化坐标空间层次结构（ANCSH）。具体而言，ANCSH是一个由规范空间组成的两级层次结构，由根级别的归一化关节物体坐标空间（NAOCS）和叶级别的一组归一化部件坐标空间（NPCSs）组成。在NAOCS中，物体的尺度、方向和关节状态被归一化。在每个刚性部件的NPCS中，部件的姿态和尺度进一步被归一化。我们注意到NAOCS和NPCS互补：NAOCS在物体级别上提供了一个规范参考，而NPCS在部件级别上提供了规范部件参考。ANCSH的两级参考框架使我们能够在类别级别上定义每个部件的姿态以及关节属性，以前未见的关节物体实例。为了解决姿态估计的挑战，我们将物体分割为多个刚性部件，并预测ANCSH中的归一化坐标。然而，单独的每个部件姿态估计很容易导致物理上不可能的解，因为没有考虑关节约束。为了符合关节引入的运动学约束，我们从观察中估计NAOCS中的关节参数，根据关节类型对约束进行数学建模，然后利用运动学先验对部件姿态进行规范化。我们将从ANCSH到深度观测的关节姿态拟合问题制定为一个联合优化问题，同时考虑部件姿态拟合和关节约束。在这项工作中，我们主要关注1D旋转关节和1D平移关节，而上述公式可以扩展为建模和支持其他类型的关节。我们的实验表明，在联合优化中利用关节约束可以提高部件姿态和尺度预测的性能。需要注意的是，利用关节约束来规范化部件姿态需要高精度的关节参数预测，这本身是非常具有挑战性的。我们考虑并利用NAOCS中的关节参数预测，而不是直接在相机空间中预测关节参数，其中关节以规范方向放置，例如，旋转关节始终指向上方的眼镜。通过将NAOCS中的关节参数预测从NAOCS转换回相机空间，我们进一步证明了在相机空间上的高精度。0关节参数预测。总之，我们论文的主要贡献是一个用于类别级关节姿态估计的统一框架。为了支持这个框架，我们设计了：∙一种用于关节物体的新颖的类别级表示——关节感知的归一化坐标空间层次结构（ANCSH）。∙一种基于PointNet++的神经网络，能够从单个深度输入中预测以前未见的关节物体实例的ANCSH。∙一种联合优化方案，利用ANCSH预测以及引入的关节约束进行部件姿态和尺度估计。∙一种用于高精度关节参数估计的两步方法，首先在NAOCS中预测关节参数，然后使用部件姿态将其转换到相机空间中。02. 相关工作0本节总结了刚性和关节物体的姿态估计相关工作。0刚体物体姿态估计。经典上，姿态估计的目标是推断物体相对于给定参考框架的6D姿态（3D旋转和3D位置）。大多数以前的工作都集中在通过假设存在精确的3DCAD模型来估计实例级姿态。例如，传统算法如迭代最近点（ICP）[4]通过将CAD模型与观察到的3D点云对齐来执行模板匹配。另一类方法的目标是将物体坐标回归到其CAD模型上的每个观察到的物体像素，然后使用投票来解决物体姿态[6,7]。这些方法受到需要具体物体实例的精确CAD模型的限制。类别级姿态估计旨在推断物体相对于类别特定规范表示的姿态和尺度。最近，Wang等人[28]将基于物体坐标的方法扩展到执行类别级姿态估计。在类别内泛化背后的关键思想是在归一化物体坐标空间（NOCS）内回归坐标，在该空间中，给定类别的物体的尺寸被归一化，方向被对齐。而[28]的工作侧重于刚体物体的姿态和尺寸估计，这里介绍的工作将NOCS的概念扩展到部件和物体级别的关节物体。除了姿态，我们的工作还推断关节信息并解决与遮挡相关的特定问题。037080深度观察0空间（NPCS）0归一化关节物体坐标空间（NAOCS）关节感知的归一化坐标空间层次结构（A-NCSH）0关节0 关节1 关节20深度观察0关节1 关节00图2.关节感知的归一化坐标空间层次结构（ANCSH）是一种类别级别的物体表示，由顶部的归一化关节物体坐标空间（NAOCS）和每个部分的归一化部分坐标空间（NPCSs）组成。这里我们展示了ANCSH表示的两个示例（点的颜色根据其在NAOCS/NPCS中的对应坐标进行着色）。注意，NAOCS将物体关节设置为预定义状态，因此NAOCS中的所有关节都是规范化的，例如，眼镜示例中旋转关节的轴都指向上方，关节角度为直角。对于每个单独的部分，NPCS保持与NAOCS中的部分方向一致，但将其位置归零并归一化其尺度。0通常使用CAD模型来约束搜索空间并分别恢复不同部分的姿势[18,9]。Michel等人[18]使用随机森林对深度图像中的每个点进行姿势参数投票，然后使用Kabsch算法的变体通过基于RANSAC的能量最小化来估计关节参数。Desingh等人[9]采用了一种生成式方法，使用马尔可夫随机场公式化，将状态分解为受其关节参数约束的各个部分。然而，这些方法只考虑已知的物体实例，并且无法处理不同的部分和运动学变化。最近的一项工作[1]也尝试通过在深度图像上训练混合密度模型[5]来处理同一类别中的新物体，他们的方法可以使用高斯混合概率预测来推断运动学模型。然而，他们并没有明确地对部分水平进行姿势估计，简化的几何预测（如长度、宽度）仅适用于整个对象的尺度变化。另一种方法依赖于主动操作物体来推断其关节模式[13, 14, 12, 16,32]。例如，Katz等人[14]使用机器人操作器与RGB-D视频进行交互。然后，根据它们的运动将3D点聚类成刚性部分。尽管这些方法可以对未知物体进行姿势估计，但它们要求输入是观察物体不同关节状态的图像序列，而我们的方法能够使用单个深度观察来执行任务。0人体和手部姿势估计。最近，两个特定的关节类别引起了相当大的关注：人体和人手。对于人体姿势估计，已经开发了使用端到端网络直接预测3D关节位置[17, 23,19]，使用2D图像和3D表面模型之间的密集对应关系图[3]，或者通过CAD模型进行姿势约束和不同部分的分别姿势恢复的方法[18,9]。Michel等人[18]使用随机森林对深度图像中的每个点进行姿势参数投票，然后使用Kabsch算法的变体通过RANSAC进行基于能量的最小化来估计关节参数。Desingh等人[9]采用了一种生成式方法，使用马尔可夫随机场公式化，将状态分解为受其关节参数约束的各个部分。然而，这些方法只考虑已知的物体实例，并且无法处理不同的部分和运动学变化。最近的一项工作[1]也尝试通过在深度图像上训练混合密度模型[5]来处理同一类别中的新物体，他们的方法可以使用高斯混合概率预测来推断运动学模型。然而，他们并没有明确地对部分水平进行姿势估计，简化的几何预测（如长度、宽度）仅适用于整个对象的尺度变化。另一种方法依赖于主动操作物体来推断其关节模式[13, 14, 12, 16,32]。例如，Katz等人[14]使用机器人操作器与RGB-D视频进行交互。然后，根据它们的运动将3D点聚类成刚性部分。尽管这些方法可以对未知物体进行姿势估计，但它们要求输入是观察物体不同关节状态的图像序列，而我们的方法能够使用单个深度观察来执行任务。0通过2D监督估计完整的3D形状[15,20]。类似地，手部姿势估计的技术（例如[27,11]）利用密集坐标回归，然后用于投票3D关节位置。对于身体和手部姿势估计的方法通常专门针对这些物体类型进行定制，依赖于具有类别相关变化（例如预期关节长度）和强形状先验（例如使用参数化身体形状模型进行低维参数化）的固定骨骼模型。此外，这种手/身体方法只适用于旋转关节。相比之下，我们的算法设计用于处理具有不同运动链的通用关节物体，允许旋转关节和平移关节。03.问题陈述系统的输入是从已知类别的单个深度图像反投影得到的表示未知物体实例的3D点云P = {pi ∈ R3 | i = 1, ...,N}，其中N表示点的数量。我们知道该类别的所有物体共享由M个刚性部件{S(j) | j = 1, ..., M}和K个已知类型的关节{Jk| k = 1, ...,K}组成的相同运动链。目标是将点云分割成刚性部件{S(j)}，恢复{S(j)}中部件的3D旋转{R(j)}、3D平移{t(j)}和尺寸{s(j)}，以及预测{Jk}中关节的关节参数{φk}和状态{θk}。在这项工作中，我们考虑1D旋转关节和1D平移关节。我们将这两种类型的关节参数化如下。对于旋转关节，其关节参数包括旋转轴的方向u(r)k以及旋转轴上的旋转中心qk；其关节状态定义为相对于预定义的静止状态沿u(r)k的相对旋转角度。对于平移关节，其关节参数是平移轴的方向u(t)k，其关节状态定义为相对于预定义的静止状态沿u(t)k的相对平移距离。370904.方法0ANCSH为以前未见过的关节物体实例提供了一个特定类别的参考框架，定义了每个部件的姿态以及关节属性。在第4.1节中，我们首先详细解释了ANCSH。在第4.2节中，我们提出了一个能够预测ANCSH表示的深度神经网络。第4.3节描述了如何使用ANCSH表示来联合优化具有显式关节约束的部件姿态。最后，在第4.4节中，我们描述了如何计算关节状态并推断相机空间中的关节参数。04.1. ANCSH表示0我们的ANCSH表示受到并与标准化对象坐标空间（NOCS）[28]的启发和密切相关，我们在这里简要回顾一下。NOCS被定义为一个包含在单位立方体内的3D空间，并在[28]中引入，用于估计刚性物体的类别级别6D姿态和尺寸。对于给定的类别，对象通过其在NOCS中的方向进行一致对齐。此外，这些对象被零中心化并均匀缩放，使得它们的紧密边界框都以NOCS原点为中心，对角线长度为1。NOCS为给定类别中的刚性物体提供了一个参考框架，因此可以使用从NOCS到相机空间的相似变换来定义物体的姿态和尺寸。然而，NOCS对于表示关节物体是有限的。我们更关心每个单独部件和关节的姿态和状态，而这在NOCS中没有涉及。为了定义类别级别的每个部件姿态和关节属性，我们提出了ANCSH，这是一个标准化坐标空间的两级层次结构，如图2所示。在根级别，NAOCS提供了一个具有标准化姿态、尺度和关节的对象级参考框架；在叶级别，NPCS为每个单独部件提供了一个参考框架。我们在下面详细解释NPCS和NAOCS。0NAOCS。为了为对象集合构建类别级别的对象参考框架，我们首先将所有对象的关节运动带入一组预定义的静止状态。基本上，对于每个关节Jk，我们手动定义其静止状态θk0，然后将关节设置为该状态。例如，我们将眼镜类别中的两个旋转关节的静止状态定义为直角；我们将所有抽屉的静止状态定义为关闭。除了规范化关节运动外，NAOCS还应用了与[28]中使用的相同的对象规范化，包括零中心化、方向对齐和均匀缩放。作为一个规范化的对象表示，NAOCS具有以下优点：1）关节被设置为预定义状态，因此准确估计NAOCS中的关节参数，例如旋转/平移轴的方向，变得容易；2）通过规范化的关节，我们可以0建立简单的数学模型来描述NAOCS中每个单独关节的运动约束。0NPCS。对于每个部分，NPCS进一步将其位置归零并按照[28]中所做的方式进行均匀缩放，同时保持其方向与NAOCS中的方向不变。在这方面，NPCS与NOCS[28]类似，但是针对的是单个部分而不是整个对象。NPCS提供了一个部分参考框架，我们可以将部分姿态和尺度定义为从NPCS到相机空间的变换。请注意，不同对象实例的相应部分在NPCS中对齐，这有助于类内泛化并实现对未见实例的预测。0NPCS、NAOCS和NOCS之间的关系。NPCS和NAOCS都受到NOCS表示的启发，旨在处理给定类别的一组关节对象。因此，类似于NOCS，这两种表示编码了规范信息，并能够推广到新的对象实例。然而，这两种表示各自在建模关节对象方面都有自己的优势，因此提供了互补的信息。因此，我们的ANCSH利用NPCS和NAOCS形成了部分和关节的综合表示。一方面，NPCS对每个部分的位置、方向和大小进行了归一化。因此，NPCS和相机空间之间的变换可以自然地用于计算每个部分的3D模态边界框，这在NAOCS表示中没有很好地呈现出来。另一方面，NAOCS从整体的视角看待部分，编码了对象空间中不同部分的规范关系。NAOCS为NPCS中的部分提供了一个父参考框架，并允许在不同部分之间一致地定义关节参数。因此，我们在NAOCS中建模关节并预测关节参数，而不是在NPCS中。关节参数可以用于推断关节约束，可以规范连接部分之间的姿势。请注意，NPCS和NAOCS中定义的信息并不是互斥的-每个NPCS可以通过统一的缩放和平移转换为其在NAOCS中的对应物。因此，我们的网络不是独立地预测完整的NAOCS表示，而是预测每个对象部分的缩放和平移参数，并直接应用于相应的NPCS以获得NAOCS估计。04.2. ANCSH网络0我们设计了一个深度神经网络，能够预测未见过的关节对象实例的ANCSH表示。如图3所示，该网络以深度点云P作为输入，其四个头部输出刚性部分分割，每个NPCS中的密集坐标预测，̸37100归一化部分坐标空间（NPCS）0部分分割0PointNet++0轴方向关联0NAOCS中的关节参数0输入: 深度点云0枢轴位置0PointNet++0归一化关节对象坐标空间（NAOCS）0S0T0S: 每个部分的缩放 T:每个部分的平移 : 逐元素乘法 :逐元素求和0图3.ANCSH网络利用两个PointNet++[21]模块预测ANCSH表示，包括部分分割、NPCS坐标、从每个NPCS到NAOCS的变换（1D缩放和3D平移）以及NAOCS中的关节参数。该图示了仅具有旋转关节的眼镜盒，但网络结构也适用于具有旋转和平移关节的对象。0从每个NPCS到NAOCS的变换以及NAOCS中的关节参数。该网络基于从PointNet++[21]分割架构中调整的两个模块。部分分割头部预测每个点在M个刚性部分之间的概率分布。NPCS头部预测每个点pi的M个坐标{c(j)i∈R3|j=1,...,M}。我们使用预测的部分标签来选择相应的NPCS。这种设计有助于将每个部分的几何先验注入到网络中，从而使网络专门用于部分特定的预测。我们设计分割网络和NPCS回归网络共享相同的PointNet++骨干，并且仅在最后的全连接层分支。NAOCS头部预测从每个NPCS到NAOCS的变换{G(j)}，并使用预测的变换计算NAOCS中的坐标。由于NPCS和NAOCS之间的部分方向相同，网络只需要估计部分S(j)的NPCS的3D平移G(j)t和1D缩放G(j)s。类似于NPCS头部，在这里的头部为每个点pi预测具有G(j)t,i和G(j)s,i的部分S(j)的NPCS的密集变换。我们使用预测的分割标签来选择每个点的平移Gt,i和缩放Gs,i。然后，NAOCS坐标可以表示为{gi|gi=Gs,ici+Gt,i}。最后，我们通过对点{pi∈S(j)}进行平均来计算G(j)s和G(j)t。最后的头部推断出每个关节的联合参数{φ'k}。0在NAOCS空间中的Jk（我们在这里使用“′”来区分NAOCS参数和相机空间参数）。我们考虑以下两种类型的关节：1D旋转关节，其参数包括旋转轴方向和枢轴点位置，即φ′k =(u(r)′k, q′k)；1D平移关节，其参数是平移轴方向φ′k =(u(t)′k)。我们采用投票方案来准确预测关节参数，首先通过标记方案将点与每个关节关联起来，然后让点为其关联关节的参数投票。我们定义每个点的关节关联{ai | ai ∈ {0, 1, ...,K}}，其中标签k表示点pi与关节Jk关联，标签0表示不与任何关节关联。我们使用以下启发式方法提供地面真值关节关联：对于旋转关节Jk，如果点pi属于其两个连接部分并且距离其旋转轴不超过σ，则设置ai =k；对于平移关节，我们将其与其相应移动部分上的所有点关联起来。我们经验性地发现σ =0.2可以在我们的数据上得到不重叠的关节关联。除了预测关节关联，关节参数头还对关联关节参数进行密集回归。具体来说，对于每个点pi，头部回归一个7D向量vi ∈R7。vi的前三个维度是一个单位向量，它可以表示旋转关节的u(r)′或平移关节的u(t)′。其余四个维度用于枢轴点q′，以防点与旋转关节关联。由于1D旋转关节的枢轴点没有唯一定义（它可以沿旋转轴任意移动），我们通过回归一个3D单位向量表示投影方向和一个标量表示投影距离来预测pi到其关联旋转关节的旋转轴的投影。对于训练，我们只监督ai ≠0的点pi的匹配维度的vi。我们使用与关节Jai关联的地面真值关节参数φ′ai作为监督。在推理过程中，我们使用预测的关节关联来解释vi。我们执行投票步骤来获得最终的关节参数预测φ′k，其中我们简单地对与每个关节Jk关联的点的预测进行平均。注意，NAOCS头和关节参数头共享第二个PointNet++作为它们的骨干，因为它们都在NAOCS中预测属性。0损失函数：我们使用放松的IoU损失[32]Lseg来进行部分分割以及关节关联Lassociation。我们使用均方损失LNPCS来进行NPCS坐标回归。我们使用均方损失LNAOCS来监督每个点的平移{G(j)t,i}i,j和缩放0{G(j)s,i}i,j。我们再次使用均方损失Ljoint进行关节参数预测。我们的总损失由L = λ1Lseg + λ2LNPCS + λ3LNAOCS+ λ4Lassociation + λ5Ljoint给出，其中损失权重设置为[1,10, 1, 1, 1]。j12371104.3. 使用运动学约束进行姿态优化0给定我们的ANCSH网络的输出，包括部分分割{ci}对于每个点pi，每个部分S(j)的{G(j)t,G(j)s}，以及每个关节Jk的{φ′k}，我们现在估计每个部分S(j)的6D姿态和尺寸{R(j), t(j),s(j)}。考虑一个部分S(j)，对于点{pi ∈S(j)}，我们有它们对应的NPCS预测{ci | pi ∈S(j)}。我们可以按照[28]进行姿态拟合，其中在RANSAC[10]框架内采用Umeyama算法[26]来鲁棒地估计单个刚体对象的6D姿态和尺寸。然而，在不利用关节约束的情况下，将此方法简单应用于我们设置中的每个单独部分很容易导致物理上不可能的部分姿态。为了应对这个问题，我们提出了以下利用运动学约束的优化方案来估计部分姿态。在没有运动学约束的情况下，关于所有部分姿态的能量函数Evanilla可以写成Evanilla = Σjej，其中0ej = 10|S(j)|0pi ∈ S(j)||pi − (s(j)R(j)ci + t(j))||20然后，我们通过为每个关节添加能量项ek来引入运动约束到能量函数中。具体而言，我们修改后的能量函数为Econstrained = �jej +λ�kek，其中ek对于每种类型的关节定义不同。对于具有参数φ′k = (u(r)′k,q′k)的旋转关节Jk，在NAOCS中假设它连接部件S(j1)和部件S(j2)，我们将其定义为ek：0ek = ||R(j1)u(r)′k − R(j2)u(r)′k||20对于具有参数φ′k =(u(t)′k)的棱柱关节Jk，在NAOCS中再次假设它连接部件S(j1)和部件S(j2)，我们将其定义为ek：0ek = µ||R(j1)R(j2)T − I||2 + �0j = j1,j2 || [R(j)u(t)′k]×δj1,j2 ||20其中[∙]×将向量转换为矩阵，以便与其他向量进行叉乘，δj1,j2定义为：0δj1,j2 = t(j2) − t(j1) + s(j1)R(j1)G(j1)t − s(j2)R(j2)G(j2)t0为了最小化我们的能量函数Econstrained，我们不能再使用Umeyama算法分别解决不同部件姿态的问题。相反，我们首先使用Umeyama算法最小化Evanilla来初始化对部件姿态的估计。然后，我们固定{s(j)}并采用非线性最小二乘求解器进一步优化{R(j),t(j)}，这与束调整[2]中常用的方法相似。与[28]类似，我们还使用RANSAC进行异常值去除。最后，对于每个部件S(j)，我们使用拟合的R(j), t(j), s(j)和NPCS{ci | pi ∈S(j)}计算一个模态边界框，与[28]中的方法相同。04.4. 相机空间关节参数和关节状态估计0知道每个部件的{R(j), t(j), s(j), G(j)t,G(j)s}，我们可以计算关节状态{θk}并从NAOCS关节参数{φ′k}推导出相机空间中的关节参数{φk}。对于连接部件S(j1)0对于连接部件S(j1)和S(j2)的棱柱关节Jk，我们将其参数φk= (u(r)k, qk)在相机空间中定义为：0u(r)k = (R(j1) + R(j2))u(r)′k0||(R(j1)+R(j2))u(r)′k||0qk = 10�0R(j)s(j)0G(j)s0�q′k − G(j)t� + t(j)0关节状态θk可以计算为：0θk = arccos((trace(R(j2)(R(j1))T) − 1)/2)0对于连接部件S(k1)和S(k2)的棱柱关节Jk，我们计算其在相机空间中的参数φk =(u(t)k)，类似于计算旋转关节的u(r)k和其状态θk简单地为||δk1,k2||。05. 评估05.1. 实验设置0评估指标。我们使用以下指标来评估我们的方法。∙基于部件的指标。对于每个部件，我们评估旋转误差（以度为单位），平移误差和预测模态边界框的3D交并比（IoU）[22]。∙关节状态。对于每个旋转关节，我们评估关节角度误差（以度为单位）。对于每个棱柱关节，我们评估相对平移量的误差。∙关节参数。对于每个旋转关节，我们评估旋转轴的方向误差（以度为单位）和使用最小线到线距离计算的位置误差。对于每个棱柱关节，我们计算平移轴的方向误差。0数据集。我们使用合成数据和真实数据对我们的算法进行评估。为了生成合成数据，我们主要使用来自[29]的物体CAD模型以及来自[30]的抽屉模型。按照相同的渲染流程和随机相机视角，我们使用PyBullet[8]生成平均每个物体类别的3000个未见过的物体实例的测试图像，这些图像与我们的训练数据不重叠。对于真实数据，我们在Michel等人提供的数据集[18]上评估了我们的算法，该数据集包含使用Kinect捕获的4种不同物体的深度图像。37120类别方法基于部分的度量关节状态关节参数0旋转误差↓ 平移误差↓ 3D IoU % ↑ 误差↓ 角度误差↓ 距离误差↓0眼镜 NPCS 4.0°，7.7°，7.2° 0.044，0.080，0.071 86.9，40.5，41.4 8.8°，8.4° - -0NAOCS 4.2°，12.1°，13.5° 0.157，0.252，0.168 - 13.7°，15.1° - - glasses ANCSH 3.7°，5.1°，3.7° 0.035，0.051，0.057 87.4，43.6，44.5 4.3°，4.5°2.2°，2.3° 0.019，0.0140烤箱0NPCS 1.3°，3.5° 0.032，0.049 75.8，88.5 4.0° - -0NAOCS 1.7°，4.7° 0.036，0.090 - 5.1° - -0ANCSH 1.1°，2.2° 0.030，0.046 75.9，89.0 2.1° 0.8° 0.0240NAOCS 1.1°，3.3° 0.072，0.119 - 3.1° - - Machine ANCSH 1.0°，1.4° 0.042，0.053 87.0，88.3 1.00° 0.7° 0.0080笔记本电脑0NPCS 11.6°，4.4° 0.098，0.044 35.7，93.6 14.4° - -0NAOCS 12.4°，4.9° 0.110，0.049 - 15.2° - -0ANCSH 6.7°，4.3° 0.062，0.044 41.1，93.0 9.7° 0.5° 0.0170抽屉0NPCS 1.9°，3.5°，2.4°，1.8° 0.032，0.038，0.024，0.025 82.8，71.2，71.5，79.3 0.026，0.031，0.046 - -0NAOCS 1.5°，2.5°，2.5°，2.0° 0.044，0.045，0.073，0.054 - 0.043，0.066，0.048 - -0ANCSH 1.0°，1.1°，1.2°，1.5° 0.024，0.021，0.021，0.033 84.0，72.1，71.7，78.6 0.011，0.020，0.030 0.8°，0.8°，0.8° -0表1. 在未见过的物体实例上的性能比较。眼镜、烤箱、洗衣机和笔记本电脑类别只包含旋转关节，抽屉类别包含三个平移关节。0基线。目前没有针对类别级别的关节物体姿态估计的现有方法。因此，我们使用我们系统的削减版本进行基准比较。∙NPCS。该算法预测每个部分的部分分割和NPCS（不包括关节参数）。该预测允许算法推断部分姿态，每个部分的非模态边界框以及旋转关节的关节状态，通过将每个部分视为独立的刚体。然而，它不能执行带有运动约束的联合优化。∙NAOCS。该算法预测整个对象实例的部分分割和NAOCS表示。该预测允许算法推断部分姿态和关节状态，但不能推断每个部分的非模态边界框，因为非模态边界框单独定义在NAOCS中。请注意，这里的部分姿态是从NAOCS到相机空间定义的，与我们基于NPCS定义的姿态不同。我们通过测量观察到的对象尺度误差，以便与我们的方法进行比较。∙直接关节投票。该算法直接在相机空间中对关节相关参数进行投票，包括使用PointNet++分割网络从点云中获得的偏移向量和每个关节的方向。0我们的最终算法预测了包括NPCS、关节参数和每个点的全局缩放和平移值在内的完整ANCSH表示，可以与NPCS预测一起用于计算NAOCS。05.2. 实验结果0图4展示了一些定性结果。表10总结了定量结果。下面的段落提供了我们对结果的分析和讨论。0联合优化的效果。首先，我们想要检查联合优化如何影响关节物体姿态估计的准确性，使用预测的关节参数和预测的部分姿态。为了看到这一点，我们比较了NPCS和ANCSH之间的算法性能，其中NPCS执行每个部分的姿态估计，而ANCSH使用完整的运动链进行联合优化以约束结果。表1中的结果显示，关节参数和部分姿态的联合优化在几乎所有物体类别和几乎所有评估指标上都能持续改善预测结果。这种改进在眼镜的两个太阳穴（延伸到耳朵的部分）等细长物体部分特别明显，因为基于每个部分的方法由于可见点数量有限和形状模糊性产生了较大的姿态误差。这个结果表明，在联合姿态优化步骤中，NAOCS中预测的关节参数可以根据运动链约束对部分姿态进行规范化，并提高姿态估计的准确性。0关节参数估计。直接预测关节在相机空间中的位置和方向，涉及到所有自由度，是具有挑战性的。我们的方法在NAOCS中预测关节参数，因为它提供了一个规范化的表示，其中关节轴通常具有强烈的方向先验。我们进一步使用基于投票的方案来减少预测噪声。给定NAOCS中的关节轴预测，我们利用NAOCS和NPCS之间的变换来计算NPCS中对应的关节参数。基于高质量的部分姿态预测，我们将关节参数转换为相机坐标系。与使用PointNet++的直接投票基线相比，我们的方法显著提高了对未见实例的关节轴预测（表2）。37130真实世界深度图像上的已见实例0Shape2Motion数据集上的未见过实例0图4.定性结果。前两行展示了来自Shape2Motion数据集[29]和SAPIEN数据集[30]（仅针对抽屉类别）的未见过对象实例的测试结果。后两行展示了真实世界数据集[18]中已见实例的测试结果。这里我们可视化了每个部分的预测模态边界框。彩色图像仅用于可视化。0类别方法角度误差距离误差0眼镜 PointNet++ 2.9°, 15.7° 0.140, 0.197ANCSH 2.2°, 2.3° 0.019, 0.0140烤箱 PointNet++ 27.0° 0.0240ANCSH 0.8° 0.0240洗衣机 PointNet++ 8.7° 0.010 ANCSH 0.7°0.0080笔记本电脑 PointNet++ 29.5° 0.0070ANCSH 0.5° 0.0170抽屉 PointNet++ 4.9°, 5.0°, 5.1° -0ANCSH 0.8°, 0.8°, 0.8° -0表2.关节参数估计的比较。这里PointNet++表示直接关节投票基线。0对真实深度图像的泛化性能。我们还在[18]提供的数据集上测试了我们算法对真实世界深度图像的泛化能力。该数据集包含使用Kinect捕获的四个不同对象实例的视频序列。按照相同的训练协议，我们使用提供的对象实例的合成深度图像对算法进行训练。然后我们在真实世界深度图像上测试姿态估计的准确性。我们采用[18]中相同的评估指标，使用物体部分直径的10%作为阈值来计算平均距离（AD）准确性，并在每个序列上测试性能。尽管我们的算法并非专门设计用于实例级姿态估计，并且网络从未使用任何真实世界深度图像进行训练，但我们的算法在性能上达到了与甚至更好的水平。0超过最先进技术。平均而言，我们的算法在对象实例笔记本电脑、柜子、橱柜和玩具火车的整个运动链上实现了96.25%、92.3%、96.9%、79.8%的AD准确性。关于所有测试序列中每个部分的详细结果以及更多可视化，请参阅补充材料。06. 结论本文提出了一种从单个深度图像中对关节对象进行类别级姿态估计的方法。为了适应具有大量类内变化的未见过的对象实例，我们引入了一种新颖的对象表示，即关节感知的归一化坐标空间层次结构（ANCSH）。我们进一步设计了一个深度神经网络，能够从单个深度点云预测ANCSH。然后，我们将从ANCSH预测的关节姿态拟合形式化为一个综合优化问题，同时考虑了部分姿态误差和关节约束。我们的实验表明，ANCSH表示和综合优化方案显著提高了部分姿态预测和关节参数估计的准确性。0致谢：本研究得到了丰田-斯坦福人工智能研究中心的资助，弗吉尼亚理工学院信息技术部高级研究计算资源的支持。我们感谢弗吉尼亚理工学院的视觉与学习实验室对可视化工具的帮助。我们还感谢Google的财务和硬件支持。37140参考文献0[1] Ben Abbatematteo, Stefanie Tellex, and GeorgeKonidaris. 学习将运动学模型推广到新物体. In第三届机器人学习会议论文集 , 2019. 30[2] Sameer Agarwal, Noah Snavely, Steven M Seitz,and Richard Szeliski. 大规模束调整. In欧洲计算机视觉会议论文集 , pages 29– 42. Springer,2010. 60[3] Rıza Alp G¨uler, Natalia Neverova, and IasonasKokkinos. Densepose: 野外密集人体姿态估计. In2018年IEEE计算机视觉和模式识别会议论文集 , pages7297–7306, 2018. 30[4] Paul J Besl and Neil D McKay.一种用于3D形状注册的方法. In 《PAMI》 , 1992. 20[5] Christopher M Bishop. 混合密度网络. 1994. 30[6] Eric Brachmann, Alexander Krull, Frank Michel,Stefan Gumhold, Jamie Shotton, and Carsten Rother.使用3D物体坐标学习6D物体姿态估计. In欧洲计算机视觉会议论文集 , pages 536–551. Springer,2014. 20[7] Eric Brachmann, Frank Michel, Alexander Krull,Michael Ying Yang, Stefan Gumhold, et al.基于不确定性的单RGB图像中的6D姿态估计. In2016年IEEE计算机视觉和模式识别会议论文集 , pages3364–3372, 2016. 20[8] Erwin Coumans and Yunfei Bai. Pybullet:一种用于游戏、机器人和机器学习的物理模拟的Python模块. http://pybullet.org , 2016–2018. 60[9] Karthik Desingh, Shiyang Lu, Anthony Opipari, andOdest Chadwicke Jenkins.使用高效的非参数信念传播进行关节物体

下载后可阅读完整内容，剩余1页未读，立即下载