基于点云的类别级6D物体姿态和尺寸估计的轻量级模型

13 浏览量更新于2023-10-26 收藏 3.53MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6707SAR-Net：用于类别级6D物体姿态和尺寸估计的林海涛1§刘子昌1张智兰1傅延伟1<$郭国栋2薛向阳1<$1复旦大学2IDL、百度研究院摘要针对单个场景图像，提出了一种基于目标点云的类别级6D物体位姿和大小估计（COPSE）方法，无需外部真实位姿标注训练数据。具体地，除了RGB图像中的视觉线索之外，我们主要依赖于来自深度（D）通道的形状信息。其关键思想是探索每个实例的形状对齐对其相应的类别级模板形状，以及每个对象类别的对称对应关系，用于估计粗略的3D对象形状。房合成我们的框架变形点云的类别级模板形状对齐观察到的实例点云隐式地表示其三维旋转。然后我们通过从部分观测点云预测对称点云来建立对称对应模型所观察到的点云和对称点云的连接重建了粗略的对象形状，从而便于对象中心（3D平移）和3D尺寸估计。在类别级NOCS基准测试上的广泛实验表明，我们的轻量级模型仍然可以与需要标记真实世界图像的最先进方法竞争。我们还部署了我们的方法，一个物理的Bax- ter机器人执行抓取任务上看不见的，但类别已知的实例，结果进一步验证了我们提出的模型的有效性。代码和预训练模型可在项目网页1上获得。1. 介绍估计对象的准确6D姿态在增强现实任务中起着关键作用[34]，场景下，†表示通讯作者。林海涛是中国上海工程技术学院人工智能与机器人工程研究中心的研究员傅延伟（音译）是复旦大学数据科学学院和浙江师范大学复旦ISTBI-ZJNU脑启发智能算法中心的研究员。本工作得到了上海市自然科学基金重大项目（2018SHZDZX01）基金（编号：62076067）的部分资助。1项目网页。https://hetolin.github.io/SAR-Net(a) 形状与颜色图1. (a)合成图像和真实图像之间的视觉差异。它们可能具有不同的纹理和颜色，但形状和几何形状保持相同。(b)形状对齐图示。如果类别中的对象的形状在视觉上对齐，则它们具有一致的3D旋转。（c）对称对应的说明大多数物体都是用反射对称或旋转对称的（近）对称形状制造的。站立[49]和机器人操纵[7，9，33，51，53]。然而，大多数6D姿态估计工作[8，9，15，19，28，37，39，55，57]在实例级假设精确的3D CAD对象模型，不幸的是，这极大地限制了它们在现实世界应用中的实际应用。为此，本文研究了类别级的6D物体位姿和大小估计（COPSE）任务。因此，模型仅通过类别级监督进行训练，减少了对每个实例的精确CAD模型的依赖。通常，COPSE任务的关键挑战在于来自同一类别的实例的巨大颜色和形状变化[43为了处理类内变化，我们的工作[5，24，52，58]学习每个实例的RGB（-D）特征另一方面，由于COPSE任务依赖于从大量标记良好的数据中进行监督学习，最近的工作[5，30，52，58]利用合成数据来训练COPSE模型。不幸的是，如图1（a）所示，合成图像和真实图像之间的域间隙可能会阻碍性能。从马克杯类别中删除一致的3D旋转形状对齐马克杯(b)形状对齐.........人造物体对称(c)对称对应颜色/纹理几何结构/形状6708COPSE模型在实际部署中的重要性。虽然大多数以前的作品利用RGB图像中的纹理和颜色线索，但形状信息较少触及，最近的一些例外是重建观察到的点云[6]和分析几何稳定性类别级模板点云变形模板观测实例点云点云(a) 三维旋转表示摄像机类别(b) 弱对称对象物体表面的补丁[47]。例如，在图1中，相似或相同形状的杯子具有非常不同的颜色。第1（a）段。这促使我们系统地探索主要来自深度（D）通道的形状信息。因此，为了减轻类内变化和合成真实图像域间隙的挑战，我们提出通过形状对齐和对称对应来编码形状。特别是，我们的方法鼓励有见地的形状分析几何相似性和对称对应。形状对齐。假设相同类别的实例通过形状很好地对齐，它们应该具有一致的3D旋转，如图1所示第1段（b）分段。因此，形状对准的想法可以被实现为对象3D旋转一致性。特别地，给定点云形式的类别级模板形状，其被变形以与观察到的实例点云对齐。我们将这种变形的模板点云表示为对象3D旋转的隐式表示，如图2（a）所示。在数学上，因此通过求解经典的正交Procrustes问题[46]来恢复对象旋转，该问题计算类别级模板和变形模板的点云之间的对齐矩阵的近似。形状对齐学习对实例的类内变化是鲁棒的。对称对应。鉴于许多人造物体类别的设计原则都具有对称结构[62]，对称性是帮助我们完成COPSE任务的重要几何线索。如在图1（c）中，潜在的对称性允许从被遮挡的2D图像推理3D形状的反射和旋转对称性。注意，由于实例的各种形状变化，特定对象实例实际上从来不是完全对称的。为此，我们利用对象的点云的基本对称性，因为我们的COPSE任务不需要精确的3D形状恢复。此外，我们通过与我们框架的其他组件端到端学习的编码器-解码器结构对对称对象的点云进行因此，这实际上促进了整个框架对于具有如图1所示的不太对称的一些部分的那些对象是鲁棒的。第2段（b）分段。形式上，本文提出了一种新的形状对齐和恢复网络（SAR-Net），利用底层对象的形状COPSE任务。具体地说，RGB- D场景图像被用作输入。我们首先使用Mask-RCNN [14]对RGB图像进行预处理，并导出每个对象实例的分割掩码和类别标签来自深度通道的点由预测的掩模过滤，并进一步馈送到3D分割中图2.（a）隐式3D对象旋转的图示德-形成的模板点云与观察到的实例点云具有相同的3D旋转。(b)弱对称对象的插图。这些物体通常具有全局对称的形状，但局部不对称。网络3D-GCN [31]以生成对象的观测点云。此外，以观测对象实例和类别级模板的点云作为输入，我们的SAR网络预测变形模板点云的隐式表示，并推断对称点云。通过Umeyama算法[54]从类别级别和变形模板点云进一步计算3D对象旋转。最后，我们将观测点云和对称点云连接起来以获得粗略的物体形状，这降低了物体中心（3D平移）和3D尺寸的估计不确定性在类别级NOCS数据集上进行的广泛实验[58]表明，我们的仅合成方法优于最先进的方法。捐款. 我们的主要贡献是提出了一种新的学习范式，有效地编码的形状信息的形状对齐和对称对应的COPSE。我们提出了一个新的框架- SAR-Net来实现这一想法。特别是1) 基于形状相似性，我们的SAR-Net具有新颖的子网组件，该组件通过类别级模板形状和实例的点云之间的形状对齐来有效地推断隐式旋转表示。2) 本文提出了一种新的对称通信子网组件。它可以预测对称点云从部分观察到的点云，以获得一个粗略的形状。粗略的形状有助于准确地估计对象中心和大小。3) 实际上，我们的SAR-Net是一个非常轻量级的模型，只有630万个参数。这样的单一模型能够进行多个类别的COPSE，并且比以前的更多模型参数的方法表现得更好。4) 至关重要的是，我们的SAR网络完全是在合成数据上训练的，并且在现实世界的场景中表现得非常好。值得注意的是，我们的合成方法仍然优于其他竞争对手，这些竞争对手通常需要合成和真实世界的数据。2. 相关工作实例级6D对象姿态估计。大多数类似的工作[3，17，27，32]通过匹配图像特征来估计对象姿态。不幸的是，这些方法不太有效-对齐变形6709 预处理深度图像 SAR网络p反投影对称对应级联 对象中心和大小编码解码p正常化三维GCN编码器集中解码器对象掩模FC平移偏移观测点云对称点云粗糙物体形状标准化尺寸3D尺寸3D翻译Mask-RCNN预测类别编码器解码器3D旋转类别级模板点云正交Procrustes变形模板点云 形状对齐 6D姿势和3D尺寸图3.体系结构概述。预处理阶段（左）预测目标实例的类别和2D分割掩码（例如，、马克杯）。从深度通道反投影的点通过实例掩码过滤并通过3D-GCN处理以获得进一步归一化为P的对象点P0。我们的SAR网络（右）将归一化点云P和类别级模板点云Kc作为输入，分别生成变形模板点云Kc和对称点云Pc′，分别由网络工作ESA和ESC实现。我们通过对P和P′进行集中和收敛，得到了一个粗糙形状G的点。从G，网络EOCS预测f集合V的平移和归一化大小S。最终的6D对象姿态{Ro，to}和尺寸so由第2节中的后处理阶段重新生成。 3.2和第二节三点四分。推断无纹理物体的姿态的能力。最近的努力是通过基于CNN的架构从RGB图像直接回归6D对象姿态，例如，[22] PoseNet和PoseCNN [63]。DenseFusion [57]引入了一种跨模态特征融合方式，用于更好地从RGB-D图像中聚合颜色和这种融合方式也用于最近的COPSE任务[5，52]。另一系列工作[29，36，38，39，42，50，65]首先回归2D图像中的对象坐标或关键点，然后通过Perspective-n-Point算法[25]恢复姿态，例如，，PVNet [39].最近的方法，如[15，16]，采用3D关键点建模进行精确的姿态估计。与这些关键点投票方法[15，16，39]相比，我们的方法专注于更实用的设置，而不依赖于精确的对象3D模型。类别级6D对象姿态估计。最近的COPSE方法[5，6，24，45，47，52，58]极大地减轻了以前实例级任务的限制。为了处理类内变化，大多数先前的RGB-D方法[5，24，52，58]将类别的实例表示为统一空间。由于物体外观的显著变化，最近的方法[6，30，47]更多地关注物体的几何信息。StablePose [47]是一种基于深度的方法，用于分析物体表面贴片的几何稳定性，以进行6D物体姿态推断。 Lin等人 [30]巧妙地实施隐式姿态编码器和显式姿态编码器之间的预测姿态一致性，以监督姿态编码器的训练并在测试期间改进姿态预测。FS-Net [6]从目标对象的点云中提取基于形状的特征，用于姿态和大小恢复。 FS-Net估计两个垂直向量，旋转解耦与FS-Net相比，形状对齐的表示将旋转估计问题转化为重建问题。这种表示比FS-Net具有更直观的几何意义，因为它提供了对齐形状的可视化。最近的6D姿态跟踪器[56，60，61]实现了对类别级或新颖对象的实时跟踪至关重要的是，这些方法必须依赖于良好的初始对象姿态和时间信息进行跟踪。相比之下，COPSE任务在本文中没有假设这样一个良好的初始化存在，并进行6D对象的姿态和大小估计从单一的场景图像。对称对应对称对应在最近的作品中被广泛采用[11，35，59]。在[21，64]中研究了对称对象的重建。 Wu等人 [62]使用潜在的对称属性来解开从单个图像获得的分量。在6D姿态估计领域，HybridPose [48]是第一个将个体对象的密集对称对应作为中间表示来帮助姿态估计的工作。同时，我们充分利用了同一对象类别中的对称对应关系，并将二维对称对应关系扩展到三维对称对应关系上，显著提高了COPSE的推理性能。3. 方法问题表述。给定目标对象的深度图像、分割掩模和类别，我们的目标是从其部分观察到的点云估计对象的6D姿态和3D大小我们将6D物体姿态表示为刚体齐次变换矩阵{Ro，to} ∈共享特征6710PKK KPKKKP P P −PPPPPro=点云的P0/N0与最大欧氏距离KPPPSE（3），其中三维旋转Ro∈SO（3）和三维平移反射对称性旋转系统to∈R3.SE（3）和SO（3）表示三维李群对称点云观测点云刚性变换和3D旋转，分别。最后，将物体的三维尺寸形式化为so∈R3。笔记本碗对称轴对称平面概况. 我们给出了SAR网络的概述，如图3所示。我们的方法将RGB-D图像作为输入。虽然Mask-RCNN [14]在预处理阶段使用RGB图像来推断每个实例的分割掩码和类别，但我们的具体而言，从深度通道反向投影的点通过实例掩码进行过滤，并通过3D分割网络3D-GCN [31]进行处理，以获得进一步归一化的观察点云。（第二节）第3.1节）。学习网络ESA以使类别级模板点云变形，以与观察到的点云对齐，以进行3D旋转表示（第12节）。3.2）。网络ESC鼓励对称对应，以帮助预测对称点云并完成对象形状（第二节）。3.3）。最后，通过使用网络EOCS（Sec.第3.4段）。3.1.点云处理观察到的点云。给定预测的分割掩模，我们通过反投影掩模深度来获得点云然而，这样的点云可能仍然包含由不完美分割给出的对象和背景点。因此，我们进一步将该点云发送到3D-GCN [31]中以净化对象点P ∈图4.对称点云的插图。我们从具有反射对称性或旋转对称性的物体的观测点云生成地面真实对称点云。gory，使类别级模板点云c变形以在视觉上与观察到的点云对齐，如图1B所示第2段（a）分段。该模块始终在模板点云的空间中重建三维点，而不是在观测点云的表面上生成三维点，即，仅传递观察点云的旋转状态以变形类别级模板点云c。总的来说，它需要建立一个参数编码器-解码器ESA，使得E SA=ESA（c，F）。则任务的旋转记录在eryRo是制定了众所周知的正交Procrustes问题[46]的对齐两个有序的点云集c和c。具体地说，我们的网络使用类似PointNet的结构[20，41]，如图所示3 .第三章。将归一化点云P和类别级模板点云Kc馈送到ESA中以分别提取形状相关特征FP和FK。然后，我们将FP和FK与Kc中的每个点连接以生成每点特征嵌入，从而在观察点云P的几何属性线索下执行Kc的形状引导重建。OR3×No，其中No是Po中的点数. 的3D重建的形状K_i隐式地编码3Dro。观察点云P的测量，因为K和P是一致的，分割步骤使我们的综合训练模型对来自2D分割流水线的错误鲁棒。此外，我们还必须对原始观测点c_P_o进行归一化。具体地说，我们首先计算质心{P −}被网络强制对齐。通过对类别级模板点云Kc进行实际物体旋转，得到变形后的真实模板点云。最后，物体3D旋转由下式导出：Umeyama算法[54]通过解决点的距离d o=maxoro2（标量因子）相对于它的中心。然后我们将o获得该点云通过=（oro）/do。正在处理类别级模板点云。给定3D模板数据集-直觉上，同一类别的实例至少在原则上应该具有与其类别级模板形状相似的形状[23]。我们进一步使用Faradian点采样（FPS）将类别级模板形状采样为稀疏的3D点云Kc∈R3×Nk。云K_c和K_c。3.3.对称对应由于大多数制造对象类别具有对称结构，因此我们采用反射和旋转对称作为COPSE任务的基本几何线索这种潜在的对称性允许从观察到的点云推理我们学习编码器-解码器结构ESC作为映射函数，以预测对称点云′=ESC（，FK）来自观测点云.′R3×N算法[39]，其中N是点数。PP∈O和P具有相同的点数。K3.2.形状对齐给定归一化的点云，我们的模型学习相同类别的实例之间的形状相似性2SAR-Net对附录中的随机选择具有鲁棒性。具体地说，我们将FP和FK与中的每个点连接起来，以生成逐点特征嵌入，并且ESC因此从预测对应的对称点云反射对称。至于反射对称的物体类别，如马克杯和笔记本电脑，它们通常是围绕一个固定平面对称的，如图所示4.第一章我们把这个几何学瓶马克杯6711PPPPPPP·PPGi=1i=11Σ¨Σ1L=PPP- -2无i=1V {}GGV.Σ我i=1r得到点G，其中r=G′/2No. 我们利用一个对称性作为先验对称平面的约束，帮助完成物体形状建模。因此，给定观察点，我们通过沿对称平面翻转来生成地面真实对称点。因此，我们提出了一个编码器-解码器结构ESC，并学习推断与之对称的相应对称点E′。旋转对称。像瓶子和碗这样的旋转对称类别，在对称轴周围有无限个对称平面，如图4所示，这阻碍了网络的收敛。一种解决方案是旋转观察点绕着物体的对称轴旋转180度用于生成地面实况对称点的框架，这种情况恢复了相对完整的物体形状。因此，旋转对称被简化为反射对称。原始点云o的实际尺寸s_0由计算的标量因子 d_0恢复（Sec. 3.1），i. e. ，so=dos. 从部分观测点云回归尺寸的计算，连接的点云提供了一个粗略的形状，用于更准确的尺寸估计，如第2节所述。四点二。3.5.损失函数我们定义损失函数L如下：L=Ldef+Lsym+Lcen+Lsize（2）变形点重建损失。我们的SAR网络从观察点执行形状引导重建。给定地面实况变形模板点K={ki}Nk对于Nk个点，SAR-Net将K={ki}Nk重建为：对称性它还使我们的网络ESC能够从观察到的点云中推断出包含的部分，以获得用于对象中心和大小估计的多个示例L定义Nk=kiNi=1-ki（三）参考附录。备注。值得注意的是，由于形状变化，特定对象实例永远不会完全对称。因此，通过对象的点云来开发潜在的对称性适用于具有全局对称性的对象。对于具有旋转对称性的物体，我们采用[58]中的策略。详情请参见附录对称点重建损失。对称对应分量预测逐点对称点P′={p′N′}。形状，但不对称的局部部分，因为我们的框架不要求精确的3D形状恢复。3.4.物体中心和尺寸我们将目标优化为：No对称Ni=1（4）第一章此外，我们将预测的对称点云图3所示的点云。该拼接步骤生成粗略的3D对象形状G′∈ R3×2No，用于对象中心和大小估计。然后，我们通过使用计算出的质心来集中点G其中，No是;p′i和p′i分别是当我们将旋转对称简化为反射对称的一个特殊情况时（第二节）。3.3）。因此，该损失函数也有助于处理旋转对称的情况折算抵消损失。网络学习翻译关闭-i=1encoder-解码器EOCS以推断f集合V的翻译和G中的点的归一化大小s，i。e. ，（V，s）=EOCS（G，FK）. 值得注意的是，我们将地面真实对称-度量点云P′和部分点P，以防止从连接的点到对象中心设置vi2No。的通过最小化损失来监督vi的学习，如下：1Σ在早期训练阶段的不稳定梯度传播。翻译偏移学习。受之前2D的启发[39]，Lcen=2N 〇i=1vi−v63]和3D [15，16，40]关键点投票方法，我们对待对象中心作为特定关键点。编码器-解码器E0CS推断f set的3D平移，其中vset表示f set从G的每个点到对象中心的预测平移。粗糙点云其中2No是连接点的数量。vi和vi是fsets的基础事实和预测翻译。尺寸损失。为了更好地恢复尺寸，我们将尺寸从粗糙形状的点云，如第2节所述。三点四分。我们监督大小回归为：shape与预测的平移偏移一起为潜在的对象中心tt投票。最后，投票对象中心L尺寸 =s−s1（六）观察点云P0的t_（10）如下所示，t=（G+V）/2Noto=（t+r）·do+ro（一）其中，s和s表示地面实况和预测大小的归一化点云P。4. 实验KO16712PG其中，do和ro是标量因子，并且是在Sec中计算的观测点云o第3.1条尺寸估计。得到连接点后，网络EOCS回归到规范化大小S. 然后，AC-数据集。（1）NOCS数据集[58]。它包含六个对象类别，包括瓶子、碗、相机、罐头、笔记本电脑和马克杯。NOCS由两部分组成，即合成部分和真实世界部分。对于合成部分，6713∼∼是 300K 合成图像，其中 25K 预留用于评估（CAMERA25）。对于真实世界的一部分，它包含了2.75K的真实场景图像进行评估（REAL275）。(2)LINEMOD数据集[17].它是一个广泛使用的数据集，用于实例级对象姿态估计。它为每个对象提供扫描的CAD模型。(3)更多真实世界场景我们的模型在另外6个不同的真实场景中进行了测试，其中包括碗，马克杯，瓶子和笔记本电脑等类别的25个看不见的实例。图像由RealSense D435摄像头捕获评估指标。（1）类别级姿态和大小估计。如[52]所述，我们计算了3D对象检测阈值为25%，50%和75%时3D Intersection-Over-Union（IoU）的平均精度。计算了m × cm处的平均精度，用于评估6D位姿再加工，即。平移误差低于ncm且角度误差低于mcm的姿态的百分比。在这里，我们选择阈值为5×2cm、5×5cm、10×2cm，和10~（-5）cm。（2）实例级姿态估计第我们使用平均距离度量ADD [18]用于非对称对象和ADD-S [63]用于对称对象（例如，蛋盒和胶水）。平均距离的精度小于10%的物体直径的报告。实施详情。SAR-Net的架构和3D-GCN的训练细节见附录。我们从ShapNetCore [4]中选择六个类别的对象模型，并利用Blender软件[1]渲染深度图像来训练我们的模型，表示为SAR-Net（小）。此外，我们使用来自CAMERA数据集的275 K图像来训练我们的模型，表示为SAR-Net。Blender渲染的训练数据来自合成深度图像的实例的反投影点被无序地采样为1024个点。我们的SAR-Net在单个RTX 2080 Ti GPU上训练了100个epoch ，批量大小为 32 我们最初将学习率设置为0.0004，并每四个epoch将其乘以0.75的因子。我们使用[30]提供的Mask-RCNN的分割结果进行公平比较。在机器人实验中，我们的SAR-Net是在桌面上使用NVIDIA RTX 2070 GPU实现的，姿态和大小估计大约需要100 ms。该模型将在Baidu PaddlePaddle的存储库中发布。4.1. 主要结果分类级NOCS数据集。我们将SAR-Net与NOCS [58]，CASS [5]，SPD [52]，FS-Net [6]，Sta进行比较。[47] 和 DualPose [30] 在选项卡中的 CAMERA25 和REAL275数据集1.一、对于合成CAMERA 25数据集，我们的SAR-Net实现了与最先进的方法DualPose相当的性能，并且在更严格的度量5×2cm下显示出更好的性能。是真的-world REAL275 数据集、 NOCS 、 CASS 、 SPD 和DualPose使用合成数据（相机）和真实世界的数据，FS-Net和StablePose仅使用真实世界的数据。相比之下，我们的方法只使用合成数据。令人惊讶的是，即使在这样的比较中，我们的SAR-Net也优于所有其他基线方法，但IoU指标除外，因为FS-Net使用预先计算的每个类别的平均大小。实验结果验证了SAR-Net在实际应用中具有良好的泛化能力。虽然SAR-Net（小型）是通过使用比CAMERA少10倍的合成训练数据进行训练的，但它已经优于REAL 275数据集上的所有其他方法，但DualPose。在实际应用中，该方法可以节省内存占用，减少训练时间.此外，对于模型的姿态和大小估计部分，我们的SAR网络比其他方法具有更少的参数。我们还在图5中定性地显示了我们的SAR网络和DualPose [30]的一些结果。我们的方法比DualPose生成更准确的旋转估计，特别是对于相机类别。更多比较结果见附录。实例级LINEMOD数据集。通过使用精确的对象模型作为模板形状，我们的COPSE模型可以很容易地在实例级任务中使用然后，我们为模型训练的每个实例生成30K合成深度图像。与RGB（-D）方法[15，39]或仅深度方法[12，13]相比，我们的SAR-Net在ADD（-S）度量方面实现了可比较的结果，如表1所示二、对弱对称对象（例如，，cat）作为对称对象，我们的模型仍然获得了令人满意的性能，这为利用对称对应来处理那些部分不对称的对象提供了证据。其他真实世界场景。对于具有多个对象的附加真实场景，可视化结果在图6（顶行）中示出。我们的模型生成准确的估计，因为对象紧密位于预测的边界框内。结果表明，我们的SAR网络在实际应用中的泛化能力，在不同的深度传感器（即。，NOCS数据集使用的结构传感器[2]更多结果见附录。4.2. 消融研究我们验证了我们的SAR-Net的关键组件在表中的REAL 275数据集上的有效性。3 .第三章。对称对应我们首先检查利用对称对应的重要性。我们从基本网络开始，该基本网络直接输出来自形状对准分量（SA）的变形模板点云、平移偏移和基于部分观察到的点云的归一化尺寸，如行1所示然后添加对称对应分量（SC），如行所示2. 第1行和第2行之间的比较结果表明，探索潜在的对称对应关系是产生整体优秀结果的重要组成部分。具有对称性的6714K表1.REAL275和CAMERA25的结果[58]：与其他COPSE方法的比较（↑）：越高越好，（↓）：越低越好。数据集方法IoU50IoU75mAP（↑）5寸 2厘米 5寸 5厘米10◦ 2厘米10◦ 5厘米准确度（↑）5◦ 5厘米参数（↓）（男）REAL275SAR-Net（小型）80.463.724.134.845.367.449.16.3SAR网络79.362.431.642.350.368.354.96.3摄像头25SAR-Net（小型）88.171.144.049.456.165.661.76.3SAR网络86.879.066.770.975.380.381.46.3DualPoseSAR网络（我们的）图5.我们的SAR-Net和DualPose [30]在REAL 275数据集[58]上的定性比较。我们将估计的6D姿态和大小可视化为目标实例周围的紧定向边界框。表2. LINEMOD [17]的结果：与其他实例级方法的比较。‘S’ is synthetic data and ‘R’ is real训练数据方法猿可以猫司钻蛋盒胶RGB（S+R）RGBD（S+R）D（S）D（S）D（S）SAR网络64.5 83.6 91.484.099.4100.0通过推理，网络学习捕获更有用的形状特征以进行对称点重建，并且还增强了其他组件的性能。不完整的或粗糙的形状然后，我们研究了使用粗糙形状的点云和部分观察到的点云之间的性能差异。我们从两个方面进行分析：（1）我们将观察到的点云和对称点云连接起来，以获得用于对象中心和大小估计的粗略形状（Concat），如第3行所示。比较第2行和第3行的结果，基于粗略形状的估计相对于依赖于部分观察到的点云的估计获得了整体改进的性能。(2)然后，我们将探讨集中化操作（Centralize）的重要性，如第4行所示，即，进一步集中连接的点云第3和第4行的比较结果表明了集中操作的必要性，从而产生了进一步的改进在IoU75和5cm处分别为1.1%和 3.6%用于3D中心估计的投票或回归我们-将平移偏移学习（第3.4）通过如行5中那样回归对象中心（RegressT）。性能在第5中，与第4行中的结果相比，在所有指标下一致下降。因此，平移偏移学习和对象中心投票有助于定位比RegressT更准确的对象中心。基于对称或直接形状完成。此外，我们通过使用相同的网络（DSComp）用直接对象形状补偿替换SC分量，由倒角损失监督[10]。与第4行中的结果相比，第6行中的所有指标的百分比一致地下降。这可能是因为形状完成侧重于详细的重建，这依赖于更复杂的网络，但推断对称点云更容易。来自直接对象补全网络的差的重建结果进一步降低了对象中心和大小估计的性能。模板点云的点数。此外，我们还探讨了不同数量的类别级模板点云c的影响，通过使用全COPSE模型。从第4、7和8行可以看出，36个点对于我们的网络学习来说是一个很好的权衡。128点的选择由于较大的输出空间而降低了性能，而16点太稀疏而不能表示对象的几何结构，这对最终性能产生负面影响。我们还对表中的REAL275数据集进行了各种旋转表示的消融研究4.第一章3D旋转的形状对齐。我们用其他的3D旋转表示代替SAR-Net的形状对齐（SA）NOCS [58]78.030.17.210.013.825.218.2-中国社会科学院77.7--23.5-58.0-47.2SPD [52]77.353.219.321.443.254.130.418.3FS-Net [6]92.263.5-28.2-60.8-41.2[47]第四十七话------38.8-NOCS [58]83.993.292.469.583.186.432.354.364.740.959.070.748.273.377.264.681.584.749.4-SPD [52]71.518.3DualPose [30]79.967.9PVNet [39]43.6 95.5 79.396.499.195.7FFB 6D [15]98.4 99.8 99.9100.0100.0100.0CP（ICP）[13]58.3 84.7 84.643.299.598.8中国建筑工程学会[12]74.5 90.2 90.797.399.793.56715表3.在REAL275上测试的关键组件的消融研究。‘SA’ means shape alignment (Sec ‘SC’ means symmetric correspondence 第3.4段）。“回归T”意味着直接回归对象中心，而不是预测秒中的平移偏移。三点四分。“DSComp”是直接形状完成。“PointNumber”是类别级别模板点云中的点数。（第二节）第3.1节）。（↑）：越高越好。行SA 康卡特体育会组件集中回归T DSComp点Number IoU50 IoU75mAP（↑）5寸 2厘米 5寸5厘米10◦ 2厘米10◦ 5厘米准确度（↑）5◦ 5厘米1✓3681.155.315.923.634.959.139.42✓✓3681.260.117.827.738.863.344.13✓✓✓3680.662.620.531.739.865.346.44✓✓✓✓3680.463.724.134.845.367.449.15✓✓✓✓✓3681.063.521.130.444.967.246.76✓✓✓3680.659.519.228.941.665.245.07✓✓✓✓1679.662.922.833.046.167.647.98✓✓✓✓12879.559.521.532.143.766.347.5表4.在REAL275数据集上测试使用不同3D旋转表示的消融研究。（↑）：越高越好。方法mAP（↑）我的尺寸50我的尺寸755厘米 2厘米 5厘米5厘米 5厘米 10厘米 2厘米 10厘米 5厘米准确度（↑）5◦ 5厘米四元80.682.281.681.262.961.864.162.520.817.821.721.129.724.330.531.543.639.642.645.164.658.664.267.146.3SVD [26]40.0R6d[66]46.6矢量[6]47.6SAR网络80.463.724.134.845.367.449.1分别以四元数、SVD [26]、连续性6D [66]（R6d）和向量[6]的形式表示。比较结果总结见表1。4.第一章与四元数、SVD和R6d相比，强制形状对齐能够实现更好的泛化，因为点重建搜索空间小于旋转空间，这对于网络来说更容易学习。Vector和SA的表示都具有几何意义，但我们的SA比Vector表现得更好，特别是在严格的度量为5×2cm和5×5cm的情况下。4.3. 机器人实验物理巴克斯特机器人。机器人实验比较了在执行不同任务的真实Baxter机器人上部署COPSE模型的真实世界性能，所述任务包括如图6（下一行）中的物体抓取、移交和倾倒。Baxter是一个双臂机器人，底座上安装了Re-alSense D435摄像头。附录中详细介绍了机器人实验的更多配置抓任务。特别地，我们使用来自3个类的12个未见过的实例，即。，4个杯子，4个瓶子和4个碗。利用COPSE模型，机器人被编程为对每个物体进行10次抓取。在本实验中，我们的SAR-Net与DualPose [30]和SPD [52]进行了比较，成功率分别为88.3%，80.8%和65.8%由于旋转估计不精确或估计的边界框大于目标实例的精确边界框，基线方法经常失败详情请看视频演示对象移交任务。机器人在这项任务中与演员互动，试图抓住人类手中的物体。我们选择测试实例瓶。百特的成功图6.我们的SAR网络在各种真实杂波环境中给出的估计结果（顶行）。我们在与我们的SAR-Net集成的物理Baxter机器人上执行任务（底行）。在15次切换任务试验中，80%的人使用我们的SAR-Net ，而 DualPose 和 SPD 的使用率分别为 73.3% 和66.7%，验证了我们的SAR-Net的准确估计。浇注任务。使用我们的COPSE模型，我们进行演员移动碗的任务，而机器人跟随演员并执行倾倒动作。我们分别从碗和马克杯中机器人被编程为尝试15次试验。我们的SAR-Net与DualPose和SPD进行了比较，成功率分别为73.3%，60.0%和53.3%。实验结果表明了COPSE模型在机器人实验中的有效性。5. 结论我们提出了一个轻量级的几何为基础的模型的COPSE任务。我们的网络使用形状对齐来促进3D旋转计算。利用物体的对称对应来完成其形状，以获得更好的物体中心和3D尺寸估计。我们的方法在没有真实训练数据的情况下实现了最先进的性能。Fur-100是一个Baxter机器人，它与我们的框架集成在一起然而，在基于深度的方法的固有限制下，传感器噪声和缺乏区分细节可能导致姿态恢复中的模糊性。未来的工作将考虑从RGB通道融合额外的颜色信息，以实现更准确的姿态和大小恢复。6716引用[1] Blender软件https://www.blender.org/网站。6[2] 结构传感器。https://structure.io/网站。6[3] 曹哲，亚瑟·谢赫，娜塔莎·霍尔·班纳吉。无纹理物体的实时可伸缩6dof姿态估计。2016年IEEE机器人与自动化国际会议（ICRA），第2441-2448页。IEEE，2016. 2[4] AngelXChang ， ThomasFunkhouser ， LeonidasGuibas，Pat Hanrahan，Qixing Huang，Zimo Li，SilvioSavarese，Manolis Savva，Shuran Song，Hao Su，et al.Shapenet：An information-rich 3d model repository. arXiv预印本arXiv：1512.03012，2015。四、六[5] Dengsheng Chen，Jun Li，Zheng Wang，and Kai Xu.学习规范形状空间，用于类别级6d对象姿态和大小估计。在IEEE/CVF计算机视觉和模式识别会议论文集，第11973-11982页一、三、六、七[6] Wei Chen，Xi Jia，Hyung Jin Chang，Jinming Duan，Linlin Shen，and Ales Leonardis. Fs-net：快速基于形状的网络，用于类别级6d对象姿态估计，具有解耦旋转机制。在IEEE/CVF计算机视觉和模式识别会议论文集，第1581-1590页二三六七八[7] 阿尔瓦罗·科莱，德米特里·贝伦森，悉达多·斯里尼瓦萨和戴夫·弗格森。物体识别和完整的姿态注册，从一个单一的图像，机器人操作。2009年IEEE机器人与自动化国际会议，第48-55页。IEEE，2009年。1[8] 邓新科，穆萨维，于翔，夏飞，蒂莫西·布雷特，迪特尔 · 福克斯 . Poserbpf ：一个 IEEE Transactions onRobotics，2021。1[9] Xinke Deng，Yu Xiang，Arsalan Mousavian，ClemensEppner，Timothy Bretl，and Dieter Fox.用于机器人操作的自监督 6d2020 年 IEEE 机器人与自动化国际会议（ICRA），第3665-3671页。IEEE，2020年。1[10] Haoqiang Fan，Hao Su，and Leonidas J Guibas.从单幅图像重建三维物体的点集生成网络在IEEE计算机视觉和模式识别会议论文集，第605-613页，2017年。7

下载后可阅读完整内容，剩余1页未读，立即下载