类别级6D物体姿态估计：结构引导的先验自适应算法

117 浏览量更新于2023-10-15 收藏 1.4MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2773SGPA：结构引导的类别级6D物体姿态估计先验自适应算法陈凯和七斗香港中文大学计算机科学与工程学系{kaichen，qdou} @ cse.cuhk.edu.hk摘要类别级6D对象姿态估计旨在预测不可见对象的位置和取向，这在诸如机器人和增强现实的许多场景中起着支柱作用。显著的类内变化是这项任务的瓶颈挑战，但迄今为止仍未解决在本文中，我们利用类别优先克服这个问题，通过创新的结构引导的先验自适应方案，以准确地估计6D位姿为individual对象。与现有的基于先验的方法不同，给定一个对象及其对应的类别先验，我们提出利用它们的结构相似性来动态地识别对象。先验点云摄影机实例I摄像机实例II无事先调整具有既往适应性使先验适应于观察对象。先验自适应本质上将所采用的先验与不同的对象相关联，从中我们可以准确地重建特定对象的3D规范模型以用于姿态估计。为了进一步增强对象的结构特征，我们从密集的对象点云中提取低秩结构点，因此在先验自适应期间更有效地结合稀疏结构信息。在CAMERA25和REAL275基准上的广泛实验证明了显著的性能改进。项目主页：https://www.cse.cuhk.edu。hk/~kaichen/projects/sgpa/sgpa.html。1. 介绍类别级6D对象姿态估计越来越多地被研究，并且在许多现实世界应用中起着支柱作用，例如机器人操纵[9]，增强现实[24]和3D场景理解[7，18]。目标是预测相同类别的新对象的位置和方向，以便实现鲁棒的适用性。不同于传统的实例级[12，20，30，35]对象姿态估计，其给出实例CAD模型并预测在训练期间已经看到的实例的姿态，类别级任务需要捕获一般属性，同时考虑到不同对象的大变化。图1.具有不同结构的两个相机实例的位姿估计结果(i)实例I类似于分类先验，无先验适应的方法可以处理这种情况下的姿态估计（ii）实例II在结构上与先验非常不同，无先验自适应的方法未能将先验与实例相关联，导致不准确的姿态估计。我们提出的先验自适应方法可以克服这一挑战，准确的姿态估计各种新的对象（注意方向轴）。在类别中输入实例。到目前为止，用于这个具有挑战性的问题的当前方法仍然有限。首先，为了解决对象的类内变化，规范对象空间被重新采用为统一的坐标系[4，26，32，33]。在该标准化空间中，针对具有相同尺寸和取向的每个对象重建3D结构模型。然而，这种归一化缺乏跨相同类别的不同对象的形状变化的明确表示，因此限制了6D姿态估计的准确性。后来，为了克服这个问题，SPD [26]被提出来用类别级形状先验重建规范对象模型。为每个类别建立点云先验，并进一步变形以重建新对象的规范3D模型。然而，这种类别级先验是静态的，因此不适用于个体实例，即，相同的先验被应用于相同类别的所有实例。这极大地阻碍了该方法的泛化能力，尤其是2774对那些与重构先验有显著差异的对象。例如，如图1所示，当我们将SPD应用于具有不同形状的两个不同相机实例时，性能可能不同。对于具有与先验类似的点云的相机实例I，可以很好地估计6D姿态。不幸的是，对于具有较长镜头的相机实例II，形状先验不再代表特定情况，从而严重降低了姿态估计性能。在本文中，我们提出了一种新的结构-G引导的PriorA适应网络（SGPA），它可以动态地适应每个特定的实例之前的类别级别。该方法根据先验信息与观测对象的结构相似性，对观测对象的静态先验信息进行自适应调整。给定先验点云和目标点云的几何特征，我们的SGPA使用一个Transformer网络来建立它们之间的长期依赖关系来模拟结构相似性。基于这种相似性，SGPA然后动态地调整先验特征，通过注入实例信息到先验特征。具体地，我们沿着提取的结构相似性将实例语义特征传播到对应的先验特征。我们认为，在现有的方法中被忽视的结构相似性，可以有效地桥接与实例的先验。此外，自适应注入实例语义特征到先验可以有效地miti-门之间的差距先验和实例。此外，逐点密集地传播语义特征易于将噪声引入到先验特征中，因为并非所有点都具有足够的代表性以用于将语义特征从实例传播到先验。为了进一步利用实例的固有结构特性进行先验自适应，我们设计了一个辅助网络来从密集的输入点云中提取稀疏的关键点。基于提取的关键点信息，我们设计了一个结构正则化的低秩Transformer，其中提取的关键点与我们的SGPA组装，以进行有效的结构引导的先验自适应。最后，在基于变形的框架中使用经调整的先验特征来重建实例的规范模型，并将其与实例点云进行匹配以进行6D姿态估计。我们将主要贡献总结如下：• 我们提出了一种新的基于先验的类别级6D对象姿态估计框架，在该框架中，我们动态地适应每个特定的物体姿态估计实例的类别先验。• 我们提出了SGPA，一种新的结构引导的先验自适应网络。该方法利用Transformer网络对先验和对象之间的全局结构相似度进行建模，在此基础上将对象语义信息注入先验特征中进行先验自适应。• 我们提出了一种结构正则化的低秩变换器。通过正则化低秩投影通过点云关键点的投影，导出的低秩Transformer设法利用不同的关键点位置上的特征，以用于更有效的先验自适应。• 我们在公认的CAMERA25和REAL275基准上进行了大量的实验。我们的方法实现了显着的性能改进，比其他现有的方法类别级6D对象姿态估计。2. 相关作品实例级6D对象姿态估计。在实例级设置中，网络在同一对象实例上进行训练和测试。方法[20，25，2，13，17，16]主要集中于学习以对象姿势为条件的鲁棒嵌入。之后，根据如何使用嵌入进行姿势估计，方法分为三组。第一组方法[35，30，15]直接使用嵌入来回归姿势参数。第二组方法[20，12，25，13]假设对象3DCAD模型可用。它们依赖于嵌入来将对象观察与预先定义的标志位置上的CAD模型相匹配。然后，采用基于对应的优化技术[27]进行姿态估计。第三组方法[19，31，36]使用的对象嵌入来表示潜在空间中的对象，基于该潜在空间，可微分渲染被用于对象姿态估计。通常，由于实例级姿态估计的简化设置，实例级对象姿态估计通常不需要先验信息。类别级6D对象姿态估计。在类别级别设置中，方法[22，29，14，33]旨在预测新对象的姿势。Sahin等人[23]导出对象形状不变表示，并利用基于部分的随机森林进行姿态估计。Chen等人。[6]采用神经渲染来合成不同姿势的图像块，然后用于验证每个可能的姿势候选的概率以进行姿势估计。为了更好地克服对象的类内变化，更典型的方式是在规范对象空间中执行姿态估计。Wang等人。[32]直接回归RGB图像上每个对象的标准坐标。然后基于实例点云与回归的规范坐标之间的密集对应关系来估计姿态。Chen等人[4]开发了一种变分自动编码器（VAE），用于在规范空间中重建对象模型。随后，姿态参数直接用完全连接的网络回归。缺乏用于不同情况的变形的显式模型的复杂性限制了这些基于非先验的方法的总体性能。最近，田等。[26]提出一种基于先验的方法。他们首先建立一个类别级先验点2775S∈∈∈∈S ∈∈∈：乘法：加法C：级联：逐点选择图2.概述了我们提出的用于类别级6D对象姿态估计的结构引导先验自适应（SGPA）网络云的每个类别的对象在规范空间。然后，它们对先前的点云进行变形，以重建每个实例的规范模型。Wang等人。[33]进一步提出了CR-Net，一种级联关系和递归重构网络，以利用多源输入的互补优势进行分类对象姿态估计。引入先验信息显著改善了整体绩效。在本文中，我们提出了一个更强的先验基础上的方法，建议结构引导先验自适应网络。3. 方法通过关联几何特征Go和Gr ，研究了Po和Pr结构相似性。基于所提取的结构相似度，对象语义特征So然后自适应地沿着结构相似度从Po传播到Pr以用于先验自适应。此外，而不是密集相关的Go和Gr的所有点的位置，事先适应，我们进一步设计了一个辅助网络，预测n个对象的关键点，从输入的No点。结构规则化的低阶Transformer（第 3.3），以提取结构相似性，并基于位于不同对象关键点上的特征执行先验自适应。利用经调整的先验特征和原始对象特征，对于目标对象，设Po∈R~（o×3）和I~ o∈Rh×w×3变形网络被用来重建正则对象模型，通过变形先验Pr，以及匹配网络。表示其观察到的点云和RGB图像块，其中No和（h，w）表示对象点的数量和图像块的大小。PrRNr×3是先验点与目标对象具有相同类别的具有Nr个点的云。以它们为输入，我们提出了我们的先验的方法，类别级的6D对象姿态估计。3.1. 概述如图2所示，我们提出了用于类别级对象姿态估计的SGPA网络。SGPA首先使用特征提取模块来提取对象的几何特征GoRNo×d ，宾语语义特征 1SoRNo×d与先验几何特征GrRNr×d分别来自Po，Io和Pr。然后，将学习的特征馈送到结构引导的先验自适应模块中（第12节）。 3.2）。在本文中，我们实现了这种事先适应模块的变压器为基础的架构。它模拟了全球1由语义特征图上的逐点选择生成工作（Sec. 3.4）将重建模型与目标点云P。最后，应用基于对应关系的算法来估计姿态参数。3.2. 通过结构指导进行给定目标对象的逐点几何特征Go和Gr及其类别先验，我们的SGPA将它们全局相关，以模拟Po和Pr之间的结构相似性。学习到的结构相似度可以表示为RNr×No，其中每个元素sij对应于点p i之间的结构相似度值Pr和点pjPo。直观地说，si j 的结构相似度值越大，来自SO的对应语义特征越应该从pj传播到p i。换句话说，我们以结构相似性为指导进行事先适应。具体而言，我们选择应用Transformer网络[28]来实现上述方案。Transformer 特征提取 先前适应 姿态估计IoSoE美国有线电视新闻网高×宽×3No × dCPrGrNr × 2dPointNet++Nr× 3Nr × d结构相似性Nr × dPoGoPointNet++So...No × 2dNo× 3CPoNo × dn × 3构成估计 关键点提取对象关键点n × No结构网络ES0的g0Nr × nSR...匹配网络缩放点-产品形变网Pr..................2776∈VQKV∈QKKV最近被证明是能够捕获长期的依赖关系，从序列/无序的数据。关联的多头注意机制具有很强的表达能力。我们利用这一优势，两个无序的点云之间的高层次的相似性建模，并根据相似性进行事先适应类别级的对象姿态估计。具体来说，我们采取近年来，随着Transformer网络的快速发展，大量的研究工作[1，8，34]集中在减少自注意力的开销。低秩变换器[34]是一种典型的解决方案，其中常规的自我注意力被替换为低秩注意力：Y（m）=σ（Q（m）（E（m）K（m））T/√d）（E（m）V（m）），（3）Gr、Go和So作为多KV的查询、键和值头部注意模块：其中E（m）和E（m）∈Rn×N0，且nN0. 这些是√KVY（m）=σ（Q（m）（K（m））T/d）V（m），⑴两个线性投影矩阵，将键和值映射到其中Q（m）=GrW（m），K（m）=GoW（m ），V（m）=SoW（m），其中W（m），W（m）和W（m）都是Rd×d. 它们是查询、键和值的可学习投影矩阵低维空间，因此可以以低秩方式计算自注意力图。这种低秩Transformer的问题是没有显式正则化E（m）和E（m）。正如[ 34 ]中所讨论的，它减少了尊重我。σ（·）表示标准softmaxnormaliza。tion函数，按行对相似度值进行归一化。m= 1，2，…M表示多头注意力。在每个头中，使Q（m）和K（m）相关计算Q（m）和K（m）的相关性。Pr和Po在投影嵌入空间中的相似性。将相似度与K（m）相乘得到先验的语义特征，其源于所观察对象的语义特征。通过在总注意分块中使用，可以全面地对Pr和Po之间的结构相似性进行建模，并将语义特征充分地传递给先验知识我们将M个注意力块的输出特征连接为：但性能成本下降。我们认为，当应用Transformer网络对于目标位姿估计，对E（m）和E（m）进行适当的正则化能够同时减少开销并保持（甚至提高）位姿精度。因此，我们设计了一种新的结构正则化低秩Transformer网络。如图2所示，我们用对象关键点约束低秩Transformer。特殊-最后，我们引入了一个辅助网络来将具有N0个点的原始P0转换为n个对象关键点。受最近的内在点估计[5]的启发，我们将P 〇和Y=Concat（Y（1），Y（二）、...、Y（男））的。（二）n个k∈y-点的投影矩阵ERn×No，是从连接的对象特征[G〇，S〇]估计的。然后，我们将Y馈送到前馈网络以获得一旦估计了E，我们设置E（m）=E（m）=E用于针对先验Sr=FFN（Y）的自适应语义特征。K V如图2所示，我们随后将Gr和Sr连接起来，以获得自适应后的完整先验特征。在我们基于变换的实现中，我们采用多注意力来提取两个几何特征的鲁棒相似性，然后自适应地将语义特征注入到先验中。通过这种先验特征自适应，我们不仅增强了具有丰富语义特征的先验特征，而且还使固定的先验适应于不同的对象实例。3.3. 结构正则化低阶Transformer传统的Transformer与香草版本的多头自我关注密集地关联两个几何特征，并逐点传播语义特征。对于6D对象姿态估计，该方案可能既不高效也不足够有效。时间复杂度为O（n2），时间复杂度为O（n2）低等级的自我注意力公式方程。（三）、由于E被学习以将Po变换成η个关键点，因此利用E投影K（m）和V（m）可以被视为关键点上的对象特征的近似，这有效地正则化投影的特征空间以包含尽可能多的信息特征，用于具有降低的复杂度的姿态估计。3.4. 基于先验的目标位姿估计经过先验自适应后，我们得到 Fo=[Go ， So] 和Fr=[Gr， Sr]，它们分别对应于目标特征和先验特征。 SGPA然后利用两个头部网络进行姿态估计。第一个网络是变形网络。其目的是重建三维规范模型目标对象，其通过利用逐点变形场Dr∈RNr×3对P r进行变形而实现：Pr′ =Pr+Dr=Pr+Fd（Fo，Fr），（4）式中F（·）表示变形网络，P′是变形网络的拓扑结构对象点的数量。估计对象的姿态如果超过数千个点，则是无效的。另一方面，对于所捕获的对象点云，并非所有位置都代表先前适应，因为对象点云在实际环境中将是有噪声的、不完整的和不均匀的。为了解决这些问题，在本节中，我们进一步描述了用于先验自适应的结构正则化低秩Transformer。KV2777F·∈变形的先验点云（也称为重建的规范点云）目标对象的模型第二网络是匹配网络。它通过估计从Pr’到Po的对应矩阵Mr来将Pr’与Po软关联为：Po′ = Mr× Pr′ = Fm（Fo，Fr）× Pr′，（5）其中m（）表示匹配网络.MRRNo×Nr是计算No匹配的归一化矩阵2778FF×个表1.比较我们的方法与四个RGBD为基础的国家的最先进的方法在CAMERA25和REAL275基准。SPD* 表示我们自己对SPD的重新实现结果[26]。方法摄像头25REAL2753D503D755◦ 2厘米5◦ 5厘米10◦ 2厘米10◦ 5厘米3D503D755◦ 2厘米5◦ 5厘米10◦ 2厘米10◦ 5厘米NOCS [32]83.969.532.340.948.264.678.030.17.210.013.825.2中国社会科学院[4]------77.7--23.5-58.0SPD [26]93.283.154.359.073.381.577.353.219.321.443.254.1SPD*[26]93.085.558.162.975.983.880.056.720.022.345.357.9CR-Net [33]93.888.072.076.481.087.779.355.927.834.347.260.8我们93.288.170.774.582.788.480.161.935.939.661.370.7Pr′周围的点，用于姿态估计。Po′表示与Po具有点对点对应关系的预测匹配点。给定Po和Po′，最终采用基于对应的方法[27]来同时联合估计对象姿态和大小。3.5. 总损失函数总的来说，我们的SGPA具有用于6D对象姿态估计的三个估计目标：关键点变换E、逐点变形场Dr和对应矩阵Mr。为了训练SGPA，我们使用以下损失函数：L=λ1L pose+ λ2L kp。（六）头作为基本的先验适应网络。辅助关键点提取网络采用两层perceptron（MLP）块，然后是softmax激活层。d和m使用与[ 26 ]相同的结构来回归变形场和对应矩阵。4. 实验4.1. 数据集我们在这两个方面评估了我们的SGPA基准虚拟数据集CAMERA25和真实数据集REAL275 [32]。具体来说，CAMERA 25具有300 K合成RGB-D图像，这些图像是通过将虚拟对象与真实背景合成而生成的。在300K IM-对于L构成，我们使用相同的损失函数与SPD [26]年龄，25K图像用于测试。REAL275包含8 K RGB-D图像，在18个不同的真实环境中收集估计Dr和Mr。L姿势总共由四项其中两个项用于监督具有地面实况对象模型和6D姿态的预测的Dr和Mr，并且剩余的两个项用于进一步正则化Dr和Mr的值范围。关于L位姿的更详细的公式化，请参考[26]。Lkp定义为：Lkp=Σminxi−yj2+Σminxi−yj2，场景，其中7个场景（4300张图像）用于训练，5个场景（950张图像）用于验证，其余6个场景（2750张图像）用于测试。两个数据集覆盖相同的6个对象类别，即，瓶子、碗、相机、罐头、笔记本电脑和马克杯。4.2. 实验设置在大多数对象姿态估计方法中，为了集中于xi∈P oyj∈Pk2yi∈Pk xi∈Po2（七）姿态估计算法，实例分割和其中P k=E P o是所提取的η个对象关键点。Lkp用P0和Pk之间的倒角距离（CD）来公式化，这促使E表示具有n个关键点的N0点模型，其中nN0。λ1和λ2是两个平衡配重，其被设置为1。0在我们的实验中3.6.实现细节对于SGPA的特征提取模块，我们使用具有四个抽象级别的pointnet++ [21]来提取几何特征，其分别具有512、256、128和64个质心。在每个抽象层次上，多尺度分组（MSG）用于组装多尺度特征。四个级别中的MSG块具有尺度（0. 010 02）、（0. 02，0。04），（0.04，0。08）和（0. 08，0。16）分别。一以ResNet-18 [11]为骨干的四级PSP [37]网络用于从随后的姿态估计被解耦。我们还遵循该方案并使用现成的网络（例如，掩码- RCNN [10]）。之后，我们裁剪目标对象基于分割结果的RGB-D图像，利用摄像机内参数恢复实例点云。对于先验点云，我们在ShapeNet数据集上训练自动编码器网络[3]，然后我们将属于同一类别的所有实例的平均嵌入馈送到训练的解码器中，以获得该类别的先验点云。对于实例点云和先验点云，我们将它们均匀地采样为1024点换句话说，在我们的实验中，No=Nr=1024条款。此外，我们在实验中固定了n=256，这表明我们在低秩Transformer中使用固定的秩256进行先验自适应。一个德-在我们的烧蚀研究中给出了对参数n的图像补丁。对于自适应模块，我们使用四自关注2在进行实验时使用相同的分割结果。2779Ground-truth SPD我们的SGPA Ground-truth SPD我们的SGPA图3.在REAL275数据集上SGPA与SPD的定性比较表2.所提出的方法的每个组件对CAMERA25和REAL275基准的影响适应低阶Transformer摄像头25REAL2753D503D755◦ 2厘米5◦ 5厘米10◦ 2厘米10◦ 5厘米3D503D755◦ 2厘米5◦ 5厘米10◦ 2厘米10◦ 5厘米1-CC--C93.085.661.565.379.085.779.859.223.828.450.762.5292.787.768.272.082.688.280.459.933.337.258.869.0393.288.170.774.582.788.480.161.935.939.661.370.7表3.评估所提出的前适应方法CAMERA25和REAL275基准时，使用不同的方法来生成先验点云。之前CAMERA25 REAL2753D503D755◦ 2厘米5◦ 5厘米10◦ 2厘米10◦ 5厘米3D503D755◦ 2厘米5◦ 5厘米10◦ 2厘米10◦ 5厘米随机93.087.269.573.081.988.081.359.533.936.660.468.5最近邻92.888.269.973.783.288.479.459.434.837.559.669.9嵌入93.288.170.774.582.788.480.161.935.939.661.370.74.3. 评估指标遵循广泛采用的评估方案[4，26，32]，我们使用度量的两个方面来定量评估姿态估计性能：• 3D IoU。它分别计算预测姿态和地面实况姿态下的两个3D边界框的重叠。如果重叠的比率大于指定的比率，则判断预测是正确的。我们使用IoU50和IoU75作为此指标。• 旋转和平移错误。该度量直接计算预测姿态与地面实况姿态之间的旋转和平移误差。如果旋转误差小于角度阈值并且平移小于距离阈值，则判断预测正确。我们使用5◦2cm、5◦5cm、10◦2cm和10◦5cm作为此度量。鉴于上述两个指标，我们报告了6个对象类别的总体mAP，以比较不同方法的性能。4.4. 与最新方法的我们将我们提出的方法与四种基于RGB-D的方法进行了比较：NOCS [32]、CASS [4]、SPD [26]和CR- Net[33]。表1给出了比较结果。在这两个数据集上，我们提出的方法明显优于其他现有方法。在IoU 75、5◦2cm和10◦5cm方面，SGPA比NOCS高18。6%，38. 4%，23。8%，跑赢SPD 2. 6%，12. 6%和4。CAMERA25数据集上的6%。该方法在REAL275数据集上的优越性更加明显。具体而言，SGPA达到61。IoU 75、35上的9%mAP 。 5◦2cm 上的 9% mAP ，和 70. 10◦5cm 上的 7%mAP，即31. 8%，28. 7%，45。比NOCS高5%，5. 2%，15。9%和12。8%高于SPD，6. 0%，8. 1%和9。比最近的CR-Net高9%。这些实验结果证明了所提出的SGPA网络的有效性。图3进一步呈现了SPD和我们的SGPA在REAL275数据集上的定性比较。SGPA在处理几何形状复杂的对象（如相机和马克杯）方面优于SPD。此外，图4显示了两个数据集上更详细的误差评估结果。特别是，我们的SGPA在旋转方面比SPD精确得多。2780表5.CD度量中模型重建精度的比较（×10−3）。方法摄像头25瓶碗相机可以笔记本电脑马克杯是说SPD*[26]1.721.554.280.961.991.361.78我们1.351.303.330.871.201.171.42REAL275瓶碗相机可以笔记本马克杯是说SPD*[26]4.341.218.301.802.101.062.99我们2.930.895.511.751.621.122.44图4.平均精度与CAMERA25（顶行）和REAL275（底行）上的错误阈值表4.当n被设置为不同值时，在CAMERA25和REAL275基准上评估SGPAn摄像头253D503D755◦ 2cm5◦ 5cm 10◦ 2厘米10◦ 5厘米1692.686.968.271.983.586.53292.586.668.772.382.187.26492.987.267.371.382.187.612892.586.768.572.382.287.525693.288.170.774.582.788.451292.687.869.973.582.787.8充分92.787.768.272.082.688.2nREAL2753D503D755◦ 2cm5◦ 5cm 10◦ 2厘米10◦ 5厘米1679.058.027.730.655.064.93279.659.827.932.352.566.76478.760.930.234.357.869.012879.662.533.636.258.568.825680.161.935.939.661.370.751279.261.933.936.960.269.2充分80.459.933.337.258.869.04.5. 消融研究为了证明我们方法的设计选择，我们对我们的方法进行了以下消融研究：• 基线不使用任何先前的适配。直接从提取的几何和语义特征回归变形场和对应矩阵以用于姿态估计。• 具有预先适应性（第 3.2 ）。使用 vanillaTransformer网络进行预先适配。• 带低等级Transformer（第3.3）。利用所提出的结构正则化低秩Transformer进行先验自适应。本实验中n=256表2显示了我们在CAMERA25和REAL275数据集上的消融研究结果。较基线方法，先验自适应可以显著提高姿态精度，具有较大的裕度。具体而言，基于vanilla Transformer的先验自适应网络改善了IoU 75的mAP和85的5◦2cm。6%，61。5%至87。8%，68。2%的摄像头25，从59。2%，23。8%至59。9%，33。3%的REAL275。与CAMERA25相比，REAL275的改进更为显著。它表明，所提出的先验自适应可以有效地适应在虚拟数据集上训练的先验到真实环境中的姿态估计。此外，用我们提出的结构正则化的低秩变换器代替香草Transformer可以进一步提高性能。结果表明，通过目标关键点的引导，低秩Transformer能够利用最显著的特征进行更有效的先验自适应，从而获得更高的位姿精度。采用的先验的影响。与SPD类似，我们进一步研究了SGPA在使用不同方法生成先验点云时的性能。具体地，除了在ShapeNet上训练编码器-解码器网络以生成先验（在表3中表示为首先，对于每个类别，我们将其嵌入最接近编码器-解码器网络的平均嵌入的实例模型称为先验（表示为“最近邻”）。另一方面，我们从每个类别中随机选择一个实例，并将其点云作为该类别的先验（它被称为“随机”）。表3呈现了比较结果。一般来说，我们的方法是稳定的，在不同的先验。这是因为我们的先验自适应方法是基于高级结构相似性的，只要在网络之前提供有意义的结构，这对特定的先验生成方法是鲁棒的。低阶维度。在SGPA中，我们使用结构规则化的低阶Transformer（见第2节）。3.3）进行事先适应。在这个实验中，我们研究了不同的n的选择对姿态精度的影响。我们逐渐将n的值从1024减少到16。表4总结了比较结果。在CAMERA25数据集上，姿态结果对于n的选择相对稳定。当n=16或n=1024，它们在CAMERA25上产生几乎相同的姿态精度。在REAL275数据集上，2781查询点Top-8关注Top-16关注Top-32关注Top-64关注 Top-128关注查询点Top-8关注Top-16关注Top-32关注Top-64关注 Top-128关注查询点Top-8关注Top-16关注Top-32关注Top-64关注 Top-128关注查询点Top-8关注Top-16关注Top-32关注Top-64关注 Top-128关注图5.从所采用的Transformer网络学习的注意力图的可视化结果。我们将注意力值可视化在对象点云的位置我们将它们投影在图像块上以获得更清晰的可视化。颜色从蓝色到红色的变化对应于关注值从小到大的变化最高关注度往往位于查询点在先验点云上的匹配区域从左上到右下，四个查询点分别位于杯柄、杯缘、相机镜头和相机机身上。N的选择对姿态精度具有相对大的影响。当n非常小时，我们观察到一个明显的精度下降。总的来说，当No=Nr=1024时，n=256在两个数据集上获得最佳性能图5进一步可视化由Transformer网络学习的注意力图，其指示先前点云与对象点云之间的学习关系。对于先前点云上的每个点，我们将选择其与对象点云的逐点关注，并将它们投影到图像块上以获得更清晰的显示。如图5所示，对于先前点云上的查询点，学习到的注意力往往首先集中在对象的对应部分（例如，看到马克杯的把手上的点和它的前8个注意力图），然后扩散到整个对象区域以学习全局关系（看到前128个注意力图）。这一结果表明，我们的网络学习先验和对象之间有意义的结构相似性。同时，通过学习的结构相似性将先验特征适应于观察到的目标对象，我们的SGPA也可以更准确地重建实例的3D模型（见表5）。5. 结论总之，我们提出了一种新的结构引导先验适应网络的类别级6D对象姿态估计。它使用一个Transformer网络模型的全局结构之间的相似性先验和目标对象，基于对象的语义信息被注入到先验特征，以动态地适应每个特定对象的类别级别之前。我们进一步提出了一种结构正则化的低秩Transformer，在该变换器中，我们用点云关键点的投影来正则化低秩投影。因此，所导出的低秩Transformer可以利用不同关键点位置上的特征，以用于更有效的先验自适应。在两个公认的基准上进行的大量实验表明，我们的方法比其他现有方法实现了显着的性能改进。这项工作对于机器人的对象感知和操纵，例如工业机器人场景是潜在有用的。谢谢。这项工作得到了香港物流机器人中心的支持。2782引用[1] Iz Beltagy ， Matthew E Peters ， and Arman Cohan. 长型：长文档 Transformer 。 arXiv 预印本 arXiv ：2004.05150，2020。四个[2] Eric Brachmann ， Frank Michel ， Alexander Krull ，Michael Ying Yang，Stefan Gumhold，et al.从单幅rgb图像估计物体和场景的不确定性驱动的6d姿态。在IEEE计算机视觉和模式识别会议（CVPR）中，第3364-3372页，2016年。二个[3] Angel X Chang ， ThomasFunkhouser ， LeonidasGuibas，Pat Hanrahan，Qixing Huang，Zimming Li，Silvio Savarese ， Manolis Savva ， Shuran Song ， HaoSu，et al. Shapenet：一个信息丰富的3D模型存储库。arXiv预印本arXiv：1512.03012，2015。五个[4] Dengsheng Chen，Jun Li，Zheng Wang，and Kai Xu.学习规范形状空间，用于类别级6d对象姿态和大小估计。在IEEE计算机视觉和模式识别会议（CVPR）中，第11973一、二、五、六[5] Nenglun Chen ， Lingjie Liu ， Zhiming Cui ， RunnanChen ， Duygu Ceylan ， Changhe Tu ， and WenpingWang.内在结构表征点的无监督学习在IEEE计算机视觉和模式识别会议中，第9121-9130页，2020年。四个[6] Xu Chen ， Zijian Dong ，Jie Song ，Andreas Geiger ，and Otmar Hilliges.通过神经合成分析的类别级对象姿态估计。欧洲计算机视觉会议，2020年。二个[7] Yixin Chen ，Siyuan Huang ，Tao Yuan，Siyuan Qi，Yixin Zhu，and Song-Chun Zhu.整体++场景理解：基于人-物交互和物理常识的单视图三维整体场景解析和人体姿态估计。在IEEE国际计算机视觉会议，第8648-8657页一个[8] KrzysztofChoromanski ， ValeriiLikhosherstov ，DavidDo- han，Xingyou Song，Andreea Gane，TamasSarlos ， PeterHawkins ， JaredDavis ， AfrozMohiuddin，Lukasz Kaiser，et al.重新思考表演者的注意力。arXiv预印本arXiv：2009.14794，2020。四个[9] Xinke Deng，Yu Xiang，Arsalan Mousavian，ClemensEppner，Timothy Bretl，and Dieter Fox.用于机器人操作的自监督6d对象位姿估计。在IEEE机器人和自动化国际会议（ICRA），第3665-3671页中。IEEE，2020年。一个[10] 何开明、吉欧吉亚·吉欧萨里、彼得·多尔·拉尔和罗斯·吉尔希克.面具R-CNN 。在IEEE国际计算机视觉会议（ICCV），第2961-2969页，2017年。五个[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR）中，第770-778页，2016年。五个[12] Yisheng He，Wei Sun，Haibin Huang，Jianran Liu，Haoqiang Fan，and Jian Sun.Pvn3d：一个用于6dof姿态估计的深度逐点3d关键点投票网络。在IEEE计算机视觉和模式识别会议（CVPR）中，第11632-11641页，2020年。一、二[13] Wadim Kehl ， Fabian Manhardt ， Federico Tombari ，Slobo- dan Ilic，and Nassir Navab. Ssd-6d：让基于rgb的3d检测和6d姿态估计再次变得强大。在IEEE国际计算机视觉会议（ICCV），第1521-1529页，2017年。二个[14] Xiaolong Li，He Wang，Li Yi，Leonidas J Guibas，ALynn Abbott，and Shuran Song.类别级铰接对象姿态估计。在IEEE计算机视觉和模式识别会议（CVPR）中，第3706二个[15] 易离，顾望，向阳季，于翔，迪特尔福克斯。Deepim：深度迭代匹配6D姿态估计。在欧洲计算机视觉会议（ECCV），第683-698页，2018年。二个[16] Zhigang Li ， Yinlin Hu ， Mathieu Salzmann ， andXiangyang Ji. 鲁棒的基于rgb的无真实位姿标注的6-dof位姿arXiv预印本arXiv：2008.08391，2020。二个[17] Fabian Manhardt ， Wadim Kehl ， Nassir Navab ， andFederico Tombari.基于深度模型的rgb 6d姿态优化。在欧洲计算机视觉会议（ECCV），第800-815页，2018年。二个[18] Yinyu Nie ， Xiaoguang Han ， Shihui Guo ， YujianZheng，Jian Chang，and Jian Jun Zhang.全三维理解：从单幅图像中进行室内场景的联合在IEEE计算机视觉和模式识别会议（CVPR）中，第55-64页，2020年。1[19] Keunhong Park ，Arsalan Mousavian ， Yu Xiang ，andDieter Fox.潜伏融合：端到端可区分的重建和渲染，用于不可见对象姿态估计。在IEEE计算机视觉和模

下载后可阅读完整内容，剩余1页未读，立即下载