ES6D：计算高效且对称感知的物体6D姿态回归框架

84 浏览量更新于2023-10-25 收藏 17.96MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

67180ES6D：一种计算高效且对称感知的6D姿态回归框架0莫宁凯1* 甘万水1,2* 横谷直人2,3 陈世峰1†01 中国科学院深圳先进技术研究院计算机视觉与模式识别深圳市重点实验室，2 东京大学，3RIKEN[nk.mo19941001，wanshuigan]@gmail.com，yokoya@k.u-tokyo.ac.jp，shifeng.chen@siat.ac.cn0摘要0本文提出了一种计算高效的回归框架，用于从单个RGB-D图像估计刚性物体的6D姿态，适用于处理对称物体。该框架采用简单的架构设计，使用名为XYZNet的全卷积网络高效地从RGB-D数据中提取点特征，并直接回归6D姿态，无需任何后处理。对于对称物体，一个物体有多个真实姿态，这种一对多的关系可能导致估计的不确定性。为了解决这个问题，我们设计了一种对称不变的姿态距离度量，称为平均（最大）分组基元距离或A(M)GPD。所提出的A(M)GPD损失可以使回归网络收敛到正确的状态，即A(M)GPD损失表面上的所有极小值都映射到正确的姿态。在YCB-Video和T-LESS数据集上进行了大量实验，证明了所提出的框架在最高准确性和低计算成本方面的显著优势。相关代码可在0https://github.com/GANWANSHUI/ES6D.git .01. 引言0估计6D物体姿态对于增强现实（AR）[24]、自动驾驶[3,8]和机器人技术[4,34]等实时应用非常重要。近年来，基于深度神经网络（DNN）的方法逐渐出现[17,22,25,26,40]。基于RGB-D的方法[35]融合了RGB特征和点云特征0* 前两位作者贡献相同，应被视为共同第一作者。† 通讯作者。0图1.A(M)GPD和ADD-S的比较。X轴表示物体的旋转角度（从0°到360°）。Y轴表示计算得到的距离。我们将初始姿态设置为真实值。可以看到，在A(M)GPD曲线中，所有极小值都映射到正确的姿态，而在ADD-S曲线中，有几个极小值指向错误的姿态。0本文中，我们提出了一种基于RGB-D的6D姿态回归框架，该框架在处理重叠和无纹理情况下表现出色。然而，如下所讨论的，回归方法[35，38]在某些对称物体上会失败，并且其计算成本仍然是实时应用的障碍。在本文中，我们提出了一种更加计算高效且适用于对称物体的RGB-D基于6D姿态回归框架。从RGB-D数据中提取特征是我们框架的关键部分。[12，19，35]中的方法通过密集融合网络获取稳健的特征，该网络融合了RGB67190并使用索引操作将RGB特征和点云特征进行融合。然而，高效的网络应避免随机内存访问[23]，这是[12,35]中密集融合网络的计算瓶颈。为了提高效率和简化性，本文提出了一种完全卷积特征提取网络，称为XYZNet。XYZNet比[35]和[12]中的异构结构更高效。深度图像被转换为与RGB图像严格对齐的XYZ图，如图2所示。因此，可以使用2D卷积核同时提取RGB和点云的局部特征。与[21]中的基于RGB-D的方法不同，XYZ图被传播到后层以保留局部特征的空间信息。然后，使用基于CNN的PointNet[28]模块对点云进行编码，融合不同的模态特征。实验结果显示了所提出的XYZNet的优越性。此外，基于学习的方法容易在对称物体上失败。为了解释这个问题，我们将6D姿态估计的网络训练建模为最小化以下损失：0l = loss(p, ˆp) = loss(N(I, w), ˆp), (1)0其中p是从网络N(I,w)估计的姿态，ˆp是真实值，I表示输入图像，w表示网络的参数。训练的本质是不断调整网络参数朝着loss(p,ˆp)的梯度方向调整。最终，网络将收敛到损失函数空间中的全局或局部最小值。对称对象O有几个真实值S(O)={ˆp1,ˆp2, ...,ˆpk}，它们被称为对象O的正确对称性。通常，当使用L1损失训练对象O的神经网络时，它会收敛到预测S(O)的平均值的状态，该状态被映射到L1损失表面的最小值。然而，S(O)的平均值是没有意义的。为了避免这个问题，损失函数应满足两个要求：（1）损失表面上的所有最小值都映射到正确的姿态；（2）损失函数是连续的，因为深度网络只能近似连续函数[9, 18]。ADD-S被广泛用作先前回归框架[33, 35,38,39]中的损失函数来处理对称性。ADD-S损失始终是连续的，但在某些情况下不满足要求（1）。如图1所示，ADD-S损失表面上的几个局部最小值被映射到错误的姿态，这是由于对象的特殊形状造成的。我们解决方案的动机是设计一种新颖的姿态距离度量，它与ADD-S一样在3D度量空间（例如米）中，并满足要求（1）和（2）。为此，我们引入了一种适用于任意对象的新颖形状表示，称为分组基元（GP）。GP仅与正确对称性S(O)相关，并忽略形状的细节。然后，我们进行数值模拟和可视化方法来分析A(M)GPD损失的有效性。这种分析方法适用于6D姿态估计中的其他框架。0将对称对象分为五类，并给出了相应的距离度量，称为平均（最大）分组基元距离，或者A(M)GPD。对于典型的对称对象，通过数值和可视化方法验证了A(M)GPD的有效性。我们在YCB-Video[38]和T-LESS数据集[15]上评估了提出的框架，并通过考虑速度和准确性之间的权衡来展示其优越性。总之，本文的主要贡献如下。0•我们提出了一种适用于RGB-D数据的新颖特征提取网络XYZNet，具有低计算成本和卓越的性能。0•引入了紧凑的形状表示GP和距离度量A(M)GPD来处理对称性。基于A(M)GPD的损失函数可以约束回归网络收敛到正确的状态。0•进行了数值模拟和可视化方法来分析A(M)GPD损失的有效性。这种分析方法适用于6D姿态估计中的其他框架。0•提出了使用XYZNet和A(M)GPD损失函数的框架ES6D，并在YCB-Video和T-LESS数据集上取得了竞争性的性能。02. 相关工作02.1. 从RGB-D数据中进行姿态估计0为了充分利用RGB-D数据的纹理和几何信息，[11, 12, 19,35]中的工作利用密集融合网络通过索引操作融合RGB和点云特征。然而，由于随机内存访问，索引操作效率低下。[21]中的算法与我们的网络相关，因为它也尝试使用2D卷积核同时提取RGB和点云特征。然而，在卷积操作期间丢弃了点云的几何信息，导致估计精度较低。与上述方法不同，我们的框架引入了一个完全卷积网络XYZNet，用于获取逐点特征，从中回归出姿态。此外，[11, 12, 19, 21,35]中的任何一种方法都无法处理对称性。02.2. 姿态估计中的对称性处理0具有不同姿态的对称对象可能具有相同的外观，这导致了[27]中描述的歧义。为了解决这个问题，[27,30]中的方法限制了训练阶段的旋转范围。XYZNetion mapoolifidenceternionflattenXYZ RGB p67200n*conv1x10降采样0XYZNet0局部特征提取空间信息编码特征聚合04*conv1x104*conv1x104*conv1x10CNN0最大0池化0置信度0四元数0平移0多任务头0展平0每个点的估计0Y0X0Z0argmax(C)0XYZ图0RGB块0逐点0特征0添加0图2.网络概述。首先，从RGB-D图像生成RGB-XYZ数据。将RGB-XYZ数据输入到CNN模块中提取局部特征，编码颜色和几何信息。然后，通过类似PointNet的CNN模块获取点云特征，并填充到与局部特征相同的大小。然后，将局部特征和点云特征连接作为逐点特征进行姿态估计。最后，选择具有最大置信度的姿态作为最终结果。0在训练阶段，限制旋转范围，并在测试阶段使用额外的分类器来识别旋转范围。[25,36]中的方法计算所有适当对称S(O)的相应像素的平均距离，并选择最小值作为最终损失。[14]中使用紧凑的表面片段表示对象，以便系统地处理对称性。[35,38]中的回归方法通过在训练阶段使用ADD-S作为损失来避免歧义。然而，ADD-S不适用于一些对称对象，例如YCB-Video数据集中的碗和大夹子，如图1所示。[16]中提出的三种抗歧义姿态距离度量ACPD、MCPD和VSD评估估计姿态与真实姿态之间的误差。然而，这些度量的表面是否存在错误的最小值尚未确定。与上述方法相比，我们的A(M)GPD损失同时满足以下两个特性：（1）损失曲面上的所有最小值都映射到正确的姿态；（2）损失函数是连续的。03. 提出的方法03.1. 概述0本文的目标是检测刚性物体并估计相应的旋转R ∈SO(3)和平移0在相机坐标系中，从RGB-D图像中提取出相机坐标系下的3D点t。提出了以下两阶段方案。第一阶段利用PoseCNN[38]的分割网络来获取目标物体的掩码和边界框。每个掩码和通过边界框裁剪的RGB-D图像块被传输到第二阶段。第二阶段提出了一种实时框架ES6D来估计姿态。该框架的流程如图2所示。首先，将掩码深度像素归一化后转换为XYZ图。然后，XYZNet从RGB块和XYZ图的连接中提取逐点特征。然后，使用三个卷积头来预测逐点的平移偏移、四元数和置信度。最后，选择具有最大置信度的姿态作为最终结果。03.2. 逐点特征提取0经验证，与RGB图像的特征相比，RGB-D数据的逐点特征在6D姿态估计中更有效和更稳健[12,35]。最先进的方法PVN3D[12]采用了一种异构结构，通过PointNet++[29]获取点云特征，然后通过索引操作将点云特征与RGB特征连接起来。PointNet++通过一系列集合操作提取局部特征。After the XYZNet is completed, the set of point-wisefeatures F = {f i}Ni=1, f i ∈ Rd, are obtained. In thissubsection, we describe how to exploit the point-wise fea-ture f i and the corresponding visible point ˙pi ∈˙P toestimate the rotation Ri ∈ SO(3) and translation ti ∈R3. As shown in Figure 2, three 1 × 1 convolution heads(BT , BQ, BC) are adopted to regress the translation off-set�∆˙ti ∈ R3�, quaternion�qi ∈ R4, ∥qi∥ = 1�and con-fidence (ci ∈ [0, 1]).3D translation regression Regarding the origin of thenormalized object coordinate system as a virtual keypoint,the translation ti can be obtained by calculating the offsetNorm(qi) =qi∥qi∥,(5)ci = Sigmoid (BC (f i)) .(6)67210点云的分割层(SAL)将点云分组在预定义的搜索半径内。然而，处理大量的点云是耗时的，如果我们减少了集合抽象层，表示能力将会降低。2D卷积操作的一个特点是通过分组邻近信息来提取局部特征。因此，所提出的XYZNet意图通过在RGB-XYZ图像上进行2D卷积操作来同时提取局部特征。首先，将掩蔽的深度像素转换为点云 P = { ( x i , y i , z i ) }N i =1 ，然后将点 P 平移和缩放到 [ -1 , 1 ]，其中点的中心为 p c = mean( P ) ，缩放因子为 γ。将归一化的点表示为 ˙ P = { ( ˙ x i , ˙ y i , ˙ z i ) } N i =1，并格式化为XYZ图。通过将XYZ图与相应的RGB补丁连接起来，可以获得严格对齐的RGB-XYZ数据。[ 21]中的方法也采用2D卷积网络从XYZ图中提取点云特征，但性能远远不如异构结构方法[ 12 , 35]。造成这种情况的主要原因是在XYZ图上使用2D卷积操作时会丢弃点云的空间信息。我们根据上述观察设计了XYZNet，如图2所示。XYZNet由三个部分组成。(1)局部特征提取模块。使用2D卷积层学习局部特征。不同的卷积核大小和下采样率被设置为扩大感受野。(2)空间信息编码模块。该模块的主要功能是提取点云特征。该模块将局部特征与XYZ图连接起来以恢复空间结构，并利用1×1卷积对每个点的局部特征和坐标进行编码。然后，通过最大池化获得全局特征，并将其与每个点的特征连接起来提供全局上下文。(3)特征聚合。将局部特征和点云特征连接为点特征。两种模态的融合使姿态估计对纹理较少和重度遮挡具有鲁棒性。03.3. 6D姿态回归0∆ ˙ t i 是可见点 ˙ p i 与原点之间的差异。方程可以表示为：0∆ ˙ t i = B T ( f i ) , (2)0t i =0| ˙ p i + ∆ ˙t i |0γ + p c , (3)0其中可见点 ˙ p i的偏移在一个特定的球体中分布。与直接回归物体平移相比，这种回归函数得到了较小的输出空间 [ 7 ]。3D旋转回归我们按照[ 35 , 38]使用四元数作为旋转表示。我们得到旋转矩阵如下：0R i = 四元数矩阵 ( 归一化 ( B Q ( f i ))) , (4)0其中 Quaternion matrix ( ∙ )表示将四元数转换为旋转矩阵的函数 [ 31 ]。置信度回归为了确定最佳的回归结果，我们设置了一个置信度估计头来评估每个特征的置信度 c i 。方程如下：0我们使用自监督方法训练置信度分支 B C，该方法在[35]中提到。03.4. 对称感知损失0现有的对称不变距离度量取决于对象的3D形状，例如ADD-S，ACPD，MCPD，VSD[16，35]。然而，唯一的形状和点对不匹配是错误最小值的原因。此外，现实中的对象具有各种形状，我们不能保证这些度量对于每种形状都有效。因此，我们设计了分组原语GP，将相同类别的对象抽象为几个点，以避免形状引起的不确定性。此外，我们将这些点分成组，并根据公式12和13计算同一组中最近点之间的距离，以避免点对不匹配。分组原语我们在图3中说明了GP构建的流程。有了特定对象的3D模型，我们可以根据公式9和10计算所有的对称轴。用于分组的原语由对称轴的端点和对象质心组成。具体而言，需要以下三个步骤。步骤1 定义和解释对称轴角度的基本属性。对象O 经过绕轴 e = ( e x , e y , e z ) 旋转角度 θ后，外观看起来是相同的。因此，轴 e 是对象 O的对称轴。(1)(2)(3)(4)(5)a = (e, θ),∥e∥ = 1 ∧ θ ∈ {2π/i}Mi=2.(7)ˆAO = {a|h (PO, R(a)PO) < ε} ,(9)AO = Mean Shift( ˆAO).(10)̸̸67220对称轴的端点0对象的质心（第0组）0对称轴0轴1：对称角度 = 90度0第1组的点0轴1：对称角度 = 90度0第2组的点0轴2：对称角度 = 180度0第3组的点03D模型对称轴原语分组0第0组0分组原语0第1组0第2组第3组0图3. GP构建的流程。0轴 e 和角度 θ 组成一个对称轴角度 a ，定义为：0重要的是要注意，2 π 必须是对称角度 θ的整数倍[37]，并且可以定义 a 的顺序为：| a | = 2 π/θ (a ) . (8)0对称轴角度是一种冗余形式。例如，金字塔，即图4中的第2类对象，有四个对称轴角度：( e , π/ 2) ，( e , π ) ，( − e ,π/ 2) 和 ( − e , π ) ，其中 e平行于绿线。在这种情况下，这四个对称轴角度对于该对象具有相同的意义，因为它们具有相同的轴 e。这四个对称轴角度的角度必须具有最大公约数 π/ 2，这是由于旋转对称性的循环性质所决定的。请注意，只有角度为最大公约数的对称轴角度在本文中使用，例如 ( e ,π/ 2) 和 ( − e , π/ 2) 。步骤2在对象坐标系中，以对象的质心为原点，可以使用以下公式获得对象 O 的一组粗略对称轴角度：0其中 h 是Hausdorff距离，P O 表示对象模型的顶点，R ( a) 是对称轴角度 a 的相关旋转矩阵，允许的偏差由 ε限制。然后，基于对称轴，应用Mean-Shift聚类算法[5]来简化 ˆ A O ：0在这一点上，A O 包含了对象 O的所有对称轴角度，没有冗余，其中 | A O | 是 A O的大小，是 2 的倍数，因为对称轴角度总是0成对出现，例如（e，π/2）和（-e，π/2）。此外，可以得到A0的子集ACO：0ACO = {a | a ∈ AO ∧ |a| > ρ}，（11）0其中ρ是放宽的阈值。当|a| >ρ时，我们将a视为连续的对称轴角度，并且当ρ设置为6时，包括实验部分中要评估的所有物体的大多数应用都被覆盖。根据A0和ACO的大小，对称物体可以分为五类，如图4所示。步骤3如图3所示，如果基元A在对称轴周围的特定角度内与基元B重叠，我们认为基元A和B属于同一组。分组的基元表示为G={gi}Ki=0，其中K是G的大小。分组原则的详细信息请参阅补充材料。姿态距离度量基于GP，设计了姿态距离度量A(M)GPD。A(M)GPD包含两个函数，第一个是平均分组基元距离（AGPD）：0AGPD = mean gi ∈ G mean pj ∈ gi min pk ∈ gi,k ≠ j∥ˆpj − ˙pk∥，（12）其中ˆp = �Tp，˙p = ˙Tp，p ∈g(G)，而�T，˙T ∈SE(3)。当O是对称类别{1，3，4，5}或非对称物体时，AGPD用于测量两个姿态之间的距离。类别2与其他类别不同。它只有一对具有有限阶的对称轴。如果使用AGPD作为损失函数，在旋转空间中会导致不正确的最小值，如图1中的第二行所示。为了解决这个问题，引入了第二个函数最大分组基元距离（MGPD）：0MGPD = max gi ∈ G max pj ∈ gi min pk ∈ gi k ≠ j∥ˆpj − ˙pk∥，（13）回归训练的损失我们的回归框架的总损失与[35]中的损失类似，不同之处在于使用A(M)GPD计算预测值和真值之间的误差，而不是ADD(S)。67230图4.分组的基元和A(M)GPD景观的可视化。根据A0和ACO的大小，对称物体可以分为五类。对于每个类别，第一行绘制了一个典型的玩具模型及其分组的基元。第二行显示了旋转空间中每个物体的A(M)GPD景观，其中较暗的颜色表示较小的A(M)GPD值。第三行显示了每个景观中的最小值。最佳效果请以彩色查看。0使用PoseCNN分割掩码使用GT分割掩码0FFB6D DenseFusion DenseFusion ES6D PVN3D [12] ES6D [11]（像素级）[35]（迭代）[35]（后处理）0ADD-S ADD(S) ADD-S ADD(S) ADD-S ADD(S) ADD-S ADD(S) ADD-S ADD(S) ADD-S ADD(S)0碗 96.3 96.3 86.0 86.0 89.5 89.5 96.4 96.4 88.7 88.7 96.8 96.8 木块 92.6 92.6 89.5 89.5 92.8 92.8 94.4 94.4 91.5 91.5 96.0 96.0 大夹子 96.8 96.8 71.571.5 72.5 72.5 61.0 61.0 94.4 94.4 97.5 97.5 特大夹子 96.0 96.0 70.2 70.2 69.9 69.9 59.6 59.6 91.1 91.1 96.8 96.8 泡沫砖 97.3 97.3 92.2 92.2 92.092.0 96.6 96.6 96.8 96.8 96.9 96.90全部 96.6 92.7 91.2 82.9 93.2 86.1 93.6 89.0 95.7 91.9 97.1 93.20表1. YCB-Video数据集[38]上6D姿态（ADD-S，ADD(S)）的比较。列出的物体是对称的。更多细节请参阅补充材料。03.5. A(M)GPD的验证0在本小节中，提出了一种数值和可视化方法来检查A(M)GPD是否满足引言中描述的要求（1）。为了更清楚地了解A(M)GPD在R ∈ SO(3)上的情况，我们首先利用采样技术在R∈ SO(3)上生成密集分布的N个旋转RC ={Ri}Ni=1。其次，将单位矩阵I3×3视为地面真值，˙R ∈RC为预测值。I3×3和˙R的A(M)GPD可以表示为˙d。0˙d = A（M）GPD（I 3 × 3，˙R）。（14）0然后，我们借助旋转向量v = (vx, vy,vz)来可视化˙d，其中方向是旋转轴，长度是旋转角θ∈[0,π]。如图4中的第二行图所示，˙R的坐标是v(˙R)，˙R的颜色值是相应的˙d（较暗的颜色表示较小的˙d）。然而，在这些图中很难找到最小值，因此我们通过一个简单的算法进一步模拟梯度下降的过程。该算法的原则是，v(˙R)不断移动到v(ˆR)，在v(˙R)附近具有最小ˆd的点，并且最终在一个局部最小值处停止。我们对每个v(˙R)执行此原则，在图4中的第三行图中用红色星号标记找到的最小值。67240姿态估计 e ADI（VIVO）e V SD（VIVO）e ADI（SISO）e V SD（SISO）ADD（S）A（M）GPD训练数据时间（s）0PointNet++ [ 29 ] D 0.74 0.50 0.78 0.54 – – 37K 0.4 PPFNet [ 6 ] D 0.76 0.44 0.79 0.49 – – 37K 0.4 StablePose [ 32 ] D 0.86 0.69 0.88 0.73 – – 37K0.40Pix2Pose [ 25 ] RGBD – – – 0.30 – – 37K 0.6 CosyPose [ 20 ] RGBD 0.68 0.63 0.75 0.64 – – 1M 1.10ES6D（ADD（S））RGBD 0.79 0.68 0.80 0.69 93.08 55.99 1M 0.07 ES6D（A（M）GPD）RGBD 0.81 0.75 0.82 0.76 93.40 82.70 1M 0.070表2. T-LESS数据集[ 15]上6D姿态的比较。ES6D（ADD（S））和ES6D（A（M）GPD）表示网络分别通过ADD（S）和A（M）GPD损失进行训练。ES6D的推理时间包括掩码分割成本。0如我们所见，所有最小值都映射到了正确的姿势。其他物体在补充材料中呈现。04. 实验04.1. 实现细节0我们的方法使用Pytorch实现。在将RGB补丁和XYZ图放入神经网络之前，我们将其调整为128×128。XYZNet中的局部特征提取模块修改自ResNet18 [ 10]。为了获得更好的性能，分组原语按照物体的半径进行缩放。所有实验都在一台Intel（R）Xeon（R）2.4GHzCPU和NVIDIA GTX 2080 Ti GPU上进行。04.2. 数据集0YCB-Video [ 38 ]是从21个YCB [ 2]对象中收集的，包括5个对称对象，由于其各种照明条件、显著的图像噪声和遮挡，这是一项具有挑战性的任务。该数据集包含92个RGB-D视频，每个视频显示不同室内场景中的21个对象的子集。我们按照之前的工作将数据集分为80个用于训练的视频和来自其余12个视频的2,949个关键帧进行测试。我们还在训练集中使用了[ 38]发布的80,000个合成图像。T-LESS [ 15]是一个具有27个对称对象和3个非对称对象的具有挑战性的数据集，可以有效评估我们提出的对称感知方法。由于该对象没有纹理并且具有类似的外观特征，因此比YCB-Video数据集更具挑战性。我们使用[ 32]的掩码结果进行公平比较。04.3. 指标0在YCB-Video数据集中，按照[ 12]的做法，将ADD-S和ADD（S）的曲线下面积（AUC）作为对等算法比较的性能指标。此外，ADD（S）[ 13]计算非对称对象的ADD距离和对称对象的ADD-S距离，这在评估上比ADD-S更严格。ADD-S和ADD（S）的AUC用作YCB-Video数据集的性能指标。在T-LESS数据集中，我们报告了平均最近点距离（ADI）和可见表面差异（VSD）。0降低设置在[32]中。此外，为了揭示ADD（S）和A（M）GPD之间的差异，我们将ADD（S）和提出的A（M）GPD与地面真实掩码进行消融研究的AUC进行比较，因为[32]中的掩码没有提供到地面真实标签的索引。04.4. 与SOTA方法的比较0YCB-Video为了与DenseFusion[35]进行公平比较，我们使用PoseCNN的分割结果进行测试。需要注意的是，数据集中的大夹子和超大夹子具有相同的外观但尺寸不同，这会导致分割结果较差。ES6D的失败案例在补充材料中展示。从表1中可以看出，我们的方法比DenseFusion（迭代）提高了2.9%。FFB6D[11]比我们更好，通过分割后进行聚类获得更好的实例分割结果，但需要额外的时间成本。值得一提的是，我们的方法没有使用细化和后处理，而DenseFusion（迭代）包括细化和后处理。此外，我们在ES6D和PVN3D[12]中都使用了地面真实掩码进行比较。特别是在对称物体中，我们的方法在碗（8.1%）、木块（4.5%）、大夹子（3.1%）和超大夹子（5.7%）方面的表现明显优于PVN3D。T-LESS表2显示了在T-LESS数据集[15]上的6D姿态比较。Pix2Pose[25]通过自动编码器架构回归像素级3D坐标。CosyPose[20]根据RGB图像估计6D姿态，然后使用深度图像进行ICP细化。StablePose[32]通过稳定的补丁提取和补丁姿态估计获得6D物体姿态。与这些方法相比，提出的ES6D是一个更简单和高效的框架。我们在单个对象的单个实例（SISO）和单视图RGBD图像中变化数量的实例的变化数量的VSD度量中取得了最佳结果。此外，与这些方法相比，推理时间更低。04.5. 消融研究0XYZNet我们进一步探索了XYZNet中各个模块的影响。实验结果见表3。XYZNet 1Res1891.865.17.9016.29XYZNet 2Res18√92.045.79.1617.52XYZNet 3Res18√√92.425.89.1617.52XYZNet 4Res18√√√93.035.910.1718.51ES6DRes18√√√√93.235.910.1718.5167250方法 LEF CXYZ SIE FA A(M)GPD YCB 时间 FLOPs 参数0损失 ADD(S) (ms) (G) (M)0统一的结构（类似于[21]） 91.50 8.4 7.39 17.850表3.XYZNet的消融研究。LFE：局部特征提取；CXYZ：连接XYZ映射和局部特征；SIE：空间信息编码；FA：特征聚合。每个模块的详细结构如图2所示。0基于我们的回归框架。除了ES6D外，所有方法都是使用ADD(S)损失进行训练。实验结果表明，包括LEF、CXYZ、SIE和FA的完整网络是这些方案中的最佳架构。统一的结构（类似于[21]）在准确性和推理时间上都不理想。与XYZNet2相比，通过将XYZ映射与局部特征连接起来，XYZNet3取得了很大的改进，证明了这种显式连接操作在实践中的有效性。此外，通过添加FA模块，XYZNet4获得了改进，说明了多模态特征融合（2D图像和3D点云）的有效性。0A(M)GPD与ADD(S)开发A(M)GPD的动机是ADD(S)度量对于对称物体的旋转误差不敏感的问题。为了比较ADD(S)损失和提出的A(M)GPD损失，我们在提出的ES6D上进行了不同损失设置的实验。从表2中可以看出，ADD(S)的AUC接近，但在A(M)GPD度量中存在很大差距。为了更加令人信服的结果，我们在图5中可视化了部分对称物体。我们观察到，ADD(S)损失的结果可能具有完全相反的姿态，但ADD(S)度量无法区分这种情况。另一方面，我们也看到，A(M)GPD损失的结果可以正确反映这种情况。通过将其与图1中的曲线相结合，我们可以得出结论，提出的A(M)GPD损失可以在训练阶段有效消除ADD-S损失中的局部最小值问题。此外，提出的A(M)GPD度量在对称物体的姿态评估中更加准确。05. 限制0ES6D的性能取决于2D分割网络[32，38]的结果，并且在[41]中已经证明四元数是不连续的。因此，将来将研究用于实例分割和姿态估计的统一网络，以及在[41]中引入的连续旋转表示。0图5。在T-LESS数据集上使用不同的训练损失进行可视化。绿线，红线和蓝线分别代表地面真实姿态，A（M）GPD损失的结果和ADD（S）损失的结果。06. 结论0在本文中，基于XYZNet和A（M）GPD损失提出了一种新颖的6D姿态估计框架ES6D。XYZNet用于从RGB-D数据中提取特征。它具有完全卷积的架构，并在效率和效果之间取得了良好的平衡。此外，提出了A（M）GPD损失来处理对称对象，并且比ADD（S）损失表现更好。此外，引入了一种新颖的数值和可视化方法来检查损失曲面中的潜在错误的次优解。致谢本工作得到广东省重点领域研究与开发计划（2019B010155003）和深圳市科技创新委员会（JCYJ20200109114835623）的支持。67260参考文献0[1] Romain Br´egier，Fr´ed´eric Devernay，LaetitiaLeyrit和James L.Crowley。定义任何3D刚体对象的姿态及其相关距离。国际计算机视觉杂志，2018年。20[2] Berk Calli，Arjun Singh，Aaron Walsman，SiddharthaSrini-vasa，Pieter Abbeel和Aaron MDollar。YCB对象和模型集：面向操纵研究的共同基准。在2015年国际先进机器人大会（ICAR）上，页510-517。IEEE，2015年。70[3]陈晓智，马辉民，万吉，李波和夏天。用于自动驾驶的多视角3D物体检测网络。在IEEE计算机视觉与模式识别会议论文集中，页1907-1915，2017年。10[4] Alvaro Collet，Manuel Martinez和Siddhartha SSrinivasa。Moped框架：用于操纵的对象识别和姿态估计。国际机器人研究杂志，30（10）：1284-1306，2011年。10[5] Dorin Comaniciu和PeterMeer。均值漂移：一种鲁棒的特征空间分析方法。IEEE模式分析与机器智能交易，24（5）：603-619，2002年。50[6] Haowen Deng，Tolga Birdal和SlobodanIlic。Ppfnet：用于鲁棒的3D点匹配的全局上下文感知局部特征。在IEEE计算机视觉与模式识别会议论文集中，页195-205，2018年。70[7] 高戈，Mikko Lauri，王玉龙，胡晓林，张建伟和SimoneFrintrop。通过点云上的监督学习进行6D物体姿态回归。在2020年IEEE国际机器人与自动化会议（ICRA）上，页3643-3649。IEEE，2020年。40[8] Andreas Geiger，Philip Lenz和RaquelUrtasun。我们准备好自动驾驶了吗？KITTI视觉基准套件。在2012年IEEE计算机视觉与模式识别会议上，页3354-3361。IEEE，2012年。10[9] Boris Hanin.通过有界宽度和ReLU激活的深度神经网络进行通用函数逼近。2017年。20[10] Kaiming He，Xiangyu Zhang，Shaoqing Ren和JianSun。深度残差学习用于图像识别。在IEEE计算机视觉与模式识别会议论文集中，页770-778，2016年。70[11]何一生，黄海斌，范浩强，陈启峰和孙健。Ffb6d：一种用于6D姿态估计的全流双向融合网络。在IEEE/CVF计算机视觉与模式识别会议（CVPR）上，2021年6月。2，6，70[12] Yisheng He, Wei Sun, Haibin Huang, Jianran Liu,Haoqiang Fan, and Jian Sun.Pvn3d:一种用于6自由度姿态估计的深度点云关键点投票网络。在IEEE/CVF计算机视觉和模式识别会议论文集中，页码11632-11641，2020年。1,2,3,4,6,70[13] Stefan Hinterstoisser, Vincent Lepetit, Slobodan Ilic, Ste- fanHolzer, Gary Bradski, Kurt Konolige, and Nassir Navab.基于模型的纹理无关3D物体在复杂场景中的训练、检测和姿态估计。在亚洲计算机视觉会议中，页码548-562，Springer，2012年。70会议论文集中，页码548-562，Springer，2012年。70[14] Tomas Hodan, Daniel Barath, and Jiri Matas.Epos:估计具有对称性的物体的6D姿态。在IEEE/CVF计算机视觉和模式识别会议论文集中，页码11703-11712，2020年。30[15] Tom´aˇs Hodan, Pavel Haluza, ˇ Step´an Obdrˇz´alek, JiriMatas, Manolis Lourakis, and Xenophon Zabulis.T-less:一种用于纹理无关物体6D姿态估计的RGB-D数据集。在2017年IEEE冬季计算机视觉应用会议中，页码880-888，IEEE，2017年。2,70[16] Tom´aˇs Hodaˇn, Jiˇr´ı Matas, and ˇ Stˇep´an Obdrˇz´alek.关于6D物体姿态估计的评估。在欧洲计算机视觉会议中，页码606-619，Springer，2016年。3,40[17] Tom´aˇs Hodaˇn, Martin Sundermeyer, Bertram Drost,Yann Labb´e, Eric Brachmann, Frank Michel, Carsten Rother,and Jiˇr´ı Matas.Bop挑战2020年6D物体定位。在欧洲计算机视觉会议中，页码577-594，Springer，2020年。10[18] Kurt Hornik.多层前馈网络的逼近能力。神经网络，4(2):251-257，1991年。20[19] Weitong Hua, Zhongxiang Zhou, Jun Wu, Huang Huang,Yue Wang, and Rong Xiong.Rede:端到端的物体6D姿态鲁棒估计，使用可微分的异常值消除。IEEE机器人与自动化快报，6(2):2886-2893，2021年。1,20[20] Yann Labb´e, Justin Carpentier, Mathieu Aubry, and JosefSivic.Cosypose:一致的多视角多物体6D姿态估计。在欧洲计算机视觉会议中，页码574-591，Springer，2020年。70[21] Chi Li, Jin Bai, and Gregory D Hager.一种用于多视角多类物体姿态估计的统一框架。在欧洲计算机视觉会议（ECCV）论文集中，页码254-269，2018年。2,4,80[22] Zhigang Li, Gu Wang, and Xiangyang Ji.Cdpn:基于坐标的解耦姿

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

ES6D：计算高效且对称感知的物体6D姿态回归框架

ES6：class的定义与继承，从ES5转换成ES6

Error: EINVAL: invalid argument, mkdir 'F:\es6:\nodejs\node_global'

es6语法 y有那些？

如何让nodejs支持es6模块语法

es6兼容问题怎么解决

es6模块化和commonjs区别

es6 常用设计模式

ES5函数转化ES6的class

java使用babel和polyfill 编译es6

vue 如何在public里支持es6语法

es6计算字符串长度

es5的类和es6区别

复杂的ES5函数转化ES6的class

vue xgplayer 引入_xgplayer中的知识点

uniapp设置外网访问

【图像融合】基于matlab深度学习医学图像融合【含Matlab源码 8038期】.md

最新资源