EPro-PnP：概率透视n点，用于通用端到端物体姿态估计的方法

201 浏览量更新于2023-10-25 收藏 13.33MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

hanshengchen97@gmail.com {tian wei, xiong lu}@tongji.edu.cn{pichao.wang, fan.w, lihao.lh}@alibaba-inc.comforwardbackwardforwardbackwardforwardbackwardforwardbackward27810EPro-PnP：用于单目物体姿态估计的通用端到端概率透视n点0Hansheng Chen, 1,2,* Pichao Wang, 2,† Fan Wang, 2 Wei Tian, 1,† Lu Xiong, 1 Hao Li 201 同济大学汽车学院 2 阿里巴巴集团0摘要0通过透视n点（PnP）从单个RGB图像中定位3D物体是计算机视觉中一个长期存在的问题。受端到端深度学习的推动，最近的研究表明可以将PnP解释为一个可微分的层，从而可以通过反向传播梯度来部分学习2D-3D点对应关系。然而，从头开始学习整个不受限制的2D-3D点集合无法收敛到现有方法，因为确定性姿态本质上是不可微分的。在本文中，我们提出了EPro-PnP，一种用于通用端到端姿态估计的概率PnP层，它在SE(3)流形上输出一个姿态分布，实质上将分类的Softmax带到连续的领域。2D-3D坐标和相应的权重被视为中间变量，通过最小化预测和目标姿态分布之间的KL散度来学习。这一基本原理统一了现有方法，并类似于注意机制。EPro-PnP在LineMOD 6DoF姿态估计和nuScenes3D物体检测基准测试中显著优于竞争基线，缩小了基于PnP方法和任务特定领域的差距。01. 引言0从单个RGB图像中估计3D物体的姿态（即位置和方向）是计算机视觉中的一个重要任务。这个领域通常被细分为特定的任务，例如机器人操作的6自由度姿态估计和自动驾驶的3D物体检测。尽管它们共享姿态估计的相同基础知识，但数据的不同性质导致了方法的有偏选择。在3D物体检测基准测试中，表现最好的方法[29, 42,44]属于直接预测4自由度姿态的类别，利用了端到端深度学习的进展。另一方面，6自由度姿态估计基准测试[19]主要由基于几何的方法[20,46]主导，这些方法利用提供的3D物体模型并实现了稳定的泛化性能。然而，将两者的优点结合起来，即以端到端的方式训练几何模型来学习物体姿态是非常具有挑战性的。最近有提议基于透视n点（PnP）方法的端到端框架[2, 4, 7,10]。PnP算法本身解决了从物体空间中一组3D点和它们在图像空间中的对应2D投影中求解姿态的问题，留下了构建这些对应关系的问题。传统的对应关系学习[9, 23, 24, 30, 30-32, 35, 40,46]利用几何先验构建替代损失函数，强制网络学习一组预定义的对应关系。端到端对应关系学习[2, 4, 7, 10]解释了0* 部分工作在阿里巴巴集团实习期间完成。† 通讯作者：PichaoWang, Wei Tian. 3代码：https://github.com/tjiiv-cprg/EPro-PnP0RGB图像加0网络EPro-PnP的概率化物体姿态0密集对应关系（可学习的3D坐标和权重）0可变形对应关系（可学习的2D-3D坐标和权重）0图1.EPro-PnP是一种通用的端到端2D-3D对应关系学习解决方案。在本文中，我们提出了两个不同的网络，使用EPro-PnP进行训练：(a)一个现成的密集对应关系网络，通过端到端训练释放其潜力，(b)一个新颖的可变形对应关系网络，探索完全可学习的2D-3D点的新可能性。0检测基准测试[6,14]属于直接预测4自由度姿态的类别，利用了端到端深度学习的进展。另一方面，6自由度姿态估计基准测试[19]主要由基于几何的方法[20,46]主导，这些方法利用提供的3D物体模型并实现了稳定的泛化性能。然而，将两者的优点结合起来，即以端到端的方式训练几何模型来学习物体姿态是非常具有挑战性的。最近有提议基于透视n点（PnP）方法的端到端框架[2, 4, 7,10]。PnP算法本身解决了从物体空间中一组3D点和它们在图像空间中的对应2D投影中求解姿态的问题，留下了构建这些对应关系的问题。传统的对应关系学习[9, 23, 24, 30,30-32, 35, 40,46]利用几何先验构建替代损失函数，强制网络学习一组预定义的对应关系。端到端对应关系学习[2, 4, 7, 10]解释了27820PnP作为可微分层，并采用姿态驱动的损失函数，使得姿态误差的梯度可以反向传播到2D-3D对应关系。然而，现有的可微分PnP方法只学习一部分对应关系（2D坐标[10]、3D坐标[2,4]或对应权重[7]），假设其他组件是先验给定的。这引发了一个重要问题：为什么不在端到端的方式中同时学习整个点集和权重？简单的答案是：PnP问题在某些点上本质上是不可微的，导致训练困难和收敛问题。更具体地说，PnP问题可能有模糊的解决方案，这使得反向传播不稳定。为了克服上述限制，我们提出了一种广义的端到端概率PnP（EPro-PnP）方法，可以完全从头开始学习加权的2D-3D点对应关系（图1）。主要思想很简单：确定性姿态是不可微的，但姿态的概率密度显然是可微的，就像分类分数一样。因此，我们将PnP的输出解释为由可学习的2D-3D对应关系参数化的概率分布。在训练过程中，通过有效的蒙特卡洛姿态采样计算预测姿态分布与目标姿态分布之间的Kullback-Leibler（KL）散度作为损失函数，这在数值上是可计算的。作为一种通用方法，EPro-PnP囊括了现有的对应关系学习技术（第3.1节）。此外，就像注意机制[38]一样，可以训练对应的权重以自动关注重要的点对，允许网络从与注意相关的工作[8,43,48]中获得灵感进行设计。总结起来，我们的主要贡献如下：0•我们提出了EPro-PnP，一种用于通过可学习的2D-3D对应关系进行端到端姿态估计的概率PnP层。0• 我们证明EPro-PnP可以通过将其插入CDPN[24]框架中轻松达到6DoF姿态估计的顶级性能。0•我们通过提出可变形对应关系学习来展示EPro-PnP的灵活性，用于准确的3D物体检测，其中整个2D-3D对应关系从头开始学习。02. 相关工作0基于几何的物体姿态估计通常利用在透视相机下受投影约束的点、边缘或其他类型的表示。然后，可以通过优化来解决姿态问题。大量的工作利用点表示，可以分为以下几类0稀疏关键点和密集对应。BB8 [32]和RTM3D[23]将3D边界框的角点定位为关键点，而PVNet[31]通过最远点采样定义关键点，Deep MANTA[9]通过手工制作的模板定义关键点。另一方面，密集对应方法[11, 24, 30, 40,46]在裁剪的2D区域内预测像素级的3D坐标。大多数现有的基于几何的方法采用两阶段策略，其中中间表示（即2D-3D对应关系）通过替代损失函数进行学习，这种方法与端到端学习相比是次优的。0端到端对应关系学习为了缓解替代对应关系学习的限制，已经提出了端到端的方法来从姿态到中间表示进行梯度反向传播。通过对PnP操作进行微分，Brachmann和Rother[4]提出了一种密集对应关系网络，其中3D点是可学习的，BPnP [10]预测2D关键点位置，BlindPnP[7]学习给定一组无序的2D/3D点的对应权重矩阵。除了点对应关系，RePOSE[20]提出了一种特征度量对应关系网络，以类似的端到端方式进行训练。上述方法都与替代正则化损失耦合，否则由于确定性姿态的不可微性，收敛性无法保证。在概率框架下，这些方法可以被视为拉普拉斯近似方法（第3.1节）或局部正则化技术（第3.4节）。0概率深度学习概率方法考虑了模型和数据的不确定性，分别称为认知不确定性和随机不确定性[21]。后者涉及将预测解释为可学习的概率分布。通过Softmax的离散分类分布已被广泛采用作为端到端分类的平滑逼近的一种方式。这启发了一些工作，如DSAC[2]，它是具有有限假设池的平滑RANSAC。同时，简单的参数分布（例如正态分布）经常用于预测连续变量[11, 15, 18, 21, 22,45]，混合分布可以用于进一步捕捉模糊性[1, 3,26]，例如模糊的6DoF姿态[5]。在本文中，我们提出了一个独特的贡献：反向传播一个由嵌套优化层（PnP层）导出的复杂连续分布，从而使连续版本的Softmax可处理。03. 广义端到端概率PnP03.1. 概述0给定一个物体提议，我们的目标是预测一组N个对应的点X= � x 3D i , x 2D i , w 2D i �� i = 1 ∙ ∙ ∙ N，其中3D物体坐标x3D i ∈ R 3，2D图像坐标x 2D i ∈ R 2和2D权重w 2D i ∈R 2+，来自于arg miny12N�i=1�w2Di◦�π(Rx3Di+ t) − x2Di�fi(y) R2�2,(1)p(X|y) = exp −12N�i=1∥fi(y)∥2.(2)p(y|X) =exp − 12�Ni=1∥fi(y)∥2exp12Ni=1 fi(y) 2 dy.(3)LKL = 12N∥fi(ygt)∥2 + logexp −12N∥fi(y)∥2 dy.g.t.g.t.g.t.Lpred ≈ log 1KK�j=1exp12Ni=1 fi(yj) 2,(6)27830加权PnP问题可以被形式化为相对于相机估计物体姿态的最优姿态y（扩展为旋转矩阵R和平移向量t），其本质是搜索一个最小化累积平方加权重投影误差的姿态：0其中π(∙)是带有相机内参的投影函数，◦表示逐元素乘积，f i(y)简洁地表示加权重投影误差。方程（1）构建了一个非线性最小二乘问题，可能有非唯一解，即姿态的模糊性[27,33]。以前的工作[4, 7,10]只通过局部解y�进行反向传播，这在本质上是不稳定且不可微分的。为了构建一个可微分的端到端学习的可替代方法，我们将PnP输出建模为姿态的分布，这保证了可微分的概率密度。考虑累积误差为似然函数p(X|y)的负对数，定义为：0通过额外的先验姿态分布p(y)，我们可以通过贝叶斯定理推导出后验姿态p(y|X)。使用一个无信息的先验，后验密度简化为归一化的似然函数：0方程（3）可以解释为分类Softmax的连续对应物。0KL损失函数在训练过程中，给定一个目标姿态分布，其概率密度为t(y)，通过最小化KL散度D KL(t(y)∥p(y|X))来作为训练损失。直观地说，姿态的模糊性可以通过p(y|X)的多个模式来捕捉，并且通过损失函数来确保收敛，使错误的模式被抑制。去掉常数后，KL散度损失可以写成：0L KL = − � t ( y ) log p ( X | y ) d y + log � p ( X | y ) d y.(4)0我们经验性地发现，将目标分布设置为以真实值ygt为中心的狭窄（类似Dirac）分布是有效的，从而得到简化的损失（在替换方程（2）后）：0� �� L tgt (目标姿态的投0� �� L pred (预测姿态的投影)0(5) 唯一剩下的问题是第二项中的积分，详见第3.2节。0离散分类0非归一化概率0连续姿态0连续姿态0适当的损失不适当的损失0图2.学习离散分类器与学习连续姿态分布的比较。判别性损失函数（左）将鼓励正确预测的非归一化概率，并对错误预测进行惩罚。单边损失（右）将在模型未经过良好正则化时降低分布。0与投影误差方法的比较公式（5）中的两个项分别涉及目标姿态和预测姿态的投影误差。前者经常被用作以前工作中的替代损失函数[4, 10,11]。然而，仅有第一项无法在不施加严格正则化的情况下处理学习所有2D-3D点，因为最小化可能会简单地将所有点驱使到一个集中的位置而没有姿态区分。第二项源自公式（3）中的归一化因子，对于判别性损失函数至关重要，如图2所示。0与隐式微分方法的比较现有的端到端PnP方法[7,10]通过隐函数定理[16]导出特定求解器的单个解 y � =PnP(X)。在概率框架中，这本质上是通过 N(y �, Σ y �)近似后验分布，其中 y � 和 Σ y �可以通过具有解析导数的PnP求解器进行估计[11]。特例是，当 Σ y �简化为齐次时，近似的KL散度可以简化为[7]中使用的L2损失 ∥ y � − y gt ∥2。然而，拉普拉斯近似对于具有歧义的非正态后验分布是不准确的，因此不能保证全局收敛。03.2. 蒙特卡洛姿态损失0在本节中，我们介绍了一种适用于GPU的高效蒙特卡洛方法，用于提议损失函数中的积分，基于自适应多重重要性采样（AMIS）算法[12]。考虑 q ( y ) 为近似积分被积函数 exp− 1 的提案分布的概率密度函数02 � N i =1 ∥ f i ( y ) ∥ 2 ，并且 y j 是从 q ( y ) 中抽取的 K个样本之一，则公式（5）中第二项 L pred 的估计为：0q ( y j ) � �� v j (重要性权重)0其中 v j 紧凑地表示 y j处的重要性权重。公式（6）给出了普通的重要性采样，其中∂LKL =∂1Nfi(ygt) 2E∂1Nfi(y) 2,− ∂LKL∂w2Di= w2Di◦�−r◦2i (ygt) + Ey∼p(y|X)r◦2i (y)�,(8)where ri(y) = π(Rx3Di+ t) − x2Di(unweighted reprojec-tion error), and (·)◦2 stands for element-wise square. Theﬁrst bracketed term −r◦2i (ygt) with negative sign indicatesthat correspondences with large reprojection error (hencehigh uncertainty) shall be weighted less. The second termEy∼p(y|X) r◦2i (y) is relevant to the variance of reprojectionerror over the predicted pose. The positive sign indicatesthat sensitive correspondences should be weighted more,because they provide stronger pose discrimination. The ﬁ-nal gradient is thus a balance between the uncertainty anddiscrimination, as shown in Figure 3. Existing work [11,31]on learning uncertainty-aware correspondences only con-siders the former, hence lacking the discriminative ability.12 Lpred ← log1T K′Tt=127840提案选择 q ( y )强烈影响数值稳定性。AMIS算法是一个更好的选择，因为它通过迭代地调整提案来适应被积函数。简而言之，AMIS利用过去迭代中的采样重要性权重来估计新的提案。然后，所有先前的样本被重新加权，被视为从总体提案的混合中均匀采样。初始提案可以通过预测姿态分布的模式和协方差确定（详见补充材料）。算法1给出了伪代码。0选择提案分布在位置和方向上的提案分布必须分别以解耦的方式选择，因为方向空间是非欧几里德的。对于位置，我们采用3自由度多变量t分布。对于仅有1维偏航方向，我们使用vonMises和均匀分布的混合分布。对于由单位四元数表示的3D方向，采用角度中心高斯分布[37]。03.3. 反向传播0一般来说，损失函数在公式（5）中的偏导数为：0（7）其中第一项是目标姿态的重投影误差的梯度，第二项是预测姿态分布上的重投影误差的期望梯度，通过在蒙特卡洛姿态损失中反向传播每个加权样本来近似计算。0平衡不确定性和判别性，考虑对应权重 w 2D i 的负梯度：03.4. 局部导数的正则化0算法1：基于AMIS的蒙特卡洛姿态损失0虽然KL散度是概率分布的良好度量标准，但在推断中仍需要进行以下操作：02 将 q 1 ( y ) 拟合到 y � , Σ y � // 初始提议03 输入： X = { x 3D i , x 2D i , w 2D i }输出： L pred 1 y � , Σ y � ← PnP ( X ) //拉普拉斯近似02 对于 1 ≤ t ≤ T从 q t ( y ) 生成07 对于 1 ≤ τ ≤ t 和 1 ≤ j ≤ K ′08 Q τ j ← 10t � t m =1 q m ( y τ j ) // 评估提议混合09 v τ j ← P τ j /Q τ j // 重要性权重010 如果 t < T 则执行以下操作：011 从所有加权样本{ y τ j , v τ j | 1 ≤ τ ≤ t, 1 ≤ j≤ K ′ } 估计 q t +1 ( y )0j =1 v t j0对应的权重输入0基本组件0判别性（姿态敏感性）逆不确定性0图3。学习到的对应权重可以分解为逆不确定性和判别性。通常，逆不确定性大致类似于前景掩码，而判别性强调物体的3D极端点。0通过求解公式（1）中的PnP问题来估计精确的姿态 y �。高精度的常见选择是利用基于Levenberg-Marquardt（LM）算法的迭代PnP求解器 -一种通过一阶和近似二阶导数来求解非线性最小二乘问题的鲁棒变体的高斯-牛顿（GN）算法。为了帮助基于导数的优化，我们通过鼓励LM步长 ∆ y 找到真实的姿态 y gt来对密度函数 log p ( y | X ) 关于姿态 y的导数进行正则化。为了在训练过程中使用正则化，首先获得一个分离的解 y � 。然后，在 y �处，通过GN算法评估另一个迭代步骤（如果 y �收敛到局部最优，则理想情况下等于0）：0∆y = - (JTJ + εI)^-1JT F(y�), (9)0其中 F(y�) = � fT1(y�), fT2(y�), ∙∙∙ , fTN(y�) �T是所有点的加权重投影误差的串联，J = ∂F(y)/∂yT��y = y�是雅可比矩阵，ε是用于数值稳定性的小值。请注意，∆y在解析上是可微的。因此，我们设计了以下正则化损失：Lreg= l(y� + ∆y, ygt), (10)̸cropped imageCNN (CDPN backbone + rot head)3D crd map3x64x64256x1x12x64x64spatial softmaxlinear, expglobal scale2x1x1weight map2x64x64pixel crd map2x64x6427850其中 l(∙, ∙)是姿态的距离度量。我们采用平滑L1用于位置和余弦相似度用于方向（详见补充材料）。请注意，梯度仅通过∆y进行反向传播，鼓励步长非零，如果y� ≠ygt。值得注意的是，这个正则化损失非常类似于从隐式微分[7,10]导出的损失函数，并且可以用于在有限范围内训练姿态细化网络[20]。04. 注意启发的对应网络0如第3.3节所讨论的，不确定性和区分性之间的平衡以类似注意机制的方式定位重要的对应关系。这启发我们从注意相关的工作中借鉴元素，即Softmax层和可变形采样[48]。在本节中，我们分别提出了两个具有EPro-PnP层的网络，用于6DoF姿态估计和3D物体检测。对于前者，EPro-PnP被纳入现有的密集对应架构[24]中。对于后者，我们提出了一个激进的可变形对应网络，以探索EPro-PnP的灵活性。04.1. 密集对应网络0为了与现有的基于PnP的姿态估计器进行严格比较，本文以CDPN[24]的网络作为基准，在其基础上进行了微小的修改以适应EPro-PnP。原始的CDPN将检测到的2D框内的裁剪图像区域输入到姿态估计网络中，其中附加了两个解耦的头部，分别用于旋转和平移。旋转头是基于PnP的，而平移头使用直接回归。本文舍弃了平移头，完全专注于PnP。只对输出层进行了修改。如图4所示，原始的置信度图扩展为具有空间Softmax和动态全局权重缩放的两通道XY权重。受注意机制[38]的启发，Softmax层是稳定训练的关键元素，因为它将绝对对应权重转化为相对测量。另一方面，全局权重缩放因子表示预测姿态分布的全局集中度，确保KL散度损失更好地收敛。密集对应网络可以仅通过KL散度损失L KL进行训练，以达到良好的性能。为了实现一流的性能，额外的坐标回归作为中间监督仍然是有益的，不是为了稳定收敛，而是为了引入来自3D模型的几何知识。因此，我们保留了CDPN[24]中的带掩码的坐标回归损失，但舍弃了其置信度损失。此外，性能0裁剪图像0CNN（CDPN骨干网络+旋转头）03D坐标图3x64x640256x102x64x640空间Softmax0线性，指数全局缩放2x1x10权重图2x64x640像素坐标图2x64x640图4. 从CDPN[24]修改的6DoF姿态估计网络，使用空间Softmax和全局权重缩放。0可以通过在公式（10）中施加正则化损失Lreg来提高性能。04.2. 可变形对应网络0受可变形DETR[48]的启发，我们提出了一种新颖的用于3D目标检测的可变形对应网络，其中整个2D-3D坐标和权重都是从头开始学习的。如图5所示，可变形对应网络是FCOS3D[41]框架的扩展。原始的FCOS3D是一个一阶段检测器，直接回归多个对象的中心偏移、深度和偏航方向，用于4DoF姿态估计。在我们的适应中，多级FCOS头部[36]的输出被修改为生成对象查询，而不是直接预测姿态。受可变形DETR[48]的启发，查询的外观和位置被分解为嵌入向量和参考点。采用多头可变形注意层[48]从密集特征中采样键值对，将值投影到点级特征中，同时聚合到对象级特征中。点特征被传递到一个子网络中，预测3D点和相应的权重（通过Softmax归一化）。根据MonoRUn[11]，3D点设置在归一化对象坐标（NOC）空间中，以处理各种尺寸的分类对象。对象特征负责预测对象级属性：（a）3D得分（即3D定位置信度），（b）权重缩放因子（与第4.1节相同），（c）用于恢复3D点的绝对尺度的3D框大小，以及（d）nuScenes基准[6]所需的其他可选属性（速度、属性）。可变形的2D-3D对应关系可以仅通过KL散度损失LKL进行学习，最好与正则化损失Lreg结合使用。其他辅助损失可以施加到密集特征上以提高准确性。详细信息请参见补充材料。FPNP2 s4P3 s8P4 s16P5 s32P6 s64P7 s128P3~P7centernessobjectembeddingP2~P5convconv, upsample,concatobj querydense feat s42D pointspoint feat3D score, weight scale, 3D size, (velocity, attribute)3D points (NOC)weightssamplingobj featEPro‐PnP(training mode)reference point (object center)classificationself attn(inferring mode)ρ(s) =27860P2 s40P3 s80P4 s160P5 s320P6 s640P7 s1280中心度对象嵌入0卷积0卷积，上采样，连接0对象查询0密集特征 s402D点0点特征03D得分、权重尺度、3D尺寸、（速度、属性）03D点（NOC）0采样0对象特征0（训练模式）0参考点（物体中心）分类0自注意力（推断模式）0图5. 基于FCOS3D[41]检测器的可变形对应网络。注意，采样的点级特征由点级子网络和可变形注意层共享，用于聚合物体级别的预测特征。05. 实验05.1. 数据集和度量0LineMOD数据集和度量LineMOD数据集[19]包含13个序列，每个序列包含约1.2K张图像，标注了单个对象的6DoF姿态。按照[3]的方法，图像被分为训练集和测试集，每个对象的训练集约有200张图像。为了数据增强，我们使用与CDPN[24]相同的合成数据。我们使用两个常见的评估指标：ADD(-S)和n°，ncm。ADD衡量转换后的模型点的平均偏差是否小于物体直径的一定比例（例如ADD-0.1d）。对于对称对象，ADD-S计算到最近模型点的平均距离。n°，ncm根据角度/位置误差阈值衡量姿态的准确性。所有指标均以百分比表示。0nuScenes数据集和度量 nuScenes3D目标检测基准[6]提供了1000个场景中收集的大规模数据。每个场景包含40个关键帧，总共标注了来自10个类别的1.4M个3D边界框。每个关键帧包括从周围摄像机收集的6个RGB图像。数据被分为700/150/150个场景用于训练/验证/测试。官方基准评估了在地面平面上通过2D中心误差判断的真正阳性的平均精度。mAP指标通过在0.5、1、2、4米的阈值上进行平均计算。此外，还有5个真正阳性指标：平均平移误差（ATE）、平均尺度误差（ASE）、平均方向误差（AOE）、平均速度误差（AVE）和平均属性误差（AAE）。最后，还有一个nuScenes检测分数（NDS），它是上述指标的加权平均值。05.2. 实现细节0EPro-PnP配置对于公式（1）中的PnP公式，实际的重投影成本通过Huber核函数ρ(∙)进行鲁棒化处理：0arg miny 1 20i =1 ρ � ∥ f i ( y ) ∥ 2 � . (11)0阈值为δ的Huber核0� s，s ≤ δ 2，0δ (2 √ s − δ )，s > δ 2 . (12)0我们使用自适应阈值，如补充材料中所述。对于蒙特卡洛姿态损失，我们将AMIS迭代次数T设置为4，每次迭代的样本数K'设置为128。损失权重被调整，使得LKL产生的梯度大小与典型的坐标回归相当，而Lreg的梯度保持非常低。采用[11]中的权重归一化技术计算LKL的动态损失权重。0训练密集对应网络为了进行严格的比较，通用设置与CDPN[24]相同（使用ResNet-34[17]作为骨干网络），只是将批次大小增加到32以减少训练时间。该网络在LineMOD数据集[19]上通过RMSprop进行160个epoch的训练。为了减少蒙特卡洛开销，从64×64的密集点中随机采样512个点来计算LKL。0训练可变形对应网络我们采用与FCOS3D[41]相同的检测器架构，使用ResNet-101-DCN[13]作为骨干网络。该网络在nuScenes数据集[6]上通过AdamW[25]优化器进行12个epoch的训练，每个批次包含12张图像，跨4个GPU。05.3. LineMOD基准结果0与CDPN基准的对比 CDPN[24]的每个单独修改的贡献在表1中显示。从结果可以看出：0•原始的CDPN严重依赖于直接位置回归，当减少为纯PnP估计器时，性能大幅下降（-17.46），尽管LM求解器部0使用KL散度损失的EPro-PnP显著改善了指标（+13.84），明显优于CDPN-Full（65.88 vs. 63.21）。0• 提出的正则化损失在性能上进一步提升（+1.88）。27870从A1初始化后，性能有明显改善（+5.46），因为CDPN已经使用了物体掩码的额外真值，提供了一个突出前景的良好初始状态。0• 最后，从更多的训练epoch（A1的160个epoch +320个epoch）中获得性能增益（+0.97），相当于CDPN-Full [24]（3个阶段×160个epoch）。0结果清楚地证明，EPro-PnP可以释放经典PnP方法的巨大潜力，而无需任何花哨的网络设计或解耦技巧。0与现有技术的比较如表2所示，尽管从较低的基线进行了修改，EPro-PnP轻松达到了与顶级姿态细化器RePOSE[20]相当的性能，后者对基于PnP的初始估计器PVNet[31]增加了额外的开销。在所有这些条目中，EPro-PnP是最直接的，因为它只是解决了PnP问题本身，而没有进行细化网络[20, 46]、解耦平移[24, 39]或多重表示[35]。0与隐式微分和重投影学习的比较如表3所示，当去除坐标回归损失时，隐式微分和重投影损失都无法正确学习姿态。然而，EPro-PnP能够从头开始学习坐标，甚至超过没有平移头的CDPN（79.46 vs.74.54）。这证实了EPro-PnP可以作为一种不依赖于几何先验的通用姿态估计器。0不确定性和区分性在表3中，重投影 vs.蒙特卡洛损失可以解释为仅不确定性 vs.不确定性-区分性平衡。结果表明，当中间坐标监督可用时，仅不确定性表现出较强的性能，而区分性是从头开始学习对应关系的关键因素。0端到端权重/坐标学习的贡献如表1所示，将权重从端到端损失中分离出来对性能的影响比将坐标分离出来的影响更大（-8.69 vs.-3.08），强调了类似注意力的端到端权重学习的重要性。0关于Softmax层的重要性学习相应的权重时，如果没有空间Softmax的归一化分母（因此变成了指数激活，如[11]中所示），则无法收敛，如表1所示。05.4. nuScenes基准测试结果0我们评估了EPro-PnP的3个变体：（a）基本方法，学习没有几何先验的可变形对应关系（通过正则化增强），（b）添加坐标回归损失，使用从可用LiDAR点提取的稀疏地面真值，如[11]中所示，（c）进一步添加测试时的翻转增强（TTA），以便与[41,42]进行公平比较。所有验证/测试集的结果为0ID方法ADD(-S)平均值0.02d 0.05d 0.1d0A0 CDPN-Full [24] 29.10 69.50 91.03 63.21 A1 CDPN w/o trans.head 15.93 46.79 74.54 45.75 (-17.46) A2 + Batch=32, LM solver21.17 55.00 79.96 52.04 (+6.29)0B0基本EPro-PnP 32.14 72.83 92.66 65.88 (+13.84) B1 + 正则化导数35.44 74.41 93.43 67.76 (+1.88) B2 + 从A1初始化 42.92 80.98 95.7673.22 (+5.46) B3 + 长时间调度（320个epoch） 44.81 81.96 95.8074.19 (+0.97)0C0 B0 → 分离坐标 29.57 68.61 90.23 62.80 (-3.08) C1 B0 →分离权重 22.99 61.31 87.27 57.19 (-8.69)0D0 B0 → 无Softmax分母差异0表1. 与CDPN基线的消融研究比较。CDPN的结果是使用官方代码复现的。0在C0/C1中，每个组件都可以从KL损失中单独分离出来，同时在C1中添加一个替代的掩码回归损失[24]。0方法2°, 2 cm 5°, 5 cm ADD(-S)00.02d 0.05d 0.1d0CDPN [24] - 94.31 - - 89.86 HybridPose [35] - - - - 91.3 GDRNet*[39] 67.1 - 35.6 76.0 93.6 DPOD [46] - - - - 95.15 PVNet-RePOSE[20] - - - - 96.10EPro-PnP 80.99 98.54 44.81 81.96 95.800表2. 与最先进的几何方法的比较。BPnP[10]没有包含在内，因为它采用了不同的训练/测试划分。*虽然GDRNet[39]只报告了其消融部分的性能，但与我们的方法仍然是一个公平的比较，因为两者都使用相同的基线（CDPN）。0主要损失坐标回归 2° 2 cm 2°, 2 cm ADD(-S) 0.1d0隐式差分[10]差异重投影[11] 0.32 42.30 0.16 14.56蒙特卡洛（我们的方法） 44.18 81.55 40.96 79.460隐式差分[10] � 56.13 91.13 53.33 88.74 重投影[11] � 62.79 92.9160.65 92.04 蒙特卡洛（我们的方法） � 65.75 93.90 63.80 92.660表3.在相同的密集对应网络上进行的损失函数比较实验。对于隐式差分，我们最小化方程（10）中的姿态距离度量，而不是BPnP[10]中的重投影度量姿态损失。0在表4中与其他方法进行比较。从验证结果可以观察到：0• 基本的EPro-PnP明显优于FCOS3D [41]基线（NDS0.425 vs.0.372）。尽管它部分受益于来自对应关系头的更多参数，但仍有很好的证据表明：通过适当的端到端流程，PnP可以在大规模数据上胜过直接姿态预测。04 https://git.io/JXZv60π/2π3π/22πYaw012Density0π/2π3π/22πYaw0.00.10.2Density0π/2π3π/22πYaw012Densityforwardle�rightrightbackward93.4395.7627880方法数据 NDS mAP 真阳性指标（越低越好）0mATE mASE mAOE mAVE mAAE0CenterNet [47] 验证 0.328 0.306 0.716 0.264 0.609 1.426 0.658 FCOS3D [41] 验证0.372 0.295 0.806 0.268 0.511 1.315 0.170 FCOS3D§† [41] 验证 0.415 0.343 0.7250.263 0.422 1.292 0.153 PGD§ [42] 验证 0.422 0.361 0.694 0.265 0.442 1.255 0.1850基本EPro-PnP 验证 0.425 0.349 0.676 0.263 0.363 1.035 0.196 + 坐标回归验证0.430 0.352 0.667 0.258 0.337 1.031 0.193 + TTA§ 验证 0.439 0.361 0.653 0.2550.319 1.008 0.1930MonoDIS [34] 测试 0.384 0.304 0.738 0.263 0.546 1.553 0.134 CenterNet [47] 测试0.400 0.338 0.658 0.255 0.629 1.629 0.142 FCOS3D§† [41] 测试 0.428 0.358 0.6900.249 0.452 1.434 0.124 PGD§ [42] 测试 0.448 0.386 0.626 0.245 0.451 1.509 0.1270EPro-PnP§ 测试 0.453 0.373 0.605 0.243 0.359 1.067 0.1240表4.nuScenes基准上的3D物体检测结果。不包括与ImageNet骨干网络以外的额外预训练方法进行比较。§表示测试时进行翻转增强（TTA）。†表示模型集成。0圆锥0行人0方向分布位置分布0（俯视图）0屏障0图6.预测的姿态分布可视化。方向密度明显是多模态的，捕捉到对称物体（屏障，圆锥）和不确定观测（行人）的姿态模糊性。0•关于反映姿态准确性的mATE和mAOE指标，基本的EPro-PnP已经超过了所有先前的方法，再次证明了EPro-PnP是更好的姿态估计器。坐标回归损失有助于进一步减小方向误差（mAOE 0.337 vs. 0.363）。0• 使用TTA，EPro-PnP在验证集上以明显的优势（NDS0.439 vs. 0.422）超过了现

下载后可阅读完整内容，剩余1页未读，立即下载