充分利用深度线索的单眼3D物体检测方法

201 浏览量更新于2023-10-26 收藏 40.89MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

27910多样性很重要：充分利用深度线索进行可靠的单眼3D物体检测0* Zhuoling Li和Zhan Qu为共同贡献作者。这项工作是在Zhuoling Li在华为诺亚方舟实验室实习期间完成的。†通讯作者。01 清华大学 2 华为诺亚方舟实验室0lzl20@mails.tsinghua.edu.cn { quzhan, zhouyang116, liu.jianzhuang, jianglihui1 } @huawei.com0wanghaoqian@tsinghua.edu.cn0摘要0作为一个固有的不适定问题，从单个图像中估计深度是单眼3D物体检测（M3OD）中最具挑战性的部分。许多现有方法依赖于预先设定的假设来弥补单眼图像中缺失的空间信息，并为每个感兴趣的对象预测一个唯一的深度值。然而，这些假设在实际应用中并不总是成立。为了解决这个问题，我们提出了一个深度求解系统，充分利用M3OD中子任务的视觉线索，并为每个目标的深度生成多个估计。由于深度估计本质上依赖于不同的假设，它们呈现出不同的分布。即使某些假设崩溃，仍然基于剩余假设建立的估计仍然可靠。此外，我们开发了一种深度选择和组合策略。该策略能够消除由于崩溃假设引起的异常估计，并自适应地将剩余估计组合成一个。通过这种方式，我们的深度求解系统变得更加精确和稳健。利用M3OD的多个子任务的线索，并且不引入任何额外信息，我们的方法在KITTI3D物体检测基准测试的中等测试集上相对于当前最佳方法提高了20%以上，同时仍保持实时效率。01. 引言0由于在自动驾驶和机器人导航中广泛应用，3D物体检测引起了广泛关注[2, 13, 14,42]。不准确的检测直接影响运动规划过程，并可能导致严重事故。因此，行业对精确和稳健的3D物体检测系统有很大需求。0* Zhuoling Li和Zhan Qu为共同贡献作者。这项工作是在ZhuolingLi在华为诺亚方舟实验室实习期间完成的。†通讯作者。0(a) 直接估计（1个深度）：0.6220 (b) 从高度估计深度（3个深度）：0.58310(c) 从关键点估计深度（16个深度）：0.3210 (d) 我们的系统（20个深度）：0.28190图1.使用不同多样性水平的各种深度求解策略的比较。每个图像下方的值是在KITTI验证集[12]上进行深度估计时，如果我们总是选择多个生成估计中最准确的深度，得到的平均绝对误差。如图所示，随着估计的多样性增加，误差减小。0最近提出的许多3D物体检测算法严重依赖于LiDAR[47]和立体相机[18]，因为它们能够直接感知周围的深度信息。然而，LiDAR传感器昂贵，而立体相机需要精确的在线校准[22]。这些限制使得仅使用单眼图像进行3D感知具有很大的潜力，因为它经济实惠且灵活部署。单眼3D物体检测社区近年来取得了显著进展。然而，单眼和基于LiDAR的方法之间仍然存在巨大的性能差距。这个差距是由于准确的3D物体定位依赖于精确的深度估计，并且从单眼图像中预测深度是一个固有的不适定问题[25]，这意味着单个图像中包含的信息不足以确定物体的深度。为了弥补信息的缺乏，当前的检测器通常会采用一些预先设定的假设。例如，SMOKE[21]假设深度可以从视觉像素中推断出来27920直接。MonoRCNN[39]假设目标的高度可以被精确估计，相机是一个理想的针孔成像模型[37]。然而，这些假设并不总是成立。当假设失败时，方法产生的单一深度变得不可靠。为了解决上述问题，我们开发了一个深度求解系统，为每个目标提供多样化的深度估计。与仅利用有限信息（直接估计和物体的高度）并生成相似深度的MonoFlex[45]不同，我们的方法充分利用各种属性组合（直接估计、关键点、方向和尺寸）来产生20个深度，呈现出多样化的分布。此外，由于这20个深度是通过建立在不同假设上的20个方程求解而得到的，当一些假设崩溃时，部分深度仍然是精确的。图1说明了多样性对单目深度估计的重要性，在可以从预测的深度中选择最准确的情况下。当仅应用直接估计（1个深度）时，深度估计的平均绝对误差（MAE）为0.6220。相反，利用我们的深度求解系统，MAE降低到0.2819。虽然我们的深度求解系统产生的深度包括有希望的估计，但它们也包含异常值。接下来的问题是如何选择有希望的估计并将它们合并为一个单一值。为此，我们设计了一种基于不确定性的迭代去除异常值并整合剩余深度的策略。第5.3节的实验结果表明，这种策略对整体性能至关重要。最后但并非最不重要的是，考虑到合并深度和3D框顶点的不确定性，我们提出了一种新的方案，称为3D几何置信度，来建模条件3D置信度。与现有的策略（如使用3DIOU建模置信度）相比，我们的方案具有更好的泛化能力。结合所有技术，我们提出了一种具有多样化深度估计的单目3D检测器，称为MonoDDE，在实际应用中充分利用单目图像中的深度线索，并产生可靠的3D检测框。我们的主要贡献总结如下：•我们指出深度估计的多样性对于单目3D物体检测至关重要。因此，我们开发了一种新颖的深度求解系统，为每个目标生成20个深度。•我们设计了一种策略，通过去除由于假设崩溃而引起的异常值，并将剩余可靠的估计合并为一个深度。此外，我们还开发了一种用于建模条件3D置信度的新方案。•使用单一模型，MonoDDE在KITTI数据集的Car类Moderate级别上相对于当前最佳方法的性能提高了20.96%，在Cyclist和Pedestrian类上分别排名第一和第二。02. 相关工作0单目3D物体检测。根据生成的深度形式，最近的单目3D物体检测算法主要可以分为两类：密集深度和稀疏深度方法。密集深度3D检测器为图像中的每个像素生成深度值。生成的密集深度图可以与原始RGB图像结合作为输入传递给模型，以生成3D物体检测框[25, 28,38]。或者，它也可以首先转换为伪3D点云，然后在其上应用基于LiDAR的3D检测器来得出结果[26, 33,35]。尽管密集深度方法取得了令人印象深刻的结果，但估计像素级深度具有挑战性，并且与仅预测几个关键点的深度相比，需要更复杂的主干网络。这个问题在一定程度上阻碍了密集深度方法的进一步改进[51]。稀疏深度方法只为每个识别目标生成一个有效的深度。它们的网络结构大多遵循一些优秀的2D检测器，如Faster RCNN [36]和CenterNet[48]。早期的稀疏深度方法依赖于大量生成锚点，并利用锚点中包含的信息回归所需的物体属性[7, 8,28]。然而，生成锚点的过程引入了不可忽视的噪声并增加了计算负担[21]。最近的稀疏深度3D检测器主要是基于中心的[22,49]，它们通过它们的2D中心[21]或投影的3D中心[27]来表示物体。这种无锚点的结构导致了更简单的模型结构、更少的超参数和更好的检测精度[20]。我们提出的MonoDDE也是基于中心的。0稀疏深度估计。先前的研究中的实验结果表明，深度估计是基于中心的方法中最关键的步骤 [ 45]，现有的稀疏深度估计可以大致分为3种策略，即直接深度估计 [ 21 ]、从高度估计 [ 39 ] 和透视n点 (PnP) [ 19]。在这三种策略中，直接深度估计是最容易实现的。以单目图像为输入，它完全依赖于深度神经网络来探索视觉线索并推断深度 [ 21 , 49]。此外，由于直接深度估计不需要手动注释，可以通过大规模无监督预训练来方便地提高精度，而无需标签 [ 31]。然而，由于单目深度估计是一个不适定的问题，在训练和测试图像之间存在显著的领域差异时，估计值是不可靠的。从高度根据目标的像素高度和估计的物理高度计算深度 [ 39]。由于属于同一类别的物体的物理高度相似，从高度比直接深度估计具有更好的泛化能力。x = (uc − cu)zfx,y = (vc − cv)zfy,(1)z = fyhh′ .(2)27930直接深度估计 [ 22]。然而，估计物理高度仍然是一个不适定的问题。与直接深度估计和从高度估计相比，PnP将物体的所有尺寸、方向和关键点信息结合起来构建几何约束 [ 19 , 20 , 22]，并使用最小二乘法 [ 29 ]来获得其位置。因此，PnP更有效地利用了信息。然而，PnP中的所有方程都紧密耦合在一起 [ 22]。这个问题导致了对每个深度的不确定性建模的困难。03. 初步0为了清晰地介绍我们的方法，我们首先回顾单目三维物体检测的目标。然后，给出第2节中提到的三种深度估计策略的数学形式，即直接深度估计、从高度估计和PnP。03.1. 单目三维物体检测0给定一张单独的图像，单目三维物体检测旨在找到每个感兴趣的物体，识别其类别并估计包含物体的三维框 B 。三维框B 可以进一步分为三个属性，即三维中心位置 ( x, y, z )，尺寸 ( h, w, l ) 和方向 (偏航角) θ 。根据 KITTI [ 12 ]的设置，物体的横滚角和俯仰角设置为0。在这些属性中，尺寸和方向与视觉外观密切相关，可以通过网络学习得到，而三维位置的估计具有挑战性。这是因为准确的三维位置的产生建立在精确的深度估计的前提之上。因此，如何正确估计深度是单目三维物体检测中最重要的研究课题。03.2. 深度估计策略0直接深度估计。给定输入图像 I，直接深度估计依赖于物体及其周围像素的外观来直接回归深度 z 。然后，利用投影的三维中心估计 ( u c , v c )，确定 x 和 y 的值：0其中 ( c u , c v ) 表示主点的坐标， f x 和 f y分别是水平和垂直焦距。从高度估计深度。从高度估计深度策略通过将其解耦为预测物体的物理高度 h 和像素高度 h ′来解决深度估计问题。根据 h 和 h ′ 计算 z的过程可以表示为：0获得 z 后，使用公式 ( 1 ) 计算 x 和 y。透视n点。由于3D物体检测中的物体被表示为长方体，我们可以利用它们的几何约束基于最小二乘法获得它们的3D位置。将物体坐标系下的3D关键点位置表示为 P o = ( x o , yo , z o ) T ，可以通过旋转矩阵 R 和平移向量 T将其转换到相机坐标系下：0[x_c, y_c, z_c]^T = R [x_o, y_o, z_o]^T + T, (3)0其中P_c = (x_c, y_c,z_c)^T表示该3D点在相机坐标系下的位置，而0R =0� cosθ 0 sinθ 0 1 -sinθ 0 cosθ0�0�, T = [x, y, z]^T. (4)0然后，给定相机内参矩阵K，我们可以将P_c投影到二维像素坐标系中的点(u, v)：0λ [u, v, 1]^T = K [x_c, y_c, z_c]^T, (5)0K =0� f_x 0 c_u 0f_y c_v 0 0 10�0�, λ = z_c. (6)0因此，物体坐标系中任意一点与其在二维成像平面上对应的像素之间的几何关系由方程(3)-(6)描述。在这些关系中，P_o是手动预定义的，K是已知的，而R和(u,v)是由网络估计的。因此，T = [x, y, z]^T0包含待计算的唯一变量。由于每个3D关键点提供2个几何约束，如果我们至少有2个关键点，可以使用最小二乘法同时获得x、y和z。04. 方法0本节详细介绍了我们提出的方法以及如何实现Mon-oDDE。04.1. 整体框架0MonoDDE的整体框架如图2所示。MonoDDE采用CenterNet[48]作为基础模型，用于生成判别性表示。具体而言，对于任何输入图像I，DLA34[44]被采用作为CenterNet的骨干网络，用于提取特征。我们建立了几个网络头来回归物体属性，包括分类热图、2D边界框、尺寸、关键点偏移、方向、深度和多个不确定性项。基于回归的属性，我们提出的深度求解系统以不同的方式产生20个多样的深度。随后，开发的鲁棒深度组合模块过滤掉异常值，并将剩余的估计组合为单个深度。将此深度值带入方程(1)，我们可以得到目标的位置，进一步通过回归的尺寸和方向得到其3D框。此外，我们的3D几何置信度（第4.4节）获得的检测置信度负责建模目标被正确识别的概率。𝑘𝑝𝑘𝑝"𝑘𝑝#𝑘𝑝$𝑘𝑝%𝑘𝑝&𝑘𝑝'𝑘𝑝(𝐻"𝐻$𝐻!𝐻#𝐻%27940输入图像0CenterNet0分类热图0尺寸0方向0关键点0直接深度0L0H0W0直接深度估计0不确定性03D几何置信度03D边界框0带有异常值的多样深度估计0异常值0去除异常值0组合可靠的深度0可靠的深度0鲁棒深度组合0组合深度0高度深度0关键点深度01个深度03个深度016个深度0深度求解系统0检测置信度0图2. MonoDDE的整体流程。0组合模块过滤掉异常值，并将剩余的估计组合为单个深度。将此深度值带入方程(1)，我们可以得到目标的位置，进一步通过回归的尺寸和方向得到其3D框。此外，我们的3D几何置信度（第4.4节）获得的检测置信度负责建模目标被正确识别的概率。04.2. 多样的深度估计0在这项工作中，我们希望我们开发的深度求解系统具有三个关键特征：(1)它应该专注于获取深度z，而不是计算x、y和z。 (2)与现有方法相比，它应该产生多个不同的估计值。(3)它应该充分利用所有可用的信息，包括视觉线索、估计的目标中心、尺寸、方向和关键点。为了实现上述目标，我们首先回顾了第3.2节中描述的几何约束。结合方程(3)-(6)，我们可以简化3D关键点在物体坐标系下与其对应像素(u,v)之间的关系为：0[−10˜u−11˜v]0[0�xz0� = [˜u˜v]0A + B, (7)0其中0˜u = u - c0fx, ˜v = v - cv0fy, (8)0A = [xosinθ - zocosθ], (9)0B = [xocosθ + zosinθyo]0N/A0从方程（7）可以观察到x、y和z出现在同一个方程中，这使得该系统无法仅仅获得z。为了解决这个问题，我们需要借助一些额外的先验知识。通过实验证明，大多数物体的中心可以被精确识别。超过85%的估计物体中心在其对应的真实点周围1个像素范围内。因此，方程（1）可以作为先验知识。将方程（1）插入方程（7），可以将方程（7）重新表达为：0(˜u - ˜uc)z = A˜u + xocosθ + zosinθ, (11)0(˜v - ˜vc)z = A˜v + yo, (12)0通过这种方式，方程（7）被分解为两个独立的方程，即方程（11）和（12），它们专注于求解z。每个3D顶点与其对应的投影像素之间的几何关系可以得到两个独立的深度。在我们的实现中，如图3(a)所示，我们选择一个3D框的8个顶点作为关键点来计算深度，提供16个不同的估计值。0关键点深0图3. 关键点和高度的深度。0此外，我们将直接深度估计和高度深度策略融入深度求解系统。具体而言，直接深度估计回归了投影的3D中心点的1个深度值，类似于[21]。对于高度深度，如图3(b)所示，我们将中心垂直线和角落垂直线的高度分为三组。.(14)µs =N�i=1ωiµi, σ2s =N�i=1ω2i σ2i .(15)Input: Estimated depths {zi}Ni=1 and their correspondingvariances σ2 N4:Update µs and σ2s according to Eqs. (14)–(15)5:Snew = ∅6:for i = 1 to N do10:12:SS ∪ SnewPm = P3d|2d · P2d,(16)where P2d is represented by the categorical heatmap scoreand P3d|2d denotes the conditional 3D confidence. Previousmethods often model P3d|2d with 3D IOU [6,40,43]. How-ever, since the training images are used to train the modeland the validation images are unseen, the mean 3D box IOUof the model on the training images is significantly higherthan that on the validation images. Due to the large IOUgap, directly employing 3D IOU in the training stage to trainthe network and regarding the predicted IOU as P3d|2d leadto poor results in the validation stage. Meanwhile, someworks have indicated that models trained with implicit su-pervision generalize better [46]. Hence, we model P3d|2dbased on the estimated variance in Eq. (13), which is im-plicitly learned. Specifically, following [45], we define the27950我们将深度分为三组，{H5}，{H1, H3}和{H2,H4}，与[45]类似。通过中心垂直线H5和方程（2）可以获得物体的深度，或者通过对立的角落垂直线（{H1和H3}或{H2和H4}）的深度求平均值。因此，我们建立了一个深度求解系统，可以输出20个不同的深度，其中16个来自我们新提出的几何约束（关键点深度），1个来自直接深度估计，3个来自高度深度。接下来的问题是如何从中选择可靠的深度。04.3. 鲁棒深度组合0在本小节中，我们提出了选择和组合可靠深度的策略。输出分布。假设每个估计的深度都遵循高斯分布[24]，模型通过最小化以下公式来学习预测该分布的均值和方差：0Lσ = |p - 0σ + logσ, (13)0其中，p和σ分别是输出分布的预测均值和标准差，p�表示真实值。需要注意的是，σ是从方程（13）中隐式学习得到的，不需要真实值。关于为什么网络可以以这种方式捕捉到分布的更多细节，请参考[10,16]。此外，我们将包含N个高斯分布变量si�N(µi,σ2i)的集合S={si}Ni=1定义为一个新的高斯分布，因为所有的头部都预测了同一个目标的深度。它是{si}Ni=1的加权和，权重{ωi}Ni=1通过加权最小二乘法[3]得到。0ωi = 1/σ2i0j=1 1/σ2j0因此，S的均值µ s 和方差σ 2 s 计算如下：0选择和组合可靠的深度。我们首先训练我们的模型，使用公式（13）预测20个深度分布的均值和方差，并将这20个分布组合成集合S。由于S及其包含的变量{ s i } N i=1都被视为高斯分布，我们可以根据3σ规则[32]过滤掉异常值，并设计一个类似期望最大化（EM）算法[11]的鲁棒算法。0算法1 鲁棒深度选择和组合。01: 初始化一个空集S = � 2: 如果σ 2 k = min {σ 2 1 , σ 2 2 , ..., σ 2 N }，则将z k 放入S中07: 如果z i ∈ ( µ s - 3σ s，µ s +3σ s )且z i / ∈ S，则Snew ← S new ∪{ z i }。09: 如果S new 为空，则011: 结束013: 结束 while输出：µ s0在该算法中，我们首先将S初始化为空集，并将具有最小方差的深度放入S中。在最大化步骤中，使用公式（14）-（15）更新µ s 和σ 2 s。在期望步骤中，将落在（µ s - 3σ s，µs + 3σs）范围内的深度添加到S中。我们重复最大化和期望步骤，直到µ s 和σ 2 s 收敛。然后，将所有落在（µ s - 3σ s，µ s+ 3σs）范围之外的深度视为异常值并移除。这样，可靠的深度包含在S中。我们直接使用最终的µ s作为后续操作的组合深度zc。鲁棒深度组合的伪代码如算法1所示。04.4. 3D几何置信度0设P m为目标被正确检测到的概率（也称为置信度）。根据概率链规则，可以将其分解为两个项：d = 1 − min{σ2, 1}.(17)P3d|2d = ωcdc + ωbdb,(18)27960将具有不同方差σ 2 的估计项的置信度d建模为：0在本工作中，我们将P 3 d | 2 d建模为两个项的加权和，即组合深度置信度d c和3D包围框置信度d b ：0其中，ω c 和ω b 是根据σ 2 c 和σ 2 b使用公式（14）计算得到的。方程（18）中的P 3 d | 2 d是我们设计的3D几何置信度。确定d c 的组合深度方差σ 2c 是通过公式（13）学习得到的。我们不直接使用σ 2 s作为σ 2 c，因为观察到估计的σ 2 c可以得到更精确的值。同时，类似于公式（13），通过最小化来获得3D包围框的方差σ 2 b：0Lb =0i=1 |vi−v�i|0σb + logσb, (19)0其中{vi}8i=1表示8个3D框顶点的坐标，{v�i}8i=1表示它们的真值。04.5. 网络头部0本小节简要描述了检测头的实现。每个头包括两个卷积层和一个批归一化层。分类热图。它负责区分对象的类别和定位目标点。在这项工作中，我们使用投影的3D中心作为目标点的真值，并采用MonoFlex中设计的表示解耦策略来处理截断的对象。损失函数遵循[21]。方向。与[30]类似，我们回归观察角度α而不是偏航角θ，并使用MultiBin损失训练网络。α被分为4个bin，然后根据α计算θ。尺寸。为了与现有工作保持一致，我们预测尺寸的对数尺度偏移，而不是直接输出绝对尺寸。详细信息请参考[48]。关键点。按照[45]的方法，MonoDDE回归从目标点到10个预定义的2D关键点的偏移量，包括3D边界框的8个顶点、底部中心和顶部中心。深度。该头负责生成直接估计的深度z。值得注意的是，MonoDDE学习拟合[9]中的指数变换形式的z的值，而不是直接估计z的绝对值。不确定性。基于公式（13），我们强制网络捕捉20个深度值、组合深度zc和3D框的不确定性（方差）。05. 实验0数据集。我们的方法在KITTI3D物体检测基准测试[12]上进行评估，该数据集包括7481张训练图像和7518张测试图像。由于测试数据的注释不可用，我们根据[50]将训练数据进一步划分为训练集（3712张图像）和验证集（3769张图像）。我们报告的检测类别包括汽车、行人和骑自行车。此外，根据像素高度、遮挡比例等，KITTI中的对象被分为三个难度级别（简单、中等和困难）。评估指标。平均精度（AP）和鸟瞰图（BEV）的3D边界框是比较性能的主要指标。按照[41]的方法，采样40个召回位置来计算AP。对于汽车，IOU阈值为0.7，对于行人和骑自行车，IOU阈值为0.5。实现细节。MonoDDE训练100个epoch，初始学习率为3e-4。使用AdamW优化器[23]更新模型的权重，并在第80和90个epoch时衰减学习率[34]。批量大小设置为8，整个训练过程在一块Tesla V100GPU上进行。随机水平翻转是唯一的数据增强操作。05.1. 定量结果0我们将我们的方法与KITTI基准测试上最近的SOTA单目3D物体检测方法进行比较。汽车类别的检测结果在表1中报告，行人和骑自行车的比较在表2中给出。为了方便观察，最佳和次佳结果分别以粗体和下划线表示。如表1所示，以单目图像作为输入，MonoDDE在测试集和验证集上都表现出色，而不引入任何额外信息。例如，MonoDDE在Mod-erate级别的AP3D70上比最近的SOTA方法Autoshape（利用CAD模型作为额外线索）提高了2.97%。换句话说，相对于14.17%，MonoDDE相对于Autoshape提高了20.96%（2.97÷14.17）。在表2中，MonoDDE明显优于所有稀疏深度方法（M3D-RPN、MonoPair、DFR-Net和MonoFlex）。虽然MonoDDE在行人类别上略逊于CaDDN（一种伪激光雷达方法），但MonoDDE的速度要快得多（MonoDDE：0.04s/图像 vs.CaDDN：0.63s/图像）。我们推测MonoDDE在行人方面表现不佳，是因为行人是非刚性的，而且与汽车相比要小得多。因此，很难识别行人的关键点，而伪激光雷达方法则不会受到这个问题的困扰。05.2. 深度估计消融研究0本小节旨在研究各种深度估计方法对3D物体检测精度的影响。为此，我们在KITTI的汽车类上进行了实验。M3D-RPN [4]E-14.769.717.4221.0213.6710.2314.5311.078.650.16SMOKE [21]E-14.039.767.8420.8314.4912.75---0.03MonoPair [9]E-13.049.998.6519.2814.8312.8916.2812.3010.420.06Monodle [27]E-17.2312.2610.2924.7918.8916.0017.4513.6611.680.04GrooMeD-NMS [17]E-18.1012.329.6526.1918.2714.0519.6714.3211.270.12Kinematic3D [5]EVideo19.0712.729.1726.6917.5213.1019.7614.1010.470.12CaDDN [35]EDepth19.1713.4111.4627.9418.9117.1923.5716.3113.840.63DFR-Net [51]EDepth19.4013.6310.3528.1719.1714.8424.8117.7814.410.18MonoEF [49]E-21.2913.8711.7129.0319.7017.26---0.03MonoRCNN [39]H-18.3612.6510.0325.4818.1114.1016.6113.1910.650.07RTM3D [20]P-14.4110.348.7719.1714.2011.99---0.05KM3D [19]P-16.7311.459.9223.4416.2014.47---0.03Autoshape [22]PCAD22.4714.1711.3630.6620.0815.9520.0914.6512.070.04MonoFlex [45]EH-19.9413.8912.0728.2319.7516.8923.6417.5114.830.03M3D-RPN [4]4.923.482.940.940.650.47MonoPair [9]10.026.685.533.792.121.83CaDDN [35]12.878.146.767.003.413.30DFR-Net [51]6.093.623.395.693.583.10MonoFlex [45]9.436.315.264.172.352.04clist✓24.2018.0115.8832.5324.5221.33✓25.0118.3615.3233.1524.8321.40✓24.4818.7415.8832.8925.2921.51✓✓25.2618.7416.2633.6825.2621.95✓✓24.4818.8215.9633.6925.4722.22✓✓25.6419.1816.2934.1425.6522.43✓✓✓26.6619.7516.7235.5126.4823.0727970方法深度额外测试，AP 3D 70（%）测试，AP BEV 70（%）验证，AP 3D 70（%）时间（秒）简单中等困难简单中等困难简单中等困难0MonoDDE（我们的方法）EHK - 24.93 17.14 15.10 33.58 23.46 20.37 26.66 19.75 16.72 0.040表1. MonoDDE与KITTI汽车类上最新SOTA方法的性能比较。根据第2列显示的深度求解策略进行排序（E: 直接深度估计，H: 高度深度，P:PnP，K: 关键点深度）。0方法0测试，AP 3D 50（%）0行人骑车者0简单中等困难简单中等困难0MonoDDE（我们的方法）11.13 7.32 6.67 5.94 3.78 3.330表2. KITTI上行人和骑车者类的性能比较。0为此，我们比较了基于不同组合的三种策略（直接深度估计、高度深度和关键点深度）预测深度的模型的性能。该模型在KITTI训练集上进行训练，并在KITTI验证集的汽车类上进行评估。结果报告在表3中。0E H K 验证，AP 3D 70（%）验证，AP BEV 70（%）0简单中等困难简单中等困难0表3. 深度估计策略的消融研究（E: 直接深度估计，H: 高度深度，K:关键点深度）。我们用粉色突出显示了MonoDDE采用的策略。0如表3中的第1-3行结果所示，当分别应用三种深度估计策略时，基于关键点深度的模型在中等和困难情况下表现最好，而仅进行直接深度估计的模型表现最差。其根本原因是关键点深度为每个目标提供了最多线索（16个深度），而直接深度估计只产生了1个深度。根据表3的最后4行结果，如果将两种深度求解策略结合起来，则可以获得更好的性能。0选择组合验证集，AP3D70（%）验证集，AP BEV70（%）0简单中等困难简单中等困难0无困难 25.71 19.13 16.39 34.30 25.72 22.39 无平均 18.08 14.31 12.3424.60 19.10 16.71 无加权 25.81 19.26 16.34 34.25 25.83 22.50 最小加权26.31 19.59 16.58 34.79 26.09 22.780迭代加权 26.66 19.75 16.72 35.51 26.48 23.070理想情况无 49.96 38.73 33.06 58.69 43.96 37.650表4. 深度选择和组合策略的分析。0通过组合多个深度估计，可以获得更好的结果，因为增加了估计的多样性。当我们将所有三种策略组合起来时，可以获得最佳性能，每个检测到的物体总共生成20个深度。05.3. 对深度选择和组合的分析0在本小节中，我们分析了深度选择和组合策略对结果的影响。我们比较了以不同方式处理估计的模型的性能。结果在表4中呈现。第一列表示如何选择可靠的深度。具体来说，“无”表示不进行选择。“最小”表示将最小估计方差视为集合S的方差。“迭代”是指在算法1中描述的提出的迭代策略。“困难”表示我们使用具有最小方差的值作为组合深度zc。“平均”和“加权”表示zc分别是深度估计的平均值和加权和。值得注意的是，表4的最后一行（灰色）显示了如果总是从20个深度的集合中选择最佳深度的性能。MonoDDE采用的策略用粉色突出显示。比较表4中结果的第二行和第三行，我们可以注意到有必要对网络输出的方差进行建模，并使用加权和操作在公式（15）中组合估计。此外，根据表4的第三行和第五行，使用算法1去除异常值可以有效提高检测精度。27980图4.KITTI验证集（左）和测试集（右）上的一些示例可视化。最后一行展示了失败的案例。3D绿色框由MonoDDE生成，橙色框为真实值。我们用黄色椭圆圈标出了标注员未能标记的目标，用红色椭圆圈标出了未检测到的目标。0值得注意的是，如表4的最后一行所示，如果我们开发出一个完美的策略，总是从20个深度中选择最准确的深度，中等级别上的AP3D70可以达到38.73%。这一现象表明如何选择准确的深度值得进一步研究。05.4. 对3D几何置信度的分析0在本小节中，我们研究了不同的P3d|2d建模策略对MonoDDE性能的影响。我们比较了基于不同策略的模型，并将结果呈现在表5中。在表5的第一列中，“无”表示我们直接将2D分类热图得分视为检测置信度Pm。“3DIOU”表示我们训练了一个特定的网络头来回归基于3DIOU定义的P3d|2d。将估计框与其真实值之间的3DIOU表示为I3D，P3d|2d=min{max{2I3D-0.5,0},1}，参考[19]。“d1-d20”表示P3d|2d基于20个深度估计的置信度通过加权和计算。0i=1 ωi di）类似于公式（18）。“dc”和“db”表示我们建模0使用组合的深度置信度dc和3D框置信度db来建模P3d|2d。MonoDDE采用的策略是“3DConfidence”（标记为粉色）。从表5中，我们主要观察到两个事实：（1）比较结果的第一行和第二行，可以发现使用3DIOU建模P3d|2d并不总是提升性能。（2）根据第三行到第六行的数值，使用我们提出的策略建模P3d|2d可以得到最佳结果。0策略 Val, AP 3 D 70 (%) Val, AP BEV 70 (%)0简单中等困难简单中等困难0无 23.67 18.15 15.41 31.59 24.57 21.45 3D IOU 22.67 18.54 16.0630.30 24.14 21.17 d 1 – d 20 25.32 19.08 16.12 33.37 25.39 22.16 d c25.58 19.12 16.17 33.76 25.72 22.34 d b 26.02 19.48 16.43 34.1425.87 22.8803D置信度 26.66 19.75 16.72 35.51 26.48 23.070表5. 对建模条件3D置信度策略的分析.05.5. 定性结果和限制0我们在KITTI验证集和测试集上展示了MonoDDE生成的一些3D框和BEV图。如图4所示，尽管一些目标没有被标注者标记，但它们仍然被MonoDDE正确检测到。然而，如图4的最后一行所示，与其他方法类似，MonoDDE在检测严重遮挡目标方面的性能有限。06. 结论0在本文中，我们提出了一种稳健的单目3D检测器，可以为每个目标生成多样的深度估计，并将可靠的估计组合成单一深度。此外，我们还开发了一种建模条件3D置信度的新方法。实验结果表明，我们提出的所有技术都是有效的，为单目3D物体检测建立了新的SOTA。我们希望这项工作能够为解决单目图像中缺失深度信息的问题提供启示。我们感谢MindSpore [ 1]对本工作的部分支持，MindSpore是一个新的深度学习计算框架。27990参考文献0[1] Mindspore. https://www.mindspore.cn. 8 [2] EduardoArnold, Omar Y Al-Jarrah, Mehrdad Dianati, Saber Fallah,David Oxtoby, and Alex Mouzakitis.自主驾驶应用的三维物体检测方法综述. IEEE T-ITS ,20(10):3782–3795, 2019. 10[3] Tihomir Asparouhov and Bengt Muth´en.带有缺失数据的加权最小二乘估计. Mplus Technical Ap-pendix , 2010:1–10, 2010. 50[4] Garrick Brazil and Xiaoming Liu. M3d-rpn:单目三维区域建议网络用于物体检测. In ICCV , pages9287–9296, 2019. 70[5] Garrick Brazil, Gerard Pons-Moll, Xiaoming Liu, and BerntSchiele. 单目视频中的运动学三维物体检测. In ECCV , pages135–152, 2020. 6 , 70[6] Hansheng Chen, Yuyao Huang, Wei Tian, Zhong Gao

下载后可阅读完整内容，剩余1页未读，立即下载