M3DSSD:单目3D单级物体探测器的特征对齐和非对称非局部注意

13 浏览量更新于2024-01-22 收藏 1.7MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6145M3DSSD：单目3D单级物体探测器Shujie Luo1 Hang Dai3 凌少3，4永定21浙江大学2浙江大学3穆罕默德·本·扎耶德人工智能大学，阿联酋阿布扎比4Inception Institute of Artificial Intelligence，阿布扎比，阿联酋* 通讯作者{hang. mbzuai.ac.ae，dingy@vlsi.zju.edu.cn}.摘要在本文中，我们提出了一个单目3D单级目标检测器（M3DSSD）的特征对齐和非对称非局部注意。当前基于锚点的单目3D目标检测方法存在特征不匹配的问题。为了克服这个问题，我们提出了一个两步的特征对齐方法.在第一步中，执行形状对准以使特征图的感受野能够聚焦于具有高置信度分数的预定义锚点。在第二步中，中心对准用于在2D/3D中心处对准特征。此外，通常难以学习全局信息并捕获长期关系，这对于对象的深度预测是重要的。所以我们提出提出了一种新的非对称非局部注意力块，采用多尺度采样来提取深度特征。所提出的M3DSSD在3D对象检测和鸟瞰任务中均比KITTI数据集上的单目3D对象检测方法实现了显著更好的性能。代码发布在 https ：//github。com/mumianyuxin/M3DSSD.1. 介绍三维物体检测是机器通过检测周围物体的位置和类别来感知周围环境的一种方法3D物体检测的目标是生成由大小、位置和方向参数化的3D边界框（BBoxes）以定位检测到的物体。大多数现有方法严重依赖LiDAR [28，32，35，34，33]，因为LiDAR可以生成具有高精度深度信息的点云数据，这增强了3D对象检测的准确性。然而，成本高，激光雷达的使用寿命使其难以在实际中得到广泛应用。虽然基于双目相机的方法[21，30，17，11，7]实现了良好的检测结果，但这仍然不是一个便宜的选择，并且在校准双目相机时通常存在困难。相比之下，单目相机具有成本效益，非常容易组装，并且可以为3D对象检测提供丰富的视觉信息单目3D物体检测具有巨大的应用潜力，例如自动驾驶车辆和送货机器人。单目3D物体检测是一个非常复杂的任务，没有在成像过程中提供的深度为了解决这一问题，研究人员对单目图像的深度估计例如，[5，2]利用CAD模型来帮助估计车辆的深度。类似地，在[37，1，40]中采用预先训练的深度估计模型来估计场景的深度信息。然而，这样的方法在单眼3D对象检测中直接或间接地使用3D深度地面实况数据。同时，没有深度估计的方法[3，12]也可以在3D对象检测任务中实现高精度。在本文中，我们提出了一种用于单目图像的3D对象检测器，该检测器在KITTI基准测试中达到了最先进的性能[15]。人类可以感知单色图像中的对象离相机有为什么会这样？人脑在理解物体的深度时对于同样大小的物体，从固定的角度看，越大越近。受此启发，我们提出了一种新的非对称非局部注意力块（ANAB）来计算在一个位置的响应作为在所有位置的特征的加权和。受[10，46]的启发，我们使用多尺度的局部特征和可以表示全局信息的特征来学习深度特征。多尺度特征可以降低计算成本。多尺度下的注意力地图显示了采样之间的明确相关性6146空间分辨率和物体的深度。在单级单目3D对象检测方法中，同时检测2D和3DBBox。然而，对于基于锚点的方法，在2D和3D BBox的预测中存在特征失配。出现这种情况有两个原因：（1）特征的感受野在长宽比和大小方面与锚点的形状不匹配;（2）锚点的中心，通常被认为是特征图的感受野的中心，与对象的中心不重叠。未对准影响3D对象检测的性能。因此，我们提出了一个两步的特征对齐方法，旨在对齐的功能在2D和3D BBox回归。在第一步中，我们根据预定义锚点的分类置信度得分获得目标区域。这允许特征图的感受野聚焦于具有高置信度分数的在第二步中，我们使用2D/3D中心的预测结果来计算特征偏移，该特征偏移可以减轻预测与其对应的特征图之间的差距我们将我们的贡献总结如下：• 我们提出了一种简单但非常有效的单目3D单阶段目标检测（M3DSSD）方法。的M3DSSD在3D物体检测和鸟瞰图任务中，使用单个模型在KITTI数据集上针对汽车、行人和骑自行车者物体类实现了比单目3D物体检测方法更好的性能• 我们提出了一种新的非对称非局部注意块多尺度采样的深度方向的特征提取，从而提高了准确性，物体深度估计。• 我们提出了一个两步特征对齐模块来克服感受野大小和锚点大小的不匹配以及未对齐在对象中心和锚中心。2. 相关工作为了估计单目图像中的深度信息，研究人员提出了许多不同的方法。例如，[42，8，23]利用点云数据获得准确的3D空间信息。Pointfusion [42]使用两个网络来处理图像和原始点云数据，然后在特征级融合它们。MV3D[8]使用多视图表示对稀疏点云进行编码，并执行基于区域的特征融合。Liang等人[23]利用LiDAR和图像的特征图之间的逐点特征融合机制。Li-DAR点云与图像融合方法取得了良好的效果.然而，由于价格昂贵，目前LiDAR还不能车辆的 CAD 模型也用于单目 3D 物体检测。Barabanau等人[2]通过关键点的几何推理来检测3D对象。具体而言，汽车的尺寸、旋转和关键点由卷积神经网络预测。然后，根据关键点在Deep MANTA [5]使用卷积神经网络预测车辆与预定义的3D模板之间的相似性，以及关键点的坐标和可见性最后，给定对象关键点的2D坐标和3D模板上的相应3D坐标，可以通过标准2D/3D匹配来然而，在各种车辆中收集CAD模型是困难的。在[37，13，25，1，41，4]中采用单目深度估计网络来估计深度或视差图。大多数方法将估计的深度图转换为点云表示，然后利用基于LiDAR的方法来回归3D BBox。这些方法的性能在很大程度上依赖于深度图的准确性。D4LCN [13]提出了一种新型卷积，称为深度引导卷积，其中卷积的权重和感受野可以从估计的深度自动学习。预测的3D BBox的投影应与预测的2D BBox一致。这被用于在[27，14，26]中构建几何约束以确定深度。由于卷积神经网络在2D对象检测中的良好性能，已经提出了越来越多的方法[3，20，31，30，29，24，12，16]，使用设计良好的卷积神经网络直接预测3D BBox，用于单目3D对象检测。GS3D [20]提出了一个两阶段的3D对象检测框架，其中利用表面特征提取来消除使用2D边界框带来的表示模糊性问题M3 D-RPN [3]提出了一种基于锚点的单级3D对象检测器，可同时生成2D和3D BBox。M3 D-RPN取得了良好的性能，但它没有解决的特征错位的问题。3. 方法在本节中，我们描述了所提出的M3 DSSD，它由四个主要组件组成：骨干，特征对齐，非对称非局部注意力块和2D-3D预测头，如图1所示。每个组件的详细信息如下所述。3.1. 骨干在[43]之后，我们采用深层聚合网络DLA-102作为骨干。自适应地改变6147iS×kh2jS×kw2中心对准骨干形状对齐中心对准w2dh2dz3d3D世界H3αy3dANABCLSX2dX3dy2d(a)(b)（c）第（1）款图1：M3DSSD的架构（a）框架的骨架，其由DLA-102修改而来[43]。（b）两步特征对齐、分类头、2D/3D中心回归头和特别设计用于预测深度z3d的ANAB。(c)其他回归头。感受野和增强特征学习[44，24]，分层聚合连接中的所有卷积都被可变形卷积（DCN）[45]取代。下采样率被设置为8，并且输出的大小被put特征图为256×H/8×W/8，其中H和W是输入图像的高度和宽度。3.2. 特征对准基于锚点的方法经常遭受特征不匹配。一方面，如果特征的感受野在纵横比和尺寸方面与锚的形状不匹配，则会发生这种情况。另一方面，锚的中心，通常被认为是特征的接收场的中心，可能不与对象的中心重叠。特征对齐包括形状对齐和中心对齐：（1）形状对齐-信心周边地区特征图偏移对齐转换逐元素添加输出特征图目标是迫使特征图的感受域聚焦在具有最高分类置信度分数的锚点上;（2）执行中心对准以减小对象中心上的特征与表示锚点中心的特征之间的间隙。与先前通过两次回归应用于一阶段对象检测的特征对齐方法[10，38]不同，所提出的特征对齐可以应用于一次，这是更有效和自适应的。图2：形状对齐的架构和结果物体的形状对齐。黄色方块表示AlignConv的采样位置，锚点为红色。结果。正常卷积可以被认为是AlginConv的特殊情况，其中偏移等于零。与[9]中提出的RoI卷积不同，我们在一次拍摄中对齐感受野的形状或中心的位置。当在具有步幅S的特征图上执行形状对齐时，卷积的偏移（Osa，Osa）形状对齐我们可以首先获得前景re-i j根据分类结果，然后，前景区域中的特征的接收场可以聚焦于具有最高置信度分数的锚点，如图2所示。这是有意义的，因为在位于相同位置的所有锚点中，具有最高置信度的锚点更有可能在NMS算法之后保留。我们在形状对齐和中心对齐的实现中使用称为AlignConv的卷积AlignConv类似于可变形卷积[45]。不同之处在于，前者的偏移量是从预测值计算出来的其中核大小kh×kw被定义为：O sa=（ha−1）×（i−kh+0. （5）、（1）O sa=（wa−1）×（j−kw+0. （5）、（2）其中ha、wa是具有最高置信度的锚的高度和宽度。中心对齐中心特征对齐的目的是将对象中心的特征与代表锚点中心的特征对齐。如图所示61481x1转换奎里1x1转换关键PA21x1转换关注1x1转换值PA2矩阵M元件乙状……N x CSoftmaxC x LL x C特征图SK=我J偏移_x偏移_y要素地图偏移对齐转换逐元素添加输出特征图特征图多重的-wise添加注意力图特征图描述符Concat图3：中心对齐的架构和中心对齐的结果。当对对象应用中心对齐时，前景区域（白色）上的采样位置都集中在中心对齐后的对象中心（黄色）上，这些中心靠近对象的真实中心（红色）。在图3中，来自2D/3D中心回归的预测结果用于计算具有步幅S的特征图上的卷积的偏移：输出图4：上图：非对称非局部注意力障碍。键和查询分支共享相同的注意力地图，这迫使键和值集中在同一个地方。底部：注意力金字塔平均池化（PA2），它以各种分辨率生成不同级别的描述符。块（ANAB），它可以提取多尺度特征，以提高特征学习的计算成本低贾跃亭，Oca =XR、（3）S如图4顶部所示，我们使用键和值分支的金字塔特征来降低计算成本。图的底部图4显示了金字塔Av-其中xrYR是2D/3D的预测结果注意力集中（PA2）模块。不同分别以物体为中心。如图3所示，当将具有1×1卷积核的中心对齐应用于特征图时，采样位置自适应地集中在对象的中心。3.3. 非对称性非局部注意阻滞我们提出了一种新的非对称非局部注意块，通过提取能够代表全局信息和长距离依赖的深度方向特征来提高深度z3d标准的非局部块[39]在建立该算法具有长相关性，但其计算复杂度为O（N2C），其中N=h×w，h，w和C分别表示与普通卷积相比，这在计算上是非常昂贵和低效的。所以，AP。褶皱有限。非对称金字塔非局部块[46]通过使用金字塔池减少特征描述符的数量来降低计算成本然而，在同一个特征图上的金字塔池可能会导致低分辨率的特征被高分辨率的特征所取代。换句话说，在关于图像分辨率的计算成本中存在冗余。因此，我们提出了一种非对称非局部注意力特征金字塔的级别具有不同的感受域，从而对具有不同尺度的区域进行在ANAB中执行两个首先，从查询和密钥获得的整形特征矩阵MQ和MK之间的相似性矩阵被定义为：MS=MQ×MT，MQ∈RN×C，MK∈RL×C. （四）然后，使用softmax函数对相似度矩阵的最后一个维度进行归一化，并将其乘以从值获得的重新整形的特征矩阵MV，以获得输出：Mout=Softmax（MS）×MV，MV∈ RL×C.（五）其中L是采样后的特征数。标准的非局部块[39]的计算复杂度为 O （ N2C ），而 ANAB 的复杂度为 O（NLC）。实际上，L通常比N小得多。在我们的例子中，我们在fea上使用四级下采样策略真地图48×160。四级特征金字塔的分辨率设置为i∈{1×1，4×4，8×8，16×16}，其总和为下采样后的特征总数L所以L=377比N=7680小得多。ANAB的另一个有效组成部分是应用程序-将多尺度注意力映射到键和值……O6149我2个d2个d3dPA2模块中的分支，如图4底部所示。其动机是在将矩阵MK和MV的维数从N×C大幅度降低到L×C的同时，保持原始特征图的关键信息。空间由1×1卷积层生成的注意力图是用作砝码。该模块自适应地调整权重更多地关注有用的信息，抑制不太有用的信息。注意地图可以被视为对多尺度特征执行的掩模。我们使用注意力平均池对特征图进行下采样。这种加权平均池化操作提供了一种收集关键特征的有效方式。3.4. 2D 3D预测和损失锚定定义。我们采用一个单级的2D-3D锚为基础的网络作为我们的检测器。为了同时检测 2D 和 3DBBox，我们预定义的锚点包含2D BBox[w，h]2d和3DBBox[z，w，h，l，α]3d的参数。α是观测值，通过使用等式（1）的逆运算将[Xp，Yp，Zp]投影回相机坐标系来获得。六、损失函数。我们使用多任务损失函数来监督网络的学习，该函数由三部分组成2D回归和3D回归损失用权重λ1和λ2进行正则化：L=Lcls+λ1L2d+λ2L3d，（8）对于分类任务，我们使用标准的交叉熵损失函数：exp（c′）L cls= − log（Δ exp（c））。（九）对于2D BBox回归任务，我们使用−log（IoU）作为-用于地面实况2DBBoxb2d和预测的2D B Boxb′的损失函数，类似于[3]：测量凸轮的角度的物体的角度-era查看对象。与旋转角度相比，L2d=−log（IoU（b′，第2段d））。（十）物体，观察角度对于单目3D物体检测更有意义[26]。的尺寸采用平滑L1损失函数来监督3D BBox的回归：对象由[w，h，l]3d给出。我们把宇宙将对象的3D位置编码到图像平面上，对象进入锚点：L3d=Σv3d∈P3dSmoothL1（v′，v∈3d），（十一）联系我们Xp Yp1·Zp=K·联系我们X Y Z1、（六）P3d={tx，ty，tz，tw，th，tl，t α}3d.4. 实验其中（Xp，Xp）是3D点投影的坐标投影到图像平面上，并且（X，Y，Z）是相机坐标系中的3DK∈R3×4是内在的相机矩阵，它在两个位置都是已知的。训练和测试阶段。我们通过计算对象的对应3D参数的平均值来获得每个锚点的3D参数，所述对象的交集大于并集（IoU）大于预定义的2D锚点[w，h]2d的给定阈值（0.5）。输出转换。既然已经被发现了-对于每个锚点放置cls，[tx，ty，tw，th]2d和[tx，ty，tz，tw，th，tl，tα]3d，可以通过以下方式从检测器的输出恢复2D BBox[X，Y，W，H]2d和3D BBox[X，Y，Z，W，H，L，A]3[X，Y]2d=[tx，ty]2d<$[w，h]2d+[x，y]2d[W，H]2d= exp（[tw，th]2d）<$[w，h]2d[Xp，Yp]3d=[tx，ty]3d<$[w，h]2d+[x，y]2d[W，H，L]3d= exp（[tw，th，tl]3d）<$[w，h，l]3d[Zp，A]3d=[tz，tα]+[z，α]3d，（七）其中，λ表示逐元素乘积，A是旋转角。在推理阶段，[X，Y，Z]3d可以61504.1. 评估数据集我们评估我们的框架上具有挑战性的KITTI基准的三维物体检测和鸟瞰任务。KITTI数据集包含7481张带标签的图像和7518张用于测试的图像，涵盖三大类对象：汽车、行人和骑自行车的人。我们使用常见的分割方法[7]将带有标签的图像划分为训练集和验证集。我们把图像放到大小为384×1280，在训练和推理阶段。在训练阶段，除了常规数据外，随机平移和水平镜翻转的增强方法，将随机缩放操作应用于单目图像。4.2. 实现细节我们使用PyTorch实现了我们的模型。我们采用带有动量的 SGD 优化器，使用 CPU E52698 和 GPUTITAN V100以端到端的方式训练网络，持续70个epoch。SGD优化器的动量设置为0.9，权重衰减设置为0.0005。最小批量大小设置为4。学习率直线上升-早期从0到第一个时期的目标学习率0.004，然后通过余弦退火降低到4×10−86151方法额外AP3d（验证/测试）IoU≥ 0。7简单中硬APBEV（val/test）IoU≥ 0。7简单中硬Monofenet[1]深度17.54 / 8.3511.16 / 5.149.74/ 4.1030.21 / 17.0320.47 / 11.0317.58 / 9.05AM3D[25]深度32.23 / 16.5021.09 / 10.7417.26 / 9.5243.75 /28.39 / 17.3223.87 / 14.91D4LCN[13]深度26.97 / 16.6521.71 / 11.7218.22 / 9.5134.82 / 22.5125.83 / 16.0223.53 / 12.55GS3D[20]没有一13.46 / 4.4710.97 / 2.9010.38 / 2.47- / 8.41- / 6.08- / 4.94MonoPSR[18]没有一12.75 / 10.7611.48 / 7.258.59/ 5.8520.63 / 18.3318.67 / 12.5814.45 / 9.91MonoGRNet[29]没有一13.88 / 9.6110.19 / 5.747.62/ 4.25- 18.19- 11月17日- / 8.73SS3D[16]没有一14.52 / 10.7813.15 / 7.6811.85 / 6.51- / 16.33- / 11.52- / 9.93MonodIS[36]没有一18.05 / 10.3714.98 / 7.9413.42 / 6.4024.26 / 17.2318.43 / 13.1916.95 / 11.12MonoPair[12]没有一- 13.04- / 9.99- / 8.65- / 19.28- / 14.83- 12.89美元吸烟[24]没有一14.76 / 14.0312.85 / 9.7611.50 / 7.8419.99 / 20.8315.61 / 14.4915.28 / 12.75M3D-RPN[3]没有一20.27 / 14.7617.06 / 9.7115.21 / 7.4225.94 / 21.0221.18 / 13.6717.90 / 10.23RTM3D[22]没有一20.77 / 14.4116.86 / 10.3416.63 / 8.7725.56 / 19.1712月22日/14月20日20.91 / 11.99M3DSSD（我们的）没有一27.77 /17.5121.67 /11.4618.28 /8.9834.51 /24.1526.20 /15.9323.40/12.11表1：汽车的3D物体检测和鸟瞰图的val和测试集上的AP分数图5：3D检测（左）和鸟瞰图（右）的定性结果式中的项λ1和λ28都设置为1.0。我们在特征图的每个像素上放置36个锚点，其大小按照指数函数从24增加到28824×12i/11，i∈ {0，1，2，. . .，11}，并且宽高比设置为{0。五，一。0，1。5}。我们应用在线硬负面挖掘，通过对每个数据库中前20%的高损失箱进行在训练阶段的小批量。在推理阶段，我们在2D BBox上应用具有0.4 IoU标准的NMS，并过滤出置信度低于0.75的对象采用文献[3]中提出的该算法利用投影一致性对旋转角度进行优化迭代地优化旋转角度以最小化预测的3D BBox和预测的2D BBox的投影的L1损失4.3. 绩效评价我们在从M3DSSD中删除特征对齐模块和ANAB后将网络设置更具体地，对于基线，从主干输出的特征图直接用于分类和2D BBox6152回归和3D BBox回归。我们评估我们的框架上的KITTI基准在两个任务中使用交集对并集（IoU）的平均精度（AP）作为评估的度量，并且根据高度将其分为容易、中等和困难对象的遮挡和截断级别请注意，官方KITTI评估一直使用AP |R40有40个召回点，而不是AP|自2019年10月8日以来，R 11有11个召回点。然而，大多数以前的方法评估的验证使用AP|R11。因此，我们报告AP|R40用于测试数据集和AP|R11的验证数据集进行公平的比较。我们将IoU的阈值设置为0.7对于汽车和0.5为行人和骑自行车的人作为相同的官方设置。图5示出了3D对象检测和鸟瞰图的定性结果。随着距离的增加，检测结果和深度预测的准确性降低3D物体检测结果和其他结果的视频可以在补充材料中找到。鸟瞰。鸟瞰6153方法AP3d/AP BEVIoU ≥ 0。7简易模块硬方法行人AP3D/APbev简单中硬Cyclist AP3D/APbev简单中硬M3D-RPN[3]4.92/5.653.48/4.052.94/3.290.94/1.250.65/0.810.47/0.78D4LCN[13]4.55/5.063.42/3.862.83/3.592.45/2.721.67/1.821.36/1.79SS3D[16]2.31/2.481.78/2.091.48/1.612.80/3.451.45/1.891.35/1.44M3DSSD（我们的）5.16/6.203.87/4.663.08/3.992.10/2.701.51/2.011.58/1.75表2：在0. 5IoU阈值。物体的3D位置。val和测试集上的汽车检测结果1.一、M3DSSD实现了国家的最先进的性能鸟瞰任务相比，有和没有深度估计的我们的方法相比，没有深度估计的方法有显着的改善图7：平均深度估计误差随着对象的大小而变化，即2D BBox的长度和宽度的平均值。最好用彩色观看。图6：平均深度估计误差随地面实况深度而变化。最好用彩色观看。基线w/ ANAB†25.70 /33.4819.02/7917.31 /20.15†带形状对齐27.26 /33.6421.56 /25.2418.07 /22.81†带中心对齐27.33 /34.8521.51 /25.9618.03 /23.26†w/完全对齐27.77/34.5121.67/26.2018.28/23.40表3：特征对准的消融研究。汽车的3D物体检测。3D对象检测任务旨在检测相机坐标系中的3D对象，由于额外的y轴，这比鸟瞰任务更具挑战性与不进行深度估计的方法相比 1 表明M3DSSD在val集和测试集上都取得了更好的性能。请注意，M3DSSD比大多数深度估计方法都要好。此外，我们的方法实现了与采用预训练模型进行深度估计的D4LCN的竞争性能[13]。图6示出了具有不同地面实况深度范围的平均深度估计误差[24]。我们在相同的验证集上将我们提出的方法与SMOKE [24]，Mono3D [6]和3DOP [7]进行了比较。图6证明所提出的M3DSSD在所有距离范围内都实现了更好的性能，除了大于60 m的距离，其中样本数量通常很小。行人和骑自行车者的3D物体检测。与汽车相比，行人和骑自行车的人的3D物体检测更具挑战性。这是因为脚踏车和自行车的尺寸此外，人是非刚体，并且他们的形状变化很大，从而难以定位行人和骑自行车的人。我们报告了行人和骑自行车的测试集上的KITTI基准的检测结果表。二、由于一些方法没有报告行人和骑自行车的结果，我们将我们的模型与M3 D-RPN[3]、D4 LCN [13]和SS 3D [16]进行了比较。我们的模型在3D检测和鸟瞰图任务的pedes- trians和自行车，特别是行人类别中实现了有竞争力的性能。请注意，我们只训练一个模型来同时检测三个对象类4.4. 消融研究要素对齐。我们评估了特征对齐策略，包括形状对齐、中心对齐和完全对齐（中心对齐和形状对齐）。如Tab.所示。3.与没有对齐的情况相比，所提出的形状对齐、中心对齐和完全对齐实现了更好的结果。图图7示出了对于具有和不具有fea的模型，平均深度估计误差6154方法AP3d/AP BEVIoU ≥ 0。7简单中硬方法GPU时间（毫秒）GPU内存（GB）基线23.40 /28.6618.32 /23.5316.62 /19.54非本地人[39]5.89104.121.97/15.67ANB23.65 /29.1918.47 /23.6516时54分/19时50分ANB1.68/5.921.09/1.43ANAB25.70/33.4819.02/7917.31/20.15ANAB1.86/6.761.22/1.91表4：针对不同输入大小的检测精度、GPU时间和内存的非局部块消融研究1级1× 12级4× 43级8× 84级16× 16图8：PA2中注意力地图的可视化，具有四级特征金字塔{1×1，4×4，8×8，16×16}。真正的对齐。x轴设置为2D BBox的大小（w2d+h2d）/2。实验结果表明，本文提出的特征对齐模块对不同大小的物体都是有效的，尤其是对于[0-25]中的小物体。这也解释了为什么M3DSSD在行人和骑自行车者等小物体检测方面优于其他方法非对称性非局部注意障碍。我们比较了非对称非局部块（ANB）和我们提出的非对称非局部注意力块（ANAB），ANAB在具有注意力的特征图上应用金字塔平均池。两种方法使用相同的样本量。选项卡. 4表明，ANAB网络达到最佳性能。在计算时间相近的情况下，提出的ANAB比ANB具有更好的检测精度。同时，这两种方法比标准的非局部块花费更少的GPU时间和内存[39]。atten- tion模块花费了更多的时间与显着的改进，特别是在简单的任务。选项卡.右侧的4显示了关于输入大小[1，256，48，160]和[1，256，96，320]的GPU时间和内存。这表明，计算成本更接近于第3.3节中的理论分析，具有更大的输入大小。ANAB具有额外的池化层、卷积层和逐元素乘法，这些在理论分析中没有考虑。在ANAB中，注意力图被分配给用于深度特征提取的多尺度池化操作。图8显示，1×1特征金字塔的注意力图在靠近相机的对象上具有较大的权重，而更高级别要素金字塔为对象分配更大的权重，远离摄像机。不同层次的注意图显示了特征金字塔的分辨率与物体深度之间的相关性。这是因为具有低分辨率的特征金字塔具有对大尺寸的对象敏感的大的接收场，而具有高分辨率的特征金字塔具有对小尺寸的对象敏感的小的接收场对于大小相同的同类物体，从固定的角度看，越小，越远。深度方向注意图增强了感知对象深度的能力，从而提高了对象深度估计的性能。5. 结论在这项工作中，我们提出了一个简单而有效的单目单级3D物体检测器。我们提出了一种两步特征对齐方法来解决特征不匹配的问题，从而增强了目标检测的特征学习。非对称的非局部注意块使网络能够提取深度方向的特征，这提高了回归头中深度预测的性能。与使用或不使用估计深度作为额外输入的方法相比，M3DSSD在具有挑战性的KITTI数据集上实现了更好的性能，用于汽车，行人和骑自行车的对象类，使用一个单一的模型，用于鸟瞰鸣谢：这项工作得到了中国国家重点研发计划（2018YFE0183900）的部分支持。杭岱感谢MBZUAI创业基金（GR006）的支持。6155引用[1] 包文涛，徐斌，陈振中。Monofenet：使用特征增强网络的单目 3D 对象检测。 IEEE Transactions on ImageProcessing，2019。[2] Ivan Barabanau ， Alexey Artemov ， Evgeny Burnaev ，and Vyacheslav Murashkin.基于关键点几何推理的单目3d目标检测。arXiv预印本arXiv：1905.05618，2019。[3] 加里克巴西和刘晓明。用于物体检测的单目3d区域建议网络在IEEE计算机视觉国际会议论文集，第9287-9296页[4] Yingjie Cai ， Buyu Li ， Zeyu Jiao ， Hongsheng Li ，Xingyu Zeng，and Xiaogang Wang.基于解耦结构多边形估计和高度引导深度估计的单目三维目标检测。arXiv预印本arXiv：2002.01619，2020。[5] FlorianChabot、MohamedChaouch、JaonaryRabarisoa、Ce'lineTeuliere和ThierryChateau。Deepmanta：一个从粗到细的多任务网络，用于从单目图像进行联合2D和3D车辆分析。在IEEE计算机视觉和模式识别会议论文集，第2040-2049页[6] Xiaozhi Chen ， Kaustav Kundu ， Ziyu Zhang ， HuiminMa，Sanja Fidler，and Raquel Urtasun.用于自动驾驶的单目3D物体检测。在IEEE计算机视觉和模式识别会议论文集，第2147-2156页[7] Xiaozhi Chen ， Kaustav Kundu ， Yukun Zhu ， HuiminMa，Sanja Fidler，and Raquel Urtasun.使用立体图像的3D 对象建议用于精确的对象类别检测。 IEEEtransactionsonpatternanalysisandmachineintelligence，40（5）：1259[8] Xiaozhi Chen，Huimin Ma，Ji Wan，Bo Li，and TianXia.用于自动驾驶的多视角三维物体检测网络。在IEEE计算机视觉和模式识别会议论文集，第1907-1915页，2017年。[9] Yuntao Chen ， Chenxia Han ， Naiyan Wang ， andZhaoxiang Zhang. 重新审视一阶段物体检测的特征对齐arXiv预印本arXiv：1908.01570，2019。[10] Yunpeng Chen ， Yannis Kalantidis ， Jianshu Li ，Shuicheng Yan，and Jiashi Feng.双注意力网：双注意力网. 神经信息处理系统的进展，第352-361页[11] Yilun Chen ，Shu Liu ， Xiaoyong Shen ，and Jiaya Jia.Dsgn：用于3d物体检测的深度立体几何网络arXiv预印本arXiv：2001.03398，2020。[12] Yongjian Chen，Lei Tai，Kai Sun，and Mingyang Li.Monopair：使用成对空间关系的单目3d对象检测。arXiv预印本arXiv：2003.00504，2020。[13] Mingyu Ding，Yuqi Huo，Hongwei Yi，Zhe Wang，Jianping Shi，Zhiwu Lu，and Ping Luo.用于单目3d目标检测的深度引导卷积学习。 arXiv 预印本 arXiv ：1912.04799，2019。[14] NilsGahlert ， MarinaMayer ， LukasSchneider ，UweFrank e，and Joachim Denzler.Mb-net：用于实时3d车辆检测的合并框。2018 年 IEEE智能车辆研讨会（IV），第2117-2124页。IEEE，2018年。[15] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。在计算机视觉和模式识别会议，2012年。[16] Esk i lJ o？r gensen，ChristopherZach，andFredrikKahl. 单目3d物体检测和盒拟合训练端到端使用交叉-联合损失。arXiv预印本arXiv：1906.08070，2019。[17] Hendri kKönigshof ， NielsOleSalscheider ， andChristophhStiller.使用立体视觉和语义信息的自动驾驶实时3d目标检测。2019年IEEE智能交通系统会议（ITSC），第1405-1410页IEEE，2019年。[18] Jason Ku，Alex D Pon和Steven L Waslander。利用精确的建议和形状重建的monocular三维物体检测。在IEEE计算机视觉和模式识别会议论文集，第11867-11876页[19] Vincent Lepetit ， Francesc Moreno-Noguer ， and PascalFua. Epnp：pnp问题的精确O（n）解。国际计算机视觉杂志，81（2）：155，2009。[20] 李步宇，欧阳万里，卢胜，曾星宇，王晓刚.Gs3d：一个高效的自动驾驶三维物体检测框架。在IEEE计算机视觉和模式识别会议论文集，第1019-1028页[21] Peiang Li，Xiaozhi Chen，and Shaojie Shen.用于自动驾驶的基于立体r-cnn的3d目标检测。在IEEE计算机视觉和模式识别会议上，第7644-7652页，2019年[22] Peixuan Li，Huaici Zhao，Pengfei Liu，and Feidao Cao.Rtm3d：自动驾驶的目标关键点实时单目3d检测。arXiv预印本arXiv：2001.03343，2020。[23] 明亮，杨斌，陈云，胡瑞，和拉奎尔·乌塔孙.多任务多传感器融合三维目标检测。在IEEE计算机视觉和模式识别会议论文集，第7345-7353页[24] ZechenLiu，ZizhangWu，andRolandTo'th. Smok e：通过关键点估计的单阶段单眼3D对象检测arXiv预印本arXiv：2002.10111，2020。[25] Xinzhu Ma，Zhihui Wang，Haojie Li，Pengbo Zhang，Wanli Ouyang，and Xin Fan.用于自动驾驶的通过彩色嵌入式3d重建的精确单目3d物体检测。在IEEE计算机视觉国际会议论文集，第6851-6860页[26] Arsalan Mousavian，Dragomir Anguelov，John Flynn，and Jana Kosecka.使用深度学习和几何的3D边界框估计在IEEE计算机视觉和模式识别会议论文集，第7074-7082页[27] 安德烈·奈登，弗拉德·保内斯库，金景模，全炳文，马里乌斯·利奥代努.移位r-cnn：深度6156具有封闭形式几何约束的单目3D对象检测。在2019年IEEE图像处理国际会议（ ICIP）上，第61-65页。IEEE，2019年。[28] Charles Ruizhongtai Qi，Li Yi，Hao Su，and Leonidas JGuibas. Pointnet++：度量空间中点集的深度层次特征学习。神经信息处理系统的进展，第5099-5108页，2017年[29] 秦增义，王静璐，陆燕。Monogrnet：一个用于单目三维物体定位的几何推理网络。在AAAI人工智能会议论文集，第33卷，第8851-8858页[30] 秦增义，王静璐，陆燕。三角测量学习网络：从单目到立体3d物体检测。2019年IEEE/CVF计算机视觉和模式识别会议（CVPR），第7607

下载后可阅读完整内容，剩余1页未读，立即下载