体素Transformer：一种用于三维物体检测的新骨干网络

132 浏览量更新于2023-10-14 收藏 1.14MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3164用于三维物体检测的毛嘉庚薛玉静2 *闽浙牛3号皓月白4号伽师丰2号小丹良5许航3†徐春静3摘要我们提出了体素Transformer（VoTr），一种新颖的和有效的基于体素的变压器骨干从点云的3D对象检测。基于体素的3D检测器中的常规3D卷积主干由于有限的接收场而不能有效地捕获对于对象识别和定位至关重要的大的上下文信息。在本文中，我们解决了这个问题，通过引入一个基于Transformer的架构，使长距离的自我关注体素之间的关系。考虑到非空体素自然稀疏但数量众多的事实，在体素上直接应用标准Transformer是不平凡的。为此，我们提出了稀疏体素模块和子流形体素模块，它们可以有效地操作空体素和非空体素位置。为了进一步扩大注意范围，同时保持与卷积计数器相当的计算开销，我们在这两个模块中提出了两种用于多头注意的注意机制：局部注意和扩张注意，并进一步提出了快速体素查询来加速多头注意中的查询过程VoTr包含一系列稀疏和子流形体素模块，并可以应用于大多数基于体素的检测器。我们提出的VoTr在卷积基线上显示出一致的改进，同时保持了KITTI数据集和Waymo Open数据集的计算1. 介绍3D物体检测在自动驾驶和机器人技术中受到越来越多的关注。从点云中检测3D物体仍然是研究界的挑战，主要是因为点云是自然稀疏和非结构化的基于体素的检测器将不规则的点云转换为规则的体素网格，并在此任务中显示出优越的性能。在本文中，我们提出了体素Transformer（VoTr），一个有效的基于变换器的骨干，可以应用于大多数基于体素的检测器，以*同等缴款。 1 香港中文大学 2新加坡国立大学 3 华为诺亚huawei.com(a) 3D卷积网络（b）体素Transformer图1.通过3D卷积网络和我们提出的VoTr获得的感受野的图示在（a）中，橙色立方体表示单个3D卷积核，并且黄色体素被以红色体素为中心的最大感受野覆盖。在（b）中，红色体素表示查询体素，并且蓝色体素是体素关注中的该查询的相应关注体素。我们的观察结果是，VoTr中的单个自我注意力层可以覆盖比整个卷积骨干更大的区域，并且它还可以保持足够细粒度的3D结构。进一步增强检测性能。以前的方法可以分为两个分支。基于点的方法[26，19，34，35]直接在点云上操作和生成3D边界框。这些方法通常应用点算子[23，16]来直接从点云中提取特征，但是遭受稀疏和非均匀的点分布以及采样和搜索相邻点的耗时过程或者，基于体素的方法[43，33，37，5，36]首先将点云光栅化为体素并应用3D卷积网络来提取体素特征，然后将体素转换为鸟瞰图（BEV）特征图并在BEV图上生成3D框。与严重依赖于耗时的点算子的基于点的方法相比，基于体素的方法在稀疏卷积的情况下更有效，并且可以实现最先进的检测性能。3D稀疏卷积网络是大多数基于体素的检测模型中的关键组成部分。尽管其具有有利的效率，但是3D卷积主干不能利用有限的接收场来捕获丰富的上下文信息，这阻碍了仅具有几个体素的3D对象的检测。例如，使用常用的3D卷积骨干[33]和体素大小为（0.05m、0. 05m、0. 1m），最后一层的最大感受野仅为3165（3. 65米，3. 65米，7. 3米），几乎不能覆盖长度超过4米的汽车。扩大感受野也是容易的。每个体素的最大理论感受野大致与体素大小V、核大小K、下采样步幅S和层数L的乘积成比例。增大V值会导致点云的量化误差增大增加K导致卷积特征的立方增长。增加S将导致低分辨率BEV图，这对盒预测是有害的，并且增加L将增加很多计算开销。因此，获得3D卷积骨架的大的感受野在计算上是广泛的。考虑到在检测自然稀疏和不完整的3D对象时大量需要大的感受野的事实，应该设计新的架构来编码与卷积主干相比更丰富的上下文信息最近在2D对象分类，检测和分割方面的进展[6，2，41]表明，与卷积神经网络相比，Transformer是一种更有效的架构，主要是因为可以通过Transformer模块中的自注意力建立像素之间的远程然而，直接将标准Transformer模块应用于体素是不可行的，主要是由于两个事实：1）非空体素稀疏地分布在体素网格中。与密集放置在图像平面上的像素不同，非空体素仅占总体素的一小部分，例如，非空体素通常占据小于0。Waymo Open数据集上总体素空间的1%[29]。因此，代替对整个体素网格执行自关注，应当设计特殊操作以仅有效地关注那些非空体素。2)非空体素的数量在场景中仍然很大，在Waymo Open数据集上，每帧生成近90k个非空体素。因此，像标准Transformer那样应用全连接自注意力在计算上是禁止的。因此，非常需要新的方法来扩大注意范围，同时将每个查询的注意体素的数量保持在小的值中。为此，我们提出了体素Transformer（VoTr），一个基于变换器的3D骨干，可以有效地应用于体素，可以作为传统的3D卷积骨干的更好的替代品。为了有效地处理非空体素的稀疏特性，我们提出了稀疏体素模块和子流形体素模块作为VoTr的基本构建块子流形体素模块严格地对非空体素进行操作，以保留原始3D几何结构，而稀疏体素模块可以在空位置处输出特征，这更加灵活并且可以进一步扩大非空体素空间。为了解决非空体素太多而无法自我关注的问题，我们进一步提出两个注意机制：局部注意力和扩张注意力，用于稀疏和子流形体素模块中的多头注意力。局部注意力集中在相邻区域以保留详细信息。扩张注意力通过逐渐增加搜索步长来获得仅具有少数参与体素的大的注意力范围。为了进一步加速局部和扩张注意力的查询过程，我们提出了快速体素查询，它包含一个基于GPU的哈希表，以有效地存储和查找非空体素。结合所有上述组件，VoTr与卷积基线相比显著提高了检测性能，同时保持了计算效率。我们的主要贡献可概括如下：1) 我们提出了体素Transformer，第一个基于变换器的3D骨干基于体素的3D检测器。2) 我们提出了稀疏和子流形体素模块来处理体素的稀疏特性，我们进一步提出了特殊的注意机制和快速体素查询的高效计算。3) 我们的VoTr始终优于卷积基线，并以74. 95%的1级mAP（溶剂）和82. 在Waymo数据集和KITTI数据集上，中等汽车类别的平均平均速度分别为09%2. 相关工作从点云进行3D物体检测。3D对象检测器可以分为2个流：基于点的和基于体素的。基于点的检测器直接在原始点云上操作以生成3D框。F-PointNet [21]是一项利用平截头体生成提案的pioneering工作。PointRCNN[26]以自下而上的方式从前景点生成3D提案。3DSSD[34]介绍了一种新的点云采样策略。基于体素的检测器将点云转换成规则的体素网格，然后应用3D和2D卷积网络来生成3D建议。VoxelNet [43]利用3D CNN从密集网格中提取体素特征。SEC-OND [33]提出3D稀疏卷积以有效地提取体素特征。HVNet [36]设计了一个利用混合体素表示的卷积网络。PV-RCNN [25]使用关键点来提取体素特征以用于框细化。基于点的方法经受来自不规则点的采样和聚集特征的耗时过程，而基于体素的方法由于体素的规则结构而更有效我们的体素Transformer可以插入到大多数基于体素的检测器，以进一步提高检测性能，同时保持计算效率。计算机视觉中的变形金刚 [30]第三十话为机器翻译引入了一个完全关注的框架最近，基于Transformer的架构超越了传统的31669u+D%n6Co03Vo/e0$o9u+D%n6Co03Vo/e0$o9u+D%n6Co03Vo/e0$o9u+D%n6Co03Vo/e0$oVo/e01+ %2e33（（ e5e）Vo/e068%56on<%=7o6n5>0ou39%：2eVo/e0;@（B%）3（B%）*+1BEV $%&（e5e）7：e36）子流形体素模块稀疏体素模块投影层ReLU添加批量规格化Vo/e0B：%n2Co：De：投影层ReLU添加批量规格化VoTr构建块前馈层前馈层ReLU添加批量规格化ReLU添加批量规格化自我关注自我关注9u+D%n6Co03Vo/e0$o3u0e注意力分散注意力分散9u+D%n6Co03Vo/e0$o3u0e局部注意力3u0 e3u0 e3u0 e9%：2eVo/e0$o3u0e3u0 eVoTr9Bu%il：d2ieVBolo/cek0$o3u 0eVoTr9Bu%il：d2ieVBolo/cek0$o3u0e局部注意力图2.体素Transformer（VoTr）的整体架构。VoTr是一个基于Transformer的3D主干，可以应用于大多数基于体素的3D检测框架。它包含一系列稀疏和子流形体素模块。子流形体素模块严格地在非空体素上执行多头自注意，而稀疏体素模块可以在空位置处提取体素特征在图像分类、检测和分割的任务Vision Transformer [6]将图像分割成补丁，并将补丁馈送到Transformer中进行图像分类。DETR [2]利用基于Transformer的主干和基于集合的丢失进行对象检测。SETR [41]在基于Transformer的主干上应用渐进式上采样以进行语义分割。MaX-DeepLab [31]利用掩模Transformer进行全景分割。基于变换器的架构也用于3D点云。点变换器[40]设计了一种用于点云分类和分割的新型点算子。Pointformer [19]引入注意力算子来提取用于3D对象检测的点特征。我们的体素Transformer扩展了图像上的变压器的想法，并提出了一种新的方法来应用变压器稀疏体素。与基于点的变换器相比，体素变换器受益于规则体素网格的效率，并在3D对象检测中显示出优越的3. 体素Transformer在本节中，我们将介绍 Voxel Transformer（VoTr），这是一种基于Transformer的3D主干，可应用于大多数基于体素的3D检测器。VoTr可以通过稀疏体素模块和子流形体素模块对空体素和非空体素位置执行多头注意，并且可以通过有效的注意机制来构建体素之间的长程关系。我们进一步提出了快速体素查询，以加速体素查询过程。在多头注意力中成功。我们将在下面的章节中详细介绍每个组件的设计。3.1. 整体架构在本节中，我们将介绍整体架构 Voxel Transformer的与包含3个稀疏卷积块和6个子流形卷积块的传统卷积架构[33]的设计类似，我们的VoTr由一系列稀疏和子流形体素模块组成，如图2所示。特别地，我们设计了3个稀疏体素模块，其通过3次对体素网格进行下采样，并在不同的体素位置和分辨率处输出特征作为输入。每个稀疏体素模块之后是2个子流形体素模块，其保持输入和输出非空位置相同，以保持原始3D结构，同时扩大接收场。在所有这些模块中执行多头注意，并且多头注意中的每个查询体素的参与体素由两种特殊注意机制确定：局部注意和扩张注意，它在不同的范围内捕获了不同的上下文。快速体素查询进一步提出，以加速多头注意中非空体素的搜索过程。然后将由我们提出的VoTr提取的体素特征投影到BEV特征图以生成3D建议，并且体素和相应的特征也可以在第二阶段用于RoI细化。我们注意到，我们提出的VoTr是灵活的，可以应用于大多数基于体素的检测框架[33，25，5]。3167我·×F×VV∈V∈ ∈F一我Ij一一·3.2. 体素Transformer模块在本节中，我们将介绍稀疏和子空体素查询体素流形体素模块。的主要区别非空本地稀疏和子流形体素模块是子流形。体素关注折叠体素模块严格地对非空体素进行操作，只在非空位置提取特征，保持了三维场景的几何结构;而稀疏体素模块可以在空位置提取体素特征，灵活性更强，可以根据需要扩展原有的非空体素空间我们首先介绍了稀疏体素的自注意，然后详细介绍了稀疏体素和子流形体素模块的设计。稀疏体素上的自我关注。我们定义了一个密集的体素网格，其中有N个密集的体素，光栅化整个三维场景。在实践中，我们仅维护具有N稀疏3整数索引阵列和N稀疏 d对应特征阵列的那些非空体素以用于有效计算，其中N稀疏是非空体素的数量，并且N稀疏N密集。在每个稀疏和子流形体素模块中，利用多头自关注来建立非空体素之间的长程关系。具体地，给定查询体素i，首先通过注意机制确定注意范围Ω（i），然后我们对参与体素jΩ（i）执行多头注意以获得特征f参与。设fi、fi分别为查询体素和关注体素的特征，vi、vj为查询体素和关注体素的整数索引。我们首先通过p = r（v +0. 其中r是体素大小。然后，对于单个头部，我们计算查询嵌入Qi、密钥嵌入Kj和值嵌入Vj为：Qi=fiWq，Kj=fiWk+Epos，Vj=fiWv+Epos，（1）其中，Wq、Wk、Wv分别是查询、键和值的线性投影，并且位置编码Epos可以通过以下公式计算：Epos=（pi−pj）Wpo s。（2）因此，体素上的自我注意力可以被公式化为：主治医师：DilatedVoxel关注图3.局部注意力和分散注意力的图示我们注意到，这是一个2D示例，并且可以很容易地扩展到3D情况。对于每个查询（红色），局部注意力（黄色）聚焦于局部区域，而扩展注意力（绿色）以逐渐扩大的步长搜索整个空间。选择满足搜索位置的非空体素（浅蓝色）作为参与体素（深蓝色）。保持输入的原始3D结构。在子多重体素模块中，两个子层被设计为捕获每个非空体素的长程上下文信息第一个子层是结合所有注意力机制的自注意力层，第二个子层是[30]中的简单前馈层。在子层周围采用剩余连接。标准Transformer模块和我们提出的模块之间的主要区别是三个方面：1）我们在前馈层之后附加了一个额外的线性投影层，用于体素特征的通道调整。2)我们用批量归一化代替层归一化。3）我们移除模块中的所有dropout层，因为参与体素的数量已经很小，并且随机拒绝那些体素中的一些阻碍了学习过程。稀疏体素模块。与仅对非空体素进行操作的子流形体素模块不同，稀疏体素模块可以提取空位置的特征，导致原始非空空间的扩展，并且通常在体素下采样过程中需要[33]。由于不存在可用于空体素的特征fi，所以我们不能从fi获得查询嵌入Qi。为了解决这个问题，我们给出了在空位置处的Qi的近似值，该近似值来自参与特征fj：Qi=（fj），⑷j∈Ω（i）f出席=j∈ΣΩ（i）QKσ（√d）·Vj，（3）其中函数可以是插值、池化等。在本文中，我们选择作为所有参加- ING功能fj的最大池。我们也使用Eq。3计算多头注意力。稀疏体素模块的体系结构是简单的。其中σ（）是softmax归一化函数。我们注意到，体素上的自我注意是标准2D自我注意的自然3D扩展，具有稀疏输入和相对坐标作为位置嵌入。子流形体素模块。亚流形体素模块的输出与输入的非空体素完全在相同的位置，这表明其能够类似于子流形体素模块，除了我们去除了自注意层周围的第一个残余连接，因为输入和输出不再相同。3.3. 有效注意机制在本节中，我们将深入研究注意力范围Ω（i）的设计，它决定了每个对象3168关注扩张型（32、45、78）局部注意力索引………...M+n=3N（0）@F+B32DHHa@F（m）开始，RS\≤R和R步幅步幅联系我们我扩张型端端步幅步幅开始端步幅查询索引i主索引$散列键I84J KKJ 59LI84J K;J 59LI8>J K7J 59LI88J KKJ 59LI88J K;J 59L4>>464;9>：45678496：;>：有$F n（）*+nGP UHas$0a123k3@4>>46<4;9>：<45678<496：;<>：4K7A+B32*nC*4：><479<456<=4<=4拒绝空拒绝空图4.快速体素查询的图解。对于每个查询索引vi，由局部注意力和扩张注意力确定主治体素索引vi。然后我们可以在哈希表中查找非空索引j，并将哈希后的vj作为键。最后，使用非空索引j来收集用于多头注意的出席特征fj。我们提出的快速体素查询是有效的时间和空间，可以显着加速计算稀疏体素注意。查询i，并且是对稀疏体素的自关注中的关键因素。Ω（i）应满足以下要求：Ωdilated（i）的公式可以表示为：M部分：1）Ω（i）应覆盖相邻的体素以重新保持细粒度的3D结构。2)Ω（i）应尽可能地达到以获取大量上下文信息。（3）TheΩ（i）=[（v−R，vm=1+R（m），R（m））\Ω（i）中的参与体素的数量应该足够小e.G.小于50，以避免繁重的计算开销。（vi−R（m）（m）（ m）起跑步幅）的情况下，（六）为了解决这些问题，我们从[39]中得到启发，并提出了两种注意机制：本地注意和分散注意。其中是集合减法运算符，函数取所有非空体素集合的并集我们注意到lated Attention控制注意范围Ω（i）。德-R（i）（1，1，1）signif。（0，0，0），（0，0，1），（0，1，0），，（1，1，1）8指数对于非空索引。在局部注意力中，给定查询体素Vi，由R_local参数化的局部注意力范围Ω_local（i）可以公式化为：Ωlocal（i）=（vi−Rlocal，vi+Rlocal，（1，1，1）），（5）其中，在我们的实验中，Rlocal=（1，1，1）局部注意力将步长固定为（1，1，1）以利用局部范围R_local内的每个非空体素，使得细粒度结构可以由局部注意力保留扩大注意力。Dilated Attention 注意范围Ωdilated（i）由参数列表R dilated定义：D））3nC*nEF+B32G3a）H3s，vi+R我开始端步幅端步幅............3169V极大地减少了搜索时间和存储成本。与仔细设计的参数列表R扩大，注意范围能够达到超过15m，但是每个查询体素的注视体素的数量仍然保持小于50块值得注意的是，当R开始=（0，0，0），R结束=（1，1，1）并且R步幅=（1，1，1）时，局部注意力可以被视为扩张注意力中的特殊情况。3.4. 快速体素查询在体素自关注中，针对每个查询搜索非空的主治体素是不平凡的。稀疏索引阵列不能在一维N稀疏中按顺序排列3D稀疏体素索引。因此，我们不能直接得到V中的指数j∈Ω（i），即使我们可以很容易地得到[（R（1），R（1），R（1）），···，（R（M），R（M），R（M））]，以及对应的整数vo x elind e xvj∈R3。迭代-开始3170--VV∈×个VF×个--- -对所有N个稀疏非空体素进行运算以找到匹配的j对于每个查询过程需要O（Nsparse）时间复杂度，并且由于Nsparse在Waymo Open数据集上通常为90k，在[5]中，密集3D体素网格被用于存储所有空和非空体素的j（或如果为空则为1），但是维持那些密集3D体素网格是极其消耗存储器的，其中体素的总数N_dense大于107。在本文中，我们提出了快速体素查询，一种新的方法，applies一个基于GPU的哈希表，以有效地查找在倾向于非空体素与内存消耗很少快速体素查询的图示如图4所示。快速体素查询由四个主要步骤组成：1）我们在GPU上构建散列表，该散列表将散列的非空整数v〇 x el索引vj存储为keys，并且将数组的对应索引j存储为值。2)对于每个查询i，我们应用局部注意力和扩张注意力以获得参与v〇 xel索引vjΩ（i）. 3）我们查找用于使用散列表中的散列的k∈vj，并且如果散列值返回1，则vj被判断为空v∈ el并且被拒绝。4）我们最终可以从下式中收集关注的v〇 Xel索引v，j和特征f，j和其中j表示体素自关注。我们注意到，通过为每个查询体素i分配一个单独的CUDA线程，所有步骤都可以在GPU上并行进行，并且在第三步中，每个查询的查找过程仅花费O（NΩ）时间复杂度，其中NΩ是Ω（i）中的体素数量，并且NΩ N稀疏。为了利用GPU存储器的空间局部性，我们将散列表构建为N散列2张量，其中N 散列是散列表大小，并且N稀疏50m。第二种方法是根据难度等级：Level 1表示具有五个以上LiDAR点的盒子，Level2表示具有至少一个LiDAR点的盒子。KITTI数据集。KITTI数据集包含7481个训练样本和7518个测试样本，训练样本进一步分为训练分割（3712个样本）和val分割（3769个样本）。官方评估指标是具有旋转IoU阈值的平均精度（mAP）0.7汽车在测试集上，由官方服务器用40个召回位置计算mAPval集上的结果是用11个召回位置计算的，以便与其他方法进行公平我们提供2种基于Voxel Transformer的架构：VoTr-SSD是以VoTr为主干的单级基于体素的检测器。VoTr-TSD是基于VoTr的两阶段基于体素的检测器。VoTr-SSD。用于单级检测器的Voxel Tr ansformer建立在常用的单级框架SEC-OND上[33]。特别地，我们用我们提出的体素Transformer替换SECOND的3D稀疏卷积骨干作为新的骨干，并且我们仍然使用[33]之后的基于锚点的分配。其他模块和配置保持不变，以便进行公平比较。VoTr-TSD。用于两阶段检测器的Voxel Transformer建立在最先进的两阶段框架PV-RCNN [25]上。具体来说，我们将PV-RCNN第一阶段的3D卷积主干替换为我们提出的Voxel Transformer作为新的主干，并且我们使用关键点从Voxel Transformer中提取体素特征用于第二阶段RoI细化。其他模块和配置保持不变，以便进行公平比较。实施详情。VoTr-SSD和VoTr-TSD在KITTI和Waymo数据集上共享相同的架构。首先通过线性投影层将输入的非空体素坐标转换为16通道初始特征，然后将初始特征馈送到VoTr中进行体素特征提取。在第一和第二稀疏体素模块中，体素特征的通道分别被提升到32和64因此，最终输出特征具有64个通道。对于每个查询体素，总关注体素的数量被设置为48，并且对于多头关注，头部的数量被设置为4GPU散列表大小N散列被设置为400k。我们希望读者参阅补充资料3171方法1级3DmAP/mAPH2级3DmAP/mAPH1级3D mAP/mAPH（按距离）0-30m 30-50m 50m-Inf[第11话]63.3/62.755.2/54.784.9/84.459.2/58.635.8/35.2MVF [42]62.93/--86.30/-60.02/-36.02/-立柱外径[32]69.8/--88.5/-66.5/-42.9/-AFDet [7]63.69/--87.38/-62.19/-29.27/-LaserNet [17]52.1/50.1-70.9/68.752.9/51.429.6/28.6CVCNet [3]65.2/--86.80/-62.19/-29.27/-StarNet [18]64.7/56.345.5/39.683.3/82.458.8/53.234.3/25.7刚果民主共和国[1]69.0/68.5-87.2/86.866.5/66.144.5/44.0Voxel R-CNN [5]75.59/-66.59/-92.49/-74.09/-53.15/-第二个[33]67.94/67.2859.46/58.8888.10/87.4665.31/64.6140.36/39.57VoTr-SSD（我们的）68.99/68.3960.22/59.6988.18/87.6266.73/66.0542.08/41.38PV-RCNN [25]71.69/71.1664.21/63.7091.83/91.3769.99/69.3746.26/45.41VoTr-TSD（我们的）74.95/74.2565.91/65.2992.28/91.7373.36/72.5651.09/50.01表1.Waymo Open Dataset上的性能比较，其中包含202个车辆检测验证序列*：我们自己用官方代码重新实现。注意力机制的详细设计材料。训练和推理细节。VoxelTransformer与整个框架一起使用ADAM优化器进行训练。在KITTI数据集上，VoTr-SSD和VoTr-TSD分别以批量大小32和16以及学习率0进行训练。01在8个V100GPU上进行80个epoch。在Waymo Open数据集上，我们统一采样20%的帧进行训练，并使用完整的验证集进行评估[25]。VoTr-SSD和VoTr-TSD以批量大小16和学习率0进行训练。003，分别在8个V100 GPU上进行60和80次学习速率的衰减采用余弦退火策略数据扩充和其他配置与相应的基线保持相同[33，25]。4.2. Waymo开放数据集我们在Waymo Open数据集上进行实验，以验证我们提出的VoTr的有效性。如表1所示，简单地从3D卷积主干切换到VoTr给出1。05%和3。SECOND [33]和PV-RCNN [25]分别有26%的1级mAP改善在30- 50 m和50 m-Inf的范围内，VoTr-SSD给出1。42%和1。72%的改善，和VoTr-TSD给出3。37%和4。在1级mAP基础上提高83%在遥远的区域显着的性能增益示出了由VoTr获得的大的上下文信息的重要性，以3D对象检测。4.3. KITTI数据集我们在KITTI数据集上进行实验，以验证VoTr的有效性如表 2 所示， VoTr-SSD 和 VoTr-TSD 带来 2.29%mAP和0. 在KITTIval分流上，中型车级别的平均AP 提高了 66% 对于硬车类， VoTr-TSD 达到79.14%mAP，表2. KITTI测试集上的性能比较，其中AP由汽车类别的40个召回位置R+L表示组合RGB数据和点云的方法。L表示仅LiDAR方法。以大幅度优于所有先前的方法，这表明由VoTr捕获的体素之间的长程关系对于检测仅具有几个点的3D对象是重要的表3中关于val分割的结果显示VoTr-SSD和VoTr-TSD优于VoTr-TSD。方法模态3D简易模块硬AP（%）MV3D [4]R+L74.9763.6354.00AVOD-FPN[9]R+L83.0771.7665.73F-PointNet [22]R+L82.1969.7960.59MMF [13]R+L88.4077.4370.223D-CVF [38]R+L89.2080.0573.11CLOC [20]R+L88.9480.6777.15联系我们[14]R+L83.6868.7861.67VoxelNet [43]L77.4765.1157.73[第11话]L82.5874.3168.99[26]第二十六话L86.9675.6470.70[27]第27话L87.8178.4973.51标准[35]L87.9579.7175.09补丁[12]L88.6777.2071.823DSSD [34]L88.3679.5774.55SA-SSD [9]L88.7579.7974.16TANet [15]L85.9475.7668.32Voxel R-CNN [5]L90.9081.6277.06HVNet [36]L87.2177.5871.79[28]第二十八话L88.3379.4772.29第二[33]L84.6575.9668.71VoTr-SSD（我们的）L86.7378.2572.99PV-RCNN [25]L90.2581.4376.82VoTr-TSD（我们的）L89.9082.0979.143172表4.注意机制对KITTI值分裂的影响。洛杉矶：地方注意。D.A.：扩大注意力。方法脱落概率AP3D（%）（一）（b）第（1）款00的情况。178.2775.97（c）第（1）款0的情况。270.82（d）其他事项0的情况。369.75表5.脱落概率对KITTI值分割的影响表3. KITTIval分割与AP的性能比较，由汽车类别的11个通过1形成基线方法。79%和0。35%mAP，适用于中型车级别。KITTI数据集上的观察结果与Waymo Open数据集上的观察结果一致。4.4. 消融研究局部注意力和扩张注意力的影响。表4表明，扩张注意力保证每个体素的更大的感受野，并带来2。与仅使用局部注意相比，79%的中等mAP体素Transformer中的压降的影响。表5详细说明了不同辍学率对VoTr的影响。我们发现在每个模块中添加dropout层对检测性能是不利的。mAP下降8。52%，脱落概率为0。3 .第三章。参与体素数量的影响。表6示出了将参与体素的数量从24增加到48将性能提高1。19%，这表明体素可以通过在多头注意中涉及更多的参与体素来获得更丰富的上下文信息模型参数的比较表7示出了用VoTr替换3D卷积主干将模型参数减少0。5M，主要是因为VoTr中的模块仅包含线性投影层，其仅具有少数参数，而3D卷积核通常包含大量参数。推理速度的比较。表8示出了通过精心设计的注意力机制和快速体素查询，VoTr保持了计算效率。十四岁单级检测器的运行速度为65Hz。用VoTr替换卷积骨干仅增加了每帧约20ms的延迟。注意力权重的可视化图5示出了查询体素可以在非常大的上下文范围中动态地选择注视体素的特征，这有利于稀疏和不完整的对象的检测。表6.每个查询体素的参与体素数量对KITTI值分割的影响方法模型参数第二[33]五、3米VoTr-SSD（我们的）4.8MPV-RCNN [25]十三岁1MVoTr-TSD（我们的）12.6M表7.比较KITTI数据集上不同框架的模型参数方法推理速度（Hz）第二[33]20块73VoTr-SSD（我们的）十四岁65PV-RCNN [25]9 .第九条。25VoTr-TSD（我们的）7 .第一次会议。17表8.在KITTI数据集上比较了不同框架的推理速度使用48个主治体素方法AP3D（%）简易模块硬方法洛杉矶地方检察AP3D（%）（一）（b）第（1）款√√ √75.4878.27[26]第二十六话88.8878.6377.38标准[35]89.7079.8079.303DSSD [34]89.7179.4578.67VoxelNet [43]81.9765.4662.85Voxel R-CNN [5]89.4184.5278.93[第11话]86.6276.0668.91[27]第27话89.4779.4778.54TANet [15]87.5276.6473.86SA-SSD [9]90.1579.9178.78第二[33]87.4376.4869.10VoTr-SSD（我们的）87.8678.2776.93方法参与体素AP3D（%）PV-RCNN [25]89.3583.6978.70VoTr-TSD（我们的）89.0484.0478.68（一）2477.08（b）第（1）款3277.723173图5.用于关注体素的注意力权重的可视化5. 结论我们提出了体素Transformer，一个通用的基于变换器的3D骨干，可以应用于大多数基于体素的3D检测器。VoTr由一系列稀疏体素模块和子流形体素模块组成，通过特殊的注意机制和快速体素查询，可以有效地对稀疏体素进行自注意。对于未来的工作，我们计划在3D检测上探索更多基于Transformer的架构。3174引用[1] Alex Bewley 、 Pei Sun 、 Thomas Mensink 、 DragomirAnguelov和Cristian Sminchisescu。用于尺度不变3d对象检测的范围调节扩张卷积。 arXiv 预印本 arXiv ：2005.09927，2020。七个[2] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在EuropeanConferenceon ComputerVision 中，第213Springer，2020年。二、三[3] Qi Chen，Lin Sun，Ernest Cheung，and Alan L Yuille.每个视图都很重要：混合柱面球面体素化三维物体检测中的跨视图一致性。神经信息处理系统的进展，33，2020。七个[4] Xiaozhi Chen，Huimin Ma，Ji Wan，Bo Li，and TianXia.用于自动驾驶的多视角三维物体检测网络。在IEEE计算机视觉和模式识别会议论文集，第1907-1915页七个[5] Jiajun Deng ， Shaoshuai Shi ， Peiwei Li ， WengangZhou，Yanyong Zhang，and Houqiang Li.体素r-cnn：面向高性能的基于体素的三维目标检测。arXiv预印本arXiv：2012.15712，2020。一、三、六、七、八[6] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器. arXiv预印本arXiv：2010.11929，2020。二、三[7] 葛润州、丁壮壮、胡一涵、王宇、陈思佳、李煌、袁力.Afdet：Anchor free one stage 3d object detection. arXiv预印本arXiv：2006.12671，2020。七个[8] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun.视觉与机器人技术的结合：Kitti数据集。The InternationalJournal of Robotics Research ，32（11）：1231-1237，2013. 六个[9] Chenhang He，Hui Zeng，Jianqiang Huang，Xian-ShengHua，and Lei Zhang.基于点云的结构感知单阶段三维物体检测在IEEE/CVF计算机视觉和模式识别会议论

下载后可阅读完整内容，剩余1页未读，立即下载