稀疏体素图注意力网络用于点云三维物体检测

82 浏览量更新于2023-11-30 收藏 882KB PDF 举报

点云数据

3D物体检测

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文SVGA-Net：稀疏体素图注意力网络（Sparse Voxel-Graph AttentionNetwork）用于点云何庆东，王正宁*，曾浩，曾毅，刘毅军电子科技大学heqingdong@alu.uestc.edu.cn，zhengning.wang @ uestc.edu.cn{haozeng,zengyii,yijunliu}@std.uestc.edu.cn摘要从点云数据中准确检测出三维物体是自动驾驶的重要组成部分然而，在以往的作品的体积表示和投影方法未能建立局部点集之间的关系在本文中，我们提出了稀疏体素图注意力网络（SVGA-Net），一种新的端到端的可训练网络，主要包含体素图模块和稀疏到密集回归模块，以实现从原始LIDAR数据的可比3D检测任务。SVGA-Net在每个分割的三维球面体素内构造局部完全图，局部图和全局图作为注意力机制来增强提取的特征。此外，新的稀疏到稠密回归模块通过在不同级别上聚合在KITTI检测基准上的实验表明，将图表示扩展到3D对象检测的效率和所提出的SVGA-Net可以达到体面的检测精度。1. 介绍随着LIDAR传感器在自动驾驶[4]和增强现实[17]中的广泛普及，从点云中检测3D物体已成为主流研究方向。与来自摄像机的RGB图像相比，点云可以提供准确的深度和几何信息[37]，不仅可以用于定位对象，还可以用于描述对象的形状[38]。然而，点云的无序性、稀疏性和相关性使得直接利用点云进行三维目标检测成为一项具有挑战性的任务。近年来，已经提出了几种开创性的方法来应对3D对象检测*通讯作者在点云上。处理点云数据的主要思想是将点云投影到不同的视图[28，2，9，14，34]或将点云划分为等间距的体素[12，39，33]。然后应用卷积神经网络和成熟的2D目标检测框架[23，22]来提取特征。然而，由于投影本身不能很好地捕捉物体而仅使用体素化的方法没有很好地利用点云的属性，并且随着分辨率的增加带来了巨大的计算负担[15]。除了将点云转换为其他格式外，一些作品[26，36]将Pointnets [19，20]作为主干直接处理点云。虽然点网构建了一个分层网络，并使用对称函数来保持排列不变性，但它们无法构建分组点集之间的邻居关系[30]。考虑到点云数据的特点，在处理不规则数据时应注意到图的优越性。事实上，在用于分割和分类任务的点云领域中，用图处理的方法已经被许多作品深入研究[21，1，10，24，30]。然而，很少有研究使用图进行三维物体检测从点云。据我们所知，Point-GNN[27]可能是第一个证明使用图神经网络作为3D对象检测新方法的潜力的人。Point-GNN引入了自动配准机制以减少平移方差，并设计了框合并和评分操作以准确地组合来自多个顶点的检测结果然而，与ShapeContextNet[32]和Pointnet++ [20]类似，在特征提取过程中没有很好地建立点集之间的关系，大量的矩阵运算会带来沉重的计算负担和内存成本。在本文中，我们提出了稀疏体素图注意力网络（SVGA-Net）的三维物体检测。SVGA-Net是一个端到端的可训练网络，arXiv：2006.04043v2 [cs.CV] 2021年12+v：mala2255获取更多论文----云作为输入，输出对象的类别和边界框信息。具体来说，SVGA-Net主要由体素图网络模块和稀疏到稠密回归模块组成。代替标准化的矩形体素，我们将点云划分为具有固定半径的3D球形空间。体素图网络的目标是为每个体素构造局部完全图，为所有体素构造全局KNN图局部和全局作为注意机制，可以为每个点的特征向量提供参数监督因子以这种方式，局部聚合特征可以与全局逐点特征组合然后，我们设计了稀疏到稠密回归模块，通过处理不同尺度的特征来预测类别和3D边界框KITTI基准上的评估表明，我们提出的方法可以达到与国家的最先进的方法的结果。我们的主要贡献可归纳如下：• 我们提出了一种新的端到端的可训练的3D对象检测网络，从点云使用图形表示，而无需转换为其他格式。• 我们设计了一个体素图网络，该网络在每个球形体素内构建局部完整图，并通过所有体素构建全局KNN图，以同时学习区分性特征表示。• 我们提出了一种新的3D盒估计方法，聚合不同尺度的功能，以实现更高的3D定位精度。• 我们提出的SVGA-Net在挑战性的KITTI 3D检测数据集上使用最先进的方法取得了不错的2. 相关工作2.1. 基于投影的点云计算为了与RGB图像对齐，一系列作品通过投影处理点云[2，9，13]。其中，MV3D [2]将点云投影到鸟瞰图上，并训练区域建议网络（RPN）以生成正向预测。它从LIDAR鸟瞰图，LIDAR前视图和RGB图像中提取特征，为每个建议生成精细的3D边界框。AVOD [9]通过融合图像和鸟瞰图特征来改进MV3D，并在RPN阶段合并请注意，使用此方案，在高级层中可能会丢失准确的几何信息2.2. 点云的体积测量方法处理点云的另一种典型方法是体素化。VoxelNet [39]是第一个使用体素化处理点云的网络，它使用堆叠的VFE层来提取特征张量。随后，大量方法[16，33，25，3]将3D空间划分为规则网格并将网格中的点作为一个整体分组。然而，它们通常需要堆叠大量的3D CNN层来实现几何姿态推断，这带来了巨大的计算量。2.3. 基于点网为了直接处理点云，PointNet [19]和Pon- intNet++[20]是设计并行MLP以从原始不规则数据中提取特征的两个开创性工作，这大大提高了精度。以它们为主干，许多工作[26，18，11，36，35]开始设计不同的特征提取器以实现更好的性能。虽然点网是有效的抽象特征，他们仍然遭受局部和全局点集之间的特征丢失。2.4. 基于图的点云计算在分类和分割任务中探索了构建图形以学习不规则点云数据的顺序不变表示[7，30]。图卷积运算是计算点间特征的有效方法. DGCNN [30]提出了相邻点集中的EdgeConv来融合KNN图中的局部特征SAWNet [7]扩展了PointNet和DGCNN的思想，以学习点的局部和全局信息。令人惊讶的是，很少有研究考虑将图形应用于3D对象检测。点GNN可能是设计用于3D对象检测的GNN的第一项工作。Point-GNN [27]设计了一个单阶段图神经网络，通过自动配准机制、合并和评分操作来预测对象3. 该方法在本节中，我们将详细介绍用于点云3D检测的SVGA-Net的架构如图1所示，我们的SVGA-Net架构主要由两个模块组成：体素图网络和稀疏到密集回归。3.1. 体素图网络结构球形体素分组。考虑原始点云表示为G=V，D，其中V=p1，p2，.，表示D维度量空间中的n个点在我们的实践中，D被设置为4，因此3D空间中的每个点被定义为vi= [xi，yi，zi]，其中xi，yi，zi表示沿着轴X，Y，Z的每个点的坐标值，并且第四维是激光反射强度，其表示为si。然后为了更好地覆盖整个点集，我们使用迭代最远点采样[20]来选择N个最远点，+v：mala2255获取更多论文----{∈}我--J稀疏到稠密回归体素图网络图构建CLSreg分组局部逐点特征局部点注意层b我Max池β1G-KNN图{ci}i=1，.，N共享MLP（64，128，128）全局注意层局部完全图全局KNN图βnβ2MLPMLPMLP共享分享共享点注意点关注-2点关注-1MLP（64，128，128）共享图1. 所提出的SVGA-Net的架构。体素图网络以原始点云作为输入，将空间划分为球形体素，将每个球体中的点转换为表示特征信息的矢量。稀疏到密集回归模块将聚合的特征作为输入，以生成最终的框信息。点P=p i= [v i，s i]TR4i=1，2，. N.根据P中的每个点，我们在固定半径r内搜索其最近的邻居，以形成局部体素球体：bi={pi，p2，... pi，.， pj，... |n（<1）n（1）以这种方式，我们可以将3D空间细分为N个3D球空间，B=b1，b2，.， bN.局部逐点特征。如图1所示，对于每个球面vo x elbi=pj=[xj ，yj ，zj ，sj]Tj=1，2，.，t与t个点（t随体素球体的不同而变化），内部所有点的坐标信息形成输入向量。我们通过学习映射来提取每个体素球体的局部逐点特征：f（bi）=MLP（pj）j=1，2，.，（2）然后，我们可以获得每个体素球体F={fi，i= 1，.，t}，其中(a) 局部完全图(b)全局KNN图图2. 图构造。每个节点用不同的颜色表示聚集的特征，箭头方向表示信息传播方向，具有独立的注意力计算分数。(a)局部完全图：对于每个节点，我们根据注意力得分聚合同一球形体素内所有节点的信息(b)全局3-NN图：我们根据注意力得分聚合每个节点周围的三个最近邻居的信息。其中，f'表示节点Pj的动态更新特征由后续图层进行转换，以获得更深的特征学习和Jfj是节点p j的输入特征。H（pj）表示局部点关注层。以每个节点的特征作为输入，局部点关注层输出细化特征F'= f'，i = 1，.，通过一系列信息聚合来测试。如图2所示，我们为每个局部节点集构建一个完整的图，并为所有球形体素构建KNN图。我们根据局部和全局的注意力得分来聚合每个节点的信息第j个节点的特征聚合表示为：f'=βm·fj+αj，k·fj，k（3）同一个球体内其他节点的索引fj，k表示同一球面内第k个节点的特征。αj，k是节点pj和同一球体内其他节点之间的局部注意力得分βm是第m次迭代中来自全局KNN图的全局注意力得分。如图2（a）所示，我们为体素球体内的所有节点构建一个完整的图，以学习彼此约束的特征为了让每个点都能参与到其他每个点上，并使不同点之间的系数易于比较，我们对所有选择进行了归一化k∈H（pj）使用softmax函数，因此局部注意力得分αj，k+v：mala2255获取更多论文J------J×g，i计算公式为：j，kjjj，kexp（fT·fj，k）（四）α=softmax（f，f）=k∈H（pj）exp（fT·fj、k）全球关注层。通过构造局部完全图，聚集特征只能描述局部特征，不能与全局信息集成因此，我们设计了全局注意力层来学习每个球形体素的全局特征，并提供与每个节点对齐的特征因子。F 或在 N 个 3D 球面体中的每个 bi 内的点 B=bi ，b2，.， bN，我们计算所有体素的物理中心，表示为cii=1，.，N.每个中心由3层MLP学习，以获得初始全局特征卷积上采样C级联分类地图回归地图逐元素加法F g=f g，1，f g，2，.，f g，N.如图2（b）所示，我们为N体素球体构建了一个KNN图对于每个节点fg，i，节点fg，i与其第l个邻居之间的注意力得分计算如下：图3.稀疏到密集回归模块的架构来自体素图网络的特征通过一系列区域提议提取操作来处理，以生成最终的分类和回归图。不g，i·fg，i，l（五）βm=100fT·f层，然后是BatchNorm和ReLU，其中f在F出来是输入和输出通道的数量，k，s，p其中V（fg，i）表示节点fg，i的邻居的索引。m是点关注层的数量。当量5可以看作是一个节点周围的K个邻居节点的加权和体素图特征表示。每个球形体素上的点注意操作可以结合来自局部和全局的参数因子，每个参数因子都插入具有非线性激活的2层MLP以变换每个更新的特征f'。通过堆叠多个-多点注意层，可以学习局部聚合特征和全局逐点特征。然后，我们将maxpool应用于聚合特征以获得最终特征向量。为了处理所有的球形体素，我们获得一组体素球体特征，每个特征对应于体素的空间坐标，并作为稀疏到密集回归模块的输入3.2. 稀疏到稠密回归对于3D空间中的每个3D边界框，预测框信息被表示为（x，y，z，l，w，h，θ），其中（x，y，z）是边界框的中心坐标，（l，w，h）分别是与长度、宽度和高度一起的尺寸信息，并且θ是航向角。由体素图网络得到的特征指定的稀疏到密集回归（SDR）模块的架构如图3所示。SDR模块首先应用三个类似于[39，11]的块来生成从上到下较小的空间分辨率。每个块由Conv2D（fin，fout，k，s，p）的系列组成分别表示内核大小、步幅大小和填充大小每个块的第一层的步幅大小设置为2，以将特征图降采样一半，然后是步幅为1的卷积序列。并且三个块的输出被表示为相对于V的b1、b2、b3。为了将高分辨率特征与大的感受野和具有小感受野的低分辨率特征，在上采样之后，我们将第二和第三模块B2、B3的输出与第一和第二模块B1、B2的输出相关联。在这种方法中，较低层的密集特征范围可以很好地与较高层的稀疏特征范围相结合然后，在三个尺度通道上并行地执行一系列与上采样层的卷积操作，以生成具有相同尺度大小的三个特征图，其被表示为F1、F2、F3。此外，我们认为F1，F2，F3的特征输出比原来的三个模块更紧密地适合我们的最终目标。因此，为了结合原有的稀疏特征图和一系列处理后的稠密特征图，我们将上采样后的原始输出b1，b2，b3和F1，F2，F3通过元素加法合并。最终输出F s是通过在3×3卷积层之后连接融合的特征图来获得的。并将Fs作为输入来执行类别分类和3D包围盒回归。3.3. 损失函数我们使用多任务损失来训练我们的网络。每个先前的锚点和地面实况边界框被参数化为（xa，ya，za，la，wa，ha，θa），Block1F1B 1B1CF2B2B2CCB3F3B3Block3Block2FsJFl∈V（fg，i）g，i，l+v：mala2255获取更多论文√L我L我N2（xgt，ygt，zgt，lgt，wgt，hgt，θgt）。锚点和地面实况之间的回归残差计算如下：所有（64，128，128）。在局部点注意力层中，我们堆叠n= 3个局部点注意力图来聚合特征，每个图后面跟着一个2层MLP。和尺寸x=xgt−xaDa，y=ygt-yaDa，z=zgt-zaHa三个MLP是（128，128）、（128，256）和（512，1024）分别在[9，39，36]之后，我们训练了两个网络，一个用于汽车，另一个用于行人和骑自行车的人。w= log（wgt），（六）对于汽车，我们采样N= 1024以形成初始点哇啦啦θ= sin（θgt−θa）ha集合。为了构造局部完全图，我们选择r= 1. 8米对于锚点，如果锚点具有最高的IoU，并且具有地面真实值或其IoU得分，则该锚点被认为是其中da=（wa）2+（la）2。我们使用Smooth L1loss[5]作为我们的3D边界框回归损失Lreg。对于目标分类损失，采用分类二进制交叉熵损失.超过0.6。如果所有地面实况框的IoU小于0.45，则锚被认为是负面的。为了减少冗余，我们为NMS应用0.7的IoU阈值。对于骑自行车的人和行人，初始点集的数量为n= 512。我们设r = 0。8、构建局部图。的Lcls1=γ1POS我CLS（ppos，1）+γ1neg我CLS（p阴性，0）。（七）如果锚点的最高IoU得分与地面实况框或IoU得分超过0.5，则锚点被认为是积极的和其中Npos和Nneg是正锚和负锚的数量。ppos和pneg是softmax输出，如果锚点与地面实况框的IoU得分小于0.35，则锚点被认为是负面的设置NMS的IoU阈值i i到0.6。正锚和负锚。γ1和γ2是平衡不同锚的正常数，在我们的实践中分别设置为1.5和1。我们的总损失由两部分组成，分类损失Lcls和边界框回归损失Lreg：该网络在GTX 1080 GPU上以端到端的方式进行训练。使用ADAM优化器[8]来训练我们的网络，其初始学习率在前140个epoch中为0.001，并且每20个epoch衰减10次我们训练我们的网络200个epoch，L总=αL CLS1+β N阳性t∈{x，y∈，z，l，w，h，θ}L段（t，t）.（八）16个GPU卡。此外，我们还像[11，39]那样应用数据增强来防止过拟合。式中，分别为预测残差和回归目标。加权参数α和β用于平衡不同部分的相对重要性并且它们的值分别被设置为1和24. 实验凯蒂我们首先在广泛使用的KITTI 3D对象检测基准上评估我们的方法[4]。它包括7481个训练样本和7518个测试样本，分为三个类别：汽车，行人和自行车。对于每个类别，检测结果根据三个难度级别进行评估：容易，中等和困难。此外，我们将训练数据以约1：1的比例分为训练集（3712张图像和点云）和验证集（3769张图像和点云）（消融研究在此分割上进行我们在训练分割上训练我们的模型，并将我们的结果与最先进的方法在val分割和test分割上进行比较。为了进行评估，平均精度（AP）指标将与不同方法进行比较，汽车、骑自行车者和行人的3D IoU分别为0.7、0.5和0.5。4.1. 培训网络架构。如图1所示，在局部逐点特征和全局注意力层中，点集首先由3层MLP处理，大小为4.2. 与最先进的方法KITTI测试数据集上的性能。我们评估我们的方法上的3D检测基准基准的KITTI测试服务器。如表1所示，我们将我们的结果与最先进的RGB+激光雷达和仅激光雷达方法进行了比较，用于3D对象检测和鸟瞰我们提出的方法优于最有效的 RGB+ 激光雷达方法MMF[13]（0.52%，3.72%，7.50%）对于汽车类的三个难度水平的3D检测。与基于激光雷达的方法相比，我们的SVGA-Net在这三个类别上仍然表现出不错的性能。特别是，与Point-GNN[27]相比，我们使用相同的图形表示方法，但在三个类别的检测中使用图形神经网络，取得了不错的结果。我们认为，这可能得益于我们的构造局部和全局图，以更好地捕捉点云的特征信息这两个检测任务中的轻微劣效可能是由于对于遮挡率超过80%的对象无法构建KITTI验证数据集上的性能。对于最重要的汽车类别，我们还报告了我们的方法对KITTI值分割的性能，结果如表2和表3所示。对于汽车，我们提出的方法取得了更好的或可比的结果比国家的最先进的方法上N+v：mala2255获取更多论文方法交通方式AP汽车（%） AP行人（%）AP自行车（%）表1. 针对汽车、行人和骑自行车者的KITTI 3D目标检测性能比较。评估指标为官方测试集上的平均精度（AP）。’R’ denotesRGB images input and ’L’ denotes Lidar point clouds方法模态APcar（%）容易中度硬MV3D [2]R+L71.2962.6856.56F-Pointnet [18]R+L83.7670.9263.65AVOD-FPN[9]R+L84.4174.4468.65[31]第三十一话R+L89.0278.8077.09Voxelnet [39]L81.9765.4662.85第二[33]L87.4376.4869.10[26]第二十六话L88.8878.6377.38Fast PointRCNN [3]L89.1279.0077.48标准[36]L89.7079.8079.30SA-SSD[6]L90.1579.9178.783DSSD[35]L89.7179.4578.67[27]第二十七话L87.8978.3477.38SVGA-Net（我们的）L90.5980.2379.15表2.针对汽车类的KITTI 3D物体检测值集的性能比较。方法模态APcar（%）容易中度硬MV3D [2]R+L86.5578.1076.67F-Pointnet [18]R+L88.1684.0276.44[31]第三十一话R+L90.2388.7986.84Voxelnet [39]L89.6084.8178.57第二[33]L89.9687.0779.66Fast PointRCNN [3]L90.1288.1086.24标准[36]L90.5088.5088.10[27]第二十七话L89.8288.3187.16SVGA-Net（我们的）L90.2789.1688.11表3.KITTI汽车级鸟瞰图检测阀组的性能比较这三个难度水平说明了我们的方法的优越性。4.3. 定性结果如图4所示，我们说明了我们提出的SVGA-Net在KITTI数据集上测试分裂的一些定性为了更好的可视化，我们将3D边界框投影到RGB图像和点云中的BEV。从图中我们可以看到，我们提出的网络可以估计准确的3D边界框在不同的场景中。令人惊讶的是，SVGA-Net即使在光线不足和严重遮挡的情况下仍然可以生成准确的3D边界框。4.4. 消融研究在本节中，我们对KITTI的验证分割进行了一系列广泛的消融研究，以说明每个模块在改善最终结果和我们的参数选择中的作用所有消融研究都在包含最大量训练示例的汽车类上实现。评估指标是valset上的平均精度（AP %）不同设计选择的影响。在局部点集层中，通过叠加多个局部完备层来提取聚集特征.为了显示点关注层的数量的影响，我们训练网络，n从1到4不等。如表4所示，当局部特征信息在第一层至第三层上传输时，由于特征被连续地聚合到对象本身，所以检测精度被连续地提高。当n增加到4时，检测精度略有下降，我们认为网络应该过度学习。此外，我们还研究了全局注意层在提高检测精度方面的重要性如表4所示，当我们从网络中删除此模块时，两个检测任务上的AP值都大大降低，这证明了这种设计在为每个点提供全局特征信息方面的重要性。在表4的中间三行中，我们旨在探索稀疏到密集回归模块中不同设计的效果。SR用于消除b1、b2与上采样的b2 、 b3的级联，DR用于消除bi与Fi的相加。结果表明，只有稀疏到稠密回归设计在提高检测精度方面排名第一容易中度硬容易中度硬容易中度硬MV3D[2] R+L71.0962.3555.12------[18]第十八话81.2070.3962.1951.2144.8940.2371.9656.7750.39AVOD-FPN[9] R+L81.9471.8866.3850.8042.8140.8864.0052.1846.61F-ConvNet[31] R+L85.8876.5168.0852.3745.6141.4979.5864.6857.03[13]第十三话86.8176.7568.41------美国[39]77.4765.1157.7339.4833.6931.5161.2248.3644.37第二[33] L83.1373.6666.2051.0742.5637.2970.5153.8546.90美国[11]79.0574.9968.3052.0843.4341.4975.7859.0752.92[26]第二十六话85.9475.7668.3249.4341.7838.6373.9359.6053.59标准[36] L86.6177.6376.0653.0844.2441.9778.8962.5355.773DSSD[35] L88.3679.5774.55------SA-SSD[6] L88.7579.7974.16------[25]第二十五话90.2581.4376.82---78.6063.7157.65[27]第二十七话88.3379.4772.2951.9243.7740.1478.6063.4857.08SVGA-Net（我们的）L87.3380.4775.9148.4840.3937.9278.5862.2854.88+v：mala2255获取更多论文图4. SVGA-Net在KITTI测试集上的定性3D检测结果。检测到的对象显示为绿色3D边界框和相关标签。每个图像中的上一行是投影到RGB图像上的3D对象检测结果，底部是对应点云中的结果。3DAP汽车（%）BEV AP汽车（%）容易中度难易中度硬1 86.7775.3774.1987.5486.1183.72288.8678.8178.0389.0488.4487.05390.5980.2379.1590.2789.16489.6279.2677.5889.7288.5187.17W.点特征的表示，以及点与其邻域之间的信息可以被融合。通过构建全局图，我们可以更好地监督和学习点的特征此外，稀疏到密集回归模块还可以融合不同尺度的特征图。实验k26. 致谢这项工作得到了国家基金会的资助。表4.不同设计选择的性能比较。n是点关注层的数量。'w/o.'表示是否保留全局注意力层。SDR表示稀疏到密集回归。在构建KNN图时，我们的实现中的数字“3”是在val集上进行一系列实验后选择的，如表4中的最后五行所示。当K从1增加到3时，AP值有明显的增加，但当K继续增加时，AP值确实会减小。开始了。我们的网络是用 Python 编写的，并在Pytorch中实现，用于GPU计算。一个样本的平均推理时间为62 ms，其中14.5%（9 ms）用于数据读取和预处理，66.1%（41 ms）用于局部和全局特征聚合，19.4%（12 ms）用于最终盒检测。5. 结论在本文中，我们提出了一种新的稀疏体素图atten-tion网络（SVGA-Net）的三维目标检测从原始点云。我们引入图形表示来处理点云。通过在划分的球面体素空间中构造局部完全图，可以得到更好的局部表示。国家自然科学基金项目（No.61872068），科学技术部资助中国四川省（编号： 2020YFG0037 、2020YFG0287、2021YFG0366）。引用[1] Y. Bi，黑枝藓A. Chadha，A. Abbas，E. Bourtsoulatze和Y.安-德雷普洛斯。神经形态视觉感知的基于图的对象分类。在 2019 年 IEEE/CVF 计算机视觉国际会议（ICCV）上，第491-501页，2019年。1[2] Xiaozhi Chen，Huimin Ma，Ji Wan，Bo Li，and TianXia.用于自动驾驶的多视角三维物体检测网络在IEEE计算机视觉和模式识别会议论文集，第1907-1915页，2017年。一、二、六[3] Yilun Chen，Shu Liu，Xiaoyong Shen，and Jiaya Jia.快点R-CNN。在IEEE计算机视觉国际会议论文集，第9775-9784页，2019年。第二、六条[4] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。2012年IEEE计算机视觉和模式识别会议，第3354-3361页。IEEE，2012年。1、5[5] R.女孩快速R-CNN。在2015年IEEE国际计算机视觉会议（ICCV），第1440-1448页，2015年。5nw/o。O.88.4290.5978.1180.2376.5479.1589.7190.2787.4589.1684.3388.11已经证明了我们的设计选择的效率SrDRSDR87.5388.3990.5977.8178.4480.2376.2276.5679.1586.9587.9190.2786.6286.8289.1685.0486.7388.11网络未来的工作将扩展SVGA-Net，RGB图像，进一步提高检测精度。176.3769.1568.4782.1180.2779.5884.5375.6171.9286.2385.6583.66390.5980.2379.1590.2789.1688.11488.9179.2277.8688.0787.8887.08586.5876.8275.4385.2984.3883.47+v：mala2255获取更多论文[6] Chenhang He ， Hui Zeng ， Jianqiang Hua ， Xian-ShengHua，and Lei Zhang.结构感知的单阶段点云三维物体检测。在IEEE/CVF计算机视觉和模式识别会议论文集，第11873-11882页，2020年。6[7] ChaitanyaKaul，NickPears，andSureshManandhar.Sawnet：用于3D点云处理的空间感知深度神经网络。arXiv预印本arXiv：1905.07650，2019。2[8] Diederik P Kingma和Jimmy Ba。Adam：一种随机优化方法。arXiv预印本arXiv：1412.6980，2014年。5[9] Jason Ku ， Melissa Mozifian ， Jungwook Lee ， AliHarakeh和Steven L Waslander。从视图聚合联合生成3d建议和目标检测。2018年IEEE/RSJ智能机器人与系统国际会议（IROS），第1-8页。IEEE，2018年。一、二、五、六[10] Loic Landrieu和Martin Simonovsky。基于超点图的大规模点云语义分割。在CVPR 2018，2018。1[11] Alex H Lang ， Sourabh Vora ， Holger Caesar ， LubingZhou，Jiong Yang，and Oscar Beijbom. Pointpillars：用于从点云中检测物体的快速编码器。在IEEE计算机视觉和模式识别会议论文集，第12697-12705页，2019年。二四五六[12] 波丽用于点云中车辆检测的3D全卷积网络。2017年IEEE/RSJ智能机器人和系统国际会议（IROS），第1513IEEE，2017年。1[13] 明亮，杨斌，陈云，胡瑞，和拉奎尔·乌塔孙.多任务多传感器融合三维目标检测。在IEEE计算机视觉和模式识别会议论文集，第7345-7353页，2019年。二，五，六[14] Ming Liang ， BinYang ， Shenlong Wang ， and RaquelUrtasun.多传感器三维目标检测的深度连续融合。在欧洲计算机视觉会议（ECCV）的会议记录中，第641-656页，2018年。1[15] Zhijian Liu，Haotian Tang，Yujun Lin，and Song Han.点体素cnn用于高效的3d深度学习。神经信息处理系统，第963-973页，2019年1[16] 刘哲、赵信、黄腾腾、胡若兰、周瑜、向白。Tanet：基于三重注意力的点云鲁棒3D物体检测AAAI，2020年。2[17] 朴永明文森特·莱佩蒂特和吴恩塔克用于增强现实的多三维目标跟踪。在第七届IEEE/ACM混合和增强现实国际研讨会的会议录中，ISMAR美国华盛顿，2008年。IEEE计算机协会。1[18] Charles R Qi ， Wei Liu ， Chenxia Wu ， Hao Su ， andLeonidas J Guibas.基于rgb-d数据的截锥点网三维目标检测在IEEE计算机视觉和模式识别集，第918一、二、六[19] Charles R Qi ， Hao Su ， Kaichun Mo ， and Leonidas JGuibas. Pointnet：点集深度学习，用于3D分类和分割。在IEEE计算机视觉和模式识别集，第652一、二[20] Charles Ruizhongtai Qi，Li Yi，Hao Su，and Leonidas JGuibas. Pointnet++：度量空间中点集神经信息处理系统的进展，第5099-5108页，2017年一、二[21] X.齐河，巴西-地Liao，J. Jia，S. Fidler和R.乌塔松用于RGBD语义分割的3D图神经网络。在2017年IEEE国际计算机视觉会议（ICCV），第5209-5218页，2017年。1[22] 约瑟夫·雷德蒙，桑托什·迪瓦拉，罗斯·吉希克，阿里·法哈迪。您只需查看一次：统一的实时物体检测。在IEEE计算机视觉和模式识别会议论文集，第779-788页，2016年。1[23] 任少卿，何开明，Ross Girshick，孙健。更快的r-cnn：用区域建议网络实现实时目标检测。神经信息处理系统的进展，第91-99页，2015年。1[24] Y. 申角冯，Y.Yang和D.田基于核相关和图池的点2018年IEEE/CVF计算机视觉和模式识别会议，第4548-4557页，2018年。1[25] Shaoshuai Shi ， Chaoxu Guo ， Li Jiang ， Zhe Wang ，Jianping Shi， Xiaogang Wang ， and Hongsheng Li. Pv-rcnn：用于3D对象检测的点-体素特征集抽象。在IEEE/CVF计算机视觉和模式识别会议上，第10529-10538页，2020年。第二、六条[26] Shaoshuai Shi，Xiaogang Wang，and Hongsheng Li.从点云生成和检测三维物体。在IEEE计算机视觉和模式识别集，第770一、二、六[27] Weijing Shi和Ragunathan（Raj）Rajkumar。Point-gnn：用于点云中3d物体检测的图形神经网络在IEEE计算机视觉和模式识别会议（CVPR）上，2020年6月。一、二、五、六[28] Martin Simon 、 Karl Amende 、 Andrea Kraus 、 JensHoner、Timo Samann、Hauke Kaulbersch、Stefan Milz和Horst Michael Gross。Complexer-yolo：语义点云上的实时3D对象检测和跟踪。在IEEE计算机视觉和模式识别研讨会会议论文集，第0-0页，2019年。1[29] 诉A. Sindagi，Y.Zhou和O.塔兹Mvx-net：用于3d物体检测的多模态体素网络在2019年国际机器人与自动化大会（ICRA）上，第72761[30] 王悦，孙永斌，刘子伟，Sanjay E.作者：Michael M.Bronstein和Justin M.所罗门用于点云学习的动态图cnn。ACM Trans. Graph. ，38（5）：146：1-146：12，2019年10月。一、二[31] 王志新和奎佳。Frustum convnet：滑动平截头体以聚合非模态的局部逐点特征。2019年IEEE/RSJ智能机器人和系统国际会议（IROS），第1742-1749页。IEEE，2019年。1、6[32] S. Xie，S. Liu，Z. Chen和Z. Tu.用于点云识别的注意力shapecon- textnet。2018年IEEE/CVF计算机视觉和模式识别会议，第4606-4615页，2018年。1[33] 严妍，毛宇星，李波。第二：稀疏嵌入卷积检测.传感器，18（10）：3337，2018。一、二、六+v：mala2255获取更多论文[34] 杨斌，罗文杰，拉奎尔·乌塔孙。Pixor：从点云中实时检测3D物体。在IEEE计算机视觉和模式识别会议论文集，第7652-7660页，2018年。1[35] Zetong Yang ， Yanan Sun ， Shu Liu ， and Jiaya Jia.3dssd：基于点的3d单级物体检测器。在IEEE/CVF计算机视觉和模式识别会议论文集，第11040-11048页第二、六条[36] 杨泽通，孙亚南，刘舒，沈晓勇，贾继亚. Std：点云的稀疏到密集3d对象检测器。在IEEE计算机视觉国际会议论文集，第1951-1960页，2019年。一、二、五、六[37] Yikuan Yu，Zitian Huang，Fei Li，Haodong Zhang，andXinyi Le.Point encoder gan：一个用于3D点云修复的深度学习模型。神经计算，384：192-199，2020。1[38] Junning Zhang，Qunxing Su，Cheng Wang，HongqiangGu. 用于自动驾驶的具有多实例深度和几何推理的单目3d车辆检测神经计算机，2020年。1[39] 尹周和昂塞尔

下载后可阅读完整内容，剩余1页未读，立即下载