没有合适的资源?快使用搜索试试~ 我知道了~
1OFCFP我SPRPPAFSE我FCAFFPSOPPPRSEHVNet:用于基于LiDAR的3D目标检测的茂盛叶双杰徐同益曹DEEPROUTE.AI{maoshengye,shuangjiuxu,tongyicao}@ deeproute.ai摘要提出了一种基于点云的自动驾驶三维目标检测的一级统一网络--混合体素网络(HVNet)最近的研究表明,2D体素化与每体素PointNet风格的特征提取器导致准确和高效的检测器的大型3D场景。所有类70906889886687648686846083车由于特征图的大小决定了计算和内存成本,因此体素的大小成为难以平衡的参数。较小的体素大小提供更好的性能,特别是对于较小的对象,但推断时间更长。较大的体素可以用较小的特征图覆盖相同的区域,但不能捕获较小对象的复杂特征和准确位置。我们提出了一种混合体素网络,通过融合不同尺度的体素特征编码器(VFE)来解决这个0 10 0 30 4001行人0494847464440 10 0 30 4000 10 0 30 40 0骑车人706600 10 0 30 40 0并投影到多个伪图像特征图中。我们进一步提出了一种专注的体素特征编码,其性能优于普通的VFE和特征融合金字塔网络,以在特征图级别聚合多尺度信息。在KITTI基准测试上的实验表明,单个HVNet实现了所有现 有方法中最好 的mAP,实时推 理速度为31Hz。1. 介绍三维目标检测是对三维场景中的目标进行识别和定位的任务。它是3D场景理解的基本任务,在机器人和自动驾驶汽车中有着广泛的应用。最近的方法利用各种类型的数据,包括来自LiDAR的单目图像[23,27]、立体图像[11,21]和点云[10,35]。与2D图像不同,点云数据具有一些独特的属性。每个点的位置反映了现实世界中物理对象的表面。在鸟瞰视图中,数据具有固有的尺度不变性,物体被自然地分离,这有利于被遮挡物体的检测。由于其准确性和鲁棒性,LiDAR已成为自主的流行传感器。然而,点云的密度变化很大。体积密度与到传感器的平方距离的倒数成正比。这使得采用点云分割网络变得困难运行时间(Hz)图1.鸟瞰用蓝色圆圈表示的多传感器方法;两阶段基于LiDAR的方法绘制为绿色菱形,一阶段方法绘制为红色正方形。蓝色垂直条右侧的方法是实时的。方法应至少为20Hz,因为机载应用应覆盖360度,而不是KITTI注释的有限90度。绘制的方 法 有FP : F-PointNet [20] 、 AF : AVOD-FPN [9] 、 M :MMF [13]、I:IPOD [31]、FC:F-ConvNet [26]、S:STD[32]、PR:PointRCNN [22]、FPR:Fast Point R-CNN [2],SE:SECOND [28],PP:PointPillars[10] , PI : PIXOR++ [29] 和 O : 我 们 的 HVNet 。 对 于PointPillars,我们使用它们在PyTorch上的运行时进行公平的比较。我们的方法在大多数情况下表现出色,特别是对于mAP和Cyclist。作品或2D图像检测方法。为了处理这些问题并利用LiDAR数据的优势,最近已经提出了许多方法(参见图1标题)。一系列值得注意的方法将2D/3D体素化与每个体素中的PointNet特征提取器相结合[10,28,35],我们称之为体素特征编码(VFE)方法。这些方法利用学习的点云特征和二维伪图像特征映射,既具有较高的精度,又具有较高的 推 理 速 度 。 VFE 方 法 通 常 包 含 三 个 步 骤 ( 图2VFE)。1.体素化:将点云分配给2D体素网格。2.体素特征提取:网格相关的逐点特征是1631SMPRFPRFCFPAF我OPPPiSEOFCPRSFP我AFPPSE性能(AP/mAP)1632zy伪图像特征投影X体素特征编码zyX混合体素特征编码全球背景动态特征投影zyXVFEHVFE图2. VFE方法的体素特征提取策略和我们的HVNet。VFE方法中的每 个点特征只包含一 个特定的尺度知 识。对于HVNet,混合尺度下的点特征被聚集到一个全球范围内,然后投影到动态目标尺度下的特征。为每个点计算并馈送到Pointnet风格特征编码器。3.投影:逐点特征被聚集到体素级特征并投影回其原始网格,形成伪图像特征图。VFE方法中的一个关键参数是体素的大小。 较小的体素捕获更精细的几何特征并且更好地定位对象,但是遭受更长的推断时间。较粗糙的体素导致较小的特征图和较快的推理速度,但具有较差的性能,特别是对于小对象。在[10]中,0.12的网格大小在速度为25Hz的KITTI数据集上给出了最佳结果。然而,推理空间仅限于前方90度FOV和70米范围。其他工作使用多个体素尺度来增强网络的性能[24],但运行时仍然由最大的特征图主导。为了利用细粒度体素特征,为了保证运行效率,我们提出了混合体素网络(HVNet)。HVNet实现了特 征 提 取 尺 度 和 伪 图 像 投 影 尺 度 。 与 [10] 类 似 ,HVNET包含三个步骤(图2HVFE):1. 多尺度体素化:我们创建一组特征体素尺度,每个点被分配给多个体素。2. 混合体素特征提取:对于每个尺度,为每个点计算体素相关特征,并将其馈送到关注体素特征编码器(AVFE)中。每个体素尺度的特征逐点连接。3.动态特征投影为了将特征投影回伪图像,我们创建另一组多尺度投影体素,其可以独立于特征体素。根据投影尺度体素对来自最后步骤的多尺度逐点特征进行聚集,形成多个伪图像特征图。通过这些策略,HVNet能够具有时间效率。 作为示例,特征体素尺度的集合可以是{0.1米,0. 2m、0. 4 m}和投影体素比例可以是{0. 4 m}。 对于80m×80m我们最终得到一个大小为200×200的特征图。对于一个普通的VFE结构,我们需要一个800 × 800的特征图来捕捉0. 1米规模。我们在KITTI [5]数据集上评估了我们的HVNet。HVNet在所有LiDAR一阶段方法中实现了最先进的性能(图1)。1)。此外,即使与两阶段和多传感器的方法相比,我们的方法也优于mAP和Cyclist。同时,HVNet以31Hz的实时速度运行。总之,我们的贡献如下:• 我们提出了一种新的混合体素特征编码器,通过解耦特征提取体素和特征图来有效地融合多尺度VFE。射出体素。• 我们隐式地保持所有体素,并以紧凑的逐点形式执行尺度聚合,以实现高计算和存储效率。• 我们提出了一个细心的VFE,实现了很大的改进,以很少的计算开销。• 在KITTI上进行了大量的实验,以证明每个组件的有效性。2. 相关工作2.1. 3D对象检测对于利用点云的3D对象检测的现有方法,大致存在两种不同的路线:基于多传感器的3D物体检测。 MV3D [1]是将点云投影到鸟瞰图和正视图中的开创性工作。AVOD [9]受MV3D的启发,设计3D对象锚,然后通过投影聚合相应的特征图,以生成用于检测的全面表示。F-PointNet[20]将图像中的2D检测扩展到3D空间中的相应平截头体。提出了MMF [13]来利用多个相关任务,包括深度完成和2D对象检测,以实现精确的多传感器3D对象检测。然而,尽管多个传感器可以提供额外的信息,但这些框架的推理效率相对较低。此外,多传感器之间的同步要求使得部署困难.基于点云的三维物体检测。基于体素的方法[3,9,30,25]共享将稀疏点云投影到紧凑表示中的主要思想。VoxelNet [35]使用基于PointNet的VFE层进行3D空间 点 表 征 。 SECOND [28] 利 用 稀 疏 卷 积 [6] 来 加 速VoxelNet并提高性能。基于SECOND,PointPillars [10]仅在XY方向上应用体素化以形成伪图像特征化,用于……1633点云多尺度伪图像特征网络架构检测头预测+车头自行车头++行人头部关于Voxelization……比例srVox elIndexcst1比例尺1Hybrid scaleVoxeli zation点特征FSt1Atentio n Gst1逐点特征z知识索引cst宝在T FstAtengst特点知识yX规模st比例sr伪图像特征其他比例在SR其他ST…...Attentio nGSR知识Vox elIndex csr我图3.第一行是HVNet的整体结构。第二条线是混合体素特征提取器架构,由四个部分组成:a)x-y平面中的多尺度预体素化:b)通过多流AVFE层编码的多尺度点云数据;c)编码特征聚合; d)通过AVFEO层利用聚合特征和目标尺度知识进行动态特征投影点云然而,每个体素中的点数是有限的,导致信息丢失。在这项工作中,我们提出了一种新的无损3D表示编码器。最近有许多两阶段的作品[31,26,32,22,2]FastPoint R-CNN [2]应用两阶段框架,利用体积表示进行初始预测,并使用原始点云进行细化。STD [32]首先在第一阶段使用PointsPool生成提案和紧凑提案特征,然后在第二阶段预测3D边界框这些方法由于更好的召回 率 而 具 有 高 准 确 率 , 但 是 推 理 时 间 长 ( 低 于20Hz)。因此,本文重点研究了具有时间效率和精度的单阶段统一框架。2.2. 多尺度特征聚合多尺度策略[14,13,2]已被证明是有效的3D目标检测 。 Contestry [14] 使 用 连 续 卷 积 来 聚 合 来 自 不 同ResNet Block [7]的多尺度特征图。Voxel-FPN [24]采用RPN-FPN模块[15]来聚合通过体素化从各种体素尺寸生成的不同体素特征。然而,体素特征图与每个体素尺寸有严格的相反,我们的HVNet,一种新颖的多尺度可缩放聚合策略,能够将尺度缩放成多对多的关系。3. 方法在本文中,我们描述了我们的一个阶段的三维物体检测器HVNet。第一行显示了整个网络3.1. 混合体素特征提取器包括在混合体素特征提取器(HVFE)中的三个主要步骤,即,混合尺度体素化、混合体素特征编码和动态特征投影。此外,为了解耦混合体素尺度和伪图像特征投影尺度以实现速度和准确度之间的更灵活的平衡,在逐体素注意力引导下引入用于混合体素表示的全局上下文,其细节将在第2.2节中描述3.2.该阶段的总体结构如图所示。3 .第三章。点云表示。点云将由无序点集{p1,p2,...,pN},其 中 pi∈Rd , 其 中 对 于 点 坐 标 ( x , y , z ) ,xi∈R3,对于关联特征向量,fi∈Rd−3 我们探测到对象定义为L×W×H,从最小值( xmin , ymin , zmin ) 到 最 大 值 ( xmax , ymax ,zmax)。混合尺度体素化。HSV是一种将点分配到均匀间隔的体素网格的体素化先前方法中的分配阶段,如VoxelNet [35]和PointPillar [10],伴随着具有固定大小的缓冲区分配。当一个体素的缓冲区容量被超过时,点将被丢弃,导致随机性和信息丢失。 相反,我们只保留体素索引的每一点。 假设点云被离散化为许 多vo x元素V={vj|j=l, … , Nv},其分辨率为v L× v W× vH。[10 ][11][12][13][14][15][16][17][18][19][1针对目标体素尺度大小s的逐点索引c i被记录为光标r,t,o,其中,它位于g i,ven中,为:图3包括三个主要阶段:1)混合型投影原始点云的体素特征提取c(s)=(xi−xmin)vL sWvWs+(yi−ymin)vW s.(一)2)2D卷积中间层-多尺度特征融合算法;以及3)分别预测不同类别的3D盒子的检测头。在我们的算法中,只需要点到体素的映射关系方法,不像MVF [34]需要双向关系。 这样,只有张量c被分配,…关注VFE层关注VFE层点式连续关注VFE输出层1634体素化阶段此外,我们保持所有的点都保留在一个体素内,而不是其他方法,这也成为体素注意的前提。混合体素特征提取。HVFE模块提供了一种新的方法 来 创 建 细 粒 度 的 点 云 特 征 , 计 算 成 本 很 低 以PointPillar [10]为例(图2),以前的基于体素的方法仅限于固定的体素尺度s,其中每个编码的点特征仅包含s的尺度知识。此外,最终投影特征的大小与对应的体素大小相同,这意味着计算复杂度将随着细粒度特征的增加而迅速增加。图4.AVFE输出AVFEO输出AVFE和AVFEO层。 索引张量用于体素比例。假设投影伪像特征Is∈RNW×NL×NH,其中NL= NL/(vL s)N,NW=其中,NH是投影输出维数。当s减少n倍时,NL×NW将增加n2倍。如 图 3 所 示 , HVFE 模 块 获 取 一 组 vo x el 尺 度ST={st|1
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功