没有合适的资源?快使用搜索试试~ 我知道了~
3763水平水平检测垂直LiDAR传感器回波组LiDAR图像光子检测器阵列垂直检测用于三维目标检测的Yunze Man1,Xinshuo Weng1,Prasanna Kumar Sivakumar2,Matthew1卡内基梅隆大学,2电装{yman,xinshuow,mpotoole,kkitani} @ cs.cmu.edu,prasanna.kumar. na.denso.com摘要LiDAR传感器可用于获得除简单的3D点云之外的广泛测量信号,并且这些信号可用于改善感知任务,如3D物体检测。单个激光脉冲可以被沿着其路径的多个物体部分反射,从而导致称为回波的多个测量。多回波测量可以提供关于对象轮廓和半透明表面的信息,其可以用于更好地识别和定位对象。LiDAR还可以测量表面反射率(激光脉冲返回的强度)以及场景的环境光(物体反射的这些信号已经在商业LiDAR设备中可用,但尚未用于大多数基于LiDAR的检测模型中。我们提出了一个3D物体检测模型,它利用由LiDAR提供的全光谱测量信号。首先,我们提出了一个多信号融合(MSF)模块来组合(1)用2D CNN提取的反射率和 环境 特征 ,以 及( 2 )使 用3D 图形 神经 网络(GNN)提取的点云特征。其次,我们提出了一个多回声聚合(MEA)模块,结合在不同的回声点集编码的信息。与传统的单回波点云方法相比,我们提出的多信号LiDAR检测器(MSLiD)提取更丰富的背景信息,从更广泛的传感测量,实现更准确的3D目标检测。实验表明,通过对LiDAR的多模态进行分类,我们的方法比最先进的方法高出9.1%。1. 介绍LiDAR是一种功能强大的传感器,能够捕获用于包括物体检测在内的感知任务的广泛测量。最常用的LiDAR测量类型是一组3D点(点云)及其反射率值,可提供场景中对象的准确3D形状信息。最先进的物体检测方法已经通过利用3D点云数据取得了重大突破。然而,尽管取得了这样的成功,但仍有几种类型的LiDAR测量多回波点云图1. 来自Li-DAR传感器的多信号测量的图示。传感器上的每个光子探测器收集一组信号并形成在现代LiDAR感知算法中被很大程度上忽略。在下文中,我们描述了LiDAR传感器的三个独特特征,其在标准LiDAR传感器中可用,但令人惊讶地很少用于公开的基于LiDAR的对象检测算法中我们表明,通过利用这些功能,可以大大提高3D对象检测性能。LiDAR的第一个重要特征是其能够用单个激光脉冲获得多个返回信号,称为回波。LiDAR是一种飞行时间测量系统,可测量激光脉冲击中所需的时间物体并返回到传感器。更具体地说,激光器发射短脉冲,光电探测器对物体表面反射回来的光子的到达进行如果激光沿着其传播路径被多个物体部分反射,则光电检测器可能获取多个返回信号(回波)。我们把同一束激光产生的多个回波信号称为“回波群”.同一回波组中的点位于3D空间中的一条线上,并且它们通常根据其信号强度进行排序。除了增加可用点的数量的直接益处之外,多个回波还意味着高阶回波点可能在物体的轮廓上(物体仅阻挡激光的一部分)或在半透明表面上(激光的一部分穿过表面传播)。在这两种情况下,我们假设回声编码有意义的功能,可以帮助定位3764或对对象进行分类。LiDAR的第二个重要特性是捕获环境场景照明的能力。LiDAR的光电检测器连续捕获红外(IR)光,并且因此在激光脉冲之间捕获场景的IR图像(通常是反射的阳光)。尽管在大多数基于LiDAR的感知算法中通常忽略该信息,但是LiDAR可以用于使用IR光谱来捕获场景环境测量可以被处理为2D图像,并且可以用于提取关于场景中的对象的纹理信息。LiDAR的第三个重要特征是捕获表面反射率的能力。LiDAR捕获激光信号回波,因此每个点将具有测量检测到的激光脉冲的强度的对应反射率值。反射率还对可用于检测和分类的对象的材料性质进行编码。与环境信号不同,同一回波组内的不同点将具有不同的反射率值,从而导致多个反射率值,我们称之为多回波反射率。我们提出了一种基于多信号激光雷达的三维物体检测器(MSLiD)。首先,为了更好地利用环境和反射信号中编码的密集纹理和表面属性,我们将它们重新组织为密集的2D表示,称为然后,为了将密集的2D图像与稀疏的3D点云相结合,我们提出了一种多信号融合(MSF)模块,该模块结合了2D CNN分支和3DGNN分支。MSF模块旨在通过将来自2D分支的像素和类特征发送到在3D分支中学习的逐点特征来此外,为了提取和组合在不同的回声组中编码的信息,我们提出了一个多回声聚合(MEA)模块。为了解决不同回波中的点数量之间的不平衡,MEA模块将多回波点重新分配为两组–聚合从两个新的点集合学习的特征提供了对象的更丰富的上下文信息,并且导致更好的位置估计。通过级联的MSF和MEA模块,所提出的系统结合了密集的视觉信息从环境/反射和稀疏的几何信息从点云,同时还提取更丰富的上下文特征,通过聚合多个回声。通过利用除单个点云之外的多信号Li-DAR测量,MSLiD学习更有区别的对象表示,这导致准确的对象定位和分类。我们收集了一个真实世界和一个合成数据集与多个激光雷达测量,包括环境信号,多回波点云和反射信号。两个数据集上的实验表明,我们的方法优于最先进的单回波方法高达9。百分之一。总的来说,我们的贡献可以总结如下:1. MSLiD是第一个提出3D检测框架的公司,该框架适当地利用了环境照明、点云的多个回波和用于LiDAR传感器的反射信号。我们的方法显示出优于先前的方法,使用单回波点云的反射强度。2. 我们提出了一个多信号融合模块,有效地结合密集的视觉信息,从环境和反射信号稀疏的3D位置信息,从点云。3. 我们提出了一个多回声聚合模块,以形成一个更丰富的上下文表示的对象从多组的回声,从而导致更准确的对象定位和分类。2. 相关工作基于网格的三维物体检测方法。许多现有的作品转换成一个规则的网格空间表示的点云,以解决固有的稀疏性和不规则的点云格式。[2,10,13,28]将3D点云投影到2D鸟瞰图中,使用成熟的2D CNN提取特征。对于实时检测,[29,11]探索更有效的鸟瞰视图转换框架。其他工作集中在3D体素表示。[33]体素化点云并使用3D CNN来提取特征。稀疏卷积[5]在[27]中引入,用于更有效的体素处理和特征提取。此外,[26]探索了3D体素的非规则形状,而[22]提出将点特征学习与体素化相结合,从而获得更高的检测性能。基于网格的方法通常对于建议生成是有效的,但是它们在投影或体素化过程期间遭受信息损失。相比之下,我们的方法不具有信息丢失的问题,因为我们不进行体素化或投影点云。基于点的三维物体检测F-PointNet [18]首先提出使用来自2D对象检测的截头体建议,并直接从PointNet [19,20]提取的点特征回归最终边界框。[23]提出以自下而上的方式直接从点云生成3D候选提议,并且下面的[31]提出学习每个候选提议的密集体素表示以用于更有效的边界框回归。[30]通过删除细化阶段并直接从3D关键点回归,尽管使用了不同的点云编码框架,这些作品都与单回波点云和反射率值。与之前的工作相比,我们的方法利用多回波点云和环境图像来学习点级特征和提议级特征的更丰富的表示。3765环境反射率#1第一回波第二次回波第三次输出分类细化评分边界框反射率#2反射率#3LiDAR图像输入多回波点云聚集2D CNN三维GNN点集1点集2点集改派点特征MEA模块像素特征类别特征提案生成MSF模块010图2.说明我们提出的框架。该方法以多回波点云和LiDAR图像为输入。MSF模块学习2D和3D表示的单独特征,并将2D像素特征与3D点特征融合。MEA模块首先执行点集重新分配,以将具有相似属性的点分组在一起。然后,通过聚合从不同点集学习的特征来学习每个提案候选者的判别性ROI特征。然后将学习的特征用于置信度估计和边界框回归。基于多模态融合的三维目标检测方法。 探索有效的方法来融合来自多种模态的信号仍然是3D目标检测中的一个悬而未决的问题。[10,2,12]提出将点云投影到BEV空间,然后将2D RGB特征与BEV特征融合以生成建议并回归边界框。[18]不应用特征融合,而是使用2D检测边界框来指导3D建议生成。[34,32,8]探索了LiDAR和RGB传感器之间的深度特征融合。[25]提出用图像语义分割结果来增强点云。[17]提出将来自2D特征的几何线索、语义线索和纹理线索与3D点特征融合,并获得了室内3D对象检测的有希望的性能[16]提出了一种检测后融合机制,用于组合来自RGB 和LiDAR输入的候选框在我们的工作中,我们建议使用来自LiDAR传感器的更广泛的模式。我们是第一个探索将多回波点与环境/反射信号信息相结合的适当方式3. 方法我们设计了一种3D物体检测解决方案,适用于由LiDAR传感器提供的多信号测量,包括多回波点云,以及环境和重新测量。反射信号我们的基于多信号激光雷达的探测器,称为MSLiD,通过两个模块实现多个激光雷达信号之间的融合,即多信号融合(MSF)模块,其中视觉信号与几何信号相结合,以及多回波聚合(MEA)模块,其中来自不同回波组的点融合在一起。在本节中,我们首先描述如何在MSF模块中处理、编码和融合多种类型的信号,以进行逐点特征提取和建议生成(第3.1节)。然后,我们描述了MEA模块,其中多个点云被重新分配到不同的点集,这些点集的特征被提取和聚合,以形成用于3D边界框回归的适当建议RoI特征(第3.2节)。注意,我们假设LiDAR传感器生成k-回波点云。我们的方法的整体流水线如图2所示。3.1. 多信号融合生成建议通过多个流学习多个模态的特征[12,17,25]被证明是有效的特征融合。为了充分利用不同信号之间的互补性,我们采用了双流特征提取和混合框架。数据编码。 为了利用成熟的2D检测3766为了从多个信号中提取视觉线索,我们首先将环境和反射信号转换为称为“LiDAR图像”的2D图像表示与先前的方法不同,其中点云被投影到具有校准矩阵的图像 空间 中, 我们 根据 LiDAR 探 测器 阵列 的对 准将LiDAR多模态测量重新组织成2D图像(即,基于LiDAR多模态测量的校准矩阵)。,范围视图[1]),如图1所示。具体地,每列像素是由垂直对准的LiDAR检测器捕获的信号,并且每行像素是由相同的检测器捕获的信号。在不同的水平方向上。转换后的LiDAR图像具有分辨率[h,w,n],其中h对应于垂直对准的检测器的数量,w对应于水平对准的检测器的数量。n是在每个“像素”中编码对于图像流,转换的LiDAR图像被传递到2D检测器中以生成2D边界框。我们采用基于FPN的模型[14]作为我们的2D检测器,其中骨干权重在ImageNet分类上进行预训练,模型在COCO对象检测上进行预训练。然后,我们使用LiDAR图像作为输入对数据集进行微调 , 以 检 测 2D 边 界 框 。 对 于 点 云 流 , 我 们 利 用PointNet++ [20]作为我们的骨干网络,从原始3D点云中学习有区别的逐点特征。为了利用来自不同回波的点云并增加点密度,我们将k-回波点分组在一起作为整个点云并从中提取特征。多信号融合(MSF)。为了生成用于建议生成的丰富的逐点特征,我们提出了一种2D到3D特征混合方法,该方法将2D像素语义信息增强到3D逐点几何特征。[17]提出了一种有效的室内3D对象检测框架,以从2D检测中提取三种不同的线索(特征)然而,几何提示依赖于非常严格的假设,其中传感器原点、2D中心和3D中心位于同一条线上该假设大致适用于具有可控深度范围和对象形状的室内场景。但对于自动驾驶场景,这种近似所造成的误差往往是无法承受的。与此相反,我们提出了一个MSF模块,该模块将像素的2D语义特征附加到其对应的点- 类概率向量(类向量)和密集LiDAR测量(像素向量)。具体地,对于LiDAR图像的每个像素,我们形成一个独热向量来表示它属于哪个类。如果像素不在任何边界框内,则向量被设置为全零,并且如果像素在多个边界框内,则对应的类条目都被设置为1。我们认为,区域预测向量有助于解决稀疏3D点云中对象类别的模糊性。另一方面,密集LiDAR测量包括该点对应的环境值和反射率值。每个点都有其唯一的反射率值,而同一回波组中的多个点共享相同的环境值。密集Li-DAR测量包括3D点云不具有的较低级别的语义特征,包括对象纹理和表面反射率。通过融合2D语义特征和3D点特征,我们的方法可以编码多模态信息,这有助于更好地定位和识别对象。给定融合特征,我们应用自下而上的建议生成策略[23]来生成用于边界框细化阶段的3D候选。具体地,我们使用融合的逐点特征来学习二元前景/背景分割,其中前景点被定义为任何地面实况3D边界框内的点。之后,我们在前景点周围生成锚框并回归框参数的残差[23,18]。3.2. 用于框细化的给定若干提议候选,边界框细化网络旨在估计提议置信度并预测边界框参数的残差(即,中心、大小和方向)。在[23,31,24]之后,我们首先通过用建议中心(X,Y,Z)值减去它们的3D位置并将它们旋转到建议预测方向来对每个点执行规范变换这使得模型在几何变换下具有鲁棒性,从而可以学习更好的局部特征。然后,我们想学习每个建议的代表性RoI特征,用于置信度估计和边界框回归。我们的主要动机是有效地从多回波点云中提取鉴别特征。为此,我们提出了点集重新分配和多回声聚合模块。点集重新指定。在RoI特征池中利用多回波点的最直接方法是为每组回波点学习单独的特征。然而,这种天真的想法导致了性能不佳,原因有两个。第一个原因是不同回波点云中的点的数量是极其有偏差的。如果回波通过信号反射率排序(其中低阶回波具有较高强度),则较高回波点云将具有比低回波点云少得多的点。这是因为具有较低信号强度的点不太可能被传感器检测到。第二,不可控因素太多会影响回显点的顺序。由于回波是根据信号反射率排序的,因此各种不可预测的因素决定了点所属的回波组,包括但不限于大气湿度、入射角、表面粗糙度和物体的其他光学性质。3767LLppp斌CLSuuuuresu∈{y,h,w,l}L1vvNp斌presˆˆΣ1Σ一重新分配图3.三回波点云上的点重新分配策略的图示,其中白点表示传感器原点。左:原始点集右:重新分配后在[23,31]之后,建议生成损失Lpg由点云二进制分割损失和建议回归损失组成:Lpg=L reg+L focal,(2)其中 焦 点是用于学习点云前景分割的焦点损失,如[15,23]中所述。使用自下而上的基于箱的建议生成模块,建议回归损失reg由箱分类损失L箱和大小残余损失Lres组成。给定建议参数(x,y,z,h,w,l,θ),其中(x,y,z)是对象中心,(h,w,l)是对象大小,θ是方向,损失项公式为:L=Σ(L(binp,binp)+Lu∈{x,z,θ}(resp,resp)),L=ΣL(resp,resp),将多回波点分成两个新的集合。如图3所示,每个“回波组”的到传感器的最远点我们称这两个新的集合Lreg1= N阳性pΣ∈posp斌res),(三)点集,在这个意义上,如果回波不是“回波组”中最远的点,这意味着激光可以“穿透”该对象并被更远的如果一个点被分配到可穿透集合,则该点可能在对象的轮廓上(部分信号保持向前传播),或者被半透明表面反射(部分信号穿过表面)。很明显,轮廓信息有助于更好地定位对象,并且半透明信息对对象的某些部分(诸如汽车的窗户)的存在进行编码,这两者对于对象框细化都是有用的。多回波聚合。其中Lcls是分类交叉熵损失,并且LL1是平滑L1回归损失。bin和resp是点p的预测bin选择和参数残差,而binp和resp是地面实况。Npos是总前景点的数量,因此建议回归损失是所有前景点的面元损失和残差损失的平均总和。此外,边界框细化损失L_refine由用于置信度估计的分类损失和用于类似于前一阶段的回归损失组成。1NaL=L(评分,标签)给定两组新的点,然后,我们的目标是学习区域ROI特征,边界框细化 因为两个集合中的点编码细化Nclsi i我Np+(L~i+L~i),我(四)[19 ]第10段。然后,我们形成了一个联合功能的ROI区域,聚集在一起的两个特征向量我们探索多个聚合方案,并选择级联作为最终的方法。精化网络最终采用2层MLP,其分叉成2个分支来执行置信度估计和建议回归。3.3. 损失函数我们提出的方法是用多任务损失训练的,包括建议生成损失Lpg和边界框细化损失Lrefine:L总体=L pg + L精制。(一)(L+L物体表面事实证明,网络无法提取有用的特征来细化边界框时,一个巨大的包L1的因子纠缠在每个回波点云中。因此,我们提出了一个分组方法来重新分配不同的对象信息,我们学习两个单独的功能,为每个集与MLP其次是逐点池3768斌resLL其中,Na是锚框的数量,并且Np是用于回归的肯定提议的数量,预测得分i和标签i,并且确定真实置信度标签。~i和~i是与前一级类似的bin和剩余损耗除了预测的和真实边界框参数都被变换成规范坐标。4. 实验在本节中,我们将介绍用于训练和测试我们的方法的数据集(第4.1节)我们还介绍了实现细节,包括网络架构和训练参数(第4.2节)在我们的实验中使用。然后将我们的结果与其他最先进的3D检测进行3769表1. 3D物体检测与现实世界数据集上最先进方法的性能比较。评估指标是具有不同IoU阈值的平均精度(AP)。方法Car-IoU = 0。7简单中硬Car-IoU = 0。5简单中硬Person-IoU = 0。5简单中硬Person-IoU = 0。25简单中硬第二[27]第一回波67.937.127.379.957.056.242.125.219.854.835.523.9完整回声75.042.930.686.865.565.147.429.920.358.539.225.6[23]第二十三话第一回波66.937.828.180.257.752.145.228.920.057.038.725.2完整回声73.641.928.985.065.662.751.631.420.261.240.725.93DSSD [30]第一回波64.136.727.077.455.952.445.728.820.257.538.523.8完整回声72.440.628.183.965.163.951.930.719.960.840.526.2SASSD [6]第一回波68.837.928.681.258.356.842.526.718.254.736.623.2完整回声76.143.229.887.266.063.746.928.519.458.138.623.7PV-RCNN [22]第一回波69.138.328.481.759.157.444.928.219.756.338.224.9完整回声76.944.131.288.167.265.352.730.920.862.041.226.2MSLiD79.545.330.789.768.165.357.534.221.566.543.227.7改进+2.6+1.2-0.5+1.6+0.9+0.0+4.8+2.8+0.7+4.5+2.0+1.5方法在两个数据集(第4.3节,第4.5节)和进行广泛的消融研究(第4.4节),以调查我们的方法的每个组成部分,并验证我们的设计选择。4.1. 数据集由于没有公开可用的具有环境照明、多回波点云和反射率测量的多信号LiDAR基准数据集用于3D对象检测评估,因此我们收集了两个具有多信号测量的新数据集来评估我们的方法。真实数据集是由一个安装在车顶上的原型Li-DAR在北美城市周围行驶的车辆顶部收集的。LiDAR提供三回波点云以及每个点的环境和反射率值。每个回波组EG=[(p1,i1),(p2,i2),(p3,i3),a],其中p=(x,y,z)是3D点坐标,i是每个回波点的反射率值,并且a是回波组的环境值。回波按信号强度排序,因此第一回波在回波组内具有最高反射率值没有检测到的回波被标记为空,反射率为零。转换后的该数据集由35,850帧组成,这些帧从各种驾驶场景中收集,包括市中心,高速公路,郊区等。我们以70/30的比例将数据集分为数据集的地面实况标签是3D空间中的“人”和“汽车”类的3D定向边界框使用CARLA [3]模拟器收集合成数据集。它是一个大规模的多传感器多任务数据集。与真实数据集类似,我们也收集了具有反射率值的三回波点云。我们用RGB图像的r通道来近似环境值,因为它们都捕获波长接近的环境阳光信号。我们使用26,043帧进行训练,使用8,682帧进行测试。 合成数据集的格式与真实的数据集。此外,合成数据集提供了广泛的地面实况注释,包括2D和3D边界框和分割。在各种课程中,我们专注于“汽车”,“人”和“自行车手”。我们将向公众发布我们的合成数据集,以供复制和竞争。补充资料中提供了我们的合成数据集的更多细节4.2. 实现细节网络架构。为了对齐网络输入,我们从每个场景中的多回波点云中随机子采样16K个点。请注意,多个点云被视为一个完整的集合进行采样。在建议生成阶段,我们遵循[20]的网络结构,具有四个集合抽象(具有多尺度分组的[4096,1024,256,64])和四个特征传播层作为我们的3D特征提取骨干。对于2D检测器, 我们 使用Faster-RCNN [21]和特 征金 字塔网 络(FPN)[14]模块和ResNet-50 [7]作为主干。在边界框细化网络中,我们从每个重新分配的点集中随机采样256个点作为MEA模块的输入。我们遵循[20]的网络结构,具有三个集合抽象层([64,16,1]),为每个点集生成单个特征向量然后,这两个特征被连接以联合执行估计和回归头。训练参数。我们的方法的两个阶段分别使用Adam优化器[9]进行训练。对于真实世界数据集,阶段1以学习率训练150个epoch3770----0.002,并且阶段2以学习率0.001训练50个时期。对于合成数据,阶段-1以学习率0.002训练100个历元,阶段-2以学习率0.002训练40个历元。对于基于bin的建议生成和细化模块,我们采用与[23]中相同的bin大小,搜索范围和方向数。在置信度估计期间,如果“Car”提议的最大3D IoU高于0.6,则将其视为正,并且如果其低于0.45,则将其视为负。对于我们的2D检测器在ImageNet分类和COCO对象检测上进行了预训练。然后,我们使用LiDAR图像作为输入来检测2D绑定框,在我们的数据集上对其进行微调对于两个数据集,批次大小、权重衰减和动量被设置为8、1 e-4和0.9。对于真实世界数据集,学习率设置为0.005,对于合成数据集,学习率设置为0.01。水平翻转用于数据扩充。4.3. 真实世界数据集我们比较我们的模型对国家的最先进的基于点和基于网格的3D对象检测器在不同的点集。对于评估度量,我们使用不同IoU阈值下的平均精度(AP),其中对于“Car”类,我们使用IoU = 0。5,0。对于'Person',我们使用IoU = 0。25,0。五、难度级别是基于深度值来选择的,其中容易类包含40m内的对象,中等类包含40-80m之间的对象,而困难类包含80-200m之间的对象。与最先进方法的比较。我们在表1中示出了评估结果和与SOTA方法的比较。注意,对应于“第一回波”的行具有最高强度-对应于全回波的在具有不同IoU阈值的“Car”和“Person”类上,我们的方法优于最先进的方法,具有显着的优势。对于相对于“简单”和“中等”类的请注意,对于远于80m的硬物体,我们没有得到明显的改善,因为多种模态提供的信息更少。首先,由于信号衰减,多回波点的数量随着距离的增加而快速减少此外,由于尺寸小,它们很难在LiDAR图像上检测到在'Per- son'类下注意,使用“全回波”的所有先前方法这意味着原始-表2.不同输入信号对整体3D检测性能的影响,其中SE代表单回波,ME代表多回波。点云环境信号ME反射信号总体APSE50.5我53.6我我CC53.755.1我CC55.5表3.我们提出的组件对整体检测的影响,包括MSF模块和MEA模块。方法MSF模块MEA模块总体AP类别特征像素特征基线50.5CCC52.153.6仅MSF仅MEAw/o类特征无像素特征CCCC54.055.3MSLiDCCC55.5包含在其它回波中的地层(例如,第2、第3回波)除了最强回波(即,第一回波)可用于改进性能。此外,我们的方法的目的是更好地提取和聚合多信号信息的特征,所以可以实现更高的性能。4.4. 消融研究我们进行了广泛的消融实验,以分析我们的模型和其他设计选择的不同建议组件的有效性。在[33,31]之后,所有消融研究均在“Car”类上进行不同输入信号的影响。在表2中,我们首先测试点云集合,其中我们仅将单回波(SE)或多回波(ME)点云作为输入。对于ME,我们使用三个回波点组,对于SE,我们将三个组合并为一个组。前两行显示,我们的方法通过MEA模块利用多回波点特征,比简单地合并所有回波组更好,实现了AP的3点改进。然后,我们烧蚀环境信号以及ME反射信号,以显示它们的效果。如该表所示,MSLiD还通过适当地利用这两种类型的LiDAR信号来改进检测结果-MSF和MEA模块的效果。在表3的第1行中,我们移除MSF模块(仅使用3D GNN特征)和MEA模块(相同地对待所有点)。这导致基线仅与单回波点云一起工作。在下面的两行中,我们禁用了两个模块中的一个,以验证它对我们的方法的贡献。然后,我们查看MSF模块内部并消融两个2D分支特征向量中的每一个。如表所示,两个提出的模块一起将绝对AP从基线提高对于3771表4. 在合成数据集上的性能。以前的SOTA方法是用分组为一个的所有多回波点进行训练的(全回波训练)。评估指标是平均精度(AP)。方法Car-IoU = 0。7简单中硬行人-IoU = 0。5简单中硬Cyclist-IoU = 0。5简单中硬第二[27]76.970.863.256.251.843.160.755.548.7[23]第二十三话77.871.463.359.953.444.861.155.748.8PV-RCNN [22]80.472.864.561.254.745.563.557.049.3MSLiD81.673.966.966.259.149.364.658.251.2改进+1.4+1.1+2.4+5.0+4.4+3.8+1.1+1.2+1.9表5.边界框细化阶段的差异特征聚合方案(列1-3)和点云集合定义(列4-5)pcecho表示原始多回波点云,并且pcreassign表示在使用第3.2节中描述的重新分配策略之后的点集。51.1C C53.9C C54.5C C55.5Gation倾向于在两个模块之间贡献更多。这种改进来自于多回波点编码对估计对象的位置、大小和取向有用的轮廓和表面反射率信息点云重新指定和聚合的效果。我们在表5中示出了结果,其中Max-P、Mean-P和Concat表示聚合从不同点集学习的特征的不同方法,pc_echo和pc_reassign表示不同的点集定义。在不考虑难度水平的情况下,在所有地面实况提议上计算总体AP。从第 1- 3行我们可以看到,使用连接来聚合不同集合的特征会产生最佳性能,而最大池化往往会获得较低的性能。这种性能差距是因为从多个点集学习的特征编码了互补信息,与池化相比,关联可以更好地编码互补信息。从最后两行中,我们可以看到我们的点集重新分配策略有助于更好地学习RoI特征,并进一步提高1的绝对AP。4.5. 合成数据集我们还验证了我们的方法在合成数据集。对于合成数据集,难度级别遵循与KITTI基准测试[4]中相同的定义,其中简单,中等和困难由2D边界框大小和大小排列。最先进的方法在所有三个类上都有很大的优势对于实验进一步证明了该方法具有良好的泛化性能,并且对不同的数据集都有较好的适应性。4.6. 论成本效益权衡MSLiD的大小为10G,批量大小为4。在RTX 2080TiGPU上,推理时间为110ms,PointNet++[20]主干占用了大部分时间。我们还表明,利用多回声点的性能改进,provements不显着增加运行时间。在我们的实验中,我们总是在不同的设置(全回波或仅第一个回波)中采样总共16K个因此,添加或不添加MSF模块需要相同的时间来处理全回波或仅处理第一回波。在我们的方法中使用多个回波时,额外时间成本的唯一来源来自MEA模块,其中使用3层MLP来学习两个点集的单独RoI特征。根据表3,它使AP增加了3.4,推理时间略有增加。此外,由于我们在不同的设置中对相同数量的点进行采样,因此不需要用于多回波融合的额外空间。5. 结论我们提出了第一种方法,探索融合广泛的多信号激光雷达信息的三维目标检测。我们的方法利用多回波点云和环境/反射信号来学习判别点特征和建议区域ROI 特 征 。 在 建 议 生 成 阶 段 , 提 出 了 多 信 号 融 合(MSF)模块,以将从“LiDAR图像”学习的2D CNN特征与从点云学习的3D GNN特征融合。在细化阶段,提出了一个多回波聚合(MEA)模块,从多回波点云学习一个更好的对象上下文RoI功能。打赌-遮挡/截断水平。对于'Car',我们使用IoU = 0。对于“行人”和"骑自行车的人“,我们使用IoU = 0。五、如表4所示,我们提出的方法优于状态-称为RoI特征导致精确的边界框细化。我们提出的方法在两个具有多个LiDAR测量的数据集中实现了最先进的聚合方案点云集总体APMax-P均值-P康卡特个人电脑回波PC重新分配3772引用[1] Lucas Caccia Herke Van Hoof Aaron Courville 和 JoellePineauLiDAR数据的深度生成建模。IROS,2019年。4[2] Xiaozhi Chen,Huimin Ma,Ji Wan,Bo Li,and TianXia.用于自动驾驶的多视角三维物体检测网络。在IEEE计算机视觉和模式识别会议论文集,第1907-1915页,2017年。二、三[3] Alexey Dosovitskiy 、 German Ros 、 Felipe Codevilla 、Antonio Lopez和Vladlen Koltun。卡拉:一个开放式的城市驾驶模拟器。arXiv预印本arXiv:1711.03938,2017。6[4] Andreas Geiger,Philip Lenz,and Raquel Urtasun.我们准备好自动驾驶了吗?Kitti Vision基准套件。2012年IEEE计算机视觉和模式识别会议,第3354-3361页。IEEE,2012。8[5] 本杰明·格雷厄姆、马丁·恩格尔克和劳伦斯·范德马滕。使用亚流形稀疏卷积网络的3D语义分割。在IEEE计算机视觉和模式识别会议论文集,第9224-9232页,2018年。2[6] Chenhang He,Hui Zeng,Jianqiang Huang,Xian-ShengHua,and Lei Zhang.基于点云的结构感知单阶段三维物体检测在IEEE/CVF计算机视觉和模式识别会议论文集,第11873-11882页6[7] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页,2016中。6[8] 黄腾腾、刘哲、陈西武和向白。Ep- net:用图像语义增强点特征用于三维物体检测。在欧洲计算机视觉会议上,第35-52页。Springer,2020年。3[9] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。6[10] Jason Ku 、 Melissa Mozifian 、 Jungwook Lee 、 AliHarakeh和Steven L Waslander。从视图聚合联合生成3d建议和对象检测。2018年IEEE/RSJ智能机器人与系统国际会议(IROS),第1-8页。IEEE,2018年。二、三[11] Alex H Lang , Sourabh Vora , Holger Caesar , LubingZhou,Jiong Yang,and Oscar Beijbom.点柱:用于从点云中检测物体的快速编码器。在IEEE计算机视觉和模式识别会议论文集,第12697-12705页2[12] 梁明,杨斌,陈云,胡瑞,拉奎尔·乌塔孙.三维目标检测的多任务多传感器融合。在IEEE计算机视觉和模式识别会议论文集,第7345-7353页3[13] Ming Liang , BinYang , Shenlong Wang , and RaquelUrtasun.多传感器三维目标检测的深度连续融合在欧洲计算机视觉会议(ECCV)的会议记录中,第641-656页2[14] 林宗义、彼得·多尔、罗斯·格希克、何启明、巴拉特·哈里哈兰和塞尔日·贝隆吉.特征皮拉-用于对象检测的中间网络。在IEEE计算机视觉和模式识别会议论文集,第2117-2125页,2017年。四、六[15] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。在IEEE计算机视觉国际会议的论文集,第2980-2988页,2017年5[16] S. Pang,D. Morris和H.拉达Clocs:用于3d对象检测的相机-激光雷达对象候选者融合。2020年IEEE/RSJ智能机器人和系统国际会议(IROS),第10386-10393页,2020年。3[17] Charles R Qi,Xinlei Chen,Or Litany,and Leonidas JGuibas. Imvotenet:使用图像投票增强点云中的3D对象检测。在IEEE/CVF计算机视觉和模式识别会议论文集,第4404-4413页,2020年。三、四[18] Charles R Qi , Wei Liu , Chenxia Wu , Hao Su , andLeonidas J Guibas.从rgb- d数据中检测三维物体的平截体点网。在IEEE计算机视觉和模式识别集,第918二、三、四[19] Charles R Qi, Hao Su ,Kaichun Mo, and Leonidas JGuibas.PointNet:用于3D分类和分割的点集深度学习CVPR,2017年。二、五[20] Charles R Qi,Li Yi,Hao Su,and Leonidas J Guibas.点-Net++ : 度 量 空 间 中 点 集 的 深 度 层 次 特 征 学 习 。NeurIPS,2017。二四六八[21] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn:利用区域建议网络进行实时目标检测。神经信息处理系统的进展,第91-99页,2015年。6[22] Shaoshuai Shi , Chaoxu Guo , Li Jiang , Zhe Wang ,Jianping Shi,Xiaogang Wang,and Hongsheng Li. Pv-rcnn:用于3D对象检测的点-体素特征集抽象。在IEEE/CVF计算机视觉和模式识别会议(CVPR)上,2020年6月。二、六、八[23] Shaoshuai Shi , Xiaogang Wang , and Hongsheng Li.Pointr- cnn:从点云生成和检测3D对象建议。在IEEE计算机视觉和模式识别集,第770-779页,2019年。二、四、五、六、七、八[24] Shaoshuai Shi , Zhe Wang , Jianping Shi , XiaogangWang,and Hongsheng Li.从点到部分:利用
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功