没有合适的资源?快使用搜索试试~ 我知道了~
16024RPVNet:一种深度高效的距离-点-体素融合网络用于LiDAR点云分割徐建云1*张瑞祥1、2*窦建1朱玉石1孙洁1蒲世良1†1海康威视研究院2浙江大学{xujianyun,zhangruixiang7,doujian,zhuyishi,sunjie,pushiliang.hri}@ hikvision.com摘要点云可以以许多形式(视图)表示,通常是基于点的集合、基于体素的单元或基于范围的图像(即,基于像素的单元)。全景视图)。基于点的视图在几何上是精确的,但它是无序的,这使得很难有效地找到局部邻居。基于体素的视图是规则的,但是稀疏的,并且当体素分辨率增加时,计算立方地增长。基于距离的视图是规则的并且通常是密集的,然而球面投影使得物理维度失真。基于体素和基于范围的视图都遭受量化损失,尤其是当面对大规模场景时的体素为了在细粒度分割任务中充分利用不同视点在这个网络中,我们设计了一个深度融合框架,这三个视图之间的多个和相互的信息交互,并提出了一个给定的融合模块(称为GFM),它可以自适应地合并并发输入的基础上的三个功能此外,建议的RPV的互动机制是非常有效的,我们总结它到一个更一般的配方。通过利用这种有效的相互作用和相对较低的体素分辨率,我们的方法也被证明是更有效的。最后,我们在两个大规模数据集上评估了所提出的模型,即Se-manticKITTI和nuScenes,它在这两个方面都展示了最先进的性能。请注意,我们的方法目前在SemanticKITTI排行榜上排名第一,没有任何额外的技巧。1. 介绍3D计算机视觉由于其广泛的应用而受到越来越多的关注,例如AR/VR、*同等贡献。前两位作者按字母顺序排列。†通讯作者。本研究得到了国家重点研究发展计划(批准号:2020AAA010400X)的资助。(a) 基于点:无序(b) 基于体素:稀疏、量化损失(c) 基于范围:物理尺寸失真图1.这三种观点都有缺点。(a)基于点:这些点是不规则的,这使得寻找点的相邻点的效率很低。(b)基于体素:体素化带来量化损失,并且当分辨率增加时,计算立方地增长。(c)基于距离的:由于球面投影,距离图像扭曲了物理尺寸机器人和自动驾驶。 在本文中,我们的目标是提高驾驶场景中的语义分割的性能,从而提供高质量的逐点感知整个3D场景。由光探测和测距(LiDAR)传感器收集的3D数据通常以点云的格式出现。有几种常见的形式(视图)来表示它,以及一些特定的预处理。传统上,研究人员将点云光栅化为体素单元,如图1(b)所示,并使用3D体积卷积[11,28]对其进行处理。与体素去-16025基于体素的视图基于笛卡尔坐标系进行精细化,保持了物理尺寸并且具有友好的存储器局部性。然而,它是相对稀疏的,并且需要非常高的分辨率,以便摆脱量化的信息损失,这带来了计算和存储器占用空间的立方增加最近,如图1(a)所示的基于点的视图受到越来越多的关注,各种作品倾向于直接消耗点。[24]第24话Miou7065605550Miou6560555045RPVPVVVox埃尔雷索卢蒂对0.05m0.1米0.2米0.3米0.5米使用逐点多层感知的先驱工作,(a) 方法与mIoU(b) 体素分辨率与mIoU它的特点是提取点特征的能力较弱,但缺乏局部上下文建模能力。基于PointNet,后来的研究[26,2,37,34,31]已经通过聚合其相邻特征来广泛关注每个点然而,点是非结构化的,因此由于随机存储器访问,搜索一个点的邻居是低效的平行轨道的作品[36,38,23,12]遵循球面投影方案,即,基于距离的视图,如图1(c)所示,其中深度图形式的3D信息的子空间是利用充分研究的2D网络来学习的。在这些方法中,距离图像上的卷积塔可以跨大的感受野聚合信息,从而有助于缓解点稀疏性问题。然而,由于球面投影,物理尺寸不是距离不变的,并且对象可能在杂乱场景中彼此严重重叠。在大规模驾驶场景的点云分割方面,我们发现:①的人。基于体素的方法在性能上比基于点和基于范围的方法相对更高,同时基于点和基于范围的方法中的最佳方法基本上相同,如图2(a)所示; 2)。由于高度优化的2D卷积,基于范围的方法比基于点和基于体素的方法相对更有效,并且当涉及局部邻居搜索时,基于点的方法远远不能满足实时要求;(3)第三章。当还考虑效率时,基于体素的方法难以保持高体素分辨率,并且当分辨率降低时,性能急剧下降,如图2(b)所示。将不同的视图组合在一起是直观的,在保留优点和减轻缺点的同时杠杆化互补信息。最近的一种尝试是PVCNN [21],一种点-体素融合方案,其中体素提供粗粒度局部特征,而点通过运行简单的逐点MLP来保留细粒度几何特征。它提供了一个很好的视角,但点体素融合带来的性能改善是有限的,如图2(b)所示,使用简单的加法融合是不够在本文中,我们提出了一个深度和自适应的范围点体素融合框架,旨在协同所有三个视图更具体地说,如图2.业绩概览。(a)不同方法的性能分布。结果表明,基于体素的方法总体上优于基于点和距离的方法,基于多视图融合的方法优于单视图方法。(b)性能与体素分辨率的关系。V表示基于体素的方法,PV是点-体素融合方法,RPV是我们的距离-点-体素融合方法。我们可以发现,PV融合只能得到有限的改善,但我们的RPV融合可以持续提高性能,即使体素分辨率相对较高。在图4中,我们设计了一种融合策略,使用点作为中间宿主,并将距离像素和体素单元上的特征转移到点,然后应用自适应特征选择,以便为每个点选择最佳特征表示,并最终将点上的融合特征转移回距离图像和体素。与其他先前的多视图融合方法[6,42,33,20,39,14]相比,这些方法要么在网络的前端融合,要么在网络的末端融合,我们的方法在网络中多次进行上述融合,这允许不同的视图以更深入和更灵活的方式相互增强。关于效率:首先,我们提出了一个有效的RPV互动机制,利用哈希映射ping。其次,我们使用一个相对较低的体素分辨率和稀疏卷积体素分支。第三,我们在类似于[21]的点分支上执行简单的MLP,摆脱了低效的局部邻居搜索。最后,我们采用了一个高效的范围分支,以减少计算。此外,我们发现类在数据集中非常不平衡,因此我们在训练阶段设计了一个实例CutMix增强来缓解类不平衡问题。本文的主要贡献如下:首先,我们设计了一个深度和自适应的范围点体素融合框架,它允许不同的意见,以更灵活的方式来增强对方。其次,我们提出了一个有效的RPV的互动机制,利用哈希映射,并总结为一个更一般的制定未来的扩展。最后,我们进行了大量的实验来评估我们提出的方法 的 有 效 性 和 效 率 , 并 且 我 们 的 方 法 在 Se-manticKITTI [3]和nuScenes [4]数据集上都取得了最先进的结果。RPVNet(70.3)我们SPVNAS(66.4)MinkNet(63.1)AMVNet(65.3)SPVCNN(63.8)SalsaNext(59.5)KPConv(58.5)RandLA(53.9)基于点RangeNet++(52.2)融合160262. 相关工作2.1. 基于点的分割PointNet [24]首先开创了通过基于MLP的网络对点进行直接操作。尽管随后的精心设计的作品[26,2,37,34,31]已被证明对室内点云数据有效,但由于计算和内存限制,其中大多数不能直接缩放到大规模室外数据。RandLA-Net [15]使用随机采样和局部特征聚合来减少随机操作带来的信息损失。它为点网的加速提供了一种可行的途径,但无法逃脱采样带来的精度损失。KPConv [31]通过其新颖的基于空间核的点卷积实现了当前基于点的方法然而,面临同样的问题,它不能直接训练大场景的整个数据。折衷地,通过半径的类别平衡采样用于减小数据规模。然而,这种分割可能会破坏点云的一些内在信息。总体而言,尽管基于点的方法可能具有较低的参数[15],但它们不可避免地涉及低效的局部邻居搜索。2.2. 基于体素的分割早期的基于体素的方法[5,22,25,11,28,43,35]将点转换为体素,并应用普通3D卷积进行语义分割。最近,已经做出了一些努力[10,30]来加速3D卷积,并以更少的计算将性能提高到更高的水平。同时,也提出了3D空间划分的变体[41,44]。其中,Cylinder3D [44]设计了一个不对称的残差块,以减少计算并确保与长方体物体相关的特征。 AF2S3Net [8]站在[ 10 ]的肩膀上,实现了过去方法的最先进水平,提出了两个新的注意力块,称为注意力特征融合模块(AF2M)和自适应特征选择模块(AFSM),以有效地学习局部和全局上下文并强调精细的详细信息,此外,还提出了具有地理感知各向异性的混合损失函数[17]用来恢复细节当分辨率降低时,体素方法将遭受严重的信息损失,但我们提出的方法使用其他观点来弥补这一缺点。2.3. 基于范围的分割基于范围的点云分割方法[23,12,16,36,38]通过 将 3D 点 云 投 影 到 2D 密 集 球 形 网 格 中 来 利 用 2DCNN。例如,RangeNet++ [23]利用YOLOv3 [27]中的DarkNet主干作为提取器并进行后处理通过使用加速的KNN。[12]第12话:sanet [1]作为基线,并提出了一种用于点特征学习的不确定性感知机制。另外,KPR-Net [16]在这些方法中脱颖 而 出 , 并 通 过 使 用 具 有 Astrous Spatial PyramidPooling层的强大ResNeXt-101主干实现了最先进的结果,同时,它还使用KPConv [31]作为分段头,以创新地取代低效的KNN。虽然基于距离的方法可以使用成熟的2D图像分割技术,但球面投影过程会扭曲物理尺寸,这可以在我们提出的多视图交互学习的RPVNet中避免。2.4. 多视图融合由于单个视图或多或少存在问题,因此一些最近的方法[42,33,20,39,14,30]试图将两个或更多个不同的视图混合在一起。例如,[42,33]中的方法通过在将来自鸟瞰图和距离图像的点级信息馈送到后续网络之前将其组合来执行早期融合AMVNet [20]通过计算不同视图输出的不确定性来设计后期融合方法,并使用额外的网络来细化结果。FusionNet [39]提出了一种点-体素交互MLP,其聚合邻近体素和对应点之间的特征,这减少了邻居搜索的时间消耗,并在大规模点云上实现了可接受的精度。特别地,PVCNN [21]提出了一种有效的点-体素融合方案,其中体素提供粗粒度的局部特征,而点通过运行简单的逐点MLP来保留细粒度的几何特征。上述方法只使用两种视图,而且它们之间的融合方法非常简单(如加法)。然而,我们提出的方法可以更有效地利用多角度的信息,并选择和融合有用的部分。3. 方法在本节中,我们首先介绍我们的网络概述,然后介绍其关键组件,即,RPV相互作用和融合方法。最后介绍了一种有效的数据3.1. 框架概述所提出的方法RPVNet的框图如图3所示。它是一个三分支网络,其中有多种相互作用。从上到下,三个分支分别是体素分支、点分支和范围分支。对于体素分支和范围分支,我们使用非常相似的Unet。Unet结构首先使用词干从原始输入中提取上下文信息,然后执行四个下采样阶段,最后连接四个上采样阶段以恢复原始点。Point- branch是一个非常简单的PointNet[24],有几个16027跳过连接conv3d体素V2pP2vV2pP2vV2pP2vV2pMLPMLPMLPMLPMLP点R2p P2rR2pR2p P2rR2p P2rConv2d范围图像跳过连接卷积下采样卷积上采样RPV融合V2P:Voxel to PointP2V:指向体素R2P:从图像到点的距离P2R:点到范围图像∈∈HPP····H›→F ∈ F ∈K {H P H}Unet管道阀杆下舞台1下上2级3级4级1级2级3级4级图3.RPVNet概述它是一个三分支网络,它们之间有多种交互,其中体素分支和范围分支共享类似的Unet架构,而点分支仅使用逐点MLP。MLP。RPV融合发生在主干、第四次下采样、第二次上采样和最后一次上采样阶段之后,这与SPVCNN [30]相同,用于公平比较。多视图交互的细节将在以下部分中说明。3.2. 高效的多视图交互式学习原始点云可以被转换成不同的视图,通常是体素和距离图像,因此点可以用作中间载体以在这些视图之间建立连接,即,任何形式的点云表示都可以看作是原始点的映射。因此,我们通过建立多视图表示索引和多视图特征传播来实现高效的多视图交互学习。通过索引系统实现了多视图的统一特征映射和表示.通过特征传播实现多视角特征交互和学习。因此,我们在我们提出的RPVNet中构建了距离-点-体素交互模块,这将在下面详细描述。多视图表示索引。 给定一个点云,其点的形式为P RN ×(3+C),我们可以通过某种“投影”函数将其变换为任意其它形式的XRM×D,其中N表示点的个数,3表示点在欧氏空间中的xyz坐标,C表示点的特征通道,M表示X形式的元素个数,D表示特征在X表示中的维数.为了构造P和X之间的连接,我们首先使用散列函数:RM ×DNM。因此,我们可以建立一个从P到X的哈希映射,这是一个高效的搜索。我们将X表示为点云的任意表示,并且任何形式的点云表示X都可以被视为原始点P的映射。要注意的是,多视图特征传播。点云表示X的其他形式中的元素j的特征受对应的原始点的影响。此外,由于“投影”函数可以是非注入的,因此j将经常受到来自P的多个键的联合影响。将j的所有键定义为X(j)= k, ((k))=(j),j的特征从对应的键传播。通常,从点到其他视图的特征传播可以公式如下:FX(j)= Ω(j,FP)(1)其中XRM×D,PRN×(3+C)是X和P的特征,Ω(,)表示加权函数(例如平均值,最大值)。相反,我们定义逆特征传播函数为Φ(,),它反映了从另一个视点到另一个视点的信息流。公式如下:FP(i)= Φ(j,FX)。(二)其中i表示P中的点。距离-点-体素交互。基于点的表示保留了几何细节,并捕获了细粒度的信息,这对于一些小信息是友好的16028P F−→F··Σ∈FΣ˜F FΣL站姿(例如行人、自行车)。基于体素的表示将点映射到规则的3D网格中,同时保持空间结构,其有效地提取各种3D维度中的信息。然而,体素分辨率的存在将引入量化损失。基于距离的表示将稀疏点转化为结构化的密集图像,大的感受野为大规模类别带来了更丰富的语义信息。为此,我们有效地利用了这三种视图的信息,并实现了它们之间的互动学习,以提高V2P R2P融合P2V P2R各类别的表现。如上所述,我们首先建立了距离-点-体素投影索引系统,即从点到距离视图和体素表示的距离化通过将点投影到球面上以生成如[32]中的距离图像来制定距离化索引,并且公式为R:P(z)R(fs(z)),其中z是点坐标,fs表示球面投影。 利用距离像,我们得到一个高度为H的距离像R ∈ RH×W ×D,图4. RPV融合的详细信息。在左侧块中:给定一个点及其哈希码,我们需要找到相应的体素或像素。在中间块中:给定来自不同视图的点上的特征,我们需要自适应地合并它们。在右侧块中:给定融合点特征,我们需要将其投影回其他视图。其中(,)计算双线性权重,δ(j)表示j的四邻域网格。因此,方程的偏5变成:宽度W和尺寸D。除了点和范围图像之间的映射之外,我们通过将输入点云P变换为稀疏体素表示V来表示体素化索引。对于不同的体素大小r,FP(i)FR(u)=u∈δ(j)(u,j).(七)the “projection” mapping is:FP(z)−→ FV(λz/rλ),3.3. 门控融合模块(GFM)其中z是点坐标。在Range-Point-Voxel索引系统的基础上,进一步实现了特征间的相互传播。在这项工作中,我们使用平均值将特征从Point传递到其他两个视图。因此,我们可以将Ω(j,P)改写为等式:1如下:Giv enL个特征向量XiRNi×Ci在不同的视图分支中,Ni,Ci分别是第i个特征向量的点数和通道数。多视图特征融合的本质任务是在大量无用信息的干扰下将有用信息聚合在一起。加法和串联是聚合多个要素的常用Ω(j,FP)=u∈KX(j)FP(u)Num(KX(j))(三)将受到许多非信息特征的影响。它们可以被表述为:其中Num(·)表示计数函数,u表示KX(j)的元素。此外,偏导数的X〜=conca t(X1,…,XL)、(8)Σ特征可以被计算为:fX(j)=1.(四)X=i=1X1,(9)FP(u)Num(KX(j))其中X是融合的特征向量。不同的特点由于视图分支的重要性不一致此外,对于其他视点间的特征传播函数,为了简单起见,最近邻插值可以实现为Φ(j,X)= X(j)。此外,我们遵循[30]的实现,其利用具有八邻域体素网格的三线性插值用于体素到点视图。类似地,我们的范围到点视图过程使用双线性插值方法:to their其variability可变.但上述主要的融合策略忽略了每个特征向量的有用性,并在融合过程中将大量无用特征与有用特征相结合。受成熟的Gating机制[9,29,19]的启发,该机制可以通过测量每个特征的重要性来自适应地聚合信息,我们的门融合模块是基于正常的基于添加的融合,通过用门过滤信息流来设计的。FP(i)= Φ(j,FR)=u∈δ(j)(u,j)FR(u)(5)通常定义为:ΣΣsoftmax(哈希值:4555653点最近或双线性插值体素散列:[455565330222 1233]点hash:0221233最近或双线性插值范围图像特征MLPC3权重图融合点要素体素SMLPSC 3重量的地图权重图C点MLPC3范围图像添加SSoftmax乘法RLL(u,j)=(1−X=Gi)]i·Xi(10)16029我我16030∈∗·∈Σ×××哪里表示逐元素乘法,并且[0,1]N×L表示第i个表示的门向量。 每个门向量对每个表示有L个通道,每个通道上的特征权重投票通过求和叠加,并通过soft-max转换为概率权重。最后,对相应通道的结果进行分离以对输入特征进行加权。每个门向量Gi=sigmoid(wiXi)由用wi参数化的卷积层 估 计R1×L×Ci. 详细的操作可以在图4(中间)中看到。3.4. 实例CutMix虽然室内点云的一些数据增强方法[18,7,40受以往基于混合的方法的启发,本文提出了基于实例混合的方法来解决激光雷达语义分割中的类不平衡问题。提供了多达28个类别,但官方评估忽略了只有几个点的类别,并合并了具有不同移动状态的类别,因此使用了一组19个有效类别。用于LiDAR语义分割的nuScenes[4]是一个新发布的数据集,其中包含从波士顿和新加坡的不同地区收集的1000个场景每个场景是20 s长,并且用VelodyneHDL-32 E传感器以20 Hz采样,因此nuScenes总共具有40,000帧。它将8130个样本用于训练,6019个用于验证,6008个用于测试。在合并相似类并移除稀有类之后,保留用于LiDAR语义分割的总共16个类。评估指标。正如官方指导[3,4]所建议的那样,我们使用所有类的平均交集(mIoU)mIoU可以被公式化为:C从经验上讲,如果允许对象重复出现,网络可以更准确地预测不太频繁的mIoU=1TPcCc=1TPc+FPc+FNc(十一)在场景中受此启发,我们提取了稀有的-类对象实例(例如,自行车、车辆)从训练集的每一帧提取到迷你样本库中。在训练期间,样本按类别从小样本池中均匀地随机选择。然后,将对这些样本进行随机缩放和旋转。为了确保与现实的紧密配合,我们随机地将物体放置最后,将来自其他场景的一些新的稀有对象4. 实验在本节中,我们将介绍我们的RPVNet的实施细节(Sec. 4.1),并在高度竞争的SemanticKITTI数据集[3](第二节)上与最先进的方法进行4.2)和新引入的大规模nuScenes数据集[4](Sec. 4.3)。在Sec。4.2中,我们给出了更多关于计算和可学习参数的细节来说明我们的方法的有效性。最后,在第4.4,我们进行了广泛的消融研究,以调查RPVNet的关键组件,并得出一些有希望的结论。4.1. 实验装置数 据 集 。 SemanticKITTI[3] 源 自 KITTI VisionBenchmark [13],是用于驾驶场景中的点云分割任务的大规模数据集。它由43551激光雷达扫描从22个序列收集 在 德 国 的 一 个 城 市 。 配 备 Velodyne-HDLE 64LiDAR,每次扫描约有120 k个点。这22个序列被分成3组,即,训练集( 00至10,08除外,19130次扫描)、验证集(08,4071次扫描)和测试集(11至21,20351次扫描)。SemanticKITTI其中TPc、FPc、FNc表示类c的真阳性、假阳性和假阴性预测,并且C是类的数量。网络设置。 如图3、范围和体素分支都是具有主干、四个下采样和四个上采样级的Unet状架构,并且这些9阶段分别为32、64、128、256、256、128、128、64、32。为range分支,SemanticKITTI数据集上的输入范围图像大小为64 2048,nuScenes数据集的初始大小为32 2048,然后调整大小为64 2048以保持与SemanticKITTI相同。对于体素分支,体素分辨率为0。05m用于第二节中的实验。第4.2节和第四点三。对于点分支,它由四个具有尺寸的每点MLP组成:32,256,128,32.训练和推理细节。我们采用常用的交叉熵作为训练中的损失。我们的RPVNet使用ADAM或SGD优化器以端到端的方式从头开始训练。对于SemanticKITTI数据集,上传到排行榜的模型使用SGD进行训练,批量大小为12,学习率为0.24,60个epoch。2个GPU,与SPVCNN [30]保持相同公平的比较。此设置在2个Tesla V100 GPU上需要大约100小时。对于其他实验,包括nuScenes数据集和消融研究,我们使用ADAM训练整个网络,批量大小为40,学习率为0.003,在8个Tesla V100 GPU上进行80个epoch。采用余弦退火学习率策略降低学习率.在训练过程中,我们利用广泛使用的数据增强分割策略,包括全局缩放用从[0. 95,1。05],以及以随机角度围绕Z轴的全局旋转。我们还进行了建议的实例切割混合SAM-16031∗方法Miou汽车自行车摩托车载重汽车其他车辆个人自行车手道路停车人行道他地建筑围栏植被主干地形杆交通标志PointNet [24]14.646.31.30.30.10.80.20.20.061.615.835.71.441.412.931.04.617.62.43.7RandLANet [15]53.994.226.025.840.138.949.248.27.290.760.373.720.486.956.381.461.366.849.247.7KPConv [31]58.896.030.242.533.444.361.561.611.888.861.372.731.690.564.284.869.269.156.447.4[38]第三十八话55.992.538.736.529.633.045.646.220.191.763.474.826.489.059.482.058.765.449.658.9[23]第二十三话52.291.425.734.425.723.038.338.84.891.865.075.227.887.458.680.555.164.647.955.9Salsa下一页[12]59.591.948.338.638.931.960.259.019.491.763.775.829.190.264.281.863.666.554.362.1PolarNet [41]54.393.840.330.122.928.543.240.25.690.861.774.421.790.061.384.065.567.851.857.5MinkowskiNet [10]63.1*-------------------Cylinder3D [44]67.897.167.664.059.058.673.967.936.091.465.175.532.391.066.585.471.868.562.665.6AF2S3 [8]69.794.565.486.839.241.180.780.474.391.368.872.553.587.963.270.268.553.761.571.0FusionNet [39]61.395.347.537.741.834.559.556.811.991.868.877.130.892.569.484.569.868.560.466.5TornadoNet [14]63.194.255.748.140.038.263.660.134.989.766.374.528.791.365.685.667.071.558.065.9AMVNet [20]65.396.259.954.248.845.771.065.711.090.171.075.832.492.469.185.671.769.662.767.2SPVCNN [30]63.8-------------------SPVNAS [30]67.097.250.650.456.658.067.467.150.390.267.675.421.891.666.986.173.471.064.367.3RPVNet70.397.668.468.744.261.175.974.473.493.470.380.733.393.572.186.575.171.764.861.4表1.我们提出的方法和SemanticKITTI排行榜上最先进的方法的类明智和平均IOU这些方法分为基于点的,基于范围的,基于体素的和融合网络。:结果由[30]复制请注意,我们的结果使用了实例CutMix增强(参见第二节)。3.4),体素分辨率设置为0.05米,但没有额外的技巧。于二零二一年三月十八日查阅方法Miou障碍自行车公共汽车车建筑用摩托车行人交通锥拖车卡车驾驶其他平坦人行道地形人造植被[23]第二十三话65.566.021.377.280.930.266.869.652.154.272.394.166.663.570.183.179.8PolarNet [41]71.074.728.285.390.935.177.571.358.857.476.196.571.174.774.087.385.7萨萨纳克斯[12]72.274.834.185.988.442.272.472.263.161.376.596.070.871.271.586.784.4AMVNet [20]76.179.832.482.286.462.581.975.372.383.565.197.467.078.874.690.887.9Cylindr3D [44]76.176.440.391.293.851.378.078.964.962.184.496.871.676.475.490.587.4RPVNet77.678.243.492.793.249.085.780.566.066.984.096.973.575.976.090.688.9表2.我们提出的方法和nuScenes验证集上最先进的方法的类和平均IOU请注意,我们的RPVNet显示的结果没有任何技巧,包括实例CutMix。视图#params(M)Mac数量(G)延迟(ms)MiouRandLA-Net [15]1.266.541653.9[38]第三十八话26.2515.211355.9MinkowskiNet [10]21.711413963.1SPVCNN [30]21.8118.615063.8RPVNet24.8119.516870.3RPV†净24.874.611168.3表3. RPVNet的效率和性能权衡图。报告了SemanticKITTI测试集上的mIoU在单个Tesla V100 GPU上测试延迟,包括预处理和后处理时间。Vt指示体素分辨率为0.1m。在最后10个训练阶段中使用策略来微调网络要注意的是,在体素化过程中,我们将最大体素数量设置为84000用于训练,并将所有体素设置为推理。4.2. SemanticKITTI结果在该实验中,我们将我们提出的方法的结果与SemanticKITTI测试集上现有的最先进的LiDAR分割方法进行所示表1,我们的方法在mIoU方面显示出比所有现有方法更优越的性能。由于我们的多视图交互式学习的强大鲁棒性,RPVNet在19个类别中的11个类别中表现最好。从表1中,我们可以发现:①的人。基于体素的方法相对优于基于点和范围的方法,而基于点和范围的现有方法基本相当; 2)的情况。多视点融合方法相对优于基于体素的方法。尽管使用了多视图功能,但由于紧凑的网络设计和高效的实现,我们的RPVNet仍然显示出非常有竞争力的运行延迟,如表34.3. nuScenes的结果在这个实验中,我们报告了我们提出的方法在新发布的nuScenes验证集上的结果。如表2所示,与以前的竞争方法相比,我们的RPVNet实现了更好的性能,包括 RangeNet++ [23], PolarNet [41] , Salsanext [12],AMVNet [20]和Cylinder3D [44],以及Salsanext执行16032∼→ → →→方法MiouSemanticKITTInuScene场景此外67.276.9级联67.477.1门控融合68.277.6表5.融合类型的变体。报告了SemanticKITTI验证集上的mIoU,不包含实例CutMix视图合奏融合间隙Rp49.754.34.6PV63.964.80.9RPV64.568.23.7表4.不同观点的影响只有1/4的训练数据用于快速实验。第一行PV是SPVCNN [30],并且用1/4数据从头开始重新训练。V、Vt和Vc表示不同的体素分辨率:V为0.05m(与SPVCNN相同),V †为0.1m,V ‡为0.3m。在SemanticKITTI数据集上计算Macs。SemanticKITTI和nuScenes的结果一致表明,融合管道R RpRPV或VPVRPV,在可接受计算开销下是有效的。后处理。具体而言,所提出的方法获得约5%-12%的性能增益比基于范围的方法。4.4. 消融研究不同观点的影响。这是一个核心实验来说明我们的动机的洞察力。我们进行了广泛的控制实验,包括单视图(R,P,V),两个视图的融合(RP,PV),和所有三个视图的融合(RPV)。需要注意的是,为了加快训练速度,仅使用了1/4的训练数据,并且在SemanticKITTI验证集(序列08)和nuScenes验证集上报告了mIoU,此外,在SemnaticKITTI数据集上测试了Macs和延迟从表4的结果中我们可以发现:1)当单独的R或P与RP相比时,RP融合是有效的; 2)PV与单个P或V相比较时,PV融合是有效的,尤其是在体素分辨率较低时;(3)RPV与RP或PV相比,RPV融合效果较好; 4)所提出的RPV融合可以在可接受的复杂度开销下一致地提高性能; 5)RPV融合即使在体素分辨率较低的情况下也可以实现相当的性能,这使得它对实时应用很有价值。融合风格的变体。我们研究了改变多视图特征的融合 样 式 的 效 果 , 如 图 5 所 示 。 我 们 可 以 看 到 , 与Addition相比,门控融合方法在SemanticKITTI中获得了1%的mIoU,在nuScene中获得了0.7%的mIoU。表6.与模型集合的比较。报告了Se-manticKITTI验证集上的mIoU基线v支路添加p支路添加R分支例如切拌MiouSemanticKITTInuScene场景√√√√√√√√√√64.2 72.364.8 74.868.277.669.6-表7.整体组件的影响在SemanticKITTI和nuScenes验证集上进行测试比合奏更好 这就不可避免地提出了一个问题:多视图融合方法是否优于模型集成?我们进行了几个烧蚀实验来说明这个问题,并通过累积多个模型的最终softmax得分来进行集成。如表6所示,您可以看到我们的融合方法远远优于模型集成。整体组件的影响。把所有有效的成分结合在一起,就得到了我们的最终解决方案。我们在表7中比较了每个组件5. 结论在本文中,我们提出了一种深度和高效的距离点体素融合网络,即RPVNet,用于Li-DAR点云分割,其中三个不同的视图以自适应的方式相互增强。具体而言,我们总结了高效的多视图交互范式,包括多视图表示索引和特征传播,这为多视图之间的点级上下文信息的交互提供了坚实的基础。最后,我们进行了大量的实验来说明RPVNet的有效性和效率,并在两个大规模的公共数据集上取得了最视图#params Mac(M)(G)延迟(毫秒)MiouSemantic-nuScenesKITTIPV21.8118.615061.570.6R2.6227.527.347.556.7P0.0575.314.214.416.8VV†V‡22.122.122.188.143.211.4108.469.047.363.660.852.869.572.866.5Rp2.6731.845.750.559.0PV22.292.5145.863.871.7PV†22.247.591.261.174.3PV‡22.215.860.854.468.7RPV24.8119.5168.465.573.7RPV†24.874.6111.363.574.6RPV‡24.842.879.058.470.216033引用[1] Eren Erdal Aksoy 、 Saimir Baci 和 Selcuk Cavdar 。Salsanet:在自动驾驶的激光雷达点云中进行快速道路和车辆分割:萨尔萨内在IEEE智能车辆研讨会,2020年。3[2] Matan Atzmon,Haggai Maron,and Yaron Lipman.基于扩 展 算 子 的 点 卷 积 神 经 网 络 arXiv 预 印 本 arXiv :1803.10091,2018。二、三[3] J. Behley,M. Garbade,A. Milioto,J. Quenzel,S.本克C. Stachniss和J.胆语义:一种用于LiDAR序列语义场景理解的数据集。在IEEE/CVF国际会议上,计算机视觉(ICCV),2019年。二、六[4] Holger Caesar、Varun Bankiti、Alex H Lang、SourabhVora、Venice Erin Liong、Qiang Xu、Anush Krishnan、Yu Pan、Giancarlo Baldan和Oscar Beijbom。nuscenes:自动驾驶的多模态数据集。在IEEE/CVF计算机视觉和模式识别会议论文集,第11621-11631页,2020年。二、六[5] AngelXChang , ThomasFunkhouser , LeonidasGuibas,Pat Hanrahan,Qixing Huang,Zimming Li,Silvio Savarese , Manolis Savva , Shuran Song , HaoSu,et al. Shapenet:一个信息丰富的3D模型存储库。arXiv预印本arXiv:1512.03012,2015。3[6] Xiaozhi Chen,Huimin Ma,Ji Wan,Bo Li,and TianXia.用于自动驾驶的多视角三维物体检测网络。在IEEE计算机视觉和模式识别会议论文集,第1907-1915页2[7] Yunlu Chen , Vincent Tao Hu , Efstratios Gavves ,Thomas Mensink,Pa
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功