多传感器融合：三维LiDAR语义分割及其在自动驾驶中的应用

118 浏览量更新于2023-10-08 收藏 2.33MB PDF 举报

多传感器融合

语义分割

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

16280感知感知的多传感器融合三维LiDAR语义分割Zhuangwei Zhuang1，2 Rong Li1，2 Kui Jia1 Qicheng Wang3 Yuanqing Li2，1† Mingkui Tan1，2†1华南理工大学2琶洲实验室3深圳市友佳创新科技有限公司公司{z.zhuangwei，selirong} @ mail.scut.edu.cn，wangqicheng@minieye.cc{auyqli，kuijia，mingkuitan} @ scut.edu.cn摘要3D LiDAR（光检测和测距）语义分割在许多应用（诸如自动驾驶和机器人）的场景理解中是重要的。例如，对于配备RGB相机和LiDAR的自动驾驶汽车，融合来自不同传感器的互补信息以实现稳健和准确的分割至关重要然而，现有的基于融合的方法可能无法实现有前途的性能，由于两种模式之间的巨大差异。在这项工作中，我们研究了一种称为感知多传感器融合（PMF）的协同融合方案，以利用来自两种模态的感知信息，即来自RGB图像的外观信息。(a)输入RGB图像(c) 球面投影(b)输入点云(d) 透视投影年龄和空间深度信息。为此，我们首先将点云投影到相机坐标，以提供RGB图像的空间深度信息。然后，我们提出了一个双流网络，分别从两种模态中提取特征，并通过有效的基于残差的融合模块融合这些特征。此外，我们提出了额外的感知感知损失来衡量两种方式之间的感知差异在两个基准数据集上的大量实验表明了该方法的优越性。例如，在nuScenes上，我们的PMF在mIoU中比最先进的方法高出0.8%1. 介绍语义场景理解是许多应用的基本任务，例如自动驾驶和机器人[16，34，47，48]。具体而言，在自动驾驶场景中，它为高级运动规划提供了细粒度的环境信息，并提高了自动驾驶汽车的安全性[3，18]。语义场景理解中的一个重要任务是语义分割，它为输入数据中的每个数据点分配一个类标签，并帮助自动驾驶汽车更好地理解环境。根据语义段使用的传感器†通讯作者。图1.球面投影[40，54]和透视投影的比较使用球面投影，来自RGB图像的大部分外观信息丢失。相反，我们保留透视投影图像的信息。为了区分不同的类，我们使用SemanticKITTI的语义标签对点云进行着色方法，最近的研究可分为三类：仅使用相机的方法[2，9，10，35，58]，LiDAR-仅方法[1，13，26，54，62]和多传感器融合方法[30，37，39，52，59]。在大量开放获取数据集的帮助下，仅使用相机的方法取得了很大进展[6，12，14]。由于由相机获得的图像具有丰富的外观信息（例如，纹理和颜色），仅照相机方法可以提供细粒度和准确的语义分割结果。然而，作为无源传感器，相机易受光照条件变化的影响，因此不可靠[50]。1为了解决这个问题，研究人员对LiDAR的点云进行语义分割与仅相机方法相比，仅LiDAR方法对不同的光条件更鲁棒不幸的是，由于点云的稀疏和不规则分布，仅LiDAR的语义分割具有挑战性。1更多详情见第4.516281(a) RGB图像（b）从图像(c)投影点云（d）从点云图2.图像和点云预测的比较。深度神经网络从RGB图像和点云捕获不同的感知信息红色表示得分较高的预测。此外，点云缺乏纹理和颜色信息，导致仅LiDAR方法的细粒度分割任务中的高分类误差。用于解决仅相机和仅LiDAR方法的缺点的直接解决方案是融合来自两个传感器的多模态数据，即多传感器融合方法。尽管如此，由于RGB相机和LiDAR之间的大域差距，多传感器融合仍然是一项重要的任务。在多传感器融合方法中，多模态数据的融合是一个重要的问题。现有的基于融合的方法[37，52]主要使用球面投影[40]将密集图像特征投影到LiDAR坐标，并在稀疏LiDAR域中进行特征融合。然而，这些方法受到严格的限制：由于点云非常稀疏，所以在将RGB图像投影到LiDAR坐标后，来自RGB图像的大部分外观信息丢失。例如，如图1（c）所示，图像中的汽车和摩托车变得扭曲成球形投影。因此，现有的基于融合的方法难以从投影的RGB图像捕获外观信息。在本文中，我们的目标是开发一种有效的多传感器融合方法。与现有方法[37，52]不同，我们假设并强调来自RGB图像和点云的感知信息，即图像的外观信息和点云的空间深度信息在基于融合的语义分割中是重要的。基于这种直觉，我们提出了一个感知感知的多传感器融合（PMF）方案，进行协作融合从三个方面分析了两种数据形式的感知信息。首先，我们提出了一个透视投影投影点云的相机坐标系，以获得额外的空间深度信息的RGB图像。其次，我们提出了一个双流网络（TSNet），其中包含一个摄像头流和一个激光雷达流提取感知功能，分别从多模态传感器考虑到来自图像的信息在户外环境中是不可靠的，我们将图像特征融合到图像中通过有效的基于残差的融合（RF）模块来增强LiDAR流，该模块旨在学习原始LiDAR模块的互补功能。第三，我们提出感知感知损失来衡量两种数据模态之间的巨大感知差异，并促进不同感知信息的融合。具体地，如图2所示，由相机流和LiDAR流捕获的感知特征是不同的。因此，我们使用置信度较高的预测来监督置信度较低的预测。我们的贡献总结如下。第一、我们提出了一个感知感知多传感器融合（PMF）计划，有效地融合从RGB图像和点云的感知信息。其次，通过融合来自点云的空间-深度信息和来自RGB图像的外观信息，PMF能够解决具有不期望的光照条件和稀疏点云的分割。更关键的是，PMF是鲁棒的敌对样本的RGB图像通过整合的信息从点云。第三，我们将感知感知损失引入网络，并迫使网络从两个不同模态的传感器捕获感知信息在两个基准数据集上的大量实验证明了该方法的优越性能。例如，在nuScenes [7]上，PMF在mIoU中的性能优于Cylinder3D [64]，这是一种最先进的仅限LiDAR的方法2. 相关工作在本节中，我们回顾了现有的2D和3D语义分割的文献，即。、仅相机方法、仅LiDAR方法和多传感器融合方法。2.1. 仅照相机方法仅相机语义分割旨在预测2D图像的像素级标签。FCN [35]是语义分割中的一项基础工作，它提出了一种基于图像分类网络的端到端全卷积架构。除了FCN之外，最近的工作通过探索多尺度信息[9，31，63]，扩张卷积[10，38，53]和注意力机制[27，58]取得了显着的改进然而，仅摄像机方法容易受到照明（例如，光）的干扰。曝光不足或曝光过度），并且可能对室外场景不鲁棒。2.2. 仅LiDAR方法为了解决相机的缺点，LiDAR是自动驾驶汽车上的重要传感器，因为它对更复杂的场景具有鲁棒性根据预处理流水线，现有的点云方法主要包括两类，包括直接方法[26，44，45，64]和投影方法[26，44，45，64]方法[13，54，55，56]。直接方法通过直接处理原始3D点云来执行语义分割PointNet [44]是这一领域的先驱16282~LL˜~输出概率{O，O}，其中等式（二）、˜˜˜˜原始点云透视投影投影点云双流网络分割结果感知信心相机流激光雷达流融合模块图3.感知感知多传感器融合（PMF）的图示。PMF由三部分组成：（1）透视投影;（2）具有特征融合模块的双流网络（TSNet）;和（3）感知损失per，perw.r.t.相机流和激光雷达流。我们首先用透视投影将点云投影到相机坐标，并使用TSNet从RGB图像和点云通过融合模块将图像特征融合到LiDAR流网络最后，我们使用感知感知损失来帮助网络专注于图像和点云的感知特征。通过多层感知提取点云特征。后续扩展，即，PointNet++[45]，进一步集成了多尺度采样机制，以聚合全局和局部特征。然而，这些方法不考虑在户外场景中的点云的变化稀疏Cylin-der 3D [64]通过使用3D圆柱形粒子和非对称3D卷积网络解决了这个问题然而，直接方法具有高计算复杂度，这限制了它们在自动驾驶中的适用性。基于投影的方法更有效，因为它们将3D点云转换为2D网格。在基于投影的方法中，研究人员专注于利用有效的投影方法，例如球面投影[40，54]和鸟瞰这种2D表示允许研究人员基于现有的2D卷积网络[1，13，21]来研究高效的网络架构。除了基于投影的方法外，人们还可以通过现有的神经结构搜索轻松提高网络的效率[8，22，42]和模型压缩技术[23，33，57]。2.3. 多传感器融合方法为了利用摄像头和LiDAR的优势，最近的工作尝试融合来自两个互补传感器的信息，以提高3D语义分割算法的准确性和鲁棒性[30，37，39，52]。RGBAL [37]将RGB图像转换为极网格映射表示，并设计早期和中期融合策略。PointPainting [52]通过使用鸟瞰投影的分割分数与原始点云特征相连接，以提高LiDAR网络的性能。与执行以下操作算法1保偏滤波器的一般方案要求：训练数据{P，X，y}，具有子模型的M，M，超参数τ，λ，γ。1：虽然不收敛，2：通过使用透视投影来投影点云P以获得X。3：使用{X，X}作为TSNet的输入并计算TSNet的输入。4：计算感知置信度C和C。5：构建感知觉损失以测量与等式5的（7）和（10）。6：通过最小化等式2中的目标来更新M和M（8）和（11）。第七章： end while作为LiDAR域中的特征融合，PMF利用相机坐标中的多模态数据的协同融合。3. 该方法在这项工作中，我们提出了一个感知感知的多传感器融合（PMF）计划，从RGB图像和点云的感知信息进行有效的融合。具体而言，如图3所示，PMF包含三个组件：（1）透视投影;（2）具有基于残差的融合模块的双流网络（TSNet）;(3)感知感知损失。PMF的一般方案如算法1所示。我们首先使用透视投影将点云投影到然后，我们使用包含相机流和LiDAR流的双流网络，分别从两种模态中提取感知特征。中的功能RGB图像ℒ��ℒ̃��感知差异16283∈∈∈--˜∈˜˜∈∈˜l=1∈l=1h=x/z˜˜√L···LLLL˜通过基于残差的融合模块将相机流融合到LiDAR流最后，我们将感知感知损耗引入到网络的优化中.3.1.透视投影现有方法[37，52]主要使用球面投影将图像投影到LiDAR坐标系。然而，由于点云的稀疏性，球面投影会丢失图像中的大部分外观信息（见图1）。为了解决这个问题，我们提出透视投影来投影稀疏点相机功能LiDAR特征输出要素云到相机坐标系。令P，X，y是来自给定数据集的训练样本之一，其中PR4×N表示来自LiDAR的点云，N表示点的数量。点云P中的每个点P1由3D坐标（x，y，z）和反射率值（r）组成。设XR3×H×W是RGB相机的图像，其中H和W分别表示图像的高度和宽度。是点云P的语义标签的集合。在透视投影中，我们的目标是将点云P从LiDAR坐标投影到相机坐标以获得 2D LiDAR 特征 XRC×H×W。给你C表示信道w.r.t.的数量投影点图4.基于残差的融合（RF）模块的图示RF融合来自相机和LiDAR两者的特征以生成原始LiDAR特征的补充信息。图3中的通过这种方式，我们可以使用为图像和点云设计的网络架构作为TSNet中每个流的主干。令M和M分别是TSNet中设ORS×H×W和ORS×H×W为输出概率w.r.t.每个网络，其中S表示语义类的数量。TSNet的输出由下式计算：cloud.在[17]之后，我们通过将第四列附加到Pi来获得Pi=（x，y，z，1），并且通过下式计算相机坐标中的投影点P~i=（x~，y~，z~）. O=M（X），O~=M~（X~）。（二）Pi=TRPi，（1）其中T∈R3×4是来自LiDAR坐标的投影矩阵指向摄影机坐标。R∈R4×4由由于图像的特征包含对象的许多细节，我们然后引入基于残差的融合模块，如图4所示，以将图像特征融合到Li-DAR流。设{Fl∈RCl×Hl×Wl}L是一个象集，通过附加第四个零行和零列并设置R（4，4）= 1，来校正旋转矩阵R（0）R3 ×3。可以通过[ 19 ]中的方法获得校准参数T和R（0）。随后，对应的像素（h，w）在投影图像X~w中。r. t. 点Pi由下式计算：相机流中的要素，其中l表示图层在其中我们获得了特征。Cl指示相机流中的第1层的通道 Hl和Wl 分别指示来自第l层的特征图的高度和宽度。设{F~l∈RC~l×Hl×Wl}L被并且w=y/z。因为点云非常稀疏，所以投影X中的每个像素可能不具有对应的点p。因此，我们首先将X中的所有像素初始化为0。在[13]之后，我们计算5通道LiDAR特征，即，（d，x，y，z，r），对于投影的2D图像中的每个像素（h，w其中d=x2+y2+z2表示- 来自LiDAR流的特征，其中Cl指示LiDAR流中的第1为了获得融合的特征，我们首先将来自每个网络的特征连接起来，并使用卷积层来减少熔合特征的通道的数量。融合特征 Ffuse∈RC〜l×Hl×Wl由下式计算：Ffuse=f（[F~;F]），（3）3.2. PMF的体系结构设计由于图像和点云是不同的模态数据，因此难以通过使用单个网络来处理来自两种模态的两种类型的信息[30]。受[15，49]的启发，我们提出了一种双流网络（TSNet），其包含相机流和LiDAR流，以分别处理来自相机和LiDAR的特征，如图所示其中[;]指示级联操作。fl（）是卷积运算w.r.t.第l个融合模块。考虑到摄像机容易受到不同光照和天气条件的影响，在户外环境中，来自RGB图像的信息我们使用融合的特征作为原始LiDAR特征的补充，并基于残差结构设计融合模块[24]。与注意模块[5]结合，CC连接Sigmoid函数逐元素相加逐元素相乘卷积层活化层卷积激活卷积激活卷积每个点。16284L˜∈⊙·˜ ˜ ˜˜~~LLΣΣ.~−Ω=h，wΣ˜−˜˜−−~。~−~Ω =h，wΣ Σ˜LLL˜˜˜融合模块的输出特征F_outR_C_l×H_l×W_l由下式计算：F_out=F_l+σ（g_l（F_f_us_e））⊙F_f_us_e，（4）其中σ（x）=1/（1+e-x）表示S形函数。gl（）表示注意模块w.r.t.中的卷积运算。第l个融合模块。表示元素-明智的乘法运算3.3. 感知觉缺失的构建感知感知损失的构造在我们的方法中是非常如图2所示，由于点云非常稀疏，因此LiDAR流网络仅学习点的局部特征，而忽略对象的形状相比之下，相机流可以除了感知感知损失之外，我们还使用多类焦点损失[32]和Lo va'sz-softmax损失[4]，它们通常用于现有的分割工作[13，64]，以训练LiDAR流。2目标w.r.t.激光雷达流定义如下L=Lfoc+λLlov+γLper，（8）其中， foc和 lov表示多类别焦点损失，而L o v a'sz-softmax损失，相对于v el y。 λ和γ是平衡不同损耗的参数。与LiDAR流类似，我们构建了优化相机流的目标。下式在等式（6）中，来自LiDAR流的信息的重要性通过下式计算：从密集的图像中轻松捕获物体的形状和纹理。换言之，由相机流和LiDAR流捕获的感知特征是不同的。有了这种直觉，我们引入感知感知损失，使融合网络专注于来自max（Ch，wCh，w，0），如果Ch，w> τ，0，否则。感知感知损失w.r.t.摄像机流被（九）HW摄像头和激光雷达为了测量预测w.r.t.激光雷达流，我们首先计算熵L每 =1ΩQh=1w=1h，wDKL（O：，h，w||O˜ ：，h，w）的情况。（十）映射E∈RH×WS那么目标w.r.t.摄像机流定义为埃厄，w =1OlogSs=1s，h，wlogg（O~s，h，w）的情况。（五）L=Lfoc+λLlov+ γLper。（十一）在[46]之后，我们使用logS将熵归一化为（0，1]。然后，感知置信度图C为通过C=1E计算LiDAR流。对于相机流，置信度图通过C=1E来计算。请注意，并非来自摄像机流的所有信息都是有用的.例如，摄影机流在对象内部是可靠的，但在边缘可能会出错。此外，具有较低置信度分数的预测更有可能是错误的。结合置信度阈值，我们通过以下方式测量来自相机流的感知信息的重要性：4. 实验在本节中，我们根据经验评估了PMF在基准数据集上的性能，包括Se- manticKITTI [3]和nuScenes [7]。SemanticKITTI是基于KITTI里程计基准[18]的大规模数据集，提供了43，000次逐点语义注释扫描，其中21，000次扫描（序列00-10）可用于训练和验证。该数据集有19个语义类的语义基准的评价nuScenes包含1,000个不同天气和光照条件的驾驶场景。这些场景被分成28 ， 130 个训练帧和 6 ， 019 个验证帧。与SemanticKITTI不同max（Ch，wCh，w，0），如果Ch，w> τ，0，否则。这里τ表示置信阈值。（六）nuScenes仅提供前视摄像头的图像，nuScenes有6个摄像头用于不同的LiDAR视图。4.1. 实现细节受[25，28，61]的启发，为了从相机流中学习感知信息，我们构建了感知感知损失w.r.t.激光雷达流通过我们在PyTorch [43]中实现了所提出的方法，并分别使用 ResNet-34 [24] 和 SalsaNext [13] 作为相机流和LiDAR流的主干因为H当我们处理相机坐标系中的点云时，我们16285··||·L~per=1ΩQh=1w=1h，wDKL （O~：，h，w||O：，h，w），（7）将ASPP [9]并入LiDAR流网络以自适应地调整感受野利用这些优势其中Q=HW和D KL（）表示库尔贝克-Leibler散度[25]。2多类焦点损失和L o v a´sz-softmax损失的详细信息可以在补充材料中找到。16286表1.SemanticKITTI验证集的比较L表示仅LiDAR方法。L+C表示基于融合的方法。* 表示基于我们实施的结果粗体数字表示最佳结果，蓝色数字表示次佳结果。方法输入汽车自行车摩托车卡车他车人摩托车手路停车人行道他地建筑栅栏植被主干地形杆交通标志mIoU（%）点数（k）-638444521014711271295214349748149676304169120391882812531764-RandLANet [26]L92.08.012.874.846.752.346.00.093.432.773.40.184.043.583.757.373.148.027.350.0RangeNet++[40]L89.426.548.433.926.754.869.40.092.937.069.90.083.451.083.354.068.149.834.051.2[55]第五十五话L82.715.122.725.626.922.944.50.092.739.770.70.171.637.074.635.868.121.822.240.8[56]第五十六话L87.134.348.647.547.158.153.80.095.343.178.20.378.953.282.355.570.446.333.253.3Salsa下一页[13]L90.544.649.686.354.674.081.40.093.440.669.10.084.653.083.664.364.254.439.859.4MinkowskiNet [11]L95.023.950.455.345.965.682.20.094.343.776.40.087.957.687.467.771.563.543.658.5SPVNAS [51]L96.544.863.159.964.372.086.00.093.942.475.90.088.859.188.067.573.063.544.362.3Cylinder3D [64]L96.461.578.266.369.880.893.30.094.941.578.01.487.550.086.772.268.863.042.164.9[52]第五十二话L+C94.717.735.028.855.059.463.60.095.339.977.60.487.555.187.767.072.961.836.554.5RGBAL*[37]L+C87.336.126.464.654.658.172.70.095.145.677.50.878.953.484.361.772.956.141.556.2PMF（我们的）L+C95.447.862.968.475.278.971.60.096.443.580.50.188.760.188.672.775.365.543.063.9表2.nuScenes验证集的比较粗体数字表示最佳结果。方法障碍自行车公共汽车车建筑用摩托车行人交通锥拖车卡车可驱动他平人行道地形人造mIoU（%）点数（k）162921851613019481417112370256056048197212631136203166721948-RangeNet++[40]66.021.377.280.930.266.869.652.154.272.394.166.663.570.183.179.865.5PolarNet [62]74.728.285.390.935.177.571.358.857.476.196.571.174.774.087.385.771.0萨萨纳克斯[13]74.834.185.988.442.272.472.263.161.376.596.070.871.271.586.784.472.2Cylinder3D [64]76.440.391.393.851.378.078.964.962.184.496.871.676.475.490.587.476.1PMF（我们的）74.146.689.892.157.077.780.970.964.682.995.573.373.674.889.487.776.9在现有的图像分类模型中，我们使用[43]中的预训练ImageNet模型初始化ResNet-34的参数我们还采用混合优化方法[60]来训练网络w.r.t.不同的模式，即，SGD与Nesterov [41]用于相机流，Adam [29]用于LiDAR流。我们在两个基准数据集上训练了50个时期的网络。学习率从0.001开始，并通过余弦策略衰减到0 [36]。我们在SemanticKITTI上将批处理大小设置为8，在nuScenes上设置为24。我们将τ、γ、λ分别设为0.7、0.5和1.0。3为了防止过拟合，使用了一系列数据增强策略，包括随机水平翻转、颜色抖动、2D随机旋转和随机裁剪。我们的源代码可在https://github.com/ICEORY/PMF获得。4.2. SemanticKITTI结果为了评估我们在SemanticKITTI上的方法，我们将PMF与几种最先进的仅限LiDAR的方法进行了比较，包括 SalsaNext [13] ， Cylinder3D [64] 等。由于SemanticKITTI仅提供前视摄像头的图像，因此我们将点云投影到透视图中，并仅保留图像上的可用点以构建SemanticKITTI的子集。在[13，28，64]之后，我们使用序列08进行验证。剩余序列（00-07和09-10）用作训练集。我们评估的3研究了τ、γ、λ在辅助材料中的作用。604530150-10 10-2020-3030-40四五十岁50-60 60+距离（m）图5.基于距离的SemanticKITTI评估。随着距离的增加，点云变得稀疏。在我们的数据集上发布最先进的LiDAR方法的模型。由于SPVNAS [51]没有发布其最佳模型，因此我们报告了最佳发布模型（65G MAC）的结果。此外，我们重新实现了两个国家的最先进的融合为基础的方法，即。、RGBAL [37]和点绘画[52]。根据表1，PMF在基于投影的方法中实现了最佳性能例如，PMF在mIoU中比SalsaNext表现好4.5%然而，PMF的性能比现有技术的3D卷积方法（即，，Cylin-der 3D，在mIoU中增加1.0%由于远距离感知对自动驾驶汽车的安全性也至关重要，我们还对SemanticKITTI进行了基于距离的评估从图5中可以看出，由于点云在距离增加时变得稀疏，因此仅使用LiDAR的方法性能较差。PointPaintSalsaNextCylinder3DMF（我们的）ingmIoU（%）16287(a) 输入图像（b）输入点云（c）Cylinder3D(d) PMF（我们的）(e) PMF密集（我们的）(f) 地面实况图6.SemanticKITTI上的定性结果红色虚线圆指示PMF的结果与基线之间的差异(a) Cylinder3D（b）PMF（Ours）(a) 带噪声的(b) 输入点云(c) PMF密集（我们的）(d) 地面实况（c）FCN（仅限相机）（d）PMF（我们的）图8.对抗性样本的PMF和仅摄像机方法的比较仅照相机方法仅使用RGB图像图7.nuScenes上的定性结果我们使用相应的图像（夜晚）作为预测和标签的背景我们用红色虚线圆圈突出显示PMF结果与基线之间的差异。在长距离上的芒斯退化。相比之下，由于图像提供了远距离物体的更多信息，因此基于融合的方法在大距离处优于仅LiDAR的方法。具体地，当距离大于30米时，PMF实现最佳性能。这表明我们的方法更适合于解决稀疏点云的分割问题。这种能力源于我们的融合策略，它有效地结合了RGB图像。4.3. nuScenes的结果在[64]之后，为了在更复杂的场景中评估我们的方法实验结果示于表 2 中。注意， nuScene 的点云比SemanticKITTI的点云稀疏（35 k个点/帧与SemanticKITTI的点云相比）。125 k点/帧）。因此，3D分割任务更具挑战性。在这种情况下，与仅LiDAR方法相比，PMF实现了最佳性能。具体而言，PMF在mIoU方面的表现优于Budder3D0.8%此外，与现有技术的2D卷积方法，即，，SalsaNext，PMF在mIoU方面实现了4.7%这些结果与我们的预期一致。由于PMF采用RGB图像，我们的融合策略能够解决稀疏点云下的这种作为输入，而PMF使用图像和点云作为输入。我们用红框突出显示插入的交通标志。4.4. 定性评价为了更好地理解PMF的好处，我们将PMF在基准数据集上的预测可视化。 4 从图 6 中可以看出，与Cylinder3D相比，PMF在对象边缘例如，如图6（d）所示，通过PMF分割的卡车具有更完整的形状。更关键的是，PMF对不同的照明条件是鲁棒的。具体地，如图7所示，PMF在更具有挑战性的场景（例如，场景）上优于基线。，夜晚）。此外，如图6（e）和图7（c）所示，PMF生成密集分割结果，该结果结合了相机和LiDAR两者的益处，这与现有的仅LiDAR和基于融合的方法显著不同。4.5. 对抗性分析为了研究PMF在对抗样本上的鲁棒性，我们首先插入额外的对象（例如交通标志），并保持点云不变。5此外，我们还实现了一种仅摄像机的方法，即：，FCN[35]，以SemanticKITTI为基线。请注意，我们在训练过程中不使用任何对抗性训练技术。如图8所示，仅相机方法容易受到输入图像的变化的影响与此相反，4关于SemanticKITTI和nuScenes的更多可视化结果显示在补充材料中。5补充材料中显示了更多的对抗性样本。16288×表3.在GeForce RTX 3090上使用TensorRT的不同方法的推断时间为了公平比较，Cylinder3D通过稀疏卷积加速方法浮点数#参数。推理mIoU时间nuScenesSemanticKITTI[52]第五十二话RGBAL [37]Salsa下一页[13]Cylinder3D [64]51.0g的55.0 G31.4克-28.1百万13.2个月6.7百万55.9百万2.3毫秒2.7毫秒1.6 ms62.5毫秒--72.2%76.1%百分之五十四点五56.2%59.4%64.9%PMF（我们的）854.7 G36.3个月22.3毫秒百分之七十六点九百分之六十三点九表4. Se- manticKITTI验证集上网络组件的消融研究。PP表示透视投影。RF表示基于残差的融合模块。PL表示感知觉损失。粗体数字是最好的结果。基线PP ASPP RFPLmIoU（%）1✓57.22✓ ✓57.63✓ ✓ ✓59.74✓ ✓ ✓55.85✓ ✓ ✓ ✓61.76✓ ✓ ✓ ✓✓63.9由于PMF集成了可靠的点云信息，因此在特征融合期间图像中的噪声被降低，并且仅对模型性能施加轻微的影响。4.6. 效率分析在本节中，我们将评估PMF在GeForce RTX 3090上的效率。注意，我们从两个方面考虑PMF的效率首先，由于相机流的预测被融合到LiDAR流中，因此我们移除相机流的解码器以加速推断。其次，我们的PMF是建立在2D卷积，可以很容易地优化现有的推理工具包，例如。、TensorRT.相比之下，Cylinder3D是建立在3D稀疏卷积[20]上的，很难用TensorRT加速我们在表3中报告了TensorRT优化的不同模型的推理时间。从结果来看，我们的PMF在nuScenes上实现了最佳性能，并且是 2 。比 Cylinder3D 快 8 倍（ 22.3 ms 与62.5ms），参数更少。5. 消融研究5.1. 网络组件我们研究了PMF的网络组件，即。、透视投影、ASPP、基于残差的融合模块和感知损失。实验结果如表4所示。由于我们只使用SemanticKITTI的前视点云，因此我们使用官方发布的代码将SalsaNext训练为数据集的基线比较表4中的第一行和第二行，透视投影仅实现了比具有仅LiDAR输入的球面投影0.4%的mIoU改进。相比之下，比较第四、第五行，透视投影(a) 没有PL的汽车的预测（b）有PL图9.预测值的比较w.r.t.在有感知感知损失和没有感知感知损失的情况下训练网络PL表示感知觉损失。红色表示置信度得分较高的预测为了清晰起见，我们只显示Car的预测与使用多模态数据输入的球面投影相比，mIoU提高了5.9%从第三和第五行开始，我们的融合模块为融合网络带来了2.0%的mIoU提升。此外，比较第五和第六行，感知感知损失将网络的性能提高了2.2%。5.2. 感知觉丧失的影响为了研究感知感知损失的影响，我们在图9中可视化了具有和不具有感知损失的LiDAR流网络的预测。从结果来看，感知感知损失有助于LiDAR流从图像中捕获感知信息。例如，使用感知感知损失训练的模型学习汽车的完整形状，而基线模型仅关注点的局部特征由于感知感知损失引入了RGB图像和点云之间的感知差异，因此能够有效融合来自两种模态的数据的感知信息因此，我们的PMF生成密集的预测，结合了图像和点云的优点。6. 结论在这项工作中，我们提出了一个感知感知的多传感器融合方案的三维激光雷达语义分割。与现有的方法进行特征融合的激光雷达坐标系中，我们项目的点云的相机坐标系，使一个协同融合的感知功能从两种方式。此外，通过融合来自相机和LiDAR的互补信息，PMF对复杂的室外场景具有鲁棒性。在两个基准测试上的实验结果表明了该方法的优越性。未来，我们将把PMF扩展到自动驾驶中其他具有挑战性的任务，例如：目标检测。鸣谢。本课题得到了广东省重点领域研究发展计划项目2019B010155001、科技部基金项目（2020AAA0106901）、广东省引进创新创业团队项目2017ZT07X183、中央高校基础研究基金项目D2191240的部分支持。16289引用[1] Eren Erdal Aksoy 、 Saimir Baci 和 Selcuk Cavdar 。Salsanet：用于自动驾驶的激光雷达点云中的快速道路和车辆分割。IEEE智能车辆研讨会，第926-932页，2020年。第1、3条[2] Vijay Badrinarayanan、Alex Kendall和R.西波拉Segnet：用于图像分割的深度卷积编码器-解码器架构IEEETransactionsonPatternAnalysisandMachineIntelligence，39：2481-2495，2017。1[3] Jens Behley ， Martin Garbade ， Andres Milioto ， JanQuenzel ， Sven Behnke ， Cyrill Stachniss ， and JurgenGall.SemanticKitti：激光雷达序列语义场景理解数据集。在IEEE计算机视觉国际会议上，第9297-9307页一、五[4] Maxim Berman ， Amal Rannen Triki ， and Matthew BBlasch k o. Lova´sz-softmaxloss：Atractablesurrgatefor theoptimization of the intersection-over-union measure inneural networks.在IEEE计算机视觉和模式识别会议上，第4413-4421页5[5] Alexey Bochkovskiy ， Chien-Yao Wang ， and Hong-YuanMarkLiao. Yolov4：目标检测的最佳速度和准确性arXiv预印本arXiv：2004.10934，2020。4[6] Gabriel J Brostow，Jamie Shotton，Julien Fauqueur，andRoberto Cipolla.利用运动点云的结构进行分割和识别。欧洲计算机视觉会议，第44-57页。Springer，2008. 1[7] Holger Caesar、Varun Bankiti、Alex H Lang、SourabhVora、Venice Erin Liong、Qiang Xu、Anush Krishnan、Yu Pan、Giancarlo Baldan和Oscar Beijbom。nuscenes：用于自动驾驶的多模式数据集在IEEE计算机视觉和模式识别会议上，第11621-11631页二、五[8] Han Cai，Chuang Gan，Tianzhe Wang，Zhekai Zhang，and Song Han.一次性：训练一个网络并使其专业化以实现高效部署。arXiv预印本arXiv：1908.09791，2019。3[9] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834-848，2017。一、二、五[10] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。再思考无卷积在语义图像分割中的应用。arXiv预印本arXiv：1706.05587，2017.一、二[11] Christopher Choy，JunYoung Gwak，Silvio Savarese.4D时空卷积：Minkowski卷积神经网络。在IEEE计算机视觉和模式识别上，第3075-3084页，2019年。6[12] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的c

下载后可阅读完整内容，剩余1页未读，立即下载