没有合适的资源?快使用搜索试试~ 我知道了~
682解决基于LiDAR的目标检测器的类别不平衡问题通过动态加权平均和上下文地面实况采样Daeun Lee1和Jinkyu Kim21统计学和2计算机科学与工程,高丽大学,首尔02841,韩国{goodgpt,jinkyukim}@ korea.ac.kr摘要自动驾驶系统需要3D对象检测器,其必须可靠地感知所有存在的道路代理以安全地导航环境。然而,现实世界的驾驶数据集经常遭受数据不平衡的问题在这项工作中,我们提出了一种方法来解决这个数据不平衡的问题。我们的方法包括两个主要部分:(一)基于LiDAR的3D物体检测器,具有每类多个检测头,其中来自每个头的损失通过动态权重平均来修改以进行平衡。(ii)上下文地面实况(GT)采样,其中我们通过利用语义信息来利用采样的地面实况GT对象来增强点云,从而改进传统的GT采样技术。我们对KITTI和nuScenes数据集的实验1. 介绍基于LiDAR的探测器已被广泛应用于自动驾驶系统中,用于捕获3D场景捕获和理解[15,20,5]。这样的自动驾驶系统必须检测所有可能的其他道路代理(或对象)以安全地导航环境。因此,可靠的基于LiDAR的检测器需要同等地处理不同的道路代理(或对象),例如,汽车、骑自行车的人、障碍物或施工车辆。然而,现实世界的驾驶数据集(例如,KITTI [9]和nuScenes [1])遭受不平衡的问题,其中数据集包含不相等(或严重偏斜)的类分布。如图1所示,汽车等物体(42.63%)的百分比高于其他类别的百分比,如自行 车 ( 1.03% ) 、 摩 托 车 ( 1.11% ) 或 建 筑 车 辆(1.39%)。同样地,在KITTI数据集中,汽车(82.99%)占大多数,而行人(12.76%)或骑自行车的人(4.24%)则代表不足。这种数据不平衡将导致训练在所有不同类别上可靠地工作良好的3D对象检测器的困难,从而导致不期望的不平衡质量。多任务学习技术已被应用于通过将多类联合检测视为多任务学习来解决该数据不平衡问题[17,14]。在这项工作中,我们探索应用这种多任务学习技术来解决基于LiDAR的3D对象检测任务中的数据不平衡问题具体来说,我们着重回答两个关键问题:(i)构建多任务网络体系结构以及(ii)平衡不同任务之间的特征共享。对于(i),我们使用每类多个检测头而不是单个头。每个检测头都被鼓励学习类特定的特征,同时共享一个骨干,该骨干被训练以提取通用特征。对于(ii),我们探索应用现有的多任务损耗平衡技术来提高不同检测头的整体性能。具体来说,我们应用动态权重平均(DWA,[16]),根据每个头部的损失变化率为不同的对象类别调整梯度,以学习随时间推移的平均任务权重。我们凭经验观察到,结合多头架构和梯度平衡技术显着提高检测精度。另一个故事是数据增强,它可以通过使模型在训练过程中更频繁地看到稀有类来使类分布更平滑。传统上,地面实况(GT)采样[28]已被广泛使用。GT采样将标记边界框内的所有地面真值点收集到数据库中,其中一些点通过连接随机引入到当前训练框架中。但是,这并没有考虑将这些对象放置在何处事实上,我们观察到地面实况点通常被引入到一个随机位置,在这个位置上,该对象在现实世界中很少被观察到。因此,我们提出了上下文GT采样,它利用语义场景信息以更自然的位置呈现地面实况点,例如,683百分之五十百分之四十百分之三十百分之二十百分之十nuScenes数据集KITTI数据集百分百百分之八十百分之六十百分之四十百分之二十首先对点云进行体素化,并且将每个等距体素编码为描述性体积表示。考虑到这些特征,传统的2D卷积被用来生成和回归其区域建议。Yan等人[28]使用稀疏3D卷积来加速早期基于LiDAR的工作的繁重计算。 [第15话]是另一个里程碑式的工作,通过将3D空间划分为柱(而不是体素)来加速3D体积表示的编码。一个更复杂的领域-类Class图 1. 两 个 3D 对 象 检 测 数 据 集 的 类 分 布 :[1][2][3][4][5][6][7][8][9][9][10]供行人行走的人行道。我们的实验表明,我们的上下文GT采样提供了额外的性能增益,特别是对于小类。我们的方法主要是接近朱等人。[36](CBGS),因为它们还使用多个检测头和数据增强技术,即,GT采样[28]。然而,我们的工作与之不同如下:(i)我们探讨使用多任务学习技术,包括多个探测头和损失平衡技术,以提高所有类别的整体探测性能。CBGS专注于利用具有统一缩放的多头架构,其最小化统一加权和,并且不考虑像我们这样动态修改权重。(ii)我们提出了上下文GT采样,它解决了传统GT采样的问题,并导致更好的检测准确性。我们将我们的贡献总结如下:• 受多任务学习的启发,我们提出了一种基于多头激光雷达的3D物体检测器,其中每个头部的损失通过动态权重平均(DWA)来平衡• 结 合多 头结 构 ,提 出了 上 下文 地面 实 况采 样(Ground Truth Sampling,GT)方法,改进了传统的GT采样方法,将场景语义信息引入GT对象,使GT对象处于更真实的位置。• 我们进行了各种实验,以证明我们提出的方法在广泛使用的公共数据集上的有效性:KITTI和nuScenes。我们的实验表明,多任务学习技术结合我们的上下文GT采样显着提高整体检测性能,特别是对小类。2. 相关工作2.1. 3D对象检测基于LiDAR的3D物体检测中的一个里程碑式的工作是VoxelNet [35],这是一个端到端的可训练模型,为了达到更好的检测效果,还使用了体系结构。PointRCNN [22]使用两阶段架构来细化初始3D边界框提案。部分A2 [23]关注利用对象内部分以获得更好的结果。PV-RCNN [20]和PV-RCNN++ [21]同时处理粗粒度体素和原始点云。最近,CenterPoint [31]应用了一个关键点检测器来预测对象的几何中心类似地,Voxel RCNN [5]使用粗体素粒度来降低计算成本,保持整体检测性能。在这项工作中,我们专注于改善基于LiDAR的目标检测中的数据不平衡问题。因此,我们不要求新颖的3D对象检测器;相反,我们依赖于现有的地标工作PointPillars [15],PV-RCNN [20]和VoxelRCNN [5]来证明我们提出的方法的有效性。请注意,理想情况下,我们的方法也适用于其他人。激光雷达点增强。由于各种原因,数据增强已被广泛应用于基于LiDAR的3D对象检测:(i)通过对低密度点云进行上采样[32,30]或通过对遮挡区域进行点云完成[33,29,2,27]来提高点云质量。(ii)通过全局和局部增强提高目标检测的鲁棒性。Choi等人[4]GT对象的随机扩增子分区(例如,在某个子分区中丢弃点)[4]。Zheng等[34]将每个地面实况对象划分为六个(面向内的)金字塔,然后使用随机丢弃、交换和稀疏化操作来增强它们。(iii)通过物理建模(如雾[13]或降雪[12])增加具有不利条件的清晰天气点云,从而(iv)使用其他模态(如图像)增强基于LiDAR的特征[26,25]。(v)通过从(of-fline)数据库中采样地面实况对象并将其引入当前场景(GT采样,[28])来平滑类分布。在这项工作中,类似于(v),我们专注于平滑每个类的密度以解决数据不平衡问题(即,在保持普通对象的检测精度的同时提高稀有对象的检测精度)。因此,我们以GT采样[28]作为基线。2.2. 梯度平衡多任务学习已被广泛探索,以在不同任务之间共享特征,同时使特定任务的多任务学习成为可能。边界框车行人屏障卡车交通锥拖车总线施工车辆自行车摩托车车边界框PED骑车人684L∈ CP××参考前视图输入图像语义分割(图像)图语义分割(点)图或检测头(for第1类)上下文GT采样输入LiDAR点云增强LiDAR点云共享特征动态加权平均探测头(N类)探测头(2类)共享主干每头检测损失图2.概述了我们提出的方法,以解决基于LiDAR的3D对象检测任务中的数据不平衡问题。我们的模型包括两个主要部分:(1)每类多头架构,其中每个头的检测损失c(对于c)通过动态加权平均(DWA)来平衡。(2)上下文地面实况(GT)采样,其建立在常规GT采样的基础上,并通过利用语义场景信息(语义分割图像图或语义点图)将地面实况点放置在更真实的位置来对其进行改进tiple预测,例如用于多域图像分类[19],后估计和动作识别[10],或深度估计和语义分割[7,17]。多任务学习中的关键问题是(i)构建多任务网络架构和(ii)平衡不同任务之间的特征为了解决后者,研究报告说,多任务损失平衡技术提高了不同任务的整体性能[17,14]。Kendall等人[14]基于任务不确定性修改了损失函数,GradNorm [3]动态调整了梯度幅度,并表明它提高了准确性并减少了不同任务之间的过拟合动态任务优先级[11]根据性能指标优先考虑困难的任务动态权重平均(DWA,[16])也被提出来使用每个任务的损失变化率来学习随着时间的推移平均任务权重。在这项工作中,我们探索应用最新的多任务学习技术来调整不同对象类别的梯度,并减少数据不平衡问题。3. 方法3.1. 梯度平衡每类检测头多头架构。我们首先采用多任务学习(MTL)策略,其目的是通过利用手头所有任务的共享知识来共同学习多个MTL在减少数据稀疏性问题方面是有效的,其中每个任务的标记示例的数量不足以优化模型。这是因为MTL可以聚合所有标记的数据,并利用来自不同任务的更多数据来获得更准确的学习者,多个任务的可量化表示。正如现有的工作[36]中所报道的,MTL在提高多类别联合检测器的性能方面也是有效的如图2所示,我们通过利用具有共享编码器的每个类别的多个对象检测头来应用上述多任务学习策略(即,骨架)。这种多头架构防止了在特定主导任务中过度拟合的风险(例如,单头模型在检测普通物体时比检测罕见物体时更过拟合)。当与数据增强技术(我们将在3.2节中解释)结合使用时,它还可以减少数据不平衡点 云 编 码 器 。 我 们 的 模 型 建 立 在 研 讨 会 工 作PointPillars [15]的基础上,尽管我们的模型很容易应用于其他基于激光雷达的3D物体探测器。在PointPillars之后,我们将点集编码为具有x-y坐标的M个柱的均匀间隔网格。每个柱中的点用元组(xc,yc,zc,xp,yp)进行扩充,其中xc、yc和zc是到柱中所有点的平均值的距离,并且xp和yp是从柱中心的偏移。然后,我们应用简化的PointNet [18]架构对每个点进行编码,并通过max操作将特征聚合为每个柱的单个特征向量。然后,通过主干处理所得到的M N特征图,将其重新映射为W H。然后,检测头共享该结果特征图以用于最终判决。探测头。继PointPillars [15]之后,我们使用单次检测器(SSD)设置作为检测头,使用2D Intersec将预测与地面实况相685CCCC|C|LL-L-L−N阳性CloclocCLSCLSdirdirΣ表 1. 对 象 类 别 及 其 相 关 的 语 义 标 签 ( 基 于 KITTI [9] 和nuScenes [1]数据集)用于上下文GT采样。 缩写C.V.:工程车辆,T.C.:交通锥数据集对象类别关联语义标签行人人行道输入图像[1]第一章KITTI [9]汽车,卡车,公共汽车,拖车,C.V.可行驶路面摩托车、自行车、护栏、T.C. 人行道,可行驶路面人行道汽车道路自行车人行道联盟(IoU)。每个检测头用以下三种类型的损失来训练:(i)定位损失L_loc,(ii)目标分类损失Lcls,和(iii)航向损失Ldir。增强LiDAR点云通过GT采样损失总额如下:L=1α(t)(β L+ β L+β L)(1)c∈C图3.概述我们提出的上下文GT采样。我们首先从数据库中抽取一些地面实况LiDAR点。基于语义分割图,然后我们识别出可以清晰地观察到对象的潜在区域(例如,人行道上的行人传统的GT采样不我们累积来自检测头的所有损失,其中是一组类别。正锚点的数量用Npos表示,超参数βloc、βloc和βloc默认分别设置为2、1和0.2请注意,我们使用αc(t)作为在每个时间步t确定的损失权重,以调整损失并修复梯度范数中的数据不平衡,我们将在下一节中详细解释。在图2中,我们描述了基于LiDAR的对象检测器,每个类具有梯度平衡的检测头。平衡排泄物。为了确定检测头c在每个时间步长t的平衡 权 重 αc ( t ) , 我 们 使 用 称 为 动 态 权 重 平 均(DWA,[16])的技术。我们使用DWA来计算每个头部c的权重,如下所示:考虑一下这个。限制了平衡每个类的网络最终性能。解决这个问题的一种方法是通过数据增强方法,它可以通过使模型在训练期间更频繁地看到稀有类来使类分布更平滑。从数据库采样地面实况(GT采样)。基于LiDAR的数据增强的常见做法是从数据库中采样地面实况,称为GT采样[28]。标记边界框内的所有地面实况点(及其标签)都收集在离线数据库中。在训练期间,从该数据库中随机选择一些地面实况点,并将其放置在α(t)=| C|exp(w c(t−1)/T)(二)点云的当前帧通过拼接,SIMU-cexp(wc(t−1)/T)其中,w c(t)被定义为在时间步(或迭代)t处的相对下降速率,并且被定义如下:wc(t1)=c(t1)/c(t2 )其中c(t)是来自探测头c的平均损失值。我们使用温度T来控制梯度平衡的强度。如[16]所述,我们使用几次迭代的平均损失c(t)来减少由于随机不梯度下降和随机训练数据选择。3.2. 上下文感知LiDAR点增强在自动驾驶的各种感知数据集中经常观察到数据不平衡问题。普通对象(如汽车)通常比稀有对象类别(如建筑车辆或交通锥)数量更多(这种数据的不平衡性很大从不同的框架或环境中划分对象因此,可以提高稀有类的平均密度。情境GT采样。虽然使用了简单的过滤规则来确保采样对象不会与其他对象发生冲突,但它并不考虑将这些对象放置在何处。例如,如图4所示,行人的地面实况点被引入到很少观察到行人的随机位置(例如,在用于车辆的道路上)。为了解决这个问题,我们提倡使用先前的语义信息来将对象引入到更真实的位置(例如,在人行道上供行人使用)。以前,给定2D语义分割图,我们首先识别潜在的图像区域,其中对象是plau-blily或通常观察。在表1中,我们总结了对象及其相关的语义标签(要放置)。基于给定相机原始LiDAR点云语义分割图地面实况点从数据库点云数据库通过情境GT抽样通过连接引入采样点确定引入采样对象的位置C686参数,给定对象边界框的3D几何中心点首先被投影到地面(集合z为0),然后投影到2D图像平面中以确定该区域的语义信息。最后,引入到非关联区域的对象(例如,道路上的行人我们在图3中解释了我们的上下文GT采样过程的概述。注意,上下文GT采样可以与基于LiDAR的分割图一起应用,其中我们收集前k个最近点及其语义标签,然后是k-NN分类器。4. 实验4.1. 设置实施详情。我们的模型建立在Point- Pillars [15]架构上,我们遵循其默认设置来训练我们的模型。我们的实现基于一个名为OpenPCDet [24]的基于LiDAR的3D对象检测的开源项目,该项目支持多种基于LiDAR的3D感知模型,包括PointPillars [15],PV-RCNN [20]和Voxel RCNN [5]。因此,我们相信我们提出的正则化组件可以很容易地应用于其他基于LiDAR的感知模型,并确保再现。我们的模型使用Adam优化器进行端到端训练,学习率为0.003。整个模型在4个NVIDIAGeForce RTX 3090 GPU上训练了80个epoch由于我们的数据增强策略和梯度平衡技术在推理过程中被关闭,因此推理时间将保持与PointPillars相同或略长(由于使用多头架构)。评估详情。为了进行评估,我们使用了广泛使用的公开可用的KITTI [9] 3D对象检测数据集,该数据集提供了7,481张训练图像和7,518张测试图像以及LiDAR点云。总共有80,256个对象被标记,并且(作为典型选择)我们专注于三种类型的对象:汽车、行人和骑自行车的人。请注意,我们的模型在推理过程中仅基于LiDAR点云,并且我们使用图像进行更好的定性分析。此外,我们使用了一个名为nuScenes的大规模数据集,该数据集提供了从四个不同的主要城市收集的超过1500小时的驾驶数据。我们的模型评估是在十个类上完成的:也就是说,汽车、卡车、工程车辆(CV)、公共汽车、拖车、障碍物、摩托车、自行车、行人和交通锥(TC)。4.2. 定量分析使用KITTI数据集进行评估我们首先使用公开可用的KITTI [9] 3D对象检测数据集分析我们如表2所示,从基线开始(我们使用PointPillars [15]),我们比较了3D使用和不使用我们的两个主要组件时的对象检测性能(以mAP为单位):(i)每类多个检测头以及梯度平衡技术和(ii)上下文GT采样。我们将我们的模型与CBGS(交叉平衡分组和抽样,[36])进行了比较,CBGS的目的类似于减少感知任务中类别不平衡问题的负面影响。我们在表2中观察到,我们的模型通常在所有类和指标中提供性能改进,并且通常优于替代方法。这种改进在检测骑自行车者方面是显著的,骑自行车者很少出现在数据集中(17,298个标记训练对象中的这可以证实,我们提出的组件在提高这种不平衡数据集中很少观察到的对象的检测性能方面是有效的。我们还观察到,我们的梯度平衡多头架构和上下文GT采样显着提高了整体对象检测性能,特别是对于很少观察到的对象类(比较骑自行车者与汽车和脚踏车(trians)使用大规模nuScenes数据集进行评估。为了进一步证明 我 们 提 出 的 方 法 的 有 效 性 , 我 们 使 用 大 规 模nuScenes数据集进行评估,这对感知更具挑战性,主要是由于其体积和不同类别之间的数据不平衡。在表3中,我们比较了所有十个不同对象类别的3D对象检测性能(在3D和BEV mAP中):(按照它们的编号的排序)汽车、卡车、公共汽车、拖车、建筑车辆、行人、摩托车、自行车、交通锥和障碍物。同样,我们将我们的模型与CBGS进行比较[36]。正如我们在表3中所观察到的,我们的模型总体上优于替代品,并且性能提升在小类中是显著的,例如公共汽车、拖车、越野车等。这进一步证实了我们提出的模型在处理罕见可观察对象方面是有效的,并且这种改进大于现有方法CBGS [36]。4.3. 消融研究背景GT采样对LiDAR数据增强的影响我们进一步评估了使用上下文采样与现有的基于LiDAR的3D对象检测模型的效果:PointPillars [15],PV-RCNN [20]和VoxelRCNN [5]。如我们在表4中所观察到的,通过用我们的情境GT采样改变传统GT采样,感知在所有模型中观察到类似的改善模式请注意,我们只考虑VoxelRCNN的汽车[5],因为它的原始架构只专注于检测汽车。在图4中,我们提供了一个传统GT采样和我们提出的上下文GT采样的例子,687表2.在公开可用的KITTI [9]验证数据集上的3D对象检测性能(mAP)我们还报告每个类的计数(以%为单位),以确定数据不平衡量。 在较高IoU阈值设置中:汽车(0.7)、行人(0.5)和骑自行车者(0.5),在较低IoU阈值设置中:汽车(0.5)、行人(0.25)和骑自行车者(0.25)。更高的IoU阈值设置更低的IoU阈值设置模型汽车(83.00%)行人(12.76%)骑自行车者(4.24%)Avg.(100.00%)汽车(83.00%)行人(12.76%)骑自行车者)(4.24%)Avg.(100.00%)3D↑BEV↑3D↑BEV↑3D↑BEV↑3D↑BEV↑3D↑BEV↑3D↑BEV↑3D↑BEV↑3D↑BEV↑A. [第15话]78.0487.4949.4055.7863.9568.9763.8070.7595.6294.4969.6869.8673.7873.7879.6979.38B. A + CBGS [36]77.7887.4751.0657.4065.5369.4064.7971.4294.3394.5172.2072.5772.5472.5679.6979.88C. A +我们的78.3789.2851.0656.9268.7972.4466.0772.8894.8896.2973.2473.3676.5876.5881.5782.08D. C w/o上下文GT抽样78.7788.2850.5055.8665.3169.2464.8671.1394.4294.6170.6470.8872.4572.8179.1779.43表3. nuScenes [8]验证集上的3D对象检测性能(以mAP为单位)。我们还报告每个类的计数(以%为单位),以确定数据不平衡量。缩写C.V.:工程车辆,小儿:行人,摩托车:摩托车,TC:交通锥模型车儿童护栏卡车T.C.拖车客车C.V.摩托车平均(42.64%)(20.31%)(13.49%)(8.19%)(7.90%)(2.41%)(1.54%)(1.39%)(1.11%)(1.03%)(100.00%)A. PointPillars + CBGS 80.8 71.9 47.8 49.2 46.9 34.2 62.4 12.1 30.9 4.8 44.1B. PointPillars+我们的82.171.954.5 53.8 50.1 39.1 67.0 16.3 40.2 9.4 48.4(1.3↑)(0.0)(6.7↑)(4.6↑)(3.2↑)(4.9↑)(4.6↑)(4.2↑)(9.3↑)(4.6↑)(4.3↑)C.B + w/o背景GT抽样81.072.350.2 49.0 45.2 34.3 63.4 10.7 32.9 6.9 44.6行人在给定语义信息的情况下,为要复制(从GTLiDAR 点 云数 据库 )和 粘贴 ( 到场 景中 )的 增强LiDAR点计算概率占用网格。例如,从数据库中采样地面实况pedes-trian点,并基于概率占用网格将其放置到场景中(通过GT采样(青色)和我们的上下文GT采样(红色)增强com-how点注意,不同颜色编码的语义分割图覆盖所有图像。梯度平衡的效果。在表5中,我们进一步提供了我们的消融研究,以验证跨多个每类探测头平衡梯度的效果。给定PointPillars [15]作为基线,我们首先修改每个类多个检测头的网络架构(模型B)。然后,我们应用 以 下 三 种 多 任 务 学 习 技 术 : GradCosine [6] ,GradNorm [3]和动态权重平均(DWA,[16])。我们在表5中观察到,(i)应用每类多个检测头通常提高了总体检测精度。此外,我们观察到,(ii)使用动态权重平均优于其他梯度平衡技术,DWA提供了一个性能增益可能是由于不同的头之间的平衡损失。有趣的是,其他两种技术(GradCosine和GradNorm)通常会降低整体检测性能。这可能是由于数据不平衡的问题,并表明上下文GT抽样技术需要一起使用。4.4. 定性分析使用nuScenes数据集进行分析 在图5(a-f)中,我们提供了我们的基线(PointPillars+CBGS)和我们的(PointPillars,我们提出的每个类别的多头,具有梯度平衡和上下文GT采样)之间的预测的定性比较。我们提供了从nuScenes验证数据集中采样的六个示例,这些示例具有不同颜色编码的边界框(见标题)。我们观察到,我们通常预测更少的误报,特别是对于小类(见青色框)。这可能是因为我们的每类多个检测头鼓励模型学习更多的类特定特征,从而在检测中获得更好的鲁棒性此外,我们还观察到,我们的模型预测对象在一个更合理的位置。当我们使用上下文GT采样时,它考虑了更现实的地方来增强对象,我们观察到我们的一般预测对象在一个更正确的地方。例如,我们的基线模型在一些违反直觉的地方产生卡车的预测输出动态加权平均法修正权重的效果。我们还分析了权重(αc(t))的变化,688表4.背景采样对三种现有对象检测模型的3D对象检测性能(以mAP为单位)的影响:PointPillars [15],PV-RCNN [20]和VoxelRCNN [5]。我们使用公开可用的KITTI [9]验证集。模型汽车(0.5)行人(0.25)骑自行车的人(0.25)平均3D↑BEV↑3D↑BEV↑3D↑BEV↑PointPillars [15] + GT抽样94.50 94.66 70.40 70.72 71.03 71.03 78.64 78.80[15]第十五话94.99(0.45↑)95.09(0.40↑)70.93(0.53↑)71.23(0.51↑)72.80(1.77↑)72.80(1.77↑)79.57(0.93↑)79.71(0.91↑)PV-RCNN [20] + GT采样94.42 96.20 75.32 75.60 79.15 79.15 82.96 83.65PV-RCNN [20] +上下文 GT采样94.74(0.32↑)96.50(0.30↑)75.50(0.18↑)75.92(0.32↑)83.25(4.10↑)83.25(4.10↑)84.50(1.54↑)85.22(1.57↑)体素RCNN [5] + GT采样94.91 96.66 - 94.91 96.66Voxel RCNN [5] +上下文 GT采样97.08(2.17↑)97.31(0.65↑)-97.08(2.17↑)97.31(0.65↑)(a) 输入图像(b) GT采样(5个样本)表5.我们将3D对象检测精度与三种不同的多任务学习技术进行了比较:GradCosine [6]、Grad-Norm [3]和动态加权平均DWA [16]。我们报告了KITTI [9]验证集上的分数,其中包含一组更高的IoU阈值。模型A. [第15话]3D↑63.80BEV↑70.75B. A +每类多个探测头64.0771.03C. B + GradCosine [6]63.6071.09D. B + GranNorm [3]63.6569.72E. B + DWA [16]64.8671.13原始(c) GT采样(15个样本)(d) 背景GT采样(5个样本)GT抽样情境GT抽样减少来自每个检测头的损失,以减少数据不平衡问题。在没有上下文GT采样(虚线)的情况下,我们观察到该模型在次要类别上提供了更多权重(比较绿色(骑自行车的人)与绿色(骑自行车的人))。红色(汽车)),以平衡两个头之间。这种趋势甚至在上下文GT采样的情况下仍在继续,但它们的权重差距减小了。这是因为我们的上下文GT采样为小类提供了更多的示例,以平衡类之间的示例数量。社会影响。我们相信,我们减少数据不平衡问题的努力也是道德人工智能的主流,它的重点是从训练数据中消除潜在的隐含偏见,这些数据可能包括有偏见的数据收集或反映历史或社会不平等。我们的宗旨是让图4.现有的地面实况(GT)采样和我们提出的背景地面实况(GT)采样之间的比较。(a)由语义分割图覆盖的前视图图像。通过(b-c)GT采样方法或(d)我们提出的上下文GT采样方法,来自地面实况边界框数据库的具有原始边界框(绿色)和增强边界框(青色)该模型更加关注非代表性类,从而在保持其他类相同或更低错误率的同时降低次要类的错误率。此外,由于我们的模型是用于构建自动驾驶系统,我们的工作将继承其社会影响。5. 结论在这项工作中,我们介绍了一种方法来解决基于激光雷达的三维物体检测中的数据不平衡问题689地面实况地面实况个cbg我们个cbg我们(a)(b)(c)(d)其他事项(e)(f)图5. CBGS [36](基于PointPillars [15])与我们在nuScenes [8]验证集上的(PointPillars [15] +带梯度平衡的每类多个检测头+上下文GT采样)。地面实况框的颜色编码为黑色,而其他预测框的颜色编码为青色(汽车、卡车、工程车辆、公共汽车、拖车)、粉红色(行人、自行车、摩托车)和绿色(障碍物、交通锥)。1.081.061.04一点零二1.000.980.960.94有和没有上下文GT采样汽车行人骑自行车0 10 20 30 40 50 60 70 80时代3D物体探测器,其中来自每个头的损失被修改为平衡的。(2)上下文地面实况(GT)采样,其通过利用语义场景信息将对象引入更真实的位置来改进常规GT采样,从而产生更好质量的数据增强。我们使用大规模nuScenes数据集和广泛使用的KITTI数据集进行了各种实验我们证明了我们所提出的方法的有效性,通过提高精度的小类。图6.不同类别的平衡权重αc(t)的变化(在每个时期结束时测量):汽车(红色)、行人(蓝色)和骑自行车的人(绿色)。我们还比较了具有(实线)和不具有(虚线)上下文GT采样的权重。数据:KITTI [9]。任务。我们提出了两个主要组成部分:(1)多任务学习启发的每类多头激光雷达鸣谢。 这项工作得到了现代汽车公司研发部门自动驾驶中心&和ITRC(信息技术研究中心)支持计划(IITP-2022-RS-2022-00156295)的资助。我们感谢Jaewoo Cho、Nokyung Park和Jongwon Park提供的有益意见。权重690引用[1] Holger Caesar、Varun Bankiti、Alex H Lang、SourabhVora、Venice Erin Liong、Qiang Xu、Anush Krishnan、Yu Pan、Giancarlo Baldan和Oscar Beijbom。nuscenes:自动驾驶的多模态数据集。在IEEE/CVF计算机视觉和模式识别会议论文集,第11621-11631页[2] Xuelin Chen,Baoquan Chen,and Niloy J Mitra.使用对抗训练 在真实扫描上 完成不成对 点云arXiv预印本arXiv:1904.00069,2019。[3] Zhao Chen,Vijay Badrinarayanan,Chen-Yu Lee,andAn-drew Rabinovich. Gradnorm:梯度归一化,用于深度多任务网络中的自适应损失平衡。国际机器学习会议,第794PMLR,2018。[4] 崔在锡宋艺智郭野俊点云中三维物体检测的零件感知数据增强。2021年IEEE/RSJ智能机器人和系统国际会议(IROS),第3391-3397页IEEE,2021。[5] Jiajun Deng , Shaoshuai Shi , Peiwei Li , WengangZhou,Yanyong Zhang,and Houqiang Li.体素r-cnn:面向高性能的基于体素的三维目标检测。在AAAI人工智能会议的Proceedings,第35卷,第1201-1209页[6] Yunshu Du , Wojciech M Czarnecki , Siddhant MJayakumar,Mehrdad Farajtabar,Razvan Pascanu,andBalaji Lakshmi-narayanan.使用梯度相似性调整辅助损耗。arXiv预印本arXiv:1812.02224,2018。[7] David Eigen和Rob Fergus。使用通用多尺度卷积架构预测深度、表面法线和语义标签。在Proceedings of theIEEE international conference on computer vision , 第2650-2658页,2015年。[8] Whye Kit Fong,Rohit Mohan,Juana Valeria Hurtado,Lub-ing Zhou , Holger Caesar , Oscar Beijbom , andAbhinav Val- ada.全视晕影:激光雷达全景分割和跟踪的 大 规 模 基 准 。 arXiv 预 印 本 arXiv : 2109.03805 ,2021。[9] Andreas Geiger , Philip Lenz , Christoph Stiller , andRaquel Urtasun.视觉与机器人技术的结合:Kitti数据集。The InternationalJournal of Robotics Research ,32(11):1231-1237,2013.[10] 乔治亚·吉奥克萨里,巴拉斯·哈里哈兰,罗斯·吉希克,和吉坦德拉·马利克。用于姿态估计和动作检测的r-cnn。arXiv预印本arXiv:1406.5212,2014。[11] Michelle Guo , Albert Haque , De-An Huang , SerenaYeung,and Li Fei-Fei.多任务学习的动态任务优先级排序。在欧洲计算机视觉会议(ECCV)的会议记录中,第270-287页[12] Martin Hahner , Christine Sakaravan , Mario Bijelic ,Felix Heide , Fisher Yu , Dengxin Dai , and Luc VanGool.激光雷达降雪模拟用于3d目标检测。在IEEE/CVF计算机视觉和模式识别会议的Proceedings中,第16364-16374页[13] Martin Hahner,Christine Sakaravan,Dengxin Dai,andLuc Van Gool.基于真实激光雷达点云的雾模拟在恶劣天气下用于三维目标检测。InProceedings of theIEEE/CVF计算机视觉国际会议,第15283-15292页,2021年。[14] Alex Kendall Yarin Gal和Roberto Cipolla使用不确定性来权衡场景几何和语义损失的多任务学习。在IEEE计算机视觉和模式识别会议论文集,第7482-7491页[15] Alex H Lang , Sourabh Vora , Holger Caesar , LubingZhou,Jiong Yang,and Oscar Beijbom.点柱:用于从点云中检测物体的快速编码器。在IEEE/CVF计算机视觉和模式识别会议论文集,第12697-12705页[16] Shikun Liu,Edward Johns,and Andrew J Davison.端到端的多任务学习与注意力。在IEEE/CVF计算机视觉和模式识别会议论文集,第1871-1880页[17] Ishan Misra 、 Abhinav Shrivastava 、 Abhinav Gupta 和Mar- tial Hebert。多任务学习的十字绣网络。在IEEE计算机视觉和模式识别会议论文集,第3994-4003页[18] Charles R Qi, Hao Su ,Kaichun Mo, and Leonidas JGuibas.Pointnet:对点集进行深度学习,用于3D分类和分割。在IEEE计算机视觉和模式识别集,第652[19] Sylvestre-AlviseRebuffi , HakanBilen 和 AndreaVedaldi。使用残余适配器学习多个视觉域神经信息处理系统的进展,2017年30日。[20] Shaoshuai Shi , Chaoxu Guo , Li Jiang , Zhe Wang ,Jianping Shi,Xiaogang Wang,and Hongsheng Li. Pv-rcnn:用于3D对象检测的点-体素特征集抽象。在IEEE/CVF计算机视觉和模式识别会议的论文集,第10529-10538页[21] Shaoshuai Shi , Li Jiang , Jiajun Deng , Zhe Wang ,Chaoxu Guo , Jianping Shi , Xiaog
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功