深度学习技术在3D物体检测中的应用不仅提高了精度，也存在着适应性不足的问题

127 浏览量更新于2023-10-20 收藏 1.5MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1在德国培训，在美国测试：使3D物体探测器通用化王艳1陈翔宇1游玉荣1李尔然李2，3Bharath Hariharan1Mark Campbell1Kilian Q.Weinberger1Wei-Lun Chao41康奈尔大学2Scale AI3哥伦比亚大学4俄亥俄州立大学{yw763，xc429，yy785，bh497，mc288，kqw4}@ cornell.eduerranlli@gmail.comosu.edu摘要在自动驾驶领域，深度学习大大提高了LiDAR和立体相机数据的3D物体检测精度虽然深度网络非常擅长泛化，但它们也因过度拟合各种虚假伪像而臭名昭著事实上，大多数自动驾驶数据集都是在一个国家的一小部分城市内收集的，通常是在类似的天气条件下。在这篇文章中，我们考虑的任务，适应3D对象检测器从一个数据集到另一个。我们观察到，简单地说，这似乎是一项非常具有挑战性的任务，导致准确性水平急剧下降。我们提供了大量的实验来研究真正的适应挑战，并得出了一个令人惊讶的结论：要克服的主要适应障碍是地理区域之间汽车尺寸的差异。一个简单的修正的基础上平均年龄的汽车大小产生了强大的修正适应差距。我们提出的方法是简单的，很容易incorpo- rated到大多数3D对象检测框架。它为各国的3D物体检测适应提供了第一个基线，并希望潜在的问题可能比人们希望相信的更容易掌握。我们的代码可以在https：//github上找到。com/cxy1997/3D_adapt_auto_driving.1. 介绍自动驾驶汽车需要在3D中准确检测和定位车辆和行人，以确保安全驾驶。因此，在过去的几年里，人们对3D物体检测的问题产生了浓厚的兴趣，导致KITTI基准的准确性大幅提高[11，14，15，16，18，19，28，29，30，31、32、33、34、37、40、41、52、53、54、51、61、62、63、64、65、68、69]。然而，在兴奋中，这已经获得，它往往被遗忘，KITTI是一个相当小的（15K*平等捐款图1：数据集。我们展示了正面视图图像（左），对应的激光雷达信号（右）来自五个数据集的鸟瞰图：[18][19][1这些数据集不仅捕获不同地理位置的场景，而且还使用不同的LiDAR模型，这使得推广3D对象检测器成为一个具有挑战性的问题。场景）从狭窄区域获得的对象检测数据集：在白天，在晴朗的天气中，通过驾驶通过中等大小的德国城市和德国乡村，使用固定的传感装置收集该数据集因此，在KITTI上训练的3D物体检测算法可能会出现各种各样的偏差：他们可能期望道路是可见的或者天空是蓝色的。他们可能只识别某些品牌的汽车，甚至可能过度适应德国司机和行人的特质。账面11713WaymoLyftnuScene场景KITTI阿尔戈沃11714这些对世界上不同地方的新环境的偏差可能会导致对象检测器错过汽车或行人，从而造成破坏性后果[1]。因此，至关重要的是，我们（a）在将我们的3D物体探测器部署到安全关键型应用中之前，了解它们正在拾取本文的目标是解决这两个挑战。我们的第一个目标是了解当前的3D物体检测器是否存在任何偏见。为此，我们利用了多个最近发布的数据集，这些数据集具有与KITTI [18，19]（相机和LiDAR）相似的传感器类型和3D注释，每个数据集都在不同的城市收集[3，4，7，25]（参见图1）。有趣的是，它们也是用不同的传感器配置记录的（即，LiDAR 和照相机模型以及它们的安装布置可以不同）。我们首先在每个数据集上训练两个代表性的基于LiDAR的3D对象检测器（PIXOR [63]和POINTRCNN[52]），并在其他数据集上进行测试。我们发现，当在不同的数据集上进行测试时，3D物体检测器会出现严重的失败：与Waymo相比，在KITTI上训练的检测器在Waymo上的表现要差36%[3]。一个是在Waymo上训练的这表明，探测器确实过度适应其训练领域。是什么领域的差异导致了这种灾难性的失败？人们可以想到很多可能性。图像的低级统计可能存在差异。Li-DAR传感器可以具有更多或更少的波束，并且可以不同地定向。但差异也可能存在于被感知的物质世界中。车辆的数量、方向以及大小和形状可能存在差异。我们对这些潜在的偏见进行了广泛的分析，指出了一个主要问题-汽车尺寸和形状的统计差异。事后看来，这种差异是有道理的。美国最畅销的汽车是5米长的卡车（福特F系列）[2]，而德国最畅销的汽车是4米长的紧凑型汽车（大众高尔夫1）。由于这些差异，KITTI中的汽车往往比其他数据集中的汽车更小作为对这种偏见的反击，我们提出了一种非常简单的方法，利用汽车尺寸的汇总统计数据（即，平均值）来校正输出注释和输入信号中的这种偏差。这些统计数据可以从机动车辆部门或汽车销售数据中获得。这一单一校正导致跨数据集性能的大幅提高，将3D简单零件的平均精度提高了41。4点，并导致更强大的3D对象检测器。总的来说，我们的贡献是双重的：• 我们提出了一个广泛的评价域的差异-1https://www.best-销售-cars.com/germany/2019-Q1-德国最畅销汽车品牌和车型/自动驾驶汽车环境之间的推论以及它们如何影响3D探测器性能。我们的研究结果提出了一个核心问题：不同地点的汽车尺寸统计。• 我们提出了一个简单而有效的方法来缓解这个问题，通过使用容易获得的聚合统计数据，汽车尺寸的变化，并显示出跨数据集性能的显着改善。根据我们的研究结果，我们建议视觉研究人员和自动驾驶汽车公司在大规模部署3D检测系统时要认识到这些领域的差异2. 相关工作我们回顾了用于自动驾驶的3D对象检测，以及用于街道场景中的2D分割和检测的域适应。基于激光雷达的探测大多数现有的3D物体检测技术使用LiDAR（有时使用图像）作为输入信号，这提供了周围环境的准确3D点。因此，主要的挑战是正确编码点，以便预测点标签或在3D中绘制边界框来定位对象。 Frus- tum PointNet [41]将PointNet [42，43]应用于来自2D对象检测器的每个frus- tum建议; P点 RCNN[52]从PointNet++功能中学习3D提案[43]。MV 3D [11]将LiDAR点投影到正面和鸟瞰视图（BEV）中VoxelNet [69]和PointPillar [30]将3D点编码为体素，并通过3D卷积和PointNet提取特征UberATG-Contemporary [34]和UberATG-MMF [33]执行连续卷积[56]以融合视觉和LiDAR功能。基于图像的检测。提供精确的 3DLiDAR传感器是出了名的昂贵。一个64-线LiDAR（例如，在KITTI [19，18]中使用的一个）花费大约$75，000（美元）。作为替代方案，研究人员也一直在研究纯粹基于图像的3D检测。现有的算法主要建立在2D物体检测[45，20，35]上，施加额外的几何投影。straints [6，8，38，59]创建3D方案。[9，10，39，60]应用基于立体的深度估计以获得每个像素的这些3D坐标或者作为附加输入通道输入到2D检测流水线中，或者用于提取手工制作的特征。最近提出的伪LiDAR[58，44，66]将基于立体的深度估计与基于LiDAR的检测相结合，将深度图转换为3D点云并将其处理为LiDAR信号。伪LiDAR框架在很大程度上改善了基于图像的检测，但与LiDAR相比仍然存在本工作11715因此专注于基于激光雷达的物体探测器。域适应。（无监督）域自适应也已在自动驾驶场景中进行了研究，但主要用于2D语义分割的任务[13，22，24，36，48，49，50，55，67，73]和2D物体检测。[5，12，21，23，26，27，46，47，57，72，71]。com-Mon设置是适配从一个标记的源域训练的模型（例如，合成图像）到未标记的目标域（例如，真实图像）。域差主要来自输入信号（例如，图像风格），并且许多算法都建立在对抗特征匹配和风格转移的基础上[17，22，70]，以最小化输入或特征空间中的域间隙我们的工作通过研究3D对象检测来对比这些方法。我们发现，输出空间（例如，汽车大小）也会导致域差距;适当地利用目标域的统计数据可以大大提高模型3. 数据集我们回顾KITTI [18，19]并介绍我们实验中使用的其他四个数据集：[25 ][26][27][28][29][2我们专注于与3D物体检测相关的数据。所有数据集都为几种对象提供了地面实况3D边界框标签。我们在表1中详细总结了这五个数据集。凯蒂KITTI对象检测基准[18，19]包含7，481（左）张用于训练的图像和7，518张用于测试的图像。训练集进一步分为3，712个训练图像和3，769个验证图像，如[9]所建议的。所有的场景都是在德国卡尔斯鲁厄的晴朗天气和白天拍摄的。对于每个（左）图像，KITTI提供其对应的64束Velodyne LiDAR点云和右侧立体图像。Argoverse Argoverse数据集[7]是在美国迈阿密和匹兹堡附近的多个天气和一天中的不同时间收集的。它提供来自立体摄像机和另外七个摄像机的图像，覆盖360个摄像头。它还提供由两个垂直堆叠的 32 束 VelodyneLiDAR传感器捕获的64束LiDAR点云。我们从原始的Argov中提取同步的正视图和相应的点云其他数据集，LiDAR扫描和图像之间的时间戳公差为51 ms。我们使用的结果数据集包含13，122张用于训练的图像，5，015张用于验证的图像。idation，4，168图像用于测试。nuScenes nuScenes数据集[4]包含28，130个训练图像和6，019个验证图像。我们将验证图像作为测试图像，并将28，130张训练图像重新分割和子采样为11，040张训练图像和3，026张验证图像。这些场景是在美国波士顿和新加坡的不同天气和一天中的不同时间对于每张图像，nuScenes提供了由32束屋顶LiDAR捕获的点云。它还提供图像从另外五个摄像头，覆盖360度的信息。Lyft Lyft Level5数据集[25]包含18，634张正面图像，我们将它们分为12，599张图像用于训练，3，024张图像用于验证，3，011张图像用于测试。场景图为美国帕洛汽车在晴朗的天气和白天。对于每张图像，Lyft提供了由40（或64）束车顶LiDAR和两个40束保险杠LiDAR传感器捕获的点云它还提供来自另外五个摄像头的图像，覆盖360度全景信息和一个长焦距摄像头。Waymo Waymo数据集[3]包含122，000辆火车-ing，30，407验证，和40，077测试图像，我们分，分别抽取12，000、3，000和3，000个样本这些场景是在凤凰城，山景城和旧金山在多种天气和一天的多个时间对于每张图像，Waymo提供了由五个LiDAR传感器（一个在屋顶上）捕获的组合它还提供来自另外四个摄像头的图像。数据格式。在进行跨数据集分析时，一个不可忽视的困难在于数据格式的差异考虑到大多数现有的算法是使用KITTI格式开发的，我们将所有其他四个数据集转换为它的格式。详见补充资料。4. 实验和分析4.1. 设置3D物体检测算法。我们应用两个基于LiDAR的模型POINTRCNN [52]和PIXOR [63]通过输出周围的3D边界框来检测3D中的对象。PIXOR在体素化后通过3Dtensor 表示 LiDAR 点云，而 POINTRCNN 应用 Point-Net++ [43]来提取逐点特征。这两种方法都不依赖于图像。我们在五个3D对象检测数据集上训练这两个模型。 POINTRCNN 有两个子网络，区域建议网络（RPN）和区域CNN（RCNN），它们是单独训练的。首先训练RPN，200个epoch，批量大小为16，学习率为0。02. RCNN训练了70个epoch，批量大小为4，学习率为0。02.我们使用在线地面实况框增强，将对象框和内部点从一个场景复制到另一个场景中的相同位置。对于PIXOR，我们用批量大小4训练它，初始学习率5×10−5，将降低10第50和第80个纪元。我们做随机hori-斑马在训练中翻转和旋转。公制。我们遵循KITTI来评估3D和鸟瞰图（BEV）中的对象检测。我们专注于汽车类别，这是现有作品的主要焦点。我们报告平均精度（AP），IoU阈值为0.7：如果与预测的3D框的交集大于0，则正确地检测到汽车。7 .第一次会议。我们将3D和BEV任务的AP表示为AP3D和APBEV。11716、表1：数据集概述。我们专注于它们与前视图像，LiDAR和3D对象检测相关的属性数据集大小是指同步（图像，LiDAR）对的数量。对于Waymo和nuScenes，我们对数据进行子采样。详情见正文[-24，4][-2625]◦ ◦[-29，5]KITTI评估了三种情况：简单、中等和困难。具体来说，它用四个级别（0到3）的遮挡/截断来标记每个地面真值框Easy案例包含2D边界框高度大于40像素的0级汽车;中等情况包含2D边界框高度大于25像素的{0，1}级汽车;困难情况包含2D边界框高度大于25像素的{0，1，2}高度是为了分开汽车的深度，相对于ob.服务车。然而，由于不同的数据集具有不同的图像分辨率，因此这样的标准可能不跨数据集对齐。因此，我们将“大于40，25像素”的约束替换我们进一步在三个深度范围内评估级别为{0，1，2}的汽车：0-30，30-50和50-70米，以下[63]。我们主要报告和讨论POINT RCNN在主论文中验证集上我们在补充材料中报告了PIXOR的结果4.2. 每个数据集中的结果我们首先评估在KITTI基准测试中显示出有希望结果我们在表2中总结了结果：行是检测器训练的源域，列是检测器正在测试的目标域。粗体表示域内性能（即，使用相同的数据集进行训练和测试）。我们看到POINTRCNN在KITTI、Lyft和Waymo数据集上运行得相当好，适用于所有简单、中等和困难的情况。结果在Ar- goverse上稍差，然后是nuScenes。我们假设这可能是由于相对较差的LiDAR输入造成的：nuScenes只有32个光束;而Argoverse有64个光束，由于信号由两个堆叠的LiDAR传感器捕获，因此每两个光束都非常接近。我们在表2（下表）中的不同范围内进行了进一步分析。我们看到远处的Argoverse和nuScenes急剧下降，这支持了我们的假设：由于光束较少，远处的物体只能通过非常稀疏的LiDAR点，因此难以检测。我们还看到KITTI在50-70米处的准确率很差，这可能是因为那里的标记训练实例很少。总的来说，这两种3D对象检测算法的工作相当当使用相同的数据集进行训练和测试时，只要输入传感器信号具有高质量并且标记的实例足够，就可以很好地进行测试。4.3. 跨数据集的我们进一步实验了在数据集上推广经过训练的我们用红色字体表示每列和每项设置的最佳结果，用蓝色字体表示最差结果。我们看到了明显的业绩下滑趋势。例如，在KITTI上训练的POINT RCNN模型仅达到45。Waymo上的APBEV（中等）为2%，比在Waymo上训练的模型低40%以上。在AP 3D中，差距变得更大：相同的KITTI模型仅达到11。9%的AP 3D，而Waymo车型达到85. 百分之三。我们假设汽车的高度很难得到正确的。就目标（测试）域而言，如果检测器是从其他数据集训练的，Lyft和Waymo遭受的下降最少，其次是Argoverse。KITTI和nuScenes受到的影响最大，这可能是由于它们的地理位置不同（一个来自德国，另一个包含来自新加坡的数据nuScenes数据集也可能受到输入中相对较少的光束的影响，因此其他模型可能无法应用。通过考虑不同的范围，我们还发现，范围越深，下降越大。在源（训练）域方面，我们看到在KITTI上训练的检测器似乎是最不容易转移的对其他人在单个设置中对单个数据集进行评估的每个5×1块中，KITTI模型的表现大多优于其他模型。令人惊讶的是，nuScenes模型可以在其他数据集上进行测试时表现相当好因此，我们有两个论点：传感器的质量在测试中比在训练中更重要;KITTI数据（例如，汽车类型、时间和天气）可能太有限或与其他人不同，因此不能很好地转移到其他人。在下面的小节中，我们提供详细的分析。4.4. 领域特性表2和第4.3揭示了在数据集（域）上推广3D对象检测器的准确性急剧我们假设在每个数据集中存在显著的独特性特别是，图1显示了图像和点云在数据集之间的差异。一方面，不同的数据集是由不同的汽车收集的数据集大小激光雷达类型光束角度对象类型阴雨天气夜间◦◦KITTI [18，19]14，999 1 ×64梁8没有没有◦ ◦Argoverse [7]22，305 2 ×32-beam17没有是的nuScenes [4]34，149 1×32-beam[−16Hz，11]23是的是的◦Lyft [25]18，634 1×40或64+2×40-beam9没有没有Waymo [3]192，484 1×64+4×200-beam[−18，2]4是的是的11717表2：跨多个数据集的3D对象检测（在验证集上评估）。我们报告了在IoU = 0时鸟瞰图（AP BEV）和3D（AP 3D）中汽车类别的平均精度（AP）。7，使用POINTRCNN检测器[52]。我们报告了不同难度下的结果（遵循KITTI基准，但我们将2D 边界框上的40，25，25像素阈值替换为30，70，70米的对象深度，分别为容易，中等，和困难的情况下）和不同的深度范围（使用相同的截断和遮挡阈值KITTI硬情况）。结果显示，跨数据集推理的性能显著下降我们指出最好的泛化结果每列和每设置的红色字体和最差的蓝色字体。我们用粗体字表示域内结果设置源\目标KITTI阿尔戈沃斯nuScene场景LyftWaymoKITTI88.0/82.555.8/27.747.4/13.381.7/51.845.2/11.9阿尔戈沃斯69.5/33.979.2/57.852.5/21.886.9/67.483.8/40.2容易nuScene场景49.7/13.473.2/21.873.4/38.189.0/38.278.8/36.7Lyft74.3/39.477.1/45.863.5/23.990.2/87.387.0/64.7Waymo51.9/13.176.4/42.655.5/21.687.9/74.590.1/85.3KITTI80.6/68.944.9/22.326.2/8.361.8/33.743.9/12.3阿尔戈沃斯56.6/31.469.9/44.227.6/11.866.6/42.172.3/35.1中度nuScene场景39.8/10.756.6/17.140.7/21.271.4/25.068.2/30.8Lyft61.1/34.362.5/35.333.6/12.383.7/65.577.6/53.2Waymo45.8/13.264.4/29.828.9/13.774.2/53.885.9/67.9KITTI81.9/66.742.5/22.224.9/8.857.4/34.241.5/12.6阿尔戈沃斯58.5/33.369.9/42.826.8/14.564.4/42.768.5/36.8硬nuScene场景39.6/10.153.3/16.740.2/20.567.7/25.766.9/29.0Lyft60.7/33.962.9/35.930.6/11.779.3/65.577.0/53.9Waymo46.3/12.661.6/29.028.4/14.174.1/54.580.4/67.7KITTI88.8/84.958.4/34.747.9/14.977.8/54.248.0/14.0阿尔戈沃斯74.2/46.883.3/63.355.3/26.987.7/69.585.7/44.40- 30米nuScene场景50.7/13.973.7/26.073.2/42.889.1/43.879.8/43.4Lyft75.1/45.281.0/54.061.6/25.490.4/88.588.6/70.9Waymo56.8/15.080.6/48.157.8/24.088.4/76.290.4/87.2KITTI70.2/51.446.5/19.09.8/4.560.1/34.550.5/21.4阿尔戈沃斯33.9/11.872.2/39.59.5/9.165.9/39.175.9/42.130m-50mnuScene场景24.1/3.846.3/6.417.1/4.170.1/18.969.4/29.2Lyft39.3/16.659.2/21.811.2/9.183.8/62.779.4/55.5Waymo31.7/9.358.0/18.89.9/9.174.5/51.487.5/68.8KITTI28.8/12.09.2/3.01.1/0.033.2/9.627.1/12.0阿尔戈沃斯10.9/1.329.9/6.90.5/0.035.1/14.546.2/23.050米-70米nuScene场景6.5/1.515.2/2.39.1/9.141.8/5.337.9/15.2Lyft13.6/4.623.1/3.91.1/0.062.7/33.154.6/27Waymo5.6/1.826.9/5.60.9/0.050.8/21.363.5/41.116001400120010008006004002000每辆车的每个场景的20000175001500012500100007500500025000在不同地点收集;环境和前景对象样式也可以不同。为了提供更好的理解，我们在图2中计算每个场景和每辆车的LiDAR点的平均数量（使用地面实况3D边界框）。我们看到了很大的差异：Waymo每辆车的积分是nuScenes2的十倍。我们进一步分析了每辆车的边界框的大小。图3显示了每个数据集的直方图。我们再次看到不同数据集之间的不匹配：KITTI的盒子尺寸最小，而Waymo的盒子尺寸最大。我们进行了分析，发现大多数图2：每辆汽车（左）和每个场景（右）的3D点的平均数量。我们只包括前视图摄像机视图内的点和深度在70米以内的汽车。不同的传感器配置。例如，nuScenes使用单个32光束LiDAR;点云因此比其它数据集稀疏。这些数据集边界框将汽车的点紧密地包含在其中。因此，我们认为这种盒子大小的差异与不同数据集中捕获的汽车样式有关。2我们注意到，POINT RCNN应用点重采样，使得每个场景（在RPN中）和对象建议（在RCNN中）将具有相同数量的输入点，而PIXOR应用体素化。这两种操作都可以减少但不能完全解决跨域的点云差异。135683861455786KITTI阿尔戈沃斯nuScene场景LyftWaymo平均点数1905719483110826390267911718三维边界框高度分布3020100三维边界框宽度分布302010三维边界框长度分布302010图3：不同数据集的汽车尺寸统计。三维边界框高度分布10501.0 1.5 2.0 2.53.0米三维边界框宽度分布10501.6 1.8 2.0 2.2 2.4米三维边界框长度分布10503.0 3.5 4.5 5.0 5.5 6.0米图4：在我们的统计标准化（Stat Norm）之前和之后检测到的边界框的大小。该探测器在Waymo上训练（w/o或w/StatNorm），并在KITTI上测试我们还显示了两个数据集中地面实况框大小的分布8060402000.0 0.2 0.4 0.6 0.8 1.0IOU表3：通过将地面实况框大小分配给检测到的汽车，同时保持其中心和旋转不变，跨数据集性能和增益（括号中）。我们报告汽车类别的 AP3D 为 IoU =0 。 7 ，使用 POINTRCNN[52]。我们展示了从KITTI到其他数据集的适应性，反之亦然。图5：KITTI上的汽车检测精度（AP 3D在中等情况下），使用在不同数据集上训练的POINT RCNN模型。我们将IoU阈值从0. 0比1。0（x轴）。曲线表明，在不同数据集上训练的模型具有相似的检测能力（在低IoU下收敛），但它们在定位上不同（在高IoU下发散）。4.5. 探测器性能分析那么，是什么特质导致了业绩差距的有两个因素可能导致未检测到汽车（即，IoU<0. 7）：汽车可能完全被检测器错过，或者被检测到但定位不好。为了确定主要因素，我们使用KITTI作为目标域来降低IoU阈值（参见图5）。我们观察到AP 3D立即增加，当IoU低于0时，结果变得饱和。4.第一章值得注意的是，从其他数据集训练的POINTRCNN模型与在KITTI上训练的模型表现相当。换句话说，泛化能力差主要在于局部化。我们调查了错误定位3的一个原因：不准确的盒子尺寸。为此，我们替换了IoU > 0的每辆检测到的汽车的大小。图2中所示为具有相应地面实况框大小的地面实况车，同时保持其底部中心和旋转不变。我们在表3中看到了立即的性能提升（参见跨所有数据集对的完整结果换句话说，从一个域训练的检测器无法正确预测这一观察结果与我们在图3中的发现相对应，即这些数据集具有不同的汽车尺寸。通过进一步分析检测到的盒子（在图4中，我们将从Waymo训练的检测器应用到KITTI），我们发现检测器倾向于预测与源域中的地面真实大小相似的盒子大小，即使目标域中的汽车实际上我们认为这是因为从源数据训练的检测器携带了对目标数据的学习偏差。5. 领域适应方法由于错误定位而不是错误检测导致的性能差打开了以相对较小的努力使学习的检测器适应新领域的可能性我们3错误的定位可能是由于错误的框中心、旋转或大小造成的。研究两种情况：（1）一些标记的场景（即，带有3D框注释的点云）或（2）汽车大小KITTIArgoversenuScenesLyftWaymoWaymo Ground TruthBefore Stat NormAfter Stat Norm在KITTI上训练在Argoverse上训练在nuScenes上训练在Lyft上训练在Waymo百分比（%）百分比（%）百分比（%）中度病例的AP3D百分比（%）百分比（%）百分比（%）设置数据集关于KITTI敬KITTI阿尔戈沃斯65.7（+38.0）59.2（+25.3）容易nuScene场景Lyft33.5（+20.2）74.8（+23.1）63.9（+50.5）58.4（+19.0）Waymo77.1（+65.2）78.2（+65.1）阿尔戈沃斯50.9（+28.6）51.0（+19.6）中度nuScene场景Lyft18.2（+9.9）54.3（+20.6）47.3（+36.6）49.4（+15.1）1.01.52.02.53.00 1.01.52.02.53.0023456 7米米米11719表4：改进的跨数据集的3D对象检测（在验证集上评估）。 AP BEV/ AP 3D 汽车类在IoU =0时。7，使用POINTRCNN [52]。我们通过直接调整预测框大小，（SN）统计归一化和（FS）少量微调（10个标记实例）来研究（OT）输出转换我们还包括（直接）直接应用在源域上训练的检测器和（在）应用在目标域上训练的检测器进行比较。我们展示了从KITTI到其他数据集的自适应结果，反之亦然。我们用红色字体标记Direct、OT、SN和FS中的最佳结果，用蓝色字体标记最差结果从KITTI（KITTI作为源;其他作为目标）致KITTI（以KITTI为目标，以其他人为来源）设置数据集直接OTSNFS内直接OTSNFS内阿尔戈沃斯55.8/27.772.7/9.074.7/48.275.8/49.279.2/57.869.5/33.953.3/5.776.2/46.180.0/49.7 88.0/82.5容易 nuScene场景Lyft47.4/13.381.7/51.855.0/10.488.2/23.560.8/23.988.3/73.354.7/21.789.0/78.173.4/38.190.2/87.349.7/13.474.3/39.475.4/31.571.9/4.783.2/35.683.5/72.183.8/58.785.3/72.588.0/82.588.0/82.5Waymo45.2/11.986.1/16.284.6/53.387.4/70.990.1/85.3决议51.9/13.164.0/3.982.1/48.781.0/67.0 88.0/82.5阿尔戈沃斯44.9/22.359.9/7.961.5/38.260.7/37.369.9/44.256.6/31.452.2/7.367.2/40.568.8/42.8 80.6/68.9Mod. nuScene场景Lyft26.2/8.361.8/33.730.8/6.870.1/17.832.9/16.473.7/53.128.7/12.574.2/53.440.7/21.283.7/65.539.8/10.761.1/34.358.5/27.360.8/5.667.4/31.073.6/57.967.2/45.573.9/56.280.6/68.980.6/68.9Waymo43.9/12.369.1/13.174.9/49.475.9/55.385.9/67.945.8/13.254.9/3.771.3/47.166.8/51.8 80.6/68.9阿尔戈沃斯42.5/22.259.3/9.360.6/37.159.8/36.569.9/42.858.5/33.353.5/8.668.5/41.966.3/43.0 81.9/66.7硬nuScene场景Lyft24.9/8.857.4/34.227.8/7.666.5/19.131.9/15.873.1/53.527.5/12.471.8/52.940.2/20.579.3/65.539.6/10.160.7/33.959.5/27.863.1/6.965.2/30.875.2/58.964.7/44.574.1/56.281.9/66.781.9/66.7Waymo41.5/12.668.7/13.969.4/49.470.1/54.480.4/67.746.3/12.658.0/4.173.0/49.768.1/52.9 81.9/66.7阿尔戈沃斯58.4/34.773.0/13.773.1/54.273.6/55.283.3/63.374.2/46.864.9/10.1 83.3/53.984.0/56.9 88.8/84.90-30nuScene场景Lyft47.9/14.977.8/54.256.2/13.988.4/27.560.0/29.288.8/75.454.0/23.689.3/77.673.2/42.890.4/88.550.7/13.975.1/45.274.6/36.674.8/9.183.6/42.887.4/73.681.2/59.887.5/73.988.8/84.988.8/84.9Waymo48.0/14.087.7/22.287.1/60.188.7/74.190.4/87.256.8/15.071.3/4.485.7/59.084.8/71.0 88.8/84.9阿尔戈沃斯46.5/19.056.1/5.461.5/3159.0/29.972.2/39.533.9/11.835.1/9.148.9/25.747.9/23.8 70.2/51.430-50 nuScene场景Lyft9.8/4.560.1/34.510.8/9.167.4/10.711.0/2.373.8/52.29.5/6.173.7/50.417.1/4.183.8/62.724.1/3.839.3/16.635.5/15.543.3/3.944.9/18.658.3/38.045.0/25.157.7/33.370.2/51.470.2/51.4Waymo50.5/21.473.6/10.478.1/54.978.1/57.287.5/68.831.7/9.339.8/4.557.3/36.349.2/29.2 70.2/51.4阿尔戈沃斯9.2/3.020.5/1.023.8/5.620.1/6.329.9/6.910.9/1.38.0/0.89.1/2.68.1/3.828.8/12.050-70 nuScene场景Lyft1.1/0.033.2/9.61.5/1.041.3/6.83.0/2.349.9/22.23.3/1.246.8/19.49.1/9.162.7/33.16.5/1.513.6/4.67.8/5.112.7/0.99.4/5.121.1/6.712.9/5.717.5/8.028.8/12.028.8/12.0Waymo27.1/12.042.6/4.246.8/25.145.2/24.363.5/41.15.6/1.87.7/1.114.4/5.710.5/4.828.8/12.0目标域的统计数据是可用的。我们认为这两种方案都是可行的：我们可以简单地为每个地方标注一些标记的实例，或者从当地的车辆管理局或汽车销售网站获得统计数据。在本文中，我们将主要关注KITTI的训练和其他人的测试，反之亦然。我们把其他结果留在补充材料中。少拍（FS）微调。在第一种情况下，从目标域的一些标记的场景是可访问的，我们调查微调已经训练的对象检测器与这些几个镜头的例子。如表4所示，仅使用目标域的10个标记场景（五轮实验的平均值），我们已经可以将AP 3D提高20以上。4%的平均适应KITTI到其他数据集和24。平均4%，当其他数据集适应KITTI时。图6进一步显示了通过对不同数量的场景进行微调仅用20个标记的目标场景，Lyft和Waymo的自适应检测器就可以与在目标域中用500个场景从头开始训练的检测器相提并论。统计归一化（SN）。对于目标统计量（即，平均高度，宽度和长度的汽车）是可访问的，我们调查修改1172060402000 100 200 300 400 500数量的样本图6：KITTI验证集上的几次微调性能，模型在Argoverse，nuScenes，Lyft和Waymo数据集上进行了预训练。x轴表示有多少KITTI训练图像用于微调。y轴标记AP3D（中度病例）。Scratch表示在具有随机初始化权重的采样KITTI训练图像上训练的模型。已经训练的对象检测器，以便其预测的框大小可以更好地匹配目标统计。我们提出了一个名为统计标准化的数据修改方案，通过调整源域数据，如图7所示。具体来说，我们计算目标域（TD）和源域（SD）之间的平均汽车大小之差，=（其中h、w、l代表高度、宽度和长度，在Argoverse上训练在nuScenes上在Lyft上接受培训在Waymo上接受培训从零开始中度病例的AP3D11721图7：统计标准化（SN）。我们在源域的训练场景中缩小（或放大）边界框大小（在输出空间中）和相应的点云（在输入空间中），以匹配目标域的平均统计。我们用这些修改过的源场景来微调探测器2004年。然后，我们修改点云和源域中的标签。对于汽车的每个注释边界框，我们通过添加（boundaryh，boundaryw，boundaryl）来调整其大小。我们还裁剪原始框内的点，放大或缩小它们的坐标以适应相应调整的边界框大小，并将它们粘贴回场景的点云。通过这样做，我们生成新的点云和标签，其汽车大小与目标域数据非常相似。然后，我们使用这些数据在源域上微调已经训练好的模型。令人惊讶的是，使用这种不需要标记的目标域数据的简单方法，在KITTI和明显包含不同风格的汽车的其他数据集之间的性能显著提高（参见表4）（即，一个在德国，另一个在美国）。图4和图8进一步分析了统计归一化前后的预测。我们看到直方图（预测框）从源域到目标域的明显偏移。输出转换（OT）。我们研究了一种更简单的方法，通过直接调整检测器如表4所示，这

下载后可阅读完整内容，剩余1页未读，立即下载