深度多模态传感器融合在恶劣天气中实现目标检测

77 浏览量更新于2023-10-25 收藏 22.49MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1116820在未见恶劣天气中看穿雾：深度多模态传感器融合0Mario Bijelic 1 , 3 Tobias Gruber 1 , 3 Fahim Mannan 2 Florian Kraus 1 , 3 Werner Ritter 1 Klaus Dietmayer 3 Felix Heide 2 , 401 Mercedes-Benz AG 2 Algolux 3 Ulm University 4 Princeton University0摘要0多模态传感器流的融合，如相机、激光雷达和雷达测量，对于自动驾驶车辆的目标检测起着至关重要的作用，这些车辆基于这些输入进行决策。虽然现有方法在良好的环境条件下利用冗余信息，但在恶劣的天气条件下失败，其中传感器流可能会发生不对称失真。这些罕见的“边缘情况”场景在现有数据集中没有得到很好的代表，现有的融合架构也没有设计用于处理它们。为了解决这个挑战，我们提出了一个在北欧行驶超过10,000公里的新颖多模态数据集。尽管这个数据集是第一个在恶劣天气下的大型多模态数据集，具有激光雷达、相机、雷达和门控近红外传感器的10万个标签，但它并不能用于训练，因为极端天气是罕见的。为此，我们提出了一个用于在没有覆盖所有不对称失真的大量标记训练数据的情况下进行稳健融合的深度融合网络。我们提出了一个自适应融合特征的单次模型，该模型由测量熵驱动。我们在我们广泛的验证数据集上验证了所提出的方法在干净数据上的训练结果。代码和数据可以在这里找到：https://github.com/princeton-computational-imaging/SeeingThroughFog。01. 引言0目标检测是自动驾驶车辆和自主无人机等自主机器人中的基本计算机视觉问题。这些应用需要在具有挑战性的真实场景中，包括复杂的杂乱场景、高度变化的照明和恶劣的天气条件下，对场景对象进行2D或3D边界框的检测。最有前景的自动驾驶车辆系统依赖于来自多个传感器模态的冗余输入[59, 6,74]，包括相机、激光雷达、雷达和新兴传感器（如FIR）[30]。使用卷积神经网络进行目标检测的大量工作使得从这种多模态数据中准确估计2D和3D边界框成为可能，通常依赖于相机和激光雷达数据[65, 11, 57, 72, 67, 43, 36]。0仅图像检测0仅使用激光雷达的检测0提出的融合架构0图1：现有的目标检测方法，包括高效的单次检测器（SSD）[41]，是在偏向良好天气条件的汽车数据集上进行训练的。虽然这些方法在良好条件下表现良好[19,59]，但在罕见的天气事件中失败（顶部）。仅使用激光雷达的检测器，例如在投影激光雷达深度上训练的相同SSD模型，可能由于雾或雪中的严重回波而失真（中部）。这些不对称的失真对于依赖冗余信息的融合方法构成了挑战。所提出的方法（底部）学习处理多模态数据中未见过的（潜在的不对称的）失真，而不需要看到这些罕见场景的训练数据。0尽管这些现有方法和执行决策的自主系统在正常成像条件下表现良好，但在恶劣天气和成像条件下却失败。这是因为现有的训练数据集偏向于良好的天气条件，并且检测器架构仅设计依赖于未失真的传感器流中的冗余信息。然而，它们并没有设计用于处理不对称地扭曲传感器流的严峻场景，参见图1。极端天气条件在统计上是罕见的。例如，浓雾只在0.01%的时间内可观察到。116830在北美，即使在雾区，能见度低于50米的浓雾每年也只会发生15次左右[62]。图2显示了在瑞典的四个星期内采集的真实驾驶数据的分布，涵盖了在冬季条件下行驶的10,000公里。这种自然偏倚的分布验证了恶劣天气场景在现有数据集中只是很少或甚至根本没有被表示出来[66,19,59]。不幸的是，域自适应方法[45,29,42]也不能提供即时解决方案，因为它们需要目标样本，而恶劣天气扭曲数据在一般情况下是代表性不足的。此外，现有方法仅限于图像数据，而不包括多传感器数据，例如激光雷达点云数据。0现有的融合方法主要是针对激光雷达-摄像头配置提出的[65,11,43,36,12]，这是由于现有训练数据集中传感器输入有限的结果[66,19,59]。这些方法不仅在恶劣天气中的传感器失真方面存在困难，还因为训练数据的偏见。它们要么通过在独立处理各个传感器流之后进行滤波来进行后期融合[12]，要么融合提议[36]或高级特征向量[65]。这些方法的网络架构是根据数据流一致且冗余的假设设计的，即在一个传感器流中出现的物体也会在另一个传感器流中出现。然而，在恶劣的天气条件下，如雾、雨、雪或极端光照条件，包括低光或低反射物体，多模态传感器配置可能会发生不对称的故障。例如，传统的RGB摄像头在低光场景区域提供不可靠的噪声测量，而扫描式激光雷达传感器使用主动照明提供可靠的深度。在雨和雪中，小颗粒通过反射影响彩色图像和激光雷达深度估计。相反，在雾天或雪天，现有技术的脉冲激光雷达系统由于反射而受到20米以下范围的限制，参见图3。虽然依赖激光雷达测量可能是夜间驾驶的解决方案，但对于恶劣的天气条件来说却不是。0在这项工作中，我们提出了一种用于恶劣天气中目标检测的多模态融合方法，包括雾、雪和恶劣的雨天，而无需为这些场景准备大量的标注训练数据。具体而言，我们通过离开现有的提议级别融合方法来处理摄像头、激光雷达、雷达和门控近红外传感器流中的非对称测量损坏：我们提出了一种自适应的单次深度融合架构，它在交织的特征提取器块中交换特征。这种深度早期融合是由测量熵驱动的。所提出的自适应融合使我们能够学习能够泛化到各种场景的模型。为了验证我们的方法，我们通过在北欧进行为期三个月的数据采集来解决现有数据集中的偏见问题。这个数据集是第一个大规模的多模态驾驶数据集，包括激光雷达、摄像头、雷达、门控近红外传感器和远红外传感器的100k个标签。尽管天气偏见仍然限制了训练，但这些数据使我们能够验证所提出的方法在训练时使用干净数据的情况下，对未见过的天气条件和非对称传感器损坏具有鲁棒的泛化能力。具体而言，我们做出了以下贡献：0在恶劣天气中的数据集中，我们获得了100k个标签，用于激光雷达、摄像头、雷达、门控近红外传感器和远红外传感器。尽管天气偏见仍然限制了训练，但这些数据使我们能够验证所提出的方法在训练时使用干净数据的情况下，对未见过的天气条件和非对称传感器损坏具有鲁棒的泛化能力。具体而言，我们做出了以下贡献：0•我们引入了一个多模态的恶劣天气数据集，包括摄像头、激光雷达、雷达、门控近红外和远红外传感器数据。该数据集包含了罕见的场景，如大雾、大雪和暴雨，在北欧行驶超过10,000公里。 •我们提出了一种深度多模态融合网络，它不同于基于提议级别的融合，而是根据测量熵自适应融合。 •我们在提出的数据集上评估了模型，验证了它在未见过的非对称扭曲情况下的泛化能力。该方法在包括轻雾、浓雾、雪和晴天在内的恶劣情况下，无论天气如何，比现有的融合方法提高了8%以上的平均精度，并且运行速度快。02. 相关工作0恶劣天气条件下的检测在过去的十年中，关于汽车数据集[5, 14, 19, 16, 66,9]的重要工作为汽车目标检测[11, 8, 65, 36, 41,20]、深度估计[18, 40,21]、车道检测[27]、交通灯检测[33]、道路场景分割[5,2]和端到端驾驶模型[4,66]提供了丰富的研究基础。尽管现有的数据集推动了这个研究领域，但由于地理位置[66]和采集季节[19]的限制，它们对良好天气条件有偏见，因此缺乏罕见的雾、严重的雪和雨引入的严重失真。最近的一些工作在这种恶劣条件下探索了仅使用摄像头的方法[52, 7,1]。然而，这些数据集非常小，只有不到100张图像[52]，并且仅限于摄像头视觉任务。相反，现有的自动驾驶应用依赖于多模态传感器堆栈，包括摄像头、雷达、激光雷达和新兴传感器，如门控近红外成像[22,23]，并且必须在数千小时的驾驶中进行评估。在这项工作中，我们填补了这一空白，并引入了一个大规模的评估集，以开发一个对未见失真具有鲁棒性的多模态输入融合模型。0恶劣天气下的数据预处理大量的工作探索了在处理之前去除传感器失真的方法。特别是对传统强度图像数据的雾和霾去除已经得到了广泛的研究[68, 71, 34, 54, 37, 7, 38,47]。雾会导致对比度和颜色的距离相关损失。雾去除方法不仅被建议用于显示DATASETKITTI [19]BDD [69]Waymo [59]NuScenes [6]OursSENSOR SETUPRGB CAMERAS21562RGB RESOLUTION1242×3721280×7201920×10801600x9001920x1024LIDAR SENSORS1✗512LIDAR RESOLUTION640643264RADAR SENSOR✗✗✗41GATED CAMERA✗✗✗✗1FIR CAMERA✗✗✗✗1FRAME RATE10 Hz30 Hz10 Hz1 Hz/10 Hz10 HzDATASET STATISTICSLABELED FRAMES15K100k198k40K13.5KLABELS80k1.47M7.87M1.4M100KSCENE TAGS✗✓✗✓✓NIGHT TIME✗✓✓✓✓LIGHT WEATHER✗✓✗✓✓HEAVY WEATHER✗✗✗✗✓FOG CHAMBER✗✗✗✗✓116840应用[25]，它也被提出作为预处理来提高下游语义任务的性能[52]。现有的雾霾去除方法依赖于潜在清晰图像和深度的场景先验来解决不适定恢复问题。这些先验要么是手工制作的[25]，分别用于深度和透射率估计，要么作为可训练的端到端模型的一部分进行联合学习[38, 32,73]。现有的雾霾和能见度估计方法[58,60]已经被提出用于摄像头驾驶辅助系统。图像恢复方法也已应用于去雨[10]或去模糊[37]。0领域自适应另一条研究线致力于通过领域自适应来处理未标记数据分布的转变[61, 29, 51, 28, 70,63]。这些方法可以应用于将清晰标记的场景适应到苛刻的恶劣天气场景[29]，或通过特征表示的适应来实现[61]。不幸的是，这两种方法都难以推广，因为与现有的领域转移方法相比，天气失真数据普遍不足，不仅仅是标记数据。此外，现有的方法不能处理多模态数据。0多传感器融合自动驾驶车辆中的多传感器通常被融合以利用测量中的不同线索[44]，简化路径规划[15]，在存在失真时提供冗余[48]，或解决联合视觉任务，如3D物体检测[65]。现有的完全自动驾驶感知系统包括激光雷达、摄像头和雷达传感器。由于大型汽车数据集[66, 19,59]仅涵盖有限的感知输入，现有的融合方法主要针对激光雷达-摄像头设置[65, 56, 11, 36, 43]进行了提出。AVOD[36]和MV3D[11]等方法结合了摄像头和激光雷达的多个视图来检测物体。它们依赖于感兴趣区域的融合池化，并且遵循流行的区域提议架构[50]进行后期特征融合。在另一条研究线上，Qi等人[49]和Xu等人[65]提出了一个需要从摄像头图像中获得有效检测输出和从激光雷达点云中提取的3D特征向量的流水线模型。Kim等人[35]提出了一种用于摄像头-激光雷达融合的门控机制。在所有现有的方法中，传感器流在特征提取阶段被单独处理，我们表明这样做会阻止学习冗余，并且在存在非对称测量失真的情况下表现比单一传感器流更差。03. 多模态恶劣天气数据集0为了评估恶劣天气下的目标检测，我们收集了一个大规模的汽车数据集，提供了多模态数据的2D和3D检测边界框，并对罕见的恶劣天气情况进行了天气、照明和场景类型的精细分类。表1比较了我们的0表1：所提出的多模态恶劣天气数据集与现有汽车检测数据集的比较。0与最近的大规模汽车数据集（如Waymo [59]，NuScenes[6]，KITTI [19]和BDD[69]数据集）相比，我们的数据集不仅包含了光线良好的天气条件下的实验数据，还包含了大雪、雨和雾等恶劣天气条件下的数据。关于注释过程和标签规范的详细描述请参见补充材料。通过对多模态传感器数据进行跨天气的注释和广泛的地理采样，我们的数据集是目前唯一一个允许评估我们的多模态融合方法的现有数据集。未来，我们预计研究人员将在现有数据集中未涵盖的天气条件下开发和评估多模态融合方法。在图2中，我们绘制了所提出数据集的天气分布情况。统计数据是通过以0.1Hz的帧率手动注释所有同步帧获得的。当能见度低于1 km[46]和100m时，我们指导人工标注员区分轻雾和浓雾。如果雾与降水同时发生，根据环境道路条件，场景要么被标记为下雪的，要么被标记为下雨的。对于我们的实验，我们将雪和雨的条件合并在一起。请注意，统计数据验证了恶劣天气场景的罕见性，这与[62]一致，并展示了在评估真正的自动驾驶车辆时获取此类数据的困难和关键性质，即在地理围栏区域之外没有远程操作员的情况下。我们发现极端恶劣天气条件只在局部地区发生，并且变化非常快。各种天气条件导致各种传感器技术的非对称扰动，导致非对称退化，即在环境恶化的条件下，并非所有传感器输出都受到均匀影响，一些传感器的退化程度更大，参见图3。例如，传统的被动摄像头在白天条件下表现良好，但在夜间条件或低光照环境（如低太阳照射）下性能下降。与此同时，激光雷达和雷达等主动扫描传感器由于主动照明和窄带通01,000,00010,06021,80022,200375,000116850晴朗0浓雾0轻雾0雨0雪0500k01百万0天气分布0地理采样车辆设置0数量[#帧]0图2：右：数据采集活动的地理覆盖范围，覆盖了德国、瑞典、丹麦和芬兰的两个月和1万公里。左上：顶部安装的激光雷达、带闪光照明的门控摄像头、RGB摄像头、专有雷达、FIR摄像头、气象站和道路摩擦传感器的测试车辆设置。左下：数据采集过程中各种天气条件的分布情况。驾驶数据在天气条件方面高度不平衡，只包含罕见的恶劣条件样本。0图3：在密集雾室中，RGB相机、扫描激光雷达、闸门相机和雷达的多模态传感器响应。第一行显示了在晴朗条件下的参考录像，第二行显示了在能见度为23米的雾中的录像。0在探测器方面，被动激光雷达传感器受到雾、雪或雨等散射介质的严重影响，使得在雾密度低于50米时，最大可感知距离限制在25米以内，参见图3。毫米波雷达波在雾中不会产生强烈的散射[24]，但目前只能提供较低的方位分辨率。最近的闸门图像在恶劣天气中显示出强大的感知能力[23]，提供高空间分辨率，但与标准成像器相比，缺乏颜色信息。利用每个传感器的这些特定弱点和优势，多模态数据对于稳健的检测方法至关重要。03.1. 多模态传感器设置0为了采集数据，我们配备了一辆测试车辆，装备了覆盖可见光、毫米波、近红外和远红外波段的传感器，参见图2。我们测量强度、深度和天气条件。0立体相机作为可见光RGB相机，我们使用一对前置高动态范围汽车RCCB相机，由两个On-SemiAR0230成像器组成，分辨率为1920×1024，基线为20.3厘米，量化为12位。相机以30Hz的速度运行，并进行立体成像的同步。使用焦距为8毫米的LensagonB5M8018C光学系统，获得39.6°×21.7°的视场。0闸门相机我们使用BrightwayVision BrightEye相机在808nm的近红外波段捕捉闸门图像，相机以120Hz的速度运行，分辨率为1280×720，位深度为10位。该相机与立体相机具有类似的视场，为31.1°×17.8°。闸门成像依赖于时间同步的相机和泛光闪光激光源[31]。激光脉冲发射可调的窄脉冲，相机捕捉可调的激光回波。116860延迟。这样可以显著减少恶劣天气中颗粒物的回波[3]。此外，高速成像器可以捕捉多个重叠的切片，每个切片具有不同的距离-强度特性，可以提取多个切片之间的深度信息[23]。根据[23]，我们以10Hz的系统采样率捕捉3个宽切片用于深度估计，另外还有3-4个窄切片及其被动对应关系。0雷达对于雷达感知，我们使用一款77GHz的专有调频连续波（FMCW）雷达，角分辨率为1°，测距范围高达200米。该雷达以15Hz的速度提供位置-速度检测。0激光雷达我们在车顶上安装了两个来自Velodyne的激光扫描仪，分别是HDL64 S3D和VLP32C。两者都在903nm的波长下工作，可以以10Hz的频率提供双重返回（最强和最后）。Velodyne HDL64S3D提供均匀分布的64条扫描线，角分辨率为0.4°，而Velodyne VLP32C则提供32条非线性分布的扫描线。HDL64S3D和VLP32C扫描仪的测距范围分别为100米和120米。0远红外相机我们使用Axis Q1922 FIR相机以30Hz的速度捕捉热像。该相机具有640×480的分辨率，像素间距为17微米，噪声等效温差（NETD）小于100 mK。0环境传感器我们使用AirmarWX150天气站测量环境信息，该天气站提供温度、风速和湿度以及专有的道路摩擦传感器。所有传感器都经过时间同步和自运动校正，使用专有的惯性测量单元（IMU）。系统提供10 Hz的采样率。03.2. 录制0真实世界录制所有实验数据均在2019年2月和12月在德国、瑞典、丹麦和芬兰进行的两次测试驾驶中捕获，每次测试持续两周，总共行驶了10000公里，涵盖了不同的天气和照明条件。我们共采集了1.4百万帧，帧率为10赫兹。每100帧手动标记一次，以平衡场景类型的覆盖范围。得到的注释包含5.5k个晴天帧、1k个浓雾捕捉帧、1k个轻雾捕捉帧和4k个雪/雨捕捉帧。鉴于广泛的采集工作，这表明在恶劣条件下的训练数据是罕见的。我们通过仅在晴朗的数据上进行训练并在恶劣的数据上进行测试来解决这个问题。训练和测试区域没有任何地理重叠。我们根据不同位置的独立录制（长度为5-60分钟）来划分数据集，而不是根据帧来划分。这些录制来自于图2中所示的18个不同的主要城市和沿途的几个较小城市。0受控条件录制为了在受控条件下收集图像和距离数据，我们还提供了在雾室中获取的测量数据。雾室设置的详细信息可以在[17,13]中找到。我们以10赫兹的帧率捕获了35k帧，并在两种不同的照明条件（白天/夜晚）和三种雾密度（气象能见度V为30m、40m和50m）下对其中的1.5k帧进行了标记。详细信息请参见补充材料，我们还将其与使用[52]中的前向模型进行模拟数据集的比较。04. 自适应深度融合0在本节中，我们描述了所提出的自适应深度融合架构，该架构允许在存在未知的非对称传感器失真的情况下进行多模态融合。我们根据自动驾驶车辆和自主无人机所需的实时处理约束设计了我们的架构。具体而言，我们提出了一种高效的单次融合架构。04.1. 自适应多模态单次融合0所提出的网络架构如图4所示。它由多个单次检测分支组成，每个分支分析一种传感器模态。0数据表示相机分支使用传统的三平面RGB输入，而对于激光雷达和雷达分支，我们不采用最近的鸟瞰（BeV）投影[36]方案或原始点云表示[65]。BeV投影或点云输入不允许进行深度早期融合，因为早期层中的特征表示与相机特征本质上不同。因此，现有的BeV融合方法只能在匹配区域提案之后，在抬升空间中融合特征，而不能更早地进行融合。图4可视化了所提出的输入数据编码，有助于深度多模态融合。我们提供深度、高度和脉冲强度作为激光雷达网络的输入，而对于雷达网络，我们假设雷达在与图像平面正交且与水平图像维度平行的二维平面上进行扫描。因此，我们认为雷达在垂直图像轴上是不变的，并沿垂直轴复制扫描。使用单应性映射将门控图像转换为RGB相机的图像平面，详见补充材料。所提出的输入编码允许在不同流之间进行位置和强度相关的融合，并具有像素级的对应关系。我们使用零值对缺失的测量样本进行编码。0特征提取作为每个流中的特征提取堆栈，我们使用了修改后的VGG[55]骨干网络。与[36,11]类似，我们将通道数减半，并在conv4层截断网络。受[41,39]的启发，我们使用从conv4-10的六个特征层作为SSD检测的输入*ρ =pmnilog (pmni),withδ (I(m + j, n + k) − i) .(1)1We use a feature map pyramid [(24, 78), (24, 78), (12, 39), (12, 39), (6, 20), (3, 10)]116870深度特征交换熵交换0SSD边界框块 SSD特征块0特征0熵0连接0逐点乘积0连接0图4：我们架构的概述，包括四个单次检测器分支，具有深度特征交换和自适应融合的激光雷达、RGB相机、门控相机和雷达。所有传感器数据都根据第4.1节的要求投影到相机坐标系中。为了在传感器之间引导融合，模型依赖传感器熵，该熵提供给每个特征交换块（红色）。深度特征交换块（白色）与并行特征提取块交换信息（蓝色）。融合的特征图由SSD块（橙色）分析。0层。特征图的大小减小1，实现了不同尺度的检测的特征金字塔。如图4所示，不同特征提取堆栈的激活被交换。为了将融合引导到最可靠的信息，我们为每个特征交换块提供传感器熵。我们首先卷积熵，应用sigmoid函数，与来自所有传感器的连接输入特征相乘，最后连接输入熵。熵的折叠和sigmoid的应用在区间[0,1]生成一个乘法矩阵。这基于可用信息为每个传感器单独缩放连接特征。低熵区域可以被衰减，而熵丰富区域可以在特征提取中被放大。通过这样做，我们可以在特征提取堆栈本身中自适应地融合特征，我们在下一节中详细阐述了这一点。04.2. 熵引导融合0为了将深度融合引导到冗余和可靠的信息，我们在每个传感器流中引入了一个熵通道，而不是像[58,60]中直接推断不良天气类型和强度。我们估计局部测量熵0w,h是0255是0p mn i = 10M,N0在提出的图像空间中，对每个8位二值化流I进行熵计算，像素值i属于[0, 255]0数据表示。每个流被分成大小为M × N = 16像素 ×16像素的块，得到大小为w × h = 1920像素 ×1024像素的熵图。图5展示了两种不同场景的多模态熵图：左侧场景显示了一个在受控雾室中包含车辆、骑车者和行人的场景。被动RGB相机和激光雷达在雾能见度降低时受到回波和衰减的影响，而门控相机通过门控抑制回波。雷达测量在雾中也没有明显的退化。图5右侧的场景显示了一个静态的户外场景，环境光照变化。在这种情况下，主动激光雷达和雷达不受环境光照变化的影响。对于门控相机，环境光照消失，只剩下主动照明区域，而被动RGB相机随着环境光的减少而退化。学习过程纯粹是在干净的天气数据上进行的，这些数据包含了从白天到夜晚不同照明设置的情况。在训练过程中没有呈现真实的不良天气模式。此外，我们以0.5的概率随机丢弃传感器流，并将熵设置为常数零值。04.3. 损失函数和训练细节0不同特征层中锚框的数量和大小在训练过程中起着重要作用，详细信息请参见补充材料。总之，使用交叉熵损失和softmax对每个具有类别标签yi和概率pi的锚框进行训练。0H(p) = -0i(yi log(pi) + (1 - yi) log(1 - pi))（2）0.5117:2117:2218:1718:3318:5419:0319:1000.51116880投影熵：门控图像激光雷达雷达0投影测量：门控图像激光雷达雷达020 m030 m040 m050 m0∙ ∙ ∙0∙ ∙ ∙0∞ m0雾能见度 m0归一化熵[%]0归一化熵[%]0时间 h0图5：在不同雾度（左）和不同光照条件（右）下，相对于清晰参考录音的归一化熵。熵是基于一个在受控雾室中的动态场景（图3左）和一个具有不同自然光照设置的静态场景计算的。根据公式（1）计算了定量数值。请注意，不同传感器技术存在不对称的传感器故障。定性结果如下，并通过箭头连接到相应的雾密度/白天时间。0损失被分为正锚框和负锚框，匹配阈值为0.5。对于每个正锚框，使用Huber损失H(x)进行边界框坐标x的回归，给定如下：0H(x) =-x^2/2，如果|x|<1；|x|-0.5，如果|x|>1（3）0负锚框的总数限制为正例的5倍，使用困难样本挖掘[41,53]。所有网络都使用恒定的学习率和L2权重衰减0.0005从头开始训练。05. 评估0在本节中，我们在未见过的实验测试数据上验证了所提出的融合模型。我们将该方法与单一感知输入和融合方法以及领域自适应方法进行比较。由于训练数据采集的天气偏差，我们只使用所提出数据集的晴天部分进行训练。我们使用我们的新型多模态天气数据集作为测试集来评估检测性能，详见补充数据中的测试和训练划分详情。0我们在表2中验证了所提出的方法0我们在真实的恶劣天气数据上验证了深度熵融合。我们根据KITTI评估框架[19]在不同雾密度、雪干扰和晴天条件下报告了三个不同难度级别（简单、中等、困难）的平均精度（AP）。我们将所提出的模型与最新的激光雷达-摄像头融合模型进行比较，包括AVOD-FPN[36]、FrustumPointNets[49]以及提出方法的变体，其中包括替代融合或感知输入的方法。作为基准变体，我们实现了两种融合和四种单一传感器检测器。特别地，我们将图像、激光雷达、门控和雷达特征在边界框回归之前进行融合（FusionSSD）进行了后期融合，通过在一个特征提取堆栈的早期开始处将所有感知数据进行串联（ConcatSSD）进行了早期融合。FusionSSD网络与所提出的模型具有相同的结构，但没有特征交换和自适应融合层。此外，我们将所提出的模型与具有单一感知输入的相同SSD分支进行比较（仅图像SSD、仅门控SSD、仅激光雷达SSD、仅雷达SSD）。所有模型都使用相同的超参数和锚点进行训练。在恶劣天气场景下进行评估，检测性能DEEP ENTROPY FUSION (THIS WORK)89.8485.5779.4690.5487.9984.9087.6881.4976.6988.9983.7177.85DEEP FUSION (THIS WORK)90.0780.3177.8290.6081.0879.6386.7777.2873.9389.2579.0970.51FUSION SSD87.7378.0269.4988.3378.6576.5474.0768.4663.2385.4975.2867.48CONCAT. SSD86.1276.6268.6187.9878.2470.1777.9969.1667.0783.6373.6566.26ADDA [61]185.2770.5167.8687.8378.6870.3887.6478.1274.3784.1774.2566.86CYCADA [29]188.5077.8469.5689.0879.3675.5887.2477.0473.3885.5674.8067.22IMAGE-ONLY SSD85.4375.7567.7987.7678.5270.4387.8978.2574.9684.3374.3867.01GATED-ONLY SSD77.1061.9558.2780.6569.6461.7575.1666.7661.6877.3261.3157.23LIDAR-ONLY SSD73.4657.3254.6268.4354.8251.9128.9825.2424.5667.5052.2646.83RADAR-ONLY SSD10.268.548.2316.9213.2412.6616.3313.5713.0012.9410.9510.40AVOD-FPN [36]66.4758.7151.6360.4052.5151.9233.9526.2926.1759.5551.9150.54FRUSTUM POINTNET [49]80.0675.8967.7084.0676.8875.4476.6973.6268.4978.3474.3466.52116890天气：晴天、轻雾、浓雾、雪/雨难度：简单、中等、困难0表2：根据[19]将真实的未见天气影响数据从数据集分割成天气和难度易/中/难进行定量检测AP。除了领域自适应方法外，所有检测模型都是仅在无天气扭曲的干净数据上进行训练的。最佳模型以粗体显示。0所有方法的性能都有所下降。请注意，评估指标可以同时增加，因为场景复杂性在不同的天气分割之间发生变化。例如，当道路交通中参与的车辆较少或者在冰雪条件下车辆之间的距离增加时，被遮挡的车辆较少。尽管图像和门控数据的性能几乎保持稳定，但激光雷达数据的性能大幅下降，而雷达数据的性能增加。激光雷达性能下降可以通过强回波来描述，详见补充材料。由于雷达输入的最大测量目标限制了性能，报告的改进是由于场景更简单。总体而言，浓雾条件下激光雷达性能的大幅降低导致激光雷达单独检测率下降了45.38％的AP。此外，它还对相机-激光雷达融合模型AVOD、Concat SSD和FusionSSD产生了很大影响。学习到的冗余不再适用，这些方法甚至低于仅图像的方法。两阶段方法，如Frustum PointNet[49]，下降得很快。然而，它们渐近地实现了比AVOD更高的结果，因为第一阶段学习到的统计先验是基于仅图像的SSD，限制了其性能到图像域先验。AVOD受到几个假设的限制，这些假设适用于晴天，例如在训练期间对填充有激光雷达数据的框进行重要性采样，从而在整体融合性能方面达到最低。此外，随着雾密度的增加，所提出的自适应融合模型在所有其他方法上表现出色。特别是在严重扭曲的情况下，所提出的自适应融合层相对于没有它的模型（DeepFusion）具有显著的优势。总体而言，所提出的方法优于所有基准方法。在浓雾中，与下一个最佳特征融合变体相比，它的性能提高了9.69％。为了完整起见，我们还将所提出的模型与最近的领域自适应方法进行了比较。首先，我们根据[61]将我们的仅图像SSD特征从晴天适应到恶劣天气。其次，我们研究了从晴天输入生成恶劣天气训练样本的样式迁移方法。请注意，这些方法相对于所有其他比较方法具有不公平的优势，因为它们已经看到了从我们的验证集中采样的恶劣天气场景。请注意，领域自适应方法不能直接应用，因为它们需要来自特定领域的目标图像。因此，它们也无法解决数据有限的稀有边缘情况。此外，[29]没有建模包括雾或雪在内的扭曲，详见补充材料中的实验。我们注意到，根据[52]进行的合成数据增强或去除恶劣天气效果的图像到图像重建方法对所提出的多模态深度熵融合的报告边际没有影响。01 需要大量的恶劣天气数据进行训练。0从晴天到恶劣天气的转换利用[29]进行域适应，并从晴天输入生成恶劣天气训练样本。请注意，这些方法对于所有其他比较方法具有不公平的优势，因为它们已经看到了从我们的验证集中采样的恶劣天气场景。请注意，领域自适应方法不能直接应用，因为它们需要来自特定领域的目标图像。因此，它们也无法解决数据有限的稀有边缘情况。此外，[29]没有建模包括雾或雪在内的扭曲，详见补充材料中的实验。我们注意到，根据[52]进行的合成数据增强或去除恶劣天气效果的图像到图像重建方法对所提出的多模态深度熵融合的报告边际没有影响。06. 结论与未来工作0在本文中，我们解决了自动驾驶中的一个关键问题：在注释数据稀缺且由于自然天气偏差难以获得的情况下的多传感器融合。为了评估在恶劣天气条件下的多模态融合，我们引入了一个新颖的恶劣天气数据集，涵盖了相机、激光雷达、雷达、门控近红外和远红外传感器数据。该数据集包含了稀有的场景，如浓雾、大雪和暴雨，在北欧行驶了超过10,000公里。我们提出了一个实时的深度多模态融合网络，它不同于提案级融合，而是通过测量熵自适应融合。未来研究的激动人心的方向包括开发端到端模型，实现故障检测和自适应传感器控制，如激光雷达传感器的噪声水平或功率水平控制。0致谢0作者们要感谢欧盟在DENSE项目中的资助，合同号为692449，并感谢Jason Taylor的有益讨论。116900参考文献0[1] C. O. Ancuti, C. Ancuti, R. Timofte, and C. D.Vleeschouwer. O-haze:一个具有真实有雾和无雾户外图像的去雾基准。IEEE计算机视觉和模式识别会议论文集，第867-8678页，2018年。 20[2] V. Badrinarayanan, A. Kendall, and R. Cipolla. Segnet:用于图像分割的深度卷积编码器-解码器架构。IEEE模式分析与机器智能交易，39(12):2481-2495，2017年12月。 20[3] M. Bijelic, T. Gruber, and W. Ritter.在自动驾驶中针对恶劣天气条件对图像传感器进行基准测试。在2018年IEEE智能车辆研讨会(IV)上，第1773-1779页，2018年。 50[4] M. Bojarski, D. Del Testa, D. Dworakowski, B. Firner, B.Flepp, P. Goyal, L. D. Jackel, M. Monfort, U. Muller, J.Zhang等。用于自动驾驶汽车的端到端学习。arXiv预印本arXiv:1604.07316，2016年。 20[5] G. J. Brostow, J. Shotton, J. Fauqueur, and R. Cipolla.利用运动点云的结构进行分割和识别。在IEEE欧洲计算机视觉大会论文集上，第44-57页。Springer，2008年。 20[6] H. Caesar, V. Bankiti, A. H. Lang, S. Vora, V. E. Liong, Q.Xu, A. Krishnan, Y. Pan, G. Baldan, and O. Beijbom. nuscenes:用于自动驾驶的多模态数据集。arXiv预印本arXiv:1903.11027，2019年。 1 , 30[7] B. Cai, X. Xu, K. Jia, C. Qing, and D. Tao. DehazeNet:用于单幅图像去雾的端到端系统。IEEE图像处理交易，25(11):5187-5198，2016年。 20[8] Z. Cai, Q. Fan, R. S. Feris, and N. Vasconcelos.用于快速目标检测的统一多尺度深度卷积神经网络。在IEEE欧洲计算机视觉大会论文集上，第354-370页。Springer，2016年。 20[9] M. Chang, J. Lambert, P. Sangkloy, J. Singh, S. Bak, A.Hartnett, D. Wang, P. Carr, S. Lucey, D. Ramanan, and J.Hays. Argoverse:具有丰富地图的3D跟踪和预测。在2019年IEEE/CVF计算机视觉和模式识别大会(CVPR)上，第8740-8749页，2019年。 20[10] J. Chen, C.-H. Tan, J. Hou, L.-P. Chau, and H. Li.在CNN框架中用于雨水去除的鲁棒视频内容对齐和补偿。CVPR，2018年。 30[11] X. Chen, H. Ma, J. Wan, B. Li, and T. Xia.用于自动驾驶的多视角3D目标检测网络。在IEEE计算机视觉和模式识别大会上，第1907-1915页，2017年。 1 , 2 , 3 , 50[12] H. Cho, Y.-W. Seo, B. V. Kumar, and R. R. Rajkumar.用于城市驾驶环境中移动物体检测和跟踪的多传感器融合系统。在2014年IEEE国际机器人与自动化大会(ICRA)上，第1836-1843页。IEEE，2014年。 20[13] M. Colomb, J. Dufour, M. Hirech, P. Lacˆote, P. Morange,and J.-J. Boreux.2004年《大气研究》中的创新人工雾制造装置——用于研究活动的技术设施。50[14] M. Cordts, M. O

下载后可阅读完整内容，剩余1页未读，立即下载