鲁棒端到端多模态检测方法MT-DETR及其在恶劣天气下的性能评估

52 浏览量更新于2023-10-16 收藏 2.35MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5252MT-DETR：基于置信度融合的鲁棒端到端多模式检测国立台湾大学r09922115@csie.ntu.edu.tw国立台湾大学mslee@csie.ntu.edu.tw摘要由于自动驾驶的趋势需求，基于摄像头的目标检测最近吸引了大量的关注和成功的发展。然而，有时在户外环境中会发生意想不到的恶劣天气，这使得检测任务变得不那么有效和意想不到。在这种情况下，采用激光雷达和雷达等附加传感器来帮助相机在恶劣天气下工作。然而，现有的多模态检测方法没有考虑到不同车辆传感器的特性来相互补充。因此，提出了一种新的端到端多模式多级目标检测网络MT-DETR。与单模态目标检测网络不同，MT-DETR增加了融合模块和增强模块，并采用了分层融合机制。残差融合模块（RFM）和置信度融合模块（CFM）旨在融合相机，激光雷达，雷达和时间特征。剩余增强模块（REM）加强了每个单峰分支，同时引入多级损失来加强每个分支的有效性。用于在雾条件下生成相机-激光雷达数据对的合成算法进一步提高了在不可见的不利天气下的性能。在STF数据集的各种天气条件下进行的大量实验表明，MT-DETR优于最先进的方法。实验中通过替换特征提取器，验证了MT-DETR的通用性。代码和预训练模型可在https://github.com/Chushihyun/MT-DETR 上获得。1. 介绍在计算机视觉领域，目标检测是一项经典而有价值的任务[33，6]。它的目的是发现和分类图像中的对象的边界框，它可以应用于各种场景。如今，更准确，更快，更轻的方法仍在提出[7，45]。随着汽车技术的发展，目标检测模型在道路[11、5、3、39]。安全是开车时最重要的事情。对于驾驶员来说，夜间或大雨中能见度差，大大增加了驾驶的风险在这样的条件下，摄像头的可见性是有限的，因此基于摄像头的检测模型不能很好地辅助驾驶员。幸运的是，使用多个传感器可以弥补相机的缺点。在本文中，不仅是一个RGB相机，但激光雷达，雷达和时间信息作为模型的输入。如图1所示，借助激光雷达和雷达丰富的深度信息，获得更准确、更稳健的预测，从而预防道路上的潜在危险，保障安全。(a) 只考虑相机。(b) 激光雷达的数据太稀疏了。(c) MT-DETR（拟议）(d) 地面实况图1. 单峰方法和MT-DETR的预测。考虑到数据类型，信息量，以及5253针对传感器的特点，提出了一种端到端的多通道多级目标检测模型MT-DETR，用于解决恶劣天气下的目标检测问题。本文的主要贡献如下：1. 提出了一种新的端到端多模态目标检测模型MT-DETR。它包括融合模块和增强模块，采用分层融合机制。根据各模态的重要性，将RFM、置信度感知的CFM和REM分别设计为融合模块和增强模块。2. 为了确保每个单峰分支的有效性，MT-DETR采用了多级损失函数，在训练过程中增加了稳定性和性能，而不会在推理过程中造成额外的时间。3. 针对雾天（包括白天场景和夜晚场景），考虑眩光效应和大气光随时间的变化，提出了一种相机-激光雷达合成算法。更真实的合成数据使模型在训练阶段更适应不利天气。在STF数据集[3]上进行的大量实验表明，MT-DETR在清晰和不可见的不利天气中都大大如果MT-DETR额外使用所提出的合成雾数据进行训练，则可以实现更高的准确性。2. 相关工作2.1. 目标检测体系结构目标检测是计算机视觉领域的一个热门而又具有挑战性的课题。大多数对象检测框架可以大致分为一阶段和两阶段方法。单级检测器（例如，SSD[24]，RetinaNet[21]， YOLO系列[31，32，4，42]）直接从特征图中快速获取对象的分类和边界框。相反，两级检测器（例如，RCNN系列[14，13，33，16，6，8]）执行区域建议，以提出候选边界框，从而以更高的时间成本获得更好的结果最近，[7]提出了一个基于transformer[40]的端到端检测框架，称为DETR。它将对象检测视为一个集合预测问题，删除了以前的大部分手工设计，成为一个更简单的检测管道。随后的Deformable DETR[45]加速了DETR的收敛并实现了更好的性能。基于这种端到端的框架，我们提出了MT-DETR使用多模态骨干处理来自多个传感器的数据，它是自适应的几乎所有的检测框架。2.2. 多模混合由于单个传感器固有的不足，多模态融合是近年来受到越来越多关注的一项任务。许多以前的作品[41，29，18]已经研究了如何将图像与文本，声音或点云等相结合。与单峰对象检测（图2（a））[33，31，7，45]相比，交叉模态数据可以互补以获得更好的性能。多模态融合是多模态任务中的一个核心而又重要的问题“早期融合”[41]简单地连接多模态输入，而“中间融合”[44，3，27，23，29]通常通过在特征提取阶段融合跨模态数据来表现更好（图2（b））。然而，多模态融合不是一个简单的任务，因为不同的数据类型和属性之间的模态。现有的多模态对象检测方法[44，27，23]成功地提高了晴朗天气下的准确性在本文中，MT-DETR是从“中间融合”扩展而来的，增加了专门设计的模块和辅助损失函数（图2（c））。2.3. 自动驾驶汽车数据集随着自动驾驶技术的快速发展，提出了许多基于摄像头的驾驶数据集[12，11，36]。现在的车辆通常配备有多个传感器（例如，立体摄像机、激光雷达、雷达）进行更准确的检测，以及许多多模式驾驶数据集[5，39，3，2，10，38]。为了安全驾驶，自动驾驶汽车应该能够适应任何天气和时间。尽管如此，大多数驾驶数据集只关注晴朗的天气条件[5，39，10]。STF数据集[3]包括晴朗、轻雾、浓雾和降雪天气，每种天气都有白天和夜晚的场景。由于天气和时间的丰富多样性，它被采用作为本研究的数据集。虽然STF涵盖了各种天气，但不利天气数据（轻雾、浓雾、雪/雨）的数量不足以用于培训。因此，我们只使用晴朗的天气作为训练数据，并在各种天气条件下进行测试。考虑到一般情况下的通用性和有效性，相机，激光雷达，雷达生成的数据和来自STF的时间被认为是输入传感器。其特点如下：• 摄像头一直是物体检测的主要传感器，因为它是最丰富的数据源。但在夜间光线不足能见度不高的情况下，摄像头的作用有限。• 激光雷达也是自动驾驶汽车的重要传感器，因为它提供深度信息并且不受亮度的影响。然而，激光雷达的能见度降低，噪音发生在雨天或雾天。5254图2. 不同目标检测框架的概述。（a）单峰方法输入RGB相机图像。多尺度特征提取后，通过骨干，传递到检测头进行预测。(b)基于中间融合的方法通过每个分支提取多模态特征，然后将它们融合在一起以预测对象。（c）MT-DETR使用融合模块和增强模块以获得更精确的特征，并采用分层融合机制和辅助多级丢失以确保更有效的学习。• 雷达具有良好的鲁棒性，不受恶劣天气的影响，但STF中雷达提供的数据点非常稀疏。有效地使用雷达是具有挑战性的，特别是在一帧中只有几十个深度• 与以前的作品[2，5]不同，我们首次利用时间信息作为模型的输入，我们发现每个传感器的可靠性可能会随着时间的推移而受到影响。时间数据是根据数据集的日/夜注释的二进制值，以便模型可以知道时间信息。由于上述原因，人们认为，集成来自相机、激光雷达、雷达和时间的信息使模型更适应各种天气条件，因为这些传感器包含互补的特性。3. 方法3.1. MT-DETR建议MT-DETR，一种新的多模态多阶段网络的端到端的目标检测，需要多个传感器同时融合功能。与可变形DETR[45]相同， MT-DETR采用Transformer[40]作为探测头。通过充分利用每个传感器，MT-DETR在夜间和不可见的天气中获得稳健的检测结果。STF数据集[3]证明MT-DETR优于单峰和最先进的方法。3.1.1框架概述MT-DETR的主干输入是来自不同传感器的图像数据，输出是多模态融合后的多尺度特征。图3显示了MT-DETR的体系结构，它由四个组件组成：特征提取器、融合模块、增强模块和检测头。 ConvNeXt[25]作为并行单峰分支的特征提取器。融合模块融合由单峰分支提取的特征（第3.2.1节）。增强模块将融合特征与单峰分支相结合以增强单峰特征，然后进行下一尺度的特征提取（第3.2.2节）。最后，从融合模块在每个尺度上获得的融合特征被传递到检测头进行预测。3.1.2分层融合机制同时组合来自所有分支的特征可能会丢失传感器之间的关系和优先级提出了分层融合机制。由于激光雷达和雷达的数据类型相似，因此先将它们融合，可以捕捉到更全面、更准确的深度信息。因此，当混合模态时，我们将激光雷达和雷达融合到深度特征中，将其与相机和时间分支相结合。采用层次化融合机制，使模型能够更清晰地理解知识的深度5255我我我我我图3.MT-DETR的体系结构。3.2. 模块设计3.2.1融合模块F融合=CFM（F相机，F深度，F时间）我我我残差融合模块（RFM）和置信度融合=F相机+（F深度<$σ（Conv1×1（F相机<$F深度<$F时间））），模块（CFM）提出的融合的目的。因为我我示于图4（a）（b），RFM融合了激光雷达的特征我我我（二）和雷达分支来获得深度特征，其中F相机，F激光雷达，F雷达，F时间表示特征负责融合深度特征与相机和时间分支，以获得最终的融合特征。RFM融合了激光雷达和雷达的特点，充分考虑了激光雷达和雷达的信息量。然后通过卷积块降低其维数，增加了激光雷达特征考虑到每个模态的特点，CFM将相机，深度和时间的特征串联起来，以获得卷积块降维后的置信度图。之后，置信度图与深度特征逐元素相乘并添加到相机特征，成为融合特征。第i阶段的深度特征F深度和融合特征F融合可以通过下式计算：F深度=RFM（F激光雷达，F雷达）我我我从每个单峰特征提取器的第i级（i=1，2，3，4）输出，表示特征级联的操作，σ（·）和+表示关于ively的逐元素乘法和加法，σ（·）和Conv1×1（·）表示S形函数和1 ×1卷积块。3.2.2增强模块残差增强模块（REM）的建议，以加强单峰分支。如图在图4（c）中，REM在结构上类似于RFM，但具有更深的卷积层。此外，REM更关注单峰分支的特征。也就是说，它将卷积块的输出与单峰特征相结合以作为增强特征。值得注意的是，相机我我我=F激光雷达+Conv1×1（F激光雷达×F雷达），（一）和时间分支使用融合功能增强，而激光雷达和雷达分支则使用5256我˜˜˜一期+1我···我{|}联系我们我我我我我我图4. 融合模块和增强模块的体系结构。（a）残差融合模块（RFM）将激光雷达和雷达的特征融合为深度特征。（b）置信度融合模块（CFM）融合相机、深度和时间的特征以成为最终的融合特征。(c)残差增强模块（REM）将单峰特征与融合特征融合为改进的单峰特征。深度特征每个单峰分支的增强特征Fm可以通过以下方式获得：m m融合用于计算辅助损失函数。这种多级损失函数确保每个分支都可以提取有用的信息。对于单峰对象检测，损失函数与可变形DETR相同[45]：Fi =REMm（Fi，Fi），对于m∈{camera，time}=Fm+Conv1×1（ Conv3×3（Fm<$F融合）），Fm=REMm（Fm，Fdepth），对于m∈ {lidar，radar}=Fm+Conv1×1（ Conv3×3（Fm<$F深度）），（三）（四）[21]对于分类，l1损失和广义IoU损失[34]边界框回归。这些损失函数是[45]第45话：一个人的幸福然后，我们使用从F融合获得的预测计算融合损失L融合;得到的预测从F相机计算相机损失L相机;以及我我我从F深度获得的预测，以计算深度损失则下一尺度Fm可以提取为：L深度 . L融合是主要损失，而L相机和L深度中国+1中国+1 （F<$m），对于i∈{1，2，3}，（5）我是辅助性的。总损失定义为：其中REMm（，）和FEm（）指示REM模块以及第i级的每个单峰分支的特征提取器。对于m融合、相机、深度，我们最终收集Fm=Fmi=2，3，4并将它们馈送到下面的检测头中以进行进一步预测。3.3. 多级损失函数在融合极不平衡的传感器信息时，融合模块可能仅信任来自相机分支的特征。因此，其余的单峰分支可能没有很好地学习。受[20，6]的启发，最终融合特征和中间阶段特征被送入头部以获得检测结果F=Fe5257Ltotal=λfusionLfusion+λcameraLcamera+λdepthLdepth，（6）其中λfusion、λcamera、λdepth是用于平衡辅助监督的相应权重。3.4. 模糊数据合成在STF数据集中，只有明确的天气数据被认为是训练，所以我们提出了一种合成方法来产生雾数据从这些明确的数据。一对数据包含来自相机、激光雷达、雷达和时间的信息请注意，来自摄影机和激光雷达的数据会受到雾的影响，因此我们尝试在摄影机和激光雷达数据上生成相同密度的雾。5258∗3.4.1相机数据合成基于[19，35]，利用以下合成公式在清晰图像上施加雾。给定清晰图像I、深度图D、大气光A、透射图T，有雾图像I′可以被生成为：T=e−β ×D，′（七）(a) 清晰相机（b）合成雾相机I=T<$I+（1−T）<$A，其中，β是表示雾密度的权重，设置为1.0，+分别表示逐像素乘法和加法。由于STF中没有可用的深度图，因此采用预训练的深度估计模型DPT[30]来预测深度在[19]中，大气光A是从[0]随机采样的数。3，0。7]对于整个框架，但我们引入两个修改。(1)采样间隔随着时间的推移进行调整，以考虑白天和黑夜之间的差异。(2)真实的有雾图像具有明显的眩光效果，因此大气光A通过参考(c)清晰激光雷达（d）合成雾激光雷达图5. 相机和激光雷达上的雾合成结果。（b）使用等式（7）从（a）合成，并且（d）使用[15]提出的方法从（c）合成。表1.STF中每个天气条件的数量。条件相机图像的局部亮度I. 换句话说，氛围光A不是用于整个帧的单个值。改进后的雾合成效果如图所示5（b）。补充材料中提供了合成算法的更多细节和可视化。3.4.2激光雷达数据合成由于激光雷达传感器发出的不可见光穿透能力有限，在恶劣天气下影响了激光雷达的传感能力例如，雾在两个方面影响激光雷达信号。首先，能见度变差，远距离的激光雷达点将消失。第二，噪音会进入空气中。基于激光雷达的点云成像原理，[15]物理上精确模拟了雾对激光雷达的影响，提出了一种清晰激光雷达数据上的我们利用的方法[15]在激光雷达点云上添加雾效果，结果如图5（d）所示。4. 实验4.1. 数据集、数据库和实施细节实验在STF数据集上进行[3]。它提供2D边界框数据，用于在各种天气条件下（包括晴朗、轻雾、浓雾和积雪）检测车辆和行人的物体。所有训练、验证和测试数据包括白天和夜晚场景，以及它们的天气条件和数量如表1所示。平均精度（AP）被用来评估目标检测任务。至于COCO[22]基准，AP75作为评分指标。AP75表示精确率-召回率曲线下的面积，因此它落在0和100（%）之间。分数越高，模型越准确为了公平比较所有型号均采用ConvNeXt[25]作为可变形DETR[45]的特征提取器和检测头，并遵循相同的训练设置和参数。所有模型（除非另有说明）仅在明确的天气数据上进行训练。我们实现了MT-DETR，并使用Pytorch [28]在mmdetection工具箱[9]中重新实现了以前的方法。所有的实验都在一个Nvidia A6000 GPU上进行。AdamW优化器[26]用于训练MT-DETR 36个epoch，批量大小为1。学习率开始在 0.0001，逐层学习率衰减 [1]，权重衰减设置为0.05。λfusion=1。0，λcamera=1。0，且λ深度=0。选择5来平衡多级损失。4.2. 多模式有效性MT-DETR中每种传感器组合的性能如表2所示。实验结果表明，三个传感器的融合优于单个传感器或两个传感器的混合，确保了MT-DETR成功地集成了每个传感器的优点。对于单峰比较，相机的性能优于激光雷达，并且由于信息量而远远超过雷达。STF提供的雷达培训验证测试明确明确明确轻雾浓雾雪天218339910056335722293晚上13434098774193152440总35268081882105288747335259通过对摄像机、摄像机-激光雷达、摄像机-雷达的对比，说明激光雷达和雷达可以辅助摄像机。由于激光雷达有更多的信息，相机激光雷达比相机雷达在晴朗的天气表现更好。然而，由于雷达信号具有更好的穿透性，相机雷达在恶劣天气条件下可以赶上相机激光雷达的性能。摄像机-激光雷达-雷达一体化模型优于上述任何一种模型，这证实了三种传感器的信息可以相互补充，MT-DETR有效地利用了它们的表2. 不同输入对所有STF测试分割的性能。最佳和次佳结果分别以粗体和下划线突出显示。培训数据测试数据清光雾浓雾雪地相机 LiDAR 雷达天晚上天晚上天 night day 晚上✓62.158.9 63.4 59.9 69.6 67.9 63.0 61.1✓27.932.6 19.3 33.6 19.5 16.1 28.2 30.2✓0.8 0.6 0.9 0.4 0.8 0.5 0.8 0.4✓✓64.0 60.764.862.9 69.969.464.5 63.8✓✓63.7 60.166.461.8 70.369.464.5 63.1✓✓✓65.0 61.8 66.2 63.3 71.5 69.6 65.4六十四点二4.3. 比较在本节中，MT-DETR与基线和最先进的方法进行了比较。由于现有的一些方法将相机-雷达信号作为输入，而另一些方法将相机-激光雷达-雷达信号提供给模型，因此提供了这两种设置的此外，实验进行了验证，建议的时间分支和建议的合成训练数据是有益的模型的性能。MT-DETR的更多直观预测见补充材料。4.3.1摄影雷达在本节中，只有摄像机和雷达信号被输入MT-DETR。在表3中，MT-DETR与最先进的目标检测方法进行了比较[27，44]。这里考虑两个基线：“早期融合”方法在开始时将每个传感器的级联馈送到单峰模型中;“中间融合”方法（如图1）2（b））融合每个分支提取的特征并将其发送到检测头。相机-雷达融合具有挑战性，因为雷达数据在STF数据集中过于稀疏。从表3中可以看出，所提出的方法在所有天气条件下都比其他方法实现了更高的性能。虽然其他方法很容易被雷达忽视或误导，但MT-DETR可以很好地利用雷达来超越它们。表3. 在所有STF测试分割上，基线和最先进的方法与摄像机-雷达信号的比较。最佳和次佳结果分别以粗体和下划线测试数据方法晴朗的白天夜晚轻雾浓雾白天晚上白天晚上下雪天晚上早期融合61.5 56.858.1 60.7六十七60.7 60.6 61.0中融合61.6 58.564.3 60.3六十九点二67.3 63.0 61.1CRFNet[27]62.3 57.762.5 60.3六十八点三67.7 62.3 60.9BiRANet[44]61.8 57.760.4 60.869.068.0 62.0 61.1MT-DETR（Ours）63.7 60.166.4 61.870.369.4 64.5 63.14.3.2照相机-激光雷达-雷达在实验中，摄像机-激光雷达-雷达信号作为MT-DETR的输入。与基线和最先进的多模式方法[23，3]的比较见表4。在不同的天气条件下，基线和最先进的方法是相当可比的，而很明显，拟议的MT-DETR明显优于其他方法。这些结果进一步证明，MT-DETR的设计，如CFM和多级损失，可以提高性能在晴朗的天气和增强在恶劣环境下的鲁棒性。表4. 在所有STF测试分割上，基线和最先进的方法与相机-激光雷达-雷达信号的比较。最佳和次佳结果分别以粗体和下划线突出显示。测试数据方法晴朗的白天夜晚轻雾白天夜晚浓雾白天黑夜下雪天晚上早期融合61.9 59.160.761.857.860.2 62.0 61.8中融合63.4 59.662.162.069.167.7 64.3 62.4IADM[23]60.4 57.460.359.667.567.0 60.4 59.2德国国防部[3]62.9 59.865.661.969.469.2 64.1 62.6MT-DETR（Ours）65.0 61.8 66.2 63.3 71.5 69.6 65.4 64.24.3.3整个系统在这里，我们建议引入时间分支，并使用建议的合成雾数据进行训练。如表5所示，具有相机-激光雷达-雷达-时间信号的MT-DETR（完整模型）在各种天气条件下表现良好。此外，使用所提出的合成训练数据的完整模型提高了几乎所有情况下的结果，除了浓雾的夜间场景，这是一个具有挑战性的情况，需要进一步讨论。这里我们还考虑了合成数据生成过程中的眩光效应。考虑眩光效应的改进也反映在结果中。眩光效果的产生详见补充资料。5260测试数据方法清轻雾浓雾雪天晚上天晚上天晚上天晚上表5. 完整的MT-DETR与合成训练数据。最佳和次佳结果分别以粗体和下划线表示没有眩光效果的合成算法。培训数据测试数据建议的设计。补充材料中报告了对合成雾密度的烧蚀研究表7. MT-DETR组件的消融研究。最佳结果以粗体突出显示。合成相机激光雷达时间数据晴朗的白天夜晚轻雾白天夜晚浓雾白天黑夜下雪天晚上✓ ✓ ✓✓ ✓ ✓ ✓✓ ✓ ✓ ✓✓∗65.0 61.8 66.2 63.371.5 69.6 65.4 64.264.762.2 67.0 63.7 71.370.7 65.9 64.865.763.267.265.370.3 68.666.965.6电话：+86-21 - 666666688传真：+86-21 - 66666884.4. 消融研究4.4.1MT-DETR输入传感器为了验证每个传感器都提供了有用的信息并提高了模型表6显示了MT- DETR在同时使用所有传感器（摄像机、激光雷达、雷达、时间）时性能最佳考虑到时间信息，虽然完整的MT-DETR模型一般来说，每个分支在不同的情况下提供不同的改进表6. MT-DETR输入传感器的消融研究。最佳结果以粗体突出显示。输入传感器测试数据完整的MT-DETR（我们的）64.7 62.2 67.0 63.7 71.3 70.7 65.9 64.84.5. 泛化到其他特征提取器MT-DETR的特征提取器可以灵活更换，以满足不同的需求。表8显示了不同特征提取器的结果。 [25]第二十五话分别被ResNet-50[17]、 ResNeXt-101[43]和MobileNetV 2[37]取代。中间融合是基线，并将其与所提出的MT-DETR 进行比较从表中可以看出， MT-DETR在所有设置中的性能都更好，这证实了它的通用性。表8. 不同特征提取器的MT-DETR和中间融合。较好的结果以粗体突出显示。模型架构测试数据相机 LiDAR 雷达时间晴朗的白天夜晚轻雾白天夜晚浓雾白天黑夜下雪天晚上特征提取器融合方法晴朗的白天夜晚轻雾白天夜晚浓雾白天黑夜下雪天晚上✓ ✓ ✓✓ ✓ ✓✓ ✓ ✓✓ ✓ ✓28.8 34.1 19.3 35.0 19.0 18.2 29.6三十一点二63.6 59.6 66.0 62.2 70.6 69.4 64.1六十二点五64.3 61.2 64.7 63.2 70.8 69.8 65.6六十四点四65.0 61.8 66.2 63.3 71.5 69.6 65.4六十四点二✓✓✓✓64.7 62.2 67.0 63.7 71.3 70.7 65.9六十四八4.4.2 MT-DETR结构本节提供了一项消融研究，以调查MT-DETR申报组件的有效性。如表7所示，“早期融合”在开始时连接每个传感器的数据，因此没有多模态设计，这意味着没有考虑融合。“中间融合”通过最简单的方法融合特征。“w/o REM”从模型中删除了增强模块，这意味着融合特征不与任何分支合并。“w/o CFM”将CFM替换为更简单的RFM。”w/o Hierarchical” fuses all sensors at once头，所以没有辅助损失功能L相机和L深度。这些结果证实了每一种方法的有效性。5. 结论提出了一种新的多模态目标检测MT-DETR网络，该网络采用RFM、CFM、REM和分层融合机制进行跨模态融合和交换。此外，MT-DETR采用多级损失来解决车辆传感器之间的不平衡问题，并学习提取引人注目的特征。MT-DETR使用相机，激光雷达和雷达实现了最先进的性能，并且通过额外的时间信息和建议的合成雾训练数据实现了更好的性能。实验结果表明，MT-DETR具有较强的鲁棒性，在各种天气条件下都能取得较好的效果.良好的泛化能力和可扩展性确认未来适用于不同的多模态任务。早期融合59.5 57.3 54.4 60.0 57.5 54.7 59.2五十九点七中融合63.6 59.9 64.7 62.8 68.5 69.0 64.062.9无REM63.5 61.0 65.4 62.8 71.1 68.7 65.3六十四点零不含CFM64.7 62.0 64.9 63.4 70.1 68.9 65.5六十四点五ConvNeXt-b[25]中融合MT-DETR63.6 59.9 64.7 62.8 68.5 69.0 64.062.964.7 62.2 67.0 63.7 71.3 70.7 65.9六十四八ResNet-50[17]中融合MT-DETR59.8 57.7 55.3 59.6 54.4 53.9 58.456.061.4 59.3 57.9 61.5 57.2 57.1 61.361.4ResNeXt-101[43]中融合MT-DETR59.5 57.1 54.7 58.9 55.9 53.4 59.3 59.661.1 58.5 56.4 61.3 56.0 51.2 61.2 61.2[37]第三十七话中融合MT-DETR27.3 52.8 26.0 55.1 28.7 39.0 28.2五十三点九5261引用[1] 包航波，李东，魏福如。Beit：Bert图像转换器的预训练。arXiv预印本arXiv：2106.08254，2021。[2] Dan Barnes ， Matthew Gadd ， Paul Murcutt ， PaulNewman ， and Ingmar Posner. 牛津雷达 Robotcar 数据集：牛津机器人汽车数据集的雷达扩展。2020年IEEE机器人与自动化国际会议（ICRA），第6433-6438页。IEEE，2020年。[3] Mario Bijelic、Tobias Gruber、Fahim Mannan、FlorianKraus、Werner Ritter、Klaus Dietmayer和Felix Heide。透过雾看不见雾：在看不见的恶劣天气下进行深度多模态传感器融合。在IEEE/CVF计算机视觉和模式识别会议论文集，第11682-11692页[4] Alexey Bochkovskiy，Chien-Yao Wang，and Hong-YuanMark Liao. Yolov4：目标检测的最佳速度和准确性。arXiv预印本arXiv：2004.10934，2020。[5] Holger Caesar，Varun Bankiti，Alex H Lang，SourabhVora，Venice Erin Liong，Qiang Xu，Anush Krishnan，Yu Pan ， Giancarlo Baldan ， and Oscar Beijbom.nuscenes：用于自动驾驶的多模式数据集。在IEEE/CVF计算机视觉和模式识别会议论文集，第11621-11631页[6] 赵伟蔡和努诺·瓦斯康塞洛斯。级联r-cnn：深入研究高质量的物体检测。在IEEE计算机视觉和模式识别会议论文集，第6154-6162页[7] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器的端到端对象检测。在欧洲计算机视觉会议上，第213-229页。Springer，2020年。[8] KaiChen ， Jiangmiao Pang ， Jiaqi Wang ， Yu Xiong ，Xiaowing Li，Shuyang Sun，Wansen Feng，Ziwei Liu，Jianping Shi，Wanli Ouyang，et al.用于实例分段的混合任务级联。在IEEE/CVF计算机视觉和模式识别会议论文集，第4974- 4983页[9] Kai Chen，Jiaqi Wang，Jiangmiao Pang，Yuhang Cao，Yu Xiong，Xiaoxiao Li，Shuyang Sun，Wansen Feng，Ziwei Liu，Jiarui Xu，et al.检测：打开mmlab检测工具箱和基准测试。 arXiv 预印本 arXiv ： 1906.07155 ，2019。[10] Yukyung Choi，Namil Kim，Soonmin Hwang，KibaekPark，Jae Shin Yoon，Kongghwan An，and In So Kweon.用于自动驾驶和辅助驾驶的Kaist多光谱昼夜数据集IEEE Transactions on Intelligent Transportation Systems，19（3）：934[11] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在IEEE计算机视觉和模式识别会议论文集，第3213-3223页[12] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti视觉基准套房. 2012年IEEE计算机视觉和模式识别会议，第3354-3361页。IEEE，2012。[13] 罗斯·格希克。快速R-CNN。在IEEE计算机视觉国际会议论文集，第1440- 1448页[14] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。在IEEE计算机视觉和模式识别会议论文集，第580-587页[15] Martin Hahner，Christine Sakaravan，Dengxin Dai，andLuc Van Gool.基于真实激光雷达点云的雾模拟在恶劣天气下用于三维目标检测。在IEEE/CVF计算机视觉国际会议论文集，第15283-15292页[16] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGirshick.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961- 2969页[17] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在IEEE计算机视觉和模式识别会议论文集，第770-778页[18] Aishwarya Kamath ， Mannat Singh ， Yann LeCun ，Gabriel Synnaeve，Ishan Misra和Nicolas Carion。用于端到端多模态理解的mdetr调制检测。IEEE/CVF计算机视觉国际会议论文集，第1780-1790页，2021年[19] Ruoteng Li，Loong-Fah Cheong，and Robby T Tan.暴雨图像复原：整合物理模型与条件对抗学习。在IEEE/CVF计算机视觉和模式识别会议论文集，第1633-1642页[20] Tingting Liang ， Xiaojie Chu ， Yudong Liu ， YongtaoWang ， Zhi Tang ， Wei Chu ， Jingdong Chen ， andHaibin Ling. CBnetv2：一种用于对象检测的复合骨干网络架构。arXiv预印本arXiv：2107.00420，2021。[21] 林宗义，普里亚·戈亚尔，罗斯·格希克，何开明，和彼得·多尔。密集目标检测的焦面损失。在IEEE计算机视觉国际会议论文集，第2980-2988页[22] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740-755页。Springer，2014.[23] Lingbo Liu ， Jiaqi Chen ， Hefeng Wu ， Guanbin Li ，Chenglong Li，and Liang Lin.跨模态协同表征学习与大规模人群计数rgbt基准测试。在IEEE/CVF计算机视觉和模式识别会议论文集，第4823- 4833页[24] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ， Scott Reed ， Cheng-Yang Fu ， andAlexander C Berg. Ssd：单发多盒探测器。欧洲计算机视觉会议，第21施普林格，2016年。5262[25] Zhuang Liu ， Hanzi Mao ， Chao-Yuan Wu ， ChristophFeichtenhofer，Trevor Darrell，and Saining Xie. 2020年代的一个挑战。 arXiv 预印本 arXiv ： 2201.03545 ，2022。[26] 伊利亚·罗希洛夫和弗兰克·哈特。解耦权重衰减正则化。arXiv预印本arXiv：1711.05101，2017。[27] Felix Nobis，Maximilian Geisslinger，Markus Weber，Johannes Betz，and Markus Lienkamp.基于深度学习的雷达和摄像头传感器融合架构，用于目标检测。2019年传感器数据融合：趋势、解决方案、应用（SDF），第1-7页。IEEE，2019。[28] Adam Paszke ， Sam Gross ， Francisco Massa ， AdamLerer ， James Bradbury ， Gregory Chanan ， TrevorKilleen ， Zeming Lin ， Natalia Gimelshein ， LucaAntiga，et al. Pytorch：命令式的高性能深度学习库。神经信息处理系统的进展，32，2019。[29] Aditya Prakash、Kashyap Chitta和Andreas Geiger。多模态融合 Transformer ，实现端到端自动驾驶。在IEEE/CVF计算机视觉和模式识别会议论文集，第7077-7087页[30] Rene 'Ranftl，Alexey Bochkovskiy，and Vladlen Koltun.用于密集预测的视觉转换器。IEEE/CVF计算机视觉国际会议论文集，第12179-12188页，2021年[31] Joseph Redmon，Santosh Divvala，Ross Girshick，andAli Farhadi.你只看一次：统一的实时物体检测。在IEEE计算机视觉和模式识别会议论文集，第779-788页[32] 约瑟夫·雷德蒙和阿里·法哈迪Y

下载后可阅读完整内容，剩余1页未读，立即下载