多模态自训练车辆检测网络及其在牛津雷达Robotcar数据集上的性能

41 浏览量更新于2023-10-25 收藏 1.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

918基于模态无关学习的雷达-激光雷达融合车辆检测卡内基{yujheli，jinhyun1，motoole2，kmkitani}@ andrew.cmu.edu摘要自动驾驶汽车上常见的摄像头、激光雷达和雷达等多个传感器模态的融合不仅可以实现准确的检测，还可以增强对恶劣天气条件和单个传感器故障的感知由于固有的传感器特性，雷达在极端天气条件（雪、雨、雾）下表现良好，这些条件会显著降低相机和激光雷达的性能。近年来，一些研究机构开发了汽车制动系统，雷达流激光雷达流多模态车辆检测模型(a)透明传感器预测融合激光雷达和雷达信号的探测方法，即，MVD-Net.然而，这些模型通常是在模型总是能够访问两个无错误的传感器流的假设下开发的。如果其中一个传感器不可用或丢失，模型可能会灾难性地失败。为了缓解这个问题，我们提出了自训练多模态车辆检测网络（ST-MVDNet），它利用了师生相互学习框架和模拟传感器噪声模型，用于激光雷达和雷达的强数据增强我们表明，通过（1）加强教师网络和学生网络之间的输出一致性，以及（2）在训练过程中引入缺失的模态（强增强），我们的学习模型脱离了无错误传感器假设。这种一致性强制使学生模型能够正确处理缺失数据，并通过使用学生模型的指数移动平均值更新教师模型来改进教师模型我们的实验表明，我们提出的多模态检测学习框架能够更好地处理推理过程中丢失的传感器数据此外，我们的方法在各种评估设置下在牛津雷达Robotcar数据集上实现了新的最先进的性能（5%增益）。1. 介绍在自动驾驶中，许多车辆配备了多个传感器，如摄像头，激光雷达和雷达，如许多数据集所示[2，4，9，31]。利用不同类型的传感器可用于解决每个传感器的任何偶然故障，并可潜在地提高性能。雷达流（缺失）遗漏检测预测激光雷达流多模态车辆检测模型(b)传感器损坏图1.传感器流噪声或缺失导致的问题图示。在两种模态上训练的模型在对缺失的传感器进行推断时可能会出现比使用每个单独的传感器更有效地检测物体。现有的工作[6，13，23，37]主要集中在融合激光雷达和相机，利用相机然而，这些视觉传感器对不利的天气条件敏感，并且在恶劣的天气（例如雾[3]、雪和雨）下性能下降除了激光雷达和摄像头之外，雷达也被广泛应用于车辆的自主系统[2，4]，并且在某些天气条件下（例如，雾、雪、雨）。特别是，雷达使用毫米级的波长作为ADC线性调频信号，其比雨、雾甚至雪的尺寸大得多[10]，使它们基本上对雷达不可见。自从收集919现有自动驾驶数据集中的雷达数据[4]具有稀疏和低分辨率数据（与相机和激光雷达相比），最近的牛津雷达机器人[1]（ORR）数据集，其雷达传感器具有高方向性和更精细的空间分辨率，已成为雷达和激光雷达融合的新基准。最近，MVDNet [26]被提出来融合激光雷达和雷达传感器，并在ORR数据集上实现了最先进的结果。MVDNet被证明是成功的，在不利条件下，如大雾天气，主要是由于雷达的有利功能。然而，现有的激光雷达-雷达融合模型[2，26]都是在假设模型总是可以访问两个可靠的传感器流的情况下开发的。如果其中一个传感器不可用或损坏，性能可能会受到影响（图1）。换句话说，当前的融合模型可能不适用于可能发生这种故障的现实世界应用为了解决这个问题，一种解决方案可以是训练用于处理作为输入的多个不同传感器流的分离模型。然而，这可能过于昂贵。为了避免这种情况，另一种潜在的解决方案是直接用清晰和缺失的流来训练融合模型，并用地面实况标签来优化模型然而，如此强大的数据增强导致模型依赖于一个清晰的流，而忽略了丢失的流，这在我们的实验中得到了反映。换句话说，用随机缺失的传感器流训练的模型无法有效地融合两个传感器的两个特征。为了适当地利用数据增强并减轻传感器噪声的影响，我们提出了一种名为自训练多模态车辆检测网络（ST-MVDNet）的框架，该框架利用了MVDNet的主干[26]并建立在Mean Teacher（MT）[32]框架的自训练管道上。MT最初被提出用于半监督学习，并行学习两个模型，其中教师模型用于稳定学生模型的性能。为了利用MT在我们的融合模型中使用强增强（缺失流）来正则化训练，我们提出的ST-MVDNet还采用了两个模型（教师和学生对），每个模型在架构上都等同于MVDNet。教师生成预测以使用一致性约束来训练学生，而学生通过指数移动平均（EMA）将其学习的参数传递回教师。教师模型只接受清晰的模态作为输入，而学生模型另外接受缺失的激光雷达或雷达流作为输入。我们表明，通过加强教师和学生之间的一致性，我们的模型能够防止在缺少模态的训练过程中偏向（过度依赖）清晰的传感器该管道不仅允许模型对丢失的传感器更鲁棒，而且通过迫使模型更好地解释来改进多模态特征提取两种模式之间的相似性和关系这些捐款可归纳如下：• 我们证明了多模态检测网络的局限性时，它的传感器之一是在推理过程中丢失• 我们提出了一个框架，建立在Mean Teacher的基础上，并利用强大的增强来解决缺失传感器的问题。• 我们开发的流水线不仅能够处理噪声/缺失传感器，这得到了我们设计的实验的支持，而且在几个实验设置中，ORR数据集的性能也能够大大超过最先进的水平（5%）。2. 相关作品使用激光雷达进行车辆检测。激光雷达点云上的车辆检测方法根据它们如何表示点云而被广泛分类。其中一个工作流-开创性的工作PointNet [24]和PointNet++[25]直接在无序点集上进行特征提取。PointRCNN [28]从前期预测点生成对象建议，STD [42]通过循环建议和稀疏到密集的细化改进了PointR-CNN。其他作品[22，41]使用逐点投票预测来移动前景点更接近对象中心。另一种工作方式是将3D空间离散化为规则的2D或3D网格，并利用成熟的CNN架构。开创性的工作MV3D [7]使用2D CNN处理点云的范围视图和鸟瞰视图2D投影。VoxelNet [44]建议使用3D体素，利用小型PointNet进行初始体素内处理，并使用3D卷积进行体素间特征提取。观察到大多数3D体素是空的，一些后续工作[8，11，29，38]提出通过仅对具有点的区域执行卷积来提高效率。最后，其他作品提出通过BEV中的2D卷积来初步提取特征，因为当从上方观看时，户外场景中的对象很少重叠。PIXOR [40]生成不同高度范围的BEV占用图，PointPillars [16]使用点网进行初始每网格特征提取。在我们的工作中，我们遵循MVDNet [26]将PIXOR用于多传感器融合，因为体素特征表示很容易与BEV雷达数据相结合。使用多个传感器的车辆检测。为了增强3D感知，许多工作提出了融合不同的成像模式，包括相机，激光雷达和雷达-自动驾驶中最常用的三种传感器。对于相机-激光雷达融合，一些工作用2D对象检测来约束3D搜索空间920LLLi=1i=1L i=1R i=1--{}∈R雷达流教师模型雷达特征编码器检测器RPN传感器融合预测ROI头强雷达8月：空白雷达激光雷达特征编码器激光雷达流EMA学生模型不管有没有雾雷达特征编码器ℒ��检测器RPN传感器融合ℒ��ROI头强大的激光雷达8月：空白激光雷激光雷达特征编码器ℒ空白激光雷达+清晰雷达或清晰激光雷达+空白雷达图2. 我们提出的自训练多模式车辆检测网络（ST-MVDNet）概述。我们的模型由两个模块组成：1）教师模型为雷达和激光雷达两者获取干净的数据流（有雾或无雾），以及2）学生模型从两个传感器获取额外的缺失流。我们使用两个学习过程来训练我们的模型：1）监督检测学习（检测）学生模型，以及2）强（强）和正常（组成）一致性损失的相互学习。教师生成预测来训练学生，而学生通过指数移动平均（EMA）更新教师。[15，23，34]，而其他人则在任务中融合2D和3D功能-只有一个通道，N激光雷达占用率和强度等级[20，21，33，36]或特征等级[7，12，14，17，30，43]。然而，由于激光雷达DEF [2]提出了一种具有所有传感器（包括激光雷达、雷达和相机）的基线融合探测器然而，他们的多普勒雷达只有低分辨率的频谱图，这表明性能较差。具体而言，与使用Navtech的Oxford Radar Robot-car [1]（ORR）数据集相比，DEF中的前视雷达仅具有有限的视场（FOV），这取决于接收器的密度，并且可能不容易适应激光雷达的360°全方位最近，MVD-Net [26]提出了具有注意力机制的融合模型，用于ORR数据集上雾天条件下的车辆检测。然而，现有的激光雷达-雷达融合模型是在训练模型只能接受固定数量的传感器流的假设下开发的。如果其中一个传感器不可用，则模型可能会因丢失输入数据而受到噪声的影响。在本文中，我们利用MVDNet的设计，并展示了我们提出的自我训练框架如何能够缓解这个问题。3. 该方法3.1. 问题表述和概述给定雷达强度图和激光雷达点云，我们的目标是在鸟瞰图（BEV）投影图中检测车辆具体来说，我们得到N个雷达强度图映射Xl=xiN，其中xlH× W×（C+1），具有C-吸收通道和1个强度通道。占用通道和强度通道使用点云的PIXOR 我们进一步将注释表示为Y={yi}N。我们的框架概述如图2所示。我们的自训练多模式车辆检测网络（ST-MVDNet）由两个架构相同的融合模型组成：教师模型和学生模型。每个模型由两个传感器、融合模块和检测器中的每一个的一个特征编码器组成教师模型和学生模型都将两个传感器流作为输入：雷达和激光雷达。我们使用师生相互学习来训练我们的模型，并对雷达和激光雷达进行了强大的增强。激光雷达流将使用DEF [2]中的雾模型随机雾化，概率为0.5，遵循[26]。首先，我们在第一阶段中使用可用注释Y=yiN训练学生模型对象检测器，其中标准检测损失如等式1中所示。然后，开始相互学习阶段（第二节）。3.3），我们将整个网络参数从学生复制到教师（将学生模型复制到教师模型）。在第二阶段，教师生成预测以训练具有一致性损失的学生，而学生通过其权重的指数移动平均（EMA）将其学习的知识更新回教师。我们引入了两个强增强：强雷达增强和强激光雷达增强，以迫使学生模型学习获得在表示为Xr={xi}N其中xr∈ RH×W ×1，传感器缺失的变体。具体而言，这是通过以下方式实现的：921LD{}RPNLLregCLSC使用一致性损失，我们将其定义为“强一致性损失”，以确保从具有一个缺失传感器的学生模型获得的预测导出与教师模型一致的在推理阶段，我们只保留教师模型，因为教师是不同时间步长的学生模型的时间集合，并且更鲁棒。3.2. 雷达与激光雷达教师和学生中每个模型的骨干检测器的监督学习。我们首先使用地面实况标记数据=（Xr，Xl，Y）优化学生模型中的对象检测器，以使用丢失检测优化我们的模型。由于为教师模型提供可靠的初始化权重很重要，因此我们首先将权重从学生模型复制到教师模型。因此，使用注释训练模型的损失可以写为：L检测（Xr，Xl，Y）=Lcls（Xr，Xl，Y）+Lrpn（Xr，Xl，Y）+Lroi（Xr，Xl，Y）+Lroi（Xr，Xl，Y），包含每个传感器的一个特征编码器、传感器融合模型和检测器，regCLSreg（一）图2.该模型在架构上采用了具有相同设计的MVDNet[26与经典的基于锚点的检测器类似，它由两个阶段组成：RPN和ROI头用于传感器融合。区域建议网络（RPN）从激光雷达和雷达中获得特征图，然后生成可以-其中RPN损失rpn是区域提案网络RPN（RPN）模块用于建议生成，ROI损失roi用于感兴趣区域模块（ROI）。这两个模块都对提案执行边界框回归（reg）和分类（cls）。我们使用二进制Lrpn和Lroi的交叉熵损失，以及Lrpn的l1损失过时的建议感兴趣区域（ROI）头池来自两个传感器的区域式特征，并将它们融合以获得检测到的目标的定向边界框。LroiCLSCLSreg物体（车辆）。由于本文的重点和贡献不是融合模型的体系结构设计，我们只对融合模型的设计做了简要的回顾。特征编码器和RPN。我们的ST-MVDNet为每个传感器提供一个特征编码器，最终有两个编码器。特征编码器利用几个粗粒度卷积，并通过残差连接合并多尺度特征图，类似于Unet [27]。两个传感器特定特征提取器中的每一者将导出输入传感器流中的每一者的特征表示优化学生与教师的预测到使用教师模型正则化学生模型，我们从教师生成预测，用于训练具有一致性损失的学生。为了防止来自噪声伪标签的传播错误，我们使用置信度阈值δ过滤误报。此外，我们使用非最大抑制（NMS）删除重复的框。在从教师模型获得对输入传感器流的预测之后，我们可以在学生模型上构建一致性损失，如下所示：Lconsist（Xr，Xl，Ct）=Lrpn（Xr，Xl，Ct）区域建议网络（RPN）将特征图作为输入，稍后为检测器生成建议。CLS+Lroi（Xr，Xl，Ct），（二）传感器融合和ROI头。遵循[26]中的融合技术，我们的传感器融合模型采用自我注意和交叉注意块来合并来自同步的激光雷达和雷达帧对的特征图，并使用RIO头输出每个边界框的位置更多的细节可以在[26]中找到。3.3. 师生互动学习遵循最初为半监督对象检测提出的师生框架或平均教师（MT）[32]，我们的模型也由两个具有相同架构的模型组成：学生模型和教师模型。学生模型使用标准梯度反向传播算法进行训练，教师模型使用学生模型的指数移动平均（EMA）权重进行更新。由于教师模型可以被视为学生模型的当前版本和早期版本的集合其中，RNT表示教师模型请注意，我们不对边界框回归应用损失，因为未标记数据上的预测边界框的置信度得分只能表示每个对象的类别的置信度，而不是产生的边界框的位置。通过指数移动平均更新教师。为了在MT之后获得更稳定的预测，我们在每一步中应用指数移动平均（EMA）来逐步更新教师模型。更新可以写为：θt←αθt+（1−α）θs，（3）其中θt和θs分别表示Teacher和Student的网络参数3.4. 学习对有偏融合本文简要介绍了传感器融合的方法和相互学习的算法，使模型更加稳定和鲁棒。然而，在这方面，922LLCLCLSCLSRPNROIRPNROI由于融合模型是用两种模态训练的，因此当模态丢失时，该模型可能受到不成比例的负面影响一个潜在的解决方案是简单地用清晰和缺失的模态训练模型，目标是地面事实标签。然而，我们发现这样的训练方案削弱了模态的融合--模型学习更独立地与每种模态一起工作，这样即使缺少一个传感器，它也能够生成预测当两个传感器都存在时，与在没有这种强增强训练方案的情况下进行训练时相比，模型的表现更差。为了正确地将强增强应用于激光雷达和雷达传感器，我们利用一致性损失组成来正则化模型，而不是天真地使用地面实况检测损失检测。如图2所示，教师模型总是将两种模态的完整版本作为输入，而学生模型另外将缺失的激光雷达或雷达流作为通过迫使学生这与简单增加增强功能有着本质的不同，后者降低了模态之间融合的重要性。相反，我们的自我训练管道加强了对多模态融合的关注。我们的方法可以被认为是一种跨模态提取的形式-教师模型以检测的形式将其多模态融合特征提取给学生，迫使学生从单一模态中重新覆盖多模态特征。我们可以写强增强一致性损失，其中包括丢失的激光雷达加上清晰的雷达和清晰的激光雷达加上丢失的雷达这两种情况，如下所示：Lstrong（Xr，Xl，Xrn，Xln，，Ct）=L（Xr，Xln，Ct）+L（Xr，Xln，Ct）（4）+L（Xrn，Xl，Ct）+L（Xrn，Xl，Ct），Student模型中的特征编码器和检测器。教师模型仅通过第3.3节中讨论的EMA进行更新。通过教师和学生之间的交互，两个模型可以联合不断地进化，以提高强增强下的检测精度。从另一个角度来看，我们也可以将教师视为不同时间步长的学生模型的时间集合，这与教师的准确性始终高于学生的观察结果一致。因此，在推理阶段，我们只保留教师模型用于测试数据集的评估。4. 实验4.1. 实验设置数据集在MVDNet [26]之后，我们使用Oxford RadarRobotcar [1]（ORR）数据集进行实验。数据集有8862个激光雷达和雷达帧的样本对，它们被分成训练集和测试集（分别为7071和1791我们使用[26]中创建的地面实况注释来训练模型，该模型在连续的20帧中的一帧中创建了车辆的3D边界框。休息间隔19帧的注释由[26]生成，其通过使用ORR中提供的视觉里程计数据对边界框进行插值。ORR Navtech雷达以每0.25秒0.9毫米的步长扫描360毫米的视野，而激光雷达以每0.05秒0.33毫米雷达和激光雷达的扫描结果分别保存为2D BEV图像地图和3D点云的格式，两者共享同一个世界坐标原点，并带有随机参数。如我们所知，雷达中的显著扫描延迟受到与激光雷达的不同步的影响，导致逐帧未对准，我们还使用来自[26]的同步和处理的流来解决这个问题。与[26]类似，传感器的RoI设置为[-32，32]× [-32，32]米和BEV投影使用CLSCLS0.2米量化。高度范围设置为[-2.5，1]其中，RNT表示由教师模型生成的预测。Xrn和Xln分别表示雷达和激光雷达的增强缺失流3.5.完整的目标和推理训练我们提出的ST-MVDNet的总损失总结如下：L=L检测+λ组成·L组成+λ强·L强，（5）其中λconsist和λstrong是用于控制相应损失的权重的超参数。我们注意到，Ldetect，Lconsist和Lstrong是为了学习而开发的所有激光雷达3D点垂直分为35个切片，面元大小为0.1米。加上一维强度图，输入激光雷达的尺寸为320×320×36。由于雷达强度图像只有一个强度通道，雷达的输入尺寸为320×320×1。评估设置我们在两个设置上评估模型：1）模拟雾天气和2）缺失传感器。在[26]之后，我们在清晰的雷达流和随机雾化的激光雷达流上训练模型。为了根据需要对激光雷达进行雾化，我们使用DEF [2]中的雾模型以0.5的概率改变训练样本中的激光雷达点云。具体来说，对于激光雷达中的每个点，923L表1.不同方法模拟雾天在不同试验条件下的平均精度（AP，%）粗体数字表示最高分。火车晴+雾（激光雷达）晴方法IOU0.50.650.80.50.650.80.50.650.80.50.650.8PXOR [40]72.868.341.262.658.935.771.067.240.661.858.335.7[28]第二十八话78.273.845.769.765.641.678.272.843.468.764.037.6[第16话]85.883.058.372.870.348.685.882.960.671.368.347.8德国国防军[2]86.678.246.281.472.541.185.978.144.271.863.732.4[26]第二十六话90.988.874.687.484.668.987.286.172.678.075.961.6[26]第二十六话88.285.171.783.481.266.184.585.572.177.471.860.0ST-MVDNet（无强增强）94.593.780.290.086.771.491.789.477.880.179.763.4ST-MVDNet（我们的）94.793.580.791.888.373.691.489.978.481.280.864.9雾模型将通过设置距离阈值来丢弃它。每个阈值对应于雾密度，如果点超过此阈值，则将删除它们。为了评估模拟的大雾天气，我们在清晰或有雾的激光雷达流以及正常雷达流上测试了模型，如下[26]。为了评估缺失传感器，我们在两个设置上测试模型：• 雷达（Clear Lidar）• 激光雷达（Clear Radar）我们使用完全空白的雷达强度图来模拟损坏的雷达，而我们使用完全空白的占用率和强度图来模拟丢失的激光雷达。评估方案在[26]之后，我们使用COCO评估[ 18 ]中的平均精度（mAP）评估模型，不同IOU：0。5，0。65，0。8、公平竞争4.2. 实现细节在[26]之后，我们使用Detec-tron 2 [35]实现了ST-MVDNet对于区域建议网络（RPN），锚点设置为3.68m × 7.35 m，方位为-90° C、-45° C、0° C和45° C。正负样本的匹配分别以0.55和0.45的阈值进行，而NMS的IoU阈值设置为0.7。我们还在训练期间保留了前1000个建议，而在推理期间保留了500个建议。对于RoI头，RoI头池的大小设置为7 × 7，而NMS的IoU阈值设置为0.2。对于超参数，我们设置λ consist= 1。0和λstrong=1。我们将置信度阈值设置为δ= 0。8.我们注意到，由于GPU资源的限制，在我们的模型中使用的历史帧被设置为2，而MVDNet使用4（[26]还显示更多的帧可以导致性能略微提高）。在初始化阶段描述的第二节。3.3，我们使用地面真实标签训练模型进行10k次迭代，并进行检测丢失检测。然后，我们在相互学习开始时将权重复制到教师和学生模型，并训练ST-MVDNet进行80 k次迭代。我们将学习率设置为0.01而不衰减，因为我们发现这可以提高性能。我们使用随机梯度下降（SGD）优化网络教师模型的指数移动平均（EMA）的权重平滑系数每个实验在1个Nvidia 2080 Ti上进行，批量为1。4.3. 结果和比较模拟雾天在此设置中，我们使用随机雾化的激光雷达点云训练所有探测器，而融合探测器则使用雷达强度图进行额外训练。然后，我们在有雾或清晰的激光雷达上测试这些模型[26]，而融合模型可以将清晰的雷达作为附加输入。我们注意到，在这个标准设置中没有缺失或我们将我们的ST-MVDNet与现有的仅激光雷达检测器（PIXOR [40]，PointRCNN [28]和PointPillars[16] ）以及激光雷达 - 雷达融合方法（ DEF [2] ，MVDNet [26]）进行比较。结果总结于表1中。我们观察到四种现象。首先，所有三种仅激光雷达探测器的性能明显低于融合方法。这表明无论是在晴朗还是有雾的天气条件下，雷达对提高性能都其次，在晴朗或有雾的天气条件下，我们的ST-MVDNet显示出显着的优势，比其他检测器，证明我们的模型在有雾的设置与清晰的传感器流的泛化。我们的模型和MVDNet之间的性能增益（每个设置中约4%）可以归功于我们模型的相互学习，这使得学习过程稳定测试明确雾光雷达明确雾光雷达924LLLLLLLL表2.不同方法缺失传感器在不同实验设置下的平均精度（AP，%）粗体数字表示最高分。火车晴+雾（激光雷达）晴方法IOU0.50.650.80.50.650.80.50.650.80.50.650.8[26]第二十六话82.380.767.873.468.343.380.577.164.871.065.940.1[26]第二十六话77.474.662.575.270.147.477.673.561.372.167.743.6[26]第二十六话83.280.968.968.763.240.181.077.965.166.560.239.2[26]第二十六话82.581.268.473.668.744.580.177.864.571.666.040.8ST-MVDNet（无强增强）85.783.570.475.172.551.683.980.267.874.570.151.5ST-MVDNet（w/ strong Lidaraug.）85.483.172.582.578.670.483.480.167.779.178.061.5ST-MVDNet（w/ strong Radaraug.）88.586.274.175.071.652.089.183.272.574.070.750.6ST-MVDNet（我们的）88.786.973.282.678.170.689.784.373.179.377.461.7表3.申报ST-MVDNet的消融研究不同实验设置下的平均精密度（AP，%）。火车晴朗+有雾（激光雷达）方法测试失踪的雷达失踪的激光雷达IOU0.50.650.80.50.650.8我们我们的w/oLstrong我们的不含L组Ours w/oLconsists&Lstrong[26]第二十六话88.785.787.982.782.386.983.586.181.480.773.270.472.868.767.882.675.181.073.473.478.172.576.570.568.370.651.667.848.843.3并正规化。如果提到“ST-MVDNet（w/o strong aug.）”在表1中，我们的模型在没有强增强的情况下优于MVDNet第三，我们还观察到模型“MVDNet + Strongaug."的性能下降，其推断，如果使用地面实况检测损失来天真地训练，则强增强可能会损害模型。最后，与使用清晰和有雾的激光雷达点云进行训练相比，我们可以观察到仅使用清晰激光雷达进行训练的性能下降。同样在[26]中指出，结果还表明，增强雾激光雷达对于提高模型性能至关重要。由于我们模型设计的目的是解决推理过程中丢失传感器的问题，因此我们在丢失激光雷达或雷达的设置中评估我们的模型我们将我们的模型与MVDNet [26]进行了比较，并在表2中总结了结果。我们注意到，“强激光雷达aug。”或者“强雷达增强”指示在训练期间仅应用一次增强，而意味着在训练期间应用两个传感器的缺失增强我们还用清晰或有雾的激光雷达和雷达强度图训练所有探测器。首先，我们观察到，对于MVDNet，在每个传感器上添加强大的增强功能会在测试期间丢失相应传感器时提高性能例如，MVDNet使用强大的激光雷达增强，性能增益丢失的激光雷达，但有显着的每平方米下降丢失的雷达。我们将这种下降归因于对清晰传感器的偏见（过度依赖），这是由直接使用地面实况检测损失进行训练时的强增强引起的。尽管如此，如果使用这两种增强进行训练，我们仍然可以在MVDNet上观察到轻微的性能提升。另一方面，我们提出的模型，当在单个传感器上进行强增强训练时，当该传感器丢失时，可以提高性能，当另一个传感器出现故障时，可以保持性能。此外，对两个传感器应用增强导致MVDNet和部分强增强设置的性能增益。4.4. 消融研究为了进一步分析我们提出的框架中的损失，我们进行了消融研究，如表3所示。强一致性损失强。为了分析强一致性损失的重要性，我们排除了强一致性损失，并报告了缺失传感器的两个设置上的性能。可以观察到，每个设置上都出现了3%和7%这表明强增广在缓解气候变化中起着重要作用解决传感器缺失的问题。一致性损失组成。为了进一步分析一致性损失，我们删除了损失一致性，并观察到大约1-2%的性能下降。这意味着认知损失有助于教师和学生之间相互学习的规则化。指数移动平均线（EMA）。如前所述，教师模型可以被看作是学生模型当前版本和早期版本的一个扩展也就是说，它生成的预测比采用MVDNet架构的Student更健壮和为了证实这一点，我们排除了两种损失：强一致性，并仅使用教师的EMA更新报告模型的性能：组成&强“。我们可以观察到这个模型和MVDNet可以归功于EMA合奏。测试失踪的雷达失踪的激光雷达失踪的雷达失踪的激光雷达925（w/ strongaug.）地面实况MVDNet我们（w/o strongaug.）我们图3. 定性比较和分析。所有比较的模型都是在清晰的激光雷达和有雾的点云以及雷达强度图上训练的。白色地图表示雷达强度，而绿色地图表示激光雷达BEV投影地图。我们在同一个图中可视化这两个地图。每行指示测试环境。4.5. 定性结果为了进一步分析我们强增强模型的有效性，我们将我们的模型与MVDNet进行了比较，并在图3中给出了定性结果。在这里，我们用清晰的激光雷达和有雾的点云以及雷达强度图训练所有模型，并在不同的设置（不同的行）上进行测试一些现象可以概括为以下几点。首先，无论是在晴朗还是有雾的测试设置中，MVDNet和我们的模型都表现出相似的检测结果，这意味着增强不会影响在晴朗或有雾天气下的模型测试。其次，当测试丢失的雷达或丢失的激光雷达时，无论是否应用强增强，MVDNet似乎都有丢失的检测和一些误报。我们的模型没有强增强也遭受缺失检测时，与缺失的传感器进行测试。然而，当增加强增强时，我们的模型在两种传感器缺失的情况下都能产生准确的检测5. 结论针对多模态车辆检测中传感器缺失的问题，提出了一种新的检测框架ST-MVDNet。我们的模型利用MeanTeacher和现成的融合模型，即使在缺少模态的情况下，也表现出我们将模型的成功归功于我们提出的具有强大增强功能的相互学习管道，这可以防止我们的模型偏向于单个传感器。在多个设置上的广泛实验结果也证明了我们的框架在不利天气和缺失传感器的情况下的有效性我们的模型在几个实验环境中的ORR数据集上比现有的最新技术水平高出5%。鸣谢：感谢电装株式会社对本项目的赞助。我们特别感谢Prasanna Sivakumar、Shawn Hunt、Hironobu Akita和Daiji Watan- abe参与项目讨论。失踪的激光雷失踪的雷达雾光雷达明确926引用[1] Dan Barnes ， Matthew Gadd ， Paul Murcutt ， PaulNewman，and Ingmar Posner. Oxford Radar Robotcar数据集：对Oxford Robotcar数据集的雷达扩展。2020年IEEE机器人与自动化国际会议（ICRA），第6433-6438页。IEEE，2020年。二三五[2] Mario Bijelic、Tobias Gruber、Fahim Mannan、FlorianKraus、Werner Ritter、Klaus Dietmayer和Felix Heide。看穿雾而看不到雾：在看不见的不利天气中进行深度多模式传感器融合。在IEEE计算机视觉和模式识别会议论文集（CVPR）中，第11682-11692页，2020年。一二三五六[3] Mario Bijelic，Tobias Gruber，Werner Ritter.雾中激光雷达传感器的基准点：探测是否失效？2018年IEEE智能车辆研讨会（IV），第760IEEE，2018年。1[4] Holger Caesar、Varun Bankiti、Alex H Lang、SourabhVora、Venice Erin Liong、Qiang Xu、Anush Krishnan、Yu Pan、Giancarlo Baldan和Oscar Beijbom。nuscenes：自动驾驶的多模态数据集在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第11621-11631页一、二[5] 西蒙·查德威克威尔·马登保罗·纽曼使用雷达和视觉的远距离车辆检测。 2019 年国际机器人与自动化会议（ICRA），第8311-8317页。IEEE，2019。3[6] Xiaozhi Chen，Huimin Ma，Ji Wan，Bo Li，and TianXia.用于自动驾驶的多视角三维物体检测网络。在IEEE计算机视觉和模式识别会议论文集（CVPR），第1907-1915页，2017年。1[7] 陈晓志，马惠民，万吉祥，B.李，田霞。用于自动驾驶的多视角三维物体检测网络在计算机视觉和模式识别（CVPR）IEEE会议论文集，第6526- 6534页，2017年。二、三[8] C. Choy、JunYoung Gwak和S. Savarese 4D时空卷积网络：Minkowski卷积神经网络。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第3070-3079页2[9] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。IEEE计算机视觉与模式识别会议论文集（CVPR），第3354IEEE，2012。1[10] Yosef Golovachev，Ariel Etinger，Gad A Pinhasi，andYosef Pinhasi.毫米波高分辨雷达在雾中的精度理论与实验验证。传感器，18（7）：2148，2018. 1[11] 本杰明·格雷厄姆、马丁·恩格尔克和L. V. D. Maaten用子流形稀疏卷积网络进行三维语义分割。在IEEE计算机视觉和模式识别会议（CVPR）集，第9224-9232页2[12] 黄腾腾，刘哲，陈锡武，X.柏Epnet：用图像语义增强3D对象的点特征侦测。欧洲计算机视觉会议（ECCV），2020年。3[13] Jason Ku 、 Melissa Mozifian 、 Jungwook Lee 、 AliHarakeh和Steven L Waslander。从视图聚合联合生成3d建议和对象检测。2018年IEEE/RSJ智能机器人与系统国际会议（IROS），第1-8页。IEEE，2018年。1[14] Jason Ku 、 Melissa Mozifian 、 Jungwook Lee 、 AliHarakeh和Steven L.瓦斯兰德从视图聚合联合生成3d建议和对象检测。在2018年IEEE/RSJ智能机器人和系统国际会议（IROS）上，第1-8页，2018年。3[15] Jean Lahoud和Bernard Ghanem。RGB-D图像中的2D驱动的3D对象检测在IEEE国际计算机视觉会议（ICCV）的会议记录中，第46323[16] 亚历克斯 ·H Lang ， Sourabh Vora ， Holger Caesar ，Lubing Zhou ， Jiong Yang ， and OscarBeijbom.Pointpillars：用于从点云检测对象的在IEEE计算机视觉和模式识别会议论文集中，第12689-12697页二、六[17] Ming Liang，B.Yang，Shenlong Wang，and R.乌塔松多传感器三维目标检测的深度连续融合。欧洲计算机视觉会议（ECCV），2018年。3[18] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft coco：上下文中的公共对象。在欧洲计算机视觉会议（ECCV）的会议记录中，第740-755页。Springer，2014. 6[19] 拉明·那巴提、齐海荣。Rrpn：用于自动驾驶车辆中物体检测的雷达区域识别网络。在IEEE图像处理国际会议（ICIP）的会议录中，第3093-3097页IEEE，2019。3[20] 镇亨湾朴，翁新硕，文云泽，和Kris Ki-tani.三维物体检测的多模态任务级联ArXiv，abs/2107.04013，2021。3[21] C. Qi，Xinlei Chen，O. Litany和L. Guibas Imvotenet：使用图像投票增强点云中的3D对象检测。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第4403-4412页，2020年。3[22] C. Qi 、台湾野牡丹 O. Litany ， Kaiming He ， and L.Guibas点云数据中三维目标检测的深度霍夫投票在IEEE计算机视觉国际会议（ICCV）的会议记录中，第9276-9285页2[23] C. 齐，W.Liu，Chenxia Wu，Hao Su，and L.Guibas 从rgb-d数据中检测三维目标的截头体点网。在IEEE计算机视觉和模式识别会议（CVPR）的Proceedings中，第918-927页，2018年。第1、3条[2

下载后可阅读完整内容，剩余1页未读，立即下载