面向目标检测的红外和可见光融合的目标感知双对抗学习及多场景多模态基准

44 浏览量更新于2023-10-26 收藏 21.3MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

InfraredVisible0.050.740.760.780.800.820.840.100.150.200.250.86Parameters: 10930KInformation Fusion 2021Parameters: 1098KTIP 2020Parameters: 296KParameters: 925KInformation Fusion 2019Parameters: 158KTCSVT 2021Parameters: 659KTPAMI 2020Parameters: 1864KTIM 2021Parameters: 74KTIP 2019BuildingMountainShrubCrossroadsTunnelOverhead BridgeShopsAlleyGateForestNatureCampusRoadsceneRoadsceneCampusCampusCastleSeascapeDisguiseHazeSevere WeatherComplex RoadConditionSmall TargetCrowdResident AreaRoadsceneDaytimeOvercastNightChallengeGrasslandParking LotSquareAlleyFootbridgeResident AreaDrivewayAtriumPavilionBeachCrossroadsHigh StreetDense FogHeavy RainLakeBeachForest HazeFieldGroveCrowdParking LotAlleyBasementDrivewayParking LotNight FairNum: 1621Range:Num: 1078Daytime Normal RangeNum: 765Overcast Normal RangeDepending on the sceneNum: 736M FD Image Distribution33M FD Pixel Distribution58020面向目标检测的红外和可见光融合的目标感知双对抗学习及多场景多模态基准0刘金元†，范鑫‡�，黄占波‡，吴冠耀‡，刘日升‡，§，钟伟‡，罗中轩†0† 大连理工大学软件技术学院 ‡ 大连理工大学国际信息科学与工程学院 § 鹏城实验室0{atlantis918}@hotmail.com, {zbhuang,rollingplain}@mail.dlut.edu.cn, {xin.fan,rsliu}@dlut.edu.cn0TarDAL效率比较0检测评估（mAP@.5）0平均运行时间（秒）0RFN0DDcGAN0TarDAL0FusionGAN0MFEIF0U2Fusion0GANMcC0DenseFuse0图1.从左到右：与最先进技术的检测准确率和计算比较，我们基准M3FD的场景和像素分布。我们的方法在检测率更高、平均运行时间更短和训练参数更少方面优于所有对手。M3FD涵盖了广泛的场景，特别是两种模态的像素变化范围。0摘要0本研究解决了融合红外和可见光图像在目标检测中呈现不同的问题。以生成高视觉质量的图像为目标，先前的方法发现了两种模态的共同特征，并通过迭代优化或深度网络在共同空间上进行融合。这些方法忽视了模态差异所蕴含的互补信息对于融合和后续检测任务的重要性。本文提出了一个双层优化形式来解决融合和检测的联合问题，然后展开为一个面向目标感知的双对抗学习（TarDAL）网络用于融合和常用的检测网络。融合网络具有一个生成器和双判别器，旨在在学习差异的同时寻找共同点，从红外中保留目标的结构信息，从可见光中保留纹理细节。此外，我们构建了一个带有校准红外和光学传感器的同步成像系统，并收集了目前最全面的基准，涵盖了广泛的场景。在几个公共数据集和我们的基准上进行了大量实验，证明我们的方法不仅输出视觉上吸引人的融合结果，而且比最先进的方法具有更高的检测mAP。源代码和基准可在https://github.com/dlut-dimt/TarDAL获得。01. 简介0多模态成像在各种应用中引起了广泛关注，例如监控[28]和自动驾驶[5]，随着感知硬件的快速发展。特别是红外和可见光传感器的组合对于后续智能处理[11, 38,39]具有显著优势。可见光成像在良好定义的照明条件下提供了高空间分辨率的丰富细节，而红外传感器则捕捉到从物体发射的环境温度变化，突出显示对光照变化不敏感的热目标的结构。不幸的是，红外图像通常伴随着模糊的细节和较低的空间分辨率。由于它们明显的外观差异，很难通过充分利用红外和可见光的互补信息来融合视觉上吸引人的图像和/或支持更高级别的视觉任务，如分割[4, 29]，跟踪[2,7]和检测[32]。过去几十年中，已经开发了许多旨在提高视觉质量的红外和可见光图像融合（IVIF）方法。传统的多尺度变换[10, 24]，优化模型[16, 20, 41]，稀疏表示[37,43]和子空间方法试图发现两种模态的内在共同特征，并设计适当的融合加权规则。这些方法1https://www.ino.ca/en/technologies/video-analytics-dataset/videos/2http://vcipl-okstate.org/ pbvs/bench/58030传统方法通常需要调用耗时的迭代优化过程。最近，研究人员在训练时利用了大量准备充分的图像对，通过学习强大的特征表示和/或加权策略将深度网络引入到IVIF中[8, 12,21-23,35]。融合结果是一个高效的推断过程，可以产生丰富的质量改进。然而，无论是传统的还是深度的IVIF方法都致力于提高质量，而忽略了后续的检测，这是许多实际计算机视觉应用的关键。融合更加强调“寻求共同之处”，但忽略了这两种模态在呈现目标结构信息和环境背景纹理细节方面的差异。这些差异在区分目标的不同特征以及生成对人类检查有利的高对比度清晰外观方面起着关键作用。此外，从这些差异（实际上是互补信息）中学习需要来自这两种模态的全面的成像数据集。在光照和天气变化的场景中拍摄的图像在两种模态下具有显著不同的特征。不幸的是，现有的数据集只涵盖了有限的条件，阻碍了学习互补信息和验证有效性。本文提出了一个联合融合和检测问题的双层优化公式。这个公式展开为一个精心设计的双对抗融合网络，由一个生成器和两个目标感知鉴别器组成，以及一个常用的检测网络。一个鉴别器区分红外成像的图像域中的前景热目标，而另一个鉴别器区分可见图像的梯度域中的背景纹理细节。我们还推导出一种协同训练策略，为两个网络学习最优参数。图1展示了我们的方法比现有技术（SOTA）更准确地从目标明显且视觉效果好的融合中检测出物体，所需时间更少，参数更少。我们的贡献有四个方面：0•我们采用双层优化公式同时进行图像融合和目标检测，产生高检测准确性和更好视觉效果的融合图像。0•我们设计了一个面向检测的目标感知双对抗学习网络（TarDAL），该网络具有较少的参数。这个单生成器和双鉴别器网络“在学习差异时寻求共同之处”，保留了红外目标的信息和可见光的纹理细节。0•我们从双层公式中推导出一种协同训练方案，为快速推断（融合和检测）学习最优网络参数。0•我们建立了一个具有良好校准的红外和光学传感器的同步成像系统，并收集了一个多场景多模态数据集（M3FD），其中包含4,177对对齐的红外和可见光图像以及23,635个注释的目标。该数据集涵盖了四个主要场景，具有各种环境、照明、季节和天气，具有广泛的像素变化，如图1所示。02. 相关工作0融合模块对于从多模态传感器中检测物体至关重要。本节简要回顾了与我们的学习为基础的IVIF方法密切相关的以及用于学习和经验评估的必要基准。02.1. 基于学习的方法0由于多层神经网络具有强大的非线性拟合能力，深度学习在低级别视觉任务中取得了有希望的进展[12, 15, 17, 19, 23,25, 35,40]。早期的研究将深度网络作为特征提取或权重生成的模块插入到IVIF过程中[8, 12, 13,16]。Liu等人[16]级联了两个预训练的CNN，一个用于特征学习，另一个用于权重学习。研究人员还采用端到端架构，使得一步网络推断可以通过一组网络参数生成一个合理的融合图像。Li等人[9]引入了一个残差融合网络，以在公共空间中学习增强特征，产生对人类检查有利的结构一致的结果。最近，基于生成对抗网络（GAN）[26, 36,42]的IVIF方法通过将不同分布转移到所需的分布[21-23]，产生了令人满意的结果。Ma等人首次引入了融合和可见光之间的对抗性游戏，以增强纹理细节[22]。然而，这种信号对抗机制可能会丢失红外线的重要信息。Ma等人将相同的对抗策略应用于可见光和红外线，部分补偿了红外信息[21]。不幸的是，所有这些方法都无法捕捉到这两种成像类型的不同特征。值得研究这些互补的差异，从中融合和检测都能受益。02.2. 基准0近年来，我们目睹了IVIF基准的快速发展，包括TNO图像融合[33]、INO视频分析[1]、OSU彩色热红外[2]、RoadScene[35]和多光谱数据集[32]。(a) Problem FormulationTarget-aware constrain DetectionGeneratorInfrared ImagesVisible ImagesFused ImageForeground TargetsBackground DetailsDetailDiscriminator�real� �real� �fake� �fake� Fused Background DetailsFused Foreground TargetsTargetDiscriminator(b) Dual Adversarial Fusion NetworkFusionFusionFusion�:Optimal Fusion Solution:Optimal Detection SolutionFusionFusionFusionDetection(c) Cooperative TrainingFP BP 58040(a) 问题建模0面向目标的约束检测0生成器0红外图像0可见光图像0融合图像0前景目标0背景细节0详细判别器0融合背景细节0融合前景目标0目标判别器0(b) 双对抗融合网络0融合融合0最优融合解最优检测解0融合融合检测0(c) 合作训练0图2. 方法框架：(a) 融合和检测的双层优化模型，(b) 面向目标的对抗双学习网络用于融合，(c) 合作训练方案。0场景 : x : Road y : Campus z : Street { : Hash Weather | : Disguise } : Smoogy ~ : Forest : Others0数据集图像对分辨率颜色摄像机角度夜间物体场景注释0TNO 261 768 × 576 � 水平 65 少量 x|}~ � INO 2100 328 × 254 � 监控 � 少量 x{ � OUS 285 320 × 240 � 监控 � 少量x � Roadscene 221 768 × 576 � 驾驶 122 中等 xz � Multispectral 2999 768 × 576 � 驾驶 1139 14146 xz � M 3 FD4200 1024 × 768 � 乘法 1671 33603 x � �0表1. M3FD和现有对齐多模态数据集的说明。分辨率指的是数据集中不同分辨率的平均值。0TNO数据集[33]是最常用的公开IVIF数据集，包含261对白天和夜晚的多光谱图像。INO数据集由加拿大国家光学研究所提供，包含对齐的红外和可见光图像对。它有助于在具有挑战性的环境中开发用于视频分析应用的多种传感器类型。OSU彩色热红外数据库是为基于融合的目标检测而建立的，包含285对注册的红外和彩色可见光图像。整个数据集在俄亥俄州立大学校园的繁忙路径上采集，白天拍摄。Xu等人发布了Roadscene，其中包含221对对齐的红外和可见光图像，场景中包含车辆和行人等丰富的物体。Takumi等人提出了一种新颖的多光谱数据集，用于自动驾驶，包括RGB、NIR、MIR和FIR图像以及注释的物体类别。表1列出了这些数据集的概况，如尺度、分辨率、光照和场景类别。现有数据集的低分辨率、有限的物体和场景类型以及少量的标签限制了现有数据集在多模态高级检测任务上的广泛应用。03. 提出的方法0本节详细介绍了我们的方法，从融合和检测的双层优化模型开始。然后，我们0详细阐述了面向目标的双对抗学习网络用于融合。最后，我们提出了一种合作训练方案，用于学习融合和检测的最优参数。03.1. 问题建模0与以往注重高视觉质量的方法不同，我们认为IVIF必须生成一幅既有利于视觉检查又有利于计算机感知的图像，即面向检测的融合。假设红外、可见光和融合图像都是灰度图像，大小为m×n，分别表示为列向量x、y和u∈Rmn×1。根据Stackelberg理论[14, 18,27]，我们将面向检测的融合问题建模为一个双层优化模型：0min ωd Ld � Ψ(u�; ωd) �, (1)0s.t. u� ∈ arg min u f(u; x, y) + gT(u; x) + gD(u; y), (2)0其中Ld是检测特定的训练损失，Ψ表示具有可学习参数ωd的检测网络。f(∙)是一个基于能量的保真度项，包含融合图像u和源图像x、y，而gT(∙)和gD(∙)是分别定义在红外和可见光上的两个可行性约束。图2（a）说明了这个双层形式使得可以找到相互促进融合和ConvBNReLU11ConvReLUConvTanhConvBNReLUConvBNReLUConvBNReLUFCGeneratorDiscriminator58050然而，通过传统的优化技术解决方程（2）是非常困难的，因为融合任务不是一个简单的等式/不等式约束。相反，我们引入一个具有学习参数ωf的融合网络Φ，并将双层优化转化为单层优化：0min ωd, ωf Ld � Ψ(u�; ωd) �, s.t. u� = Φ(x, y; ωf). (30因此，我们将优化分解为两个学习网络Φ和Ψ。我们采用YOLOv53作为我们的检测网络Ψ的主干，其中Ld也遵循其设置，并仔细设计融合网络Φ如下。3.2.面向目标的双对抗网络0典型的深度融合方法致力于学习两种模态之间的共同特征，而我们的融合网络则在学习差异中寻找共同之处，这些差异暗示了这两种类型成像的互补特性。通常，红外突出显示目标的独特结构，而可见光提供背景的纹理细节。我们引入了一个对抗博弈，其中包括一个生成器和两个判别器，以将两种模态的共同特征与不同特征相结合，如图2（b）所示。生成器G被鼓励提供一个逼真的融合图像，同时欺骗两个判别器。目标判别器DT评估红外中的目标与由G生成的融合图像中被遮罩的目标之间的强度一致性（图2（b）的顶部行）；细节判别器DD区分可见光的梯度分布与融合图像的梯度分布（图2（b）的底部行）。这两个判别器在不同的领域中工作，因为目标展示出一致的强度分布，而梯度则表征纹理。生成器：生成器用于生成一个融合图像，保持整体结构并保持与源图像类似的强度分布。常用的结构相似性指数（SSIM）[34]作为损失函数：0LSSIM = (1 - SSIMu,x) / 2 + (1 - SSIMu,y) / 2，(4)0其中LSSIM表示结构相似性损失。为了平衡源图像的像素强度分布，我们引入了基于显著度权重（SDW）的像素损失。假设x在第k个像素的显著度值为0像素可以通过Sx(k) = 255 *0i =0 Hx(i) | x(k) - i |,0其中x(k)是第k个像素的值，Hx是像素值i的直方图，我们将像素损失Lpixel定义为：0Lpixel = ∥u - ω1x∥1 + ∥u - ω2y∥1, (5)0其中ω1 = Sx(k) / [Sx(k) - Sy(k)]，ω2 = 1 - ω1。03 https://github.com/ultralytics/YOLOv50我们使用一个5层的密集块[6]作为G来提取共同特征，然后使用一个合并块和三个卷积层进行特征聚合。每个卷积层包括一个卷积操作、批量归一化和ReLU激活函数。生成的融合图像u与源图像具有相同的大小。目标和细节判别器：目标判别器DT用于区分融合结果的前景热目标与红外之间的差异，而细节判别器DD用于区分融合结果的背景细节与可见光之间的差异。我们使用预训练的显著性检测网络[3]从红外图像中计算目标掩码m，以便两个判别器可以在各自的区域（目标和背景）上执行。因此，我们定义对抗损失Ladvf为：0LfDT=Ex�˜p(R(x))[D(x)]−E˜x�˜p(R(u))[D(˜x)],（6）0LfDD=Ex�˜p(ˆR(�y))[D(x)]−E˜x�˜p(ˆR(�u))[D(˜x)],（7）0Ladvf=LfDT+LfDD，（8）0其中R=x⊙m和ˆR=1−R，区分目标和背景，⊙表示逐点乘法。�(∙)表示梯度操作，例如Sobel。这些判别器的对抗性损失函数计算Wasserstein散度，以相互识别前景热目标和背景纹理细节是否真实，定义为：LDT=LfDT+kE˜x�˜r(R(x))[(∥�DT(˜x)∥)p]，（9）0LDD=LfDD+kE˜x�˜r(ˆR(�x))[(∥�DD(˜x)∥)p]，（10）0其中˜r(x)表示与˜p(x)相似的样本空间。通常，k和p分别设置为2和6。两个判别器DT和DD共享相同的网络结构，具有四个卷积层和一个全连接层。图3展示了生成器和双判别器的详细架构。总的来说，Lf是上述三个主要部分的组合：Lf=LSSIM + αLpixel + βLadvf，（11）0其中α和β是权衡参数。0图3. 我们生成器和判别器的架构。03.3. 合作训练策略0双层优化自然地导出了一种合作训练策略，以获得最优的网络参数ω=(ωd,ωf)。我们引入了一个融合正则化器Lf，并将优化检测受融合约束的方程（3）转化为相互优化的方程：DaytimeNightOvercast Challenge Cross RoadPromenadeDisguiseSmoggySevere weatherSeascapeRoadsceneNatureCampusStrong light58060白天夜晚阴天挑战0图4. 我们M3FD数据集中红外-可见光图像的可视化。该数据集涵盖了各种环境、照明、季节和天气的广泛场景。0min ωd, ωf Ld�Ψ(u�; ωd)�+λLf�Φ(x, y; ωf)�,（12）0s.t. u�=Φ(x, y; ωf), (13)0其中λ是权衡参数。与设计加权规则不同，这个正则化器可以很好地平衡融合和检测。图2（c）说明了梯度传播的流程，以合作训练融合和检测网络。对于ωd和ωf的损失梯度计算如下：0∂ωd=∂Ld0∂Ψd∂Ψd∂ωd,∂Ld0∂ωf=∂Ld0∂Ψd∂Ψd∂Ψf∂Ψf∂ωf+λ∂Lf0∂Ψf∂Ψf∂0（14）这些方程揭示了检测损失相对于检测参数的梯度以及相对于融合参数的梯度都是反向传播的，后者还包括了融合损失相对于融合参数的梯度。最后，这种策略不仅可以生成视觉上吸引人的图像，还可以输出准确的检测结果，给出经过训练的网络参数，使我们能够找到检测导向融合的最优解，并且比独立训练方案更加高效地收敛。04. 多场景多模态基准0现有的红外和可见光图像数据集几乎无法应用于学习和/或评估多模态数据的检测。我们的基准数据集M3FD包含了高分辨率的红外和可见光图像，涵盖了不同场景中的各种物体类型，如表1的最后一行所示。0图5. 我们的同步成像系统示意图。0我们构建了一个同步系统，其中包含一个双目光学相机和一个双目红外传感器（如图5所示），以捕捉自然场景的对应的双模态图像。基线（距离0可见和红外双目相机的焦点中心之间的光学中心距离分别为12cm和20cm，可见和红外传感器之间的光学中心距离为4cm。可见图像具有1024×768的高分辨率和广泛的成像范围，而红外图像具有640×512的标准分辨率和8-14µm的波长范围。我们首先校准了所有相机以估计其内部和外部参数，然后计算了一个单应性矩阵，将红外图像的坐标投影到可见图像的坐标上。最终，通过将所有图像映射到一个公共坐标4，我们获得了大小为1024×768的对齐的红外/可见图像对。我们将M 3FD中的所有4200个对齐对分为四种典型类型，即白天、阴天、夜晚和挑战，其中有十个子场景如图4所示。同时，我们对六类物体（人、汽车、公交车、摩托车、卡车和灯）进行了33603个注释，这些物体在监控和自动驾驶中经常出现。M 3FD的数量和多样性为通过融合图像学习和评估目标检测提供了可能性。05. 实验0我们在四个数据集上进行了实验评估（三个用于红外-可见图像融合，即TNO、Roadscene和M 3FD，两个用于目标检测，即MS和M 3FD）。从中选择了180/3500个多模态图像，并通过随机裁剪将其裁剪为24k/151k个大小为320×320像素的补丁，分别用于训练融合和检测任务。调整参数α和β分别设置为20和0.1。Adam优化器使用学习率为1.0×10-3和指数衰减来更新网络参数。设置了300个epoch，批量大小为64。我们的方法在PyTorch上实现，使用了NVIDIA Tesla V100GPU。05.1. 红外-可见图像融合的结果0我们通过与7种最先进的方法进行比较来评估TarDAL的融合性能，包括DenseFuse [8]、FusionGAN [22]、RFN[9]、GANMcC [23]、DDcGAN [21]、MFEIF[12]和U2Fusion [35]。04 这个数据集包括红外和可见传感器的图像对，双目相机的深度数据将来会发布。DenseFuseFusionGANRFNGANMcCDDcGANMFEIFU2FusionTarDAL58070红外图像可见图像 DenseFuse FusionGAN RFN GANMcC DDcGAN MFEIF U2Fusion TarDAL0图6. 在TNO、RoadScene和M 3 FD数据集中，我们的TarDAL与最先进的方法进行了典型图像对的视觉比较。0图7. 在TNO、RoadScene和M 3FD数据集上与七种红外-可见图像融合方法进行定量比较。x轴表示指标，y轴表示值。（�）。在箱子中，橙色线条和绿色标记分别表示中位数和均值。0定性比较从三个数据集中选择了三对典型图像对进行直观的定性结果展示，如图6所示。与其他现有方法相比，我们的TarDAL具有两个显著优势。首先，我们的方法可以很好地保留红外图像中的可辨别目标。如图6所示（第二组的绿色标记），我们的方法中的人物呈现出高对比度和明显的轮廓，有利于视觉观察。其次，我们的结果可以保留可见图像中丰富的纹理细节（第一组和第三组的绿色标记），更符合人类视觉系统。相比之下，视觉检查显示DenseFuse和FusionGAN无法很好地突出显示可辨别的目标，而GANMcC和DDcGAN无法获得丰富的纹理细节。值得注意的是，我们的TarDAL能够生成更加视觉友好的融合结果，具有清晰的目标、更锐利的边缘轮廓和保留丰富的纹理细节。0定量比较随后，我们在400对图像（来自TNO的20对图像，来自RoadScene的40对图像和来自M 3FD的340对图像）上与上述竞争对手进行了定量比较。此外，引入了三个评估指标，即互信息（MI）[30]，熵（EN）[31]和标准差（SD）[1]进行评估。定量结果如图7所示。从统计结果可以看出，我们的方法不断生成0在所有评估指标中，我们的方法在三个数据集上的平均值中取得了最大或次大的值。同时，较低的方差表示我们的方法在处理各种视觉场景时更加稳定。具体而言，MI上的最大平均值证明了我们的方法从两个源图像中传递了更多有意义的信息。EN和SD的值表明我们的结果包含丰富的信息，并且目标与背景之间具有最高的对比度。总之，我们的方法在一定程度上稳定地保留了有用的信息，特别是最具有区分性的目标、最丰富的纹理细节以及与源图像相当的结构相似性。05.2. 红外-可见目标检测结果0为了全面讨论IVIF如何影响多模态目标检测性能，我们使用了两个数据集，即多光谱和M 3FD。其中，我们将YOLOv5作为目标检测的基准模型。为了公平比较，我们分别保留了七种最先进方法的融合结果上的检测模型。定性比较如图8所示，仅使用红外或可见传感器无法很好地进行检测，例如红外图像中的停车车辆和可见图像中的人物。相反，几乎所有的融合方法都通过利用双方的互补信息来提高检测性能。通过设计ME(s)Visible0.717 0.822 0.7400.6910.531 0.7390.5910.8240.7870.7590.7560.7790.756---DenseFuse0.754 0.833 0.8290.7490.607 0.7550.6080.7590.8060.8370.7760.7910.7830.07448.920.251FusionGAN 0.763 0.846 0.8280.7510.575 0.7560.6010.8160.7980.6670.7730.7650.7880.925497.760.124RFN0.505 0.619 0.5200.5120.427 0.6050.5920.7960.8030.8270.7930.7940.79610.93-0.238GANMcC0.472 0.811 0.7650.6800.620 0.7240.6030.7960.8110.8270.7900.8050.7971.8641002.560.246DDcGAN0.735 0.841 0.8100.7610.645 0.7660.5940.7800.7710.6890.7760.7480.7441.097896.840.211MFEIF0.760 0.837 0.7900.7410.640 0.7550.6070.7700.8120.6830.7780.7440.7180.15825.320.045U2Fusion0.574 0.599 0.5790.5300.432 0.5620.6040.7930.7830.8360.7730.8010.7820.659366.340.123TarDAL0.762 0.868 0.8330.7570.678 0.7800.6130.8230.8160.8460.8690.8460.8070.29614.880.04158080红外图像可见图像 DenseFuse FusionGAN RFN GANMcC DDcGAN MFEIF U2Fusion TarDAL0图8. 我们的TarDAL与多光谱和M 3 FD数据集上最先进方法的视觉比较。0方法多光谱数据集 M 3 FD数据集高效分析0红外 0.753 0.753 0.733 0.739 0.492 0.709 0.589 0.803 0.795 0.709 0.734 0.748 0.781 - - -0表2. 在多光谱和M 3FD数据集上，各种图像融合方法+检测器（YOLOv5）的目标检测定量结果。最佳结果以红色表示，次佳结果以蓝色表示。0通过目标感知的双层对抗学习和合作训练方案的集成，我们可以连续生成一个便于检测的融合结果，在检测人和车辆方面具有优势，例如遥远岩石上的遮蔽汽车和行人。0定量比较表2报告了两个数据集上的定量结果。几乎所有的融合方法都取得了有希望的检测结果，其中检测AP大大超过仅使用可见光或红外图像的情况。需要注意的是，我们的TarDAL在两个数据集上的检测mAP方面优于其他方法，相较于第二名DenseFuse和GANMcC，分别提高了1.4%和1.1%。值得指出的是，我们的TarDAL在处理挑战场景方面具有优势，因为TarDAL充分发现了不同模态的独特信息。0计算复杂度分析为了全面分析我们方法的计算复杂度，我们提供了所有方法的时间消耗和计算效率。如表2的最后一列所示，CNN的强大计算能力使得这些基于学习的方法能够实现高速度。需要注意的是，我们的方法在FLOPs和训练参数方面同时实现了最高的运行速度和较低的计算复杂度，集成了后续方法。0高效率的高级视觉应用。05.3. 割舍研究0模型架构研究我们研究了我们方法的模型架构，并进一步验证了不同单独组件的有效性。首先，我们从整个网络中移除了目标判别器DT。如图9所示，由于这个变体中缺乏区分性显著的红外目标，融合结果倾向于在一定程度上模糊目标。此外，在表3中，需要注意的是DT在融合后提升了检测性能方面也起到了至关重要的作用。其次，细节判别器DD在保留可见光图像的纹理细节方面有贡献。在没有DD的情况下，融合图像的背景细节无法完全恢复，直观的视觉结果可以在图9中找到。然而，由于冗余的背景细节，DD对目标检测产生了微小的负面影响。此外，在我们的整个网络中没有集成DT和DD的情况下，EN和SD可以在TNO数据集上取得最高值。这是因为融合结果上的严重噪声可能导致EN和SD方面的显著上升。总之，我们的方法依赖于每个步骤的中间结果，每个步骤对最终融合结果起到了积极的作用。分析训练损失函数我们讨论了训练过程中的损失函数。58090模型判别器 TNO 数据集 Roadscene 数据集 M 3 FD 数据集0DT DD MI EN SD MI EN SD MI EN SD mAP@.50M1 � � 2.506 7.223 53.107 3.307 7.295 48.561 2.942 7.282 44.857 0.7220M2 � � 2.591 7.045 50.245 3.274 7.128 46.751 2.842 6.981 39.364 0.7190M3 � � 2.596 7.024 46.727 3.127 7.037 42.656 2.814 7.086 41.255 0.7810M4 � � 2.766 7.177 51.352 3.378 7.355 49.637 3.211 7.313 45.827 0.8070表3. 不同模型架构的定量比较。最佳结果用红色表示，第二好的结果用蓝色表示。0训练策略多光谱数据集 M 3 FD数据集0行人车辆自行车车辆停止锥桶全部 mAP@.5 白天阴天夜晚挑战全部 mAP@.50TarDAL DT 0.762 0.868 0.833 0.757 0.678 0.780 0.613 0.823 0.816 0.846 0.869 0.846 0.8070TarDAL T T 0.827 0.862 0.881 0.667 0.539 0.755 0.615 0.827 0.828 0.862 0.881 0.850 0.8090TarDAL CT 0.843 0.863 0.892 0.762 0.679 0.807 0.624 0.816 0.844 0.904 0.935 0.875 0.8110表4. 不同训练策略的定量比较。最佳结果用红色表示，第二好的结果用蓝色表示。0图9.渐进融合结果。从左到右：源图像，基础网络，无DT，无DD和完整模型。0不同损失函数对我们方法的影响。在图10中，很容易注意到我们的方法可以保持具有高对比度的显著像素分布，而没有SDW的方法则不能。这可以说明新设计的SDW函数的有效性。同时，没有m的方法可能会丢失一些重要的细节，例如叶子和烟囱轮廓。这是因为m允许两个鉴别器在各自的区域进行对抗性学习，因此更加关注它们独特的特征。0红外图像可见光图像无SDW 无m 我们的方法0图10. 关于损失函数的定性结果。0红外图像可见光图像 TarDAL DT TarDAL T T TarDAL CT0图11. 不同训练策略的视觉比较。0评估不同版本的训练策略。我们进一步验证了我们的合作训练（CT）与直接训练（DT）和任务导向训练（TT）相比的优势。如图11所示，TT仅使用检测损失来训练网络，导致观察效果较差。相比之下，CT在提升检测性能和改善视觉效果方面具有显著优势。在表4中也可以找到相同的趋势，CT在两个不同数据集中达到最高或第二高的分数。06. 结论0在本文中，提出了一个联合实现融合和检测的双层优化形式。通过将模型展开为一个设计良好的融合网络和一个常用的检测网络，我们可以生成一个对融合和目标检测友好的结果。为了促进这个领域的未来研究，我们提出了一个具有可见-红外传感器的同步成像系统，并收集了一个多场景多模态基准。致谢：本工作部分得到了中国国家重点研发计划（2020YF-B1313503），中国国家自然科学基金（Nos.61922019、61733002、61906029和62027826）以及中央高校基本科研业务费的支持。58100参考文献0[1] V Aslantas和EBendes。图像融合的新图像质量度量：差异相关性之和。AEU-国际电子与通信杂志，69(12)：1890-1896，2015年。0[2] Guillem Bras´o和LauraLeal-Taix´e。学习多目标跟踪的神经求解器。在IEEE/CVFCVPR中，页码6247-6257，2020年。0[3] Zijun Deng，Xiaowei Hu，Lei Zhu，Xuemiao Xu，JingQin，Guoqiang Han和Pheng-AnnHeng。R3net：用于显著性检测的循环残差细化网络。在IJCAI中，页码684-690，2018年。0[4] Jun Fu，Jing Liu，Haijie Tian，Yong Li，Yongjun Bao，ZhiweiFang和Hanqing Lu。用于场景分割的双重注意力网络。在IEEE/CVFCVPR中，页码3146-3154，2019年。0[5] Hongbo Gao，Bo Cheng，Jianqiang Wang，KeqiangLi，Jianhui Zhao和DeyiLi。在自动驾驶环境中使用基于CNN的视觉和激光雷达融合的目标分类。IEEE TII，14(9)：4224-4231，2018年。0[6] Gao Huang，Zhuang Liu，Geoff Pleiss，Laurens Van DerMaaten和Kilian Weinberger。具有密集连接的卷积网络。IEEETPAMI，2019年。0[7] Bo Li，Wei Wu，Qiang Wang，Fangyi Zhang，JunliangXing和JunjieYan。Siamrpn++：具有非常深的网络的孪生视觉跟踪的演进。在IEEE/CVF CVPR中，页码4282-4291，2019年。0[8] Hui Li和Xiao-JunWu。Densefuse：红外和可见光图像融合方法。IEEETIP，28(5)：2614-2623，2018年。0[9] Hui Li，Xiao-Jun Wu和JosefKittler。RFN-Nest：一种用于红外和可见光图像的端到端残差融合网络。信息融合，73：72-86，2021年。0[10] Shutao Li，Xudong Kang和Jianwen Hu。引导滤波的图像融合。IEEETIP，22（7）：2864-2875，2013年。0[11] Zhuoxiao Li，Jinyuan Liu，Risheng Liu，Xin Fan，ZhongxuanLuo和WenGao。面向多模态图像融合的多任务编码器。在IEEEICME中，页1-6。IEEE，20210[12] Jinyuan Liu，Xin Fan，Ji Jiang，Risheng Liu和ZhongxuanLuo。学习深度多尺度特征集合和边缘注意引导的图像融合。IEEETCSVT，2021年。0[13] Jinyuan Liu，Yuhui Wu，Zhanbo H

下载后可阅读完整内容，剩余1页未读，立即下载