没有合适的资源?快使用搜索试试~ 我知道了~
877ISNet:红外小目标检测中的形状问题张明进1,4,张瑞1*,杨宇翔2,白海晨1,张静3,郭杰11西安电子科技大学电信工程学院综合业务网国家重点实验室jguo@mail.xidian.edu.cnsydney.edu.auhcbai@stu.xidian.edu.cnyyx@hdu.edu.cnwoshizhangrui@stu.xidian.edu.cnmjinzhang@xidian.edu.cn摘要红外小目标检测(IRSTD)是指从模糊背景中提取弱小目标,在交通管理、海上救援等领域有着广泛的应用。红外目标由于信噪比低、对比度低,容易淹没在强噪声和杂波背景中。如何准确地检测红外目标的形状信息一直是一个难题。在本文中,我们提出了一种新的红外形状网络(ISNet),其中泰勒有限差分(TFD )启 发的 边缘块 和两 个方向 的注 意力聚 集(TOAA)块设计来解决这个问题。具体而言,TFD启发的边缘块从不同层次聚合和增强了综合边缘信息,以提高目标与背景的对比度,同时也为数学解释提取形状信息奠定了基础TOAA模块利用注意机制在行和列两个方向上计算低层信息,并将其与高层信息融合,以捕捉目标的形状特征并抑制噪声。此外,我们构建了一个新的基准,包括1,000个真实的图像,在各种目标形状,不同的目标大小,和丰富的杂波背景与准确的像素级注释,称为IRSTD-1 k。在公共数据集和IRSTD-1 k上的实验表明,我们的方法优于代表性的最先 进 的 IRSTD 方 法 。 数 据 集 和 代 码 可 在github.com/RuiZhang97/ISNet获得。1. 介绍红外小目标检测(IRSTD)具有广泛的重要应用,如交通管理和海上救援[8,33,37]。这些领域的误判可能会对真实的多个方面造成重大损害*通讯作者。世界因此,提高红外光谱技术是学术研究和产业分工的重点之一。与一般目标检测相比,红外小目标具有以下特点:1)弱小:红外图像背景噪声和杂波较多,目标容易淹没在背景中,导致图像对比度低,信杂比低。2)小:由于相机到物体的距离较长,红外目标通常仅占据图像中的约1至10个像素。3)形状变化:目标的形状和大小在不同的场景和情况下会有所不同-针对不同的目标类型。为了检测红外小目标,研究人员基于图像处理和机器学习技术,包括滤波、人类视觉系统(HVS)和低秩表示等,进行了一些开创性的工作。然而,这些传统的方法都有一定的局限性。基于滤波的方法,如顶帽滤波器[2]和最大中值/最大均值滤波器[9],只能抑制均匀的背景杂波,但不能抑制复杂的背景噪声,导致虚警率高,性能不稳定。对于基于HVS的方法,基于谱残差的方法[16]不能有效地抑制背景中的杂波。基于局部对比度的方法[4,12]仅适用于高对比度目标,而不是暗淡目标。基于低秩表示的方法[5,10,38,39]可以适应低SCR红外图像,但在复杂背景中具有小且形状变化的目标的图像除了上述问题之外,大多数传统方法严重依赖于手工制作的特征,这在处理具有挑战性的情况时是次优的且无效的。此外,手工特征的设计和超参数的调整需要专家知识和大量的工程努力。随着深度学习在许多领域的成功,它为上述问题提供了新的解决方案。卷积神经网络(CNN)可以有效地从878···红外小目标,由于数据驱动和端到端的学习范式。Liu等人。 [19]应用多层感知(MLP)并为IRSTD构建了一个五层网络。使用条件生成对抗网络,Wang et al.[34]提出了IRTD的MDvsFA,并实现了两个指标之间的平衡,即,漏检与假警报为了从不同层提取上下文特征,Dai等人 [6]提出了一种非对称上下文调制(ACM)特征融合方法(ACMNet)。现有的基于卷积神经网络的红外目标检测方法虽然取得了较好的效果,但只能检测出红外图像中小目标的存在,而且检测出的目标轮廓非常模糊。实际上,红外目标的边缘和形状信息不仅对目标分类至关重要,而且对海上救援等实际应用也极为重要,可以提供有用的线索帮助识别目标类型。由于红外小目标与背景之间的对比度和SCR较低,因此难以提取有用的目标边缘和形状特征,特别是从多个特征层,其中深层可能具有清晰的语义,但缺乏边缘和形状的精细细节如何精确获取红外小目标的边缘和形状是一个很有挑战性的课题。本文试图解决这一问题,提出了一种将目标形状重构与红外小目标检测相具体地说,我们设计了一个新的红外形状网络(ISNet),它包含两个关键组成部分.首先,我们设计了一个泰勒有限差分(TFD)启发的边缘块,通过从神经常微分方程(Neural ODE)区域汲取灵感来聚合边缘特征,其中ODE被解释为二阶泰勒有限差分方程。然后,我们设计了一个双向注意力聚合(TOAA)块,通过从行和列两个方向提取低级别的功能,并将它们与高级别的功能,提取跨级别的功能之后,将跨层特征馈送到TFD启发的边缘块以重建目标边缘。通过在序列中堆叠多个TFD启发的边缘块和TOAA块,还可以捕获目标的远程上下文信息。这样,网络可以更好地定位目标,并得到目标的精确形状.此外,我们应用了瓶颈结构,以去除高频噪声的红外图像,使一个更多的信息流通过网络。此外,我们还构建了一个新的基准,包括1,000个逼真的图像在各种目标形状,不同的目标大小,丰富的杂波背景与准确的像素级注释,称为IRSTD-1 k。在NUAA-SIRST数据集和IRSTD-1 k上的实验结果表明,该ISNet在虚警率、概率检测率、交并比(IoU)和信噪比等方面均优于现有的(SOTA)IRSTD方法tio和归一化交并比(nIoU)。本研究的贡献可概括为:我们提出了一个新的想法来解决IRSTD中的挑战,即,将目标形状的重建结合到小红外目标的检测中。我们设计了两个关键组件TFD启发的边缘块和TOAA块,以有效地提取边缘特征和聚合跨级别的特征噪声,低对比度和SCR红外图像。为了便于研究,我们建立了一个新的大型基准IRSTD-1 k,它由1,000幅人工标注的真实感图像组成,这些图像具有不同的目标形状、不同的目标尺寸和来自不同场景的丰富杂波背景。2. 相关工作2.1. 红外小目标检测传统的IRSTD方法依赖于图像处理技术或手工制作的特征。代表性方法包括基于HVS的方法,例如三层局部对比度测量(TLLCM)[4]和加权增强局部对比度测量(WSLCM)[12],基于滤波的方法[2,9],以及基于低秩的方法,例如重新加权的红外分块张量(RIPT)[5]、张量核范数的部分和[39]、红外分块图像(IPI)[10]和非凸秩近似最小化[38]。然而,这些基于图像处理、滤波或手工特征的方法在处理具有挑战性的情况(包括具有不同形状和大小的目标以及具有杂波和噪声的背景)时是无效的相反,由于端到端学习范式,深度神经网络可以从覆盖复杂场景的大量数据中自动学习特征[13,21,36,40]。因此,基于CNN的方法通常比传统方法提供更好的IRSTD性能Liu等人。 [19]提出了基于MLP网络的先驱IRSTD方法。基于Faster-RCNN [27]和Yolo-v3[26],McIntosh et al. [24]设计了一个目标到聚类网络 。 然 后 , Wang 等 人 。 [34] 提 出 了 SIRSTD 的MDvsFA,它实现了虚警和漏检之间的权衡。研究人员还探索了IRSTD的去噪思想[30],将小目标视为噪声,并从输入图像中减去去噪输出以获得小目标。这些方法虽然能够检测出红外图像中的小目标,但由于对目标形状建模的关注不够,无法得到通过对比,我们探索了一种新的思路,将目标形状重构融入到红外小目标的检测中,并设计了一种新的红外形状网络。它可以检测轮廓清晰的小红外目标,这有利于许多后续任务,例如,识别目标类型。879编码器23145TOAAB锁678TOAA块910头↓L11TFD启发的边缘块12TF D-无菌的边缘块TFD-在第1页第3ire14→������������ L���������埃德格布洛克解码器阀杆块残余块反褶积残差块图1.所提出的ISNet的概述,其具有带有TOAA块和TFD启发的边缘块的U-Net结构2.2. 跨层特征融合典型的跨层特征融合方法包括U-Net [28]、PAN-net[20]和基于注意力的方法[17,18,23,41]。U-Net最初是为了解决医学图像分割问题而设计的,它已被广泛应用于许多其他任务中。Redmon等人。 [25]在目标检测中利用跨层特征融合并提高了准确性。随后,在IRSTD方法中,上下文信息被杠杆化。Dai等人设计了一个ACM-Net [6]和ALCNet [7]来从不同的层中提取上下文特征。然而,红外小目标通常是与上述方法相比,我们设计了一个双向的注意力聚集块,它可以被纳入到U-Net结构中,以有效地聚集来自不同层次的特征。2.3. ODE启发网络研究人员发现了ODE和神经网络之间的有趣联系Weinan [35]首先发现了这种相似性,并在离散ODE和ResNet之间建立了联系[14]。然后,Chang等人 [3]分析了不同神经网络和ODE的相似性。基于这些相似性,研究人员设计了基于ODE的特定网络例如,He等人[15]提出了一种基于ODE的单图像超分辨率方法,实现了SOTA性能。值得注意的是,大多数现有的基于ODE的网络是基于欧拉方法[29]设计的,尽管基于泰勒方法的ODE的数值解总是可以提供更好的精度[11]。基于这一观察,我们应用泰勒公式来得到nu-对常微分方程进行了数值求解,并据此设计了一种新的边缘块,提取了红外目标的有用边缘特征。2.4. IRSTD的数据集传统方法在自建数据集上训练网络,目标的多样性有限。其中只有少数是公开的,如NUAA-SIRST [6]和MFIRST [34]。虽然这两个数据集促进了IRSTD的研究,但它们也有一些局限性。首先,MFIRST中的大多数图像是合成的,NUAA-SIRST只有有限数量的图像。其次,两个数据集都不太关注目标形状的注释,这可以提供信息性的监督信号,并且对于许多下游任务很重要。在本文中,我们建立了一个新的数据集命名为IRSTD-1 k,通过收集1,000个现实的图像与不同的目标在很大的差异和注释他们与准确的像素级掩模。3. 方法在本节中,我们首先介绍我们的ISNet的总体架构。然后,我们提出了TFD启发的边缘块的细节(第二节 ) 。 3.2 ) 和 具 有 U-Net 结 构 的 TOAA 块 ( 第 3.2节)。3.3),其次是损失函数在第二节。3.4以及第3.4节中的IRSTD-1 k数据集。三点五3.1. 整体架构如图1,单个红外图像被馈送到U-Net结构的编码器部分。然后,在U-Net结构的解码器部分中,插入所提出的TOAA块以聚合跨级别特征。通过逐步连接TOAA块和TFD启发的边缘块,我们可以获得粗略的目标形状和精细的边缘。最后,我们通过卷积分割头在精细边缘880−x−·一重锤层ReLU层门控转换图2. TFD启发的边缘块的结构(Sec. 3.2)。3.2. TFD启发的边缘块红外目标通常是弱小的,而红外图像中往往含有大量的噪声和杂波。低对比度和SCR使目标的完整边缘信息难以提取。为了解决这个问题,我们重新审视了现有方法中使用的残差网络结构与Euler方法[35]之间的相似性,并基于二阶Taylor有限差分方程设计了一种新的TFD启发边缘块,该边缘块能够聚合来自不同级别的边缘信息,并有助于获得精细的目标边缘。具体地说,我们利用有限差分方程来离散常微分方程,其中偏导数可以用一组近似差分来代替由于Tay-lor有限差分方法比Euler方法[1]具有更好的精度,因此我们采用它来设计一种新的TFD启发的边缘块。在数学上,二阶TFD方程可以公式化为:BottleNeckConv1x1DeformableConv1xk图3. TOAA块的结构(第3.3)。其中,uj表示uj+1和uj 之 间 的 残 差 。 以这种方式,TFD启发的边缘块可以以残差学习方式提取边缘特征。值得注意的是,门控卷积可以被认为是部分可学习的卷积,其中软门控机制用于更好地学习目标的边缘信息,同时抑制背景信息。具体地,u门的输入是uj+1与来自U网的对应特征(表示为p(x))的和,例如,x4,x7,和x10在图中。1.一、3.3. TOAA块由于低级别的功能通常包含精细的细节目标,这是缺乏在高级别的功能,我们设计了一个TOAA块细化的高级别的功能,以方便重建的目标形状和边缘。如图3. TOAA块由两个并行的注意模块组成其中每个人都产生了一个注意力地图,u= − 2 uj +2 + 2uj +1 − 2 uj。(一)∂x∆x然后,我们将其重写为加法形式:厄舒uj+2=−2<$x<$x+uj+1+3uj+1−3uj。(二)方向,即, 行或列方向,并使用它来分别调制高级特征。最后,将关注的特征加在一起作为块的输出。该过程可以表示为:为了简化深度神经网络的训练,我们采用了残差学习思想,并将直接映射aTOAA=TOAA(a低,a高)=行+列,(五)H(x)=F(x)+x转换为残差形式F(x)=H(x)x,其中H(x)和F(x)表示目标输出,分别学习残差我们重写Eq。(2)如:厄舒−2xx=uj+2−uj+1−3(uj+1−uj)。(三)在本文中,我们利用几个卷积层来实现从uj到uj+1的转换,并采用门控卷积u门来获得2 <$u<$x,如图所示。二、因此,Eq.(2)可以表示为:uj+2=ugate+uj+1−3 <$uj,(4)其中TOAA()表示由TOAA块学习的映射函数。LOW和HIGH分别表示来自U-Net编码器和解码器的低级和高级特征。行和列是行和列方向上的关注特征,并且可以如下获得:a行=S(Fr(Fb(a低)Fb(a高)+Fb(a低), (6)a列=S(F c(F b(a low)F b(a high)+F b(alow)。(七)JJ+1门j+2JX埃洛行埃什特罗高阿图什行柱埃洛881××··×|·||∩|··Σ1−骰子×这里S()表示sigmoid函数。Fb()代表瓶颈结构,其包括两个11卷积层以约束高频噪声。瓶颈结构类似于非负矩阵分解(NMF)的作用,它可以保留有用的特征,同时滤除冗余的高频噪声[13,22]。Fr表示a1 k可变形卷积的行方向,而Fc表示在列方向上的k-1可变形卷积。TOAA块中的这种双向注意机制促进了在两个方向上从低级特征提取形状信息,并相应地指导高级特征的细化。TOAA块插入到U-Net解码器中以执行跨级别特征融合,如图所示。1.一、3.4. 损失函数Dice Loss:Dice Loss [31]是一种用于评估掩模预测和地面实况之间差异的常用度量,其定义为:L Dice= 1 − 2|Y ′ Y|(|Y ′|+的|Y|),(十一)其中Y′Y是预测Y′和地面实况Y的交集。是遮罩中的像素数边缘损失:二进制交叉熵(BCE)损失也用于测量预测的掩模和地面实况之间的差异我们利用Dice lossLDice和BCE lossLBCE来监督边缘预测:LEdge=LEdge+λLEdge,(12)接下来,我们简要描述了我们的IS中的功能流程骰子公元前Net.首先,输入红外图像x1首先由编码器中的主干块处理,该主干块由卷积层和最大池化层组成,每个层的步长为2,以对图像进行下采样。输出x2定义为:x2=Fmax(conv(x1)),(8)其中conv()和Fmax()分别表示卷积层和然后,我们通过两个残差块执行非线性变换,以获得具有较少噪声和杂波的特征x3和x4对于解码器,我们以步幅的2,以使图像大小加倍,并获得高级特征x5。然后,我们通过TOAA块融合x5和具有相同大小的低级特征x3,以获得细化特征x6,即,x6= TOAA(x3,x5)。(九)类似地,我们将TOAA块应用于低级特征x2和高级特征x8以得到x9,即,x9= TOAA(x2,x8)。(十)通过在U-Net解码器中顺序堆叠TOAA块,我们的ISNet可以有效地提取红外目标的跨级别特征,这些特征既包含语义又包含细节,从而有利于目标形状的重建。在底部路径上,通过在输入图像上应用Sobel算子获得的粗边缘x11与来自U-Net编码器的特征x4一起被馈送到TFD启发的边缘块中以提取边缘特征。类似地,两个额外的这样的块被用于进一步细化边缘特征,该边缘特征具有从U-Net解码器中最后,边缘特征被馈送到卷积层中以获得精细的边缘预测。它还用于生成注意力以细化U-Net解码器的输出特征,其进一步由分割头用于预测最终目标掩码。其中λ是平衡两个损失的超参数,并根据经验设置为10。最终的训练目标是L边缘和掩码预测上的骰子损失的组合:L=L Edge+ L Mask。(十三)3.5. IRSTD-1 k数据集我们构建了一个新的基准称为IRSTD-1 k,由红外相机在现实世界中捕获的1,000张红外图像组成。我们在像素级手动注释目标。图像大小为512 512。IRSTD-1 k包含不同种类的小目标,如无人机、生物、船只和车辆,它们从远成像距离的不同位置捕获该数据集涵盖了许多不同的场景,背景包括海洋,河流,田野,山区,城市和云,具有沉重的clutter和噪音。IRSTD-1k可用于综合评价IRSTD方法。4. 实验4.1. 数据集和评估指标数据集:我们在IRSTD-1 k数据集和NUAA-SIRST数据集上进行实验[6]。NUAA-SINUX包含427个红外图像,而IRSTD-1 k包含1,000个红外图像。对于每个数据集,我们以50:30:20的比例将其分为训练集、验证集和测试集。评估方法:我们使用几个常见的指标比较了拟议的ISNet与SOTA方法。Inter-section over Union(IoU):IoU定义为:IoU=Ai/Au,(14)其中Ai和An分别表示相交区域和并集区域的大小。归一化交并(nIoU):nIoU是IoU的归一化,即,NnIoU=(TP[i]/(T[i]+P[i]TP[i])),(15)Ni=1882···表 1. 与 SOTA 方 法 比 较 NUAA-SILLS 和 IRSTD-1 k 的 IoU(%)、nIoU(%)、Pd(%)、Fa(10−6)。方法NUAA-SIRST(Tr=50%)IRSTD-1k(Tr=50%)像素级对象级像素级对象级IOUnIoUPDFaIOUnIoUPDFa大礼帽[2]7.143 5.201 79.84101210.06 7.438 75.111432最大值-中位数[9]4.1722.1569.20 55.33 6.998 3.051 65.21 59.73WSLCM [12]1.158 0.849 77.9554463.452 0.678 72.446619TLLCM [4]1.029 0.905 79.0958993.311 0.784 77.396738国际和平研究所[10]25.67 24.57 85.55 11.47 27.92 20.46 81.37 16.18NRAM [38]12.16 10.22 74.52 13.85 15.25 9.899 70.68 16.93RIPT [5]11.05 10.15 79.08 22.61 14.11 8.093 77.55 28.31PSTNN [39]22.40 22.35 77.95 29.11 24.57 17.93 71.99 35.26MSLSTIPT [32] 10.309.5882.13113111.43 5.932 79.031524MDvsFA [34]60.30 58.26 89.35 56.35 49.50 47.41 82.11 80.33ACM [6]72.33 71.43 96.33 9.325 60.97 58.02 90.58 21.78ALCNet [7]74.31 73.12 97.34 20.21 62.05 59.58 92.19 31.56ISNet80.02 78.12 99.18 4.924 68.77 64.84 95.56 15.39其中,N是样本的总数,TP[ ]表示真正像素的数量,T[ ]和P[ ]表示地面实况和预测正像素的数量,re-rank。检测概率(Pd):Pd是正确预测的目标Npred和所有目标Nall的比率:P d=N pred/N all。(十六)误报警率(Fa):Fa是误预测目标像素Nfalse与图像中所有像素Nall的比率:F a= N false/N all。(十七)4.2. 实现细节我们采用AdaGrad作为优化器,学习率为0.04。训练过程总共持续500个epoch,权重衰减为10−4,批量大小为8。我们选择AL-CNet [7]、ACMNet [6]和MDvsFA[34]作为代表性的基于CNN的IRSTD方法。对于传统方 法 , 我 们 选 择 Top-Hat [2] , Max-Median [9] ,WSLCM [12],[2019 - 04 - 19][2019 - 04 -19][2019 - 04 - 05][2019- 0[32]《明史》:“,4.3. 定量结果如表1所示,在NUAA-SIRST和IRSTD-1 k数据集上,与SOTA方法相比,所提出的ISNet在所有评估指标方面都实现了最佳性能。以NUAA-SINUX为例,该方法的Pd值高达99.18%。基于手工制作的特征的传统方法在具有挑战性的情况下表现不佳,从而比基于CNN的方法得分差得多。然而,基于CNN的方法IRSTD-1 k(实线)和SIRST(虚线)1.00.80.60.40.20.0电话:+86-0510 - 8888888传真:+86-0510 - 8888888假阳性率1e 4图4. NUAA-SIRST数据集(虚线)和IRSTD-1 k数据集(实线)上不同方法的ROC曲线。表2. IOU(%)、nIoU(%)、Pd(%)、Fa(10−6)中TOAA阻滞和TFD诱导边缘阻滞的消融研究。方法IOUnIoUPDFaU-Net68.3167.8592.9560.16U-Net+TOAA75.6574.8198.933.573U-Net+TFD78.0576.4999.136.465U-Net+TOAA+TFD80.0278.1299.184.924较少关注目标边缘和形状信息,遭受不准确的掩模预测,例如,降低IoU和nIoU。我们的ISNet在NUAA-SIRST上的性能优于IRSTD-1 k。这是因为IRSTD-1 k数据集包含了对IRSTD更具挑战性的情况,包括形状变化的目标和低对比度和低SCR背景以及杂波和噪声。尽管如此,我们的IS- Net仍然可以提供有希望的结果,由于设计的TOAA块,以有效地聚合跨级别的功能和TFD启发的边缘块,以提取边缘特征。我们还在图4中绘制了NUAA-SIRECT数据集上不同方法的ROC曲线。可以看出,我们的ISNet的性能明显优于其他方法,其中我们的ISNet的ROC曲线下面积(AUC)大于传统方法和基于CNN的方法,例如,0.9612 ISNet的AUC与NUAA-SIRST数据集上ALCNet[7]的 0.9495 AUC4.4. 视觉结果图5显示了通过不同方法在NUAA-SINUX数据集上获得的一些可视化结果。可以看出,即使在低对比度和低SCR的情况下,我们的ISNet不仅可以准确定位目标,而且还可以获得完整和精确的目标形状。这是因为所提出的TOAA块可以对焦油的上下文信息进行ISNetALCNetMDvsFANetIPITophatISNetALCNetMDvsFANetIPITophat真阳性率比值883红外图像TophatIPIALCNetACMNetMFvsFA cGANISNet地面实况图5.通过不同的IRSTD方法在NUAA-SIRST数据集上获得的可视化结果。右上角显示了特写视图。红色、蓝色和黄色的框分别表示正确检测到的目标、未检测到的目标和错误检测到的目标表3.IOU(%)、nIoU(%)、 Pd(%)、 Fa(10−6)中TOAA块和SOTA跨层特征融合方法的消融研究。方法基于FPN基于U-Net我们的U-NetSK [18] GAU [17] ACM [6]SKGau[41]第四十一话ALCNet [7]TOAAIOU70.2170.1573.1870.81 71.8272.1974.3175.65nIoU69.5370.1672.1369.93 69.7470.5773.1274.81PD93.7894.0296.9193.69 94.5398.2997.3498.93Fa40.2635.689.32531.23 37.6810.2120.213.573通过有效的跨层特征融合得到,而TFD启发的边缘块可以提取有用的边缘特征,以获得精细的目标边缘并帮助重建目标形状。当SCR较低时,TRA-IRSTD方法容易产生漏检测和误检测,而当局部对比度较高时,TRA-IRSTD方法容易产生误报警检测。美国有线电视新闻网-的方法通常比传统方法性能更好,但不能准确预测目标形状。4.5. 消融研究为了研究我们ISNet中每个组件的有效性TOAA和TFD边缘块的消融研究结果如表2所示。可以看出,它们中的每一个都提高了U-Net基线的性能,并且使用它们两者都提供了最佳结果,这意味着它们的互补性。TOAA块的影响:如表3所示,与其他基于FPN或U-Net的跨层特征融合方法相比,我们的TOAA大大优于它们,显示出其在融合来自884表4. IoU(%)、nIoU(%)、Pd(%)、Fa(10−6)中不同TOAA阻滞数量的消融研究TOAA块IOUnIoUPDFa068.3167.8592.9560.16173.0471.3397.699.447275.6574.8198.933.573375.6174.8598.993.798表5.TFD激发的边缘阻滞的消融研究IoU(%),nIoU(%),Pd(%),Fa(10−6)。表达式类型IOUnIoUPDFa门控转换(仅)75.3874.5598.2218.486门控Conv+瓶颈76.3275.2998.739.823门控Conv+ResBlock77.2376.0199.0214.377TFD78.0576.4999.136.465表6. 在IoU(%)、nIoU(%)、Pd(%)、Fa(10−6)中对不同数量的TFD激发边缘阻滞进行消融研究。边缘块IOUnIoUPDFa068.3167.8592.9560.16174.3573.2197.8930.21276.5674.9898.5913.61378.0576.4999.136.465478.1576.1599.279.062低和高水平。专门设计的双向注意机制促进了从低层特征中提取形状信息,并指导高层特征的细化。我们还研究了使用不同数量的TOAA块的影响。如表4所示,在不使用TOAA块的情况下,U-Net基线会产生大量错误的预测。在TOAA块的帮助下,其性能可以显著提高,特别是当使用两个TOAA块时,这提供了最佳结果并且是默认设置。TFD启发的边缘块的影响:我们还消融了所提出的TFD启发的边缘块的设计。如表7所示,如果我们只使用门卷积来重建边缘,目标很容易淹没在噪声中。引入剩余块或瓶颈结构可以提高性能。将它们结合在一起,所提出的TFD启发的边缘块实现了最佳性能。我们还进行了不同数量的TFD启发的边缘块的消融研究。从表6的前两行中,我们可以发现我们的TFD启发的边缘块显着提高了基线U-Net的形状分割性能。使用更多的块通常会提供更好的结果,但会增加模型的复杂性。表7.在IoU(%)、nIoU(%)、Pd(%)、Fa(10−6)中预处理期间对不同特征提取方法的消融研究。方法IOUnIoUPDFaSobel+TFD80.0278.1299.184.924ResBlock+TFD79.9778.2099.135.24门控Conv+TFD79.8577.9599.014.26我们选择三个块作为默认设置。Sobel算子的影响:在数据预处理阶段,我们使用Sobel算子从输入图像中提取目标的粗边缘。Sobel算子可以由其他边缘特征提取方法(诸如门控卷积和残差块)代替如表7所示,使用Sobel运算符或其他可学习的替代方法可以获得类似的结果。为简单起见,我们选择Sobel运算符作为默认设置。5. 结论我们提出了一种新的ISNet处理低对比度和低SCR情况下具有挑战性的IRSTD任务。具体来说,我们引入了两个新的组件,即,两个方向的注意力聚集块和TFD启发的边缘块,其中前者促进跨层特征融合以增强高层特征的形状表示能力,后者提取有用的边缘特征以帮助预测具有精确形状的准确目标掩模。此外,我们建立了一个新的大型IRSTD数据集命名为IRSTD-1k,它可以作为一个测试平台,用于评估IRSTD方法,并促进未来的研究。在公共数据集和我们的IRSTD-1 k数据集上的大量实验验证了所提出的将目标形状重建融入红外小目标检测的思想的有效性,以及ISNet相对于代表性方法的优越性。从红外图像中检测物体对许多实际应用都有好处,例如交通管理、海上救援和野生动物保护。尽管它仍然有可能被用于军事目的,但严格的注册预计将限制IRSTD方法以及其他人工智能技术的滥用。鸣谢本工作得到国家自然科学基金项目61902293、62036007、装备前沿研究领域基金项目80913010601、陕西省重点研发计划项目2021 GY-034、中国科协青年人才培养项目、陕西省高校科协青年人才培养项目20200103、中央高校基础研究基金项目XJS 200112的部分资助。885引用[1] 约翰·安德森。计算流体动力学:基础与应用。多学科数字出版研究所,1995年。4[2] 白祥智和周福根。新top-hat变换分析及其在红外弱小目标检测中的应用Pattern Recognition,43(6):2145-2156,2010. 一、二、六[3] Bo Chang,Lili Meng,Eldad Haber,Lars Ruthotto,David Begert,and Elliot Holtham.任意深度残差神经网络的可逆结构。在AAAI人工智能会议论文集,第1号,2018年。3[4] CL Philip Chen,Hong Li,Yantao Wei,Tian Xia,andYuan Yan Tang.一种红外小目标检测的局部对比度方法 。 IEEE Transactions on Geoscience and RemoteSensing,52(1):574-581,2013。一、二、六[5] 戴一棉和吴一泉。基于非局部和局部先验信息的加权红外贴片张量模型单帧小目标检测。 IEEE Journal ofSelected Topics in Applied Earth Observations and RemoteSensing,10(8):3752-3767,2017。一、二、六[6] Yimian Dai,Yiquan Wu,Fei Zhou,and Kobus Barnard.非对称上下文调制红外小目标检测。在IEEE/CVF计算机视觉应用冬季会议论文集,第950-959页,2021年。二三五六七[7] Yimian Dai,Yiquan Wu,Fei Zhou,and Kobus Barnard.基 于 局 部 对 比 度 网 络 的 红 外 小 目 标 检 测 。 IEEETransactions on Geoscience and Remote Sens- ing ,2021。三六七[8] 邓鹤,孙贤平,刘麦丽,叶朝辉,周鑫。基于加权局部差分测度的红外小目标检测。IEEE Transactions onGeoscience and Remote Sensing,54(7):4204-4214,2016。1[9] SuyogDDeshpande , MengHwaEr , RondaVenkateswarlu,and Philip Chan.用于小目标检测的最大均值和最大中值滤波器。在Signal and Data Processingof Small Targets 1999,卷3809,页74-83中。国际光学与光子学会,1999年。一、二、六[10] 高晨强,孟德宇,杨毅,王永涛,周晓芳,亚历山大·G·豪普特曼.一种用于单帧图像小目标检测的红外分块图像模型。IEEE Transactions on Image Processing,22(12):4996一、二、六[11] 大卫·弗朗西斯·格里菲思和德斯蒙德·J·海厄姆。常微分方程的数值方法:初值问题。施普林格,2010年。3[12] Jinhui Han , Saed Moradi , Iman Faramarzi , HonghuiZhang,Qian Zhao,Xiaojian Zhang,and Nan Li.基于加权增强局部对比度的红外小目标检测。IEEE Geoscienceand Remote Sensing Letters , 18 ( 9 ) : 1670-1674 ,2020。一、二、六[13] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition,第770-778页,2016中。二、五[14] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。IEEE/CVF计算机视觉和模式识别会议论文集,第770-778页,2016年。3[15] Xiangyu He , Zitao Mo , Peisong Wang , Yang Liu ,Mingyuan Yang,and Jian Cheng.Ode启发的网络设计,用于单图像超分辨率。在IEEE/CVF计算机视觉和模式识别会议论文集,第1732-1741页3[16] 侯晓迪和张立青。显着性检测:频谱残差方法。在2007年IEEE计算机视觉和模式识别会议上,第1-8页。IEEE,2007年。1[17] 李汉超,熊鹏飞,安洁,王凌雪。用于语义分割的金字塔注意力网络arXiv预印本arXiv:1805.10180,2018。三、七[18] 李翔、王文海、胡小林、杨剑。选择性内核网络。在IEEE/CVF计算机视觉和模式识别会议集,第510-519页三、七[19] Ming Liu , Hao-yuan Du , Yue-jin Zhao , Li-quanDong,and Mei Hui.基于深度学习的图像小目标检测方法.在计算机科学和机械自动化的当前,第211-220页2018年,德格鲁伊特波兰公开赛。2[20] 刘舒,陆琪,秦海防,石建平,贾佳雅。用于实例分段的路径聚合网络在IEEE计算机视觉和模式识别会议上,第8759-8768页,2018年3[21] Ze Liu,Yutong Lin,Yue Cao,Han Hu,Yixuan Wei,Zheng Zhang , Stephen Lin , and Baining Guo. SwinTransformer:使用移动窗口的分层视觉Transformer。IEEE/CVF计算机视觉国际会议论文集,第10012-10022页,2021年。2[22] 罗平,朱振耀,刘紫薇,王晓刚,唐晓鸥从神经元中提取知识的人脸模型压缩第三十届AAAI人工智能会议,第3560-3566页5[23] 马奔腾,张静,夏勇,陶大成。汽车学习注意力神经信息处理系统的进展,33:1488-1500,2020。3[24] 布鲁斯·麦金托什、沙尚卡·文卡塔拉曼南和阿比吉特·马哈拉诺比斯。利用卷积神经网络最大化目标杂波比度量的 杂 波 环 境 中 红 外 目 标 检 测 IEEE Transactions onAerospace and Electronic S
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功