没有合适的资源?快使用搜索试试~ 我知道了~
3783×个CrackFormer:用于细晶粒裂纹检测的Transformer网络刘华军1 *,苗翔宇1,Christoph Mertz2,徐成忠3,孔辉3*1南京理工大学、2卡内基梅隆大学、3澳门大学{liuhj,miaoxy} @ njust.edu.cn,cmertz@andrew.cmu.edu,{czxu,huikong} @ um.edu.mo摘要裂纹是在许多计算机视觉应用中感兴趣的不规则线结构裂纹检测(例如,来自路面图像)是一项具有挑战性的任务,这是由于强度不均匀性、拓扑结构复杂性、低对比度和噪声背景。整体裂纹检测精度可以显著地受到对细粒度裂纹的检测性能的影响。在这项工作 中 , 我 们 提 出 了 一 个 裂 缝 Transformer 网 络(CrackFormer)细粒度裂缝检测。该CrackFormer是由一个SegNet样的编码器-解码器架构的新颖atten- tion模块具体而言,它由具有1x1卷积核的新型自注意模块组成,用于跨特征通道进行高效的上下文信息提取,以及高效的位置嵌入,以捕获大的接收场上下文信息,用于长距离交互。它还引入了新的缩放注意力模块来组合来自相应的编码器和解码器块的输出,以抑制非语义特征并锐化语义特征。在三个经典的裂缝数据集上训练和评估裂缝形成器。实验结果表明,裂纹形成器在三个数据集上分别实现了0.871、0.877和0.881的最优数据集规模(ODS)值,并且优于现有技术的方法。1. 介绍由于强度不均匀性、拓扑结构复杂性、低对比度和噪声纹理背景,从图像中检测路面裂缝是一个具有挑战性的问题[18]。此外,裂纹的多样性(薄裂纹、网格状裂纹、厚裂纹等)也影响着裂纹的扩展。让事情变得更加困难有大量关于裂纹检测的研究[6,22,2,36,37,35,10]。最近的研究采用卷积神经网络(CNN)将检测精度提高到更高的水平。在这项研究中,我们考虑的问题,检测薄裂纹从图像的一个- phalt表面。一般来说,检测厚的要容易得多*通讯作者图1.从我们的CrackFormer模型进行裂纹预测(最佳彩色视图)。左上方是经典裂纹图像。右上角是预测结果。底部示出了具有归一化灰度的剖面切片、其基本真相和对应的裂纹预测概率。裂缝比细裂缝多。因此,裂纹检测性能在很大程度上受一种方法检测细裂纹的程度的影响。最先进的(SOTA)方法严重依赖于全卷积网络(FCN)[9],例如Seg-Net [31],U-Net [27]及其变体[21]。 SegNets和U-Nets使用编码器-解码器架构,其中编码器通过使用卷积和池化层的级联来提取高级语义表示,并且解码器利用存储的池化索引或跳过连接来重新使用来自编码器的高分辨率特征图,以便从高级表示中恢复丢失的空间信息。尽管这些方法具有突出的性能,但它们在复杂的分割任务中受到限制,例如:当处理薄裂纹或裂纹与背景之间的对比度低时。通常,这些模型依赖于堆叠的3 - 3卷积和池化操作,并且在卷积池化流水线中不能实现像素级的分割精度,导致模糊和粗糙的裂缝分割。 此外,由于有限的通过使用3×3卷积核的感受野,这些3784×个×个×个这些方法往往不能检测长裂纹,导致不连续的裂纹检测。在这项工作中,我们提出了一个裂缝Transformer网络(CrackFormer)相结合的新的自我注意力和缩放注意力机制的裂缝检测。它探索利用Transformer模型[30]的优点来捕获远程交互,同时采用小卷积核进行细粒度的注意感知。CrackFormer通过使用类似SegNet的架构来保持常规布局,但以两种不同的方式引入注意力机制。图2显示了我们的网络结构。本文的主要贡献可以概括如下,1. 提出了一种新的自注意块(Self-AB)(图1)。(3)第三章。Self-AB算法利用1×1卷积核函数,能够跨特征通道全面提取上下文信息,并通过有效的位置嵌入捕获跨空间域的大感受野上下文信息。2. 提出了一种新的缩放注意块(Scal-AB)。4),其中通过非线性化编码器的特征映射来生成缩放注意掩模的集合,并且用于抑制非语义特征和锐化语义裂缝。3. 我们提出了一个Transformer编码器-解码器结构集成所提出的Self-AB和Scal-AB块,其中Self-AB被嵌入到不同级别的编码器和解码器模块,和Scal-AB被引入之间的编码器特征映射和相应的解码器特征映射。用我们的方法预测裂纹的结果如图所示。1,其中原始图像显示在左上方,预测结果显示在右上方。在下面的一行中,我们可以从轮廓中观察到,裂纹被精确地预测2. 相关工作通过分类进行裂缝检测-自CNN被引入路面裂缝检测以来,该领域的研究取得了重大进展[6,22,2,36,37,35,10]。早期的裂纹检测工作是基于目标检测管道的损伤区域建议和损伤分类。例如,Faster R-CNN [6],YOLO [2],SSD Inception和SSD MobileNet[22]等曾用于路面损伤区域提取。虽然这些基于边界框的方法可以相当好地检测裂纹区域,但是它们不提供精确的信息,例如,裂缝通过分割进行裂纹检测-自Zhang等人[36]提出了基于像素级沥青裂缝检测在CNN模型上,一些更准确的方法使用深度神经网络分析路面损坏[37,35,10]。例如,Liu等人[21]提出了一种金字塔特征聚合网络和条件随机场(CRF)后处理方案,用于裂纹分割。Zou等人[37]在Seg-Net编码器-解码器架构上提供了用于裂缝分割的多级融合。Yang等人[35]提出了一种用于路面裂缝检测的特征金字塔和分层提升网络,其以特征金字塔的方式将上下文信息集成到用于裂缝检测的低级特征Fei等人[10]提出了CrackNet-V模型,该模型堆叠了几个3 3卷积层和一个15 15卷积核进行深度抽象,以实现裂缝分割的高性能。虽然这些基于分割的裂纹检测方法已经获得了有希望的结果,但是它们不能在像素级分割精度上实现令人满意的性能,并且导致模糊和粗糙的分割。自我注意力-最近,Transformer [30]的自我注意力机制[28,4,7,26,3]已被采用或改进图像分割任务。DANet [11]提出了一种并行的位置注意和信道注意增强的FCN,但其计算复杂度为O((HW)2C)+O(HWC2)。CC-Net [15]在水平和垂直方向上收获上下文信息,以增强逐像素表示能力,并且比非局部块[33]更有效轴向注意力[32]表明,通过将自我注意力的感受野限制在用于全景分割的局部正方形区域,可以单独堆叠自我注意力层以形成完全注意力模型。此外,已经表明[7]具有足够数量的头部的多头自注意层至少与任何卷积层一样具有表达力。 关于用自注意增强卷积模型[4]、独立自注意模型[26]或λ注意层[3]替换流行骨干中的卷积核(诸如ResNet [13]等)的探索已经取得了显著的收获。这些自注意工作具有远距离交互、局部感受野、计算和记忆效率等优点,启发了我们探索更高效的裂缝分割自注意机制。缩放注意力-自注意力对于全局依赖性建模是有效的,并且对于连接的和长距离的裂缝分割可能是有价值的。然而,对于细颗粒裂纹,仅自注意可能是不够的,细颗粒裂纹会受到噪声背景的强烈影响。因此,我们寻求尺度-注意机制的帮助.缩放注意力侧重于强调语义特征和抑制非语义特征。比如说3785×个×个图2.裂缝Transformer网络的结构。注意力门机制[23]识别显著图像区域并修剪特征响应以仅保留与特定任务相关的激活,从而提高分割性能。挤压和激励(SE)[14]模块使用全局平均池化和线性层来计算每个通道的缩放因子,然后相应地缩放通道。卷积块注意力模块(CBAM)[24]除了全局平均池化之外还添加了全局最大池化和额外的空间注意力子模块,以分别计算信道和空间域上的缩放因子。U-Net上的空间注意力[12]和多尺度注意力[5]将局部特征与其相应的全局依赖性相结合,明确地对分割任务中通道与不同尺度空间信息之间的依赖性进行建模。Oktay等人[23]提出了一种软注意机制,以对每个像素位置处的编码器和解码器特征进行软加权。这些缩放注意或注意门方法在局部感受野上操作,有助于锐化语义特征并通过Sig-moid归一化后的软掩模抑制非语义特征。3. 我们的工作3.1. 概述CrackFormer采用Seg- Net [31]的基本结构,如图2所示。为了建立低级别特征图之间的远程交互,我们提出了新的自注意块作为基本模块。为了提高裂缝的清晰度,我们在编码器和相应的解码器特征之间引入局部注意块来生成注意掩码。最后,利用不同阶段的特征图之间的多级侧融合,以融合粗到细的裂纹,以获得细化的结果。与SegNet类似,CrackFormer与此同时,相应的编码器具有{3,3,3,2,2}的对称布局。在…trast中,SegNet每层的3 × 3卷积模块被CrackFormer中的自注意块取代(第3.2节)。在每个阶段结束时,使用具有2 - 2窗口和步幅为2(非重叠窗口)的最大池化对于每个编码器特征图,存储最大池化索引,即每个池化窗口中的最大特征值的位置。适当的解码器使用来自对应的编码器特征图的存储的最大池化指标对其输入特征图进行上采样。在每个阶段,对应的编码器和解码器特征被级联以通过缩放注意力块生成注意力掩码,以细化每个阶段的每个张量(第3.3节)。然后融合所有阶段的预测结果以生成最终结果。将各阶段的预测结果和融合特征调整到输入图像的原始维数,并在训练阶段使用多损失函数对模型进行监督。3.2. 远程捕获在CrackFormer中,编码器和解码器中的自注意块( Self-AB ) 是 具 有 两 个 CBR ( Conv-BatchNorm-ReLU ) 块 的 瓶 颈 模 块 , 这 两 个 CBR ( Conv-BatchNorm-ReLU)块由11个conv、BatchNorm和ReLU组成,并且在它们之间具有自注意层(简称SAL)(图3(b))。图3.自我注意块和自我注意层。3786∈.Σ×个∈⊗∈∈∈∈MNE·⊙1侧23123Enm掩模123是矩阵元素加法运算符。 注意S侧=L掩模⊙BNpnm----.Σ自注意层是同时具有大感受野和1x1卷积核的位置嵌入式自注意块,如图所示第3(a)段。设XRdin×WH为输入张量,其中W和H表示图像的宽度和高度,din表示输入张量的通道该层应用三个11卷积来生成键、查询和值,以生成新特征FcRdout×WH(dout表示输出特征的通道)使用以下基于内容的多头自注意操作,Fc=Q。σ。KΣVΣ,(1)其中是矩阵乘法运算。 令h是头部的数量,du是深度内维度,r是感受野大小,dk和dV分别是张量K和 V 的 维 度 。 然 后 我 们 有 Q Rdk×h×WH ,KRdk×du×WH,和VRdv×du×WH。 令〇表示对tensor应用softmax归一化的操作。该注意操作可以被解释为首先将V中的像素特征聚集成全局上下文向量使用σK ,然后重新分发使用Q中的权重将全局上下文向量返回到各个像素。我们注意到它与Bello [3]中使用的相似,但它没有对查询和值使用批量归一化在键上的Softmax归一化将输出特征约束为全局上下文向量的凸组合相对位置嵌入可以使全局上下文向量在邻近区域获得有效的感受野一个相对位置嵌入核Er∈通过组合相应编码器块中的特征向量。本质上,注意力门机制生成注意力掩模,其通过Sigmoid激活函数被归一化为αi[0,1],并且将元素乘以要细化的那些特征。以这种方式,它充当过滤器以激活感兴趣区域内的一些特征并同时抑制其他不相关的特征。因此,我们提出了一个缩放注意力块的编码器和解码器的功能。具体来说,在CrackFormer的每个阶段,我们使用编码器中的特征来生成注意力掩码作为注意力系数,并将其逐元素乘以解码器中的相应特征,以激活裂纹特征并抑制非裂纹特征。图4.缩放注意力块。以第k级融合为例,编码器和解码器的特征分别为Xk,Xk,Xk和Yk、Yk、Yk。基于图4、根据下式生成掩码:定义rdk×du×r×r为可学习的权值参数其中r索引所有(n,m)的可能相对位置对.作为卷积核的上下文向量 rLk=δ。BN。3×3。Γ。Xk,Xk,X kΣ(3)根据下面的等式被嵌入到上下文向量中其中Γ(·)表示张量级联运算,并且3×3(·)表示一个3×3卷积运算F= Qr(五)(二)最后,自注意力层的输出上下文向量是全局内容向量的逐元素加法是S形激活函数。随后,如下通过缩放注意机制预测第k级tor和位置嵌入向量Fn=FcFp,其中k k.. .KKkΣ这一层的计算和存储器复杂度在像素数量上是O(N)。3.3. 磨尖裂纹在每个阶段,编码器和解码器中的特征向量根据缩放注意力块(Scal-AB)被连接和组合,以生成突出且清晰的裂纹边界图(图1B)。4). 注意力U-Net [23]中的注意力门机制启发了一个其中表示逐元素乘法运算。每个阶段的缩放注意力图如图1B所示。5,其是来自高级特征的注意系数掩模围绕语义裂缝,有更强烈的回应。从不同阶段的输出特征中,我们可以看到一个由粗到细的语义裂缝响应,它可以用来细化更清晰的边界。在对每一阶段的特征进行上采样以使其维数与输入图像的维数相同之后,我们特定解码器块可以提高分段性能得到五个预测结果Sk,k=1,2,...,5,它们是3×3Γ Y1、Y2、(四)3787×个||||β=||×个×个n .Σ我我TP+FPTP+FN侧PR+REΣ联系我们图5.从左至右:缩放注意力映射分别从阶段1映射到阶段5。在一些实施例中,S熔丝被级联和融合以生成最终输出S熔丝,如HED [34]、RCF [19]和DeepCrack [37]等。最后,所有方面和融合输出完全由裂缝地面实况标签监督。3.4. 损失函数采用在RCF网络[20]中使用的平衡权重交叉熵损失函数,并进行小的修改以用于训练,其中标签中归一化强度yi高于η的像素被认为是正样本,概率在0和0.05之间的像素被认为是负样本,并且在两者之间的像素被忽略。αlog(1−P(Xi;W))0≤yi≤0. 05对训练图像进行Gamma变换,减少亮度的影响。最后,我们将每个训练集扩展为原始样本的228倍。训练验证参数-为了提高模型的鲁棒性,训练集中的图像保持其原始尺寸,并且没有调整大小。实验中的BatchSize设置为1,Shuffle策略设置为True。我们选择随 机 梯 度 下 降 ( SGD ) 作 为 优 化 器 , 并 将MOMENTUM设置为0.9。由于数据增强,总训练时期被设置为500,并且初始学习速率被设置为1 e-3。我们采用StepLR策略来调整学习速率在历元20、50和100。在每个里程碑,学习率将衰减前一个的1/105. 实验5.1. 数据集我们的模型在三个公共基准上进行了训练和评估,CrackTree260,CrackLS315和Stone331。CrackTree260[25]包含260个道路路面图像。这些路面图像由面阵相机在可见光照明下捕获,并且每个样本的大小为800 - 600。选择200个样本用于训练,20个样本用于验证,40个样本用于测试。I(Xi;W)=00。05η(五)ing.CrackLS315[37]包含315张沥青哪里Y+α= λ |Y +|+|Y−|得双曲正弦值.Y−|Y+|+|Y −|,与 |Y+|线阵激光照明下的路面采集相机每个图像的大小为512×512。其中,Y-表示正和负的数量样品,分别。λ用于平衡正样本和负样本的损失比设Xi为像素i的值,yi为标记图像中像素i的概率,P(Xi;W)表示像素被裂纹的预测概率,W为模型的权重。为了在训练过程中对各边输出进行重新加权,对不同边输出的损失进行加权,并在最后两个边和融合边增加权重。总损失函数为选取265个样本进行训练,剩余10个用于验证的样品和用于测试的40个样品。Stone331[17]包含331张石头表面的图像 原始图像大小为1024 × 1024,由于切割表面的不规则性,原始图像被中心裁剪为512 × 512个裁剪样本。 选取其中的261幅图像进行训练,20幅用于验证,50幅用于测试。5.2. 性能度量L(W)=Σi=15k=1k侧 ·l.Xk;WΣ +S保险丝·lX保险丝;WΣ(六)Precision(abbre. PR),并回忆起。 作为RE)被计算为PR =TP并且对于二元分类任务,RE=TP其中Sk,k1,2,3,4,5分别表示第k级的损失权重,Sfuse是融合层的损失权重,η是每个样本中的像素总数,并且k是侧输出的数量。4.实现细节数据增强-我们通过随机裁剪、翻转和旋转操作来增强训练集。我们也具体地,对于每个图像,可以通过将检测到的裂缝与人类注释的地面实况进行比较来计算PR和RE。然后,可以计算F测量(2·PR·RE)作为用于性能评估的总体度量 具体而言,三种不同的基于F度量的方法在评估中采用的最佳F度量、针对固定阈值的数据集上的最佳F度量-最佳数据集尺度(ODS)、针对每个图像上的最佳阈值的数据集上的聚合F度量-最佳图像尺度(OIS),以及S.3788平均精确度(AP),相当于精确度-召回率曲线下的面积[8]。5.3. 与SOTA方法的比较为了评估我们模型裂纹[37]与我们的裂纹检测任务进行了比较。SE [8]是一种基于随机决策森林的经典方法,用于边缘检测。HED [34]是基于VGG16的模型,其特征图在VGG16的每 个 阶 段 生 成 并 聚 合 用 于 多 级 融 合 。[20][22][23][24][25][26][27][28][29] SegNet [31]和U-Net[27] 是 具 有 对 称 结 构 的 编 码 器 和 解 码 器 架 构 。DeepCrack [37]是SegNet用于裂纹检测的扩展。5.3.1关于CrackTree260该CrackTree260是一个薄裂纹数据集标记为一个单一的像素宽度或非常微小的边缘。在沥青表面上并且在可见光照射下,裂纹在“裂纹”和“非裂纹”像素之间表现出极弱的对比度模型ODS↑OIS↑AP↑FLOPS↓mPara↓SE [8]0.6620.6730.683--FPHBN [35]0.5170.579---SRN [16]0.7740.7810.779451.3G28.5MHED [34]0.8160.8200.831146.9G14.7MSegNet [1]0.8440.8510.862311.3G29.5MU-Net [27]0.8470.8320.869400.0G31.0MRCF [20]0.8570.8630.861187.9G14.8M[37]第三十七话0.8520.8640.8751001.7G30.9MCrackFormer0.8810.8830.896123.0G7.35M表1.在CrackTree260上的性能根据图1B中的精确度-召回率曲线。表9(a)中的统计性能。1,可以看出,Crack-Former在CrackTree 260上优于比较的SOTA方法,分别在ODS上为0.881,在OIS上为0.883,我们获得了2的增益。9%在ODS上,2.3%的OIS和2. 1%的AP。与DeepCrack相比。图中的可视化结果。6表明CrackFormer的结果比比较的深度学习 模 型 更 连 续 和 清 晰 。 裂 纹 轮 廓 文 件 表 明 ,CrackFormer可以实现高的预测精度,即使是一个像素的宽度或微小的边缘裂纹5.3.2关于CrackLS315该数据集的图像在激光照明下捕获。在此数据集上的训练比在图6. CrackTree260上的预测结果。从顶部到底部行:原始裂纹 图 像 、 地 面 实 况 、 所 提 出 的 CrackFormer 的 结 果 、DeepCrack的结果[37]、RCF的结果[19]。因为对比度极低。精确度-召回率曲线如图所示。第9(b)段。模型ODS↑OIS↑AP↑FLOPS↓mPara↓SE [8]0.4590.5210.495--U-Net [27]0.6720.7030.740218.6G31.0MSRN [16]0.7550.7890.795246.6G28.5MSegNet [1]0.7610.7800.780170.1G29.5MHED [34]0.7630.7980.82980.3G14.7MRCF [20]0.7880.8160.829102.7G14.8M[37]第三十七话0.8530.8670.877547.4G30.9MCrackFormer0.8710.8790.88367.2G7.35M表2. CrackLS315的性能从Tab可以看出2,CrackFormer在CrackLS315上实现了最佳性能。它获得增益1。8%的ODS,1. 2%的OIS , 0 。 与 DeepCrack 相 比 , AP 分 别 为 6%HED 、SRN、SegNet和U-Net的ODS为10。8%,11. 6%,11.0% 和 19. 比 CrackFormer 低 9% 。 与 SE 方 法 相 比 ,DeepCrack方法的性能提高了41。消耗臭氧层物质的2%。HED、SRN、RCF和SegNet显示出相当的结果,而CrackFormer具有比这些方法更好的性能。图中的可视化结果。图7(如中间行所示)示出了CrackFormer可以预测来自低对比度沥青路面的更详细的薄裂纹。3789图7.CrackLS315上的预测结果从上到下一行:分别为原始裂纹图像、地面实况、CrackFormer的结果、DeepCrack的结果[37]、RCF的结果5.3.3第331章石头上的结果该数据集来自石材切割表面,其光滑的表面使得裂纹纹理太弱,即使是人眼也无法观察到。图中的可视化结果。图8(见第一行)显示CrackFormer可以预测最连续和完整的裂纹检测结果。可以从图1中的精确度-召回率曲线看出。如图9(c)所示,CrackFormer优于其他比较方法。模型ODS↑OIS↑AP↑FLOPS↓mPara↓SE [8]0.5570.6230.605--HED [34]0.7190.7630.75880.3G14.7MSRN [16]0.7350.7760.741246.6G28.5MU-Net [27]0.7570.7760.809218.6G31.0MRCF [20]0.7890.8290.820102.7G14.8MSegNet [1]0.7940.8150.787170.1G29.5M[37]第三十七话0.8560.8750.888547.4G30.9MCrackFormer0.8770.8850.89467.2G7.35M表3. 331号石头上的表演来自表中的统计性能3,CrackFormer在测试数据集上 分 别 实 现 0.877 、 0.885 OIS 和 0.894 AP 的ODSCrackFormer获得增益2。消耗臭氧层物质1%,1。0%的OIS和0。与DeepCrack相比,AP分别为6%。与主流的深度学习模型相比,其性能高出8. 百分之三8. 8%,12. 0%和14。在SegNet、RCF、U-Net和SRN上的ODS分别为2%。与传统方法SE相比,CrackFormer在ODS方面获得了32%图8. Stone331上的预测结果。从顶部到底部:原始裂纹图像、地面实况、CrackFormer的结果、DeepCrack的结果[37]、RCF的结果[19]。5.4. 多尺度分析多尺度融合方案已被证明是增强裂纹检测性能的有效方法[18]。实际上,由于裂纹图像在不同尺度下表现出不同的特征。在大规模阶段,裂纹检测是可靠的,但其定位差,可能会错过薄裂纹。在小尺度阶段,细节被保留,但检测受到很多来自背景纹理的杂波。因此,我们定量地分析了不同尺度阶段的输出和三个数据集上的尺度融合性能。统计结果见表。4.总的来说,ODS和OIS值从阶段S1到S5逐步增加,并且我们获得9。平均增加4%。这意味着CrackFormer的输出从粗尺度到细尺度(阶段)逐渐匹配这种薄裂纹基准的真实尺度。从多尺度融合的观点可以发现,从S1+S2 到 S1+S2+S3+S4 , 甚 至 到 全 尺 度 融 合(S1+S2+S3+S4+S5)的增量融合实验可以增加每个尺度输出的ODS和OIS值。最后的融合结果可以进一步得到ODS3790×个- -×× ××个图9.分别在CrackTree 260、CrackLS 315和Stone 331上的精确度-召回率曲线2* 规模CrackTree260 CrackLS315 Stone331ODS↑ OIS↑ ODS↑ OIS↑ODS↑ OISS10.6800.7020.6480.6710.7600.771S20.7090.7230.6910.6320.7690.775S30.7400.7420.7460.6520.7790.812S40.7560.7610.7550.6610.7960.821S50.7990.8010.7610.6650.8090.815S1+S20.7680.7720.7350.7420.8150.820S1+S2+S30.8020.8180.8090.8210.8210.823S1+S2+S3+S40.8540.8570.8280.8350.8510.867融合0.8810.8830.8710.8790.8770.883表4.对三个数据集进行多尺度分析在最精细标度(S5)上增益8。平均7%5.5. 效率分析比较模型的FLOPs试验和参数计算见表1。1到Tab。3,具有不同的推断图像大小(600八百五百一十二512和512512)。 它表明CrackFormer更有效并且需要更少的参数。具体cally , CrackFormer 实 现 了 比 DeepCrack 更 高 的 精 度[37],8. 1 x更少的FLOPs和4. 少2个与其他经典模型相比,分别此外,Scal-AB块可以获得0的增益。9%和0。5%,分别在ODS和OIS上,表明该模型在多尺度融合架构上也工作得更好。最后,Self-AB和Scal-AB模块进一步实现0的增益。百分之七9%和0。百分之七9%,分别对ODS和OIS,表明这两种注意机制是兼容的裂纹检测任务。模型自身ABScal-ABMSFODS↑OIS↑SegNet✓✓✓✓0.7610.780✓DeepCrack0.8530.867-0.8590.869-0.8580.869✓✓✓✓✓-0.8640.870-0.8620.872CrackFormer0.8710.879表5. CrackLS315的消融研究6. 结论CrackFormer实现了更高的ODS值,平均速度快2到3倍,参数少2到3倍。5.6. 消融研究为了进一步检查我们模型的每个模块的增益,在CrackLS315上进行烧蚀研究。实验结果见表1。5.我们首先选择SegNet作为基线。在编码器和解码器中用Self-AB替换conv 3 3之后,ODS和OIS上的增益为9。8%和8. 9%,分别表明自注意块是有效的细粒度裂纹表示。同样,Scal-AB可以得到9。7%的ODS增益和8.9%OIS增益独立。此外,与DeepCrack相比,将Self-AB应用于DeepCrack后,ODS和OIS的增益为1。1%和0。百分之三所提出的CrackFormer旨在检测细粒度裂纹。我们从Seg- Net的基本架构和新颖的注意力机制中推导出我们的模型。所提出的自注意模块被嵌入在编码器-解码器块中,其中1x 1卷积核被采用用于跨特征通道提取上下文信息,并且有效的位置嵌入用于捕获大的感受野空间上下文信息以用于长距离交互。所提出的缩放注意模块结合相应的编码器和解码器的输出,并能够获得 清 晰 的 裂 纹 边 界 。 在 CrackTree 、 CrackLS315 和Stone331这三个经典的裂纹检测基准数据集上,我们可以获得像素级的裂纹检测精度,并达到SOTA性能。3791引用[1] Krizhevsky Alex,Sutskever Ilya,and Hinton Geoffrey E.使用深度卷积神经网络的图像网分类。Communicationsof the ACM,60:84[2] Abdullah Alfarrarjeh、Dweep Trivedi、Seon Ho Kim和Cyrus Shahabi。从智能手机图像中检测道路损坏的深度学 习 方 法 。 IEEEInternational Conference on Big Data(大数据),2018年。[3] Irwan Bello Lambdanetworks:在没有注意的情况下模拟长距离的相互作用。ICLR,2021年。[4] IrwanBello , Barret Zoph , Ashish Vaswani , JonathonShlens,and Quoc V.乐注意力增强卷积网络。在ICCV,2019年。[5] 蔡宇彤和王勇。Ma-unet:基于多尺度和注意力机制的unet医学图像分割的改进arXiv:2012.10952。[6] Young-JinCha,WooramChoi,andOralBu¨y u¨ k o¨ zt u¨ rk. 基于深度学习的卷积神经网络裂纹损伤检测。计算机辅助土木和基础设施工程,32(5):361[7] Jean-Baptiste Cordonnier 、 Andreas Loukas 和 MartinJaggi。自我注意与卷积层的关系。在ICLR,2020年。[8] PiotrDoll a'r和C. 劳伦斯·齐特尼克。利用结构森林进行快速边缘检测IEEE Transactions on Pattern Analysis andMachine Intelligence,37(8):1558[9] Cao Vu Dung和Le Duc Anh.使用深度全卷积神经网络的自主混凝土裂缝检测建筑自动化,99:52[10] 放大图片创作者:岳飞P. Wang,Allen Zhang,ChengChen , Joshua Q. Li 、 Yang Liu 、 Guangwei Yang 和Baoxian Li。基于深度学习的cracknet-v的沥青路面三维图像 像素级裂 缝检测 IEEE Transactions on IntelligentTransportation Systems,21(1):273-284,2020。[11] Jun Fu , Jing Liu , Haijie Tian , Yong Li , YongjunBao,Zhivei Fang,and Hanqing Lu.用于场景分割的双注意网络。在CVPR,2019年。[12] ChangluGuo , Ma´rtonSzemenyei , YugenYi ,WenleWang,Buer Chen,and Changqi Fan.Sa-unet:用于视网膜血管分割的空间注意力u-网。2020年,《国际公法》[13] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。[14] Jie Hu , Li Shen , Samuel Albanie , Gang Sun , andEnhua Wu.压缩-激励网络。在CVPR,2018年。[15] Zilong Huang,Xinggang Wang,Lichao Huang,ChangHuang,Yunchao Wei,and Wenyu Liu. Ccnet:Criss-cross attention for semantic segmentation.在CVPR,2019年。[16] Wei Ke , Jie Chen , Jiabin Jiao , Guoying Zhao , andQixiang Ye. Srn:用于野外对象对称性检测的侧输出残差网络。在CVPR,2017年。[17] Jacob Koniga、Mark David Jenkinsa、Mike Manniona、Peter Barriea和Gordon Morisona。用于裂缝分割的优化深 度 编 码 器 - 解 码 器 方 法 , 2020 年 。 arXiv :2008.06266v1。3792[18] Haifeng Li,Dezhen Song,Yu Liu,and Binbin Li.基于多尺度图像融合的路面裂缝自动检测IEEE Trans.on Intelligent Transportation System,20(6):2025[19] 刘云和程明明。用于边缘检测的更丰富的卷积特征IEEE Transactions on Pattern Analysis and MachineIntelligence,41:1936[20] 刘云、程明明、胡晓伟、王凯、白翔。用于边缘检测的更丰富的卷积特征。在CVPR,2017年。[21] Yahui Liu,Jian Yao,Xiaohu Lu,Renping Xie,and Li Li. Deepcrack : A deep hierarchical featurelearning architec- ture for crack segmentation.神经计算,338:139[22] Hiroya Maeda 、 Yoshihide Sekimoto 、 ToshikazuSeto、Take-hiro Kashiyama和Hiroshi Omata。使用智能手机图像的深度神经网络进行道路损坏计算机辅助土木和基础设施工程,33(12):1127[23] Ozan Oktay , Jo Schlemper , Loic Le Folgoc ,Matthew Lee,Mattias Heinrich,Kazunari Misawa,KensakuMori , StevenMcDonagh , NilsYHammerla , Bernhard Kainz , Ben Glocker , andDaniel Rueckert.注意u-net:学习在哪里寻找胰腺,2018年。arXiv:1804.03999。[24] Jongchan Park,Sanghyun Woo,Joon-Young Lee,and In SoKweon.瓶颈注意模块。在BMVC,2018年。[25] QinZou, YuCao, Qingquan Li, Qingzhou Mao,and Song Wang. Cracktree:路面图像的自动裂缝检测Pattern Recognition Letters,33:227-238,2012.[26] PrajitRamachandran , NikiParmar , AshishVaswani , Irwan Bello , Anselm Levskaya , andJonathon Shlens.视觉模型中的独立自我注意力。在NIPS,2019。[27] Olaf Ronneberger , Philipp Fischer , and ThomasBrox.U-网:用于生物医学图像分割的卷积网络2015年医学图像计算和计算机辅助干预国际会议[28] Zhuoran Shen,Mingyuan Zhang,Shuai Yi,JunjieYan,and Haiyu Zhao.高效注意力:线性复杂性的自我关注。在arXiv:1812.01243,2018。[29] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络2015年,国际会议。[30] 作 者 : Ashish Vaswani , Noam Shazeer , NikiParmar,Jakob Uszko- reit abd Llion Jones,Aidan N.戈麦斯,卢卡斯凯泽,伊利亚·波罗苏欣。注意力是你所需要
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功