基于注意特征聚合的密集预测模型

62 浏览量更新于2023-10-15 收藏 2.15MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

97基于注意特征聚合的稠密预测杨永旭royyang@gapp.nthu.edu.twThomas E. 黄2thomas. vision.ee.ethz.ch孙敏1sunmin@ee.nthu.edu.twSamuel RotaBulo`3rotabulo@fb.com彼得·孔特维德3pkontschieder@fb.com渔鱼2i@yf.io1国立清华大学2ETH苏黎世3FacebookRealityLabs摘要聚合来自不同层的特征的信息对于密集预测模型至关重要。尽管其表达能力有限，但普通功能连接支配了聚合操作的选择在本文中，我们引入了注意特征聚合（AFA）融合不同的网络层与更多的表达非线性操作。AFA利用空间和通道注意力来计算层激活的加权平均值。受神经体绘制的启发，我们进一步扩展了AFA与尺度空间绘制（SSR），以执行多尺度预测的后期融合。AFA适用于广泛的现有网络设计。我们的实验表明，具有挑战性的 se-mantic 分割基准，包括Cityscapes和BDD 100 K在可忽略不计的计算和参数开销的一致和显着的改善。特别是，AFA在Cityscapes上将深层聚合（DLA）模型的性能提高了近6% mIoU。我们的实验分析表明，AFA学习逐步细化分割图和改善边界细节，从而在NYUDv2和BSDS500上的边界检测基准测试中获得最新的结果。1. 介绍密集预测任务，如语义分割[7，26，42]和边界检测[28，1]是许多计算机视觉应用的基本使能器。语义分割要求预测器在建立类间决策边界的同时吸收类内可变性。边界检测还需要对细粒度场景细节和对象级边界的理解。一个流行的解决方案是利用多尺度表示来平衡从浅层特征中保留空间细节和在深层特征中维护相关语义上下文。有两个主要的方法来获得有效的AFA空间注意AFAAFAAFA特征伊什特征d特征联系我们频道关注求和矩阵乘法图1.专注的特征聚合。Fs是较浅的输入特征，而Fd是较深的输入特征。我们使用注意力来聚合不同尺度或层次的信息，并获得具有丰富表示的聚合特征Fagg。多比例表示。扩张卷积[43]可以聚合上下文信息，同时保留空间信息。大多数表现最好的分割方法都采用这种方法[5，50，44，34]来提取上下文像素信息。缺点是存储高分辨率特征图的层存储器的广泛使用。另一种方法是像在图像分类网络中一样逐步降低层分辨率，然后通过将来自不同层尺度的信息与层连接进行聚合来提高分辨率[24，45，27]。使用这种方法的方法实现了最先进的结果，减少了计算工作量和参数[35]。尽管许多作品设计了新的网络架构来有效地聚合多尺度信息，但主要的聚合操作仍然是特征级联或求和[27，24，35，45，49]。这些线性操作不考虑不同级别或尺度之间的特征交互或选择我们提出了注意特征聚合（AFA）作为一种非线性特征融合操作，以取代现行的张量级联或求和策略。我们的atten- tion模块使用空间和通道注意力来学习和预测融合过程中每个输入信号的重要性。聚合是通过计算每个空间位置的输入特征的线性组合来完成的，通过它们的相关性进行加权。与线性融合手术相比，98在不同的版本中，我们的AFA模块可以根据其重要性来处理不同的功能级别。AFA引入了可忽略的计算和参数开销，可以很容易地用来代替现有方法中的融合操作。图1说明了AFA的概念。密集预测任务的另一个挑战是，精细的细节在更高的分辨率下更好地处理，但粗糙的信息在更低的分辨率下更好。多尺度推断[3，4，32]已成为减轻这种权衡的常用方法，使用注意力机制现在是最佳实践。受神经体渲染的启发[11，25]，我们将AFA扩展到尺度空间渲染（SSR），作为一种新的注意力机制来融合多尺度预测。我们将每个尺度的预测视为尺度空间中的采样数据，并利用体绘制公式来设计由粗到细的注意力并绘制最终结果。我们的SSR对梯度消失问题具有鲁棒性，并在训练过程中节省资源，从而实现更高的性能。我们证明了AFA的有效性时，适用于广泛的现有网络的语义分割和边界检测基准。我们将AFA模块插入各种流行的分割模型：FCN [24]，U-Net [27]，HRNet[35]和深层聚集（DLA）[45]。在包括Cityscapes [7]和BDD 100K [42]在内的几个具有挑战性的语义分割数据集上的实验表明，AFA可以显着提高每个代表模型的分割性能。此外，AFA-DLA具有竞争力的结果相比，国家的最先进的模型，尽管具有较少的参数和使用较少的计算。此外， AFA-DLA 在边界检测数据集NYUDv 2 [28]和BSDS 500 [1]上实现了最新的性能。我们进行全面的消融研究，以验证我们的AFA模块的每个组件的优势。我们的源代码将被释放。2. 相关工作多尺度上下文。为了更好地处理细节，具有卷积主干的分割模型使用低输出步幅。然而，这限制了最终特征中所包含的感受域和语义信息。一些作品利用扩张的骨干[43]和多尺度上下文[39，22，13]来解决这个问题。PSPNet [50]使用金字塔池模块来生成多尺度上下文并将其融合为最终功能。DeepLab模型[5]使用AtrousSpatial Pyramid Pooling从多个尺度组装上下文，产生更密集和更广泛的特征。相比之下，我们的AFA-DLA架构广泛使用atten- tion来进行多尺度特征融合，以增加接收场，而不使用昂贵的扩张卷积。因此，我们的模型可以实现可比的，甚至更好的每-计算量少，参数少。功能聚合。聚合在大多数深度学习模型中以跳过连接或特征融合节点的形式广泛使用[24，27，35]。深层聚合[45]网络表明，模型内部更高的连通性可以用更少的参数实现更好的性能，但其聚合仍限于线性运算符。近年来，一些研究工作探索了多尺度特征的更好融合。[31，20，21，48，16，18]改进了融合过程中的特征对齐和选择的原始FPN架构CBAM [36]和SCA-CNN [2]使用通道和空间自关注来执行自适应特征细化，并在图像分类，对象检测和图像标题中改进卷积网络。DANet [12]在扩展的FCN之上添加了两个独立的分支，其中trans-former [33]自注意力作为建议的空间和相比之下，我们的AFA模块利用提取的空间和信道信息，在聚合过程中，有效地选择输入功能的属性的基本功能由于AFA的高效设计，它可以直接应用于流行的体系结构中，并以很小的计算和参数开销得到广泛的应用。多尺度推理许多计算机视觉任务利用多尺度推理来提高性能。融合多尺度结果的最常见方法是使用平均池化[3，45，19]，但它对每个尺度应用相同的权重。一些方法使用显式注意力模型[4，40]来学习每个尺度的合适权重。然而，主要的缺点是增加计算要求评估多个尺度。为了克服这个问题，HMA [32]提出了一种分层注意力机制，在训练过程中只需要两个尺度，但在推理过程中可以使用更多尺度。在这项工作中，我们提出了尺度空间渲染（SSR），一个更强大的多尺度注意力机制，推广了上述分层方法，并利用尺度空间中的特征关系，以进一步提高性能。3. 方法在本节中，我们将介绍我们的注意特征聚合（AFA）模块，然后将AFA扩展到多尺度推理的尺度空间渲染（SSR）注意。完整架构的概述如图所示。二、3.1. 关注的特征聚合我们的注意力特征聚合（AFA）模块根据输入特征图的关系计算空间和通道注意力。然后，注意力值被用于调节输入激活尺度并产生一个合并的特征图。该操作是非线性的，与标准的特征连接或求和相反。我们99××∈D⊙×K∈KSA1−100sS联系我们d1−100cCA C.A.c(b)二元融合$$*比例尺(a) 概述体系结构图2. (a)带SSR的AFA-DLA概述。我们在训练过程中使用两个尺度[0.5，1.0]，在推理过程中使用更多尺度以追求更高的性能。(b)输入特征Fs和Fd的二进制融合模块。SA表示我们的空间注意模块，并生成空间注意。CA代表我们的渠道关注模块，负责渠道关注。 (c)三个输入特征F1、F2和F3的多特征融合模块。SA CA表示首先计算空间注意力as和信道注意力ac，然后使用逐元素乘法来获得Fi的注意力ai。使用两种不同的基本自我注意机制来生成空间和通道注意图，并根据输入特征之间的关系重新组装它们。对于输入特征FsRC×H ×W，空间衰减使用由两个3 3卷积组成的卷积块ωs来编码Fs。它被定义为α s<$σ（ω s（Fs）），（1）其中α s∈ R1× H × W，σ是S型激活.用于计算输入要素FdRC×H ×W，我们首先应用平均池化得到Favg最大池化得到Fmax然后，我们进一步转换C其中表示逐元素乘法（具有广义单位维度）。通过利用输入特征属性，我们的二进制融合是简单而有效的。多特征融合。我们扩展了二进制富-以进一步将多个多尺度特征融合在一起。最近的工作[27，35，45]迭代地聚合模型中的特征，但仅利用下游任务的最终特征通过在这些中间特征上应用AFA，我们给模型更多的灵活性来选择最相关的特征。给定k个多尺度特征F，其中i ∈ {1，. . . ，k}，我们Favg的特征，DFmax使用另一个卷积我首先，根据信息量的大小，块ω c，由两个11卷积与瓶颈输入输出通道设计。我们总结一下并使用 sigmoidσ 作为激活函数来生成通道注意力ac∈RC×1×1，a c<$σ（ω c（AvgPool（F d））+ ω c（MaxPool（F d）。（二）在上述注意机制的基础上，我们针对不同的聚合场景设计了两种AFA，使网络能够对复杂的特征交互进行建模，并对不同的特征进行注意。二进制融合。我们采用了一个简单的注意力为基础的聚集机制，使用我们的空间和通道atten，它们包含的信息，即，具有较高优先级的功能将经历了更多的聚合。然后，我们计算每个特征的空间和通道注意力组合注意力ai定义为：其中SA表示我们的空间注意力函数，CA表示我们的信道注意力函数。为了融合多尺度有限元-tures，我们执行分层注意融合，逐步聚合功能开始从F1到Fk，以获得最终表示F最终为以取代标准的二进制融合节点。当合并两个输入特征图时，我们分别应用通道和空间注意力来捕获输入特征之间的关系F最后一个Σi=1ai⊙Fi⊙ j=Yi+1（1−aj）。（五）如图 2（b），当两个特征聚合时，我们将较浅的特征图表示为F s，另一个表示为F d。 F s用于计算as，F d负责计算a c，因为较浅的层将包含更丰富的空间信息，而较深的层将具有更复杂的通道特征。然后，我们获得聚合特征Fagg为：Fagg<$as<$（1−ac）<$Fs+（1−as）<$ac<$Fd，（3）图 2（c），我们展示了这个过程的一个例子，其中k =3. 新的最终表示F_final是多尺度特征的聚集，结合了从浅到深的信息。AFA是灵活的，可以应用于广泛使用的分割模型，如图所示。3.在U-Net [27]和HRNet [35]中，我们将多特征融合模块添加到&SA x CA$$*��1−��&&联系我们SA xCA+1−+1SA x CA1（c）多特征融合SSR…1AFA-DLA1比例+AFA-DLA+秤2（AFA-DLA（…C100(a)AFA-DLAAFAAFAAFA(c)AFA-HRNetAFA(d)AFA-FCN二元融合多特征融合∈→ΣYΣ| |我AFAAFAAFAAFAAFAAFAAFAAFAAFA(b)AFA-U-Net图3.使用我们的AFA模块的分割模型。我们展示了与特征聚合相关的原始模型的部分以及我们的修改。红色块表示在训练期间添加的辅助分割头。充分利用先前未使用的聚合多尺度特征。在FCN [24]中，我们将解码器中的原始线性聚合节点替换为我们的注意二进制融合。对于DLA [45]，我们不仅替换了原始的聚集节点，还添加了我们的多特征融合模块。由于DLA网络的节点具有更高的连通性，DLA网络可以从我们改进的特征聚合方案中受益更多，因此我们使用AFA-DLA作为我们的最终模型。与其他注意力模块的比较。与先前的注意力方法[2，36，12]不同，AFA专注于不同网络层的聚集特征图，以获得具有轻量级模型的更具表现力的表示我们的目标像素可以被想象成一条穿过尺度空间的射线，从尺度1开始向尺度k移动。我们重新设计了所提出的多特征融合机制中的原始层次注意力，以模仿体绘制方程，其中体积由尺度空间隐式地给出为此，除了尺度i处的特征表示Pi之外，我们假设我们的模型还为目标像素预测标量yiR，使得e−（yi）表示粒子将穿过尺度i的概率，给定某个非负标量函数：R R+。然后我们可以将尺度注意力α i表示为粒子到达尺度i并停在那里的概率，即。、乌莱与GFF [21]相比，AFA 对于二进制融合消耗1/4FLOPS 和模型参数，对于多特征融合消耗1/2FLOPS和1/5模型参数没有αi（y）1−e−i−1j=1e−n（yj）（6）AFA采用DANet [12]的重自注意机制，在相同的输入特征下，使用1/4GPU内存仅消耗12AFA具有简单而有效的设计，可以广泛地用于现有的- ING架构，没有太多的额外开销。其中y=（y1，. . .，y k）。最后，对目标像素的融合多尺度预测可以看作是“渲染”像素，其中不同尺度Pi上的像素特征通过遵循视觉渲染方程的注意系数αi进行平均。因此，P最终3.2. 尺度空间绘制Ki=1 Piαi（y）表示目标像素的特征，多尺度注意力[4，32]通常用于融合多尺度预测，并且可以减轻密集预测任务中精细和粗略细节的性能权衡。然而，重复使用注意层可能会导致数值不稳定或梯度消失，这会阻碍其性能。为了解决这个问题，我们扩展了atten- tion机制，使用体绘制方案应用到尺度空间。通过将多尺度预测视为尺度空间表示中的样本，该方案提供了使用尺度特定注意力机制来组合预测的分层的、从粗到细的我们还将证明我们的方法是分层多尺度注意力方法的通用化[32]。不失一般性，我们关注单个像素，并假设我们的模型提供了密集预测对于k个不同尺度的目标像素预测我们将所有尺度的P与由y驱动的注意力融合后得到。所提出的尺度空间渲染（SSR）机制可以被视为[32]中提出的分层多尺度注意力的推广，因为后者可以通过简单地设置（yi）log（1 + eyi）从我们的公式中获得，即，则是soft-plus函数，通过固定（y k）选择。在我们的实验中，我们使用绝对值函数作为我们的函数，即。，（yi）yi.这是由通过注意力机制更好地保持梯度流所激发的，因为我们发现现有的考虑注意力系数的雅可比性，其形式为：对于第i个尺度，记为Pi∈Rd。因此，′Qi−（yj）if=iP1，. . . ，Pk）表示所述特征的特征表示。α（y）中文（简体）ℓj=1e在我们尺度空间中的目标像素此外，我们假设i，j意味着尺度i比尺度j粗糙。Ji我阿夫里=0ifi> i−ϕ′(y)α(y)ifℓ 0和（y1，y2）=（0，0）不会为零，因此促使我们选择使用绝对值作为θ。如果我们考虑HMA [32]中的设置，我们有a2=0和'（yi）=1ai。因此，雅可比矩阵也作为11消失。得出的结论是，选择的梯度在确定流经预测注意力的梯度量方面起着重要作用，并且HMA [32]中的方法比我们提出的解决方案更容易受到消失梯度问题的影响。我们在第4节中定量地比较了HMA和SSR。为了理解SSR在每个尺度上关注图像的哪些部分4.第一章在大尺度图像中，由于分辨率较高，细节区域的处理更有效，而在小尺度图像中，低频区域的预测往往更好。SSR学习专注于不同尺度的正确区域，并提高最终性能。我们将AFA-DLA与SSR相结合，以产生最终的如图2、AFA-DLA将不同尺度的信息传播到SSR模块，SSR模块生成注意掩模α i，用于融合预测Pi，得到最终的预测Pi。培训详情。为了与其他方法[46，32]进行公平比较，我们将OCR [46]模块中的过滤器数量从256减少到128，并将其添加到AFA-DLA之后以改进我们的最终预测。我们的最终模型可以在k个不同的尺度上进行由于计算资源的限制，我们使用k=2进行训练，并且RMI [51]作为我们最终预测P final的主要损失函数Lprimary。我们添加了三种不同类型的辅助交叉熵损失来稳定训练。首先，我们使用所生成的SSR注意力来融合来自OCR的辅助每尺度预测，从而产生P aux和损失Locr。其次，我们计算和总结了交叉熵损失的每一个J每一个的辅助损失，并将它们相加为Laux。因此，总损失函数是加权和，LallLprimary+βoLocr+βsLscale+βaLaux，（9）其中我们设β 0=0。4，β s≤0. 05和β a≥0. 05.我们在补充材料中提供了更多细节4. 实验我们在几个公共数据集上进行了语义分割和边界检测任务的实验，并通过一系列消融研究进行了深入的分析。由于篇幅限制，我们将更多的实施细节留在补充材料中。4.1. Cityscapes的结果Cityscapes数据集[7]提供高分辨率（2048 x 1024）城市街道场景图像及其相应的分割图。它包含5K以及注释的图像为19类和20K粗标记的图像作为额外的训练数据。它的精细注释图像分为2975，500和1525，用于训练，验证和测试。我们使用DLA-X-102作为AFA-DLA的骨干，批量为8，全产量。在[32]之后，我们用自动标记的粗训练数据训练我们的模型，0.5概率，否则使用精细标记的训练集。在推理过程中，我们使用[0.5，1.0，1.5，1.75，2.0]尺度的多尺度推理，图像翻转和Seg- Fix [47]后处理。我们在补充材料中详细介绍了每种后处理技术的效果。验证和测试集的结果见表1。仅使用ImageNet [8]进行预训练，而不使用外部分割数据集，AFA-DLA在Cityscapes验证集上获得了85.14的平均IoU，与相同设置中的其他方法相比，实现了最佳性能。AFA-DLA优于先前的多尺度注意力方法和使用Vision Transformer[10]架构的最新方法。在Cityscapes测试集上，AFA-DLA也获得了竞争力102†表1.Cityscapes验证和测试集的分割结果我们只与已发表的方法进行比较，而不使用额外的分割数据集。AFA-DLA在验证集上实现了最佳性能，并在测试集上与性能最好的方法竞争。方法mIoU（val）mIoU（测试）DLA [45]75.1075.90[第20话]N/A81.80DeepLabV3+[5]79.5582.10DANet [12]81.5081.50[48]第四十八话81.7082.20Gated-SCNN [31]81.8082.80GFF [21]81.8082.20SETR [29]82.2081.60SegFormer [37]82.4082.20AlignSeg [18]82.4082.60OCR [46]82.4083.00DecoupleSegNets [19]83.5083.70Mask2成型器[6]84.30N/AAFA-DLA（我们的）85.1483.58表2.不同型号的资源使用。AFA-DLA使用更少的操作和参数相比，顶部执行的方法。方法FLOPs（G）参数（男）表3.将AFA与Cityscapes验证集上其他广泛使用的分割模型相结合。使用AFA，每个模型都可以在mIoU上获得至少2.5%的改进，而计算和参数开销很小。基线是我们自己实现的，所有实验都是在公平的比较下进行的。方法FLOP（G）参数（男）Miou（%）FCN1581.849.575.52-AFA-FCN1659.251.977.883.1HRNet-W48748.765.978.48-AFA-HRNet701.465.480.412.5表4.BDD 100K验证和测试集的分割结果表示使用Cityscapes数据进行预训练。AFA-DLA在两台设备上都实现了最先进的性能。DLA-X-102 [45]53334.7DeepLabV3+[5]251454.4用于训练、验证和测试的2K图像。考虑-[19]第十九话6197138.4由于训练数据量是Cityscapes的两倍，我们AFA-DLA-X-102（Ours）133336.3使用DLA-169作为主干，具有完整的图像裁剪和16训练批量大小为200 epochs。在推理过程中，我们使用最佳性能的方法DecoupleSeg- Net [19]，同时使用约75%的操作和参数，如表2所示。我们还评估了AFA在其他广泛使用的分割模型中的应用我们自己构建基线，并对所有模型使用相同的较短学习时间表和较小的训练裁剪大小，以便在表3中进行公平比较由于我们只修改了每个模型的聚合操作，因此我们仍然可以使用原始的ImageNet [8]预训练权重。结合AFA，每个分割模型可以在mIoU中获得至少2.5%的改进，并且只有很小的计算和参数开销。特别是，我们甚至通过将最后一层的连接替换为多特征融合来减轻HRNet，并且仍然实现了2.5%的改进。这表明AFA是一个轻量级模块，可以很容易地应用于现有的分割模型4.2. 关于BDD 100KBDD 100K [42]是一个用于多任务学习的多样化驾驶视频数据集。对于语义分割任务，它以1280 x 720的分辨率提供与Cityscapes相同类别的10K图像数据集由7K、1K和使用[0.5，1.0，1.5，2.0]尺度和图像翻转的多尺度推断确认和测试集的结果见表4。AFA-DLA在两个集合上实现了新的最先进性能，尽管与表2所示的最佳性能方法相比使用了更少的操作和参数。我们的方法在验证集上实现了67.46 mIoU，甚至高于使用Cityscapes预训练权重的DecoupleSeg- Net[19]此外，AFA-DLA在测试集上获得了58.47 mIoU，优于所有强大的官方基线。4.3. 边界检测我们还进行边界检测，其中包括预测一个二进制分割掩模，表明存在的边界上的实验。我们在两个标准的边界检测数据集上进行评估，NYU深度数据集V2（NYUDv2 ）[28]和Berkeley 分割数据集和基准500（BSDS500）[1]。对于每个数据集，我们遵循文献[38，23]中的标准数据预处理和评估方案。具体来说，我们通过随机翻转、缩放和旋转每个图像来增强每个数据集。我们使用常用的指标进行评估，这些指标是最佳数据集规模（ODS）和U-Net-S5-D161622.829.162.73-AFA-U-Net2146.729.464.422.7方法mIoU（val）mIoU（测试）DLA [45]57.84N/ACCNet [17]64.0355.93[41]第四十一话N/A56.31PSPNet [50]N/A56.32[5]第五届全国人大代表64.4957.00[19]第十九话66.90N/A103方法ODSOISDLA [45]0.8030.813LPCB [9]0.8000.816BDCN [15]0.8060.826AFA-DLA（我们的）0.8120.826SA + CA✓-单一尺度76.45SA + CA✓ ✓单一尺度77.08表5. NYUDv2测试集上的边界检测结果。AFA-DLA实现了新的最先进的结果。方法ODS OIS表7.以DLA- 34作为主干的Cityscapes确认集的消融研究。Aux. Head表示使用辅助头，MFF表示多特征融合，SA和CA表示使用空间二元融合Aux. MFF主管MS推断Miou表6. BSDS 500测试集上的边界检测结果。AFA-DLA优于ODS中的所有其他方法。最佳图像尺度（OIS）在[45]之后，我们还将边界标签缩放10，以说明标签不平衡。为了简单起见，我们在推理过程中不考虑使用多尺度图像，因此不使用SSR。NYUDv2上的结果。 NYUDv2数据集包含表8.在早期训练阶段，SSR和HMA之间的Cityscapes验证性能（mIoU）。SSR在所有时期都实现了比HMA更好的性能。RGB和深度图像。有381个训练图像，414个验证图像和654个测试图像。我们遵循与[38，23，15]相同的过程，并在RGB和HHA [14]图像上训练单独的模型。我们使用RGB和HHA图像作为输入，通过平均每个模型在推理期间输出。结果示于表5中。AFA-DLA的性能远远优于所有其他方法，并达到了最先进的性能。特别是，当使用RGB和HHA作为输入时，AFA-DLA可以在ODS中获得0.780的高分，在OIS中获得0.792的高分。BSDS500上的结果。 BSDS 500数据集包含200个训练图像，100个验证图像和200个测试图像。我们遵循标准实践[38]，并且仅使用由三个或更多注释者注释的边界进行监督。我们不考虑用额外的数据来扩充训练集，所以我们只利用BSDS 500数据集中的可用数据。如表6所示，与仅在BSDS 500数据集上训练的方法相比，AFA-DLA实现了优越的性能，并在ODS中获得0.812。4.4. 消融实验在本节中，我们对Cityscapes确认集进行了几项消融研究，以确认AFA-DLA的每个组件。我们比较的主要基线模型是以DLA-34为骨架的DLA [45]。所有结果列于表7中。我们还提供可视化，以便定性评估我们的模型。二进制融合。我们首先评估我们的注意二进制融合模块，它可以学习融合过程中每个输入信号与使用标准的线性融合算子相比，在二值融合过程中引入非线性并使用通道注意力（表示为CA），约1.1的平均IoU改善。这表明更有表现力的聚集可以显著改善结果。当我们额外使用空间注意力（表示为SA + CA）时，我们观察到0.6分的进一步改善。注意力机制。我们通过评估其他各种计算注意力的策略来验证AFA的设计。切换空间和信道注意力模块的输入（表示为Swap）可以导致微小的改进，但是它甚至比仅使用信道注意力更差。我们还在原始DLA线性聚合节点之上应用CBAM [36]模块，以细化聚合特征作为另一个基线。最后，我们连接两个输入特征并使用它来生成每个注意力（表示为Both），这需要更多的计算。相反，我们精心设计的二进制融合可以达到最好的性能。这表明，聚合节点的设计应考虑输入特征的性质，AFA是最有效的。辅助分段头。我们在AFA-DLA中添加了几个辅助头来稳定训练，这是其他流行的基线模型中的常见做法。辅助损耗可以有效地监控整个骨干网。我们看到大约0.3 mIoU的改善。多特征融合。我们应用我们的多特征融合，使AFA-DLA能够充分利用网络中的中间特征。这使网络在选择相关特征以计算最终方法epoch 1 epoch 50 epoch 100 epoch 150HMA [32] 3.57 64.78 71.61 73.03安全理事会5.49 68.16 72.76 74.48原始--单一尺度74.43交换--单一尺度75.37CA--单一尺度75.54CBAM [36]--单一尺度75.70两--单一尺度75.77SA + CA--单一尺度76.14SA + CA✓ ✓Avg. 池化78.56SA + CA✓ ✓HMA [32]80.18SA + CA✓ ✓SSR80.74和用于特征融合的通道注意，Swap表示切换[23]第二十三话0.7710.786空间和通道注意模块的输入，两者都代表BDCN [15]0.7650.781用于使用两个输入特征来产生用于融合的注意力。[30]第三十话0.7560.773AFA-DLA（我们的）0.7800.792104输入图像二值融合多特征融合asforFsas forFdas forF1as forF2as forF3图5.空间注意力地图的可视化是由我们的注意力特征聚合模块生成的。白色区域表示更高的注意力。与线性融合操作相比，我们的AFA模块提供了一种更具表现力的组合特征的方式。功能.通过增加多特征融合模块，我们又获得了0.6mIoU。缩放空间渲染。我们使用SSR模块来融合多尺度预测。在使用[0.25，0.5，1.0，2.0]推理尺度的SSR后，我们获得了比仅使用单个尺度近3.7%的mIoU的令人印象深刻的改进。我们还比较了不同的多尺度推断方法在相同的训练设置。SSR增益比标准平均池高1.2 mIoU，并进一步超过分层多尺度注意力[32]，平均IoU接近0.6。在FLOP方面，HMA使用大约1433G，SSR消耗1420G，因此SSR不需要额外的计算资源。此外，我们在表8中报告了HMA和SSR在中间检查点的验证性能。结果表明，我们的尺度空间渲染注意力可以缓解梯度消失问题，提高整体性能，同时仍然保留了选择不同训练和推理尺度的灵活性。使用AFA和SSR，我们将DLA基线模型性能提高了6.3mIoU以上。注意力可视化。为了理解我们的AFA融合模块关注的地方，我们在图中可视化了一组输入特征的生成注意力图。五、AFA学习根据输入特征所包含的信息来处理不同的区域二值融合模块关注较浅特征Fs中的对象边界，并关注较深特征Fd上的其余部分。我们的多特征融合模块可以执行复杂的特征选择，参加不同的区域为每个特征级别。F1聚集较浅的特征，因此模块倾向于边界，而其余部分则关注对象或背景。与线性融合操作相比，AFA提供了一种更具表现力的组合特征的方法。分割可视化。我们更深入地研究了 AFA-DLA 在Cityscapes上产生的语义分割结果。[6]并将其与DLA[45]的产品进行比较。通过我们的AFA模块，该模型可以更好地利用空间和通道信息来更好地区分对象边界和分类对象类别。输入DLA AFA GT图6.DLA和AFA- DLA产生的预测的比较黑色像素将被忽略。AFA-DLA能更好地区分目标边界，正确地分类目标类。5. 结论本文提出了一种新的基于注意力的特征聚合模型，并结合一种新的多尺度推理机制来构建竞争AFA-DLA模型。AFA通过空间和通道注意机制，扩大了感受野，有效融合了不同网络层特征。SSR改进了现有的多尺度推理方法，对梯度消失问题更鲁棒。应用我们的所有组件，我们将DLA基线模型性能提高了近6.3个Cityscapes平均IoU。当将AFA与前分割模型相结合时，我们发现Cityscapes的平均IoU至少有2.5%的一致改进，而计算和参数开销只有很小的成本AFA-DLA还在BDD 100 K上建立了新的最先进的结果，并在不使用外部分割数据集的情况下在Cityscapes上获得了新的最佳分数。此外，对于边界检测任务，AFA-DLA在NYUDv 2和BSDS 500上获得6. 确认我们非常感谢台湾科技部（MOST 110 -2634-F-002-051）提供的计算机105引用[1] 巴勃罗·阿贝莱斯，迈克尔·梅尔，查利斯·福克斯，还有吉坦德拉·马利克.轮廓检测和分层图像分割。IEEETransactionsonPatternAnalysisandMachineIntelligence，33（5）：898[2] Long Chen，Hanwang Zhang，Jun Xiao，Ligen Nie，Jian Shao，Wei Liu，and Tat-Seng Chua. Sca-cnn：图像字幕卷积网络中的空间和通道注意力。在CVPR，2017年。[3] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834[4] Liang-Jieh Chen，Yi Yang，Jiang Wang，Wei Xu，andAlan L Yuille.注意秤：尺度感知的语义图像分割。在IEEE计算机视觉和模式识别会议论文集，第3640-3649页[5] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在欧洲计算机视觉会议（ECCV）的会议记录中，第801-818页[6] Bowen Cheng ， Ishan Misra ， Alexander G Schwing ，Alexan- der Kirillov，and Rohit Girdhar.用于通用图像分割的掩蔽注意掩码 TransformerarXiv 预印本 arXiv ：2112.01527，2021。[7] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在Proceedings of the IEEEconference on computer vision and pattern recognition，pages 3213[8] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。[9] Ruoxi Deng ， Chunhua Shen ， Shengjun Liu ， HuibingWang，and Xinru Liu.学习预测清晰的边界。在欧洲计算机视觉会议（ECCV）的Proceedings中，第562-578页[10] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器. arXiv预印本arXiv：2010.11929，2020。[11] Robert A Drebin，Loren Carpenter，Pat Hanrahan.体绘制。ACM Siggraph计算机图形，22（4）：65[12] 傅军，刘静，田海杰，李勇，鲍勇军，方志伟，卢汉青.用于场景分割的双注意网络。在IEEE计算机视觉和模式识别会议论文集，第3146- 3154页[13] 傅军，刘静，王宇航，李勇，鲍勇军，唐金辉，卢汉青.用于场景解析的自适应上下文网络。在IEEE/CVF国际计算机视觉会议论文集，第6748-6757页，2019年。[14] Saura bhGupta，RossGirshick，PabloArbela' ez，andJiten-dra Malik.从rgb-d图像

下载后可阅读完整内容，剩余1页未读，立即下载