自我注意的期望最大化网络在语义分割任务中的应用——一种更加高效和准确的方法

14 浏览量更新于2023-10-13 收藏 1.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9167基于期望最大化的注意网络语义分割李霞1、2、钟智生2、吴建龙2、3、杨一波4、林周晨2、刘红1、1北京大学深圳研究生院机器感知重点实验室2北京大学机电工程学院机器感知教育部重点实验室3山东大学计算机科学与技术学院4北京大学{ethanlee zszhong jlwu1992 ibo zlin hongliu}@ pku.edu.cn摘要自我注意机制已被广泛应用于各种任务。它被设计成通过所有位置处的特征的加权和来计算每个位置的表示。因此，它可以捕获远程关系的计算机视觉任务。然而，它在计算上是消耗的。因为注意力图是在所有其它位置上计算的。在本文中，我们将注意力机制表述为期望最大化的方式，并迭代地估计一组更紧凑的基础，在此基础上计算注意力地图。通过在这些基础上的加权求和，得到的表示是低秩的，并且弃用来自输入的噪声信息。所提出的期望-最大化注意力（EMA）模块对输入的方差具有鲁棒性，并且在存储和计算方面也是建立了基地维护和规范化的方法，使训练过程稳定。我们对流行的语义分割基准进行了广泛的实验，包括PAS-CAL VOC，PASCAL Context和COCO Stuff，我们在这些基准上创造了新的记录1。1. 介绍语义分割是计算机视觉的一个基本而又具有挑战性的问题，其目标是为图像的每个像素分配一个语义类别。它对于自动驾驶、图像编辑和机器人传感等各种任务为了有效地完成语义分割任务，我们需要区分一些易混淆的类别，并考虑不同对象的外观。例如，“草”和“地面”在一些情况下具有相似的颜色，并且“人”可以在图像的不同位置具有各种比例、人物和衣服。同时，输出的标签空间相当com-1项目地址：https://xialipku.github.io/EMANet输入特征图. .. ... . . . . . .. .. ......你好。. .. . . . . .. . .. . . . .. . . .. . .. ..图1：所提出的期望最大化注意力方法的流水线。并且特定数据集的类别的数量是有限的。因此，该任务可以被视为将高维噪声空间中的数据点投影到紧凑的子空间中。其本质在于对这些变化进行去噪并捕获最重要的语义概念。最近，已经提出了许多基于全卷积网络（FCN）[22]的最先进方法来解决上述问题。由于固定的几何结构，它们固有地受到局部感受野和短程上下文信息的限制。为了捕获长程依赖性，若干工作采用多尺度上下文融合[17]，诸如灾难卷积[4]、空间金字塔[37]、大核卷积[25]等。此外，为了保持更详细的信息，提出了编码器-解码器结构[34，5]来融合中级和高级语义特征。为了聚合来自所有空间位置的信息，使用注意机制[29，38，31]，其使得单个像素的特征能够融合来自所有其他位置的信息。然而，原有的基于注意力的方法需要生成大的注意力图，计算复杂度高，占用大量GPU内存。瓶颈在于注意力地图的生成和使用都是在所有位置上计算的。针对上述问题，本文从期望最大化（EM）算法[7]的角度对注意机制进行了重新思考，并提出了一种新的注意机制。提出了一种新的基于注意力的方法，即期望-最大化注意力方法（EMA）。代替将所有像素本身视为重建基[38，31]，我们输出特征图EME M注意力地图基地9168使用EM算法寻找更紧凑的基集，可以大大降低计算复杂度。详细地说，我们认为基础的建设作为参数学习EM算法和注意力地图作为潜在变量。在这种设置中，EM算法旨在找到参数（基）的最大似然估计。给定当前参数，期望（E）步骤用作估计注意力图的期望，并且最大化（M）步骤函数用作通过最大化完整数据似然来更新参数（基）。E步骤和M步骤交替执行。在收敛之后，输出可以被计算为基的加权和，其中权重是归一化的最终注意力图。EMA的流水线如图所示。1.一、我们进一步嵌入建议EMA方法到一个模块的神经网络，这是名为EMA单元。EMA单元可由普通运算器简单实现。它也是轻量级的，可以很容易地嵌入到现有的神经网络中。此外，为了充分利用其能力，我们还提出了两种方法来稳定EMA单元的训练过程。我们还评估了它的性能在三个具有挑战性的数据集。本文的主要贡献如下：• 我们将自注意机制转化为期望最大化的迭代方式，可以学习到更紧凑的基集，并大大减少计算复杂度据我们所知，本文是第一次将EM迭代引入注意机制。• 我们将提出的期望最大化注意力作为神经网络的一个轻量级模块，并建立了具体的基维护和训练方式正常化• 在 PASCAL VOC 、 PAS-CAL Context 和 COCOStuff三个具有挑战性的语义分割数据集上进行了大量实验，结果表明，该方法具有良好的语义分割效果。我们的方法比其他最先进的方法优越。2. 相关作品语义分割基于全卷积网络（FCN）[22]的方法通过利用在大规模数据[28]上预训练的分类网络[14，15，33]的强大卷积特征，在图像语义分割方面取得了很大进展提出了几种模型例如，DeeplabV2 [4]利用熵空间金字塔池化（ASPP）来嵌入上下文信息，其由具有不同扩张率的并行扩张卷积组成DeeplabV3 [4]通过图像级功能扩展了ASPP，以进一步捕获全局上下文。同时，PSPNet [37]提出了一个金字塔池模型来收集不同尺度的上下文信息。GCN [25]采用大核卷积的解耦，以获得特征图的大接收域并捕获远程信息。对于其他类型的变体，它们主要集中在预测更详细的输出。这些方法基于U-Net [27]，它结合了高级特征和中级特征的优点。RefineNet [21]利用拉普拉斯图像金字塔来明确捕获下采样过程中可用的信息DeeplabV3+ [5]在DeeplabV3上添加了解码器，以细化分割结果，尤其是沿着对象边界。Exfuse [36]提出了一种新的框架来弥合低级和高级特征之间的差距，从而提高分割质量。注意力模型。注意力广泛用于各种任务，如机器翻译、视觉问答和视频分类。自注意方法[2，29]通过加权和计算一个位置处的上下文编码在句子的所有位置嵌入的信息。非局部[31]首先采用自注意机制作为计算机视觉任务的模块，例如视频分类，对象检测和实例分割。PSANet [38]通过预测的注意力地图学习聚合每个位置的上下文信息。A2Net [6]提出了双注意力块来从图像的整个时空空间中分布和收集信息性全局特征。DANet [11]应用空间和通道注意力来收集特征图周围的信息，这比非局部方法消耗更多的计算和内存。我们的方法是由上述作品中从EM算法的角度重新思考注意力机制，并以EM算法的迭代方式计算注意力图。3. 预赛在介绍我们提出的方法之前，我们首先回顾了三个高度相关的方法，即EM算法，高斯混合模型和非局部模型。3.1.期望最大化算法期望最大化（EM）[7]算法旨在找到潜在变量模型的最大似然解。将X ={x1，x2，...，xN}表示为由N个观察样本组成的数据集，并且每个数据点xi具有其对应的潜在变量zi。我们称{X，Z}是完整数据，其似然函数的形式为ln p（X，Z|其中θ是所有参数的集合的模型。在实践中，Z中潜在变量的唯一知识由后验分布p（Z）给出|X，θ）。9169JKNKKKKEM算法被设计为最大化可能性lnp（X，Z|θ）通过两个步骤，即，E步骤和M步骤。在E步骤中，我们使用当前参数θold来找到由p（X，Z）给出的Z的后验分布|θ）。然后我们使用后验分布。n到finΣd的期望在实际应用中，我们可以简单地将Σk替换为单位矩阵I，并在上述等式中省略Σk3.3.非本地完全数据似然Qθ，θold，其由下式给出非本地模块[31]的功能与.ΣΣΣQθ，θold =pZ|X，θoldlnp（X，Z|θ）。（一）自我注意机制它可以被公式化为：z然后，在M步骤中，通过最大化函数来确定修正参数θnewyi=1C（xi）Σf（xi，xi）g（xi），（9）Jθnew=argmaxQ。θ，θoldΣ。（二）θEM算法交替执行E步骤和M步骤，直到满足收敛标准。3.2. 高斯混合模型高斯混合模型（GMM）[26]是EM算法的一个特例它将数据xn的分布视为高斯分布的线性叠加：ΣK其中f（·，·）表示一般核函数，C（X）是归一化因子，并且X1表示位置i的特征向量。当此模块应用于要素时，卷积神经网络（CNN）的映射。考虑到N（xn|µk，Σk）在等式（5）是xn和μk之间的特定核函数，等式（8）仅仅是Eq.（九）、然后，从GMM的角度来看，非局部模块只是X的重新估计，没有E步和M步。具体地，μ仅被选择为非局部中的X在GMM中，高斯基的数量被选择为p（xn）=k=1znkN（xn|µk，Σk），（3）通常满足KN。但在非局部模块中，基被选择为数据本身，因此它其中，均值µk和协方差Σk是第k个高斯基的参数。在这里，我们省略了先前的πk。完整数据的似然性被公式化为：有K=N。非局部模块有两个明显的缺点。首先，数据位于低维流形中，因此基是过完备的。第二、lnp（X，Z |µ，Σ）=ΣΣNlnn=1ΣΣKk=1Σznk N（xn|µk，Σk）、（四）计算开销很大，也很大。4. 期望最大化注意其中kznk=1。znk可以被看作是第k个基对观测值xn所取的值。对于GMM，在E步骤中，znk的期望值由下式给出：鉴于注意机制的高计算复杂度和非局部模型的局限性，我们首先提出了期望最大化注意机制。新N（xn|µnew，Σk）（EMA）方法，这是自znk =Σj=1N .KXn|µnew，ΣjΣ。（五）关注与选择所有数据点为基础，我们使用EM迭代来找到一个紧凑的在M步骤中，如下重新估计参数：基组µ新=1ΣNNn=1Z新XN，（六）为了简单起见，我们考虑来自单个样本的大小为C×H×W的输入特征映射XX是CNN的中间激活。为了简化符号，我们重塑1ΣN。Σ。Σ⊤其中N=H×W，且xi∈R指标Σnew=哪里Nn=1新NKxn−µoldzKK9170NKnΣNxn−µold，像素i处的 C 维特征向量。我们提出的EMA 由三个操作组成，包括责任估计（AE），似然最大化（AM）和数据重新估计（ AR）。简单地说，给定输入X∈RN×CNk=n=1znew.（七）和初始基μ∈RK×C，AE估计潜变量（或在GMM参数收敛之后，重新估计的x_new可以公式化为：作为EM算法中的E步骤。M使用估计来更新碱基μ，这与M步骤一样ΣKx新=z new µ new。（八）AE和AM步骤交替地执行预定次数的迭代。然后，用收敛的μ和Z，n n k kk=1AR将原始X重建为Y并输出。917122M……基础1 × 1ConvR1 × 1转换批次标准⊕CNN预测器E注意地图��输入EMA单元输出图2：拟议EMAU的总体结构。关键组件是EMA操作符，其中AE和AM交替执行。除了EMA算子外，我们在EMA的开始和结束处添加两个1×1卷积，并将输出与原始输入相加，形成一个类似残差的块。最好在屏幕。证明了随着EM的迭代，K有几种选择。（a，bΣ），如内点步骤，完整数据似然lnp（X，Z）将增加ab，指数内点exp.ab，欧氏距离Σ单调地由于lnp（X）可以通过边际估计，利用Z对lnp（X，Z）进行化，最大化lnp（X，Z）是最大化lnp（X）的代理。因此，随着AE和AM，更新后的Z和µ具有更好的a−b −a −b2/σ2等。与非局部模块相比，这些模块的选择函数在fina中产生微小的差异。结果Σlts。所以我们简单地取指数内点expab在我们重建原始数据X。重建的X可以尽可能多地从X此外，与Non-local模块相比，EMA为输入图像的像素找到一组紧凑的基紧凑性是非瞬态的。由于KN，X位于本文在实验中，Eq.等式（11）可以被实现为矩阵乘法加上一个softmax层。总之，在第t次迭代中的A/E的运算被公式化为：..Σ⊤ΣX的子空间该机制去除了大量不必要的噪声，并对每个像素进行最终分类Z（t）=softmaxλXµ（t−1）、（十二）更听话更详细地说，这种操作。nreΣducesthecom-其中，λ是用于控制的分布的超参数复杂性（空间和时间）从O N2到O（NKT）， Z.其中T是AE和AM的迭代次数。的EM算法的收敛性也得到了保证。值得注意的是，在我们的实验中，EMA只需要三次迭代就可以得到有希望的结果。所以T可以看作是一个小常数，这意味着复杂度只有O（NK）。4.1. 责任估算责任评估（AE）作为E步骤4.2. 似然最大化似然最大化（AM）作为EM算法利用估计的Z，AM通过最大化完整数据似然来更新μ。为了保持基与X位于相同的嵌入空间中，我们使用X的加权和来更新基μ。所以k是最新的，EM算法。此步骤计算期望值（吨）z（t）xn的znk，对应于第k个基μ对xn的责任，其中1≤k≤K且1≤n≤N。µk=Σnkm=1（吨）MK（十三）我们将给定µk的xn的后验概率公式化为如下所示：p（xn|µk）=K（xn，µk），（10）其中K表示一般核函数。现在，Eq。（5）可以改写成更一般的形式：在AM的第t次迭代中。值得注意的是，如果我们在等式中设置λ→ ∞。（12）然后{zn1，zn2，...，znK}将变成独热嵌入。在这种情况下，每个像素仅分配给一个基。和基础由分配给它的那些像素的平均值更新。这就是K-means聚类算法[10]z=ΣK（xn，µk）.（十一）可以这因此，AE和AM的迭代也可以被视为zN9172nkk Kj=1 K（xn，µj）K-means聚类的软版本。9173KK4.3. 数据重新估计EMA交替运行AE和AMT次。之后，最终的μ（T）和Z（T）用于重新估计X。我们采用Eq. （8）构造新的X，即X，公式为：X~=Z（T）µ（T）。（十四）由于X~是从紧凑基集构造的，因此与输入X相比，它具有低秩性质。我们在图1中描绘了X~的示例。二、显然对象内部的方差小于输入的方差。5. EMA单元为了更好地将所提出的EMA与深度神经网络相结合，我们进一步提出了期望最大化注意力单元（EMAU）并将其应用于语义分割任务。在本节中，我们将详细介绍EMAU。本文首先介绍了EMAU的总体结构，然后讨论了EMAU的碱基5.1. EMA单位EMAU 的总体结构如图所示。二、乍一看，EMAU看起来像是ResNet的瓶颈，除了它用EMA操作取代了繁重的3×3卷积没有ReLU激活的第一个卷积被预先设置，以将输入的值范围从（0，+∞）转换为（−∞，+∞）。这种转变--这是非常重要的，否则估计的μ（T）也将位于[0，+∞）中，与一般卷积参数相比，这将使容量减半插入最后的1×1卷积以将重新估计的X~变换到X的残差空间中。对于AE、AM和AR步中的每一步，计算复杂度为O（NKC）。当我们设置KC时，AE和AM加上一个AR的几次迭代与输入和输出通道数都为C的1×1卷积的大小相同。加上两个1×1卷积的额外计算，EMAU的整个FLOP大约是运行3×3卷积的模块的1/3，具有相同的输入和输出通道数此外，参数由EMA维护的仅计入KC。5.2. 基地维护我们只描述如何使用EMA来处理上面的一个然而，对于计算机视觉任务，数据集中有数千个图像。由于每个图像X具有与其他图像不同的像素特征分布，因此不适合使用在图像上计算的μ来重建其他图像的特征图。所以我们在每个图像上运行EMA。对于第一个小批，我们使用Kaim- ing的初始化[ 13 ]初始化μ（0）对于下面的小批量，一个简单的选择是使用标准反向传播更新µ（0）然而，由于AE和AM的迭代可以是作为一个递归神经网络（RNN）展开，通过它们传播的梯度将遇到消失或爆炸问题。因此，μ（0）的更新是不稳定的，并且EMA单元的训练过程可能崩溃。在本文中，我们在训练过程中使用移动平均来更新μ（0）在对图像进行迭代之后，生成的μ（T）可以被视为μ（0）的有偏更新，其中偏置来自图像采样过程。为了减少偏差，我们首先在一个小批次上对µ（T）求平均值，然后得到µ¯（T）。然后我们将µ（0）更新为：µ（0）<$αµ（0）+（1−α）µ<$（T），（15）其中α∈[0，1]是动量。对于推理，μ（0）保持固定。这种移动平均机制也用于批量归一化（BN）[16]。5.3. 碱基归一化在上面的小节中，我们完成了每个小批的μ（0）的维护。然而，由于RNN的缺陷，仍然不能保证AE和AM迭代中μ（t）的稳定更新。上面描述的移动平均机制要求μ¯（T）与μ（0）没有显著差异，否则它也会像反向传播一样崩溃。这一要求也限制了µ（t）的取值范围，1≤t≤T。为此，我们需要对μ（t）进行归一化。乍一看，BN或层归一化（LN）[1]听起来是不错的选择。然而，上述这些归一化方法将改变每个基μ（t）的方向，这改变了它们的属性和语义。意义为了保持每个基的方向不变，我们选择欧几里得归一化（L2Norm），它将每个µ（t）除以其长度。通过应用它，μ（t）则位于i，n一个K维u，n，ited型r-球面，并且序列EM算法的另一个问题是初始化µ（0）、µ（1）、···、µ（T）形成了一个轨迹k k k的基地。保证EM算法收敛，因为完整数据的可能性是有限的，并且在每次迭代中，E和M步都提升其当前下限。然而，收敛到全局最大值不是5.4. 与双重注意障碍比较A2Net [6]提出了双注意力块（A2块），其中输出Y计算为：保证因此，itera之前的base的初始值选择是非常重要的。ΣY=φ（X，Wφ）sfm（θ（X，Wθ））Σ⊤sfm（ρ（X，Wρ）），（16）917480787674721 2 3 4 5 6 78用于评估的迭代次数T8079787776751 2 3 4 5 6 7 8用于评估的迭代次数T评价迭代次数（mIoU%）图3：EMAU的碱基维持（左）和正常化（右）策略的消融研究。实验在ResNet-50上进行，批量大小为12，在PASCAL VOC数据集上训练输出步幅为16用于训练的迭代次数T被设置为3。最好在屏幕。其中sfm表示softmax函数。φ、θ和ρ分别表示三个1×1卷积，卷积核分别为Wφ、Wθ和Wρ。如果我们在θ和ρ之间共享参数，那么我们可以标记两个Wθ Wρ 作为μ。我们可以看到sfm（θ（X，Wθ））仅计算Z，与Eq. 5.那些在[·]中的变量更新μ。A2块的整个过程相当于EMA，只需一次迭代.A2块中的Wθ最重要的是，加倍注意阻滞可以看作是EMAU的一种特殊形式。6. 实验为了评估所提出的EMAU，我们对PASCAL VOC数据集[9]，PASCAL Context数据集[24]和COCO Stuff数据集[3]进行了广泛的实验。在本节中，我们首先介绍实现细节。然后，我们进行消融研究，以验证所提出的方法的优越性PASCAL VOC数据集。最后，我们报告了我们的PASCAL上下文数据集和COCO的东西数据集的结果。6.1. 实现细节我们使用ResNet [14]（在ImageNet [28]上预训练）作为我们的骨干。在先前的工作[37，4，5]之后，我们采用了一种多学习率策略，其中初始学习速率乘以（1-iter/总iter）0。9、每一个人都有责任初始学习率被设置为0。009所有数据集动量和重量衰减系数设置为0。九比零。0001，分别。对于数据增强，我们应用公共尺度（0. 五比二0）、裁剪和翻转图像以增强训练数据。所有数据集的输入大小设置为513×513。所有实验均采用同步批处理归一化，并结合多网格[4]。对于评估，我们采用常用的Mean IoU度量。主干的输出步幅设置为16，用于PASCAL VOC和PASCAL Context的训练，8，用于COCO Stuff的训练和所有数据集的评估。为了加快训练过程，我们在ResNet-50上进行所有消融研究[14]，批量大小为12。所有的模特都要图4：迭代次数T的消融研究。实验在ResNet-50上进行，在PASCAL VOC数据集上具有训练输出步幅16和批量大小12与现有技术相比，我们在ResNet- 101上训练它们，批量大小为16。我们在PAS-CAL VOC和COCO Stuff上训练30 K次迭代，在PASCAL Context上训练 15 K次迭代我们使用3×3卷积将通道数从2048减少到512，然后在其上叠加EMAU。我们把整个网络称为EMANet。我们将基数K=64，λ=1和用于训练的迭代次数T=3设置为默认。6.2. PASCAL VOC数据集的结果6.2.1基地维护和正常化在这一部分中，我们首先比较了不同的维护μ（0）的策略。我们在训练中设置T=3，在评估中设置1≤T≤8。如图1的左部分所示。3、所有策略的性能随着AE和AM的迭代次数的增加而增加。当T≥4时，来自更多迭代的增益是边际的。移动平均线表现最好他们它在所有迭代中实现了最高性能，并超过其他人至少0。9在mlou。令人惊讶的是，通过反向传播的更新与没有更新相比没有表现出优点，并且当T≥3时甚至表现更差。然后我们比较了没有正常化的表现-L1、L2和L2Norm。从图的右边部分。3，可以清楚地看到LN甚至比没有正常化更糟糕。因为它可以部分减轻RNN结构的梯度杂务。LN和无归一化的性能与迭代次数T的相关性很小。相比之下，L2Norm当T≥3时，它优于LN和无归一化。6.2.2迭代次数从图3，很明显，EMAU的性能在评估期间从更多的迭代中获得增益，并且当T>4时，增益变得微不足道。在本小节中，我们还研究了T在训练中的影响。我们将性能矩阵绘制在Ttrain和Teval上，如图1B所示。 4.第一章没有更新反向传播移动平均无归一化L2归一化层归一化mIoU [%]mIoU[%]训练迭代12345678177.3477.5277.6077.5977.5977.5977.5977.59277.7578.0478.1578.1578.1278.1278.17378.5278.8078.8678.8878.8978.88478.1478.2578.2778.2878.27577.7077.7677.8277.86677.8577.9177.92777.1177.14877.249175表1：使用DeeplabV 3/V3+和PSANet的PASCAL VOC的详细比较，单位为mIoU（%）。所有结果都是通过主干ResNet-101和输出步幅实现的8. FLOP和内存是用513×513的输入大小计算的。SS：测试期间的单标度输入。MS：多尺度输入。翻转：添加左右翻转的输入。 EMANet （ 256 ）和 EMANet（512）表示EMANet，其中输入通道的数量分别为256和512方法SSMS+翻转FLOPs 存储器ParamsResNet-101--190.6G2.603G42.6MDeeplabV3 [4]78.5179.77+63.4G+66.0M+15.5MDeeplabV3+[5]79.3580.57+84.1G+99.3M+16.3MPSANet [38]78.5179.77+56.3G+59.4M+18.5MEMANet（256）79.7380.94+21.1G +12.3M +4.87MEMANet（512）80.0581.32+43.1G+22.1M+10.0M表2：PASCAL VOC测试集的比较方法骨干mIoU（%）Wide ResNet [32]WideResNet-3884.9PSPNet [37]ResNet-10185.4DeeplabV3 [4]ResNet-10185.7PSANet [38]ResNet-10185.7EncNet [35]ResNet-10185.9DFN [34]ResNet-10186.2退出[36]ResNet-10186.2[30]第三十话ResNet-10186.3SDN [12]DenseNet-16186.6DIS [23]ResNet-10186.8EMANetResNet-10187.7GCN [25]ResNet-15283.6RefineNet [21]ResNet-15284.2DeeplabV3+[5]Xception-7187.8退出[36]ResNeXt-13187.9摩根士丹利资本国际[20]ResNet-15288.0EMANetResNet-15288.2从图4中可以清楚地看出，mIoU随着评估中的更多迭代而单调地增加，无论Ttran是什么。最终达到固定值。然而，这条规则在训练中不起作用。 mIoU在Ttrain=3时达到峰值，并且随着更多的迭代而减小。这种现象可能是由EMAU的RNN样行为引起的。虽然移动平均线和L2范数可以在一定程度上缓解问题，但问题仍然存在。我们还在A2块[6]上进行了实验，它可以被认为是EMAU的一种特殊形式，如在Sec. 5.4类似地，非局部模也可以看作是EMAU的一种特殊形式，它没有AM步，它包括多个基，Ttrain=1。在相同的主干和训练调度器下，A2块和非本地模块在mIoU中的平均性能分别达到77.41%和77.78%。作为比较，EMANet在以下情况下实现77.34%9176表3：与PASCAL上下文测试集上的最新技术水平的比较‘+’ means pretrained on COCO方法骨干mIoU（%）PSPNet [37]ResNet-10147.8DANet [11]ResNet-5050.1摩根士丹利资本国际[20]ResNet-15250.3EMANetResNet-5050.5SGR [18]ResNet-10150.8CCL [8]ResNet-10151.6EncNet [35]ResNet-10151.7SGR+[18]ResNet-10152.5DANet [11]ResNet-10152.6EMANetResNet-10153.1表4：COCO Stuff测试集的比较。方法骨干mIoU（%）RefineNet [21]ResNet-10133.6CCL [8]ResNet-10135.7DANet [11]ResNet-5037.2DSSPN [19]ResNet-10137.3EMANetResNet-5037.6SGR [18]ResNet-10139.1DANet [11]ResNet-10139.7EMANetResNet-10139.9Ttrain=1且Teval=1。这三个结果有很小的差异，这与我们的分析是一致的。6.2.3与最新技术水平的比较我们首先彻底比较EMANet与三个基线，即DeeplabV3，DeeplabV 3+和PSANet的vali- dation集。我们报告mIoU，FLOPs，内存成本和参数表中的数字。1.一、我们可以看到EMANet在这三个基线上的表现要好很多.此外，EMANet在计算和存储方面要轻得多。我们进一步比较我们的方法与现有的方法在PASCAL VOC测试集。按照先前的方法[4，5]，我们通过COCO、VOCtrainaug和VOCtrainval集连续训练EMANet。我们将基本学习率分别设置为0.009、0.001和0.0001。我们在COCO上训练了15万次迭代，最后两轮训练了3万次。当推断测试集时，我们使用多尺度测试和左右翻转。如Tab.所示2，我们的EMANet在PASCAL VOC上创造了新纪录，并在 mIoU 中将具有相同主链的DeeplabV3 [4]提高了2.0%我们的EMANet在具有骨干ResNet-101的网络中实现了最佳性能，并且比以前的最佳网络高出0.9%，这是非常重要的，因为这个基准测试非常有竞争力。此外，它实现了与基于一些较大主干的方法相比较的性能9177图像标签z·iz·jz·kz·l图5：最后一次迭代中职责Z的可视化前两行说明了PASCAL VOC验证集的两个示例最后两行说明PASCAL上下文验证集中的两个示例。 z·i表示第i个基对最后一次迭代中所有像素的责任，i、j、k和l是四个随机选择的索引，其中1≤i、j、k、l≤K。最好在屏幕。6.3. PASCAL上下文数据集上的结果为了验证我们提出的EMANet的泛化，我们进行实验的PASCAL上下文数据集。PASCAL Context的定量结果见表1。3 .第三章。据我们所知，EMANet基于在ResNet-101上实现了PASCAL Context数据集的最高性能。即使在额外的数据（COCO Stuff）上进行预训练，SGR+仍然不如EMANet。6.4. COCO Stuff数据集上的结果为了进一步评估我们的方法的有效性，我们还进行了COCO Stuff数据集上的实验。与以前最先进的方法的比较见表1。4.第一章值得注意的是，EMANet在mIoU中实现了39.9%，并且大幅优于以前的方法6.5. 基地职责为了更深入地理解我们提出的EMAU，我们在图2中可视化了迭代的责任图Z五、对于每个图像，我们随机选择四个基（i，j，k和l），并在最后一次迭代中显示其对应的所有像素的责任显然，每个基对应于图像的抽象概念随着AE和AM的发展，抽象概念变得更加紧凑和清晰。正如我们所看到的，这些基础收敛到一些特定的语义，而不仅仅关注前景和背景。具体地说，前两行的基底侧重于特定的语义，如人、酒杯、餐具和轮廓。最后两排的基础集中在帆船，山，飞机和车道。7. 结论在本文中，我们提出了一种新型的注意力机制，即期望最大化注意力（EMA），它计算一个更紧凑的基集通过作为EM算法迭代地执行。EMA的重构输出是低秩的，并且对输入的变化具有鲁棒性。我们很好地制定了所提出的方法作为一个轻量级的模块，可以很容易地插入到现有的CNN很少的开销。在大量基准数据集上的实验证明了所提出的EMAU的有效性和效率。确认国家基础研究计划（973计划）（批准号：）资助的课题. 2015CB352502）、中国国家自然科学基金（NSF）（批准号：61625301和61731018）、高通和微软亚洲研究院。国家自然科学基金项目（批准号：200000000）。U1613209和61673030）和深圳市智能多媒体与虚拟现实重点实验室（ZDSYS201703031405467）的资金。9178引用[1] 吉米·雷·巴，杰米·瑞安·基罗斯，杰弗里·E·辛顿.层归一化。arXiv预印本arXiv：1607.06450，2016。[2] Dzmitry Bahdanau，Kyunhyun Cho，Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。arXiv预印本arXiv：1409.0473，2014。[3] Holger Caesar Jasper Uijlings 和 Vittorio Ferrari 可可 - 东西：上下文中的事物和东西类。在CVPR，第1209-1218页[4] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587，2017.[5] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在ECCV，2018。[6] Yunpeng Chen，Yannis Kalatidis，Jianshu Li，ShichengYan ，and Jianshi Feng. A2-nets：双重注意网络。在NeurIPS，第350-359页[7] Arthur P Dempster，Nan M Laird，and Donald B Rubin.不完全数据的最大似然法。英国皇家统计学会杂志：Series B（Methodological），39（1）：1 -22，1977.[8] Henghui Ding ， Xudong Jiang ， Bing Shuai ， Ai QunLiu，and Gang Wang.基于上下文对比特征和门控多尺度聚合的场景分割方法.在CVPR中，第2393-2402页[9] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（ voc ）的挑战。 International Journal ofComputer Vision，88（2）：303[10] 爱德华·W·福吉多变量数据的聚类分析：分类的效率与可解释性。biometrics，21：768[11] Jun Fu ， Jing Liu ， Haijie Tian ， Yong Li ， YongjunBao，Zhivei Fang，and Hanqing Lu.用于场景分割的双注意网络。在CVPR中，第3146-3154页[12] 傅俊，刘静，王宇航，周进，王昌永用于语义分割的堆叠去卷积网络。 IEEE Transactions on ImageProcessing，2019。[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun. 深入研究整流器：超越人类对imagenet分类的水平。在ICCV，第1026- 1034页[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年[15] Gao Huang，Zhuang Liu，Laurens Van Der Maaten，andKilian Q Weinberger. 密集连接的卷积网络。在CVPR中，第4700-4708页[16] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv：1502.03167，2015。[17] Xia Li，Jianlong Wu，Zhouchen Lin，Hong Liu，andHongbin Zha.循环压缩激励上下文聚合网络用于单图像去噪。在ECCV，第254-269页，2018年。[18] Xiaodan Liang，Zhiting Hu，Hao Zhang，Liang Lin，and Eric P Xing.符号图推理遇到了卷积。在NeurIPS，第1858-1868页[19] 梁晓丹，周鸿飞，邢伟。动态结构语义传播网络。在CVPR，第752-761页[20] Di Lin，Yuanfeng Ji，Dani Lischinski，Daniel Cohen-Or，and Hui Huang.多尺度上下文交织语义分割。参见ECCV，第603-619页[21] Guosheng Lin ，Anton Milan，Chunhua Shen，and IanReid. Refinenet：用于高分辨率语义分割的多路径细化网络。在CVPR中，第1925- 1934页[22] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在CVPR，第3431-3440页[23] Ping Luo，Guangrun Wang，Liang Lin，and XiaogangWang.用于语义图像分割的深度对偶学习。在ICCV，第2718-2726页[24] Roozbeh Mottaghi，Xianjie Chen，Xiaobao Liu，Nam-Gyu Cho ， Seong-Whan Lee ， Sanja Fidler ， RaquelUrtasun，and Alan Yuille.背景在野外物体检测和语义分割中的作用。在CVPR，第891-898页，2014年。[25] Chao Peng，Xiangyu Zhang，Gang Yu，Guiming Luo，and Jian Sun.大核在CVPR中，第4353[26] 西尔维娅·理查

下载后可阅读完整内容，剩余1页未读，立即下载