没有合适的资源?快使用搜索试试~ 我知道了~
13065基于挤压-注意网络的语义分割钟子龙1、4、林仲秋2、Rene Bidart2、胡晓丹2、Ibrahim Ben Daya2、李志峰5、郑伟世1、3、4、Jonathan Li2、Alexander Wong21中山大学数据与计算机科学学院2University of Waterloo滑铁卢大学,加拿大3鹏程实验室,深圳5180054机器智能与先进计算教育部重点实验室5Mstar Technologies,杭州,中国{zlzhong,wszheng} @ ieee.org,{zq2lin,x226hu,ibendaya,junli,a28wong} @ uwaterloo.ca摘要最近将注意力机制整合到分割网络中,通过更加强调信息量更大的特征,提高了它们的表征能力。然而,这些注意力机制忽略了语义分割的隐式子任务,并且受到卷积核的网格结构的在本文中,我们提出了一种新的挤压和注意力网络(SANet)架构,该架构利用有效的挤压和注意力(SA)模块来解释分割的两个独特特征:i)像素组注意,以及ii)逐像素预测。具体地,所提出的SA模块通过引入“注意力”卷积通道来对常规卷积施加像素组注意力通过合并来自SANet的四个分层阶段的输出以整合多尺度上下文以获得增强的逐像素预测来产生最终在两个具有挑战性的公共数据集上的实证实验验证了所提出的SANets的有效性,在PASCAL VOC上实现了83.2%的mIoU(没有COCO预训练),在PASCALContext上实现了54.4%的最新mIoU。1. 介绍分割网络成为自动驾驶、医学图像分析、机器人导航和虚拟现实的关键识别元素。分割方法的进步然而,语义分割并不完全等同于逐像素预测。在本文中,我们认为,语义分割可以分解为两个独立的维度,图1:语义分割可以分解为两个子任务:显式逐像素预测和隐式像素分组。这两个任务将语义分割与图像分类分开。动机设计一个模块,占像素分组,我们设计了一个新的挤压和注意(SA)模块,随着SANet,以提高性能的密集预测和占很大程度上被忽视的像素分组。sions:逐像素预测和像素分组。具体来说,逐像素预测解决每个像素的预测以前的分割工作主要集中在从像素级提高分割性能,但在很大程度上忽略了像素分组的隐含任务[26,5,41,40,4,3]。通过将语义分割分解为两个子任务,可以发现像素分组这一在很大程度上被忽视的任务。如图1所示,第一个子任务需要精确的逐像素注释,并将空间约束引入图像分类。最近的分割模型通过使用金字塔池化和扩张卷积层聚合上下文特征以进行像素级标记而取得了重大进展[41,5]。然而,网格结构-13066这些核的形状限制了在分割网络中学习的空间特征的形状。特征聚合策略增强了逐像素的预测结果,但理解图像的全局视角仍未得到充分利用。为此,我们引入像素分组的第二子任务,其直接鼓励属于同一类的像素在没有空间限制的情况下被分组在一起。像素分组涉及将从电磁频谱范围采样的图像转换为在特定于任务的语义频谱中定义的像素组,其中语义频谱的每个条目对应于类。Mo-tivated通过设计一个模块,占像素分组,我们设计了一个新的挤压和注意力(SA)模块,以减轻卷积核的局部约束SA模块包含下采样但未完全压缩的注意力通道,以有效地产生非局部空间注意力,同时避免在输出头中使用重扩张卷积。具体而言,注意力卷积用于生成注意力掩码,因为每个卷积核扫描输入特征图。与增强主干的SE模块[19]不同, SA模块集成了空间注意力并且是头部单元,其输出被聚合以提高分割性能。SA模块引入的空间注意机制强调了在不同空间尺度上属于同一类的像素组的注意。此外,被挤压的频道充当了全球关注的面具。我们设计了四个SA模块的SANets,以接近上述两个任务的分割。SA模块学习多尺度空间特征和非局部光谱特征,因此克服了用于分割的卷积层的约束。我们使用扩张的ResNet [17]和Ef- ficient Nets [32]作为骨干,以利用其强大的图像识别能力。为了聚合多阶段非局部特征,我们在主干的多阶段输出上采用SA模块,从而获得更好的对象边界和场景解析结果。这个简单但有效的创新使得将SANets推广到其他相关的视觉识别任务变得更加容易 我们使用两个具有挑战性的分段数据集验证SANet:PASCAL上下文和PASCALVOC 2012 [11,45,44]。本文的贡献有三个方面:• 我们将语义分割分解为两个子任务:逐像素密集预测和像素分组。• 我们设计了一个挤压和注意力(SA)模块,该模块既可以用于多尺度密集预测,单个像素和像素组的空间注意力。• 我们提出了一个具有多级头部的挤压和注意力网络(SANet)来利用代表性图2:(a)残差块;(b)挤压激励模块;(c)挤压注意模式;为了简单起见,我们显示卷积(CONV),完全连接(FC),平均池化(Avg.池)层,而省略归一化和激活层。SA模块具有与SE模块类似的结构,其包含用于学习权重的附加路径,以用于重新校准输出特征图Xout的通道。区别在于SA模块的注意通道使用平均池化来下采样特征图,但不像SE模块中那样完全挤压因此,我们将此通道称为注意卷积(ACONV)通道。增强SA模块,并集成多尺度上下文特征和图像级分类信息。2. 相关作品多尺度背景。最近对语义分割的改进主要是通过结合多尺度上下文特征来促进分割模型提取有区别的特征。引入拉普拉斯金字塔结构以组合所引入的多尺度特征[15多路径RefineNet exploration集成了从多尺度输入中提取的特征,以提高分割输出。编码器-解码器架构已被用于融合具有不同语义水平的特征[2,29]。最流行的方法采用池化操作来收集来自不同尺度的空间信息[41,5]。类似地,EncNet采用编码模块,该编码模块在高斯核空间中投影不同的上下文以编码多尺度上下文特征[40]。图形模型,如CRF和MRF被用来施加13067平滑约束,以获得更好的分割结果[43,24,1]。最近,设计了一个gather-excite模块,以通过从长距离上下文收集特征来缓解经典卷积的局部特征约束[18]。我们通过合并骨干残差网络不同阶段的输出来改进多尺度稠密预测。渠道智慧的注意力。选择性地加权特征图的通道有效地增加了传统残差模块的表示能力。一个很好的例子是挤压和激励(SE)模块,因为它强调注意特征图的选定通道。该模块通过将相关类别分组到一起,显著提高了残差网络的分类准确性[19]。EncNet还使用SE模块的分类识别能力[40]。鉴别特征网络(DFN)在其平滑子网络中使用通道加权范例。[21 ]第20段。虽然重新校准特征图通道的频谱权重已被证明对提高卷积层的表示能力是有效的,但实现(例如,挤压和激励模块)导致过多的模型参数。与SE模块[19]相比,我们设计了一种新颖的挤压和注意(SA)模块,该模块具有下采样但未完全压缩的卷积信道,以产生灵活的模块。具体而言,该广告通道生成用于像素分组的类别特定的软注意力掩码,同时在用于像素级预测的经典卷积通道之上添加缩放的空间特征。像素级密集预测,并考虑在很大程度上被忽略的像素组3. 框架经典卷积主要集中在空间局部特征编码上,并且挤压和激励(SE)模块通过使用全局图像信息选择性地重新加权特征映射通道来增强它[19]。受这个简单但有效的图像级分类SE模块的启发,我们设计了一个挤压和注意力(SA)模块,它结合了全卷积层的优点,用于密集的像素预测,并额外添加了一种替代的,更局部形式的特征图重新加权,我们称之为像素组注意力。类似于SE模块,ULE,提高分类性能,SA模块是专门设计用于改善分割结果。3.1. 挤压和激发模块残差网络(ResNets)由于其在图像识别方面的强大性能而被广泛用作分割网络的骨干,并且已经证明,在大型图像数据集ImageNet上预训练的ResNets可以很好地转移到其他视觉任务,包括语义分割[41,5]。由于经典卷积可以被视为一种空间注意力机制,因此我们从作为ResNets基本组成部分的残差块如图2(a)所示,常规残差块可以被公式化为:像素组注意力注意机制在神经语言处理中的成功促进了它在X输出=Xin +X分辨率=Xin +F(Xin;Θ,θ)(1)语义切分空间变换网络以仿射变换的形式解释了空间注意力其中F(·)表示残差函数,其由Θ参数化,并且θ表示两个卷积的结构增加特征不变性[20]。 由于机器分离层。中的X∈RC′×H′×W′和X出来 ∈RC×H ×W翻译和意象翻译有许多相似之处,RNN和LSTM已经通过将语义标记与翻译连接起来用于语义分割[43,21]。[7]采用了一种对尺度敏感的注意策略,使网络能够关注不同尺度的对象。[42]设计了一种特定的空间注意传播机制,包括收集通道和扩散通道。[35]通过计算相关度量使用自我注意力面具[18]设计了一种通过收集局部特征来生成用于图像分类的硬掩模的是输入和输出特征图。SE模块通过重新校准特征图通道来改善残差块。值得注意的是,我们采用了SE模块的更新版本,其性能与[19]中的原始版本等同。如图2(b)所示,SE模块可以公式化为:其中用于重新校准输入特征图Xin的通道的学习权重w被计算为:此外,[36]还证明了非完全压缩模对于边缘计算w= Φ(W2<$σ(W1<$APool(X(in),(3)成本由于空间非对称重校准(SAR)模块生成的权重是向量,不能直接用于分割,与现有的注意力模块不同,本文采用池化层实现的下采样通道,聚合多尺度特征,同时生成软全局注意力掩模。因此,SA模型增强了其中Φ(·)表示sigmoid函数,σ(·)表示ReLU激活函数。首先,平均池-ing层用于然后,采用两个由W1和W2参数化的全连接层通过增加这样一个简单的重新加权机制,SE模块有效地增加了残余块的表示能力。13068图3:挤压和注意力网络。SANet聚合来自多个分层SA头的输出,以生成多尺度类掩码,该掩码占语义分割的大部分被忽略的像素分组任务。这些掩模的训练由地面实况注释中的相应分类区域监督。 此外,掩模用于引导逐像素预测,其是来自FCN头的输出。通过这种方式,我们利用SA模块的像素组注意力提取能力,并同时集成多尺度上下文特征。3.2. 挤压和注意力模块用于语义分割的有用表示出现在图像的全局和局部两个级别。在像素级,卷积层以局部信息为条件生成特征图,因为卷积是在每个像素周围局部计算的。像素级卷积奠定了所有语义分割模块的基础,并且以各种方式增加卷积层的感受野可以提高分割性能[41,40],这表明更大的上下文对于语义分割是有用的。在全局图像级别,可以利用上下文来确定特征图的哪些部分被激活,因为上下文特征指示哪些类可能一起出现在图像中。此外,[40]示出了全局上下文提供了更广泛的视野,这对于语义分割是全局上下文特征对这些区域进行整体编码,而不是为图像的每个部分独立地学习重新加权。然而,仍然有很少的调查,以更细的尺度编码上下文,这是必要的,因为不同部分的同一图像可能包含完全不同的环境。为此,我们设计了一个挤压和注意(SA)模块,以学习更多的代表性功能的任务的语义分割,通过重新加权机制,占本地和全球方面。SA模块扩展SE模块的重新加权信道,如图2(b)所示,其中空间信息未被完全压缩以使SE模块适应场景解析。因此,如图2(c)所示,提出了一个简单的挤压注意力模块,并且可以公式化为:X输出 =Xattn=Xres+Xattn(4)其中,Xattn=Up(σ(Xattn)),并且Up(·)是用于扩展注意力通道的输出的上采样X_ a_ttn=F_a_ttn(A_P _o_l(X_i_n);Θ_a_ttn,θ_a_ttn)(5)其中,X表示注意力卷积通道Fattn(·)的输出,其由Θattn和注意力卷积层的结构θattn参数化。平均池化层APqql(·)用于执行未完全压缩的操作,然后对注意通道的输出进行上采样以匹配主卷积通道的输出。以这种方式,SA模块利用保留的空间信息扩展SE模块,并且注意力通道X的上采样输出attn在主通道上聚集非局部提取的特征。3.3. 挤压与注意力网络我们建立了一个SA网络(SANet)的SA模块上的语义分割具体来说,我们使用SA模块作为头,从骨干网络的四个阶段中提取特征,以充分利用其多尺度。如图3所示,总损失涉及三个部分:密集损失(CE损失),掩码损失(CE损失)和分类损失(二进制CE损失)。ynj是Yden13069NIJNJNJNIJ图4:α和β的消融研究,分别对分类损失和密集预测损失我们使用ResNet50作为主干来测试SANets,并为每种情况训练20个epoch。左:固定β = 0的SANet的mIoU。8选择α具有固定α = 0的SANet的右mIoU。2,选择β。LSANet=Lmask+αLcat+ βLden(6)其中α和β分别是分类损失和辅助损失总损失的每一部分可表述如下:图5:PAS-CAL上下文验证集上的示例语义分割结果.PASCAL VOC验证集上的语义分割结果(a)原始图像。(b)地面真实图像。(c)一项友好气候网络基线的结果(d)SANet的结果。SANet生成更准确的重新-L型掩模1=N×MΣNn=11ΣNΣMi=1ΣCΣCj=1 Ynij logYmask(七)结果,尤其是对象边界。最后一个原始数据展示了一个失败的例子,背景相对复杂,这给分割模型带来了挑战。Lcat=Nn=1j=1 ynjlogycat(八)+(1−ynj)log(1−ycat)L登1=N×MΣNn=1ΣMi=1ΣCj=1 Ynij logYden(九)其中N是每个时期的训练数据大小的数量,M表示空间位置,C表示数据集的类。Ynij和Ynij是预测在SANets和地面实况中,y_n_j和y_n_j是用于计算分类损失L_cat的分类预测和目标。L猫采用二进制交叉熵形式。Lmask和Lden是典型的交叉熵损失。辅助头类似于深度监督的策略[41,40],但其输入来自主干ResNet的第四阶段,而不是常用的第三阶段。SANets的预测集成了逐像素预测,并由第四SA特征图规则化因此,SANet的正则化密集分段预测是Yden+YSA4。扩展的FCN已被用作SANet的骨干。假设输入图像的大小为3×512× 100。512 SA模块的主通道具有相同通道数字作为它们的注意力对应物,并且与输入特征具有相同的空间大小根据经验,我们将输入的通道大小减少到主通道和注意通道的四分之一,将注意通道的下采样(最大池化)和上采样比率设置为8,并将SE模块的中间全连接层的 我们采用群卷积,使用2表1:PASCAL上SANets的消融研究结果上下文数据集(59类,无背景)。SA:挤压并注意头部。Cat:分类损失。Den:密集预测损失。PAcc:像素精度(%)。mIoU:联合的平均交集(%)。组用于主通道和注意通道中的第一卷积操作此外,我们适应SA头的输出分割数据集的类数。4. 实验结果在本节中,我们首先将SA模块与SE模块进行比较,然后使用PASCAL Context [28]数据集进行消融研究,以测试总训练损失的每个组成部分的有效性,并在具有挑战性的PASCAL VOC数据集上进一步验证SANets [12]。遵循场景解析的惯例[5,40],我们在PASCAL上下文中提出了平均交集和并集(mIoU)和像素精度(PAcc),并且mIoU仅在PAS-CAL VOC数据集上评估分割的有效性。模型骨干SA猫DenPACCMiouFCNRes5074.543.2SANetRes50C77.249.2SANetRes50CC79.050.7SANetRes50CCC79.351.9SANetRes101CCC80.653.0SANetEffNet-b7CCC81.655.313070模型骨干Miou[43]第四十三话:一个女人[24]第23话:我的世界,我的世界,我的世界[22]EncNet[40]ResNet101ResNet152ResNet10137.839.340.440.541.343.345.747.351.7SANet(我们的)SANet(我们的)ResNet101EffNet-b752.154.4表2:PAS-CAL上下文数据集(60个具有背景的类)上的平均交集(%)结果。模型PACCMiouFCN 5076.244.9FCN 10176.745.6FCN50-SE76.044.6FCN101-SE76.645.7SANet50(我们的)78.949.0SANet101(我们的)79.250.1表3:基线扩展的FCN、具有SE模块的扩展的FCN(FCN-SE)以及在PASCAL上下文上使用ResNet 50或ResNet 101作为主干的SANet的像素精度(PAcc)和mIoU。SANet显著地输出其SE对应物和基线模型。每个模型训练20个epoch模型。4.1. 执行我们使用Pytorch [30]来实现SANets和导管消融研究。对于训练过程,我们采用了与以前的作品[41,40]一 样 的 多 学 习 率 下 降 时 间 表 PASCAL Context 和PASCAL VOC的初始学习率分别为0.001和0.0001对两个数据集采用了随机梯度下降和多学习率退火算法。对于PASCAL Context数据集,我们训练SANets 80个epoch。至于PASCAL VOC数据集,我们在COCO数据集上预训练模型。然后,我们在验证集上训练网络50个epoch。我们采用ResNet50和ResNet101作为SANets的主干,因为这些网络已被广泛用于主流细分基准。我们在所有训练案例中将batch-size设置为16,并在多个GPU上使用同步批量归一化,最近由[40]实现。我们将四个SA头输出连接起来,以利用骨干不同阶段的多尺度特征,并对深度网络的训练进行正则化。4.2. 关于PASCAL ContextPascal Context数据集包含59个类,4998个训练图像和5105个测试图像。由于该数据集的大小相对较小,因此我们将其作为基准来设计模块架构并选择包括α和β在内的超参数。为了进行消融研究,我们探索SA模块的每个组成部分,有助于增强SANets的分割结果。消融研究包括三个部分。首先,我们测试了总训练损失的权重α和β的影响。如图4所示,我们从0到1.0测试α,发现α= 0的SANet。2、工作最好。类似地,我们固定α= 0。2,则β= 0。8产生最佳分割性能。其次,我们研究了在方程(7)使用选定的超参数。表1显示,与FCN基线相比,使用ResNet50作为主干的SANet(包含四个双重用途SA模块)显著改善(PAcc增加2.7%,mIoU增加6.0%此外,分类损失和辅助损失提高了分割性能。我们将SANet与最先进的模型进行比较,以验证其有 效 性 , 如 表 2 所 示 , 使 用 ResNet101 作 为 主 干 的SANet当包括背景类时,mIoU等于52.1%,此外,我们使用最近发表的有效网络(EffNet)[32]作为骨干。然后,EffNet版本SANet实现了最先进的54.4% mIoU,为PASCAL Context数据集创造了新的记录。图5显示了使用相同主干的扩展ResNet50 FCN和SANet的分段结果。在前三行中,SANets生成更好的对象边界和更高的分割精度。然而,对于像最后一行这样的复杂图像,两种模型都无法生成清晰的解析结果。一般来说,定性评估与定量评估是一致的。我们还通过将SA模块与SE模块在基线扩张的FCNs(包括ResNet50和ResNet101)之上进行比较来验证SA模块的有效性。表3显示,SANet在两种设置下都实现了最佳准确性,并有显著改善(mIoU增加4.1%和4.5%),而FCN-SE模型几乎没有改善分割结果。4.3. 注意力和特征图经典的卷积已经产生了固有的全局注意力,因为每个卷积核都会扫描输入特征映射上的空间位置。因此,我们可视化了一个PAS-CAL VOC集合的例子的注意力和特征图我们使用L2距离来显示注意力通道的注意力地图,13071图6:PASCAL VOC数据集上经过训练的SANet的SAhead1和head4的注意力和特征图可视化。对于每个头部,展示了主通道,注意力通道和输出的特征图。(a)原始图像及其地面实况;像素组可视化(b)蓝点(c)黄点;和(d)品红色点。SA模块,并选择最活跃的功能映射通道,在同一SA模块内的主通道的SA模块的输出特征图的激活区域(红色)可以被视为选定点的像素组为了可视化,我们将图6中所示的所有特征图缩放为相同的大小。我们在该示例中选择三个点(红色、蓝色和品红色)来示出注意力通道强调像素组注意力,这是对关注像素级预测的SA模块的主通道的补充。有趣的是,如图6所示,低水平(SA头1)和高水平(SA头4)的注意通道扮演着不同的角色。在低层阶段,注意通道的注意图具有较宽的视野,主通道的特征图侧重于局部特征提取,并保留了对象边界。相比之下,在高水平阶段,注意通道的注意图主要集中在所选点周围的区域,主通道的特征图比head1的特征图更具有同质性,语义更清晰图7:PASCAL VOC验证集上的语义分割结果示例。(a)原始图像。(b)地面真实图像。(c)友好型CN基准。(d)SANet。与基线相比,SANet生成更准确的解析结果4.4. PASCAL VOCPASCAL VOC数据集[12]是研究最广泛的分割基准,包含20个类,由10582个训练图像、1449个验证图像和1456个测试图像组成。我们使用80个时期的增强数据训练SANet,如以前的作品[26,10]。首 先 , 我 们 在 没 有 COCO 预 训 练 的 情 况 下 测 试SANet。如表4所示,SANet实现了83.2%的mIoU,高于其竞争对手,并在多个类别中占据主导地位,包括飞机、椅子、奶牛、桌子、狗、植物、绵羊和电视监视器。这一结果验证了两用SA模块的有效性模型[9,6]使用除PASCAL VOC或COCO之外的额外数据集,如JFT [31],未纳入表4。然后,我们用COCO预训练测试SANet如表5所示,使 用 COCO 数 据 进 行 预 训 练 , SANet 实 现 了 86.1%mIoU的评估结果,这与包括PSPNet [41]在内的顶级模型相当,并且优于构建在重型ResNet152骨干上的RefineNet [22我们的SA模块比EncNet的编码模块计算效率更高[40]。如图6所示,与基线模型相比,SANets的预测产生了更清晰的边界和更好的定性结果。4.5. 复杂性分析而不是追求SOTA不考虑计算成本,我们的目标是设计轻量级模块的分割灵感来自这种直觉。我们使用MAC和模型参数来分析SANet的复杂性。如表6所示,Deeplab V3+(我们的实现)13072方法Aero自行车鸟船瓶总线车猫椅子牛表狗Miou[26]第二十六话76.834.268.949.460.375.374.777.621.462.546.871.862.2DeepLabv2 [5]84.454.581.563.665.985.179.183.430.774.159.879.071.6CRF-RNN [43]87.539.079.764.268.387.680.084.430.478.260.480.572.0[29]第二十九话89.939.379.763.968.287.481.286.128.577.062.079.072.5GCRF [33]85.243.983.365.268.389.082.785.331.179.563.380.573.2DPN [25]87.759.478.464.970.389.383.586.131.779.962.681.974.1[23]第二十三话90.637.680.067.874.492.085.286.239.181.258.983.875.3ResNet38 [37]94.472.994.968.878.490.6九十92.1 40.190.471.789.982.5PSPNet [41]91.8七十一点九94.771.275.8九十五点二89.9九十五点九39.390.771.7 90.582.6DANet [13]––––––––––––82.6DFN [38]––––––––––––82.7EncNet [40]94.169.2九十六点三76.786.296.3九十七94.238.8 九十七 七十三点三90.082.9SANet(我们的)95.165.9九十五点四72.0八十点五93.586.8九十四点五四十点五93.374.694.1八十三点二表4:PASCAL VOC数据集的类IoU和mIoU,没有在COCO数据集上进行预训练。SANet实现了83.2%的mIoU,优于其他模型,并在多个类别中占据主导地位。每栏最好的两个条目是突出显示的。为了进行公平的比较,模型使用额外的数据集(例如,JFT)不像[6,27,34,8]那样包括在内。模型骨干mIoU MACParams扩张的FCNResNet10178.7 162.7 G42.6MSDN [14]DenseNet84.2238.5M[第16话]ResNet10183.5–[8]第八届全国政协委员ResNet10181.5 235.6G59.5MSANet(我们的)ResNet10183.2204.7 G55.5M†我们的实施表6:MIoU(%),每秒多次累积操作(MAC)和网络参数(参数),使用ResNet101作为在没有COCO预训练的PASCAL VOC测试集上评估的主干。我们使用扩展的ResNet101作为其主干重新实现Deeplab V3+,以实现公平的比较。表 5 : PAS-CAL VOC 数 据 集 上 的 平 均 交 集 与 并 集(%)结果,COCO数据集上进行了预训练。SANet实现了86.1%的mIoU,这与最先进的模型相当。和SAN使用ResNet101主干,并在PASCAL VOC数据集上进行评估,以实现公平的比较。在不使用COCO数据集进行预训练的情况下,我们的SANet超越了Deeplab V3+,mIoU增加了1.7%。与SDN(238.5M参数)等重量级模型相比,SANet在参数数量不到四分之一(55.5M参数)的情况下实现了略低于性能的结果。比较结果表明,SANet是有效的和高效的。5. 结论在本文中,我们重新思考语义分割从两个独立的维度-逐像素预测和像素分组。我们设计了一个SA模块来说明模型骨干MiouCRF-RNN[43][25]第25话:我的世界[23]第二十三话Deeplab-v2[5]ResNet101RefineNet[22]ResNet152PSPNet[41] ResNet101DeeplabV3[5]ResNet101EncNet[40] ResNet101DFN[38] ResNet10174.475.275.377.578.079.784.285.485.785.986.2SANet(我们的)ResNet10186.113073像素分组的隐式子任务。SA模块增强了逐像素密集预测,并解释了在很大程度上被忽略的像素组注意力。更重要的是,我们提出了SANets,实现了有前途的分割每一个具有挑战性的基准。我们希望简单而有效的SA模块和建立在SA模块之上的SANets可以促进其他群体的细分研究。确认本 课 题 得 到 了 国 家 重 点 研 究 发 展 计 划( 2018YFB1004903 ) 、 浙 江 省 实 验 室 研 究 项 目(2018YFB1004903)的部分支持。2019KD0AB03),国际博士后交流奖学金计划(人才引进计划)和谷歌云平台研究学分计划。13074引用[1] A. Arnab,S. Jayasumana,S. Zheng,和P. H.乇深度神经网络中的高阶条件随机场。欧洲计算机视觉会议,第524施普林格,2016年。三、六[2] V.巴德里纳拉亚南,A. Kendall和R.西波拉Segnet:用于图像分割的深度卷积编码器-解码器架构。arXiv预印本arXiv:1511.00561,2015。2[3] Y. Boykov和G. Funka-Lea图割与有效的图像分割。国际计算机视觉杂志,70(2):109-131,2006. 1[4] Y. Boykov和V.哥洛夫最小割/最大流算法在视觉能量最小 化 的 实 验 IEEE Transactions on Pattern AnalysisMachine Intelligence,(9):1124-1137,2004。1[5] L- C. Chen,G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。Deeplab:使用深度卷积网络、atrous卷积和完全连接的crfs进行语义图像分割。IEEE transactionson pattern analysis and machine intelligence,40(4):834-848,2018。一二三五六八[6] L- C. Chen,G.帕潘德里欧F. Schroff和H. Adam.重新思考语义图像分割的无环卷积。arXiv预印本arXiv:1706.05587,2017. 七、八[7] L- C. Chen,Y.杨,J.Wang,W.Xu和A.L. 尤尔。注 意比例:尺度感知语义图像分割。在IEEE计算机视觉和模式识别会议论文集,第3640-3649页,2016年。3[8] L- C. 陈先生,Y. 朱G. 帕潘德里欧F. 施罗夫,和H. Adam.用于语义图像分割的具有可分离卷积的编码器-解码器。arXiv预印本arXiv:1802.02611,2018。8[9] F.胆Xception:使用深度可分离卷积的深度学习。在IEEE计算机视觉和模式识别会议论文集,第1251-1258页,2017年。7[10] J. Dai,K. He和J. Sun. Boxsup:利用边界框来监督卷积网 络 进 行 语 义 分 割 。 在 Proceedings of the IEEEInternational Conference on Computer Vision , 第 1635-1643页,2015年。六七八[11] M. Everingham,S. A.埃斯拉米湖凡古尔角,澳-地K. 威廉姆斯J. Winn和A.齐瑟曼。pascal visual object classes挑战:回顾 展 。 International Journal of Computer Vision , 111(1):98-136,2015. 2[12] M.埃弗灵厄姆湖,澳-地凡古尔角,澳-地K.威廉斯,J.Winn和A. 齐 瑟 曼 。 pascal 视 觉 对 象 类 ( voc ) 的 挑 战 。International Journal of Computer Vision,88(2):303-338,2010。五、七[13] J. Fu,J. Liu,H.田镇Fang和H. 陆 用于场景分割的双注意力网络。arXiv预印本arXiv:1809.02983,2018。8[14] J. Fu,J.Liu,Y.Wang,J.Zhou C.,中国青冈C.Wang和H. 陆 用 于 语 义 分 割 的 堆 叠 去 卷 积 网 络 。 IEEETransactions on Image Processing,2019。8[15] G. Ghiasi和C.C. 福克斯用于语义分割的拉普拉斯金字塔表示和细化在欧洲计算机视觉会议,第519-534页。施普林格,2016年。2[16] J.He、Z.登湖,澳-地Zhou,Y. Wang和Y.乔用于语义分割的自适应金字塔上下文网络在IEEE计算机视觉和模式识别会议上,第7519-7528页,2019年8[17] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残 差 学 习 。 在 Proceedings of the IEEE conference oncomputer vision and pattern recognition,pages 770-778,2016中。2[18] 胡杰湖,澳-地Shen,S.阿尔巴尼湾Sun,和A.维达尔迪聚集-激发:利用卷积神经网络中的特征上下文。神经信息处理系统的进展,第9423-9433页,2018年。3[19] 胡杰湖,澳-地Shen和G.太阳挤压-激发网络。arXiv预印本arXiv:1709.01507,7,2017。二、三[20] M. Jaderberg , K. Simonyan 、 A. Zisserman 等 人 空 间Transformer网络。神经信息处理系统的进展,2017-2025页,2015年。3[21] D. Lin,Y. Ji,D. Lischinski、D. Cohen-Or和H.煌多尺度上 下文 交织 语义 分割 。在欧洲 计算 机视 觉会 议(ECCV)的会议记录中,第603-619页3[22] G. Lin,L.米兰角沈和我里德Refinenet:用于高分辨率语义分割的多路径细化网络在IEEE计算机视觉和模式识别会议论文集,第1925-1934页,2017年。六七八[23] G.林角,澳-地Shen,中国古猿A.范登亨格尔和我里德用于语义分割的深度结构化模型的高效分段训练。在Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition , 第 3194-3203 页 , 2016 年 。六、八[24] W. Liu , 中 国 粘 蝇 A. Rabinovich 和 A. C. 伯 格 。Parsenet:看得更宽,看得更好。2015. 三、六[25] Z. Liu,X.李,罗,C.- C. Loy和X.唐基于深度解析网络的 语 义 图 像 分 割 。 在 Proceedings of the IEEEInternational Conference on ComputerVision , 第 1377-1385页,2015年。8[26] J.朗,E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议论文集,第3431-3440页,2015年。一、六、七、八[27] P. Luo,G.王湖,加-地Lin和X.王.用于语义图像分割的深度双重学习。在IEEE计算机视觉国际会议论文集,第2718-2726页,2017年。8[28] R. Mottaghi,X. Chen,X. Liu,N.- G.周S W.李,S。菲德勒河Urtasun和A.尤尔。背景在野外对象检测和语义分割中的作用在Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition中,第891-898页5[29] H. Noh,S. Hong和B.韩用于语义分割的学习反卷积网络在IEEE计算机视觉国际会议论文集,第1520- 1528页二、八13075[30] A. Paszke,S.格罗斯,S。钦塔拉湾Chanan、E.杨,Z.De Vito,Z. Lin,L.德迈松湖Antiga和A. Lerer pytorch中的自动微分。2017. 6[31] C. Sun,A. Shrivastava,S. Singh和A.古普塔。在深度学习时代重新审视数据的不合理有效性。在IEEE计算机视觉国际会议论文集,第843-852页,2017年。7[32] M. Tan和Q. V. Le.效率网:重新思考卷积神经网络的模型缩放。arXiv预印本arXiv:1905.11946,2019。二、六[33] R. 韦穆拉帕利岛Tuzel,M.Y. Liu,和R.切拉帕高斯条件随机场网络在语义分割中的应用。在IEEE计算机视觉和模式识别会议论文集,第3224-3233页,2016年。8[34] G. Wang,P. Luo,L. Li
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功