没有合适的资源?快使用搜索试试~ 我知道了~
3146、基于双注意网络的场景分割傅军1、3刘静*1田海杰1李勇22 1 3 1拥军包志伟方汉青路1中国科学2业务增长部,JD.com3中科院大学{傅军,刘金,方志伟,卢华琪}@ nlpr.ia.ac.cn,田华琪bit@163.com,{李勇5,鲍勇军}@ jd.com摘要在本文中,我们解决的场景分割任务,通过捕获丰富的上下文依赖关系的基础上的自我注意机制。不同于以往的作品,捕捉多尺度特征融合的上下文,我们提出了一个双注意力网络(DANet),自适应地集成本地功能与他们的全球依赖关系。具体来说,我们附加两种类型的注意力模块上的扩展FCN,分别在空间和通道维的语义依赖模型。位置注意模块通过所有位置处的特征的加权和来选择性地聚集每个位置处的特征。类似的特征将彼此相关,而不管它们的距离如何。同时,通道注意力模块通过整合所有通道图之间的关联特征来选择性地强调相互依赖的通道图。我们总结两个注意模块的输出,以进一步改善特征表示,这有助于更精确的分割结果。我们在三个具有挑战性的场景分割数据集上实现了新的最先进的分割性能,即 , Cityscapes 、 PASCAL Context 和 COCO Stuff 数 据集。特别是,在不使用粗略数据的情况下,Cityscapes测试集上的平均IoU得分为81.5%。1.一、1. 介绍场景分割是一个基本的和具有挑战性的问题,其目标是将场景图像分割和解析成与语义类别相关联的不同图像区域,这些语义类别包括内容(例如,天空、道路、草地)和离散对象(例如,人、车、自行车)。该任务的研究可以应用于潜在的应用,如自动化,*通讯作者1链接可在https://github.com/junfu1115/DANet/图1:场景分割的目标是识别每个像素,包括东西,不同的对象。对象/素材的各种尺度、遮挡和光照变化使得解析每个像素具有挑战性。自动驾驶、机器人传感和图像编辑。为了有效地完成场景分割的任务,我们需要区分一些容易混淆的类别,并考虑到具有不同外观的物体例如,“田野”和“草地”的区域通常是不可区分的,并且“汽车”的对象可能经常受到尺度、遮挡和照明的因此,有必要增强特征表示的分辨能力,以实现像素级识别。最近,已经提出了基于全卷积网络(FCN)[13]的最新方法来解决上述问题。一种方法是利用多尺度上下文融合。例如,一些作品[3,4,29]通过组合由不同的扩张卷积和池化操作生成的特征图来聚集多尺度上下文。一些作品[15,27]通过使用分解结构扩大内核大小或在网络顶部引入有效的编码层来捕获更丰富的全局上下文信息此外,提出了编码器-解码器结构[6,10,16]以融合中间级和3147高级语义特征。虽然上下文融合有助于捕获不同尺度的物体,但它不能充分利用全局视图中物体或物体之间的关系,这也是场景分割的必要条件。另一种类型的方法采用递归神经网络来利用长程依赖性,从而提高场景分割精度。提出了基于2D LSTM网络[1]的方法来捕获标签上的复杂空间依赖关系。该工作[18]构建了一个具有有向非循环图的递归神经网络,以捕获局部特征上丰富的上下文依赖关系。然而,这些方法隐式地捕捉全局关系与递归神经网络,其有效性在很大程度上取决于长期的分类的学习结果为了解决上述问题,我们提出了一种新的框架,称为双注意力网络(DANet),用于自然场景图像分割,如图所示2. 它引入了一种自注意机制,分别在空间和信道维度上捕获特征依赖性。具体地说,我们附加两个平行的注意模块的扩张的FCN顶部。一个是位置关注模块,另一个是信道关注模块。对于位置注意模块,我们引入了自注意机制来捕捉任意两个位置之间的空间依赖关系对于某个位置的特征,通过加权求和聚合所有位置的特征进行更新,其中权值由对应两个位置的特征相似度决定.也就是说,具有相似特征的任何两个位置可以贡献相互改进,而不管它们在空间维度上的距离如何。对于通道注意模块,我们使用类似的自注意机制来捕获任意两个通道映射之间的通道依赖关系,并使用所有通道映射的加权和来更新每个通道映射最后,这两个注意力模块的输出应该注意的是,我们的方法在处理复杂多样的场景时比以前的方法[4,29]更有效和灵活。以图中的街景为例. 1为例。首先,第一排的一些如果探索简单的上下文嵌入,则来自占主导地位的显著对象(例如,汽车、建筑物)会伤害那些不显眼的物体标签。相比之下,我们的注意力模型选择性地聚合不显眼对象的相似特征,以突出其特征表示,避免显着对象的影响。其次,“车”和“人”的尺度是多样的,并且识别这样多样的对象需要不同尺度的上下文信息。也就是说,不同比例的特征应被同等对待以表示相同的语义。我们提出的带有注意机制的模型旨在从全局的角度自适应地整合任意尺度上的相似特征,这在一定程度上可以解决上述问题第三,我们明确考虑空间和通道关系,使场景理解- ING可以受益于远程依赖性。我们的主要贡献可概括如下:• 提出了一种新的具有自注意机制的双注意力网络(DANet),用于增强场景分割的特征表示的区分能力。• 提出了一个位置注意模块来学习特征的空间相关性,并设计了一个通道注意模块来建模通道相关性。它通过对局部特征的丰富上下文依赖关系进行建模,显着改善了分割结果• 我们在三个流行的基准上实现了新的最先进的结果,包括Cityscapes数据集[5],PAS- CAL Context数据集[14]和COCO Stuff数据集[2]。2. 相关工作语义分割。基于全卷积网络的语义分割方法在语义分割方面取得了很大的进展有几种模型变体提出来增强上下文聚合。首先,Deeplabv2 [3]和Deeplabv3 [4]采用了空间金字塔池化以嵌入上下文信息,其由具有不同扩张率的并行扩张卷积组成。PSP-Net [29]设计了一个金字塔池模块来收集有效的上下文先验,包含不同尺度的信息。编码器-解码器结构[?6,8,9]融合中级和高级语义特征以获得不同尺度的上下文。其次,学习局部特征的上下文依赖性也有助于特征表示。DAG-RNN [18]使用递归神经网络对有向无环图进行建模,PSANet [30]通过卷积层和空间维度中的相对位置信息捕获逐像素关系。此外,EncNet [27]引入了一个通道注意力机制来捕获全局上下文。自我注意模块。注意力模块可以建模长期依赖性,并已广泛应用于许多任务[11,12,17,19特别是,工作[21]是第一次提出自我注意机制提请输入的全局依赖性,并将其应用于机器翻译。同时,注意力模块在图像视觉领域的应用也越来越广泛。该工作[28]引入了自我注意机制来学习更好的图像生成器。与自我注意模块相关的工作[23]主要3148位置注意模块(HXW)X(HXW)CX HX W重塑重塑CXHXWResNet和融合卷积层空间注意矩阵通道注意矩阵重塑CX HX WCX CCX HX W通道注意模块空间矩阵运算信道矩阵运算矩阵乘法按元素之和图2:双重注意力网络的概述。(Best颜色显示)探索视频和图像的时空维非局部操作的有效性。与以往的工作不同,我们在场景分割任务中扩展了自注意机制,并精心设计了两种类型的注意模块,以捕获丰富的上下文关系,以更好地表示具有类内紧凑性的特征。大量的实验结果验证了该方法的有效性3. 双重注意网络在本节中,我们首先提出了我们的网络的一般框架,然后介绍了两个注意模块,它们分别捕获空间和通道维度的远程上下文信息。最后,我们描述了如何将它们聚集在一起,以进一步完善。3.1. 概述给定场景分割的图片,物体或物体在比例、照明和视图上是不同的由于卷积操作将导致局部感受野,因此对应于具有相同标签的像素的特征可能具有一些差异。这些差异引入了类内不一致性并影响了识别的准确性。为了解决这个问题,我们探索全球上下文信息之间建立联系的功能与注意机制。我们的方法可以自适应地聚合长距离的上下文信息,从而改善场景分割的特征如图所示。2.设计了两种注意力模块,利用扩张残差网络生成的局部特征提取全局上下文,从而获得更好的像素级预测特征表示。我们采用了一个预先训练的残差网络,并将扩张策略[3]作为骨干。注意,我们删除了下采样操作,并在最后两个ResNet块中采用了扩张卷积它保留了更多的细节,而不添加额外的参数。然后,来自膨胀的残差网络的特征将被馈送到两个并行的注意力模块。以图上部的空间注意力模块为例。以2为例,我们首先应用卷积层来获得降维特征。然后将这些特征输入到位置注意模块中,通过以下三个步骤生成空间长距离上下文信息的新特征第一步是生成空间注意力矩阵,该矩阵对特征的任意两个像素之间的空间关系进行建模。接下来,我们在注意力矩阵和原始特征之间第三,我们对上述相乘的结果矩阵和原始特征执行元素求和操作,以获得反映长程上下文的最终表示。同时,通过渠道注意模块捕获渠道维度的长距离上下文捕获通道关系的过程类似于位置注意模块,除了3149一重塑整形E重塑softmax CXC整形转置XCX HXWB纪N 实验(B·C)整形转置一个softmaxSEC重塑(HXW)X(HXW)整形它是RC×N。然后我们将D与S的转置进行矩阵乘法,并将结果整形为RC×H ×W。最后,我们将其乘以尺度参数α,并对特征执行逐元素求和操作A以获得最终输出E ∈RC×H ×W,如下所示:CX HXW三维整形A. 位置注意模块CX HXWEj=α ΣNi=1(sji Di)+Aj(2)CXHXWB. 通道注意模块其中α初始化为0,并逐渐学习分配更多权重[28]。可以从等式2推断,在每个位置处的所得特征E是跨所有位置的特征和原始特征的加权和。因此,它具有全局上下文视图,并根据空间注意力图选择性地聚合上下文。相似的语义特征实现了互得,图3:位置注意力模块和通道注意力模块的详细信息如(A)和(B)所示。(Best颜色显示)第一步,在信道维度上计算信道注意矩阵。最后,我们聚合了两个注意力模块的输出,以获得更好的像素级预测的特征表示。3.2. 位置注意模块识别特征表示是场景理解的必要条件,这可以通过捕获远程上下文信息来获得。然而,许多作品[15,29]表明,传统FCN生成的局部特征可能会导致对象和东西的错误分类。为了模拟丰富的上下文关系的本地功能,我们引入了一个位置注意模块。位置注意模块将更广泛的上下文信息编码为局部特征,从而增强其表示能力。接下来,我们将详细说明调整的过程改进类内紧凑性和语义一致性。3.3. 通道注意模块高级特征的每个通道图可以被视为类特定的响应,并且不同的语义响应彼此关联。利用通道映射之间的相互依赖性,可以突出相互依赖的特征映射,提高特定语义的特征表示。因此,我们建立了一个渠道注意力模块来明确地建模渠道之间的相互依赖性。通道注意模块的结构如图3(B)所示。与位置注意模块不同,我们直接计算通道注意图X∈RC×C从原始特征A∈RC×H ×W.具体地说,我们将A整形为RC×N,然后执行矩阵多-A和A的转置之间的乘法。最后,我们应用softmax层来获得信道注意力图X ∈RC×C:exp(Ai·Aj)聚合空间上下文。如图3(A)所示,给定局部特征A∈xji=10000i=1exp(Ai·Aj)(三)RC×H ×W,我们首先将其送入卷积层,分别生成两个新的特征图B和C,其中{B , C} ∈RC×H ×W. 然 后 我 们 将 它 们 重 新 整 形 为RC×N,其中N=H×W是像素的数量之后,我们执行C的转置之间的矩阵乘法,和B,并应用softmax层来计算空间注意力图S∈RN×N:其中xji测量第i个通道对第j个通道的影响。此外,我们还对X和A的转置进行了矩阵乘法,并将其结果整形为RC× H × W。 然后,我们将结果乘以尺度参数β,并与A执行逐元素求和运算,以获得最终输出E ∈ RC× H × W:ΣCS =exp(Bi·Cj)i=1ij(一)Ej=βi=1(xji Ai)+Aj(4)其中Sj测量第i个位置对第j个位置的影响。两个位置的更相似的特征表示有助于它们之间更大的相关性同时,我们将特征A馈送到卷积层以生成新的特征映射D∈RC×H ×W并重新整形其中β逐渐从0学习权重。 等式4示出了每个通道的最终特征是所有通道的特征和原始特征的加权和,其对特征图之间的长范围语义依赖性进行建模。它有助于提高特征的区分度。3150总iter注意,我们在计算两个通道的关系之前不使用卷积层来嵌入特征,因为它可以保持不同通道映射之间的关系。此外,与通过全局池化或编码层探索信道关系的最近的作品[27]不同,我们利用所有相应位置处的空间信息来对信道相关性进行建模。3.4. 基于网络的注意力模块嵌入为了充分利用远程上下文信息,我们聚合了这两个注意力模块的特征。具体来说,我们通过卷积层对两个注意力模块的输出进行变换,并执行逐元素求和以完成特征融合。最后进行卷积层生成最终的预测图。我们不采用级联操作,因为它需要更多的GPU内存。注意,我们的注意力模块很简单,可以直接插入现有的FCN管道。它们不会增加太多的参数,但有效地加强了特征表示。4. 实验为了评估所提出的方法,我们在Cityscapes数据集[5],PAS-CAL VOC 2012 [7],PASCAL Context数据集[14]和COCO Stuff数据集[2]上进行了对比实验。实验结果表明,DANet实现国家的最先进的性能在三个数据集。在接下来的小节中,我们首先介绍了数据集和实现细节,然后我们在Cityscapes数据集上进行了一系列消融实验。最后,我们报告了我们在PASCAL VOC2012,PASCAL Context和COCO Stuff上的结果。4.1. 数据集和实施详细信息该数据集包含从50个不同城市捕获的5,000张图像。每个图像具有2048×1024像素,具有19个语义类的高质量像素级标签。训练集有2,979幅图像,验证集有500幅图像,测试集有1,525幅图像我们在实验中不使用PASCAL VOC 2012数据集有10,582张用于训练的图像,1,449张用于验证的图像和1,456张用于测试的图像,其中涉及20个前景对象类和一个背景类。PASCAL Context数据集为整个场景提供详细的语义标签,其中包含4,998张用于训练的图像和5,105张用于测试的图像。在[10,27]之后,我们在最常见的59个类别以及一个背景类别(总共60个类别)上评估该方法。COCO Stuff数据集包含9,000张用于训练的图像和1,000张用于测试的图像。在[6,10]之后,我们报告了171个类别的结果,其中包括80个对象和91个注释到每个像素的东西。无PAM图像,有PAM Groundtruth图4:Cityscapes val set上位置注意模块的可视化结果。无CAM的图像有CAMGroundtruth图5:Cityscapes val set上的通道注意力模块的可视化结果。4.1.1实现细节我们基于Pytorch实现了我们的方法。在[4,27]之后,我们采用了一种多学习率策略,其中初始学习率乘以(1-iter)0。9、每次迭代后。Cityscapes数据集的基本学习率设置为0.01。动量和重量衰减系数设置为0.9和0.0001。我们用同步BN训练我们的模型[27]。Cityscapes的Batchsize设置为8,其他数据集设置为16。当采用多尺度增强时,我们将COCO Stuff的训练时间设置为180 epoch,其他数据集设置为240 epoch。在[3]之后,当使用两个注意力模块时,我们在网络末端采用多损失。对于数据增强,我们在Cityscapes数据集消融研究的训练期间4.2. Cityscapes数据集4.2.1注意模块的消融研究我们采用双注意力模块上的扩张网络,以捕捉更好的场景理解的长期依赖性。为了验证注意力模块的性能,我们使用表1中的不同设置进行实验。如表1所示,注意力模块显著地提高了性能。与基线FCN(ResNet-50)相比,采用位置注意模型,3151方法DA多重网格MS平均IoU%DANet-10177.57DANet-101C78.83DANet-101CC79.94DANet-101CCC81.50表1:Cityscapes valset的消融研究。PAM代表位置注意模块,CAM代表通道注意模块。ULE在平均IoU中产生75.74%的结果,这带来了5.71%的改进。同时,采用渠道语境模块的效果比基线高出4.25%。当我们将这两个注意力模块整合在一起时,性能进一步提高到76.34%。此外,当我们采用更深的预训练网络(ResNet-101)时,具有两个注意力模块的网络将基线模型的分割性能显著提高了5.03%。结果表明,注意力模型对场景分割有很大的帮助.位置注意模块的效果可以在图4中看到。使用位置注意模块,一些细节和对象边界更清晰,例如第一行中的对局部特征的选择性融合增强了细节的分辨力。同时,图5表明,与我们的通道注意力模块,一些错误分类的类别,现在正确分类,如'巴士'在第一和第三行。频道映射之间的选择性集成有助于捕获上下文信息。语义一致性有了明显的提高。4.2.2改善策略的消融研究在 [4] 之 后 , 我 们 采 用 相 同 的 策 略 来 进 一 步 提 高(1)DA:随机缩放的数据增强。(2)多网格:我们在最后的ResNet块中应用了不同大小(4,8,16)的网格的层次结构。(3)MS:我们将分割概率图从8图像缩放{0.5 0.75 1 1.25 1.5 1.75 2 2.2}用于推断。实验结果示于表2中。数据八月-随机缩放的分段提高了近1.26%的性能,这表明网络受益于丰富的训练数据的规模多样性。我们采用多重网格来获得预训练网络的更好的特征表示,进一步实现了1.11%的改进。最后,分割图融合进一步将性能提高到 81.50% , 比 众 所 周 知 的 方 法 Deeplabv3 [4] ( 在Cityscape值集上为79.30%)高出2.20%。表2:Cityscape valset上不同策略之间的性能比较。DANet-101表示DANet与BaseNet ResNet-101,DA表示数据扩充与随机缩放。多网格表示采用多网格方法,MS表示推理过程中的多尺度输入。4.2.3注意力模块对于位置注意,整体自注意图的大小为(H×W)×(H×W),这意味着对于图像中的每个特定点,存在对应的子注意图,其大小为(H×W)。在图6中,对于每个输入图像,我们选择两个点(标记为#1和#2)并分别在第2列和第3列中示出它们对应的子注意力图我们观察到位置注意模块可以捕捉到清晰的语义相似性和长距离关系。例如,在第一行中,红色点#1被标记在建筑物上,并且其注意力地图(在列2中)突出显示建筑物所在的大部分区域。此外,在子注意力图中,即使它们中的一些远离点#1,边界也非常清楚。至于点#2,它的注意力地图集中在标记为“汽车”的大多数位置 在第二行中,这同样适用于全局区域中的“交通标志”和“人”,即使对应像素的数量较少。第三行是“植被”类和“个人”类。特别地,点#2不响应于附近的“骑手”类,但它响应于远处的“人”。对于通道注意,很难直接给出关于注意图的可理解的可视化。相反,我们显示一些参加渠道,看看他们是否突出明确的语义领域。在图6中,我们在第4列和第5列中显示了第11个和第4个参加的频道。我们发现,通道注意模块增强后,特定语义的反应是显着的。例如,第11通道图响应于所有三个示例中的简而言之,这些可视化进一步证明了捕获长程依赖性以改进场景分割中的特征表示的必要性。方法BaseNetPam凸轮平均IoU%扩张的FCNRes5070.03达内Res50C75.74达内Res50C74.28达内Res50CC76.34扩张的FCNRes10172.54达内Res101C77.03达内Res101C76.55达内Res101CC77.573152循环112211221122图像Sub-attention map #1 Sub-attention map #2频道地图#11通道映射#4结果GroundTruth图6:Cityscapes val set上的注意力模块的可视化结果。对于每一行,我们显示一个输入图像,两个子注意力图(H×W)对应于输入图像中标记的点同时,我们根据通道注意模块的输出给出了两个通道映射,分别是第4通道和第11通道的映射最后,对应提供了结果和地面实况方法平均IoU道路人行道建筑墙栅栏杆交通灯交通标志植被地形天空人乘用车卡车公共汽车火车电动机DeepLab-v2 [3]70.497.981.390.348.847.449.657.967.391.969.494.279.859.893.756.567.557.557.768.8RefineNet [10]73.698.283.391.347.850.456.166.971.392.370.394.880.963.394.564.676.164.362.270GCN [15]76.9-------------------[22]第二十二话77.698.585.592.858.655.56573.577.993.37295.284.868.595.470.978.868.765.973.8[24]第二十四话78.498.585.793.155.559.167.174.878.793.772.695.586.669.295.764.578.874.16976.7PSPNet [29]78.4-------------------[26]第二十六话78.9-------------------PSANet [30]80.1-------------------[25]第二十五话80.698.787.193.460.762.765.674.678.593.672.595.486.271.996.078.090.380.769.776.8达内81.598.686.193.556.163.369.777.381.393.972.995.787.372.996.276.889.486.572.278.2表3:Cityscapes测试集的每类结果。DANet优于现有方法,平均IoU达到81.5%。方法BaseNetPam凸轮平均IoU%扩张的FCNRes5075.7达内Res50CC79.0达内Res101CC80.4表4:PASCAL VOC 2012 valset的消融研究。PAM代表位置注意模块,CAM代表通道注意模块。4.2.4与最新技术我们进一步比较我们的方法与现有的方法在Cityscapes测试集。具体来说,我们只使用精细的注释数据训练我们的 结果如表3所示。DANet优于现有的方法,具有明显的优势。特别是,我们的模型在具有相同主干ResNet-101的情况下大幅优于PSANet [30]。此外,它还超过了DenseASPP [25],后者使用比我们更强大的预训练模型。表5:PASCAL VOC 2012测试集的分割结果4.3. PASCAL VOC 2012数据集我们在PASCAL VOC 2012数据集上进行了实验,以进一步评估我们的方法的有效性。PASCAL VOC2012 valset的定量结果见表。4.我们的注意力模块提高了表现-方法平均IoU%[第13话]62.2DeepLab-v2(Res101-COCO)[3]71.6[11]第十一话75.3ResNet38 [10]82.5PSPNet(Res101)82.6[27]第二十七话82.9DANet(Res101)82.63153方法平均IoU%FCN-8s [13]22.7DeepLab-v2(Res101)[3]26.9DAG-RNN [18]31.2[10]第十届全国政协委员33.6Ding等人(Res101)[6]35.7扩张的FCN(Res50)31.9DANet(Res50)37.2DANet(Res101)39.7表7:COCO Stuff测试集的分割结果。表6:PASCAL上下文测试集的分割结果。显著,其中DANet-50超过基线3.3%。当我们采用更深的网络ResNet-101时,该模型进一步实现了80.4%的平均IoU。在[4,27,29]之后,我们采用PASCAL VOC2012训练集进一步微调我们的最佳模型。PASCALVOC 2012在测试集上的结果如表5所示。4.4. PASCAL上下文数据集在本小节中,我们在PAS- CAL Context数据集上进行实验,以进一步评估我们的方法的有效性我们在PASCAL VOC 2012数据集上采用相同的训练和测试设置。PASCAL Context的定量结果如表所示。6. 基线(扩张的FCN-50)产生的平均IoU为44.3%。DANet-50将性能提升到50.1%。此外,使用深度预训练的网络ResNet101,我们的模型结果实现了平均IoU 52.6%,大大优于以前的方法。在以前的工作中,Deeplab-v2和RefineNet通过不同的atrous卷积或编码器的不同阶段此外,他们还使用额外的COCO数据训练模型,或者采用更深入的模型(ResNet152)来改善分割结果。与以往的方法不同,我们引入注意力模块来捕获全局依赖显式,所提出的方法可以取得更好的性能。4.5. COCO Stuff数据集我们还在COCO Stuff数据集上进行了实验,以验证我们提出的表中报告了与先前最先进方法的比较7.结果表明,我们的模型在平均IoU上达到了39.7%,远远优于这些方法。在比较的方法中,DAG-RNN [18]利用2D图像的链式RNN来建模丰富的空间依赖性,Ding等人。[6]在解码器阶段采用选通机制,以改善不显眼的对象和背景材料分割。我们的方法可以更有效地捕获长距离的上下文信息,并在场景分割中学习更好的特征表示。5. 结论本文提出了一种用于场景分割的双注意力网络(DANet),它利用自注意机制自适应地融合局部语义特征。具体来说,我们引入了一个位置注意模块和一个通道注意模块,以捕获在空间和通道维度的全局依赖性。消融实验表明,双注意模块能有效地捕捉长距离上下文信息,并给出更精确的分割结果。我们的注意力网络在四个场景分割数据集上实现了出色的性能 , 即 。 Cityscapes , Pascal VOC 2012 , PascalContext,and COCO Stuff.此外,降低模型的计算复杂度,增强模型的鲁棒性也是今后研究的重点。确认本工作得到了北京市自然科学基金(4192059)和国 家 自 然 科 学 基 金 ( 61872366 、 61472422 、61872364)的资助。引用[1] 作者:Thomas M. Breuel,Federico Raue,and MarcusLiwicki.使用LSTM递归神经网络进行场景标记。在IEEE计算机视觉和模式识别会议,CVPR,第3547-3555页[2] 作 者 : Holger Caesar , Jasper R R. Uijlings 和 VittorioFerrari 。 Coco-stuff : 上 下 文 中 的 事 物 和 东 西 类 。CoRR,abs/1612.03716,2016。[3] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L.尤尔。Deeplab:使用深度卷积网络、无纹理卷积和全连接crf进行语义图像 分割 。IEEE Transactions on Pattern Analysis andMachine Intelligence。,40(4):834方法平均IoU%[13]第十三话[11]第十三话DeepLab-v2(Res101-COCO)[3] 45.7[10]第十届中国国际石油天然气工业展览会PSPNet(Res101)[29] 47.8Ding等人(Res101)[6] 51.6[27]第27话扩张FCN(Res50)44.3DANet(Res50)50.1DANet(Res101)52.63154[4] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。再思考无卷积在语义图像分割中的应用。CoRR,abs/1706.05587,2017。[5] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在IEEE计算机视觉和模式识别会议,第3213-3223页[6] Henghui Ding , Xudong Jiang , Bing Shuai , Ai QunLiu,and Gang Wang.基于上下文对比特征和门控多尺度聚合的场景分割方法.在IEEE计算机视觉和模式识别会议论文集,第2393-2402页[7] Mark Everingham , Luc Van Gool , Christopher KIWilliams,John Winn,and Andrew Zisserman.pascal视觉 对 象 类 ( voc ) 的 挑 战 。 International Journal ofComputer Vision,88(2):303[8] 傅俊,刘静,王宇航,卢汉青。用于语义分割的堆叠去卷积网络。arXiv预印本arXiv:1708.04943,2017。[9] Di Lin,Yuanfeng Ji,Dani Lischinski,Daniel Cohen-Or,and Hui Huang.多尺度上下文交织语义分割。在欧洲计算机视觉会议(ECCV)的会议记录中,第603-619页[10] Guosheng Lin,Anton Milan,Chunhua Shen,and Ian D.里德Refinenet:用于高分辨率语义分割的多路径细化网络。 在IEEE计算机视觉和模式识别会议上,第5168-5177页[11] Guosheng Lin,Chunhua Shen,Anton van den Hengel,and Ian D.里德用于语义分割的深度结构化模型的高效分段训练。 在IEEE会议计算机视觉和模式识别,第3194- 3203页,2016年。[12] Zhouhan Lin , Minwei Feng , Cicero Nogueira dosSantos,Mo Yu,Bing Xiang,and Yoshua Bengio.一个结构化的自我关注的句子嵌入。arXiv预印本arXiv:1703.03130,2017.[13] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议的论文集,第3431-3440页[14] Roozbeh Mottaghi,Xianjie Chen,Xiaobao Liu,Nam-Gyu Cho , Seong-Whan Lee , Sanja Fidler , RaquelUrtasun,and Alan L.尤尔。背景在野外对象检测和语义分割中的作用。在2014年IEEE计算机视觉和模式识别会议上,第891-898页[15] Chao Peng,Xiangyu Zhang,Gang Yu,Guiming Luo,and Jian Sun.大内核问题-通过全局卷积网络改进语义分割。在IEEE计算机视觉和模式识别会议上,第1743-1751页[16] Olaf Ronneberger,Philipp Fischer,and Thomas Brox.U-网:用于生物医学图像分割的卷积网络医学图像计算和计算机辅助干预,第234-241页[17] Tao Shen,Tianyi Zhou,Guodong Long,Jing Jiang,Shirui Pan,and Chengqi Zhang. Disan:用于无rnn/cnn语言理解的定向自我注意网络。在2018年第32届AAAI人工智能会议上[18] 兵帅、左震、王兵、王刚。基于dag递归神经网络的场景分割。IEEE Trans. 模式分析马赫内特尔,第1480[19] Jinhui Tang,Richang Hong,Shuicheng Yan,Tat-SengChua,Guo-Jun Qi,and Ramesh Jain.图像标注:基于稀疏图的标签传播在有噪声标签的网络图像上。ACMTransactionsonIntelligentSystemsandTechnology(TIST),2(2):14,2011.[20] Jinhui Tang,Lu Jin,Zechao Li,and Shenghua Gao. 结合潜在数据结构和先验知识的Rgb- d目标识别。IEEETransactions on Multimedia,17(11):1899[21] 作者:Ashish Vaswani,Noam Shazeer,Niki Parmar,Jakob Uszko-reit,Llion Jones,Aidan N.戈麦斯,卢卡斯凯泽,伊利亚·波罗苏欣。注意力是你所需要的神经信息处理系统进展30,第6000-6010页,2017年[22] 王盘曲,陈鹏飞,叶远,刘丁,黄泽华,侯小弟,W守备。 科特 雷尔理 解用 于语义 分割 的卷积 。在IEEEWinter计算机视觉应用会议上,第1451-1460页[23] 王晓龙,Ross Girshick,Abhinav Gupta,和Kaiming He.非局部神经网络。在CVPR,2018年。[24] Zifeng Wu,Chunhua Shen,and Anton van den Hengel.更宽或更深:重新审视用于视觉识别的resnet模型。arXiv预印本arXiv:1611.10080,2016年。[25] Maoke Yang , Kunyu , Chi Zhang , Zhiwei Li , andQuiyuan Yang.用于街道场景语义分割的Denseaspp在IEEE计算机视觉和模式识别会议论文集,第3684-3692页[26] Changqian Yu , Jingbo Wang , Chao Peng , ChangxinGao,Gang Yu,and Nong Sang. Bisenet:用于实时语义分 割 的 双 边 分 割 网 络 。 在 欧 洲 计 算 机 视 觉 会 议(ECCV)的Proceedings中,第325-341页[27] Hang Zhang , Kristin Dana , Jianping Shi , ZhongyueZhang , Xiaogang Wang , Ambrish Tyagi , and AmitAgrawal.用于语义分割的上下文编码。在IEEE计算机视觉和模式识别会议(CVPR),2018。[28] 作者:J.作者:Goodfellow Metaxas和Augustus Odena。自 我 注 意 生 成 对 抗 网 络 。CoRR , abs/1805.08318 ,2018。[29] Hengshuang Zhao , Jianping Shi , Xiaojuan Qi ,Xiaogang Wang,and Jiaya Jia.金字塔场景解析网络。在IEEE计算机视觉和模式识别会议上,第6230-6239页[30] Hengshuang Zhao,Yi Zhang,Shu Liu,Jianping Shi,Chen Change Loy,Dahua Lin,and Jiaya Jia. Psanet:用于场景解析的点式空间注意网络。在欧洲计算机视觉会议(ECCV)的会议记录中,第267-283页
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 十种常见电感线圈电感量计算公式详解
- 军用车辆:CAN总线的集成与优势
- CAN总线在汽车智能换档系统中的作用与实现
- CAN总线数据超载问题及解决策略
- 汽车车身系统CAN总线设计与应用
- SAP企业需求深度剖析:财务会计与供应链的关键流程与改进策略
- CAN总线在发动机电控系统中的通信设计实践
- Spring与iBATIS整合:快速开发与比较分析
- CAN总线驱动的整车管理系统硬件设计详解
- CAN总线通讯智能节点设计与实现
- DSP实现电动汽车CAN总线通讯技术
- CAN协议网关设计:自动位速率检测与互连
- Xcode免证书调试iPad程序开发指南
- 分布式数据库查询优化算法探讨
- Win7安装VC++6.0完全指南:解决兼容性与Office冲突
- MFC实现学生信息管理系统:登录与数据库操作
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功