没有合适的资源?快使用搜索试试~ 我知道了~
1基于空间金字塔的图推理语义分割夏丽1,2,4,*杨一波3,4,* 赵启杰5沈天成3,4林周晨4刘红2,1浙江实验室2北京大学深圳研究生院机器感知重点实验室3北京大学4北京大学机电工程学院机器感知重点实验室(MoE)5王轩北京大学计算机技术研究所{ethanlee ibo zhaoqijie tianchengshen zlin hongliu}@ pku.edu.cn摘要卷积运算受到有限的接收场的影响,而全局建模是密集预测任务(例如语义分割)的基础。本文将图卷积应用到语义分割任务中,提出了一种改进的拉普拉斯算子。图推理直接在组织为空间金字塔的原始特征空间中执行与现有的方法不同,我们的拉普拉斯算子是数据依赖的,我们引入了注意力对角矩阵来学习更好的距离度量。它摆脱了投影和重新投影的过程,这使得我们提出的方法是一个轻量级的模块,可以很容易地插入到当前的计算机视觉体系结构。更重要的是,直接在特征空间中进行图推理保留了空间关系,使得空间金字塔可以从不同尺度探索多个远程上下文模式。在Cityscapes、COCO Stuff、PASCAL Context和PASCAL VOC上的实验证明了本文方法的有效性。我们实现了可比较的性能,在计算和内存开销的优势1. 介绍基于卷积神经网络(CNN)的架构已经彻底改变了广泛的计算机视觉任务[20,48,5,38]。尽管卷积运算取得了巨大的成功,但它的接收域有限,只能捕获局部信息。只有将层堆叠为深度模型,卷积网络才有能力聚合全球背景的丰富信息。然而,这是一种效率低下的方式,因为堆叠局部线索* :平等缴款。不能总是精确地处理远程上下文关系。特别是对于像素级分类问题,例如语义分割,执行长距离交互是复杂场景中推理的重要因素[5,6]。例如,倾向于将局部区域中的视觉上相似的像素分配到相同的类别中。同时,同一对象的像素,但分布的距离是很难建立依赖关系。已经提出了几种方法来解决这个问题。卷积运算用膨胀[51]或可学习的偏移量[12]重新表述,以增加空间采样位置。非局部网络[46]和双注意力网络[9]试图引入新的交互模块来感知整个时空空间。它们扩大了接受区域,并能够捕获深度神经网络内的长程递归神经网络(RNN)也可以用于执行远程推理[16,43]。然而,这些方法隐式地学习全局关系并依赖于密集计算。因为基于图的传播具有利用存储在图结构中的显式语义进行推理的潜在益处,图卷积[24]最近已被引入到高级计算机视觉任务中[28,29,10]。这些方法首先通过投影将基于网格的CNN最后,这些节点特征被重新投影回原始空间。投影和重投影过程试图在坐标空间和交互空间之间建立联系,但引入了大量的计算开销并破坏了空间关系。如图1所示,在本文中,我们提出了一种用于图推理的改进的拉普拉斯公式,该公式直接在组织为空间金字塔的原始CNN特征空间中执行。它摆脱了投影和重新投影过程,使我们提出的方法成为一个轻量级的模块与网络联合优化89508951训练直接在原始特征空间中进行图推理,保留了空间关系,使得空间金字塔能够从不同尺度充分利用远程语义上下文。我们将我们提出的方法命名为基于空间金字塔的G层推理(SpyGR)层.最初,引入图卷积来提取非欧几里德空间中的表示,这不能被当前的CNN架构很好地处理[2]。图传播似乎应该在图结构数据上执行,这激发了[28,29,10]中语义交互空间的构建实际上,我们注意到图像特征可以被视为定义在简单低维图上的数据的特殊情况当输入的图结构已知时,即,,给出了拉普拉斯算子,图卷积[24]本质上在输入上执行拉普拉斯平滑的特殊形式,使每个新的顶点特征作为其自身和连接的邻居的平均值[26]。但是对于图结构未给出的情况,如CNN特征所示,可以使用来自数据的相似性矩阵来估计图结构[21],这与[28,29,10]中采用的投影过程实现了类似的目标。与他们的工作不同,拉普拉斯算子是一个可学习的数据无关矩阵,在这项研究中,我们修改拉普拉斯算子作为一个数据依赖的相似性矩阵,并引入一个对角矩阵,执行- forms通道明智的注意力的内积距离。拉普拉斯算子确保要学习的长距离上下文模式依赖于输入特征,而不限于特定的特征。我们的方法节省了计算,通过投影来构建相互作用空间。更重要的是,它保留了空间关系,以便于从多尺度特征中利用长距离上下文。空间金字塔包含多尺度上下文信息,这对密集预测任务很重要[51,56,35]。对于图结构数据,多尺度方案也是构建层次表示并使模型不随尺度变化而变化的关键[49,32]。全局上下文拥有多个远程上下文模式,可以从不同大小的特征中更好地捕获这些模式。更精细的表示具有更详细的长期上下文,而更粗糙的表示可以提供更多的全局关系。由于我们的方法能够直接在原始特征空间中执行图推理,因此可以构建空间金字塔以进一步扩展我们的方法可以建模的远程上下文模式。SpyGR层是轻量级的,可以很容易地插入它有效地提取远程上下文,而不会引入太多的计算开销。本研究的贡献如下:• 我们提出了一个改进的拉普拉斯公式,是数据依赖的,并引入了一个对角矩阵的位置不可知的注意力的内积,能够更好地度量距离。• 拉普拉斯算子能够在原始特征空间中进行图推理,并使空间金字塔能够捕获多个长距离上下文模式。燕鸥我们开发了一个计算方案,有效地减少了计算开销。• 在多个数据集上的实验,包括PASCAL Context,PASCAL VOC,Cityscapes和COCO Stuff,显示我们提出的方法的语义分割任务的有效性我们实现了最高性能的优势,在计算和内存开销。2. 相关工作语义分割全卷积网络(FCN)[38]一直是CNN语义分割的基础。由于细节对于稠密分类问题很重要,因此提出了不同的方法来生成所需的空间分辨率并保持对象细节。在[40]中,反卷积[52]用于从低分辨率特征图中学习更精细的表示,而SegNet[1]使用编码器-解码器结构来实现该目的。U-Net [41]在 下 采 样 和 上 采 样 路 径 之 间 添 加 了 跳 过 连 接 。RefineNet [34]引入了一个多路径细化网络,进一步利用下采样路径上的更精细信息。另一个流旨在增强多尺度上下文信息聚合。在[17]中,输入图像被构造为拉普拉斯金字塔,每个尺度都被馈送到深度CNN模型中。ParseNet [36]引入图像级特征来增强全局上下文。DeepLabv2 [5]提出了atrous空间金字塔池(ASPP)模块,该模块由具有不同膨胀率的并行膨胀卷积组成。PSPNet [56]执行空间金字塔池来收集不同尺度的上下文信息。DeepLabv3 [6]在图像级特征上采用ASPP模块,以更好地聚合全局上下文。其他建模全局上下文的方法包括公式化高级卷积运算[12,46,9],依赖于关于注意力机制[7,53,57,18],并引入条件随机场(CRF)[4,58,37]或RNN变量[30,16,43]来建立长期依赖关系。然而,如何更有效地对全局上下文进行建模,并利用语义进行显式推理,还需要进一步的努力图卷积。图形卷积最初是作为卷积运算的图形模拟引入的[2]。后来的研究[13,24]对图卷积公式,以减少计算成本和训练参数。它为半监督学习[24,26]、节点或图分类[44,49,54]和分子预测[27]提供了在图结构数据上嵌入特征的基础。由于8952图推理CNN.2 2 22输入图像图推理图推理⨁⨁⨁预测加:addition:下采样:上采样图1:我们的模型图,在空间金字塔上进行图推理,用于语义分割任务。图推理直接在原始特征空间中进行。从不同的尺度上捕获了多个长距离上下文模式。由于图传播中捕获全局信息的能力,图推理被引入视觉识别任务[28,29,10]。这些方法通过投影将基于网格的特征图转换为基于区域的节点特征与这些研究不同的是,我们的方法指出,一旦可学习的拉普拉斯矩阵是数据相关的,图推理可以直接在原始特征空间中执行。它省去了投影和重投影的计算,并保留了图推理过程中的空间关系。特征金字塔。 特征金字塔是一种有效的方案以捕获多尺度上下文。它被广泛采用在密集顶点图G的拉普拉斯算子可以对角化为L=UΛUT。然后我们有图形傅里叶变换x∈=UTx,它把图形信号x变换到由基U构成的谱域中。将卷积定理推广到图上的结构空间,卷积可以通过在谱域上分解图信号s∈Rn,然后应用谱滤波器gθ来定义[2]。朴素实现需要明确计算拉普拉斯特征向量。为了避免这个问题,后来的研究[13]用Chebyshev多项式近似光谱滤波器gθ(Λ),直到K阶,即,g(Λ)Kθ T(Λ),然后卷积-θk=0K K预测任务,如语义分割[5,56]和目标检测[35,19]。分层表示也被证明对于嵌入图结构数据是有用的[49]。与[5]中的金字塔池化模块不同,我们简单地通过对最终预测特征图进行下采样和上采样来构建空间金字塔我们直接在每个尺度上执行图推理,并将它们聚合,以便在最终预测中捕获足够图信号的解可以公式化为:ΣKgθs= θkTk(L)s,(1)k=0其中Tk是切比雪夫多项式,{θk}是切比雪夫系数的向量 在[24]中,通过限制K = 1,并将L的最大特征值近似为2,进一步简化了公式。这样,卷积就变成了:3. 我们的方法gs=θ.I+ D−1 AD−1 Σ s,(2)2 2在本节中,我们首先简单介绍一下θ的背景图卷积,然后详细发展我们的方法最后,我们分析了我们的方法的复杂性。其中θ是剩下的唯一切比雪夫系数。他们进一步引入了一个归一化技巧:3.1. 基于图结构图卷积被引入作为I+D−1AD−1→D−1AD−1˜ ˜Σ˜(三)卷积操作的图形结构的数据。给定其中A=A+I,Dii=jAij。 概括图G =(V,E)及其邻接矩阵A和度矩阵D,归一化 图 拉 普 拉 斯 矩 阵 L 被 定 义 为 :L=I−D−1/2AD−1/2。这是一个对称的位置-卷积到具有c个通道的图形信号,该层-多层图卷积网络(GCN)中的明智传播规则由[24]给出:半正定矩阵,并有一个完整的特征集-11由{u}N-1形成的向量U,其中N是H(l+1)=σD−2AD−2H(l)Θ(l)(四)ss=0Σ8953全局池Conv:中国重塑ρ2J211φφΣ22其中H(1)是第l层r的顶点特征,Θ(1)是层l中的可训练权重矩阵,并且σ是非线性激活函数。等式(4)提供了对图结构数据执行卷积的基础对于视觉识别任务,为了克服有限的接收-在当前CNN架构中,最近的一些研究表明,将特征图转换为基于区域的表示,���×��� ×���⨂投影,然后使用等式(4)执行图形推理以捕获全局关系[28,29,10]。3.2. 基于空间特征的图推理假设等式(4)中的传播规则应用于CNN特征,即,H(l)=X(l)∈RH× W× C,GCN层和卷积层之间的唯一区别是图拉普拉斯矩阵L=D-A~D~ −应用于X(l)的左边。在我们的研究中,我们注意到原始的基于网格的特征空间可以被看作是数据的一种特殊情况在一个简单的低维图上定义[21]。此外,现有方法[28,29,10]中的投影过程也存在一些问题。���×���1 ×���Conv:中国Diag图2:来自输入特征X的相似性矩阵A的计算过程。矩阵A φ(X)和Λ(X)都是数据相关的。 具体地,φ(X)被实现为1×1卷积,并且Λ(X)以与[22]中提出的通道式注意力类似的方式实现。我们计算Λτ(X)为:最终实现了与图拉普拉斯矩阵类似的目的。它们在输入fea上执行左乘Λ(X)=diag. ρ. X、(7)使用相似性矩阵来在所有空间位置之间具有全局感知。因此,我们直接在原始特征空间中执行我们的图推理。我们保存了投影和重新投影的过程,并且只对输入特征执行一次左矩阵乘法。在当前的研究中,拉普拉斯矩阵是与数据无关的参数.为了更好地捕捉帧内空间结构,本文提出了一种改进的拉普拉斯算子确保要学习的长距离文本模式是可识别的。取决于输入要素,不受特定其中X<$∈R1×1×C是全局池化后的特征,ρ(·)是另一个具有1×1卷积的线性嵌入,它将维数从C降到M。其次是sigmoid函数A的计算过程如图2所示,其公式如下:. -是的< $A=φ(X;W)diagρX;Wφ(X;W)T,(8)其中Wφ和Wρ是线性方程的可学习参数,一个.它是用对称规范化形式表示的:变形。因为阶矩阵D在等式(5)其中DL=I−D−1AD−1,(5)=diag(d,d,. -是的-是的 ,d),d=A,并且具有归一化的功能,我们不对相似度矩阵A进行softmax。然后,我们将模型中的图推理公式化为:1 2nijij。ΣA∈Rn×n是数据依赖的相似性矩阵。We集n=H×W,其中H×W表示空间Y=σLXΘ、(9)输入特征的位置。F或相似性矩阵A,欧氏距离可以用来估计图的结构,如[21]中所建议的。我们选择点积距离来计算A,因为点积在当前的深度学习平台中具有更友好的实现位置i和j之间的相似性表示为:Aij=φ(X)iΛ(X)φ(X)T,(6)其中φ(X)∈ RHW× M是一个线性嵌入,后面是ReLU(·)非线性,M是变换后的降维,而Λ(X)∈RM×M是一个对角矩阵,它对内积具有位置不可知的关注。它本质上是学习一个更好的相似性距离度量,������×���⨂重塑���×���������ሚ8954其中X是输入特征,Θ是可训练权重矩阵,σ是ReLU激活函数,Y是输出特征。3.3. 基于空间金字塔的虽然图推理能够捕获全局上下文,但我们注意到同一图像包含多个长距离上下文模式。例如,更精细的表示可以具有更详细的长程上下文,而更粗糙的表示提供更多的全局依赖性。由于我们的图推理模块是直接在原始特征空间中执行的,因此我们将输入特征组织为空间金字塔,以扩展我们的方法可以捕获的远程上下文模式。8955如图1所示,在通过下采样获得的每个尺度上执行图形推理,然后通过上采样组合输出特征。它与[35]中的特征金字塔网络具有类似的形式。但是我们在最终的预测特征上实现了我们的方法,而不是来自CNN主干的多尺度特征我们关于空间金字塔的图推理可以表示如下:Y(s+1)= GR(X(s+1))+上加(Y(s)),Y(0)=GR(X(0)),X(s)=向下(X(s+1)),(十)表1:在[1×512×97×97]中具有输入特性的不同模块的开销。我们展示了我们的模型在单尺度特征上的复杂性,以及在具有表的底部两行中有4个其中GR表示具有等式(9)的图推理,s≥0表示s个尺度的l个水平,并且分别表示上采样和下采样运算符。我们使用步长为2的最大池来实现递归,并简单地通过双线性插值来实现递归3.4. 复杂性分析在基于区域的图推理研究中[28,29,10],他们通过投影将基于网格的CNN特征转换为基于区域的顶点,这降低了图推理的计算开销,因为顶点的数量通常小于空间位置的数量。由于我们直接在原始特征空间中进行图推理,因此计算量较大。实际上,我们采用了一种有效的计算策略,成功地降低了我们的方法的计算复杂度我们注意到,大计算量是由以下原因引起的:相似矩阵A∈RHW×HW,因此不需要简单地计算A∈。具体地,我们如下计算等式(5)中的度矩阵D*:为97,我们计算了我们提出的层的计算和内存成本,并在相同的设置与相关的方法进行比较。如表1所示,对于单尺度输入的方法,它具有低计算成本。当我们在4个尺度上使用空间金字塔时,计算和内存开销不会急剧增加。因此,我们的SpyGR层并没有引入无法承受的开销,尽管它直接执行图推理在原始特征空间。4. 实验4.1. 数据集和实施详细信息为了评估我们提出的SpyGR层,我们对Cityscapes数据集[11],PASCAL Context数据集[39]和COCO Stuff数据集[3]进行了全面的实验。我们描述这些数据集,连同实现细节和损失函数如下。D=diag.ΣA·→1=diag. -是的φΛ˜.φT·→1ΣΣΣ(十一)实施详细信息。我们使用ResNet [20](在Im-ageNet[14]上预训练)作为我们的骨干。我们使用3×3卷积将通道数从2048减少到512,然后其中→1表示R H W中的全一向量。最后指出了计算上的优越性。以这种方式,等式(11)中的每个步骤都是与向量的乘法,这有效地减少了计算开销。然后我们计算-在输入特征上延迟拉普拉斯算子的左积,如下所示:L<$X=X−D< $−1φΛ<$φTD<$−1X将SpyGR层堆叠在其上。在所有实验中,我们将M设为64。 根据之前的工作[56,5,6],我们采用多项式学习率策略,其中初始学习率乘以(1-iter/total iter)0。9、每一个人都有责任设定动量和重量衰减系数分别为0.9和0.0001,所有数据集的基本学习率都设置为0.009。对于数据扩充,我们应用常见的缩放、裁剪和翻转策略,=X−P2. -是的TX2中国(12)增 加 训 练 数 据 。 Cityscapes 的 输 入 大 小 设 置 为769×769,其他设置为513×513所有实验均采用同步批量归一化,˜−1其中P被定义为P=D2φ。 相应地,我们[6]多层次结构。 对于评估,我们使用先计算内括号中的项。 这样我们避免了对空间位置O(H2W2)的二次计算。在我们的实验中,我们设定C为512,M为64。作为-对输入特征高度H和宽度W平均IoU指标是一个常见的选择。我们降低采样,在我们的金字塔中有四个层次损失函数。我们在模型的最终输出和res4b22输出的中间我们把重量设定在方法FLOPs(G)存储器 (男)非本地[46]14.601072A2Net [9]3.11110GloRe [10]3.11103SGR [29]6.24118DANet [18]19.541114SpyGR不带金字塔3.11120SpyGR4.121648956方法Miou道路人行道建筑墙围栏极红绿灯交通标志植被地形天空人乘用车卡车公共汽车火车摩托车[5]第五章70.497.9 81.3 90.3 48.8 47.4 49.6 57.9 67.3 91.9 69.4 94.2 79.8 59.8 93.7 56.5 67.5 57.5 57.7 68.8RefineNet [34]73.698.2 83.3 91.3 47.8 50.4 56.1 66.9 71.3 92.3 70.3 94.8 80.9 63.3 94.5 64.6 76.1 64.3 62.2 70.0[45]第四十五话77.698.5 85.5 92.8 58.6 55.5 65.0 73.5 77.9 93.3 72.0 95.2 84.8 68.5 95.4 70.9 78.8 68.7 65.9 73.8SAC [55]78.198.7 86.5 93.1 56.3 59.5 65.1 73.0 78.2 93.5 72.6 95.6 85.9 70.8 95.9 71.2 78.6 66.2 67.7 76.0[25]第二十五话78.298.5 85.4 92.5 54.4 60.9 60.2 72.3 76.8 93.1 71.6 94.8 85.2 69.0 95.7 70.1 86.5 75.7 68.3 75.5PSPNet [56]78.4-------------------AAF [23]79.198.5 85.6 93.0 53.8 59.0 65.9 75.0 78.4 93.7 72.4 95.6 86.4 70.5 95.9 73.9 82.7 76.9 68.7 76.4DFN [50]79.3-------------------PSANet [57]80.1-------------------DenseASPP [47]80.698.7 87.1 93.4 60.7 62.7 65.6 74.6 78.5 93.6 72.5 95.4 86.2 71.9 96.0 78.0 90.3 80.7 69.7 76.8GloRe [10]80.9-------------------DANet [18]81.598.6 86.1 93.5 56.1 63.3 69.7 77.3 81.3 93.9 72.9 95.7 87.3 72.9 96.2 76.8 89.4 86.5 72.2 78.2SpyGR81.698.7 86.9 93.6 57.6 62.8 70.3 78.7 81.7 93.8 72.4 95.6 88.1 74.5 96.2 73.6 88.8 86.3 72.1 79.2表2:Cityscapes测试集的每类结果最好的结果用粗体标记,第二好的结果用下划线标记。结果表明,SpyGR实现了最高的性能,并在大多数类别中具有优势。根据PSPNet [56]中的设置,最终损耗为1,辅助损耗为0.4。4.2. Cityscapes的结果我们首先将我们的方法与Cityscapes测试集上的现有方法进行比较。为了与其他人进行公平的比较,我们在ResNet-101上训练SpyGR,输出步幅为8。请注意,我们只在精细注释的数据上进行训练。我们采用OHEM方案[42]进行最终损失,并训练模型进行80K次迭代,最小批量设置为8。在测试中,我们采用多尺度(0.75,1.0,1.25,1.5,1.75,2.0)推理和翻转,然后将预测提交给官方评估服务器。结果示于表2中。我们可以看到SpyGR在大多数类别中表现出优越性。SpyGR 比 最 新 的 基 于 图 卷 积 网 络 ( GCN ) 的 模 型GloRe [10]的性能高出0.7 mIoU。此外,SpyGR甚至优于DANet,DANet是最近提出的一种基于自我注意力的模型,其计算开销和内存需求远远高于我们提出的方法,如表1所示。4.3. 与DeepLabV3的比较DeepLabV3 [6]和DeepLabV3+[8]通过在细+粗集上进行训练来报告他们在Cityscapes为了显示我们所提出的方法的有效性,我们进行了详细的比较城市景观和PASCAL VOC。如表3所示,SpyGR始终比DeepLabV3至少增加1 mIoUSpyGR相对于DeepLabV 3+的优势在PAS- CAL VOC上比Cityscapes更显著。4.4. 关于COCO Stuff对于COCO Stuff数据集,我们训练SpyGR,输出步幅为8,小批量大小为12。我们在COCO Stuff训练集上训练了30K次,大约40个epoch,这比DANet的240个epoch短得多测试采用多尺度输入和翻转方式. COCOStuff数据集的比较如表4所示与其他两个数据集类似,我们的SpyGR在COCO Stuff数据集上的性能也优于它与DANet的结果相当,但明显优于SGR.4.5. 关于PASCAL Context我们在PASCAL Context数据集上进行了实验,以进一步评估我们提出的SpyGR的有效性。我们用16的小批量和16的输出步幅训练我们的模型,用16的输出步幅进行推理。8.为了使SpyGR在训练和推理阶段都以相同的步幅运行,我们从ResNet-101中对C5进行了上采样,并将其与输出步幅为8的C3连接起来。在C3和C5的级联上附加一个3×3卷积,然后添加SpyGR层.我们在PASCAL Context的训练集上对整个网络进行了15K次迭代,大约48个epoch。相比之下,DANet训练了240个epoch,大约是我们的5倍。对于测试集的评价,我们采用了多尺度和翻转增强的方法.我们在表5中显示了PASCAL上下文的实验结果。结果表明,即使是以ResNet-50为主干的SpyGR也能在ResNet-101上实现与SGR相当的性能,并在ResNet-152上优于MSCI[33]。此外,ResNet-101上的SpyGR获得了比SGR+更高的性能,即使SGR+在COCO Stuff数据集上进行了预训练895722XΘ方法城市景观Pascal VOCVal测试Val测试SSMS+粗SSMS FinetuneDeepLabV3DeepLabV3+78.379.679.380.281.382.178.579.479.880.4-83.3SpyGR79.9 80.582.380.2 81.284.2表3:与DeepLabV3的比较。SS表示单尺度,MS表示多尺度。+Coarse意味着在精细+粗糙集上进行训练。Finetune意味着在trainval集合上进行微调。为了公平起见,所有比较方法的结果都在其最新实现上进行了测试。方法骨干mIoU(%)RefineNet [34]ResNet-10133.6CCL [15]ResNet-10135.7DANet [18]ResNet-5037.2DSSPN [31]ResNet-10137.3SpyGRResNet-5037.5SGR [29]ResNet-10139.1DANet [18]ResNet-10139.7SpyGRResNet-10139.9表4:COCO Stuff测试集的比较。SpyGR的性能再次优于DANet,但计算开销和内存成本要少得多,训练调度时间也要短得多4.6. 消融研究我们进行消融研究,以探索SpyGR的每个部分如何有助于提高性能。我们通过ResNet-50在Cityscapes上进行所有消融实验对于推理,我们只使用单尺度输入图像。比较结果见表6。我们分析SpyGR的每个部分如下。最简单的GCN。我们考虑的情况下,没有attentional对角矩阵。相似性矩阵A**表 5 : PASCAL 上 下 文 测 试 集 的 比 较 . ‘+’ meanspretrained on COCO简体中文Λ˜Λ(X)身份金字塔Miou✓-----76.34✓ ✓----77.98✓ ✓✓---78.58✓ ✓✓✓--79.05✓ ✓✓✓✓-79.42✓ ✓✓✓✓✓79.93表6:Cityscapes数据集上的消融实验。最简单的GCN为0.60。我们可以看到,对角矩阵确实可以用很少的可训练参数来实现更好的距离度量,并带来更高的性能。利用依赖于数据的Λε(X). 在这种情况下,我们计算A使用等式(6),注意力对角矩阵变为数据依赖于等式(7)。这种机制的工作方式类似于软注意。因此,它还具有0的每单位增益。在数据独立的情况下,mIoU上有47个。 证明了注意力对角矩阵Λ∈(X)更具有代表性,并提供了更好的距离以输入特征的分布为条件的度量。身份 现在我们恢复拉普拉斯中的恒等项-Aφ=φ(X,Wφ)φ(X,Wφ)T.(十三)cian公式,并按照等式(5)计算L_xmax。身份项还起到了快捷连接的作用,去除拉普拉斯算子中的恒等式,等式(9)中的图推理的传播规则现在变为如下:便于图形推理的优化。我们看到性能有进一步的提升。Y= σ.ΣD−1AD−1.(十四)空间金字塔。最 后,我们将输入特征组织为遵循等式(10)的空间金字塔,其使得能够捕获从不同的背景中提取多种长距离的背景模式最简单的GCN带来了mIoU的1.64增长。与数据无关的Λε. 对应于等式(6),我们现在将对角矩阵引入φ的内积中,方法骨干mIoU(%)PSPNet [56]ResNet-10147.8DANet [18]ResNet-5050.1摩根士丹利资本国际[33]ResNet-15250.3SpyGRResNet-5050.3SGR [29]ResNet-10150.8CCL [15]ResNet-10151.6EncNet [53]ResNet-10151.7SGR+[29]ResNet-10152.5DANet [18]ResNet-10152.68958和φT以具有更好的距离度量。然而,我们使对角矩阵ΛΛ特征独立,这意味着它是一个要学习的参数向量。它的性能优于鳞片它还带来了0.51 mIoU的性能增益4.7. 分析为了更好地了解我们提出的基于空间金字塔的图推理的效果,我们在Cityscapes上可视化了不同尺度的相似性矩阵8959图3:以绿色十字标记的随机采样位置i的相似性矩阵A的可视化。左T W列分别是输入图像和地面实况金字塔中不同尺度的相似性矩阵以相同的大小重新缩放,并从粗到细(从左到右)显示在右侧四列中。在不同的尺度上捕获多个长距离上下文模式,并在最细的水平上聚合放大以获得更好的视图。(a) 图像(b)FCN(c)ASPP(d)PSP(e)SpyGR(f)标签图4:与其他方法的可视化比较。数据集。具体地说,如图3所示,我们随机生成一个采样点i,并用绿色十字标记它。然后我们将相似度矩阵的第iI. e. ,Ai∈RH×W,作为热图。右四列显示从粗粒度到最好的水平。我们可以观察到,在空间金字塔中捕获了不同的长程上下文模式。对于位于汽车上的采样点,四个尺度的最强活动分布在不同的汽车上。这些不同的长期关系最终聚集到最精细的预测水平。这也发生在其他类别,如人行道,公共汽车和植被。对于位于两个语义类别边界线上的采样点,不同尺度下的交互作用有助于更好地将像素分配到正确的类别中。上述分析表明,我们提出的空间金字塔能够聚集丰富的语义信息,并捕捉多种长距离的上下文模式。我们还在图4中显示了与其他方法的可视化比较。5. 结论在本文中,我们的目标是使用图卷积为语义分割任务建模长距离上下文。与现有方法不同的是,我们直接在以空间金字塔形式组织的原始特征空间中进行图推理。提出了一种改进的数据依赖的拉普拉斯算子,并在内积上引入了注意力对角矩阵,使距离度量更好.我们的方法摆脱了投影和重新投影的过程,并保留了空间关系,使空间金字塔。我们采用了一种计算方案,以减少计算开销显着。我们的实验表明,我们的设计的每一个部分都有助于per-tunable增益,我们优于其他方法,而不会引入更多的计算或内存消耗。6. 确认林舟晨的研究得到了国家自然科学基金(NSF)(批准号:61625301和61731018)、浙江省实验室重大 科 学 研 究 项 目 ( 批 准 号 : 2019KB0AC01 和2019KB0AB02)、北京人工智能研究院和高通公司的支持。刘红是由美国国家科学基金会中国(批准号:U1613209 ) 和 NSFShenzhen ( 授 权 号 :JCYJ20190808182209321)。8960引用[1] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet:用于图像分割的深度卷积编码器-解码器架构。TPAMI,39(12):2481[2] Joan Bruna , Wojciech Zaremba , Arthur Szlam , andYann Le- Cun.图上的谱网络和局部连通网络。arXiv预印本arXiv:1312.6203,2013。[3] Holger Caesar Jasper Uijlings 和 Vittorio Ferrari 可 可 - 东西:上下文中的事物和东西类。在CVPR,第1209-1218页[4] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.使用深度卷积网络和全连接crf的语义图像分割2015年,国际会议[5] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.Deeplab:使用深度卷积网络、atrous卷积和全连接crfs进行语义TPAMI,40(4):834[6] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv:1706.05587,2017.[7] Liang-Jieh Chen,Yi Yang,Jiang Wang,Wei Xu,andAlan L Yuille.注意秤:尺度感知的语义图像分割。在CVPR,第3640-3649页[8] Liang-Chieh Chen,Yukun Zhu,George Papandreou,Florian Schroff,and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。参见ECCV,第801-818页[9] Yunpeng Chen,Yannis Kalatidis,Jianshu Li,ShichengYan,and Jianshi Feng. A 2-nets:双重注意网络。在NIPS,第350-359页[10] Yunpeng Chen , Marcus Rohrbach , Zhicheng Yan ,Shuicheng Yan,Jiashi Feng,and Yannis Kalantidis.基于图的全局推理网络。arXiv预印本arXiv:1811.12814,2018。[11] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR,第3213-3223页[12] Jifeng Dai,Haozhi Qi,Yuwen Xiong,Yi Li,GuodongZhang,Han Hu,and Yichen Wei.可变形卷积网络。在ICCV,第764-773页[13] MichaeülDefferrard,XavierBresson,andPierreVandergheynst.具有快速局部谱滤波的图上卷积神经网络。在NIPS,第3844-3852页,2016年。[14] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。CVPR,2009。[15] Henghui Ding , Xudong Jiang , Bing Shuai , Ai QunLiu,and Gang Wang.基于上下文对比特征和门控多尺度聚合的场景分割方法.在CVPR中,第2393-2402页[16] Heng Fan,Peng Chu,Longin Jan Latecki,and HaibinLing.场景解析通过密集递归神经网络与意向选择。arXiv预印本arXiv:1811.04778,2018。8961[17] Clement Farabet,Camille Couprie,Laurent Najman,and Yann LeCun.学习场景标记的层次特征。TPAMI,35(8):1915[18] Jun Fu , Jing Liu , Haijie Tian , Zhiwei Fang , andHanqing Lu.用于场景分割的双注意网络。arXiv预印本arXiv:1809.02983,2018。[19] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick.面具R-CNN。在ICCV,第2961-2969页[20] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年[21] Mikael Henaff,Joan Bruna,and Yann LeCun.图结构数据 上 的 深 度 卷 积 网 络 。 arXiv 预 印 本 arXiv :1506.05163,2015。[22] 杰虎,李申,孙刚。挤压-激发网络。在CVPR中,第7132-7141页[23] Tsung-Wei Ke,Jyh-Jing Hwang,Ziwei Liu,and StellaX Yu.用于语义分割的自适应亲和字段在ECCV中,第587-602页[24] Thomas N Kipf和Max Welling图卷积网络的半监
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- ***+SQL三层架构体育赛事网站毕设源码
- 深入探索AzerothCore的WoTLK版本开发
- Jupyter中实现机器学习基础算法的教程
- 单变量LSTM时序预测Matlab程序及参数调优指南
- 俄G大神修改版inet下载管理器6.36.7功能详解
- 深入探索Scratch编程世界及其应用
- Aria2下载器1.37.0版本发布,支持aarch64架构
- 打造互动性洗车业务网站-HTML5源码深度解析
- 基于zxing的二维码扫描与生成树形结构示例
- 掌握TensorFlow实现CNN图像识别技术
- 苏黎世理工自主无人机系统开源项目解析
- Linux Elasticsearch 8.3.1 正式发布
- 高效销售采购库管统计软件全新发布
- 响应式网页设计:膳食营养指南HTML源码
- 心心相印婚礼主题响应式网页源码 - 构建专业前端体验
- 期末复习指南:数据结构关键操作详解
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功