没有合适的资源?快使用搜索试试~ 我知道了~
43211953基于结构化补丁预测、上下文CRF和引导CRF的沈法龙1芮干1颜水成2、3曾刚11北京大学2360人工智能研究院3新加坡国立大学{shenfalong,raygan,zeng}@ pku.edu.cn,yanshuicheng@360.cn摘要本文描述了一种快速准确的语义图像分割方法,不仅编码分割指定的功能,但也高阶上下文兼容性和边界指导约束。我们引入了一种结构化的补丁预测技术,使分类区分度和边界敏感性之间的权衡功能。标注上下文和要素上下文都是分节器羊犬窝嵌入以确保识别准确性和兼容性,同时通过距离感知采样和池化策略降低高阶团的复杂性。所提出的联合模型还采用了指导CR-F,以进一步提高分割性能。消息传递步骤通过引导过滤来增强,这使得能够以端到端的方式对w孔系统进行有效的联合训练。我们提出的join-t模型在Pascal VOC 2012和Cityscapes上的表现优于最先进的模型,mIoU(%)分别为82.5和79.2。它还在ADE20K上达到了领先的性能,ADE20K是ILSVRC2016 中 场 景 解 析 轨 道 的 数 据 集 。 该 代 码 可 在https://github.com/FalongShen/SegModel上获得。1. 介绍语义分割是计算机视觉中的一个基本而又困难的问题。与图像分类相比,它提供了对图像的逐像素语义理解,通过该语义理解,根据对象类别、位置和形状来解析场景深度网络在图像分类任务上取得了一系列突破[18,14,13]。通过改变深度和宽度控制的卷积神经网络(CN-N)提供了强大的模型,并且集成的多级分层特征和分类器嵌入了关于像素之间的统计和依赖性的大多数正确的先验知识,以防止过拟合。语义切分的最新进展主要涉及:图1:将模型从分类转换为分割时的置信度-频率模糊性。右图是一个很难的例子,两个模型都产生了令人困惑的预测。左边的图像是一个简单的例子,分割模型仍然产生一个混乱的预测,以便进行空间预测。依赖于全卷积网络(FCN)和条件随机场(CRF)[4,33,1,31,7]。FCN转移-通过微调用于语义分割的位置感知特征表示,将识别网络用于图像分类[24]。然而,用于图像分类的深度学习特征倾向于通过卷积神经网络中的分辨率降低池化层和子采样层来容忍对象平移和变形[13],这降低了从相邻上下文定位和分离对象的能力。为了确定目标的位置和边界,在FCN中通常采用双线性上采样操作来获取逐像素预测,这导致置信度与其频率论对应物之间的解释模糊。本地预测的解释分析了第二节中FCN的端到端训练过程。3.1显示softmax分类器产生一个分布来表示- 不仅要考虑对象类别的置信度,而且要考虑类别在斑块中的频率。如图1,上采样操作中的插值例程似乎用信念和频率解释两者来处理分类分数。也就是说,FCN分类器训练使用模糊的标准,具有图像区域统计和训练样本可能性两者。这classi ficaiton43211954当对跨越对象边界的分类分数进行插值并预测困难样本时,双重含义解释最为明显模糊的预测阻止了准确和详细的对象形状被分割中的后面的步骤捕获。我们建议解决这种模糊性的结构化补丁预测技术。3.第三章。沿着文献的另一个方向,概率图模型已被广泛用于结构化预测任务。特别是,CRF已经观察到语义分割的广泛成功[19,28,17],这要归功于它们在给定外观的节点标签之间编码高阶条件依赖的能力。然而,学习CRF需要许多重复的推理步骤,并且是耗时的[35,19]。 我们的工作重点是将FCN的上述区分特征与CRF的结构化预测能力相融合,重点是有效的高阶上下文约束和可扩展的端到端联合训练效率。上下文相容性上下文线索代表了类别标签之间的空间关系,在结构化预测任务中起着重要作用。已经注意到,上下文线索或高阶信息是vi-在对象检测和语义图像分割中谈到[29,19]。通过最小化吉布斯能,CRF被广泛采用,用于利用上下文线索进行结构化预测。然而,由于在梯度描述的每次更新中推导配分函数的图推理的时间成本,这些模型是非常有限的[35]。与传统的CRF方法相比,自动上下文[29]通过基于标签上下文的一系列分类器对联合统计进行编码。对于每个分类器,最后一个分类器的输出被用作特征。Auto-context尝试递归地选择和融合上下文标签以进行结构化预测。编码上下文信息的另一种可能性是基于特征上下文学习消息[20,27]。这种特征上下文方法通过堆叠一元特征来对每对之间的消息估计器进行我们使用标签和特征上下文来增强先验结构知识,并提出了一种距离感知的采样和池化策略,以降低高阶团的复杂性,如第2节所述。4.第一章边界引导低级别的特征,如图像边缘,纹理和外观均匀性通常有助于获得物体周围清晰和锐利的边界。近年来,基于双边滤波的CRF被广泛用于边界定位。结合卷积神经网络的强大识别能力,双边CRF在解决尖锐的任务方面取得了显着的成功通过局部卷积层在图形处理单元上有效地处理我们选择使用引导滤波来增强消息传递[12,11],不仅是因为其边缘保持属性,而且还因为其线性时间复杂度,无论内核大小如何。这导致快速训练过程具有高性能,如第2节所述。五、从理论上讲,我们的上下文CRF学习方法重新组合了[27,29]中的纠错迭代解码方法,因为我们使用一系列分类器来编码每个节点之间的交互,而不是显式的全局概率表示。从平均场算法中的消息传递的另一个角度来看,更新边缘分布是从相邻区域收集消息。因此,有效的消息估计器可以直接对由来自估计的标签和深度卷积特征的信息组成的区域特征进行这种等价的消息视图是我们的联合FCN和CRF模型的高效求解器的关键,详细内容将在下面的章节中讨论。本文的主要贡献有四个方面。• 我们提出了一个联合目标,以整合分割指定的功能,高阶上下文和边界指导准确的语义分割。该模型在三个主要的分割基准数据集上达到了领先的性能。• 介绍了一种用于空间填充的结构化块预测技术。在保持特征提取处于相对较高的水平的同时,过平滑插值操作,并部分地解决了置信频率模糊性。• 提出了一种距离感知上下文,以嵌入标签和特征兼容性,同时避免高复杂性的代价。相应的上下文CRF可以有效地优化,很少的时间成本,同时带来很大的性能增益。• 我们还引入了一个指导CRF,以进一步提高分割的准确性。消息传递步骤增加了引导过滤,以端到端的方式对整个系统进行有效的联合训练。2. 我们提出的方法设I∈I表示一幅输入图像,x∈ X是其分割标签分配。标签分配x ={xi,i = 1,., N}从预定义的标签集合L ={1,.,L}. 图像I的标签分配x的条件似然函数为物体周围的边界[3,25,2]。此外,Liu等人。[23]提出了一种类似于双边滤波器的滤波器,可以P(x|I; θ)=1Z(I;θ)exp[−E(x,I;θ)],(1)432119552048我我uu其中,θ表示模型参数ε,E(x,I;θ)是吉布斯能量函数。 Z(I; θ)=xexp[−E(x,I; θ)]是以像I为条件的配分函数。我们能量函数的形式E(x,I;θ)= Elocal(x,I;θ)+ Econtext(x,I;θ)+ Eedge(x,I;θ),(二)其中Elocal(x,I; θ)表示关于局部邻域内的外观的一元分数,Econtext(x,I;θ)编码用于结构预测的上下文线索,并且Eedge(x,I;θ)鼓励分割边界和强度边缘之间的并发粗分割特征mapf(x|I)由FCN的分辨率远低于原始输入3.1. 上采样操作的理论分析在以前的大多数作品中,粗分数图通过固定的双线性上采样层上采样到原始从FCN的一元特征fi的补丁i被转换为一个标签得分qi来描述每个类别在这个补丁中存在的概率。 比分qi是双线性上采样的16倍大,以计算具有地面真值标签的逐像素熵损失这意味着所有在块i中的预测结果被概括并压缩在矢量qi中。令pj(独热向量)表示补丁i中第j个位置的基础真值标签,并且令wj是对应的双线性权重。地面实况Σ此修补程序的发行版是如图所示,二、形象而不是使用转置卷积进行上采样,具有大滤波器尺寸的功能层(例如,,32为16×模型),我们提出了一个多阶段的解决方案,以提高分辨率,是的。首先,我们介绍一种结构化补丁预测技术(Sec.3)在一定的过渡分辨率下进行空间填充f›→ E局部。(三)在这个层次上还考虑了上下文潜力,以进行结构化预测,JJI因此训练目标是ΣD(qi|| wjpj)。(六)J重要的是要注意图像分类和FCN语义图像分割之间的根本区别分割的目标分布对于FCN来说从来都不是一个相反,它是所有Eu(x,I;θ)= E当地(x,I;θ)+E上下文 (x,I;θ)。(四)在这个补丁中显示的类别。 预测得分qi不仅描述了某些类别中对象的存在为了执行引导CRF并计算每像素熵损失,我们需要在该步骤中解耦每个xi,即,关于每个xi的边际电势。这一任务在CRF组件的上下文中得到解决(第4).然后,我们通过具有可学习参数的转置卷积结合边缘势,最终的总能量函数为ry,而且还包括该类别中的像素部分。而对于分类,qi仅表示图像中存在某种对象如图1的情况下,FCN中的概率qi的两倍会导致模糊,特别是在物体的边界处和对于困难的输入图像。虽然FCN的分割模型被期望描述类别的存在和类别在补丁中的部分,但是它E(x,I;θ)=E↑(x,I;θ)+E边缘 (x,I;θ),(5)缺乏辨别能力。从信息流的角度看,其中E↑(x,I; θ)是上采样后结合边缘电位-最后,使用指导CRF对分割评分图进行细化(第10节)。5)通过端到端的联合训练可以得到更精确的目标边界。C×1×1粗分块的C × 16 × 16密分图是D×1×1特征块和C×16×16密分图之间的桥梁。信息被严重压缩为C维向量,其中大部分空间信息已经丢失。3. 基于结构化补丁预测的传输模型FCN结合孔算法产生21粗分割预测,然后是双-线性上采样操作,以进行高分辨率预16措辞该流程图在之前的语义分割文献中被广泛采用[24,3]。然而,它不可避免地遇到了信念频率模糊描21162143211956述-在Fig.1.一、在这一节中,我们给出了这种模糊性的理论解释,并提供了解决方案。图2:2048-D特征向量经过21-D bot-在上采样到16×16之前进行颈缩,这导致严重的信息丢失。43211957我我3.2. 结构化补丁预测与通过C×1×1向量在斑块中提取尽可能多的信息不同,我们期望在一元特征和斑块标签评分图之间建立一个更有效的桥梁然而,从长特征到密集预测的直接连接需要大量的参数而且训练起来会很困难。我们需要在参数的数量和表示能力之间做出权衡。我们建议通过一个结构化的(一)(b)第(1)款斑块预测技术特征fi用于产生C×n×n得分图1,这是向逐像素密集预测的过渡整个图像块中的信息被粗略地描述在一个小的标签块中。相信-通过结构化补丁预测部分地解决了频率不确定性。由于识别和定位是基本的两个任务,我们明确地划分它们通过引入更多的分类器为每个位置的补丁。我们的直觉背后的结构化补丁预测依赖于这样一个事实,即FCN功能模型的空间相干性的局部区域。以前的作品也证明了这个想法[9,26,8]。 FCN功能不仅可以将补丁中的类别标签重新定义,而且还可以感知上下文标签结构。例如,R-CNN提出回归边界框以正确裁剪对象,并且它还利用了CNN特征的空间定位能力[9]。在我们的实验中,我们直接利用FCN的功能来分配标签到每个位置的补丁。4. 基于条件随机场的上下文建模给定图像I,上述结构化块预测技术提供分割分数图。标签分配x∈ LN的吉布斯能量为:图3:背景CRF的图示。(a)我们利用一个相当大的字段(特征图上的28×28为了避免过拟合,将来自相邻区域和远程区域的消息以不同的大小进行池化。(b)利用特征图和分数图来产生消息。在下面的段落中,我们将介绍在我们的公式中的高阶上下文项Ifc(xc,Ic; θ)的消除以及如何有效地实现公式(8)4.1. 距离感知高阶上下文上下文项θc(xc,Ic; θ)提供了当前块周围的信息,这对于结构化预测是重要的。自然图像具有高度的空间相关性,相邻斑块之间的相关性比远距离斑块之间的相关性更强。我们提出了一个距离感知的采样策略,如图所示的上下文建模。第3(a)段。根据上下文块到中心块的距离将上下文块分组远程补丁汇集在大面积积累弱证据的相关性更强大的代表。为了避免训练阶段的过度拟合,我们利用了上下文的距离先验。4.2. 来自高阶术语的消息Eu(x,I;θ)=Σφi( xi,Ii;θ)+我Σc(xc,Ic;θ),(7)C根据平均场的类似推导,在[16]中,我们采用迭代算法来逼近方程(8)。其中φi(xi,Ii; θ)是基于结构化补丁预测的局部外观描述符将xi分配给像素i的单例节点势。在上面定义Σφu(xi)=φi(xi,Ii;θ)−CEp(xc\i)[θc(xc|i,xi,Ic;θ)]. (九)高阶集团c.Ii和Ic分别表示位置i和团c周围的局部图像我们的目标是估计近似于Eu(x,I;θ)的边际势,即第二项是期望值|c(xc|i,xi,Ic;θ)在估计的分布p∈(xc|i)上,这是关于从高阶团c传递到低阶团c的消息。卡尔诺德岛它是一个C维向量,编码标签分布信息,ΣΣφi( xi,Ii;θ)+IcΣc(xc,Ic;θ)我φu(xi,Ii;θ). (八)解析解Lin等人。[19]试图学习每个两节点集团的势函数,但推理速度要慢得多,并且需要大量内存,例如。,它需要L21在我们的实验中,n= 2。因此,我们仍然需要上采样操作。输出,并且对于N节点图,存在多达N2个成对的团。它甚至更多43251958c\iZ我u我我在[12]中,很难学习高阶团导数的势函数,wij的表达式为有两个以上的节点。为了模拟高阶集团,而不是cal-1ΣΣw=1+( 1)Σ3+U)−1Σ(Ic−µc)(Ic−µc))用正则化方法求p(x)的最大值c\i),我们支持-IJ| ω|2KK我c=1i j j构建卷积神经网络,正确学习信息。如图所示。在图3(b)中,我们在估计的概率图p∈(xc)和估计的xt特征图fc上放置几个卷积层,以捕获高阶模式Ep(x)[pc(xc|i,xi,Ic;θ)]=U[p(xc),xi,fc;θ],(10)其中U[p∈(xc),xi,fc;θ]是描述基于上下文特征fc的高阶团分配xc中xi的兼容性的标量。该消息项也可以被视为基于估计的概率图的新分类器(十二)其中μk和μk是窗口ω k中图像I的均值和3×3协方差矩阵,U是3 × 3单位矩阵,|ω|是ω k中的像素数。 是正则化参数在整个实验中我们都把它设为1。算法1指南CRF向前输入:下采样的引导图像I,分割s-核心图φu,兼容性 矩 阵 μ , 权 重 参 数 λ , 最 大 迭 代 kmax , k=0 ,φ0=φu。当k kmax从先前的迭代和上下文图像特征。1. qk(xi)=1我exp[−φk(xi)].公司简介5. 有条件范围的2. gk( x)=wij(I)qk(xj) qdom Fieldkk3. m( xi)=µ( xi,xj) g (xj)相容性变换我们利用结构化的补丁预测技术,以提高密度的FCN功能,我们已经编码的上下文信息,以加强上下文的兼容性。由于基于块的特征的敏感性和高阶势的复杂性,这两种改进为了获得详细的对象边界,我们进一步细化的片段与指导CRF在高分辨率。 全连接的CR-F具有低级别的图像特征,例如,颜色,坐标,已成功地用于提高目标定位精度[3,19]。简单地对分数图进行双线性上采样通常会导致预测对象边界和颜色边缘之间的不对齐。引导滤波是一种边缘保持滤波。4. φk(xi)=φu(xi)− λmk(xi)<$Localupdate5. K=k+1endwhile输出:边际潜力φb现在我们将介绍如何将成对CRF与引导过滤相结合。根据上述章节,我们有ΣE↑(x,I;θ)=φui↑(xi).(十三)我将其代入等式(2),标签分配x的能量由下式给出:具有良好的视觉质量和快速的技术[12]。我们建议将成对CRF与引导过滤相结合,并联合学习整个网络以对齐分割E(x)=Σφui↑(xi)+我ΣI jn(xi,xj,Ii,Ij),(14)图像的颜色边界我们的指导CRF中的指导过滤需要两个输入:(1)待滤波的粗分割分数图φu↑,以及(2)下采样的2色图像I。过滤结果为其中,一元势φu↑是上下文CRF的输出,并通过结构化补丁预测进行上采样。在完全连接的CRF中的成对势函数p具有以下形式:p(xi,xj,Ii,Ij)=μ(xi,xj)k(Ii,Ij)(15)g( xi)=Σwij(I)φuj↑(xj),(11)J43251959J其中μ是具有等式(12)中定义的核k(Ii,Ij)= wij的标签兼容性函数。 μ由Potts模型初始化。平均场算法用于近似其中,φuj↑(xj)是从CxextCRF的输出上采样的。权重wij取决于被用作引导图像的输入彩色图像I。继类似2我们曾经用原始图像进行过实验,但后来发现下采样(4×)图像可以更快地训练和更稳定的解决方案。如算法1所示的边际分布。训练阶段的前向传递在每次迭代中执行软最大层、消息传递层、兼容性转换层和局部更新层通过交叉验证,我们在整个实验中进行了三次迭代如算法1所示,所有这些步骤都可以43251960输入图像FCN功能背景CRF最终输出斑块预测指南CRF伊萨克我输入图像一元网络1/16流3流2流1斑块预测指南CRF可以用CNN层来描述。引导滤波器的参数取决于原始图像的空间和外观。代替通过卷积层的直接计算,消息传递步骤可以作为一个引导滤波来执行最后,对引导CRF的边缘分布进行双线性上采样,得到原始图像的分辨率.为了反向传播分割误差差关于其输入和每层中的网络参数,直接通过局部更新层、兼容性变换层和softmax层执行反向传播算法。对于消息传递层,其输入的梯度为7. 实验我们在三个具有挑战性的分割基准数据集上评估了所提出的模型。我们将我们的模型与最先进的作品进行了比较。ADE20K是ILSVRC 2016新引入的数据集,我们的模型参加了比赛。我们的模型在所有三个数据集上都获得了领先的性能,同时具有高效的运行速度。消融研究是在Pascal VOC 2012上完成的,因为它是语义图像分割中使用最广泛的7.1. 数据集和实现7.1.1数据集L(xi)= Σwij( I)JLn(xj),(16)Pascal VOC 2012[6]数据集是一个流行的分割基准。它包括20个类别加上背景。原始的训练集有1464张带有像素标签的图像。我们还使用了[10]中的注释,结果为10582其也可以通过对误差差分映射XL(x,j)执行引导滤波来计算。6. 优化给定一个训练集{(I,x<$),I∈I,x<$∈ X},FCN和CRF优化的目标是学习参数θ<$,以最大化训练数据的后验概率∗Σ Σ∗λ21449(valset)和1456(testset)图像。通过平均IoU评分评估准确性。Cityscapes[5]数据集由2975张训练图像和500张验证图像组成。两者都有像素智能注释。另外还有大约19,998张带有粗略注释的图像。这个数据集中有19个类别,没有背景类别。所有的图片都是关于欧洲一些城市的街景,并由车载相机拍摄应该注意的是,在这个数据集中,每个图像都是1024×2048θ = argminθIlogp(xi|I;θ)+2||θ||二、(十七)我ADE20K[36]数据集分为20,000张图像,培训,2000张用于验证的图像,以及另一批用于测试的图像。 这个数据集中的每一个图像都是这里,I是训练图像,x是该图像中像素i的真实分割标签;λ是权重衰变参数该程序可以通过标准的随机梯度下降求解器有效地优化,整个框架如图所示。4.第一章最终输出图4:我们模型的示意图可视化。左图是我们提出的模型的管道对粗FCN特征图和分数图两者执行上下文CRF在用逐像素标签注释。本次挑战赛共包括150个语义分类。免费数据集。为了与最先进的技术进行比较,有时我们进一步利用大规模数据集MS COCO[21]来预训练模型,该模型在其训练集中包括123,287张图像,其中包含80个类别和一个背景。每个图像都带有像素标签。7.1.2执行我们使用公共的Caffe[15]框架进行深度学习,但我们做了很多改变。我们采用了一种基于数据流的内存管理策略。在推理阶段,相同流中的数据blob共享相同的G-PU存储器片段。在训练阶段的反向传递中,同一流中的梯度斑点也共享GPU内存。训练设置和参数。我们跳过Resnet-1013中conv5 1层的子采样操作,通过引入零来增加大小来修改conv5块中的滤波器,这被称为在精细层次上,采用引导式CRF进行目标边界的右图描述了网络结构。在我们的库中,每个数据流都被分配了一个流号,这使得它具有内存效率.3基本模型可在https://github.com/tornadomeet/ResNet上公开获取。我们通常使用它作为基础模型,而没有专门的符号。43271961一元上下文补丁引导接头mIoU(%)69.5 76.3 76.8 77.7 79.5MS80.9表1:Pascal VOC 2012测试集和Cityscapes测试集的结果。通过平均IoU(%)测量我们提交的两个模型都是从Resnet-101进行微调并利用MS-COCO。方法PasVOC12城市景观DPN[23]77.566.8[33]第十三话-67.1[19]第十九话77.871.6[31]第31话79.1-LRR4x[7]79.371.8DeepLab-v2[4]79.770.4CentraleSupplement DeepG-CRF[1]80.2-SegModel82.579.2表2:ADE 20K验证集和测试集的结果。通过平均IoU和像素准确度(%)的平均值进行测量。我们的模型是在ADE 20K训练集上训练的,而不需要借助MS-COCO或Place 365。通过单个模型来评估valset上的性能。方法Val测试CRFasRNN[35]-47.0[19]第十九话-53.3海康威视60.453.4CASIA IVA-54.3SegModel61.254.5360+MCG-ICT-CAS SP-55.6阿德莱德[31]-56.7[34]第三十四话63.157.2岗位竞争SegModel61.7-[3]的文件。 该操作产生16像素的步幅,本文将其命名为16×模型。值得注意的是,16×模型在训练阶段和推理阶段都比8×模型快得多。重量衰减参数设置为0。0001,动量参数设为0。9 .第九条。初始学习率设置为0。01和“策略”策略被采用[22,4]。小批量大小设置为16。 每个批次中具有较大损失的所有像素的一半被保留用于损失计算[31,32]。我们在训练阶段结束时运行几个epoch来计算批量归一化统计数据。采用比例抖动、颜色改变[30]和水平镜像对于训练阶段的尺度抖动,每个图像在范围[0. 五二0]。我们还在[4/5,5/4]范围内缩放了具有不同长宽比的图像。7.2. 与最新技术水平的比较我们将我们提出的模型与这三个数据集上的最新模型进行了定量比较,我们的模型被命名为SegModel。Pascal VOC 2012和Cityscapes测试集上的分割结果通过mIoU(%)测量。对于ADE 20 K,性能通过av-mIoU的平均值(%)和像素精度(%)。我们不联合培训ADE20K的指导CRF,因为有太多(150)在这个数据集中的类别。但在推理阶段加入了引导CRF。相比之下,Deeplab-v2[4]是在MS COCOtrainval set和Pascal VOC 2012上训练的,来自Resnet-101的增强训练集微调在训练和测试阶段集成了三个8×模型,并采用双侧CRF作为后处理步骤。我们提交给PascalVOC 2012的文件包含两个16×模型。我们的模型在Pascal VOC 2012的测试集上显示出比Deeplab-v2高得多的对于城市景观,我们的两个16×模型被集成到达到最先进的水平1024×2048图像可以在一次运行中即可轻松送入网络并分段在我们的图书馆里。关于两个数据集的详细结果,请参见表1。如表2所示,我们提出的模型在ADE20K上也具有领先的性能这是ILSVC 2016场景解析跟踪的数据集我们在比赛期间微调了Resnet-152的16×模型,但我们发现Resnet-101提供了类似的性能。7.3. 消融研究我们在Pascal VOC 2012val集(1449张图像)上对模型中的每个组件进行评估,在增强的训练集(10582张图像)上进行训练我们提出的每个部分都逐渐添加到模型中进行消融学习。我们在Pascal VOC 2012增强训练集上训练了多达36个epoch7.第一次会议。 为了公平地显示每个组件的有效性,所有这些模型都是从相同的基本模型中训练的。整个训练花费大约12个小时的指南在两个现代GPU卡。表3中的最终结果验证了我们模型中每个组件的有效性,表4显示了每个模型的推理为了对块中的中心像素进行分类,特征上下文和标签上下文提供了对图像中的大区域的高级理解,并促进了标签之间的平滑度。与一元相比,上下文带来了平均IoU 6.8%的改进,而推理时间增加了14%。在上下文CRF中增加结构化补丁预测部分,进一步提高了平均IoU,但有稍微更多的时间成本。补丁也提高了边界质量,如图所示。六、在与指导相表3:Pascal VOC 2012 valset的结果。上下文:采用上下文CRF。补丁:用结构化补丁预测替换上下文CRF中的一元预测。指南:增加CRF部分指南,以调整结果。联合:与MS-COCO联合培训。MS:多尺度测试图像。43271962(a)输入(b)真值(c)预测图5:Cityscapesval set的一些视觉结果。它的成本约为0。2048×1024彩色图像5sCRF,我们的完整模型指南达到77的平均IoU。7%基于Pascal VOC 2012val set。在以往的工作中,双边CRF被广泛用于描绘物体边界,引导CRF在视觉和定量上都具有类似的性能,如图所示。但在训练阶段和测试阶段所需的时间要少得多。最后,进一步利用MS-COCO和多尺度测试,21.61.20.80.400.80.750.70.65达到80. Pascal VOC 2012val集的9%。转向实现方面,上下文CRF可以有效地执行盒过滤和孔算法。0 5 10 15 20 25 30训练时期图7:训练曲线。表4:推理时间获得500×300的彩色图像。我们在特征图和标签图上使用不同核大小的盒子过滤器这些平均的上下文信息通过洞算法放在一起。对于结构化块预测,采用卷积层来产生长维度向量并在空间维度上重新排列它。这两个部分都可以在CUDA中有效地执行。时间复杂度所有代码都通过CUDA进行了优化,时间成本在一台GTX TITAN X上进行了测量。对于一个典型的300×500彩色图像,如表4所示,它的成本约为54。总共4ms来计算段a-807570656055500 10 20 30 40三重图宽度(像素)(a)(b)第(1)款图6:(a)右上角:贴片上的双侧CRF。左下角:上下文。右下角:为着力(b)对象边界周围的像素平均IoU。x轴是三重图的带宽。从Resnet-101微调的模型上的评分图,而一元层花费43。7毫秒。我们提出的上下文CRF和结构化补丁预测花费很少的时间,同时带来了很大的性能收益。基于双边滤波的全连接CRF在以前的工作中被广泛用于尖锐的对象边界[3,4]。 最近优化的快速双边滤波[17]的双边CR-F在CPU上进行10次平均场迭代大约需要1秒。如表4和图4所示6、指导CRF层成本仅4.4ms,同时与双侧CRF相比,在物体边界处具有类似的性能。一些视觉结果如图所示。五、8. 结论本文提出了一种由粗到细的深度语义图像分割模型,该模型结合了结构化块预测、高阶上下文和引导滤波。在Pascal VOC 2012、cityscapes和ADE 20K上的实验表明,该模型具有较好的性能和较高的运行速度。确认本课题得到了国家自然科学基金项目61375022和61403005的资助。一元上下文贴片引导上下文补丁指南双边兼职(ms)一元43.7背景49.8补丁50.0指南54.4平均IoU(%)训练熵损失valset上的mIoU(%)43271963引用[1] S. 钱德拉和我Kokkinos 基于深度高斯crfs的语义图像分割的快速、精确和多尺度推理arXiv预印本arXiv:1603.08358,2016年。[2] L- C.陈建堂<英>来华传教士。,1939--人巴伦湾Papandreou,K. Murphy和A. L.尤尔。基于cnn和区分训练域变换的特定任务边缘检测语义图像分割。arXiv预印本arXiv:1511.03328,2015年。[3] L- C. Chen,G.帕潘德里欧岛科基诺斯角Murphy和A. L.尤尔。基于深度卷积网络和全连接crfs的语义图像分割。arXiv预印本arXiv:1412.7062,2014。[4] L- C. Chen,G.帕潘德里欧岛科基诺斯角Murphy和A. L.尤尔。Deeplab:使用深度卷积网络、无卷积和全连接crfs进行语义图像分割。arXiv预印本arXiv:1606.00915,2016。[5] M.科德茨,M。奥姆兰,S。拉莫斯,T.雷费尔德,M。恩茨韦勒河贝南森,美国。弗兰克,S。罗斯和B。席勒用于语义城市场景理解的cityscapes数据集。IEEE计算机视觉与模式识别会议(CVPR),2016年。[6] M. Everingham,S.M. A. 埃斯拉米湖凡古尔角,澳-地K. I. 威廉姆斯J. Winn 和 A. 齐 瑟 曼 。 pascal 视 觉 对 象 类 挑 战 : 回 顾 展 。International Journal of Computer Vision,111(1):98-136,Jan. 2015年。[7] G. Ghiasi和C.福克斯用于语义分割的拉普拉斯重构和精化。arXiv预印本arXiv:1605.02264,2016。[8] R.娘娘腔。快速R-CNN。在IEEE计算机视觉国际会议论文集,第1440-1448页[9] R.格希克,J。多纳休,T. Darrell和J.马利克丰富的特征层次结构,用于精确的对象检测和语义分割。在IEEE计算机视觉和模式识别会议论文集,第580-587页[10] B. 哈里哈兰山口阿贝湖。 Bourd ev,S. Maji和J. 马利克从逆检测器的语义轮廓在计算机视觉(ICCV),2011 IEEE国际会议上,第991-998页IEEE,2011年。[11] K. 他 和 J. Sun 。 快 速 制 导 滤 波 器 arXiv 预 印 本 arX-iv :1505.00996,2015年。[12] K.他,孙杰,还有X。唐引导图像滤波。在Computer施普林格,2010年。[13] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。arXiv预印本arXiv:1512.03385,2015。[14] S. Ioffe和C.赛格迪批次标准化:通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv:1502.03167,2015。[15] Y. Jia、E. Shelhamer,J.多纳休S. J. Long,R. Karayev 女孩S. Guadarrama和T.达雷尔。Caffe:用于快速特征嵌入的卷积架构arXiv预印本arXiv:1408.5093,2014。[16] D. Koller和N.弗里德曼概率图模型,2009年。[17] P. K raühenbuühl 和V. 科尔顿具有高斯边势的全连通crfs的有效推理arXiv预印本arXiv:1210.5644,2012年。[18] A.克里热夫斯基岛Sutskever和G. E.辛顿使用深度卷积神经网络的Imagenet分类在神经信息处理系统的进展,第1097-1105页[19] G.林角,澳-地申岛Reid等人用于语义分割的深度结构化模型的高效分段训练。arXiv预印本arX-iv:1504.01013,2015年。[20] G.林角,澳-地申岛Reid和A.范登亨格尔。深入学习消息传递推理中的消息。神经信息处理系统的进展,第361-369页,2015年[21] T.- Y. 林,M。迈尔,S。贝隆吉,J.Hays,P.Perona,D.拉玛南P. Doll a'r和C. L. 齐特尼克Microsoftcoco:上下文中的公共对象计算机Springer,2014.[22] W. Liu,中国粘蝇A. Rabinovich和A. C.伯格。Parsenet:看得更宽,看得更好。arXiv预印本arXiv:1506.04579,2015。[23] Z. Liu,X.李,罗,C.- C. Loy和X.唐基于深度解析网络的语义图像分割。在IEEE计算机视觉国际会议论文集,第1377-1385页[24] J.朗,E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络arXiv预印本arXiv:1411.4038,2014。[25] G.帕潘德里欧湖C. Chen,K. Murphy和A. L.尤尔。基于弱监督和半监督学习的dcnn语义图像分割。arXiv预印本arXiv:1502.02734,2015。[26] S. Ren,K.赫利河Girshick和J.太阳更快的r-cnn:利用区域建议网络进行实时目标检测。在神经信息处理系统的进展,第91-99页[27] S. Ross,D.穆尼奥斯,M。Hebert和J.A. 巴涅尔学习结构化预测的消息传递推理机.在计算机视觉和模式识别(CVPR),2011 IEEE会议上,第2737-2744页。IEEE,2011年。[28] C. Russell,P.科利山口H. Torr等人用于对象类图像分割的关联分层crfs计算机视觉,2009年IEEE第12届国际会议,第739-746页。IEEE,2009年。[29] Z.涂。自动上下文及其在高级视觉任务中的应用。计算机视觉和模式识别,2008年。CVPR 2008。 IEEE会议,第1-8页。IEEE,2008年。[30] R. Wu,S. Yan,Y. Shan、山栎Q. Dang和G.太阳Deep image:Scaling up image recognition. arXiv预印本arXiv:1501.02876,2015。[31] Z.吴角,加-地Shen和A. v. d.亨格尔桥接类别级和实例级语义图像分割。arXiv预印本arX-iv:1605.06885,2016年。[32] Z.吴角,加-地Shen和A. v. d.亨格尔使用非常深的全卷积网络进行高性能语义分割。arXiv预印本arXiv:1604.04339,2016年。[33] F. Yu和V.科尔顿。基于扩张卷积的多尺度上下文聚合arXiv预印本arXiv:1511.07122,2015。[34] H. Zhao,J. Shi,X. Qi,X. Wang和J.贾金字塔场景解析网络。arXiv预印本arXiv:1612.01105,2016。[35] S. Zheng,S.Jayasumana湾Romera-Paredes,V.Vineet,Z.苏D.杜角,澳-地Huang,和P.乇作为递归神经网络的条件随机场。arXiv预印本arXiv:1502.03240,2015年。[36] B. Zhou, H. Zhao,X.普伊格S。菲德勒,A. Barriuso和A.托拉尔巴通过ade20k数据集对场景进行语义理解。arXiv预印本arXiv:1608.05442,2016。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功