基于语义相关的变形上下文切分模型的研究

171 浏览量更新于2023-10-18 收藏 1.64MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8885语义相关促进的变形上下文切分丁恒辉1蒋旭东1兵帅2刘爱群1王刚31新加坡南洋理工大学电气与电子工程学院2美国西雅图亚马逊3中国杭州阿里巴巴集团摘要语境是语义切分的基础。由于由于各种场景图像中物体形状的多样性及其复杂的布局，不同物体的空间尺度和上下文形状有很大的差异。因此，从预定义的固定区域聚集各种上下文信息是无效或低效的在这项工作中，我们建议为每个像素生成一个尺度和形状可变的语义掩模，以限制其上下文区域。为此，我们首先提出了一种新的成对卷积来推断对的语义相关性，并在此基础上生成形状掩码。使用上下文区域的推断空间范围，我们提出了一个形状变体图像像素A像素B语义相关像素A像素B空间依赖像素B像素A地面实况像素A像素B卷积，其感受野由形状掩模控制，该形状掩模随输入的外观而变化。以这种方式，所提出的网络聚合的上下文信息的像素从其语义相关的区域，而不是一个预定义的固定区域。此外，本文还提出了一种标记去噪模型，以减少由噪声低级别特征引起的错误预测。在没有花里胡哨的情况下，所提出的分割网络在六个公共分割数据集上一致地实现了新的最先进的技术1. 介绍语义分割或场景解析旨在将场景图像中的每个像素分类到预定义类别之一（例如，人、车等）。它已经成为人工智能的一个重要组成部分，并可以应用于许多实际应用中，如自动停车系统。深度神经网络最近的成功极大地提高了语义分割的性能[9，43，75，11]。大多数最先进的分割网络都是基于卷积神经网络（CNN）[37，63，64，26，28]在ImageNet [58]上预训练的，其中CNN被用作局部特征提取器。为了实现鲁棒的语义分割，信息丰富的高层上下文是必要的.上下文提供了周围的环境-图1.大多数现有方法利用预定义窗口（例如，第二图像中的像素A的红色矩形区域在这项工作中，我们建议从语义相关的区域，而不是空间相关的一个聚合的上下文信息。这有助于更好地区分对象。然而，由于场景图像中物体形状的多样性（包括轮廓、尺度等）和布局的复杂性，在预定义的固定区域内聚集的公共上下文例如，在图1中，像素A（湖）和像素B（火车）的上下文应该是不同的，但收集它们的上下文的预定义感受野很大程度上重叠，这降低了它们的辨别能力。同时，并非预定义的周围区域（第二图像中的矩形区域）中的所有信息都有益于它们的最终解析。在语义相关区域收集的信息更有助于识别对象，而在不相关区域收集的信息，虽然空间上接近，但可能导致解析错误，因此应该被抑制甚至忽略。对于图1中的像素A，属于湖及其岸边的像素的信息，其是语义的。8886相关的像素的信息可能比预定义的固定窗口中的其他像素的信息更有益。对于像素B，期望的上下文形状将与火车和铁路轨道对齐。此外，均匀整合平滑的全局信息会降低位置标识和局部判别特征[69]。因此，为了更好地进行场景分析，需要定制各种形式的语义一致大多数现有方法倾向于在固定矩形区域[9，18，73，71]或全局区域[72，74，30]中对统计平均表示进行建模。在这项工作中，通过考虑到语义相关性和形状布局的对象，我们提出了一个形状变化的上下文模型聚合的周围信息的每个像素从他们的语义相关区域推断根据输入图像的外观。为此，我们建议首先学习目标像素和其他像素之间的关系学习后的网络对语义相关性较强的两个像素产生较高的值，对相关性较弱的像素产生较低的值因此，所提出的网络将为每个像素生成指示语义相关区域的形状掩模。形状掩模指定的大小和形状的期望的感受野，我们进一步提出了一个形状变化的卷积聚合上下文从语义相关的区域。形状变化卷积由一组可学习的位置不变卷积参数和位置变化形状掩模指定。因此，这些参数是输入图像的语义相关区域的因变量，其随着对象的形状和尺度的变化而变化。此外，由于形状变化上下文是隐式尺度变化的，因此我们不仅可以在单层中建模多形状，还可以在单层中建模多尺度信息，而不是多层[9，75，71]或堆叠[73，18]多层。从宏观上看，该方法通过学习特征间的语义和空间关系来控制网络中的信息流，从而决定信息的传递或抑制。所提出的尺度和形状可变的上下文模型增强了高级特征的区分能力。较高级别的特征比较低级别的特征对噪声更鲁棒，但代价是较低的空间位置敏感度。因此，许多分割网络还聚合低级特征以提高分割的位置精度[51，11，18，25]。然而，聚集低层特征虽然有助于恢复空间信息，但可能会带来一些有争议的噪声敏感信息，导致某些像素的错误分类。因此，我们提出了一个模型，利用高级别的功能，以衰减低级别的功能，聚合它们之前，即噪声信息。信号去噪通过这种方式，网络可以更好地利用低级特征的优势，减轻它们的问题。总之，本文做出了以下贡献：1）提出了一种新的成对卷积方法来推断两个像素的语义相关性，并在此基础上为每个像素生成语义相关区域; 2）提出了一种在语义相关区域内聚合的形状可变的上下文模型，用于描述不同形状和尺度的上下文，极大地增强了网络的建模能力; 3）提出了一种标记去噪模型，以减少低层特征噪声引起的标记错误; 4）我们在六个公共语义分割数据集上一致地实现了新的最先进的性能。2. 相关工作最近，深度神经网络在计算机视觉方面取得了巨大成功[26，23，22，47，49，24，50，65]。基于全卷积网络（FCN）[51]，其中原始CNN中的全连接层被转换为卷积层，许多方法，例如，[9，21，55，32，48，76，5，61]，提出了提高语义分割的性能。背景特征建模在场景分析中起着重要的作用。[52]表明全局空间信息有助于增强特征的一致性。美国[9]提出了一种空间金字塔池（ASPP）来聚合来自具有不同膨胀率的并行分支的多尺度图像表示。DilatedNet[73]在分数映射之后添加几个扩张的卷积层，以执行多尺度上下文聚合。DAG-RNN [62]和Byeon [6]提出通过递归神经网络对长距离上下文进行建模。Zoom-out [53]提出了一种前馈架构来提取分层缩小功能。CRF-RNN [77]使用递归层联合端到端训练密集CRF [36]及其分段网络。分段[44]制定基于CNN的成对势函数来捕获斑块-斑块上下文，并为斑块-背景上下文设计图像金字塔输入。PSPNet [75]引入金字塔空间池（PSP）来执行基于不同区域的全局信息聚合。最近，CCL [18]提出了一个上下文对比的本地模型来收集本地及其周围的信息。EncNet [74]将语义上下文编码为网络并强调依赖于类的特征映射。与以往的方法不同，在这项工作中，我们试图聚集上下文信息的语义更接近的区域，但抑制无关的信息，即使在空间上更接近的区域。我们提出了一个形状自适应卷积层来学习不同形状的上下文，其形状由输入图像的对象形状，规模及其周围支持确定。该方法的目标是在保留位置标识和布局信息的同时，建立有效的语义关联显示在训练图像中。8887m，n成对卷积形状遮罩图2. (Best我们提出了一种新的语义相关依赖的形状变化的上下文，它提高了语义相关的功能（洋红色），而抑制其他（白色）。标签多样性是语义分割中另一个具有挑战性的问题。PSPNet [75]观察混淆类别，并证明PSPNet可以比FCN[51]更好地解决混淆标签Geng等[20]建议从先验混淆矩阵中推断出有区别的混淆组DFN [72]引入了一个平滑的边界网络来解决混乱的类。Davis等人[17]建议使用具有混淆概率和标签先验的贝叶斯策略来细化解析结果 Huang etal. [29]提出一个LabelReplacement网络来纠正错误预测。与这些方法不同的是，我们提出了一个可学习的标签去噪（LD）模型，以解决混淆标签的问题，利用强大的高级别的功能，以衰减噪声在低级别的功能。3. 所提出的方法3.1. 语义相关依赖语境语义分割需要同时处理目标识别和定位，因此需要在大区域之间建立密集的特征连接并保持位置一致性。同时，由于场景图像中对象的形状多样且布局复杂，不同对象的上下文的尺度和形状应该有很大的变化。现有的背景建模方法往往采用固定大小的矩形窗口来聚集场景中所有位置的环境信息，削弱了场景的位置识别性，且可能无法有效地表示场景图像中物体的不同形状和尺度。与以往的工作不同，我们提出了更理想的上下文区域应该是形状可变的，根据对象的形状和它的背景，支持图3. (Best通过成对卷积和高斯映射函数来推断形状掩模，其被设计为学习目标像素与形状掩模内的其他像素之间的语义相关性在这里，我们展示了一个目标像素（暗）的11×11掩码中的4个值的示例，其中4个掩码值由相同颜色的4个滤镜生成。具有位置标识的形状/缩放上下文。在SVC中，上下文聚合由语义相关掩码控制，该语义相关掩码指定应该在何处以何种程度收集信息通过语义掩码，语义相关区域的特征被提升，其他不相关区域的特征被抑制。因此，用于解析每个像素的更好的上下文信息被聚集在支持对象的正确类别的存在的特定学习语义相关性表示语义相关性的形状掩码修剪上下文形状，并决定在何处以何种程度收集信息接下来我们讨论如何学习语义相关性，即如何生成语义形状掩码。形状掩码中的每个值表示对应像素与目标像素（掩码的中心像素）的相关性。因此，需要学习每个像素与目标像素的语义关系并将其注入到形状掩模中的对应位置。为此，我们引入一个成对卷积，如图所示在图3中，使用一对具有特定相对位置的3×3局部卷积来学习对应像素与目标像素（图3中的中心暗像素）的语义和空间相关性。在成对卷积的每个滤波器中，存在用于目标像素的中心卷积和其位置对应于对应像素的形状掩模中的位置的另一个卷积。我们已经观察到并因此假设属于同一对象及其上下文的像素的特征外观将显示出强相关性，因为它们经常共存于训练图像中。因此，两个卷积输出的差对象。例如，对于属于火车的i、jm，n可以对于属于在图2中，更有利的环境应该是沿着铁路轨道的周围信息（洋红色），其在语义上比在空间上更接近中通过学习卷积，从训练图像中提取参数。字，对于不同的像素位置，周围信息Di，j=Fi，j<$Θm，n−Fi−m，j−n<$Θm，n（一）应该从语义相关区域中收集，m，n0，0m，n支持该像素的正确类的存在。因此，在这项工作中，我们提出了一个语义相关依赖的形状变化上下文（SVC）模型的多样性，其中，Di，j表示局部卷积算子，D i，j表示（i-m，j-n）与目标位置（i，j）的卷积输出差异，Fi，j和Fi-m，j-n是局部的.........D8888m，nm，n0，m，nm，nm，nm，nσ2Σm，n- 配对卷积，以从来自预训练的CNN的局部特征F学习每个像素与以该像素为中心的大小为KXK(1)和等式（二）、输出通道数为S=K×K，其中K×K为所提出的形状变化卷积的核大小从输入特征推断的语义形状掩码被用来对正常可学习卷积（F）进行加权滤波器）由θd，f参数化主要分支机构：θ∈i，j，d，f=Mi，j θd，f（三）图4.依赖语义相关的形状变化语境m，nm，nm，n根据语义相关性聚合周围信息，从而定制有效的上下文区域。它通过决定哪些信息被传递或被抑制来控制网络中的信息流。位置（i，j）和（i-m，j-m）处的特征，Θm，n和其中θd，f∈Θ是第f个正常位置不变可学习滤波器的位置（m，n）处的第d个输入通道的卷积参数，d∈（1，2.， D）和f ∈（1，2.， F）。滤波器核大小为K×K，（i，j）为索引所有H×W位置的特征图位置。由等式(3)，F正常可学习Θm，n是两个局部核由θd，f参数化的余解是由在成对卷积中。由于可能存在负差异或正差异，因此我们将其映射到上下文的值K×K的固定大小，以有效地为不同的大小和形状的不同像素（i，j）所确定的建议形状掩模由高斯函数：语义形状掩码Mi，j.形成的F形-i、jm，ni，j =0（Di，j）（2）采用可变滤波器来生成杂色形状每个空间位置（i，j）的上下文：其中，exp（a）=exp（-a2），其将卷积输出差异映射到语义相关值。更小F^i，j，f=0K1K1θi，j，d，fFi−m，j−n，d（4）差异产生更高的语义相关值。d=1m=−K1n=−K1i、jm，n是语义中位置（m，n）处的掩码值其中K=（K−1）/2且Fi−m，j−n，d∈ F。F^i，j，f∈像素（i，j）的形状掩模。注意，结果不是由于两个卷积的参数是1F1是一个可获得的真实特征图。在这样一个世界里，学会了我们在实验中使用σ= 3i、jm，n指示how收集F^i，j的Fi−m，j−n，形态变异语境形状变化上下文的目标是为每个像素定制期望的上下文形状/尺度，而不是一个简单流畅的上下文信息。为了实现这一点，我们进一步提出了一种形状变化卷积（SV Conv）来自适应地收集周围的信息。形状变化卷积的参数由位置不变的可学习卷积参数和由所提出的成对卷积推断的语义形状掩模组成。形状掩模用于根据语义相关性控制每个位置的卷积过程的感受野。这种形状掩模将卷积核裁剪成不同的形状/尺度，并导致形状变化的卷积操作。通过这种方式，所提出的方法大大提高了网络的建模能力，不同的形状上下文。所提出的形状变体上下文如图所示。4. 有两个分支，旁路被设计为学习语义相关性，其输出然后被输入到形状变化卷积（SV Conv）以提供语义形状掩码。具体来说，分支机构雇用卷积所有这些函数都是可微的，反向传播很容易导出。标准卷积运算是位置不变的，并且在训练后不随测试图像而变化因此，它不能为输入图像的不同对象定制不同形状/尺度的上下文信息。所提出的SV Conv由一个可学习的位置不变卷积和一个从输入图像中推断出的位置变化的语义形状掩码组成前者是模拟空间通道分布的统计平均值，后者是确定卷积感受野的大小和形状。它们一起充当形状变体算子，以更好地对形状上下文进行建模。在单个层由于上下文区域的不同形状/尺度和卷积核的形状约束，难以使用单个正常卷积层来有效地对形状变化上下文进行建模，因为上下文的范围（包括其尺度和轮廓）针对输入图像的不同对象而戏剧性地改变。利用所提出的形状变化语义相关掩码，重塑S=Kx K... ......这是什么？KH成对转换WKS高x宽HHWWD形态变异语境FSV转换MDΣMM8889KKk−1k kkk−1指定了具有不同形状和尺度的卷积区域，因此我们可以在单个层中对多形状和多尺度信息进行建模。与最先进的上下文模型的比较不同于倾向于在预定义矩形区域内对统计平均表示进行建模的先前上下文方法[9，73，75，18，71，56]，该方法利用语义相关性，并根据测试图像的特征外观推断出的语义形状掩模有意地拾取相关信息因此，它不仅可以保持形状和位置的身份，而且还有效地建立了相关的特征之间的分类有益的联系。与可变形卷积[16]相比，所提出的方法的目标在收集卷积中的相关信息方面与它类似。然而，与试图通过变形采样位置来实现这一点的[16]不同，所提出的SVC找出语义相关性以增强或衰减相应的信息，明确地导致形状和尺度变化的建模。这两种方法中寻找相关信息的标准或方法也不同。此外，我们的方法在单层中建模不同形状的语义相关上下文，而不是[16]中的堆叠层，并避免了“atrous”。在可变形卷积中，可能会丢失一些详细信息。3.2.标签去噪由于标签的多样性和复杂的相关性，图像标记错误地面实况图5.上下文错误，例如，第一行是指图像的标签集内的不正确标记。上下文外错误，例如，第二行是指图像的标签集之外的不正确的标签。从中间层获得层次空间信息。标记去噪模型首先从更高级别的块推断每个类别的存在潜力，并从存在潜力中学习惩罚分数。然后，从较低级别的块生成的分数图由惩罚分数充电。使用从较高级别块学习的惩罚分数，由较低级别块生成的输入图像的不存在类别的分数首先，通过得分图从更高级别的块推断存在潜力：Ek=Fg（Fsf（Sk））（5）其中，Sk是来自较高级别（级别k）块的得分图，Fsf是softmax，Fg是全局最大池化。Ek=（e1，…ec，.，是类的存在势k k k k在分割数据集中的标签中，可以在大多数最先进的分割网络的结果中发现常规错误这些常规错误可能是c由k级推断。然后，通过下式学习惩罚PcPc=ReLU（T-ec）c（六）分类为“in-context”错误和“out-context”错误，如图5所示。“语境内”错误主要是由于定位不准确和语境间的影响造成的，而“语境外”错误主要是由于分类不准确造成的本文提出的形状可变上下文聚合了特定语义相关区域的信息，有助于减轻上下文内和上下文外的其中，T是惩罚阈值，并且是可学习的惩罚参数。使用惩罚阈值和函数ReLU来保持现有类的分数分布不变。惩罚Pc用于修改在聚合它之前，它的下一个较低级别块的得分图其下一个更高级别块的上采样得分图标签错误。为了获得详细的空间信息，降低-Sc=ReLU（Sc-Pc）+Sc（七）来自CNN中间层的水平特征很重要k−1k−1k k在编码器-解码器架构[51，11，18，25]中，其中Sc是c类的得分图，直接来自包含更多关于这些物体在哪里的信息[21，下层街区。 Sc是去噪和聚合的51]。但是这些低级特征也带来了有争议的噪声信息，导致了上下文外的错误。相反，高级特征，例如，在这项工作中，形状变化的上下文虽然对空间位置不太敏感，但对噪声更鲁棒，并且更了解场景图像中存在什么类别。为了更好地结合从最高级别到级别k-1的分数映射，其进一步用于修改和聚合到分数较低级别块的映射如等式（5）、（6）和（7）。所提出的标记去噪（LD）模型如图6所示。以这种方式，网络可以利用高级特征和低级特征两者，即，更好地结合“什么”和“在哪里”。对于来自低级要素的跳过层，8890DDDX4+X2+X2+X2D去噪x2上采样2+求和块1ResNet块1SVC区块5第四区块Block3m，nCBlock1Block2方法PASCAL上下文COCO-Stuff基线42.7 31.5基线+SVC 52.4 38.5基线+SVC+LD53.2 39.6表1.在IoU方面对拟议方法进行消融研究图6.网络架构。我们使用ResNet-101作为微调的基础模型，使用FCN-4作为主干分段框架。在解码过程中使用LD进行去噪。衰减输入图像，并且保留和补充现有类别的那些图像以获得用于定位增强的评分图。由于这种机制被包括在端到端训练过程中，因此在训练期间考虑较少的噪声分数，并且用于训练这种噪声信息的梯度所提出的方法也可以被视为某种dropout，它将dropout应用于达到某些条件的连接。4. 实验我们评估所提出的方法上六个公共基准，COCO-Stuff ， SIFT- 流， CamVid ， PASCAL-Person- Part ，PASCAL-Context和Cityscapes。我们使用在ImageNet[58]上预训练的ResNet- 101[26]作为我们的基础模型进行微调，并将FCN-4作为骨干框架。在训练过程中，建议的网络使用标准SGD进行端到端训练，批量大小为8，固定动量0.9重量衰减为0.0005。在训练中使用随机翻转、0.8到1.2之间的随机调整大小和平均值减法等数据增强。受[9]启发，我们使用表2.消融研究所提出的形状变化的上下文（SVC）的方法，通过比较它与形状固定的上下文（SFC）在不同的内核大小。它还表明，性能增益并不是简单地由参数的增加带来的4.1. 消融研究在本节中，我们对所提出的形状变化上下文（SVC）和标记去噪（LD）进行消融研究。如表1所示，比较所提出的LD在PASCAL-Conext（59个类）和COCO-Stuff（171个类）上带来的性能增益，我们可以得出结论，LD可以减轻噪声预测，并且它在具有更多语义类别的数据集上工作得更好。这并不奇怪，因为更多的类别会导致更大的预测噪声，因此LD工作得更有效。表1显示了通过应用所提出的SVC，从基线获得的显著性能增益（COCO-Stuff上为7%，PASCAL-Context上为近10%）。为了进一步研究提出的SVC的性能增益来自哪里，我们将其与通过设置常数来实现的形状固定上下文（SFC）进行预训练层的参数，功率设置为0.9。形状掩模，即，Mi，j=1在等式中（三）、我们比较它们批量归一化[31]用于新添加的图层，加快培训进程。性能通过标准像素精度（像素acc.）进行评估，平均类别准确度（平均加速度）和平均交集对并集（平均IoU）。数学定义请参考[51]。为了在单个层中对不同的语义形状进行建模，由于对象的形状/尺度发生了巨大的变化，因此需要更大的内核但是超大型核函数是资源密集型的，并且很难收敛。为了解决这个问题，我们修改了Eq。(4)类似于dependency可分离卷积的建议SVC [13]。Eq.的简化计算(4)允许我们使用大的内核大小来模拟空间空间中的各种形状，然后进行逐点卷积来学习交叉通道相关性。在标记去噪中，模型中，我们使用从最高到最低的块的递增惩罚阈值T=t，2t，4t，其中t=1，C是类的数量。不同内核大小的PASCAL-Context上，如表2所示，其中0×0表示没有上下文层的基线。由于我们只使用一个层来捕获上下文信息，表 2 中使用的所有内核都是比大多数其他工作的卷积核更大，以便可以在单个层中对不同形状和规模的上下文信息进行建模。表2显示，随着核大小的增加，分割性能提高到一定程度，然后随着核大小的进一步增加而略有下降。这是因为网络丢失了太多的位置信息在内核过大情况下。它还表明，简单地增加网络参数可能并不总是提高性能。表2表明，在所有不同的内核中，所提出的SVC的性能都明显优于SFC尺寸. SVC的最佳性能是在内核大小（23×23）时实现的，这也并不奇怪，内核大小0 ×07 ×711 ×1115 ×1519 ×1923 ×2327 ×27证监会42.745.646.647.147.046.746.5SVC42.748.549.451.252.152.452.38891m，nm，n方法像素加速度平均加速度平均IoU法国[7]52.034.022.7DeepLab [8]57.838.126.9[51]第五十一话60.438.527.2DAG-RNN+CRF [62]63.042.831.2DC+FCN+[27]65.544.633.6Deeplab-V2 [9]65.145.534.4CCL-ResNet101 [18]66.348.835.7DSSPN [41]68.548.136.2SVCNet（我们的）69.251.539.6图7.形状变化掩模Mi，j的四个视觉示例表3. COCO-Stuff测试精度。m，n由学习网络在两个测试图像的四个不同位置生成。掩模中心（i，j）由小正方形表示，并且其在图像内的（m，n）处的值由灰度级示出。因为所提出的SVC提供了多样的形状上下文，这隐含地是多尺度的，具有更好的位置标识性。4.2. 语义形状掩码如表1和表2所示，所提出的形状变化上下文（SVC）带来了显著的性能增益。表4.SIFT-流量测试精度。其由所提出的形状掩模Mi，j确定，它值得进一步研究面具是如何捕捉通过视觉化来塑造语境。成形掩模Mi，j在四个不同的地点两个测试图像的学习网络显示在图7.第一个是汽车中心的面具。它在汽车和道路的像素处具有较高的值，因为它们包含汽车中心的上下文信息。第二个是道路中间奶牛的一些像素的遮罩。它在奶牛和草的像素处具有更高的值，尽管它们远离目标奶牛并且被道路隔开。第二个掩码的值在道路区域中较低，因为它没有显示出与道路区域中的奶牛的相关性表5. 摄像头所有评价指标。表6.PASCAL-人-部分。训练数据库。同样，第二测试图像中的火车和铁路的第三和第四掩模也分别显示了上下文的语义相关性。4.3. 与最新技术建议的语义分割网络被命名为SVCNet，我们比较它与六个公共基准，COCO-Stuff，SIFT-流，CamVid，PASCAL-Person-Part，PASCAL-Context和Cityscapes的最新技术。在定量比较之前，所提出的SVCNet的一些定性结果如图8所示。COCO-Stuff[7]为171个语义类别提供了密集的像素级注释。有9000张图像用于训练，1000张图像用于测试。COCO-Stuff的定量结果如表3所示。所提出的SVCNet优于以前的最先进的跨SIFT-流[45]包含2688个带有33个语义类注释的图像。有2488个训练图像和200个测试图像。定量结果见表4。所提出的SVCNet在所有评估指标上都优于以前的最先进技术。CamVid[4]是一个道路场景图像分割数据集，为11个语义类别提供密集的像素级注释有367张训练图像，101张验证图像和233张测试图像。测试结果如表5所示。它表明，所提出的SVCNet优于以前的国家的最先进的大幅度。PASCAL-Person-Part[12]为六个人物部分提供像素级标签。有1717个训练/验证图像和1818个测试图像。PASCAL-人员-部件的定量结果报告见表6。它表明，所提出的SVCNet在这个小数据集上的性能大大优于以前的最先进技术，这表明方法像素加速度平均加速度平均IoULiu等人[46个]76.7--Tighe等人[第六十六话]75.641.1-Farabet等人[19个]78.529.6-Pinheiro等人[五十七]77.729.8-Sharma等人[59个]79.633.6-Yang等人[70个国家]79.848.7-[60]第六十话85.953.941.2DAG-RNN+CRF [62]87.857.844.8[44]第四十四话88.153.444.9SVCNet（我们的）89.158.246.3方法平均IoU方法平均IoU[55]第五十五话48.9注意[10]56.4SegNet [2]50.2HAZN [68]57.5DeepLab [8]54.7LSTM [40]58.0DilatedNet [73]65.3图LSTM [39]60.2[38]第三十八话66.1DeepLab [8]62.8[33]第三十三话66.9DeepLab-V2 [9]64.9G-FRNet [32]68.0RefineNet [43]68.6DenseDecoder [3]70.9DenseDecoder [3]68.6SVCNet（我们的）75.4SVCNet（我们的）73.98892方法平均IoU[60]第六十话39.1CRF-RNN [77]39.3[15]第十五话40.5HO-CRF [1]41.3[44]第四十四话43.3FCRN [67]44.5[第61话]45.0DeepLab-V2[9]45.7全球背景[30]46.5[43]第四十三话47.3DenseDecoder [3]47.8摩根士丹利资本国际[42]50.3CCL-ResNet101 [18]51.6EncNet [74]51.7SVCNet（我们的）53.2表7.PASCAL上下文测试准确性。方法平均IoUDeeplab-v2 [9]70.4[43]第四十三话73.6[41]第四十一话76.6GCN [56]76.9深度集[35]78.2PSPNet [75]78.4AAF [34]79.1DFN [72]79.3PSANet [76]80.1[71]第71话80.6SVCNet（我们的）81.0表8.城市景观测试的准确性。即使在小数据集上，所提出的方法也可以很好地训练。PASCAL-Context[54]为59个类别提供了逐像素分割注释。有4998个训练图像和5105个测试图像。PascalContext的定量结果如表7所示。它表明，所提出的SVCNet的性能大大优于最先进的。Cityscapes[14]包含5000个具有像素级精细注释的街景图像，并考虑评估19个类别。训练图像2975幅，验证图像500幅，测试图像1525幅。测试结果示于表8中。5. 结论在这项工作中，我们提出了聚合的上下文信息的基础上的语义相关性，而不是预定义的空间依赖窗口，以收集更有效的和歧视性的周围信息的语义分割。在收集上下文信息时，即使在遥远的空间位置处的语义相关的信息也将被增强，并且即使在接近的空间位置处的语义不相关的信息也将被抑制。为此，我们首先提出一个小说配对图像Baseline SVCNet（我们的）Ground Truth图8.COCO-Stuff（第1 - 4行）和PASCAL-Context（第5 - 7行）上的定性分割示例卷积学习训练图像的特征语义相关性，并推断查询图像的特征语义相关性。这将在每个位置生成语义形状掩码的图像。在此基础上，我们提出了一种形状可变卷积，其中卷积的感受野语义形状掩模形成不同尺度和形状的卷积感受野，以有效地聚合区分性上下文此外，为了减轻标记错误，我们提出了一种标记去噪模型，该模型利用更强大的高级特征来衰减由噪声较低的低级特征引起的在没有花里胡哨的情况下，所提出的分割网络在六个公共语义分割数据集COCO-Stuff、SIFT-Flow、CamVid 、PASCAL-Person-Part、PASCAL-Context和Cityscapes上一致地实现了新的最先进技术确认本研究由新加坡教育部学术研究基金资助，资助编号：2015-T1-002-140，MoE Tier 1 RG 123/15。它还得到了BeingTogether中心的支持，该中心是新加坡南洋理工大学（NTU）和北卡罗来纳大学教堂山分校（UCLA）之间的合作。BeingTogether中心由新加坡总理办公室国家研究基金会在其新加坡国际研究中心资助计划下提供支持8893引用[1] Anurag Arnab 、 Sadeep Jayasumana 、 Shuai Zheng 和Philip HS Torr。深度神经网络中的高阶条件随机场。在ECCV，2016年。[2] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。TPAMI，2017。[3] 彼得·比林斯基和维克多·普拉萨卡留。用于单遍语义分割的密集解码器快捷连接。在CVPR，2018年。[4] Gabriel J Brostow，Jamie Shotton，Julien Fauqueur，andRoberto Cipolla.基于运动点云结构的分割与识别。ECCV，2008年。[5] S Rota Bulo，Gerhard Neuhold，and Peter Kontakheder.损失最大池的语义图像分割。在CVPR，2017年。[6] 作者：Thomas M. Breuel，Federico Raue，and MarcusLiwicki.基于lstm递归神经网络的场景标注。CVPR，2015。[7] Holger Caesar Jasper Uijlings 和 Vittorio Ferrari 可可 - 东西：上下文中的事物和东西类。在CVPR，2018年。[8] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.基于深度卷积网和全连接crfs的语义图像分割。2015年，国际会议[9] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille. Deeplab：使用深度卷积网、无环卷积和全连接的crfs进行语义图像分割。TPAMI，2018年。[10] Liang-Jieh Chen，Yi Yang，Jiang Wang，Wei Xu，andAlan L Yuille.注意秤：尺度感知语义图像分割。在CVPR，2016年。[11] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器 - 解码器。 arXiv ：1802.02611，2018。[12] Xianjie Chen，Roozbeh Mottaghi，Xiaobao Liu，SanjaFidler，Raquel Urtasun，and Alan Yuille.检测您可以：使用整体模型和身体部位检测和表示对象。CVPR，2014。[13] 弗朗索瓦·肖莱。Xception：使用深度可分离卷积的深度学习。在CVPR，2017年。[14] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR，2016年。[15] 戴季峰、何开明、孙建。Boxsup：利用边界盒来监督卷积网络进行语义分割。在ICCV，2015年。[16] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。InICCV，2017.[17] James W Davis ， Christopher Menart ， MuhammadAkbar，and Roman Ilin.一种用于语义分割的分类细化策略。arXiv：1801.07674，2018。[18] Henghui Ding ， Xudong Jiang ， Bing Shuai ， Ai QunLiu，and Gang Wang.基于上下文对比特征和门控多尺度聚合的场景分割方法.在CVPR，2018年。[19] Clement Farabet ，Camille Couprie ，Laurent Najman ，and Yann LeCun. 学习用于场景标注的分层特征。TPAMI，35（8），2013.[20] 耿启川，黄新宇，周忠，杨瑞刚。一个网络结构，以显式地减少语义分割中的混淆错误。arXiv：1808.00313，2018。[21] 戈尔纳兹·吉亚西和查利斯·C·福克斯。用于语义分割的拉普拉斯金字塔重构与精化。在ECCV，2016年。[22] Jiuxiang Gu，Shafiq Joty，Jianfei Cai，and Gang Wang.不成对的图像字幕语言旋转。在ECCV，2018。[23] Jiuxiang Gu ， Zhenhua Wang ， Jason Kuen ， LianyangMa，Amir Shahroudy，Bing Shuai，Ting Liu，XingxingWang，Gang Wang，Jianfei Cai，et al.卷积神经网络的最新进展。模式识别，2018年。[24] 顾久香，赵汉东，林哲，李胜，蔡剑飞基于外部知识的场景图生成与图像重建。在CVPR，2019年。[25] BharathHariharan ， PabloArbela' ez ， RossGirshick 和Jitendra Malik。用于对象分割和细粒度定位的超列。CVPR，2015。[26] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。[27] Hexiang Hu ， Zhiwei Deng ， Guang-Tong Zhou ， FeiSha ， and Greg Mori.Labelbank ： Revisiting GlobalPerspectivesforSemanticSegmentation.arXiv：1703.09891，2017年。[28] Gao Huang，Zhuang Liu，Laurens van der Maaten，andKilian Q.温伯格密集连接的卷积网络。在CVPR，2017年。[29] Yu-Hui

下载后可阅读完整内容，剩余1页未读，立即下载