场景分割中上下文先验的亲和力损失监督

94 浏览量更新于2023-10-25 收藏 2.62MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12416场景分割中于常倩1、2王静波3高常新1于刚4沈春华2农桑11图像处理与智能控制重点实验室，华中科技大学人工智能与自动化学院2澳大利亚阿德莱德大学3香港中文大学{changqian yu，cgao，nsang}@ hust.edu.cn摘要最近的工作已经广泛地探索了上下文依赖性，以实现更准确的分割结果。然而，大多数方法很少区分不同类型的上下文依赖，这可能会污染场景理解。在这项工作中，我们直接监督的特征聚集，以区分类内和类间的上下文清晰。具体来说，我们开发了一个上下文先验的亲和力损失的监督。给定输入图像和相应的地面真值，亲和损失构造理想的亲和图来监督上下文先验的学习。学习的上下文先验提取属于同一类别的像素，而反转的先验集中在不同类别的像素。嵌入到传统的深度CNN中，所提出的上下文先验层可以选择性地捕获类内和类间上下文依赖关系，从而实现鲁棒的特征表示。为了验证该方法的有效性，我们设计了一个有效的上下文先验网络（CPNet）.大量的定量和定性评估表明，该模型表现良好，对国家的最先进的语义分割方法。更具体地说，我们的算法达到46。ADE 20K上的3% mIoU，53。9%的mIoU在PASCAL上下文上，和81。Cityscapes上的3%mIoU。代码可在https://git.io/ContextPrior上获得。1. 介绍场景分割是计算机视觉中长期存在且具有挑战性的问题，具有许多下游应用，例如，增强现实，自动驾驶[8，12]，人机交互和视频内容分析。我们的目标是为每个像素分配一个类别标签，这提供了全面的场景理解。受益于有效的特征表示，*通讯作者。部分工作是在C.于正参观阿德莱德大学。(a) 输入图像（b）金字塔方法（c）CPNet(d) Input Image(e) Attention Method(f) CPNet图1. 场景分割中的硬例子。在第一行中，红色框中沙子的中心部分被错误地归类为海洋，因为阴影部分与海洋的外观相似。使用基于数据的聚合方法[3]，混乱的空间信息的聚合可能导致不期望的预测，如（b）中所示。在第二行中，绿色盒子中的桌子与床的底部外观相似。基于注意力的方法[50]在没有先验知识的情况下无法有效区分混乱的空间信息，导致预测不太正确，如（e）所示。在提出的CPNet中，我们聚合上下文依赖与明确的区分。值得注意的是，上下文先验将类内和类间关系建模为上下文先验知识，以捕获类内和类间上下文依赖性。全卷积网络（FCN），一些方法已经获得了很好的性能。 However, limited by the structure of convolutionallayers,theFCNprovidesinsufficientcontextualinformation, leaving room for im- provement.因此，各种方法[1，3，5，32，49，43，45，35，19]探索上下文依赖性以获得更准确的分割结果。主要有两种路径来聚合上下文信息：1）基于金字塔的聚合方法。有几种方法[49，1，3，5]采用基于XML的模块或全局池来聚集，12417定期检查区域或全球背景细节。然而，它们捕获了同质的上下文关系，忽略了不同类别的上下文依赖性，如图1（b）所示。当场景中存在混淆的类别时，这些方法可能导致在不太可靠的情况下。2)基于注意力的聚合方法。最近的基于注意力的方法学习通道注意力[45，43]，空间注意力[23]，或逐点注意力。[50，11，44]选择性地聚合异构上下文信息。然而，由于缺乏外显正则化，注意机制的关系描述不太清楚。因此，它可能会选择不期望的上下文依赖性，如图1（e）所示。总体而言，这两条路径聚合上下文信息没有明确的区别，导致不同的上下文关系的混合。我们注意到，识别出的上下文依赖关系有助于网络理解场景。同一类别的相关性（类内上下文）和不同类别之间的差异（类间上下文）使特征表示更加鲁棒，并减少了可能类别的搜索空间。因此，我们将类别之间的上下文关系建模为先验知识，以获得更准确的预测，这对场景分割具有重要在本文中，我们构造了一个上下文先验模型的类内和类间的依赖作为先验知识。我们制定的上下文先验作为一个二元分类器，以区分哪些像素属于同一类别的当前像素，而反向先验可以集中在不同类别的像素具体来说，我们首先使用一个全卷积网络来生成特征图和相应的先验图。对于特征图中的每个像素，先验图可以选择性地突出属于相同类别的其他像素以聚合类内上下文，而反向先验可以聚合类间上下文。为了将先验知识嵌入到网络中，我们开发了一个包含亲和力损失的上下文先验层，它直接监督先验知识的学习。同时，上下文先验也需要空间信息来推理关系。为此，我们设计了一个聚合模块，它采用完全可分离的卷积（在空间和深度维度上分离）[32，7，48，29]来有效地聚合空间信息。为了证明所提出的上下文先验的有效性，我们设计了一个简单的全卷积网络，称为上下文先验网络（CPNet）。基于骨干网络的输出特征[1，3，36]，上下文先验层使用聚合模块来聚合空间信息以生成上下文先验图。在相似度损失的监督下，上下文先验映射可以捕获类内上下文和类间上下文以改进预测。广泛的评估表明，所提出的方法对几个最近的最先进的语义分割方法。本工作的主要贡献总结如下。• 我们构建了一个上下文先验，监督嵌入在上下文先验层中的亲和性损失，以捕获类内和类间的上下文去明显的悬垂• 本文设计了一个有效的上下文先验网络（CP-Net）用于场景分割，它包括一个骨干网络和一个上下文先验层。• 我们证明了所提出的方法执行有利- ably对国家的最先进的ADE 20 K、Pascal-Context和Cityscapes的标记。更具体地说，我们的单一模型达到46。在ADE20K验证集上为3%，53。9%的PASCAL-上下文验证集和81。3%的城市景观测试集。2. 相关工作上下文聚合。近年来，各种方法已经探索了上下文信息，这对场景理解至关重要[1，5，32，49，43，45，44，19，26，41]。主要有两种途径来捕获上下文依赖关系。1)PSPNet [49]采用金字塔池化模块将特征图划分为不同尺度的区域。它将每个区域的像素平均为该区域中每个像素的局部上下文。同时，Deeplab [1，3，5]方法采用无空间金字塔池来对不同范围的像素进行采样作为局部上下文。2)DANet [11]、OCNet [44]和CCNet [18]利用自相似方式[37]聚合长距离空间信息。此外，EncNet [45]，DFN [43]和ParseNet [27]使用全局池来获取全局上下文。尽管这些注意机制取得了成功，但它们可能捕获了不期望的上下文依赖性，而没有明确区分不同上下文关系的差异因此，在所提出的方法中，我们显式正则化模型，以获得类内和类间的上下文依赖。注意力机制。近年来，注意力机制得到了广泛的应用。它可以用于各种任务，如机器翻译[34]，图像/动作识别[37，6，16]，对象检测[15]和语义分割[43，45，42，50，11，44]。对于语义分割任务，[4]学习了一种注意力机制来对多尺度特征进行软加权。受SENet [16]的启发，EncNet[45]、DFN [43]和BiSeNet [42]等方法采用通道注意力来选择所需的特征图。继[34，37]之后，DANet [11]和OCNet [44]使用自我注意来捕获长距离依赖性，而PSANet [50]自适应12418111ˆ11Cˆˆ⊤=ngH111W【1、1111111111图2. 建议的上下文优先层的概述。上下文先验层包含聚合模块和由亲和性损失监督的上下文先验映射。利用所提取的输入特征，聚合模块聚合空间信息以推理上下文关系。我们生成一个逐点的上下文先验映射与监督的亲和力损失。亲和度损失构造了一个理想亲和度图，该图指示相同类别的像素以监督上下文先验图的学习基于上下文先验映射，我们可以获得内部先验（P）和内部先验（1-P）。原始特征图被重塑为N × C1尺寸，其中N=H×W。我们在重塑后的特征图上与P和（1-P）进行矩阵乘法，以捕获类内和类间上下文。最后，我们将上下文先验层的表示馈送到最后一个卷积层以生成每像素预测。（标记：聚合聚合模块，Conv卷积层，N矩阵乘法，P上下文先验映射，Concatconcatenate操作）。tively学习点式注意力以收获长距离信息。然而，这些有效的方法缺乏显式的正则化，可能导致不期望的上下文聚集。因此，在我们的工作中，我们提出了一个上下文先验嵌入在上下文先验层与外显的亲和力损失监督学习过程。˜HW地面实况One-HotEncodi3. 上下文优先级上下文依赖性在场景理解中起着至关重要的作用，这在各种方法中被广泛探索[49，32，27，45，3，43]。然而，这些方法将不同的上下文依赖性聚集为混合物。如第1节所讨论的，清晰区分的上下文关系对于场景理解是可取的。在我们的研究中，我们提出了一个上下文先验模型的像素之间的关系相同的类别（内上下文）和像素的不同类别（间上下文）。基于上下文先验，我们提出了一个上下文先验网络，将上下文先验层与亲和力损失的监督相结合，如图2所示。在本节中，我们首先介绍亲和度损失，它会监督层学习上下文先验映射。接下来，我们演示上下文先验层，它使用学习的上下文先验映射来聚合每个像素的聚合模块主要用于空间信息的聚合推理。最后，我们详细介绍了我们的完整网络结构。理想亲和图图3. 理想亲和图的构建说明。首先用独热编码对经采样的基础真值L1进行编码。地面真值L^的大小变为H×W×C，其中C是类的数量。L^中的每个向量由单个高值（1）和所有其他低值（0）组成我们利用A=L^L^n来生成理想的A f-映射。在这在地图上，绿框和蓝框分别代表1和03.1. 亲和力损失在场景分割任务中，对于每个图像，我们都有一个地面真值，它为每个像素分配一个语义类别。网络很难从孤立的像素中建模上下文信息。为了明确地对网络进行正则化以模拟类别之间的关系，我们引入了亲和性损失。对于图像中的每个像素，这种损失迫使网络考虑相同类别的像素（内部上下文）和不同类别之间的像素（内部上下文）。给定输入的基础事实，我们可以知道每个像素的哪些像素属于同一类别以及哪些像素不属于同一类别）。所以我们重塑̃��了c0C1��−��HHH重塑H*WWWW重塑H*W亲和力损失下采样构造转换上采样Concat地面实况上下文先验映射Conv聚集理想亲和图1200112001111111111112419k ×1˜˜^˜˜ΣΣJΣGJ^^您的位置：NJJ可以在根据地面实况引导网络之前学习上下文。为此，我们首先从地面真值构建一个理想亲和图作为监督。给定输入图像I和地面真值L，我们将输入图像I馈送到网络，获得特征图X，尺寸H×W。如图3所示，我们首先将地面真实值L下采样为相同大小的特征图X，从而产生较小的地面真值L。我们使用一个one-of-K方案（one-hot编码）来对地面真值L中的每个分类整数标签进行编码，从而得到H×W×C大小的矩阵L，其中C是类的数量接下来我们将编码的地面实况重新整形为N×C大小，其中N= H ×W。最后，我们进行矩阵乘法：A=LL A是我们想要的理想亲和图，大小为N×N，它编码哪些像素属于同一个类别。我们采用理想亲和图来监督上下文先验映射的学习。对于先验图中的每个像素，这是一个二进制分类问题。解决这个问题的传统方法是使用二进制交叉熵损失。给定大小为N×N的预测先验映射P，其中{pn∈P，n∈[1，N2]}和参考理想仿射映射A，其中{an∈A，n∈[1，N2]}，二元交叉熵损失可以表示为：N21 ×k k × 11 ×k(a) 聚合模块（b）聚合模块的接收字段图4. 聚合模块及其接收字段。（a）我们使用两个不对称的完全可分离卷积来聚合空间信息，其输出与输入特征具有相同的通道。(b)聚集模的感受野大小与标准卷积相同然而，我们的聚合模块导致更少的计算。（标记：Conv标准卷积，DWConvdependenconvolutionFSConv完全可分离卷积，k完全可分离卷积的滤波器大小，BN批归一化，ReLUrelu非线性激活函数。基于一元项和全局项，完全的亲和性损失可以表示如下：Lp=λuLu+λgLg，（6）1Lu=−N2Σ(ann=1对数pn+（1−an）log（1−pn））。（一）其中Lp、Lu和Lg表示亲和力损失、一元损失（二进制交叉熵损失）和全局损失函数re-fold。此外，λu和λg是平衡权重然而，这样的一元损失仅考虑孤立像素在先验图中忽略与其他像素的语义相关性先验图P的每一行的像素对应于特征图X的像素。我们可以将它们分为类内像素和类间像素，它们之间的关系有助于推理语义相关性和场景结构。因此，我们可以将类内像素和类间像素作为两个整体分别进行编码。为此，我们基于二进制交叉熵损失设计全局项：ΣN分别用于一元损失和全局损失我们经验性地将权重设置为：λ u=1，λ g= 1。3.2. 上下文优先层上下文优先层考虑形状为H×W×C0的输入特征X，如图2所示。我们采用了一个聚合模块来使X适应于H×W×C1形状的X。给定X，一个1×1卷积层，后面是BN层[20]和Sigmoid函数，用于学习大小为Tp=logi=1aijpij，（2）H×W×N（N=H×W）。与明确的超级-JNi=1 pij在亲和力损失的视觉中，上下文先验映射P可以Tr=logNi=1ΣNaijpija、（3）编码类内像素和类间像素之间的关系类pi x els。类内是由Y=PXXX y表示的，其中i=1ijΣX射线整形为N×C1尺寸。在这部歌剧中，先验映射可以自适应地选择类内像素作为Ts=logi=1，（4）JNi=1N（1−aij）特征图中每个像素的类内上下文对另一方面，反向先验映射被应用于selec，L=−1<$（Tp+Tr+Ts），（5）j=1其中Tp、Tr和Ts表示类内预测3x3转换BN ReLU1 ×kDWConvk× 1DWConvk× 1DWConv1 ×kDWConvFSConvFSConvBN ReLUN（1−aij）（1−pij）12420˜将类间像素高亮显示为类间上下文：Y =（1-P）X，其中1是具有与P相同大小的全一矩阵。最后，我们把原始的有限元分析-true和两种上下文来输出最终预测：j j j值（精确度）、真实类内率（召回率）和真实类间率分类率（特异性）分别在P的第j行最后，F= Concat（X，Y，Y）。有了这两种背景，语义相关性和场景结构。124212N个总3.3. 聚合模块如第1节所述，上下文先验映射需要一些局部空间信息来推理语义相关性。因此，我们设计了一个高效的聚合模块，具有完全可分离的卷积（在空间和深度维度上分离）来聚合空间信息。卷积层可以固有地聚合附近的空间信息。聚合更多空间信息的一种自然方法是使用较大的卷积滤波器。然而，具有大滤波器尺寸的卷积在因此，类似到[33，32]，我们在空间上将标准卷积分解为两个非对称卷积。对于一个k×k卷积，我们可以使用一个k×1卷积，然后是一个1×k卷积作为替代，称为空间可分离卷积。与标准卷积相比，它可以减少k同时，每个空间可分离卷积采用深度卷积[7，48，14]，进一步减少了计算量。我们将这种可分离卷积称为完全可分离卷积，同时考虑空间和深度维度。图4展示了聚合模块的完整结构。3.4. 网络架构上下文优先网络（CPNet）是一个完全卷积的网络，由骨干网络和上下文优先层组成，如图2所示。骨干网络是一个现成的卷积网络[13，48，35]，例如，在一个实施例中，ResNet [13]，采用扩张策略[49，50，45]。在上下文优先层中，聚合模块首先有效地聚合一些空间信息。基于聚集的空间信息，上下文先验层学习上下文先验映射以捕获类内上下文和类间上下文。同时，相似度损失函数规范了上下文先验的学习，交叉熵损失函数则起到了分割监督的作用。在开创性工作[49，50，45]之后，我们在骨干网络的第4级上使用辅助损耗，这也是一个交叉熵损失最终损失函数如下：L=λsLs+λaLa+λpLp，（7）其中Ls、La和Lp分别表示主分割损失、辅助损失和亲和损失函数。此外，λs、λa和λp是平衡seg的权重分别是心理损失、辅助损失和亲和力损失我们根据经验将权重设置为：λ s=1，λ p=1。与[49，50，45]类似，我们设置权重：λ a= 0。4、4. 实验结果在本节中，我们首先介绍了拟议网络的实现接下来，我们评估-评估所提出的方法，并将其与三个具有挑战性的场景分割数据集（包括ADE 20 K [52]，PASCAL-Context[30]和Cityscapes [8]）上的最新方法进行我们使用PyTorch [31]工具箱实现了所提出的模型。4.1. 实现细节网络我们采用ResNet [13]作为具有扩张策略的预训练模型[1，3，5]。然后采用双线性插值对预测值进行8次上采样，计算分割损失。在[49，50，45]之后，我们在骨干网络的第4级上积分辅助损耗。我们将聚合模块中完全可分离卷积的过滤器大小设置为11。数据增强。在训练阶段，我们对输入的图像应用均值相减、随机水平翻转和随机尺度（包含{0.5，0.75，1.0，1.5，1.75，2.0}），以避免过拟合。最后，我们随机裁剪大图像或填充小图像到一个固定用于训练的大小（ ADE 20 K 为 480×480 ， PASCAL-Context 为512×512， Cityscapes为768×768优化. 我们使用随机梯度下降（SGD）算法[22]微调CPNet模型，动量为0.9，权重衰减为10−4值得注意的是，我们在Cityscapes数据集上训练时将权重衰减设置为5×10−4 继开拓工作[2，3，43，42]中，我们采用“poly”学习率策略γ = γ 0 ×（1 − Niter）p，其中Niter和Ntotal表示当前迭代次数和总迭代次数，p = 0。9 .第九条。对于ADE 20 K上的实验，我们将基本学习率γ0设置为2×10−2，而对于PASCAL-Context和Cityscapes上的实验，我们将基本学习率γ 0设置为1×10−2同时，我们在ADE 20 K上训练了80 K次迭代，PASCAL-Context训练了25 K次，Cityscapes训练了60 K次在ADE20 K和PASCAL-Context数据集上训练时，我们使用在Cityscapes上进行训练时，类似于[38，42，44]，我们采用自举交叉熵损失[38]来缓解该数据集中的类不平衡问题推理。在推理阶段，在[49，32，43，45]之后，我们对多个缩放和翻转输入的预测进行平均，以进一步提高性能。我们使用包括{0.5，0.75，1.0，1.5，1.75}的尺度来进行ADE 20 K和PASCAL-Context数据集，而{0.5，0.75，1，1.5}用于Cityscapes数据集。此外，我们采用像素精度（pixAcc）和平均交集的联合（mIoU）作为评估指标。4.2. ADE20K数据集的评估数据集说明。由于其复杂的场景和多达150个分类标签，ADE20K是一个具有挑战性的场景解析基准。此数据集可分为20 K/2K/3 K12422K3579111315不含CP42.0641.8641.8742.3241.5142.3442.23含CP42.2642.8143.3843.1443.9242.5442.59∆0.20.951.510.822.410.20.36表2.基于不同内核大小的实验结果（mIoU）w/o上下文先验。（记法：k是完全可分卷积的核大小，这是引入上下文先验（Context Prior）、CP上下文先验（CP Context Prior）的改进。）PPMASPP是不含CP41.4940.3941.51含CP42.5542.6943.92∆↑1.06↑2.3↑2.41表1.与其他上下文信息聚合方法相比，对ADE 20K [52]验证集的消融研究。（记法：Aux辅助损失、BCE二进制交叉熵损失、AL亲和损失、MS多尺度和翻转测试策略。分别用于培训、验证和测试。我们使用pixAcc和mIoU报告验证集的结果。消融研究。为了证明我们的上下文先验和CPNet的有效性，我们进行了不同设置的实验，并与其他空间信息聚合模块进行了比较，如表1所示。首先，我们介绍我们的基线模型。我们基于ResNet-50 [13]在验证集上评估了具有扩张卷积[1]的FCN [28在[49，45，50]，我们在ResNet主干的第4级上添加辅助损耗。这可以将 mIoU 提高 1 。 86% （ 34. 38%→36. 24% ），pixAcc为0。86%（76. 51% →77. 37%）。我们以这个模式作为我们的基准。基于FCN提取的特征，各种方法聚合上下文信息以提高性能。表3.推广到PPM和ASPP模块。评估-测量指标为mIoU（%）。（标记：PPM金字塔池化模块，ASPP无空间金字塔池化，CP上下文先验，AM：聚合模块。）我们还研究了聚合模块，IntraPrior分支，InterPrior分支和亲和损失在我们的CPNet模型中的有效性我们使用过滤器大小为11的聚合模块来聚合本地空间信息。与 [50] 类似，聚合模块生成分辨率为 N×N（N=H×W）的注意力掩码以细化预测。如表1所示，聚合模块将mIoU和pixAcc提高了5。百分之二十七比基线模型高出56%。采用基于二进制交叉熵损失的IntraPrior分支，单尺度测试结果为42。34%/80。mIoU方面为15%，pixAcc，超过基线6。1%/2。百分之七十八另一方面，InterPrior分支实现42. 88%/79。96%，相同的设置。这两项重大改进证明所提议的上下文先验的有效性为了进一步提高上下文先验图的质量，我们设计了一个亲和损失。表1表明，表演。基于网络的方法（例如， PSP和ASPP）采用金字塔池或金字塔膨胀率来聚合多范围空间信息。最近的方法[44，11]应用自注意[37]方法来聚合长距离空间信息，而PSA模块[50]学习过参数逐点注意。表1列出了我们用不同的空间信息聚合模块重新实现的结果。虽然这些方法可以在基线上提高性能，但它们将空间信息聚合为类内和类间上下文的混合，可能会使网络混淆，如第1节所述。因此，与这些方法不同，所提出的CPNet在对所识别的上下文关系进行编码之前将上下文依赖性视为上下文。具体来说，对于每个像素，我们用上下文优先层捕获类内上下文和类间上下文。使用相同的主干ResNet-50并且没有其他测试技巧，我们的方法对这些方法表现得更好。亲和力损失可以将mIoU和pixAcc提高0。百分之四/0。15%基于IntraPrior分支，而提升0. 百分之五十五/0。25%基于InterPrior分支。我们将IntraPrior分支和InterPrior分支与亲和力损失相结合，以实现43。92%的mlou和80。77%pixAcc，这表明两个先验可以是互补的。为了进一步提高性能，我们采用多尺度和翻转测试策略，实现了44。46%的mIoU，81. 38%像素加速度更深的网络导致更好的特征表示，我们的CPNet获得45。39%的mIoU和81。04%pixAcc与ResNet-101。在此测试策略下，基于ResNet-101的模型达到了46。27%的mIoU和81。85%像素加速度图5提供了一些视觉-化的例子。分析和讨论。在表1中，建议的CPNet在ADE 20K基准上实现了相当大的改进有些人可能会争辩说，聚合模块的大过滤器大小导致了性能的提高。或模型Miou像素访问ResNet-50（扩张）34.3876.51ResNet-50 + Aux（基线）36.2477.37ResNet-50 + ASPP40.3979.71ResNet-50 + PSP41.4979.61ResNet-50 +非本地40.9679.98ResNet-50 + PSA41.9280.17ResNet-50 +聚合模块41.5179.93ResNet-50 + IntraPrior（BCE）42.3480.15ResNet-50 + InterPrior（BCE）41.8879.96ResNet-50 + IntraPrior（AL）42.7480.30ResNet-50 + InterPrior（AL）42.4380.21ResNet-50 + ContextPriorLayer43.9280.77ResNet-50 + ContextPriorLayer MS44.4681.38ResNet-101 + ContextPriorLayer45.3981.04ResNet-101 + ContextPriorLayer MS46.2781.8512423(a) 输入图像 (b)地面实况（c）FCN（d）CPNet（我们的）图5. ADE20K验证集的视觉改进。获取类内上下文和类间上下文有助于场景理解。人们可能会问上下文先验是否可以推广到其他算法。从而为深入理解上下文先验提供了更多的证据。我们在具有ResNet-50主干的ADE 20 K验证集上进行了讨论实验。表2和表3中报告的结果是单规模测试结果。(1) 空间信息与语境先验之间的关系。如第3节所讨论的，区分的上下文依赖性有助于场景理解。因此，我们提出了一个上下文先验模型的内部上下文和内部上下文。同时，上下文先验需要一些空间信息来推理关系。为此，我们在上下文优先层中集成了一个聚合模块。表2表明，随着过滤器大小的增加，没有上下文先验的模型获得接近的结果。但是，在上下文先验的帮助下，各个模型都得到了稳步的改进.同时，随着滤波器尺寸的增大，改进效果逐渐当滤波器尺寸为11时，性能（43. 92% mIoU）和相对增益（2. 41%）达到峰值。如果我们继续增加过滤器的大小，性能和相应的改善都下降。换句话说，上下文先验需要适当的局部空间信息来推理关系。(2) 推广到其他空间信息聚合模块。为了验证所提出的上下文先验的泛化能力，我们进一步用PPM或ASPP模块来代替聚合模块，以生成具有亲和力损失监督的上下文先验映射。如表3所示，上下文先验可以进一步将mIoU提高1。06%的PPM没有上下文之前，2。超过3%(a) 注意力地图（b）学习先验地图(c)理想亲和图图6. 我们的CP网络预测的先验图的可视化. （a）我们仅使用聚合模块来生成注意力图，而没有亲和力损失的监督（b）在相似度损失的指导下，上下文先验层可以捕获类内上下文和类间上下文。（c）理想仿射映射是从地面真值构造颜色越深表示响应越高。ASPP模块和2. 比我们的聚合模型高出41%。这一改进证明了我们的上下文先验的有效性和泛化能力。此外，没有上下文先验，我们的聚合模块也达到了最高的性能比较PPM和ASPP模块。先验地图的可视化。为了更深入地理解上下文先验，我们从ADE 20K验证集中随机选择一些示例，并在图6中可视化学习的上下文先验映射。我们使用聚集模块来生成注意力地图，而不需要亲和力损失的指导。与理想亲和图相比，我们观察到这种注意力图实际上有一个粗略的趋势来学习这种关系。通过Affinity Loss，我们的上下文先验层可以学习具有更明确结构信息的先验映射，这有助于改进预测。与最新技术水平的比较。我们在表4中使用其他最先进的算法进行比较实验。建议的CPNet达到46。27%的mIoU和81。85%的pixAcc，与之前的最先进的方法相比表现良好，甚至超过了基于ResNet的COCO-PlaceChallenge 2017的获奖者269.我们的CPNet 50（以ResNet-50为骨干）达到44。46%的mIoU和81。38%的pixAcc，甚至超过了PSPNet[49]，PSANet [50]和SAC [47]，具有更深的ResNet-101和RefineNet，具有更深的ResNet-15212424模型参考骨干MioupicAccRefineNet [25]CVPR2017ResNet-10140.2-RefineNet [25]CVPR2017ResNet-15240.7-UperNet [39]ECCV2018ResNet-10142.6681.01PSPNet [49]CVPR2017ResNet-10143.2981.39PSPNet [49]CVPR2017ResNet-26944.9481.69[第24话]CVPR2018ResNet-10143.6881.13PSANet [50]ECCV2018ResNet-10143.7781.51[47]第四十七话ICCV2017ResNet-10144.3081.86EncNet [45]CVPR2018ResNet-10144.6581.69CFNet [46]CVPR2019ResNet-10144.89-ANL [53]ICCV2019ResNet-10145.24-CPNet50-ResNet-5044.4681.38CPNet101-ResNet-10146.2781.85模型参考骨干MiouRefineNet [25]CVPR2017ResNet-10173.6GCN [32]CVPR2017ResNet-10176.9DUC [36]WACV2018ResNet-10177.6[第24话]CVPR2018ResNet-10177.8[47]第四十七话ICCV2017ResNet-10178.1PSPNet [49]CVPR2017ResNet-10178.4[42]第四十二话ECCV2018ResNet-10178.9AAF [21]ECCV2018ResNet-10179.1DFN [43]CVPR2018ResNet-10179.3PSANet [50]ECCV2018ResNet-10180.1DenseASPP [40]CVPR2018DenseNet-16180.6ANL [53]ICCV2019ResNet-10181.3CPNet101-ResNet-10181.3表4. ADE 20K验证集的定量评价。所提出的CPNet对最先进的分割算法表现良好。模型参考骨干MiouFCN-8S [28]CVPR2015VGG1637.8CRF-RNN [51]ICCV2015VGG1639.3免费WiFi [9]ICCV2015VGG1640.5[1]第一次见面ICLR 2016ResNet10145.7RefineNet [25]CVPR2017ResNet-15247.3PSPNet [49]CVPR2017ResNet-10147.8CCL [10]CVPR2018ResNet-10151.6EncNet [45]CVPR2018ResNet-10151.7DANet [11]CVPR2019ResNet-10152.6ANL [53]ICCV2019ResNet-10152.8CPNet101-ResNet-10153.9表5. PASCAL上下文验证集的定量评估。所提出的CPNet对最先进的分割方法表现良好。†表示该方法使用了额外的数据集。作为骨干。这一显著的改进体现了我们的上下文先验的有效性。4.3. PASCAL环境的评价数据集说明。PASCAL-Context [30]是一个场景理解数据集，包含来自PASCAL VOC 2010的10，103张图像。这些图像被重新注释为像素级分割图，同时考虑了物品和事物类别。这个数据集可以分为4，998张用于训练的图像和5，105张用于测试的图像最常见的59个类别用于评估。表6. Cityscapes测试集的定量评估。所提出的CPNet表现良好，对国家的最先进的分割方法。我们只列出了仅使用精细数据集进行训练的方法4.4. 城市景观评价数据集说明。Cityscapes [8]是一个大型城市街道场景解析基准。它包含2975张用于训练的精细注释图像，500张用于验证的图像，1525张用于测试的图像和额外的20000张用于训练的粗略注释图像我们在实验中只使用精细的注释集它包括19个评价类别。与最新技术水平的比较。表6列出了其他最先进方法和我们的CPNet的性能结果。实验中采用了多尺度翻转测试策略。在开创性工作[32，43，42]之后，我们使用train-fine集和val-fine集来训练我们的模型，以提高测试集的性能。我们的CPNet达到81。仅使用精细数据集的 Cityscapes 测试集上的 mIoU 为 3% ，比基于DenseNet-161 [ 17 ]的DenseASPP的性能高0. 九分。5. 总结发言在这项工作中，我们构建了一个有效的上下文先验场景分割。它区分了不同的上下文依赖与建议的亲和力损失的监督。为了将上下文先验嵌入到网络中，我们提出了一个上下文先验网络，它由骨干网络和上下文先验层组成。聚合模块用于聚合空间信息，以推理上下文关系，并嵌入到上下文优先层中。广泛的定量和定性比较表明，建议的CPNet执行比较与最先进的表 5 显示与其他现有技术方法的性能比较。我们的算法达到53.9%的mIoU验证集，并优于最先进的EncNet超过1。0分。类似于[1，25，49，10，45，11]，我们使用多尺度和翻转测试策略评估模型。刻度包含{0.5，0.75，1，1.5，1.75}。有利地对抗最近的最先进的场景分割方法。确认本研究得到了国家自然科学基金（No. 61433007和61876210）。12425引用[1] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.使用深度卷积网络和全连接crf的语义图像分割Proc. 2015年国际学习表征会议（ International Conference on LearningRepresentations，ICLR）一、二、五、六、八[2] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义arXiv，2016. 5[3] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。再思考无卷积在语义图像分割中的应用。arXiv，2017. 一、二、三、五[4] Liang-Jieh Chen，Yi Yang，Jiang Wang，Wei Xu，andAlan L Yuille.注意秤：尺度感知的语义图像分割。IEEE计算机视觉与模式识别会议（CVPR），2016年。2[5] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。欧洲计算机视觉会议（ECCV），第801-818页，2018年。一、二、五[6] Yunpeng Chen，Yannis Kalatidis，Jianshu Li，ShichengYan，and Jianshi Feng. A 2-nets：双重注意网络。在proc 神经信息处理系统进展（NeurIPS），第352-361页，2018年。2[7] 弗朗索瓦·肖莱。Xception：使用深度可分离卷积的深度学习2017. 二、五[8] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在Proc.IEEE计算机视觉和模式识别会议，2016中。一、五、八[9] 戴季峰、何开明、孙建。Box

下载后可阅读完整内容，剩余1页未读，立即下载