全图像依赖性下的语义分割模型-CCNet

6 浏览量更新于2023-10-13 收藏 992KB PDF 举报

性能评估

应用领域

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

603CCNet：用于语义分割的黄子龙1 *，王兴刚1†，黄立超2，黄昌2，魏云超3，4，刘文宇11华中科技大学三电学院2Horizon Robotics3 ReLER，UTS4伊利诺伊大学香槟分校摘要全图像依赖性提供有用的上下文信息，以有利于视觉理解问题。在这项工作中，我们提出了一个Criss-Cross网络（CCNet），以更有效和高效的方式获得这样的上下文信息。具体地，对于每个像素，CCNet中的新颖的交叉注意模块收获其交叉路径上的所有像素的上下文信息。通过采取进一步的递归操作，每个像素可以最终捕获来自所有像素的全图像依赖性。总的来说，CC-Net具有以下优点：1）GPU内存友好。与非局部块相比，所提出的循环交叉注意模块需要减少11倍的GPU存储器使用。2)计算效率高。在计算全图像依赖性时，我的职责3)最先进的表演。我们对流行的语义分割基准进行了广泛的实验，包括Cityscapes，ADE20K和实例分割基准 COCO 。特别是，我们的 CCNet 在Cityscapes上获得了81.4和45.22的mIoU分数很少上下文高x宽(a) 非局部块H+W-1H+W-1(b) 十字形注意力障碍丰富的上下文测试集和ADE20K验证集，这是最新的最先进的结果。源代码可在https://github.com/speedinghzl/CCNet上获得。1. 介绍语义分割是计算机视觉领域的一个基本它在最近的许多作品中得到了广泛和积极的研究，并且对于各种具有挑战性和有意义的应用也至关重要，例如自动驾驶[14]，增强现实[1]和图像编辑[13]。具体地，当前最先进的基于语义分割的语义分割方法被称为语义分割。* 工作主要是在地平线机器人公司实习期间完成的†通讯作者。图1.两个基于注意力的上下文聚合图方法. (a)对于每个位置（例如，蓝色），非本地模块[31]生成一个密集的注意力地图，它具有H×W权重（绿色）。(b)对于每个位置（例如，blue），criss-cross attention模块生成一个稀疏的注意力图，它只有H+W−1个权重。复发手术后，各部位（例如红色）在最终输出的特征图中可以收集信息所有像素。为了清晰显示，将忽略剩余连接全卷积网络（FCN）[26]已经取得了显著的进展。然而，由于固定的几何结构，它们固有地限于局部感受野和短程上下文信息。由于上下文信息不足，这些为了弥补FCN的上述不足，已经提出了一些具体地，Chenet al.[5]建议atrous空间金字塔池-604使用具有多尺度膨胀卷积的计算模块来进行上下文信息聚合。Zhao等人[41]进一步介绍了PSPNet与金字塔池模块来捕获上下文信息。然而，基于扩张卷积的方法[6，5，12]从以下收集信息：周围的像素很少，实际上不能产生密集的上下文信息。同时，基于池化的方法[41，39]以非自适应方式聚合上下文信息，并且所有图像像素都采用同构上下文信息，这不满足不同像素需要不同上下文依赖性的要求。为了生成密集的像素级上下文信息，PSANet [42]通过预测的注意力地图学习聚合每个位置的上下文信息。非局部网络[31]利用自注意机制[9，29]，其使得来自任何位置的单个特征能够感知所有其他位置的特征，从而收获全图像上下文信息，参见图10。第1（a）段。然而，这些基于注意力的方法需要生成巨大的注意力图来测量每个像素对的关系，其在时间和空间上的复杂性都是非常高的。O（（H×W）×（H×W）），其中H×W提供输入特征图的空间维度由于输入功能在语义分割任务中，基于自注意的方法具有较高的计算复杂度和占用大量的GPU内存。因此，是否有一种替代解决方案，以更有效的方式实现这一目标？为了解决上述问题，我们的动机是连续的稀疏注意力，以取代非局部网络中的单层密集注意力。在不失一般性的情况下，我们使用两个连续的交叉注意力模块，其中每个模块只有稀疏连接，（H+W-1）的特征映射中的每个位置纵横交错的注意力模块聚集了上下文信息，在水平和垂直方向上。通过串联堆叠两个交叉的注意模块，它可以收集所有像素的上下文信息。上述分解该策略将时间和空间复杂度从 O （（ H×W ） ×（H×W））降低到O（（H×W）×（H+W−1））。我们比较了非局部模块[31]和图中的交叉注意模块之间的差异。1.一、具体地，非局部模块和交叉注意力模块都以空间大小H×W馈送输入特征图以生成注意力图（上分支）和自适应fea。真映射（下分支）。然后，采用加权求和的方法进行上下文信息的提取。与非本地模块采用的密集连接不同，每个位置（例如，蓝色）与其他特征图中的特征图稀疏连接，在我们的交叉注意力模型中，同一行和同一列，导致预测的注意力地图只有H+W−1在非局部模中，权重比H×W小。为了实现捕获完整图像依赖关系的目标，我们然后创新性地、简单地对交叉注意模块进行了递归运算。特别地，局部特征首先通过一个十字交叉的注意模块来收集水平和垂直方向上的上下文信息。然后，通过将所产生的特征图从第一交叉关注模块馈送到另一个交叉关注模块如图所示1（b），每个位置（例如红色）最后从所有其它特征图收集信息以增强逐像素表示。我们共享递归交叉模块的参数以减少额外的参数。我们的交叉注意力模块可以很容易地插入到任何完全卷积的神经网络中，名为CCNet，用于以端到端的方式进行分段。我们在多个大规模数据集上进行了广泛的实验。我们提出的CCNet在两个最具竞争力的语义分割数据集上取得了最高的性能，即，城市景观[10]和ADE20K[44]。此外，所提出的交叉注意甚至改进了最先进的实例分割方法，即，Mask R-CNN with ResNet-101 [17].这些结果很好地证明了我们的交叉注意模块通常有利于密集预测任务。总之，我们的主要贡献有两方面：• 在这项工作中，我们提出了一种新的纵横交错的注意力模块，它可以用来捕捉上下文信息，以更高效和有效的方式从全图像依赖性形成。• 我们提出了CCNet，通过利用循环的交叉注意模块，在基于分割的基准上实现领先的性能，包括城市景观，ADE20K和COCO。2. 相关工作语义分割在过去的几年里，人们对语义分割重新产生了兴趣。FCN [26]是第一种采用完全卷积网络进行语义分割的方法。随后，基于FCN的图像语义分割方法在图像语义分割方面取得了很大的进展。Chen等人[4]Yuet al. [37]去除最后两个下采样层以获得密集预测，并利用扩张卷积来扩大感受野。 Unet [28] 、Deeplabv3+ [8]、MSCI [21]、SPGNet [2]、RefineNet[22]和DFN [36]采用编码器-解码器结构，融合低级别和高级别层中的信息以预测分段掩码。SAC [40]和可变形卷积网络[11]改进了标准卷积算子605输入输出特征提取操作级联图2.提出的用于语义分割的CCNet的概述以处理物体的变形和各种尺度。CRF-RNN [37]和DPN[25]使用图模型，即：CRF，MRF，用于语义分割。AAF [19]使用逆向学习来捕获和匹配标签空间中相邻像素之间的语义关系。BiSeNet [35]被设计用于实时语义分割。上下文信息聚合此外，一些作品聚合上下文信息以增强特征表示。Deeplabv2 [5]提出了ASPP模块，以使用不同的膨胀卷积来捕获上下文信息。DenseASPP [34]将密集连接引入ASPP以生成具有各种尺度的特征。DPC [3]利用架构搜索技术来构建用于语义分割的多尺度架构。PSP-Net [41]利用金字塔池来聚合上下文信息。GCN [27]利用全局卷积模块利用全局池化来收获全局表示的上下文信息。最近，Zhaoet al. [42]提出了逐点空间注意网络，利用预测注意图指导上下文信息收集。Liu等[24]利用RNN来捕获远程依赖关系。条件随机场（CRF）[4，43]、马尔可夫随机场（MRF）[25]也用于捕获语义分割的长程依赖性。注意力模型广泛应用于各种任务。挤压和激励网络[18]通过在注意力机制中对通道关系进行Chen等人[7]使用了几个注意面具，融合来自不同分支的特征图或预测。Vaswani等人[29]将自我注意力模型应用于机器翻译。Wang等人[31]提出了非局部模块，通过计算特征图中每个空间点之间的相关矩阵来生成巨大的注意力图，然后进行注意力引导的密集上下文信息聚合。OCNet [38]和DANet [15]利用非本地模块[31]来获取上下文信息。PSA [42]学习了一个注意力地图来聚合骗局，自适应地且具体地针对每个单独点提供文本信息CCNet与非本地与GCN在这里，我们特别讨论了GCN[27]，非本地网络[31]和CCNet之间的差异。在上下文信息方面聚合，只有中心点可以感知来自GCN中所有像素的上下文信息[27]。相比之下，非本地网络[31]和CCNet保证任何位置的像素感知来自所有像素的上下文信息。虽然GCN [27]将方形卷积运算交替分解为与CC-Net相关的水平和垂直线性卷积运算，但CCNet采用纵横交错的方式来获取上下文信息，这比水平-垂直分离的方式更有效。此外，CCNet被提出来模仿非局部网络[31]，以通过更有效和高效的循环交叉注意力模块来获得密集的上下文信息，其中不相似的特征获得低注意力权重，而具有高注意力权重的特征是相似的。3. 方法在本节中，我们将详细介绍用于语义分割的交叉网络（CCNet）。首先，我们提出了一个总体框架，我们的CCNet。然后介绍了在水平和垂直两个方向上最后，为了捕捉密集和全局的上下文信息，我们建议采用循环操作交叉注意模块。3.1. 网络架构网络架构如图所示。二、输入图像通过深度卷积神经网络（DCNN），该网络以完全卷积的方式设计[5]，以产生具有空间大小的特征图X的H×W。为了保留更多的细节并有效地产生密集的特征图，我们删除了最后两个向下的特征图。采样操作，并采用膨胀卷积，纵横交错关注模块H'纵横交错关注模块反复交叉注意（R=2）CNNXHH''减少分割606u′图3.交叉注意模块的细节。随后的卷积层，导致将输出特征图X的宽度/高度放大到输入图像的1/8。循环1循环2图4.循环数为2时的信息传播示例。通过亲和度评价注意图A∈R（H+W−1）×W×H操作在空间维度中的每个位置u处，特征映射Q，我们可以得到一个向量Qu∈RC。平均值-给定X，我们首先将卷积层应用于ob。同时，我们还可以获得设置Ωu∈R（H+W−1）×C′由首先得到降维后的特征图H，然后从K中提取同一行的特征向量，特征图H被馈送到交叉注意模式中，或具有位置u的列。Ωi，u∈RC′是第i个元素规则来生成新的特征图H′，其聚集了的U。然后如下定义亲和性文本信息在其交叉路径特征图H’仅聚合上下文di，u=Qu 穆塞韦尼角中文（简体）水平和垂直方向上的信息，其对于语义分割来说不够强大为了获得更丰富、更密集的上下文信息，我们将特征图H’再次馈送到交叉注意力模块，并输出特征图H”。因此，特征图H”中的每个位置实际上收集来自所有像素的信息前后两个交叉的注意模块共享相同的参数，以避免添加过多的额外参数。我们将这种递归结构称为递归交叉注意模块（RCCA）.然后，我们将密集上下文特征H′′与局部表示特征X连接起来。它后面是一个或几个卷积层，具有批量归一化，其中di，u∈D是特征Qu和i，u，i= [1，.，|]，D ∈ R（H + W −1）× W ×H。|], D ∈R(H+W−1)×W×H.然后，我们在通道di上对D应用softmax层注意力地图A。在H上应用另一个具有1×1滤波器的卷积层以生成用于特征自适应的V∈RC×W×H 在特征映射V的空间维中的每个位置u，我们可以得到向量Vu∈ RC和集合Φu∈R（H+W−1）×C。集合Φu是V中的特征向量的集合，这些特征向量与位置u 上下文信息由聚合操作：Σ用于特征融合的特征提取和激活最后，融合的fea-将结果馈送到分割层以预测最终分割结果。′ui∈|Φu|Ai，uΦi，u+HU（2）其中H′ 是输出特征图中的特征向量3.2. 交叉关注为了使用轻量级计算和内存对局部特征表示进行全图像依赖性交叉注意模块在水平和垂直方向上收集上下文信息，以增强像素表示能力。如图3、给一个低-cal特征映射H∈RC×W×H，该模块首先在H上应用具有1×1滤波器的两个卷积层，以分别生成两个特征映射Q和K，其中′{Q，K}∈RC×W×H.C′是通道数，其中对于降维，小于C在获得特征图Q和K之后，我们进一步生成-位置u处的RC×W×H。 Ai，u是A中通道i和位置u处的标量值。将上下文信息添加到局部特征H以增强局部特征和增强pixel-wise表示。因此，它具有广泛的语境观，并根据空间注意地图选择性地聚合语境。这些特征表示实现了相互增益，并且对于语义分割更鲁棒3.3. 重复性交叉注意尽管注意力是交叉的，但它可以在水平和垂直方向上捕捉上下文信息，一个像素与周围不相关Q一softmaxHH'KV1x1转换1x1转换1x1转换亲和力聚集��'，u��H=（u ，张伟）（请注意，（掌声）（，u，,，张伟），张伟），u，（，（u ，张伟）（请注意，（掌声）），u（1998年，��'，u，u，，u）607uu最大迭代器十字交叉路径仍然不存在。为了解决这个问题，我们创新性地和简单地介绍了一个基于交叉注意的RCCA操作。RCCA模块可以展开成R循环。在第一个循环中，交叉注意力将从CNN模型中提取的特征图H作为输入，并输出特征图H′，其中H和H′具有相同的形状。在第二个循环中，交叉注意力将特征图H′作为输入并输出特征图H″。如图2，RCCA模块配备有两个环路（R=2），其能够从所有像素收获全图像上下文信息以生成具有密集且丰富的上下文信息的新特征图。我们将A和A′分别表示为循环1和循环2中的注意力映射。由于我们只对在空间维度而不是在信道维度上传播的上下文信息感兴趣，因此具有1× 1的卷积层可以在空间维度上传播1个过滤器可以看作是相同的连接。此外，本发明还提供了一种方法，从位置x′，y′到权重Ai，x，y的映射函数被定义为Ai，x，y=f（A，x，y，x′，y′）。对于特征图H′′上的任何位置u和特征图H上的任何位置θ，在R=2的情况下实际上存在联系。对于u和θ在同一行或列中的情况H′′←[f（A，u，θ）+1]·f（A′，u，θ）·Hθ（3）其中←提供add-to操作。对于u和θ不在同一行和列中的另一种情况，图2.图4示出了上下文信息在空间中的传播路径。尺寸：H′′←[f（A，ux，θy，θx，θy）·f（A′，ux，ux，θy）+f（A，θx，uy，θx，θy）·f（A′，ux，uy，θx，uy）]·Hθ（4）在一般情况下，我们的RCCA模块弥补了缺乏交叉注意，不能获得密集的上下文信息，从所有像素。与交叉注意相比，RCCA模块（R= 2）不需要额外的参数，并且可以以较小的计算量增加代价获得更好的性能。4. 实验为了评估CCNet的有效性，我们对Cityscapes数据集[10]，ADE20K数据集[44]和COCO数据集[23]进行了综合实验。实验结果表明，CCNet在Cityscapes和ADE20K上实现了最先进的性能同时，CCNet可以在COCO上带来恒定的性能增益，例如分割.在下面的小节中，我们首先介绍数据集和实现细节，然后在Cityscapes数据集上进行一系列消融实验。最后，我们报告我们的结果ADE20K和COCO数据集。4.1. 数据集和评估指标我们采用 Cityscapes 和 ADE20K 的 Mean IoU（mIOU，类间交集对并集的平均值），以及COCO的标准COCO指标平均精度（AP）。• Cityscapes的任务是进行城市分割，在我们的实验中仅使用了5，000张经过精细注释的图像，并将其分为2，975/500/1，525张图像用于培训、验证和测试。• ADE 20 K是最近的场景解析基准，包含150个材料/对象类别的密集标签。该数据集包括20 K/2K/3 K图像用于训练，vali-数据和测试。• COCO是一个非常具有挑战性的数据集，例如包含超过80个类别的115K图像的用于训练的图像，用于验证的5K图像和用于测试的20K图像。4.2. 实现细节网络结构对于语义分割，我们选择ImageNet预训练的ResNet-101 [17]作为我们的骨干，并在之前的工作[4]之后的后续卷积层中删除最后两个下采样操作和使用扩张卷积，从而使输出步幅为8。例如分割，我们选择Mask- RCNN [16]作为我们的基线。带有小批量的训练设置SGD用于训练。对于语义分割，Cityscapes和ADE 20 K的初始学习率为 1 e-2在之前的工作[5，39]之后，我们采用了一种多学习率策略，其中初始学习率乘以1-（iter）幂，幂= 0.9。我们使用0.9的动量和0.0001的重量衰减。对于城市景观，培训im-通过随机缩放（从0.75到2.0）来增加年龄，然后从所得图像中随机裁剪出高分辨率补丁（769×769由于来自ADE 20 K的图像具有各种尺寸，因此我们采用将输入图像的短边调整为从集合{300，375，450，450}中随机选择的长度的525，600}。例如分割，我们采用相同训练设置与Mask-RCNN相同[16]。4.3. 城市景观实验4.3.1与最新技术水平的Cityscapes验证集上其他最先进的语义分割解决方案的结果总结在表1中。1.一、我们提供这些结果以供参考，并强调这些结果不应简单地与我们的方法进行比较，因为这些方法是在不同的（甚至更大的）训练集或不同的基本网络上训练的。在这些方法中，Deeplabv3 [6]和CCNet608表1.与Cityscapes（val）上的最新技术进行比较方法骨干多尺度mIOU（%）DeepLabv3 [6]ResNet-101是的79.3DeepLabv3+[8]Xception-65没有79.1DPC [3]†Xception-71没有80.8CCNetResNet-101没有80.2CCNetResNet-101是的81.3†使用额外的COCO数据集进行训练。表2.与最先进的城市景观比较（测试）。方法骨干mIOU（%）DeepLab-v2 [5]ResNet-10170.4RefineNet [22]‡ResNet-10173.6SAC [40]‡ResNet-10178.1GCN [27]ResNet-10176.9DUC [30]‡ResNet-10177.6ResNet-38 [32]WiderResnet-3878.4PSPNet [41]ResNet-10178.4BiSeNet [35]‡ResNet-10178.9AAF [19]ResNet-10179.1PSANet [42]ResNet-10180.1德国联邦国防军[36]ResNet-10179.3DenseASPP [34]DenseNet-16180.6CCNetResNet-10181.4使用train-fine和val-fine数据集进行训练采用同一主干网和多尺度测试策略。Deeplabv3+[8]和DPC [3]都使用更强的骨干（即，Xception-65 71对ResNet-101）。此外，DPC [3]还利用了额外的数据集，即COCO，用于Cityscapes训练集之外的预训练。结果表明，提出的CCNet与多尺度测试仍然优于所有这些强基线。此外，我们还使用训练集和验证集以ResNet-101作为骨干来训练学习最好的CCNet，并通过将我们的测试结果提交给官方评估服务器来大多数方法[5，22，40，27，30，41，35，19，42，36]采用和我们的一样[32，34] uti使脊椎更强壮。从Tab。2，可以观察到，我们的CCNet大大优于所有以前的最先进的。在这些方法中，PSANet [42]与我们为每个像素生成子注意力图的方法最相关。其中一个区别是，注意力映射在PSANet中具有2×H×W权重，在CCNet中具有H+W−1即使以较低的计算成本和内存使用，我们的方法仍然达到更好的性能。表3. RCCA中不同环路数的Cityscapes性能（val）。FLOP和Memory增量估计为1×3×769×769的输入。环GFLOPs（▲）内存（M▲）mIOU（%）基线0075.1R=18.35378.0R=216.512779.8R=324.720880.24.3.2消融研究为了验证CCNet的合理性，我们在具有不同CCNet设置的Cityscapes验证集上进行了广泛的消融实验RCCA模块Tab. 3显示了在RCCA中采用不同循环数对Cityscapes验证集的性能。所有实验均使用ResNet-101作为骨架进行。另外，一幅图像的输入尺寸为769×769，导致输入fea的尺寸RCCA的真图H为97×97。我们的基准网络是基于ResNet的FCN，具有扩张的卷积模型，在阶段4和5引入ULE，即，对于这两个阶段分别将膨胀设定为2和4。当R=1，2，3时，分别估计了FLOP的增量和内存使用量我们观察到，在R= 1的基线中添加交叉注意，与基线相比，性能提高了2.9%，这可以有效地证明交叉注意的重要性。此外，将循环从1增加到2可以提高1.8%的性能，证明了密集上下文信息的有效性最后，将循环数从2增加到3会使性能略微提高0.4%。同时，随着循环次数的增加，FLOP和GPU内存的使用仍将增加。这些结果证明，所提出的交叉注意可以通过在水平和垂直方向上捕获上下文信息来显着提高此外，提出的交叉注意是有效的，在捕捉密集和全球的上下文信息，这最终可以有利于语义分割的性能为了平衡性能和资源使用，我们在所有以下实验中选择R= 2为了进一步验证交叉模块的有效性，我们在图中提供了定性比较。五、我们利用白色圆圈来指示那些容易被错误分类的具有挑战性的区域。可以看出，这些挑战区域随着循环的增加而逐步校正，这可以很好地证明密集上下文信息聚合用于语义分割的有效性。609图像基线R=1 R=2地面实况图5.Cityscapes验证集上不同循环的RCCA的可视化结果表4. Cityscapes上的上下文聚合方法比较（val）。方法mIOU（%）ResNet 101-基线75.1ResNet101+GCN78.1ResNet101+PSP78.5ResNet101+ASPP78.9ResNet101+NL79.1ResNet101+RCCA（R=2）79.8ResNet 50-基线73.3ResNet50+GCN76.2ResNet50+PSP76.4ResNet50+ASPP77.1ResNet50+NL77.3ResNet50+HV77.3ResNet50+HV VH77.8ResNet50+RCCA（R=2）78.5上下文聚合方法的比较我们比较了几种不同的上下文聚合方法在Cityscapes验证集上的性能，这些验证集以ResNet-50和ResNet-101为主干。具体而言，上下文聚合的基线主要包括：1）Peng etal. [27]利用全局卷积网络进行上下文信息聚合，捐赠为“+GCN”。2)Zhao等人[41]提出了金字塔池，这是捕获全局上下文信息的简单而有效的方法，捐赠为“+PP”;3）Chen等人。[6]使用不同的膨胀卷积来收获不同范围的像素级上下文信息，捐赠为[31]引入了非本地网络用于上下文聚合，捐赠为在选项卡中。4、“+NL”和“+RCCA”两种上下文聚合方法的proaches，它展示了捕获全图像上下文信息的重要性。更有趣的是，我们的方法实现了更好的性能比“+NL”。这可能是由于交叉注意的顺序重复操作造成的。具体而言，“+NL”直接从具有有限感受野和短程依赖性的特征生成注意图。相比之下，我们的为了证明十字形的注意力的有效性，我们比较了十字形与其他形状的标签。4.第一章 “+HV VH”是指两个并联支路的特征的总和&：“HV”和“VH”。这些结果证明了交叉注意比其他形状能获得更好的表现。我们进一步探讨了RCCA的计算量和内存占用如Tab.所示5、与“+NL”方法相比这表明CCNet是以最少的计算量和内存占用捕获全图像上下文信息的有效注意力地图的可视化为了更深入地了解我们的RCCA，我们将学习到的注意力掩模可视化，如图所示。六、对于每个输入图像，我们选择一个点（绿色十字），并分别在第2列和第3列中显示R= 1和R= 2时对应的注意力图可以观察到，当R= 1时，仅捕获来自目标点的交叉路径的上下文信息。通过采用多一个交叉模块，即R= 2时，RCCA最终聚集得更致密，610表6.与ADE20K最新技术水平的比较（val）。图像R=1 R=2地面实况图6. Cityscapes验证集上注意力模块的可视化。左列是输入图像，2和3列是RCCA中R= 1和R= 2表5.Non-local模块和RCCA的比较FLOP和Memory增量估计为1×3×769×769的输入。方法GFLOPs（▲）内存（M▲）mIOU（%）基线0073.3+NL108141177.3+RCCA（R=2）16.512778.5与R= 1相比，具有更丰富的上下文信息。此外，我们观察到，注意力模块可以捕获语义相似性和全图像依赖性。4.4. ADE20K实验在本小节中，我们对表7.与COCO（val）的比较方法AP髁间盒AP掩模基线38.234.8R50+NL39.035.5+RCCA39.336.1基线40.136.2R101+NL40.837.1+RCCA41.037.3选项卡中的框AP和掩码AP术语。7关于COCO结果表明，我们的方法大大优于AED 20K数据集，这是一个非常具有挑战性的场景解析数据集。如Tab.所示。6，CCNet达到了45.22%的最先进的性能，比以前的最先进的方法超过0.6%。在这些方法中，大多数方法[40，41，42，20，33，39]采用ResNet-101作为主干，而RefineNet [22]采用更强大的网络，即，ResNet-152作为主干。EncNet [39]在这些方法中实现了先前的最佳性能，并利用具有图像级超级视觉的全局池相反，我们的CCNet采用了另一种方式来集成上下文信息，通过捕获全图像依赖关系，并实现更好的性能。4.5. COCO实验为了进一步证明CCNet的通用性，我们使用竞争性Mask R-CNN模型[16]作为基线在COCO [23在[31]之后，我们通过在res 4的最后一个卷积残差块之前添加RCCA模块来我们评估了ResNet-50/101的标准基线。所有模型都是从ImageNet预训练中微调的。我们使用具有端到端联合训练的官方实现1，其性能几乎与[31]中报告的基线我们报告结果1https://github.com/facebookresearch/掩模基准所有指标的基线。同时，具有“+RCCA”的网络5. 结论和今后的工作在本文中，我们提出了一种用于基于深度学习的密集预测任务的Criss-Cross Net- work（CCNet），它自适应地捕获纵横交错路径上的上下文信息。为了获得密集的上下文信息，我们引入了RCCA，它从所有像素聚合上下文信息。实验表明，RCCA捕获全图像的上下文信息，在更少的计算成本和更少的内存开销。我们的CCNet在两个语义分割数据集上一致地实现了出色的性能，即。Cityscapes，ADE20K和实例分割数据集，即。可可确认这项工作得到了国家自然科学基金（第1998号）的资助。61876212号61733007号61572207）、华中科技大学地平线计算机视觉研究中心、国家留学基金委、湖北省科技创新重点项目、IBM伊利诺伊认知计算系统研究中心（C3SR）和ARC DECRA DE 190101315基金。方法骨干mIOU（%）[22]第二十二话ResNet-15240.70SAC [40]ResNet-10144.30PSPNet [41]ResNet-10143.29PSANet [42]ResNet-10143.77[第20话]ResNet-10143.68UperNet [33]ResNet-10142.66EncNet [39]ResNet-10144.65CCNetResNet-10145.22611引用[1] 罗纳德 ·T· 东增强现实的研究概况。 Presence ：Teleoperators Virtual Environments，6（4）：3551[2] Bowen Chen，Liang-Chieh Chen，Yunchao Wei，YukunZhu， Zilong Huang， Jinjun Xiong ， Thomas Huang，Wen-Mei Hwu，and Honghui Shi.Spgnet：场景解析的语义预测指南。在ICCV，2019年。2[3] Liang-Chieh Chen ， Maxwell D Collins ，Yukun Zhu ，George Papandreou ， Barret Zoph ， Florian Schroff ，Hartwig Adam，and Jonathon Shlens.寻找高效的多尺度架构密集图像预测。arXiv预印本arXiv：1809.04184，2018。三、六[4] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.使用深度卷积网络和全连接crf的语义图像分割arXiv预印本arXiv：1412.7062，2014。二三五[5] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834-848，2018。一二三五六[6] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587，2017. 二五六七[7] Liang-Jieh Chen，Yi Yang，Jiang Wang，Wei Xu，andAlan L Yuille.注意秤：尺度感知的语义图像分割。在IEEE计算机视觉和模式识别会议论文集，第3640-3649页3[8] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Flo- rian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。arXiv预印本arXiv：1802.02611，2018。二、六[9] 程建鹏、李东、米瑞拉·拉帕塔。机器阅读的长短期记忆网络。arXiv预印本arXiv：1601.06733，2016。2[10] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在Proceedings of the IEEEconference on computer vision and pattern recognition，pages 3213二、五[11] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。CoRR，abs/1703.06211，1（2）：3，2017。2[12] Henghui Ding ， Xudong Jiang ， Bing Shuai ， Ai QunLiu，and Gang Wang.基于上下文对比特征和门控多尺度聚合的场景分割方法.在IEEE计算机视觉和模式识别会议（CVPR），2018年6月。2[13] 马丁晚上好AdobePhotoshopCS 3摄影师：专业的图像编辑Focal Press，2012. 1[14] Jannik Fritsch，Tobias Kuehnl，and Andreas Geiger.一种新的道路检测算法性能度量和评价基准第16届IEEE智能交通系统国际会议（ITSC 2013），第1693-1700页。IEEE，2013。1[15] Jun Fu ， Jing Liu ， Haijie Tian ， Zhiwei Fang ， andHanqing Lu.用于场景分割的双注意网络。arXiv预印本arXiv：1809.02983，2018。3[16] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick. 面具 R-CNN 。在计算机视觉（ICCV），2017年IEEE国际会议上，第2980IEEE，2017年。五、八[17] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。二、五[18] 杰虎，李申，孙刚。挤压-激发网络。arXiv预印本arXiv：1709.01507，7，2017。3[19] Tsung-Wei Ke，Jyh-Jing Hwang，Ziwei Liu，and StellaX Yu. 用于语义分割的自适应亲和场 arXiv 预印本arXiv：1803.10335，2018。三、六[20] 梁晓丹，周鸿飞，邢伟。动态结构语义传播网络。在IEEE计算机视觉和模式识别会议论文集，第752-761页，2018年。8[21] Di Lin，Yuanfeng Ji，Dani Lischinski，Daniel Cohen-Or，and Hui Huang.多尺度上下文交织语义分割。在欧洲计算机视觉会议（ECCV）的会议记录中，第603-619页，2018年。2[22] Guosheng Lin，Anton Milan，Chunhua Shen，and Ian DReid. Refinenet：用于高分辨率语义分割的多路径细化网络。在Cvpr，第1卷，第5页，2017年。二、六、八[23] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740Springer，2014. 五、八[24] Sifei Liu ， Shalini De Mello ， Jinwei Gu ， GuangyuZhong，Ming-Hsuan Yang，and Jan Kautz.通过空间传播网络学习亲和力神经信息处理系统的进展，第1520-1530页，2017年。3[25] Ziwei Liu，Xiaoxiao Li，Ping Luo，Chen-Change Loy，and Xiaoou Tang.基于深度解析网络的语义图像分割。在 Proceedings of the IEEE International Conference onComputer

下载后可阅读完整内容，剩余1页未读，立即下载