没有合适的资源?快使用搜索试试~ 我知道了~
15848基于语义区域亲和度双向图的场景解析丁恒辉1,3†张辉1刘军2李佳欣3冯子健3蒋旭东11南洋理工大学2新加坡科技与设计大学3字节跳动摘要在这项工作中,我们致力于解决具有挑战性的问题场景解析。众所周知,图像中的像素彼此高度相关,特别是来自相同语义区域的像素,而独立地处理像素未能利用这种相关性。在这项工作中,我们把图像中的每个区域作为一个整体,并捕捉结构拓扑结构因为不同区域之间的亲和力。为此,我们首先将整个特征图划分为不同的区域,并从中提取相应的全局特征。 其次,我们构造了一个有向图,其节点是区域特征,连接每两个节点的双向边是它们所代表的区域特征之间的亲和力。之后,我们将有向图中的亲和度感知节点转移回图像的相应区域,这有助于对区域依赖性进行建模并减轻不切实际的结果。此外,为了进一步提高像素之间的相关性,我们提出了一个区域级损失,它将区域中的所有像素作为一个整体进行评估,并激励网络学习每个类的专有区域通过所提出的方法,我们在PASCAL-Context,ADE 20 K和COCO-Stuff上实现了新的最先进的分割结果。1. 介绍场景解析(或语义分割)作为计算机视觉中最基本的任务之一,其目标是将图像分割成不同的区域并为每个区域分配特定的类别标签。 由于对象的多样性和复杂的拓扑结构,以往的方法普遍存在错误。 在本文中,我们提出了一种方法,构建不同的语义区域之间的亲和力依赖关系,有助于原因的对象/东西在给定的图像和减轻偏差的分割结果之间的全局亲和力。场景解析可以看作是像素级的†丁恒辉(ding0093@ntu.edu.sg)为通讯作者。图像预测地面实况图1:场景解析中常见的错误:“斑点”、模糊和不切实际的预测。分类任务(即,识别)以及区域聚类任务(即,分段)。以前的工作更多地关注识别而不是区域聚类,导致“斑点”预测,模糊的结果和不切实际的结果,如图1所示。以前对这些问题的尝试主要围绕捕获每个像素的大感受野,如金字塔[8,81]和非局部[20]感受野。这些上下文方法虽然在不同像素之间建立隐式连接,但旨在聚合每个像素的上下文,从而不利用区域级相关性。在这项工作中,我们更多地关注区域聚类,并将图1中的错误归因于每个像素缺乏区域级约束和区域相关性不足。具体来说,我们提高场景解析,通过apply-plying区域级的约束条件,并建立区域之间的连接我们将特征图分割到各个区域,并将每个区域中的像素视为一个整体探索区域水平的相关性。这种方法有助于聚类来自同一区域的特征,从而去除预测中的“斑点”片段。 为此,我们首先生成粗分割掩模(例如,的15849图中的预测。1)来定义特征图中的区域。然后,我们提出了一个基于图形的区域亲和力推理(GRAr)模块,将区域级的约束到这些分裂的区域。错误点和模糊/不切实际的结果的出现显著减少。边对于确定图中节点之间的连接是至关重要的。与以前的基于图的作品[10,40,27]从头开始学习边缘不同,我们通过统计数据利用来自训练样本的亲和度信息。语义类之间的不同的亲和力,观察到的一些对象经常共同出现在图像中,而一些对象从来没有出现在一起。因此,它是有利的,以模拟不同的对象之间的复杂的亲和力和空间然而,类亲和度还没有得到很好的研究,在以前的图方法。在这里,我们计算每两个类之间的共存时间,并将它们列为混淆矩阵来表示亲和力。对于每一个类别,它的支持者和反对者都是通过检查混淆矩阵来实现的,直观地观察谁支持谁抑制它的存在。例如,ADE20K [83]中的类“枕头”,支持者为“床”和“沙发”,反对者为“公共汽车”。使用这些类别的亲和力信息,我们捕获不同区域之间的拓扑结构和不同类别的亲和力依赖。然后构造有向图,其中每个节点表示语义区域,每个边表示两个节点之间的有向亲和连接。此外,我们提出了一个语义区域损失,以促进区域级的特征聚类。根据[4]中的讨论,基于FCN的分割网络的训练目标始终基于像素是独立的假设。然而,也众所周知,给定场景图像中的每个像素与其他像素高度相关,并且在训练期间独立地处理它们未能利用像素之间的相关性。一些上下文工作隐含地利用这种相关性,而它们的训练目标函数仍然将像素视为独立的。在这项工作中,我们提出了一个语义区域损失(SR损失),将像素在同一区域作为一个整体,明确提高内部的相关性。SR-Loss制定区域级识别任务,并提示网络学习相应类别的区域级特征。本文的主要贡献概括如下:• 我们根据训练样本中类相关性的统计特性提出了一个双向图,并基于该图推断区域亲和度。• 我们为相应的区域提供计算的亲和力感知特征,以改善特征表示和减轻不切实际的结果。• 我们提出了一个语义区域损失,提供区域级识别监督,激励网络学习每个类的区分区域级特征。• 所提出的方法实现了新的国家的最先进的性能一致的三个流行的场景解析,ING基准,PASCAL上下文,ADE20K,和COCO的东西。2. 相关工作2.1. 场景解析场景解析或语义分割是计算机视觉中具有挑战性和基础性的任务之一。最近,基于深度学习的场景解析方法取得了很好的进展,这得益于深度卷积神经网络在计算机视觉上的巨大成功[37,25,62,46,65,63,50,13,45,18,66,77,30]。的开创性的工作FCN [49]将全卷积网络(FCN)引入语义分割。然后提出了大量基于FCN的分割工作,包括编码器-解码器方法(例如,DecovNet [52],U-Net[54],EFCN [57],CGBNet [17]和SegNet [3]),其通过编码器提取高级特征,然后通过解码器逐渐恢复空间细节,以及Dilated-FCN [8,71,81],其通过丢弃CNN中的一些下采样操作并利用扩张卷积来补偿感受野,在编码器中保留更多空间细节。上下文建模在场景分析中起着至关重要的作用。大量的作品在分割集中聚合更好的上下文。多尺度金字塔表示是常用的方法之一。例如,DeepLab [8]提出了一个Atrous空间金字塔池模块,称为ASPP; PSPNet [81]引入了金字塔池模块(PPM)来捕获来自不同区域的多尺度上下文信息;而DenseASPP [68]利用更密集的扩张速率来覆盖更大的尺度范围。自注意力[61,64]作为另一种流行的方法,具有像DANet [20]这样的代表,其在空间和信道维度上应用非局部操作,而CCNet [28]通过将非局部注意力分解为两个连续的交叉注意力来实现非局部注意力轻量化。与以前的方法不同,聚合上下文的每个像素,我们的方法侧重于区域级的亲和力,并把每个区域在一个给定的图像作为一个整体。此外,我们捕获了输入图像的不同子区域之间的结构拓扑和亲和力,以增强解析良好的区域并校正错误预测的片段。此外,我们的方法共享的精神,由粗到细的战略,通过使用粗分割掩模分割图像到不同的区域和构造15850Conv地图特征亲和基质地面实况SR损失橱柜人椅地板壁橱柜人椅地板壁CNNConv初始预测SR损失地图室内人发言权席位壁亲和推理内阁&特征向量(#通道×1×1)掩码平均池分割分数图图2:我们提出的方法的整体架构。我们首先采用分割网络来生成初始分割掩码,并使用此预测将特征图分割到不同的区域。接下来,我们将这些区域特征馈送到基于图的区域亲和度推理(GRAr)模块,以在亲和度矩阵的指导下提高这些特征的区域表示,该亲和度矩阵是通过对数据集进行统计来收集的。此外,语义区域损失(SR-Loss),提取类特定的功能,使用地面真值掩模,采用区域级分类监督,以提高同一语义区域内的像素的相关性。基于这些区域的图形,与之前的LRN [33],AFNet [74]和OCR [72]不同,这些区域利用粗到细的策略来细化其初始分割预测。我们的方法在输入图像的输入分割方法中是灵活的,与其他方法如超像素[1,31]和轮廓检测[2,7,5]也兼容。2.2. 图形模型图形模型在计算机视觉领域有着悠久的历史,至今仍受到广泛的关注。概率图模型[22,39,38,36,8,48],例如,马尔可夫随机场(MRF)和条件随机场(CRF),提出了捕捉的长程依赖的无向图的基础上。DAG-RNN [58],SPN [47]和BFP [14]采用有向非循环图来循环传播信息。 [34]第34话换一个对抗性学习损失的逐像素交叉熵损失,以基于CRF捕获亲和力。图卷积网络(GCN)[35,12]被提出来在图上进行卷积,并且在计算机视觉任务中取得了巨大成功[11]。提出了几种基于GCN的方法用于语义分割[10,40,27]。与以前使用图形化的场景解析方法不同模型,在这项工作中,我们利用亲和知识建立一个双向图的亲和推理不同的语义区域。3. 方法本文的主要创新之处在于将图像中的每个区域作为一个整体来处理,通过捕捉图像中不同区域的结构拓扑和相似度来增强正确解析的图像片段,纠正错误解析的图像片段。在第3.1节和第3.2节中,我们首先提出了一个有向图,其节点是语义区域的特征,边缘是具体来说,我们将在3.2节中解释如何从给定的有向图中导出区域之间的然后,我们在3.3节中定义了语义区域损失,以便于网络学习每个语义区域的区分特征。总体架构如图2所示。我们采用一个分割网络生成的粗分割掩模,这是用来从相应的区域提取节点表示。建议的有向图用于亲和推理。采用语义区域丢失和分割丢失两种方法进行监督。15851Ki、ji、ji、ji、j联系我们i、jJ--i、ji=1飞机天空亲和基质天空到飞机天空飞机飞机到天空图3: 连接是定向的。 The aeroplaneADE20K [83],预定义的类别可以被聚类到不同的组,例如,室内和室外。此外,有些类别经常是同时发生的,例如牛和草,而有些类别从不一起出现,例如,床和飞机因此,我们考虑通过统计收集分割数据集中的类别亲和力,并使用此亲和力来构建图中的有向边。我们统计每两个类的共现次数,并通过下式计算它们的共现频率:强有力地支持了天空的存在,但天空只弱有力地支持了飞机的存在。fi,j=Σti,j,i j,Ntk,j−tj,j(一)3.1. 语义区域推断首先,我们解释了我们的语义区域推断的方法。分割区域被分别提取先前的基于图的方法,例如GloRe[10]和SpyG [40]没有为它们的图推理定义显式相反,他们的图推理只是将问题留给模型本身,并依赖于隐式节点。捕捉模型学习了什么样的图以及信息如何在特征图中流动是相当困难的。每个像素可以充当学习图中的节点与以前的图推理相反,我们应用区域级约束,并将每个区域视为图中的一个单独节点。通过这种方法,我们给了一个明确的定义,图的节点。存在分割特征图并定义区域的替代方式,超像素我们采用分段掩码,因为它很容易从我们的网络本身获得。一旦获得粗略预测的掩模,我们利用它来定义区域,并使用所提出的亲和推理来反向改进预测它本质上是的详细1,i=j,其中ti,j是类别i和类别j的共现次数,并且fi,j表示类别i与类别j共现的频率。Pascal-Context [51]的共现频率矩阵如图3所示。如果类别i经常与类j同时出现,我们假设它是类j的支持者之一,并在图中为它们分配更强的连接这些连接是定向的,因为这种支撑不是双向的。例如,飞机强烈地支持天空的存在,因为飞机的出现总是伴随着天空作为背景,而天空仅微弱地支持飞机的存在,因为天空还频繁地与其他物体如鸟和人共同出现,如图3所示因此,对于每两个类别,i和j,存在双向连接fi,j和fi,i,分别表示从i到j和从j到i的支持概率。我们使用亲和矩阵来构造图中的有向边。从亲和矩阵,我们推断出两个不同的亲和边,一个是正的,另一个是负的。正边表示来自频繁共现对象的支持,例如飞机和天空,而负的一个表示来自几乎不同时出现的对象的抑制,例如,草和床。的过程如下。我们将特征图分为从i到j的正边是epep=fi,j,the根据初始预测的分割掩模确定各个部分。然后对每个分割区域执行平均全局池化以提取区域级特征,这些特征构成我们的有向图的节点表示。如下所述,在相互约束下基于这些区域级特征来推断区域亲和度对应的负边缘是e n并且e n=1 fi,j。我们使用图中的边执行亲和推理(参见图4)。 假设我们的图中有N个节点,每个节点的表示是F j,其中j 1,2,...,N.每个节点的正亲和性推理由下式导出:NF p=Fj+λConv(ΣFiep,Θ)(2)这里,我们举例说明如何构造连接边其中ep表示从第i个在双向图中基于所获取的节点表示,然后进行基于图的区域亲和性推理(GRAr)。 我们观察到-分割数据集,如PASCAL-Context [51]和节点到第j节点,例如,从飞机到天空Conv是卷积并且Θ是其参数,我们添加残差跳过并且λ被设置为其可学习参数。 的存在 节点的类通过接收正的3.2.基于双向图的15852N×个×个∗∗LL LLLi、jL哪里节点特征Fj返回到它们的对应区域。通过KK内阁壁人发言权席位室内亲和推理图4:我们根据粗分割掩码提取区域特征,这些区域特征在我们的图中用作节点表示。图的边是每两个节点之间的双向亲和力。我们进行亲和推理的基础上,这个有向图和映射的节点功能回到其相应的区域。网络是基于像素独立性的假设。因此,在训练结果中独立地处理像素浪费了像素相关性。以前的上下文相关的作品[8,81,20]隐式地利用像素相关性,同时保持目标训练函数与像素无关。然而,我们提出了一个语义区域损失(SR-Loss),把像素在同一区域作为一个整体,提高像素的相关性。所提出的语义区域丢失激励网络学习每个类的区分性区域级特征,同时聚类属于同一类的特征为了提取给定图像中存在的每个类别的全局特征,我们使用地面真值分割掩码对CNN特征执行全局掩码平均池化:从其他节点,这表明当类Fk1=Σ1(M=k)Σ1(M=k)F(5)映射回来,相应的区域特征是增强除了正亲和力之外,我们还引入了抑制类存在的负亲和力。例如,“飞机”和“草”指示室外场景,并且它们的共同出现抑制了像“床”的室内对象的存在。具体地,负亲和度用于去除粗略预测中的一些不切实际的片段/斑点。每个节点的负亲和性推理可以公式化为:F n=Fj−λConv(ΣFien,θ)(3)其中,M是真实分割掩码,1()是当为真时输出1的二进制指示符。F是空间大小为H的CNN特征W,Fk是空间大小为1的向量1,表示类的全局要素K. 然后我们将Fk馈送到一个额外的全连接层其中softmax用于类别k的分类,由交叉熵损失k监督。如果在给定图像中存在K个类,则将存在1、2、…K,即 在给定图像中出现的每个类别被分配有区域级分类损失。每个SR损失k作用于某个对应于类别k的区域。与FCN中的像素级交叉熵损失不同Ji=1i、j分割方法,我们提出的语义区域损失处理的像素具有相同的标签作为一个整体,这fa-其中,e,n表示从第i个节点到第j节点。将节点映射到特定类别的特征表达将在某种程度上被削弱,如果它从其他节点获得负亲和度,这有助于纠正粗预测中错误预测的片段/点。节点表示与其正和负亲和性推理连接以执行最终表示,使网络能够学习特定于类的聚类特征,并扩大不同类别之间的特征区别。它是介于像素级和图像级之间的区域级分类。我们的SR损失也不同于EncNet [75]中的SE损失,EncNet [75]将所有类别视为多标签图像级分类问题,因为我们将每个语义区域视为单标签多类图像分类。假设这些是K个类F=Conv(FF n给定图像,最终损失为:j jjjK表示连接。最后,我们绘制这些L=L+wsrΣwLk=1(六)通过相似性推理,相同区域中的特征被更好地聚类,并且还捕获来自其他区域的上下文。此外,正确预测的片段被提升,而不正确预测的片段被抑制和校正。3.3.语义区域丢失更广泛地接受的是,给定场景图像中的每个像素与其他像素高度相关,尽管声称基于FCN的分割的其中s是逐像素分割损失,wsr是我们的SR损失的权重,K是给定图像中存在的类别的数量,wk是Lk的损失权重。4. 实验4.1. 实现细节我们所有的实验都基于开源平台Pytorch [53]。我们测试我们的方法基于SK15853×个×个×个ResNet [25]和ResNest [78](在ImageNet [55]上预先训练)。从最后一个池化层截断CNN主干,并且丢弃最后两个下采样操作,即,输出步幅是8。扩张卷积用于补偿由丢弃下采样引起的感受野的收缩。该网络是完全卷积的,并以16个批次的小批量进行端到端训练。批量归一化[32]在新添加的卷积层之后使用,以加速训练。对于训练数据增强,我们水平翻转图像根据先前的工作[8,81,70,76],我们采用调整学习率: lr c=lr b×(1−iter)0。9、主链GRAr SR-损失MSmIoU% ResNet-50 42.3ResNet-50 ✓ 51.7ResNet-50 ✓ ✓ 53.0ResNet-101 ✓ ✓ 54.8ResNet-101 ✓ ✓ ✓ 55.7ResNest-101 ✓ ✓ 57.0表1:PASCAL-Context上的消融研究。基线是扩张的FCN,MS是指多尺度测试。其中LR是当前的学习率和lr总iterc b是首字母基本学习速率,总iter是总训练迭代的数量,iter是当前 迭 代 步 长 。 动 量 和 重 量 衰 减 分 别 固 定 为 0.9 和0.0001。4.2. 数据集和评估指标我们报告我们的结果3个具有挑战性的场景解析-ING基准,PASCAL上下文,ADE 20 K,和COCO的东西。这三种方法都提供了具有不同场景和类别的像素分割掩码。我们通过对所有图像进行统计来收集它们的亲和矩阵。• PASCAL-Context[51]为整个场景提供密集的逐像素分割图。它有来自Pascal VOC的10103个场景图像[19]。有4998个训练图像和5105个测试图像。最常见的59个对象/物品类别和背景用于评估。在训练中,我们从PASCAL-Context中调整大小并将图像裁剪为544 544以进行批处理。批大小被设置为16,基本学习速率lr_b被设置为0.001,并且总iter为50K。• ADE20K[83]包含20210张训练图像、2000张验证图像和3352张测试图像。在这个数据集中,有150个类别,包括35个东西类别和115个离散对象类别,注释到每个像素。在训练中,图像被调整大小并裁剪为544 544用于批处理。批大小被设置为16,基本学习速率lr_b被设置为0.01,并且总iter为200K。• COCO-Stuff[6]为Microsoft COCO数据集[44]中的10000张图像提供了详细的像素级注释。有9000张训练图像和1000张测试图像。在Microsoft COCO分割数据集[44]中,图像用80个对象标签进行注释,未标记的东西概念进一步用COCO-Stuff中新添加的91个东西类别进行我们报告了171个类别的结果,包括所有的对象和东西类别。在我们的训练中表2:所提出的具有有向图的亲和推理的消融研究方法参数存储器时间mIoU%PPM [81]23.2M226M75ms49.2ASPP [8]15.5M81M74ms49.9DANet [20]10.6M668M101ms50.6OCR [72]10.5M93M41ms50.4GRAr(我们的)2.4M95M42ms51.7表3:FCN+“模块”比较。我们比较与插件的输入特征图的大小为1×2048×68×68。图像被调整大小并被裁剪到544544以用于批处理。批大小被设置为16,基本学习速率lr_b被设置为0.001,并且总iter为100K。我们使用平均交集对并集(mIoU)评估所提出的分割网络,其数学定义请参见[49]。4.3. 消融研究我们进行消融研究,以展示所提出的方法中采用的每个模块的有效性。首先,如表1所示,与基线FCN相比,我们的双向基于图的区域亲和性推理(GRAr)模块带来了9. PASCAL-Context上的4%,这肯定了亲和力推理聚合全局线索并进一步增强分割结果的能力。接下来,使用SR-Loss,我们骨干POSNeg亲和方法mIoU %ResNet-50N.A.42.3ResNet-50 ✓Conv48.1ResNet-50 ✓Conv47.9ResNet-50 ✓ ✓Conv48.2ResNet-50 ✓图49.7ResNet-50 ✓图49.3ResNet-50 ✓ ✓图51.715854i、j×个实现1的mIoU增益。3%的性能,这表明我们的分割网络在区域级分类监督下学习更精确的类表示。建议的亲和推理提取有用的线索,从粗糙的区域和纠正错误的预测件。此外,我们测试了我们的方法的基础上不同的主干,并证明更强的骨干可以提取更多的代表性的功能和提高最终分割性能。为了进一步详细研究所提出的亲和反应模块,我们在表2中进行另一个消融研究。我们研究了亲和法,即这两个正和负亲和力在等式(2)和等式(3)中。首先我们使用一个简单的Conv,即 丢弃等式(2)中的ep,在这种情况下,我们的亲和推理是完全可学习的,并且是从头开始的。如表2所示,图形为1。仅基于阳性亲和力,比Conv好6%,并且是1。4%,优于Conv的基础上积极和消极的亲和力推理。结果表明,我们的图边在不同节点之间提供了更明确的亲和力,而在没有任何监督的情况下从头开始学习的Conv接下来,我们进行实验来研究正亲和力和负亲和力。正亲和力用于增强正确预测的区域,而负亲和力用于抑制不正确预测的片段。它们一起工作以增强最终的分割预测。如表2所示,单个图,即, 例如,仅正亲和力或仅负亲和力已经达到令人鼓舞的结果,例如,仅正亲和力达到49的mIoU。百分之七。当我们同时采用正亲和度和负亲和度时,得到了进一步的性能改善,这表明正亲和度和负亲和度是相辅相成的通过举例容易理解,当存在具有错误标记的一个“点”时为了与以前的作品进行公平的比较,我们使用ResNet-50基于我们的主干重新实现了一些最先进的作品。我们在表3中进行FCN +除了信道适配层和最终分类器之外,我们的方法主要在等式(1)中引入(2)(4)是一种轻而易举的行为。通过增加这些模块,我们还报告了增加的参数,GPU内存,推理时间到backbone 表3中的比较表明 我们提出的方法在效率和有效性方面的优越性。4.4. 与最新技术水平的在本节中,我们提出了我们的分割结果bencharmks和比较国家的最先进的作品。表4:PASCAL-Context上的测试结果。该方法在COCO-Stuff、ADE 20 K和PASCAL-Context上实现了新的最先进的分割结果。PASCAL上下文。我们在59个类别上测试了我们的细分网络,我们的结果和以前的最先进的作品如表4所示。可以看出,所提出的方法优于基于ResNet-101的先前方法。我们进一步测试我们的方法基于更强的骨干ResNest-101,这实现了最好的mIoU性能57.0%,优于基于HRNetV 2-W 48的OCR的56.2%。ADE20K测试结果见表5。我们报告2000验证图像的结果。可以看出,所提出的方法实现了新的最先进的性能,基于ResNet-101为47.1%,基于ResNest-101为47.9%,优于现有方法。COCO-Stuff测试结果示于表6中。我们测试所提出的场景解析方法超过171 cate- fories,并报告我们的结果1000验证图像。如表6所示,所提出的方法优于先前的 方 法 。 我 们 基 于 ResNet-101 实 现 了 41.9% , 基 于ResNest-101实现了42.6%,显著优于之前基于HRNetV2-W 48的最先进OCR [72]定性结果。我们展示了PASCAL-Context、ADE 20K和COCO-Stuff中的一些分段示例,如图5所示。第二列和方法骨干mIoU %FCN-8s [56]VGG1639.1PixelNet [4]VGG1641.4DAG-RNN [58]VGG1643.7FCRN [67]VGG1644.5DeepLab-v2[8]ResNet10145.7全球背景[29]ResNet10146.5RefineNet [43]ResNet10147.1PSPNet [81]ResNet10147.8CCL [15]ResNet10151.6EncNet [75]ResNet10151.7Dupsampling [60]Xception-7152.5DANet [20]ResNet10152.6SpyGR [40]ResNet10152.8EMANet [42]ResNet10153.1BFP [14]ResNet10153.6CPNet [69]ResNet10153.9HRNet [59]HRNetV2-W4854.0ACNet [21]ResNet10154.1SPNet [26]ResNet10154.5RecoNet [9]ResNet10154.8OCR [72]ResNet10154.8OCR [72]HRNetV2-W4856.2我们ResNet10155.7我们ResNest10157.015855表5:ADE20K的测试结果。图像基线我们的地面实况网络骨干mIoU %图5:定性分割示例。表6:COCO-Stuff的测试结果。第三列是我们的基线结果和所提出的方法的预测。可以看出,所提出的方法显著提高了我们的基线的分割性能,这表明我们的方法可以纠正基线预测中的大部分错误预测片段。5. 结论在这项工作中,我们从一个新的角度来解决场景解析的问题。我们将图像中的所有像素基于给定图像中的像素(特别是属于相同语义区域的像素)彼此高度相关的认识,将相同语义区域作为整体。我们还捕获输入图像的不同区域之间的结构拓扑和亲和力。具体做法是:1)根据粗分割预测将特征图划分到不同的区域,分别提取区域级特征。 2)我们建立一个双向图,其中节点表示区域特征,边表示两个连接节点之间的亲和性。使用双向图区域亲和性推理。3)将亲和度感知节点应用回图像的对应区域,这有助于对区域依赖性进行建模并减轻不切实际的结果。此外,提出了一种语义区域损失,并用于提高像素相关性,并激励网络学习区分区域级别和特定于类别的特征。使用所提出的方法,我们实现了新的国家的最先进的分割结果PASCAL-Context,ADE 20 K,和COCO-Stuff。网络骨干mIoU %SegNet[3]VGG1621.6简体中文[CN]VGG1629.4DilatedNet [71]VGG1632.3DAG-RNN [58]VGG1633.5RefineNet [43]ResNet15240.7PSPNet [81]ResNet10142.0PSANet [82]ResNet10143.8SAC [80]ResNet10144.3EncNet [75]ResNet10144.7SFNet [41]ResNet10144.7CFNet [79]ResNet10144.9CCNet [28]ResNet10145.2ANNet [84]ResNet10145.2[第24话]ResNet10145.4OCNet [73]ResNet10145.5DMNet [23]ResNet10145.5RecoNet [9]ResNet10145.5SPNet [26]ResNet10145.6OCR [72]HRNetV2-W4845.7CPNet [69]ResNet10146.3我们ResNet10147.1我们ResNest10147.9简体中文[CN]VGG1622.7DeepLab [8]VGG1626.9DAG-RNN [58]VGG1630.4RefineNet [43]ResNet10133.6CCL [15]ResNet10135.7OCR [72]ResNet10139.5SVCNet [16]ResNet10139.6DANet [20]ResNet10139.7EMANet [42]ResNet10139.9SpyGR [40]ResNet10139.9ACNet [21]ResNet10140.1OCR [72]HRNetV2-W4840.5我们ResNet10141.9我们ResNest10142.615856引用[1] Radhakrishna Achanta , Appu Shaji , Kevin Smith ,Aurelien Lucchi,PascalFua和SabineSüsstrunk。切片超像素与最先 进 的 超 像 素 方 法 的 比 较 。 IEEE Transactions onPattern Analysis and Machine Intelligence,34(11):2274[2] Pablo Arbelaez,Michael Maire,Charless Fowlkes,andJitendra Malik. 轮 廓 检 测 与 分 层 图 像 分 割 。 IEEETransactionsonPatternAnalysisandMachineIntelligence,33(5):898[3] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet:用于图像分割的深度卷积编码器-解码器架构。arXiv:1511.00561,2015。[4] Aayush Bansal,Xinlei Chen,Bryan Russell,AbhinavGupta,and Deva Ramanan.Pixelnet:Towards a GeneralPixel-LevelArchitecture.arXiv预印本arXiv:1609.06694,2016。[5] Gedas Bertasius,Jianbo Shi,and Lorenzo Torresani.边界神经场语义分割。在CVPR,2016年。[6] Holger Caesar Jasper Uijlings 和 Vittorio Ferrari 可 可 - 东西:上下文中的事物和东西类。在CVPR,2018年。[7] 陈良杰,乔纳森T巴伦,乔治帕潘德里欧,凯文墨菲,和艾伦L尤伊尔。基于cnn和区分训练域变换的特定任务边缘检测语义图像分割。在CVPR,2016年。[8] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille. Deeplab:使用深度卷积网、无环卷积和全连接的crfs进行语义图像分割。arXiv:1606.00915,2016。[9] Wanli Chen,Xinge Zhu,Ruoqi Sun,Junjun He,RuiyuLi,Xiaoyong Shen,and Bei Yu.用于语义分割的张量低秩重构。arXiv预印本arXiv:2008.00490,2020。[10] Yunpeng Chen,Marcus Rohrbach,Zhicheng Yan,YanShuicheng,Jiashi Feng,and Yannis Kalantidis.基于图的全局推理网络。在IEEE计算机视觉和模式识别会议论文集,第433-442页[11] Zhao-Min Chen , Xi-Shen Wei , Peng Wang , andYanwen Guo.用图卷积网络进行多标记图像识别。 在IEEE计算机视觉和模式识别会议论文集,第5177- 5186页[12] 我 的 朋 友 德 夫 费 拉 尔 , XavierBresson 和PierreVandergheynst。具有快速局部谱滤波的图上卷积神经网络。神经信息处理系统的进展,第3844-3852页,2016年[13] Henghui Ding,Scott Cohen,Brian Price,and XudongJiang.短语点击:通过短语和点击实现灵活的交互式分段。欧洲计算机视觉会议,第417-435页。Springer,2020年。[14] Henghui Ding , Xudong Jiang , Ai Qun Liu , NadiaMagnenat Thalmann,and Gang Wang.用于场景分割的边界感知特征传播InProceedings of theIEEE计算机视觉国际会议,第6819-6829页,2019年。[15] Henghui Ding , Xudong Jiang , Bing Shuai , Ai QunLiu,and Gang Wang.上下文对比特征和门控多尺度聚合用于场景分割。在IEEE计算机视觉和模式识别会议上,2018。[16] Henghui Ding , Xudong Jiang , Bing Shuai , Ai QunLiu,and Gang Wang.语义相关性促进了形状变化上下文的分割.在IEEE计算机视觉和模式识别会议论文集,2019。[17] Henghui Ding , Xudong Jiang , Bing Shuai , Ai QunLiu,and Gang Wang.使用上下文编码和多路径解码的语 义 分 割 。 IEEE Transactions on Image Processing ,29:3520[18] Henghui Ding,Chang Liu,Suchen Wang,and XudongJiang.视觉语言Transformer和查询生成参考分割。在IEEE计算机视觉国际会议论文集,2021年。[19] Mark Everingham , Luc Van Gool , Christopher KIWilliams,John Winn,and Andrew Zisserman.pascal视觉对象类(voc)的挑战。国际计算机视觉杂志,88(2),2010年。[20] Jun Fu , Jing Liu , Haijie Tian , Yong Li , YongjunBao,Zhivei Fang,and Hanqing Lu.用于场景分割的双注意网络。在IEEE计算机视觉和模式识别会议论文集,第3146- 3154页[21] Jun Fu,Jing Liu,Yuhang Wang,Yong Li,YongjunBao,Jinhui Tang,and Hanqing Lu.用于场景解析的自适应上下文网络。在IEEE计算机视觉国际会议论文集,第6748-6757页[22] 史蒂芬·古尔德理查德·富尔顿和达芙妮·科勒。将场景分解为几何和语义一致的区域。在国际计算机视觉会议上,第1-8页IEEE,2009年。[23] 何军军,邓仲英,乔宇。用于语义分割的动态多尺度过滤器在IEEE计算机视觉国际会议论文集,第3562-3572页[24] Junjun He,Zhongying Deng,Lei Zhou,Yali Wang,and Yu Qiao.用于语义分割的自适应金字塔上下文网络。在IEEE计算机视觉和模式识别会议论文集,第7519- 7528页[25] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习在IEEE计算机视觉和模式识别会议论文集,2016。[26] 侯启斌、张立、程明明、冯嘉世。条带合并:重新思考场景解析的空间池化。在CVPR中,第4003-4012页[27] Hanzhe Hu,Deyi Ji,Weihao Gan,Shuang Bai,WeiWu,and Junjie Yan.用于语义分割的类级动态图卷积。在ECCV,2020年。15857[28] Zilong Huang,Xinggang Wang,Lichao Huang,ChangHuang,Yunchao Wei,and Wenyu Liu. Ccnet:Criss-cross attention for semantic segmentation.在ICCV,2019年。[29] Wei-Chih Hung,Yi-Hsuan Tsai,Xiaohui Shen,Zhe LLin,Ka
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功