没有合适的资源?快使用搜索试试~ 我知道了~
1258基于早期区域代理的语义分割Yifan Zhang Bo Pang Cewu Lu*上海交通大学{zhangyf_sjtu,pangbo,lucewu}@sjtu.edu.cn摘要典型的视觉中枢操纵结构化特征。作为一种妥协,语义分割长期以来一直被建模为密集规则网格上的逐点预测。在这项工作中,我们提出了一种新的和有效的建模,从解释图像作为一个可学习的区域,其中每个区域具有灵活的几何形状,并进行同质语义的镶嵌开始。按区域建模稠密对应逐像素特征区域对应在上下文中,我们利用Transformer通过在区域嵌入上应用多层自关注来以序列到序列的方式编码区域,区域嵌入充当特定区域的代理。语义分割现在是在编码区域嵌入之上使用单个线性分类器进行每区域预测,其中不再需要解码器。建议RegProxy模型放弃了常见的笛卡尔特征布局,纯粹在区域级别上操作。因此,它表现出最有竞争力的性能效率权衡与传统的密集预测方法相比。例如,在ADE 20 K上,小型RegProxy-S/16使用25%的参数和4%的计算来执行最佳CNN模型,而最大的RegProxy-L/16实现了52.9 mIoU的性能比最先进的设备高出2.1%,但资源更少 。 代 码 和 型 号 可 在 www.example.com 上 获 得https://github.com/YiF-Zhang/RegionProxy。1. 介绍语义分割是计算机视觉中的基本任务之一,自深度学习时代开始以来一直使用CNN进行[10,17,21,27]。然而,考虑到CNN的两个性质,CNN并不是语义分割的开箱即用的解决方案:1)有限的上下文。CNN缺乏捕获上下文建模的长期依赖性的能力,这对于语义分割是必不可少的。2)粗略的预测。由于其分层性质,CNN输出粗糙的特征,这不足以进行密集标记。从根本上说,大多数语义*陆策武是通讯作者,中国上海交通大学人工智能研究所、上海启智研究所清源研究院、MoE人工智能重点实验室成员。图1. 两种不同的语义分割方案的说明。(左)传统的编码器-解码器模型在结构化像素级网格上建立输入和输出之间的密集对应,并以逐像素预测的方式分割图像。(右)我们建议将图像解释为可学习区域的镶嵌,并通过区域级嵌入(即,代理),并使用序列到序列Transformer [11,41]通过每个区域预测来自FCN [27]以来的分割研究一直集中在解决这两个问题上。为了更好的上下文建模[19,50-52 ]和细粒度特征预测[ 6,34,43 ],已经提出了大量的工作目前,来自自然语言处理的Transformer架构[41]被引入视觉社区,并获得了重大的研究兴趣。Vi- sionTransformer(ViT)[11]将图像划分为方形块并对其嵌入进行编码(即,令牌)。它的一些变体[26,44]采用分层结构,并将自我注意力限制在局部区域,以获得更好的可扩展性。最近,一些语义分割工作[38,48,53]采用视觉变换器作为骨干,并取得了令人印象深刻的性能。他们借助视觉转换器的固有优势,即注意力机制,更好地学习上下文。然而,在这些模型中,视觉Transformer透明地用作特征提取器,其提取2D粗略特征,就像其卷积对应物一样,而其主要特征,序列到序列编码器,没有被触及。我们再次讨论上述两个问题:有限的上下文和粗略的预测。而前者是一个必然的结果区域令牌......Transformer1259通过采用Transformer架构或先前的基于CNN的上下文模块可以减轻局部感受野的影响,后者基本上是由网络特征的不灵活的规则(笛卡尔)布局引起的,因为它不遵循真实世界语义的结构:由于典型的视觉主干跨度较大,网格单元中承载的语义混乱,给密集标注带来困难。因此,需要一个“解码器”来产生细粒度的特征。这些事实意味着规则网格可能不是语义分割的最佳特征排列。在这项工作中,我们探索了一种新的语义分割模型,我们认为它更接近其本质:我们试图将图像解释为一组相互关联的区域,其中区域表示具有同质语义的一组相邻像素。如图1所示,我们提出了一种简单的RegProxy方法,该方法在早期阶段学习区域,使用Transformer [41]显式建模区域间关系,并以序列到序列的方式编码区域。我们设计了一种新的机制来描述区域的几何形状,并确保整个区域集的镶嵌,这使得我们能够通过每个区域的预测进行语义整个过程是完全参数化和可区分的,可以有效地进行端到端训练。在这里,我们提出的主要新颖性和贡献这项工作:1)我们不是在规则网格上操作特征,而是在整个网络中操作一组区域嵌入。每个区域嵌入充当特定可学习区域 的 特 征 表 示 , 即 区 域 代 理 。 2) 我 们 没 有 使 用Transformer来提取结构化特征,而是深入研究了它作为序列到序列编码器的本质,并使用它来显式地建模区域间关系。3)我们不是将语义分割建模为使用解码器的逐像素预测,而是通过使用线性分类器直接预测区域嵌入来分割图像。我们通过添加可忽略的开销(约0.5%的参数和GFLOP)在裸ViT [11]上构建模型以进行图像分类,并在不同的模型大小中始终实现最大量的实验表明,RegProxy在多个数据集上的各种模型容量下具有竞争力的性能效率权衡。可以在图2中看到结果。2. 相关工作Vision TransformerTransformer [41]首先引入机器翻译,目前是事实上的ViT-L/16RegProxy HybridR50+ViT-L/32RegProxyViT-L/16ViT-B/16MiT-B5MiT-B4MiT-B3ViT-L/16ViT-S/16ViT-B/16Swin-SSwin-BMiT-B2ResNeSt-101ViT-S/16ResNet-101Swin-TResNet-50ViT-Ti/16HRNet-W48MiT-B1HRNet-W18ViT-Ti/16MiT-B0图2. 性能与ADE20K值拆分时的GFLOP。我们报告的结果没有多尺度推理。RegProxy在最先进的方法中表现出高度竞争性的性能效率权衡。最好用彩色观看。Sion Transformer ( ViT ) 直 接 继 承 了 NLP 的Transformer[41]架构,并作为独立模型工作。ViT获得了显著的研究兴趣,并提出了一些改进的模型。通常,视觉转换器的架构可以是顺序的或分层的。序列模型(包括原始ViT [11])将图像划分为补丁,并通过计算全局自注意力以序列到序列的方式对输入进行编码。DeiT [39]在强大的数据扩充和知识蒸馏的帮助下,成功地在ImageNet-1 k [10CaiT [40]提出了分层缩放技术和稍后的类令牌,用于深度视觉变换器的XCiT[12]提出了对特征维度进行操作的互协方差注意力,以构建更具可扩展性的视觉变换器。分层模型[26,44]从CNN借用了一些图像特定的归纳偏差,例如平移等方差和规则网格上的2D邻域结构。它们在局部窗口内计 算 at- tentions 并 产 生 分 层 的 2D 特 征 。 SwinTransformer [26]是最具启发性的层次视觉变形金刚之一。通过移位窗口设计,它带来了更好的效率,同时允许跨窗口连接以实现更好的特征提取。大多数自然语言处理(NLP)任务的标准。所提出的注意力机制也激发了计算机视觉领域的许多工作[18,45,46]。 值得注意的是,注意力在上下文信息至关重要的语义分割[13,19,22,55]最近,Dosovitskiy etal.”[11]他说。自完全传统的架构出现以来,语义分割一直被建模为密集预测。FCN [27]奠定了现代语义分割模型的基础,这是第一个采用完全卷积神经网络以端到端的方式分割具有任意尺度的图像。的1260联系我们我们修改了对补丁进行编码的vanilla ViT [11],使得对超像素进行编码变得可行:从输入图像IRH×W×3生成N个超像素s i。不规则的超像素通过其封闭的边界框被裁剪,并且被调整大小为固定大小的补丁{xi},其中xi∈RP×P×3,使用ROIAlign [16]实现表1. 中试实验结果。我们报告基线结果与/不与最终logits地图的双线性上采样。基线使用原始补丁嵌入[11],并作为步幅为16的典型分割模型工作,而我们的原型模型嵌入非参数区域(即,超像素)。以下工作继承了完全卷积设计,我们使用vanilla ViT中的精确线性补丁嵌入来嵌入xi,产生具有维度D的N个令牌,然后以序列到序列的方式对其进行编码。代替逐像素预测,我们通过对每个标记应用线性分类器来直接对区域进行分类为了监督,软标签yi应用于第i个到k en。我们有一个y[c]=|{p∈si|y(p)=c}|,c∈{0,1,. -是的-是的,K−1}(1)专注于更好的上下文建模。努力已经投入,|si|在显著提高语义分割性能的一个或多个方面:1)使用更大的内核或扩张卷积扩大感受野[3,4,31,49];2)Inte-栅格多尺度特征[5,6,20,52]; 3)细化上下文信息[24,50,51]; 4)利用注意力[13,19,22,55];5)搜索或设计指定的主干[23,30,32,43]。最近,一些作品利用Transformer进行语义分割。SETR [53]是第一个将视觉Transformer骨干引入语义分割的人。Segmenter [38]利用Transformer来预测每个类的掩码。SegFormer [48]和DPT [32]提出了专门为密集预 测 任 务 设 计 的 分 层 视 觉 Transformer 骨 干 。MaskFormer [7]使用Trans- former Decoder [41]从传统的编码器-解码器模型中查询具有掩码的类我们强调,我们的工作与这些方法有重大区别:我们使用裸Transformer来对区域间关系建模,而不是将其用作现有密集预测架构的可替换模块或额外模块。3. 区域代理在介绍我们的主要模型之前,我们首先提出了一个朴素的区域代理实例,用于概念证明。我们重新审视经典的超像素分割[33]。超像素是通过基于低级信息(例如,颜色)。它为高级视觉任务(包括语义分割)提供了低/中级图像表示[14,15,36]。在我们的初步研究中,我们采用广泛使用的SLIC [1]方法来生成非参数区域,以验证我们的区域代理概念。区域作为超像素本质上,我们试图通过分类超像素来批量标记像素。这意味着具有相似低级属性的附近像素应该是语义同质的。这一假设将在第5.3节以及第4节介绍的主要模型中进行分析。目前,我们在这个前提下建立我们的原型模型。其中y∈(p)是pi x elp的标签,K是类的数量。 名称y,y_i是超像素s_i内的像素的灰度直方图。实验为了设置基线,我们将相同的线性分类器应用于vanilla ViT的输出令牌。因此,基线和我们的原型模型之间的唯一区别是计算原语:是一个正方形的小块还是一个区域。训练方案与第5节中描述的我们的主要实验相同。在表1中,我们报告了三种型号变体ViT-{Ti/16、S/16、B/16}在ADE 20 K和Cityscapes上的结果我们观察到较小模型的证据性能增益,随着模型变大而消失。我们假设引入的低水平先验有利于小模型,然而,其固有噪声(即,不准确的超像素)成为较大模型的瓶颈。我们还注意到最终双线性插值作为标准实践的重要性:如果没有它,基线模型会进行补丁分类,这是超像素模型的退化,并且会产生更差的性能。4. 方法上述试点实验激励我们探索更好的区域代理建模的实例化。在本节中,我们介绍了RegProxy模型,该模型计算区域嵌入(作为令牌),这些区域嵌入用作特定可学习区域的计算代理,并利用Transformer [11,41]对区域上下文进行建模我们首先在4.1节中提供关于区域上下文建模的Transformer的基本信息。我们在4.2节中介绍了区域几何的学习和区域特征的嵌入。最后,我们从系统的角度回顾了RegProxy模型,并在第4.3节中将训练/推理描述为每个区域的预测。4.1. Transformer作为区域编码器Transformer是一种序列到序列模型,它在计算骨干方法#params。FLOPsADE20K城市景观ViT-Ti/16 基线5.7M3.8G39.0/37.872.3/68.1我们--40.9(+1.9)74.1(+1.8)ViT-S/16基线22.0M14.9G45.4/44.276.1/71.8我们--46.0(+0.6)75.9(-0.2)ViT-B/16基线86.6M58.8G47.1/45.678.5/75.11261××ΣΣ图3. 我们的RegProxy方法概述。序列到序列Transformer编码器以标记的形式计算区域嵌入,这些标记用作特定区域的代理,这些特定区域的几何形状由类别不可知的像素-标记关联描述。值得注意的是,我们完全在区域级别上对全局上下文进行建模,而没有任何典型的区域嵌入和它的几何描述使用代理头联合学习。采用单个线性分类器进行每个区域的预测。根据相应的区域几何形状,将区域类logit简单来自NLP [41]中的Transformer的True,伴随着为视觉任务设计的茎模块。在这项工作中,我们遵循[11,39]中ViT模型的标准定义我们的RegProxy-{Ti/16,S/16,B/16 , L/16} 模 型 基 于 使 用 补 丁 嵌 入 主 干 的 vanillaViT,而我们的RegProxy-{R26+S/32,R50+L/32}模型基于使用CNN主干的混合ViT。这些ViT从(一)(b)第(1)款总跨距和层数、嵌入尺寸和图4. RegProxy模型的更多细节。(a)代理头的图示,其中+代表逐元素添加,ρ代表维度的重塑和重新排列。(b)用局部像素-区域关联描述区域几何。原 语 , 即 代 币 在 这 项 工 作 中 , 我 们 充 分 利 用Transformer架构,通过使用自注意直接建模区域间关系来虽然区域学习和嵌入将在4.2节中讨论,但在本节中,我们简要介绍Transformer编码器的原理。假设已经产生了N个区域嵌入,我们将Transformer输入写成一个令牌序列:注意头。详细质量标准见表2,描述见第5节。4.2. 学习区域代理如图3所示,我们的区域代理方法有两个重要的组件:区域特征及其几何特征。在本节中,我们介绍区域特征嵌入及其几何描述。由于区域的形状不规则,尺度不一,学习和描述区域的几何形状并不是很简单。一个直观的想法是预测每个区域的二进制掩码,要么是图像,X= x0,x0,x0,. - 是的- 是的 ,x0T∈R(N+1)×D, (2)在一个区域内或在一个区域内。然而,我们发现,0cls0 1 N−1其中,D是嵌入维数,并且类为-在图像识别任务中,KenXCLSTransformer编码器由L个堆叠层组成,每个堆叠层由多头自注意(MSA)块和其后的具有两个线性投影层的多层层归一化[2]和剩余连接适用于MSA和MLP块。在数学上,我们可以将层l的计算写成我们的序列到序列建模的实际方法。预测每个标记的全尺寸掩模将在计算上是昂贵的,而预测小尺寸局部掩模不能确保区域的镶嵌,因此导致重叠和非预测区域。为此,我们提出了一种新的机制来描述区域几何像素到令牌的关联。我们从初始的H-W网格开始,其中H-W=N。 每个标记位于单个单元格上,该单元格用作其对应区域s的注意,细胞本身只是一个-Al= MSA(LN(Xl−1))+Xl−1,Zl= MLP(LN(Al−1))+Al−1,其中输出Z1被用作下一层的输入。(三)ken位置指示符,并且与实际区域几何形状无关。 我们建立像素到令牌的关联通过将每个像素p=(u,v)分配给具有概率qs(p)的区域s。这是不必要的应用这种关联球-Vision Transformer(ViT)继承了确切的架构。相反,我们只将像素p与放置dim=0dim=0区域嵌入标记区域类logits绘画代理头区级符记头符记分支线性分类器输入协会分会( )logits图像素级亲和压头区域几何学作为像素-令牌关联图像POS.embed.符记头导杆模块+×���early���×���层亲和压头conv× × 9ρ× × 9������������模块( )序列到序列Transformer编码器1262Σ∈×××∈∈××××Σ∈×××ΣΣ在它的邻域Np中,满足qs(p)=1(4)s∈Np这在图4b中示出,因为像素p被分配给9个区域种子(用红色框标记)之一,在其周围邻域中(在绿色框中)。在数学上,我们可以将关联写为类不可知的亲和映射QR(Hh)×(Ww)×| Np|在像素级,其描述所有区域的实际几何形状,其中(Hh)(Ww)匹配输出片段a的大小。 而(h,w)是初始标记的相对步幅网格根据经验,我们将邻域大小设置为3×3,|= 9,适用于所有型号尺寸。|= 9, which works wellthrough-out all model sizes.对于直观的解释,该区域由“核心”表示(即,标记在Eq. 在图4中,整个概率区域集合形成覆盖图像平面而没有重叠和间隙的测试。同时,即使没有显式正则化,区域也会学习到高度语义均匀,这将在第5.3节中讨论。这些事实使我们能够以每个区域预测的方式分割图像。我们联合嵌入区域特征,并使用图4a中描绘的代理头部来学习它们的几何描述Q。为了将区域特征嵌入到令牌中,我们使用ViT主干的一小部分作为令牌头。我们采用[11]中的精确词干模块以及可学习的位置嵌入,这会产生N个维度为D的标记,其中N=H W。 主干模块可以是用于vanilla ViT模型的线性贴片投影,或用于混合模型的CNN(参见第5节)。对于我们的vanilla ViT模型,我们进一步应用前M个Transformer层以获得更好的特征提取。为了预测区域几何描述Q,我们设计了一个轻量级的亲和头,它与ViT骨干高度集成,带来了可以忽略不计的额外参数和计算。如图4a所示,我们直接使用来自令牌头部的特征来预测亲和图Q具体地说,令 牌 特 征 TRN×D 根 据 其 初 始 布 局 被 整 形 为T′RH×W×D,然后被馈送到卷积模块。卷积模块融合局部区域信息并产生HW(9hw)特征图,因为我们批量预测每个单元内所有hw像素的亲和向量然后将紧凑的地图仿射映射Q∈R(Hh)×(Ww)×9.详细地说,卷积模块由一个33深度方向的conv层,后面是一个11conv层组成。亲和图由Softmax激活以产生正常的-概率化值得注意的是,我们发现了一些有趣的事实,关于选择早期层的数量M进行亲和预测,这将在第5.3节中讨论。4.3. 按区域预测根据我们的假设,区域嵌入在整个Transformer网络中携带同源语义。这使我们能够直接预测区域而不是像素,而不是传统的FCN风格模型[6,26,27,48],因此显着减少了预测的数量。如图3所示,我们在Transformer主干的最后一层输出XL上应用线性分类器线性分类器为除xcls之外的所有标记生成类logit:Y= y0,y1,. - 是的- 是的 ,yN−1T ∈RN×K,(5)其中K是类的数量。我们可以很容易地获得像素级的分割结果,使用区域几何描述Q在4.2节中介绍。我们简单在实践中,我们以每像素的方式进行绘制,以实现高效的实现。对于像素p=(u,v),其类别logits由下式计算:Y′[u,v]=y(s)·qs(p),(6)s∈Np其中Y′R(Hh)×(Ww)×K是输出logits映射,y(s)是区域s对应的token的类logits。在实践中,我们设置(h,w)=(4,4),对于RegProxy-x/16模型产生4步logits映射,对于RegProxy-x/32模型产生8步logits映射。我们的模型是使用交叉熵损失进行端到端训练的,没有类别平衡或硬示例挖掘。输出logits图被上采样到地面实况/输入大小,以在训练期间进行监督,并在遵循标准实践的推理期间进行预测。5. 实验我们在三个公共数据集上研究RegProxy:ADE20K[54]、Cityscapes [9]和Pascal Con-text [29]。ADE20K是一个具有挑战性的场景解析数据集,包含150个类,其中包含20 210张用于训练的图像和2000张用于验证的图像。Cityscapes是一个具有19个类的高分辨率街道场景数据集。我们在5000个精细注释的训练图像上进行训练,并在500个验证图像上进行测试Pascal Context包含4996个训练图像和5104个验证图像,60个类(包括一个背景类)。我们报告所有类的交集对并集的平均值(mIoU)。ViT骨干我们在[11,37]中定义 我们对六种变体进行了广泛的实验:有四种规格(小,小,基础和大)的vanilla ViT 和 两 种 规 格 ( 小 , 大 ) 的 混 合 ViT 。VanillaViTs使用块嵌入作为主干,将图像划分为P-P块,而每个块被平坦化并线性投影到D维嵌入。对于混合ViT,投影将应用于1263×××∈∈× ××方法FLOPs #params.ADE20K(SS/MS)城市景观(SS/MS)表2. ViT变体的数量。(上图)Vanilla ViT使用补丁嵌入。(下)Hybrid ViT使用ResNet [17] stem。通过残差卷积网络[17]进行重构,因此补丁大小相当于CNN我们为vanilla ViTs设置P=16,为hybrid ViTs设置S=32。即,初始H W令牌网格分别具有步幅16和32。较大的步幅通常会降低性能,同时需要较少的计算。详细配置见表2。我们使用ImageNet-21 k [37]上预先训练的权重,遵循最近的工作[26,38,53]。实现细节我们使用公共代码库mmsegmentation[8]实现我们的方法。我们在-*绿色为至少+2.0mIoU的间隙。表3. 比较视觉Transformer的不同集成。我们报告了基线的结果,来自Segmenter [38],UperNet [47]和我们的Reg- Proxy的最先进的Mask Transformer。我们还报告了来自SETR [53]的数字以供参考。对社区广泛使用的默认设置进行最小的更改。对于训练,我们分别为ADE 20K 、Cityscapes 和PascalContext使用512 512、768 768和480 480的输入大小我们使用640 640 crop在ADE 20K上训练我们的 我们使用AdamW [28]优化器,其初始学习率为6 10−5,权重衰减为10−2,以及幂= 1的“poly”学习率调度器[ 4 ]。0以下[12,26,48]。我们使用16的批量大小并训练分别在ADE 20K、Cityscapes和Pascal Context上进行160k、80k和40k次迭代。我们保持数据增强和所有其他训练设置与[8]中的默认设置相同。训练技巧,如硬例子挖掘,辅助损失或类平衡损失不包括在内。为了测试,我们使用滑动窗口模式,窗口大小与训练的作物大小相匹配。我们在[8]中使用了默认窗口步长。我们报告单尺度结果和多尺度+翻转结果与缩放因子的{0. 5,0。75,1。0,1。25,1。五一75}。5.1. 主要结果基线为了设置基线,我们简单地将线性分类器附加到裸ViT以产生每个补丁的预测YRN×K。 然后,逐块logit被重塑为它们的原始2D布局YRH×W×K,并按照标准分割流水线进行上采样,以达到图像大小的训练和推理。它可以被解释为步幅16的典型分割模型。该设置与[ 38 ]中的由于它们与用于图像分类的vanillaViT [11]没有结构差异,因此我们将基线模型简单地称为ViT-x/16其中x ∈{Ti,S,M,L}。结果我们比较了不同集成的视觉Transformer的语义分割。表3总结了结果。我们的RegProxy方法在所有模型大小中带来持续的性能提升,一个证据缺口(在ADE 20 K 上 为 2~3 mIoU , 在 Cityscapes 上 为 2~4mIoU),而开销可以忽略不计(对于最大的模型,小于2 M参数和1 GFLOPs计算)。它也明显优于携带重型 解 码 器 的Seg-menter [38] 。此 外 , 我 们 注 意 到Segmenter在较小模型上的性能退化,这在我们的方法中没有观察到。作为参考,我们还报告了SETR [53]的结果,该结果将不同的卷积解码器附加到ViT-L/16骨干和我们运行的UperNet [47]结果。通过这些结果,我们可以表明,我们的区域代理模型是一个更有效和高效的方式来利用视觉变换器在语义分割相比,编码器-解码器的计划。5.2. 跨架构ADE20K我们与最先进的ADE20K方法进行了全面比较。图2中的结果表明,RegProxy在性能-效率权衡方面是最具竞争力的模型之一。RegProxy始终优于最先进的Seg-menter [38],它使用与我们相同的ViT骨干和预训练与最近的SegFormer [38]、Swin- Transformer [26]和SETR [53]相比,它也显示出表4给出了关于参数、GFLOP、推理速度和性能的更详细的比较。最小的RegProxy- Ti/16实现了42.1 mIoU,只有5.8 M参数,3.9 GFLOPs,并运行在38.9 FPS的速度,这出-骨干步幅干层数 昏暗 头数#参数Ti/1616补丁嵌入。1219236MS/1616补丁嵌入。12384622MB/1616补丁嵌入。127681286ML/1616补丁嵌入。24102416307MR26+S/3232ResNet[2,2,2,2]12384637MR50+L/3232ResNet[3,4,24102416330MViT-Ti/16+口罩T3.8G+1.0G5.7M+1.0M39.038.1(-0.9)39.838.8(-1.0)72.3-74.1-+我们的+0.1G+0.1M42.1(+3.1)43.1(+3.3)76.5(+4.2)77.7(+3.6)ViT-S/1614.9G22.0M45.445.976.178.0+口罩T+4.2G+4.1M45.3(-0.1)46.9(+1.0)--+我们的+0.2G+0.2M47.6(+2.2)48.4(+2.5)79.8(+3.7)81.5(+3.5)ViT-B/1658.8G86.6M47.148.178.580.5+UperNet+336G +57.6M47.9(+0.8)49.5(+1.4)79.6(+1.1)80.9(+0.4)+口罩T+17.1G +16.0M48.7(+1.6)50.1(+2.0)-80.6(+0.1)+我们的+0.7G +0.7M49.8(+2.7)50.5(+2.4)80.9(+2.4)82.2(+1.7)ViT-L/16325.0G 304.3M50.751.878.480.7+口罩T+44.5G +28.5M51.8(+1.1)53.6(+1.8)-81.3(+0.6)1264×图5. ADE20K和Cityscapes的定性比较。与Segmenter [38]相比,我们的模型产生了更准确的轮廓(白色框),与DeepLabV3+[6]相比,捕获了更一致的上下文(黄色框)最佳观赏放大。方法骨干作物 FLOPs #params。MiouD.LabV3+[6]ResNet-187692992G12M76.3/77.9OCRNet [50]HRNet-W18充分424G12M78.6/80.5SegFormer [48]MiT-B0768252G4M75.3/-SegFormer [48]MiT-B110242244G14M78.5/80.0RegProxyViT-Ti/16768269G6M76.5/77.7RegProxyViT-S/167682270G23M79.8/81.5OCRNet [50]HRNet-W48充分小行星1297G70M80.7/81.9[25]第二十五话NAS-F487692-44M-/80.4[42]第四十二话Axial-D.Lab-XL-小行星2447G173M-/81.1D.LabV3+[6]ResNeSt-200充分-88M-/82.7SETR [53]ViT-B/167682-98M79.5/-SETR [53]ViT-L/167682-318M79.3/82.2分段器[38]ViT-B/167682 小行星1344G103M-/80.6分段器[38]ViT-L/167682-337M79.1/81.3RegProxyViT-B/167682 1064G88M81.0/82.2RegProxyViT-L/167682-307M81.4/82.7* 最后一组中除DPT外的所有型号均使用较大的640 × 640裁剪。表4. 与最先进的ADE 20K值分割方法的比较。 我们报告单/多尺度结果。我们根据模型容量和计算成本对方法进行分组,以进行细粒度比较。欢迎进行跨组比较以较大的裕度(大于4.0 mIoU)执行最佳效率模型我们的小模型RegProxy-S/16已经超越了最重的CNN模型(DeepLabV 3 + w/ResNeSt- 200),仅使用25%的参数和4%的计算。中等大小的RegProxy-B/16显著优于所有CNN模型,计算量少得多。最大的RegProxy-L/16在没有多尺度干扰的情况下达到52.9 mIoU,比Segmenter[38]好1.1 mIoU。混合模型也取得了显着的效果,即使是一个大跨步的骨干。RegProxy-[R26+S/32]实现了47.8/49.1 mIoU,而RegProxy-[R50+L/32]在基于大型Transformer的模型中仅使用1/4的计算就实现了相当的51.0/51.7 mIoU。一般-表5. 与Cityscapesvalsplit的最新方法进行比较。The “full” cropindicates the whole image inference, while others indicate the当然,由于简洁的设计,我们的RegProxy在不同大小的模型中以更高的帧速率运行Cityscapes 和 Pascal Context 在 表 5 中 , 我 们 比 较 了Cityscapes上最先进的方法。我们观察到与ADE 20K相似的结果我们的RegProxy-{Ti/16,S/16}以约1.2 mIoU的裕度优于其同行。我们的RegProxy-{B/16,L/16}与更大的型号相比,还实现了最先进的性能。值得注意的是,它们使用相同的主链比SETR [53]和Segmenter[38]的性能高约2 mIoU我们注意到,在Cityscapes上,从模型容量中获得的性能往往会在较大的模型上饱和。RegProxy-L/16仅比RegProxy-B/16高0.4 mIoU(使用 两 种 512 和 512 作 物 , ADE 20 K 上 的 差 距 为 2.2mIoU)。 这也是在SETR [53]和Segmenter [38]上观察到的。我们假设这是由于Cityscapes的背景更简单。我们在表6中报告Pascal上下文的结果。RegProxy-L/16实现了58.4 mIoU,显著优于最先进的CNN模型,并使用更少的资源实现与Segmenter相当的性能[38]我们在图5和补充材料中提供了方法骨干FLOPs #params.MiouFPS简体中文[CN]MobileNetV239.6G9.8M19.7/-64.4D.LabV3+[6]MobileNetV269.4G15.4M34.0/-43.1SegFormer [48]MiT-B08.4G3.8M37.4/38.050.5分段器[38]ViT-Ti/164.9G6.7M38.1/38.8-RegProxyViT-Ti/163.9G5.8M42.1/43.138.9OCRNet [50]HRNet-W1855G12M39.3/40.818.9SegFormer [48]MiT-B116G14M42.2/43.147.7分段器[38]ViT-S/1619G26M45.3/46.929.8MaskFormer [7]Swin-T55G42M46.7/48.822.1RegProxyViT-S/1615G22M47.6/48.532.1RegProxyR26+ViT-S/3216G36M47.8/49.128.5OCRNet [50]HRNet-W48165G71M43.2/44.917.0D.LabV3+[6]ResNet-101255G63M45.5/46.414.1D.LabV3+[6]ResNeSt-200345G88M-/48.4-分段器[38]ViT-B/1676G103M48.7/50.114.6RegProxyViT-B/1659G87M49.8/50.520.1DPT [32]DPT-Hybrid-123M-49.0-SETR [53]ViT-L/16422G318M48.6/50.14.5SegFormer [48]MiT-B5183G85M51.0/51.89.8分段器[38]ViT-L/16370G333M51.8/53.6-RegProxyR50+ViT-L/3282G323M51.0/51.712.7RegProxyViT-L/16326G306M52.9/53.46.6126598.1 85.1 92.4 62.7 64.8 54.1 66.8 76.6 92.1 67.7 94.4 80.5 64.7 95.0 86.5 92.2 86.3 67.676.2+0.1 +0.6 +0.7 -4.0 -2.0 +15.0+7.1 +4.5 +0.6 -1.8 +1.0 +3.3 +2.7 +0.7 -7.5 -4.5 -5.6 +0.4 +2.6D实验室+0.2 +1.2 +0.8 -0.7 +0.5+11.8 +5.8 +4.3 +0.8 +1.7 +0.9 +3.2 +3.6 +0.8 +0.6 -1.1-0.8 +6.1 +3.4我们的表6. 与Pascal Contextval split的最新方法进行比较。5.3. 分析和消融研究在本节中,我们介绍了最重要的分析和消融研究。由于篇幅有限,我们在补充材料中介绍区域语义我们分析区域的语义同质性,其使用“区域熵”来描述:我们使用等式计算每个区域内的每像素类别直方图。1.计算它们的熵[35]。我们分析了整个ADE20K值分割上的区域熵分布,涉及三个源:常规分割模型使用的规则单元,如[38],我们的试点研究中使用的超像素,以及从我们的RegProxy方法中学习的区域。结果示于图6中。虽然我们没有应用任何显式正则化,但学习区域仍然表现出与规则单元和超像素高度紧凑的语义在图6的右侧部分,我们在Cityscapes验证图像的微小作物上可视化了许多令牌请注意,这些区域是类不可知的(作为像素和附近标记的关联),并且从浅层特征中学习但是,它们仍然捕获高级类的细粒度边界。这表明我们模型中的计算原语(即,tokens)与CNN或在结构化特征上进行计算的其他视觉Transformer模型相比,携带更多统一的语义,这可能导致更容易的优化,因此性能更好。在图7中,我们分析了Cityscapes上的每个类的性能。与基于Transformer的Segmenter [38]相比,DeepLabV 3+[6]擅长处理小/瘦类(例如,交通标志,杆)由于其步幅小,但在混淆类(例如,公共汽车、墙壁),这需要更广泛的背景。我们的区域代理建模具有它们的优点,并且在所有类上都优于或与这两种方法相当。RegProxy-L/16规则网格超像素图6. (左)通过核密度估计(KDE)估计的区域熵分布。熵为0的区域将被忽略。(右)类不可知区域的几何特征及其相应的标记(使用白色单元格标记)。图7. 在城市 风景中的 每一个班级 的表现。 我们报告了DeepLabV 3+和我们的RegProxy-L/16模型与Segmenter-L/16的
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功