没有合适的资源?快使用搜索试试~ 我知道了~
k-均值掩码Transformer:用于图像分割的新型视觉模型
+v:mala2255获取更多论文k-均值掩码TransformerQihang Yu1,Huiyu Wang1,Siyuan Qiao2,Maxwell Collins2,YukunZhu2,Hartwig Adam2,Alan Yuille1,and Liang-Chieh Chen21约翰霍普金斯大学2谷歌研究抽象的。transformers在视觉任务中的兴起,不仅推进了网络骨干设计,也开启了实现端到端图像识别的全新一页(例如目标检测和全景分割)。transformer架构起源于自然语言处理(NLP),由自我注意和交叉注意组成,有效地学习序列中元素之间的远程交互。然而,我们观察到大多数现有的基于transformer的视觉模型只是借用了NLP的思想,忽略了语言和图像之间的关键差异,特别是空间平坦像素特征的极大序列长度。这随后阻碍了像素特征和对象查询之间的交叉注意的学习。在本文中,我们重新思考像素和对象查询之间的关系受传统k-均值聚类算法的启发,我们开发了一个用于分割任务的k-均值MaskX former(kMaX-DeepLab),它不仅改进了现有技术,而且设计简单优雅。因此,我们的kMaX-DeepLab在COCOval集上实现了最先进的性能,PQ为58.0%,Cityscapesval集为68.4% PQ,44.0% AP和83.5% mIoU,无需测试时间增强或外部数据集。我们希望我们的工作可以为设计视觉任务量身定制的变压器提供一些启发。代码和模型可在https://github.com/google-research/deeplab2上获得。关键词:分割; Transformer;k-均值聚类;1介绍变 形 金 刚 [89] 在 计 算 机 视 觉 领 域 受 到 越 来 越 多 的 关 注 一 方 面 ,Transformer编码器以多头自注意力为中心组件,在各种视觉识别任务中构建强大的网络架构方面表现出巨大的潜力[93,32,70]。另一方面,以多头交叉注意为核心的Transformer解码器提供了一种全新的方法,以端到端的方式解决复杂的视觉识别问题,无需手工设计的算法。最近,开创性工作DETR [10]引入了第一个具有变压器的端到端对象检测系统在这个框架中,像素特征在Google实习期间完成的工作arXiv:2207.04044v1 [cs.CV] 2022年7+v:mala2255获取更多论文2Q. Yu等人首先通过卷积神经网络[58]提取,然后部署几个Transformer编码器进行特征增强,以捕获像素之间的长距离相互作用。之后,一组可学习的位置嵌入,命名为对象查询,负责与像素特征交互,并通过几个交错的交叉注意和自注意模块聚合信息。最后,由前馈网络(FFN)解码的对象查询直接对应于最终的边界框预测。沿着相同的方向,MaX-DeepLab [92]证明了变压器在具有挑战性的全景分割任务[55]中的可行性,其中现有技术[54,100,21]通常采用涉及手工设计的几何学的复杂流水线。该框架的本质在于将对象查询转换为掩码嵌入向量[49,87,97],该向量用于通过与像素特征相乘来产生一端到端的基于transformer的框架已经成功地应用于多个计算机视觉任务的帮助下,transformer解码器,特别是交叉注意模块。然而,幕后的工作机制仍不清楚。来自自然语言处理(NLP)社区的交叉注意最初是为语言问题设计的,例如神经机器翻译[86,4],其中输入序列和输出序列共享类似的短长度。当涉及到某些视觉问题时,这种隐式搜索变得有问题,其中在对象查询和具有过大长度的空间平坦像素特征之间执行具体地,通常采用少量的对象查询(例如,128个查询),而输入图像可以包含用于检测和分割的视觉任务的数千个像素每个对象查询都需要学习在交叉注意学习过程中突出显示丰富像素中最可区分的特征,这随后导致训练收敛缓慢,因此性能较差[112,37]。在这项工作中,我们做出了一个重要的观察,即交叉注意方案实际上与传统的k均值聚类[72]具有很强的相似性,将对象查询视为具有可学习嵌入向量的聚类中心。或我们对相似性的研究启发我们提出了新的k-meansMa skX former(kMaX-DeepLab),它重新考虑了像素特征和对象查询之间的关系,并从k-means聚类的角度重新设计了交叉注意力。具体地,当更新聚类中心(即,对象查询),我们的kMaX-DeepLab执行不同的操作。我们的k MaX-DeepLab不是像原始Mask Transformer的交叉注意力[ 92 ]那样在大空间维度(图像高度乘以宽度)上执行softmax然后,我们通过基于像素聚类分配(由其特征亲和度计算)聚合像素特征来更新聚类中心,类似于k均值中心更新步骤。尽管概念上很简单,但修改具有显着的影响:在COCOval set [66]上,使用标准ResNet-50 [41]作为主干,我们的kMax-DeepLab证明了5.2%PQ的显着改进,+v:mala2255获取更多论文k-表示掩码Transformer 3原始的交叉注意力方案,额外的参数和FLOP的成本可以忽略不计。与最先进的方法相比,我们的k具有简单ResNet-50主干的MaX-DeepLab已经比具有MaX-L [92]主干的MaX-DeepLab [92]性能高出1.9%PQ,同时需要的参数和FLOP分别减少7.9和22.0倍。我们的kMaX-DeepLab与ResNet-50也优于MaskFormer [24],具有强大的ImageNet-22 K预训练Swin,L [70]骨干,运行速度快4.4倍。最后,我们的kMax-DeepLab使用现代ConvNeXt-L [71]作为骨干,在COCOval set [66]上设置了一个新的最先进性能,具有58.0% PQ。它在Cityscapesval set上的表现也优于其他最先进的方法[28],实现了68.4%的PQ,83.5%的mIoU,44.0%的AP,而无需使用任何测试时间增强或额外的数据集预训练[66,75]。2相关作品变压器. Transformer [89]及其变体[57,94,74,26,8,106,39,2]通过捕获跨模态[4]或单个上下文[25,89]的关系,推进了自然语言处理任务[31,82,30]在com-计算机视觉、Transformer编码器或自注意模块与卷积神经网络(CNN)[96,9]结合使用,或用作独立的骨干[80,44,93,32,70]。这两种方法都促进了各种视觉任务,例如图像分类[19,7,80,44,64,93,32,70,105,101],图像生成[77,42],对象检测[96,83,80,43,10,112],视频识别[96,19,3,33],语义分割[17,108,46,35,113,111,109,99,11]和全景分割[93]。屏蔽用于分割的变换器。除了用作骨干外,变压器也被用作图像分割的任务解码器。MaX- DeepLab [92]提出了用于端到端全景分割的MaskX成形器(MaX)。Mask transformers预测类别标记的对象掩码,并通过匈牙利语将预测的掩码与地面真实掩码进行匹配来训练。 掩码变换器的基本组成部分是将对象查询转换为掩码嵌入向量[49,87,97],用于生成预测掩码。Segmenter [85]和MaskFormer [24]都将掩码变换应用于语义分割。K-Net [107]提出了用于生成掩码的动态内核。CMT-DeepLab [104]建议使用额外的聚类更新项来改善交叉注意力。PanopticSegformer [65]通过可变形注意力[112]增强了掩码Transformer,而Mask2Former[23]通过掩码交叉注意力以及一系列技术改进(包括级联Transformer解码器、可变形注意力[112]、基于不确定性的点式监督[56]等)进一步提升了性能。这些掩模Transformer方法通常优于将全景分割分解为多个代理任务(例如,预测每个检测到的对象边界框的掩码[40],然后用合并模块[ 62,78,67,103,100,60 ]融合实例片段此外,掩模变换器在视频分割方面取得了很大的成功问题[52,20,61]。+v:mala2255获取更多论文i=14问。Yu等人用于分割的聚类方法。传统的图像分割方法[72,110,1]通常将图像强度聚类到一组逐渐增长或细化的掩模或超像素中。然而,这是具有挑战性的,这些传统的方法来捕捉高层次的语义。现代基于聚类的方法通常对语义片段[13,15,18]进行操作,并将“事物”像素分组为具有各种表示的实例片段,例如实例中心回归[50,88,76,102,22,93,63],分水岭变换[90,5],Hough投票[6,59,91]或像素亲和度[51,69,84,36,47]。最近,CMT-DeepLab [104]讨论了掩码变换器和聚类算法之间的相似性然而,他们只使用聚类更新作为交叉注意力的补充术语在这项工作中,我们进一步发现掩码变换和k-均值聚类算法之间的潜在相似性,从而产生一个简单而有效的k-均值掩码变换。3方法在本节中,我们首先概述了MaX-DeepLab [92]提出的基于掩模变换器的分割然后,我们重新审视了Transformer交叉注意力[89]和k均值聚类算法[72],并揭示了它们潜在的相似性。之后,我们介绍了所提出的k-均值MaskX former(kMaX-DeepLab),它从聚类的角度重新设计了交叉注意力尽管简单,kMaX-DeepLab有效地显著提高了分割性能。3.1基于Mask-Transformer的分割框架变压器[89]已被有效地部署到分割任务。不失一般性,我们在以下问题公式中考虑全景分割[55],其可以很容易地推广到其他分割任务。问题陈述。 全景分割的目的是分割图像I∈RH×W×3转化为一组具有相关语义标签的非重叠掩码K K{yi}i=1={(mi,ci)}i=1。(一)K个地面真值掩码mi∈{0, 1}H×W彼此不重叠,即, Km i≤ 1 H×W,c i表示掩码m i的基础真值类标签。从DETR [10]和Max-DeepLab [92]开始分割转移到新的端到端范例,其中预测直接匹配具有N个掩码(N是固定数并且N≥K)及其语义类的地面实况的格式:N N{yi}i=1={(mi,pi(c))}i=1,(2)其中,p_i(c)表示对应掩码的语义类预测置信度,其包括“事物”类、"填充“类和向量类。+v:mala2255获取更多论文×∈∈××∈ ∈∈k-表示掩码Transformer 5基于N个对象查询来预测N个掩码,N个对象查询通过由自注意和交叉注意模块组成的Transformer解码器从像素特征由多个Transformer解码器更新的对象查询被用作掩码嵌入向量[49,87,97],其将与像素特征相乘以产生由N个掩码组成的最终预测Z∈RHW ×N也就是说,Z=softmax(FCT),(3)N其中FRHW ×D和CRN ×D分别指最终像素特征和对象查询。D是像素特征和对象查询的通道维度。我们使用下划线N来表示执行softmax的轴。3.2交叉注意与k-均值聚类虽然基于变换器的分割框架成功地以端到端的方式连接对象查询和掩码预测,但基本问题变成如何从可学习的嵌入(随机初始化)开始将对象查询变换成有意义的掩码嵌入向量。交叉注意力交 叉 注意模块用于聚合附属像素特征以更新对象查询。形式上,我们有C=C+softmax(Qc(Kp)T)Vp,(4)HW其中C∈RN×D指的是具有Dc个通道的N个bject查询,并且C∈RN×D指的是具有D c个通道的N个bject查询。注意更新的对象查询。我们用下标HW表示空间维度上的softmax的轴,以及上标p和c,分别指示从像素特征和对象查询投影的特征。QcRN ×D、KpRHW ×D、VpRHW ×D分别代表查询、键和值的线性投影特征。为了简单起见,我们忽略了方程中的多头如 Eq. 当 更 新 对 象 查 询 时 , 将 softmax 函 数 应 用 于 图 像 分 辨 率(HW),对于分割任务,其通常在数千像素的范围内。考虑到像素的巨大数量,可能需要多次训练迭代来学习注意力图,注意力图从在开始时的均匀分布(因为查询是随机初始化的)。在训练的早期阶段,每个对象查询都很难在丰富的像素中识别出最可区分的特征。这种行为与将转换器应用于自然语言处理任务非常不同,例如,神经机器翻译[86,4],其中输入和输出序列共享类似的短长度。视觉任务,特别是分割问题,提出了另一个挑战,有效地学习交叉注意。讨论与交叉注意类似,自我注意需要执行沿着图像分辨率操作的softmax函数。因此,学习自我注意力的注意力图也可能需要多次训练迭代。一种有效的替代方法,如轴向注意[93]或局部注意[70],通常是+v:mala2255获取更多论文××∈ ∈∈6问。Yu等人应用于高分辨率特征图,从而解决了这个问题,而交叉注意的解决方案仍然是一个悬而未决的问题。k-均值聚类。 由方程式交叉注意力计算对象查询和像素之间的亲和性(即,Qc(Kp)T),其通过空间方向softmax(沿着图像分辨率操作)被转换为注意力图。然后使用注意力图来检索(并相应地加权)附属像素特征以更新对象查询。令人惊讶的是,我们观察到整个过程实际上类似于经典的k均值聚类算法[72],其工作原理如下:A=argmax(CPT),(5)NC=A×P,(6)其中CRN ×D,PRHW ×D和ARN ×HW代表聚类中心,像素特征和聚类分配。比较Eq.(4),Eq.(5)、Eq.(6)中,我们注意到k-均值聚类算法是无参数的,因此查询、键和值不需要线性投影聚类中心的更新不是以残差的方式进行的 最重要的是,k-means采用了一个聚类argmax(即, 沿簇维度操作的ARGMAX)而不是空间方向的SoftMAX(即,用于检索和更新特征的权重这一观察激励我们重新表述视觉问题中的交叉注意,特别是图像分割。从聚类的角度来看,图像分割相当于将像素分组到不同的聚类中,其中每个聚类对应于预测的掩模。然而,交叉注意机制也试图将像素分组到不同的对象查询,而是采用与k均值中的聚类方式的argmax不同的空间方式的softmax操作。考虑到k均值的成功,我们假设在像素聚类方面,集群式argmax比空间式softmax更适合操作,因为集群式argmax执行硬分配并有效地将操作目标从数千个像素(HW)减少到几个集群中心(N),这(我们将根据经验证明)加快了训练收敛并导致更好的性能。3.3k-均值掩码Transformer在这里,我们首先介绍所提出的k-均值掩码Transformer的关键组成部分,即,k-表示交叉注意。然后,我们提出了它的Meta架构和模型实例化。k-表示交叉注意。所提出的k-means交叉关注以类似于k-means聚类的方式重新计算交叉关注C=C+argmax(Qc×(Kp)T)×Vp。(七)比较Eq.(4)Eq.在等式(7)中,空间方面的softmax现在被簇方面的argmax替换。如图1、用这样一个简单而又有效的N+v:mala2255获取更多论文更新聚类中心…聚类中心像素特征聚类中心像素特征交叉注意力(Cross-attention)线性线性线性多头自注意聚类argmax前馈网络××…k-表示掩码Transformer 7图1:为了将典型的Transformer解码器转换为我们的k最大值解码器,我们简单地用我们的k均值交叉关注替换原始的交叉关注(即, 唯一简单的改变是用红色突出显示的集群方式的argmax)改变,典型的Transformer解码器可以被转换为k_MAX解码器。与原始的交叉关注不同,所提出的k-均值交叉关注采用了不同的操作(即,cluster-wise argmax)来计算注意力图,并且不需要多头机制[89]。然而,聚类argmax作为聚类中心更新的聚合像素特征的硬分配,不是可微操作,这在训练期间构成了挑战。我们已经探索了几种方法(例如,Gumbel-Softmax [48]),并发现一个简单的深度监督方案是最有效的。特别地,在我们的公式中,像素特征和聚类中心之间的亲和度logit直接对应于分割掩码的softmax logit(即,Qc(Kp)T在方程中(7)对应于等式中的F CT。(3)),因为聚类中心旨在将相似亲和度的像素分组在一起以形成预测的分割掩模。该公式允许我们向每个kMaX解码器添加深度监督,以便训练k均值交叉注意模块中的参数。Meta架构。图2显示了我们提出的kMaX-DeepLab的Meta架构,其中包含三个主要组件:像素编码器,增强型像素解码器和kMaX解码器。像素编码器通过CNN [41]或Transformer [70]主干提取像素特征,而增强的像素解码器负责恢复特征图分辨率以及通过Transformer编码器[89]或轴向注意力[93]增强像素特征。最后,k最大X解码器将对象查询(即,聚类中心)到掩码嵌入向量中。模型实例化。 我们基于MaX-DeepLab [92]和官方代码库[98]构建kMaX。我们将整个模型分为两条路径:像素路径和聚类路径,分别负责提取像素特征××+v:mala2255获取更多论文像素编码器强化像素解码器8问。Yu等人图2:k均值掩码Transformer的Meta架构由三个组件组成:像素编码器、增强像素解码器和k最大值解码器。像素编码器是任何网络骨干。增强的像素解码器包括用于增强像素特征的Transformer编码器和用于生成更高分辨率特征的上采样层一系列k个MaX解码器将聚类中心转换为(1)掩码嵌入向量,其与像素特征相乘以生成预测掩码,以及(2)每个掩码的类别预测。和集群中心。图3详细描述了我们的kMaX-DeepLab实例化,其中包含两个示例主干。像素路径。像素路径由像素编码器和增强型像素解码器组成。像素编码器是ImageNet预训练的[81]主干,例如ResNet [41],MaX-S [92](即,ResNet-50与轴向关注[93])和ConvNeXt [71]。我们的增强像素解码器由几个轴向注意块[93]和瓶颈块[41]组成。群集路径。 聚类路径包含总共6个k个MaX解码器,这些解码器均匀分布在不同空间分辨率的特征图之间。具体来说,我们部署两个k最大的解码器,每个像素功能在输出步幅32,16和8,分别。损失函数。我们的训练损失函数主要遵循Max-DeepLab的设置[92]。我们采用相同的PQ风格损失,辅助语义损失,mask-id交叉熵损失和像素级实例区分损失[104]。4实验结果在 本 节 中 , 我 们 首 先 提 供 实 现 细 节 。 我 们 报 告 了 COCO [66] 和Cityscapes [28]的主要结果。我们还提供了可视化,以更好地理解拟议的kMax-DeepLab的聚类过程。消融研究见附录。类类类掩模类掩模掩模掩模…像素特征MAX解码器MAX解码器MAX解码器×聚类中心+v:mala2255获取更多论文×k-表示掩码Transformer 9口罩:���×��� ×���...分类:���×���...口罩:���×��� ×���...分类:���×���...1/42561/85121/1610241/3220481/1610241/85121/42561/464conv 7x7,最大池3x瓶颈4倍瓶颈6倍瓶颈3x瓶颈1/3220481x轴向块2x X-Max解码器2x X-Max解码器2x X-Max解码器1x瓶颈sep 5x5,256聚类中心5x轴向块1x瓶颈FFN1/42561/85121/1610241/3220481/1610241/85121/42561/4128起始茎3x瓶颈4倍瓶颈6x轴向块3x轴向块1/3220481x轴向块2x X-Max解码器2x X-Max解码器2x X-Max解码器1x瓶颈sep 5x5,256聚类中心5x轴向块1x瓶颈FFNMaX-DeepLabw/R50MaX-DeepLab 带Max-S图3:以ResNet-50和MaX-S为骨干的kMaX-DeepLab的图示。FFN的隐藏维数是256。kMaX-DeepLab的设计通过简单地更新像素编码器(标记为深蓝色)。增强型像素解码器和kMaX解码器分别4.1实现细节所提出的kMaX-DeepLab的Meta架构包含三个主要组件:像素编码器、增强像素解码器和kMaX解码器,如图2所示。我们在下面提供了每个组件的实现细节。像素编码器。像素编码器提取给定图像的像素特征。为了验证kMaX-DeepLab在不同像素编码器上的通用性,我们用ResNet-50 [41],MaX-S[92](即,ResNet-50(第3和第4级中具有轴向atten[93])和ConvNeXt[71]。增强型像素解码器。增强的像素解码器通过自关注恢复特征图分辨率并丰富像素特征。如图所示在图3中,我们在输出跨距32处采用具有通道2048一个轴向块,以及在输出跨距16处具有通道1024的五个轴向块。轴向块是瓶颈块[41],但3 3卷积被轴向注意力[93]取代。我们分别在输出步幅8和4处使用一个瓶颈块我们注意到轴向块起着相同的作用(即,特征增强)作为其他作品[10,24,104]中的Transformer编码器,其中我们确保轴向块的总数为6,以便与以前的作品[10,24,104]进行公平比较如图3所示,我们部署了六个k个MaX解码器,其中每两个解码器分别被放置用于具有输出步幅32、16、8的像素特征(由像素解码器增强)。我们的设计使用六个Transformer解码器,与以前的作品[10,24,104]保持一致,尽管最近的一些作品[23,65]采用更多的Transformer解码器,实现更强的性能。掩模掩 模类类掩模掩 模类类掩模类掩模类+v:mala2255获取更多论文××××10Q. Yu等人培训和测试。 我们主要遵循MaX-DeepLab [92]进行训练设置。ImageNet预训练的[81]骨干具有学习率乘数0.1.对于正则化和增强,我们采用丢弃路径[45],随机颜色抖动[29]和全景复制粘贴增强,这是通过增强“thing”和“stuff”类对实例复制粘贴增强的扩展[34,38]。 AdamW[53,73]优化器与weig htdecay0.05一起使用。k-means交叉注意采用聚类argmax算法,将注意力图的计算公式与分割结果进行匹配。因此,它允许我们直接对注意力地图进行深度监督这些附加到每个k-MaX解码器的辅助损失具有与最终预测相同的损失权重1.0,并且基于最终预测的匈牙利匹配结果用于为所有辅助输出分配监督在推理过程中,我们采用与[24,107,65,104]中相同的掩码合并方案来获得最终的分割结果。COCO数据集。 如果没有指定,我们将在32个TPU内核上训练批量大小为64的所有模型,迭代次数为150k(大约81个epoch)。第一个5K步作为预热阶段,其中学习率从0线性增加到5 10−4。输入图像被调整大小并填充为1281 1281。遵循Max-DeepLab[92],PQ风格损失,辅助语义损失,mask-id交叉熵损失,实例区分损失的损失权重分别为3.0,1.0,0.3和聚类中心的数量(即,对象查询)为128,并且最终特征图分辨率具有输出步幅4,如MaX-DeepLab[92]中所示。我们还尝试将kMax-DeepLab的对象查询数量增加一倍,达到256个,但这会导致性能损失。根据经验,我们采用了丢弃查询正则化,其中我们随机丢弃一半的对象查询(即,128)在每次训练迭代期间,并且所有查询(即,256)在推理过程中使用。使用所提出的丢弃查询正则化,将对象查询的数量加倍到256,在大型模型制度下始终带来0.1%的PQ改善。Cityscapes数据集 我们在32个TPU内核上训练了批量大小为32的所有模型,迭代次数为60k。前5 k步作为预热阶段,学习速率从0线性增加到3 × 10-4。输入被填充为1025 2049。PQ风格损失、辅助语义损失、mask-id交叉熵损失和实例区分损失的损失权重我们使用256个聚类中心,并在像素解码器中添加一个额外的瓶颈块,以产生输出步幅为2的特征。4.2主要结果我们在COCO [66]和Cityscapes [28]val集合上的主要结果总结在表1中。1、Tab。2,分别。COCOvalset. 在Tab。1,我们在COCOval集上比较了我们的kMaX-DeepLab与其他基于transformer的全景分割方法。值得注意的是,使用简单的ResNet-50主干,kMaX-DeepLab已经实现了53.0%的PQ,超过了大多数具有更强主干的现有技术。具体来说,kMaX-DeepLab的表现优于MaskFormer [24]和K-Net [107],所有这些都具有ResNet-50骨干,分别为6.5%和5.9%,同时保持相似的水平+v:mala2255获取更多论文׆‡××××k-表示掩码Transformer 11表1:COCO valset结果。我们的FLOP和FPS使用输入大小1200 800和Tesla V100-SXM 2 GPU进行评估。ImageNet-22 K预训练。*:使用256个 对象查询,并进行 drop query正则化。:使用COCO无标号集方法骨干参数FLOPs FPSPQ PQThPQSt面具成型器[24]ResNet-50 [41]45M181G 17.6 46.5五十一点零39.8K-Net [107]ResNet-50 [41]---47.1五十一点七40.3[第104话]ResNet-50 [41]---48.5--[65]第六十五话ResNet-50 [41]51M214G7.8 49.654.442.4[23]第二十三话ResNet-50 [41]44M226G8.6 51.9五十七点七43.0kMaX-DeepLabResNet-50 [41]57M168G 22.8 53.0 58.3 44.9[92]第92话[第92话]62M324G-48.4五十三点零41.5CMT-DeepLab[92]第二十二话95M396G8.1 53.0五十七点七45.9kMaX-DeepLab[92]第二十二话74M240G 16.9 56.2 62.2 47.1面具成型器[24][70]第70话102M411G8.4 51.8五十六点九44.1[第104话][104]第104话135M553G6.0 54.1五十八点八47.1[65]第六十五话[95]第95话105M349G-55.461.246.6[23]第二十三话[70]第70话107M466G-56.462.447.3kMaX-DeepLab[71]第七十一话122M380G 11.6 57.2 63.4 47.8[92]第92话[第92话]451M小行星3692G-51.1五十七点零42.2面具成型器[24][70]第70话212M小行星792G5.2 52.7五十八点五44.0K-Net [107][70]第70话---54.660.246.0[第104话][79]第79话270M 1114G 3.2 55.361.046.6[65]第六十五话[70]第70话221M816G-55.861.746.9[23]第二十三话[70]第70话216M868G4.0 57.864.248.1kMaX-DeepLab[71]第七十一话232M小行星744G6.7 57.9六十四点零48.6kMaX-DeepLabs[71]第七十一话232M小行星749G6.6 58.064.248.6kMaX-DeepLab[71]第七十一话232M小行星744G6.7 58.1 64.3 48.8计算成本。我们使用ResNet-50的kMaX-DeepLab甚至分别超过了MaX-DeepLab [92]的最大变体1.9% PQ(同时使用7.9个更少的参数和22.0个更少的FLOP)和MaskFormer(同时使用3.7个更少的参数和4.7个更少的FLOP)0.3% PQ。通过更强大的主干MaX-S [92],kMaX-DeepLab将性能提升到56.2% PQ,比具有相同主干的MaX-DeepLab高出7.8%PQ。我们的kMaX- DeepLab与MaX-S骨干相比,也比之前最先进的K- Net与Swin-L [70]提 高 了 1.6%PQ 。 为 了 进 一 步 推 进 信 封 , 我 们 采 用 现 代 CNN 骨 干ConvNeXt [71],并使用ConvNeXt-B和ConvNeXt-L设置了57.2% PQ和58.0%PQ的新的最先进的结果,以3.4%PQ的显著幅度优于Swin-L的K-Net。与 最 近 的 作 品 ( CMT-DeepLab [104] , Panoptic Seg- former [65]和Mask 2Former [23])相比,kMaX-DeepLab在没有高级模块的情况下仍然表现出很好的性能,例如变形注意力[112],cas-caded Transformer解码器[23]和基于不确定性的点监督[56]。由于每种方法使用不同的主干(例如,PVTv 2 [95],Swin [70]和ConvNeXt [71]),我们首先使用ResNet-50进行公平比较,+v:mala2255获取更多论文×××××12问。Yu等人骨头与CMT-DeepLab、Panoptic Segformer和Mask 2Former相比,我们采用ResNet-50的kMaX-DeepLab实现了显著更好的性能,分别为4.5%、3.4%和1.1%PQ的较大幅度。此外,我们的模型运行近3比他们更快(因为kMax-DeepLab享有SIM卡,注意不要变形的简单设计)。当采用更强的主干时,kMaX-DeepLab与ConvNeXt-B的性能分别优于CMT-DeepLab与Axial-R104、Panoptic Segformer与PVTv 2-B5和Mask 2Former与Swin-B(窗口大小为12),PQ分别为3.1%、1.8%和0.8%,而所有模型的成本(参数和FLOP)水平相似。当扩展到每种方法的最大主干时,kMaX-DeepLab的性能明显优于CMT-DeepLab和Panoptic Segformer,分别为2.7%和2.2%PQ。虽然我们已经比Mask 2Former更好地使用Swin-L(窗口大小为12),但我们注意到,当从基础模型扩展到大型模型时,kMaX-DeepLab的收益远低于Mask 2Former(kMaX-DeepLab为+0.7%,但Mask 2Former为+1.4%),这表明kMaX-DeepLab因此,我们还进行了一个简单的实验,通过在COCO未标记集上生成伪标签[ 12 ]来缓解过度拟合问题。向训练数据中添加伪标签稍微提高了kMaX-DeepLab,产生了58.1%的PQ分数(这里没有使用丢弃查询正则化,对象查询的数量仍然是128)。城市景观valset. 在Tab。2.我们将我们的kMax-DeepLab与Cityscapesvalset上的其他最先进的方法进行了比较。我们报告的PQ、AP和mIoU结果使用相同的全景模型来提供全面的比较。值得注意的是,配备ResNet-50主干的kMaX-DeepLab已经超越了大多数基线,同时效率更高。例如,与Panoptic-DeepLab [22](Xception-71 [27]骨干网)相比,采用ResNet- 50的kMaX-DeepLab实现了1.3%的性能提升,计算成本(FLOPs)降低了20%。此外,它实现了与Axial-DeepLab-XL类似的性能[93],同时使用的参数减少了3.1,FLOP减少了5.6kMaX-DeepLab凭借更强大的主干实现更高的性能。具体来说,使用MaX-S主干网,它的性能与之前使用SWideRNet [16]主干网的最先进的Panoptic-DeepLab相当,同时使用的参数减少了7.2,FLOP减少了17.2此外,即使只使用全景注释进行训练,我们的kMaX-DeepLab也在实例分割(AP)和语义分割(mIoU)方面表现出卓越的性能。最后,我们提供了与最近的工作Mask 2Former [23]的比较,其中我们的kMax-DeepLab的优势更加显著。使用ResNet-50主干进行公平比较,kMaX-DeepLab的性能比Mask2Former高2.2%PQ,1.2%AP和2.2%mIoU。对于具有类似大小的其他骨架变体,具有ConvNeXt-B的kMaX-DeepLab比具有Swin-B的Mask 2Former高1.9%PQ(窗口大小12)。值得注意的是,kMaX-DeepLab与ConvNeXt-B已经获得了比Mask 2Former高1.4%的PQ分数,最好的骨干以ConvNeXt-L为骨干,kMaX-DeepLab在没有任何测试时间增强或COCO[66]/Mapillary Vistas [75]预训练的情况下创造了68.4% PQ的最新记录。+v:mala2255获取更多论文×k-均值掩码Transformer 13表2:Cityscapes valset结果。我们只考虑没有额外数据的方法[66,75]和测试时间增强以进行公平比较。我们使用输入大小1025 2049和TeslaV100-SXM 2 GPU 评 估 FLOP 和 FPS 。 我 们 的 实 例 ( AP ) 和 语 义(mIoU)结果基于相同的全景模型(即,没有特定于任务的微调)。†:ImageNet-22 K预训练方法骨干参数FLOPs FPSPQ AP Miou[22]第二十二话[27]第二十一话47M 548G5.7 63.0 35.3 80.5[93]第二十三话[93]第二十三话45M 687G-63.9 35.8 81.0[93]第二十三话[93]第二十三话173M 2447G-64.4 36.7 80.6[第104话][第92话]- --64.6-81.4[22]第二十二话SWideRNet-(1,1,4.5)[16]536M 10365G 1.0 66.4 40.1 82.2[23]第二十三话ResNet-50 [41]- --62.1 37.3 77.5[23]第二十三话[70]第70话- --66.1 42.8 82.7[23]第二十三话[70]第70话- --66.6 43.6 82.9SETR [109][32]第三十二话- ----79.3SegFormer [99][99]第九十九话85M 1460G2.5--82.4Mask R-CNN [40]ResNet-50 [41]- ---31.5-PANet [68]ResNet-50 [41]- ---36.5-kMaX-DeepLabResNet-50 [41]56M 434G9.0 64.3 38.5 79.7kMaX-DeepLab[92]第二十二话74M 602G6.5 66.4 41.6 82.1kMaX-DeepLab[71]第七十一话121M 858G5.2 68.0 43.0 83.1kMaX-DeepLab[71]第七十一话232 M 1673 G 3.1 68.4 44.0 83.5视觉化。 图4.我们提供了每个kMaX解码器和最终预测的像素簇的可视化,以更好地理解kMaX-DeepLab背后的工作机制kMaX-DeepLab的另一个好处是,通过聚类argmax,可视化可以直接绘制为分割掩码,因为像素聚类分配与聚类argmax是互斥的。值得注意的是,主要的聚类更新发生在前三个阶段,这三个阶段已经很好地更新了聚类中心,从而生成了合理的聚类结果,而随后的阶段主要集中在细化细节上。这与我们的观察结果一致,即3kMaX解码器足以产生良好的结果。此外,我们观察到,第一次聚类分配往往会产生过分割效应,其中许多聚类被激活,然后
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功