没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2255获取更多论文3188×第36届AAAI人工智能会议(AAAI-22)SOIT:使用实例感知变换器于晓东1*,石大虎1*,邢伟2,叶仁1,叶廷群1,谭文明1†1中国杭州海康威视研究院2 Xi交通大学软件学院{yuxiaodong7,shidong} @ hikvision.com,weixing@mail.xjtu.edu.cn,{任野,叶廷群,谭文明}@ hikvision.com摘要本文提出了一个端到端的实例分割框架,称为SOIT,分割对象与实例感知的变压器。受DETR的启发,我们的方法将实例分割视为直接集预测问题,并有效地消除了对许多手工制作的组件(如ROI裁剪,一对多标签分配和非最大抑制(NMS))的需求。在SOIT中,多个查询学习直接推理一组对象的语义类别,边界框位置,和像素级掩码在全局图像上下文下并行嵌入。类和边界盒可以很容易地嵌入一个固定长度的向量。特别地,像素级掩码被一组参数嵌入以构造轻量级的实例感知的Transformer。之后,由实例感知变换器产生全分辨率掩码,而不涉及任何基于ROI的操作。总的来说,SOIT引入了一个简单的单阶段实例分割框架,它既不受ROI限制,也不受NMS限制。在MS COCO数据集上的实验结果表明,SOIT明显优于最先进的实例分割方法。此外,在统一查询嵌入中的多任务联合学习也可以显著提高检测性能。代码可在https://github.com/yuxiaodongHRI/SOIT上获得。介绍实例分割是计算机视觉中的一项基本但具有挑战性的任务,它需要一种算法来预测图像中每个感兴趣实例的像素级掩模。正如在Mask R-CNN框架中推广的那样(He et al. 2017),最先进的实例分割方法遵循检测然后分割的范式(Cai and Vasconcelos 2019; Chen et al.2019 a; Vu,Kang,and Yoo 2021)。这些方法采用对象检测器来产生实例的边界框,并通过RoIAlign(Heet al.2017)根据检测的盒子。然后,仅在检测到的区域 ( 如 图 1a 所 示 ) 中 通 过 全 卷 积 网 络 ( FCN )(Long,Shelhamer和Darrell 2015)预测像素掩码先检测后分割的范例是次优的,因为它*平等捐款。[2]通讯作者。Copyright © 2022 , Association for the Advancement ofArtificial Intelligence(www.aaai.org). All rights reserved.信箱掩码(a) 先检测后分段管道。框掩模(b) 检测和分段管道。框掩模(c) 完全端到端的管道。图1:不同实例级感知管道的比较我们提出了完全端到端的框架,如(c)所示,它是无ROI和无NMS的。以下缺点:1)分割结果严重依赖于对象检测器,在复杂场景中导致较差的性能; 2)ROI总是被调整大小为相同大小的块(例如,Mask R-CNN中的14和14),这限制了分割掩码的质量,因为大的实例将需要更高分辨率的特征来保留边界处的细节。为了克服这种范式的缺点,最近的工作(Chen et al. 2019 b; Xie et al. 2020;Cao et al. 2020 a; Peng et al. 2020)开始在单级检测器之上构建实例分割框架(Lin et al. 2017 b;Tian et al.2019年),摆脱当地的ROI业务。NMSROI作物NMS查询...+v:mala2255获取更多论文3189然而,这些方法仍然依赖于训练中的一对多标签分配和手工制作的非最大压缩(NMS)后处理,以在测试时消除重复的实例。因此,这两类实例分割方法不是端到端的完全优化的,并且遭受次优解决方案。受最近Transformer架构在对象检测中的应用(Carionet al. 2020; Zhu et al. 2021)的启发,本文提出了一种基于 transformer 的 实 例 分 割 框 架 , 即 SOIT ( SegmentObjects with Instance-aware Transformer)。我们将实例分割重新定义为直接集合预测问题,并构建了一个完全端到端的方法。具体地说,给定多个随机初始化的对象查询,SOIT学习推理的语义类别,边界框,和像素掩码的同时,在全局图像上下文下的一组对象嵌入。SOIT采用二分匹配策略为每个对象查询分配一个学习目标如图1c所示,这种训练方法有利于传统的一对多实例分割训练策略(He et al. 2017; Wang et al.2020 b; Tian,Shen,and Chen 2020),因为它避免了启发式标签分配,并消除了对NMS后处理的需求。一个紧凑的固定长度的向量可以很容易地将语义类别和边界框嵌入到端到端学习框架中。然而,表示用于学习的每个对象的空间二进制掩码并不是微不足道的,因为掩码是高维的并且随每个实例而变化。为了解决这个问题,我们将像素掩码嵌入到一个组中,的 实 例 感 知 参 数 , 由 此 构 造 唯 一 的 实 例 感 知 的Transformer。此外,我们提出了一种新的相对位置编码的Transformer,它提供了强大的位置线索,以区分不同的对象。然后使用实例感知的Transformer直接在高分辨率特征图中分割对象。 期望实例感知参数和相对位置编码能够对每个实例的特征进行编码。因此,它只能在特定对象的像素上发射。如上所述,我们的方法自然是无ROI和无NMS的,这消除了以前的实例分段方法中涉及的许多额外的手工操作。我们的主要贡献总结如下:• 我们试图从一个新的角度来解决实例分割,使用并行的实例感知转换器在一个端到端的框架。这种新颖的解决方案使框架能够直接生成每个实例的逐像素• 在我们的方法中,查询学习编码多个ob-对象表示同时,包括类别,位置,和像素的面具。这种多任务联合学习范式在目标检测和实例分割之间建立了协作,使这两个任务相互受益我们demonstrate,我们的架构也可以显着提高对象检测性能。• 为了证明拟议框架的有效性我 们 在 COCO 数 据 集 上 进 行 了 大 量 的 实 验 使 用ResNet-50的SOIT在没有任何额外功能的情况下,在测试开发分割上实现了42.5%的掩码AP和49.1%的框AP,在掩码AP和框AP方面的表现优于复杂的良好调整的HTC(Chen等人,2019 a),分别为2.8%和4.2%。相关工作实例分割实例分割是一项具有挑战性的任务,因为它需要同时进行实例级和像素级预测。现有的方法可以归纳为三大类:自上而下、自下而上和单阶段方法。在自上而下的方法中,Mask R-CNN家族(He et al.2017; Cai andVasconcelos 2019; Chen et al. 2019 a; Cao et al. 2020 b)遵循先检测后分割的范式,首先执行对象检测,然后分割盒子中的对象。此外,最近的一些工作(Lee andPark 2020; Wang et al. 2020 a; Chen et al. 2020 b)被提出来进一步提高分割性能。自下而上的方法(Liu etal.2017; Gao et al.2019)将任务视为标签然后集群问题。它们首先学习每像素的嵌入,然后将它们聚类到实例组中。此外,YOLACT(Bolya et al. 2019),CondInst(Tian,Shen和Chen 2020)和SOLO(Wang etal. 2020 b)在一阶段检测器(Tian et al.2019年),实现具有竞争力的业绩。同时,QueryInst(Fang et al.2021)和SOLQ(Dong et al. 2021)旨在构建端到端实例分割框架,消除NMS后处理。然而,它们仍然需要ROI裁剪以首先分离不同的实例,这可能具有检测-然后-分段流水线的相同在本文中,我们提出了一个端到端的实例分割框架,既不依赖于ROI裁剪,也不依赖于NMS后处理。视觉中的TransformerTransformer(Vaswani et al. 2017)引入了自注意机制来建模长距离依赖关系,并已广泛应用于自然语言处理(NLP)。近年来,一些研究工作尝试将Trans-former结构应用于计算机视觉任务中,并取得了良好的效果.ViT系列(Dosovitskiy et al. 2020; Touvron et al.2021)将图像视为一系列补丁,并通过图像分类中的transformer架构实现跨补丁交互。DETR(Car- ion et al.2020)和Deformable DETR(Zhu et al. 2021)采用了可学习的查询和Transformer架构,结合二分匹配,以端到端的方式执行对象检测,而无需任何手工流程(如NMS)。SETR(Zheng et al. 2021)从序列到序列学习的角度重新阐述了图像语义分割问题,为主导的编码器-解码器FCN模型设计提供了一种替代方案。尽管Transformer架构在许多计算机视觉任务中被广泛使用,但很少有人努力构建基于transformer的实例分割框架。本文旨在实现这一目标。+v:mala2255获取更多论文3190F4F5P4P5×L=3F×L=3P{}FP对象查询F6P6解码器N x C分类编码器N ×4位置F3P3N ×D个掩模...掩模编码器实例感知TransformerMLPMLPFC图2:SOIT的整体架构示意图。 F3至 F6是从主干提取的多尺度图像特征图(例如,,ResNet-50)。 P3到 P6是由Transformer编码器改进的多尺度特征存储器。F_mask表示由掩码编码器产生的掩码特征。在掩码分支中生成的D维(例如,默认为441)动态参数用于构造实例感知的Transformer。如蓝色虚线框所示,像素级掩码是通过实例感知的Transformer生成的,图3中描述了其细节。动态网络不像传统的网络层有固定的过滤器,(图2中的蓝色特征图)从主干(例如,,ResNet(He et al.2016))。具 体 地,{F1}5通过以下方式产生:经过训练后,动态网络的滤波器以输入为条件,并由另一个网络动态生成。这个想法以前已经在卷积模块中探索过,比如动态滤波器网络(Jia et al.2016)和Cond- Conv(Yang et al. 2019),以增加分类网络的容量。最近,一些作品(Tian,Shen和Chen 2020; Shi等人2021)采用动态滤波器,以图像中的每个实例为条件,实现实例级视觉任务。在这项工作中,我们将这一思想扩展到Transformer架构,并构建实例感知的transformer来解决具有挑战性的实例分割任务。方法在本节中,我们首先介绍框架的总体架构。接下来,我们详细阐述了拟议- 在主干中的阶段C3到C5的输出特征图上添加1 1卷积,其中C1具有比输入图像低21的分辨率最低分辨率的特征图F6是通过在最后的C5级上进行3× 3步幅2中的多尺度图像特征图均为256通道。Transformer编码解码器。在 这项工作中,我们采用可变形的Transformer编码器(朱等人。2021)以产生多尺度特征存储器。每个编码器层包括一个多尺度可变形注意力模块(Zhu等人,2021)和一个前馈网络(FFN)。在我们的框架中有六个编码器层按顺序堆叠。编码器将图像特征图作为输入,并输出细化的多尺度特征记忆=P16(或-P16)。图2中的范围特征图)具有相同的分辨率。实例感知的Transformer,用于为每个实例生成全分辨率掩码。然后,我们描述了相对位置编码,以进一步提高实例分割性能。最后,对模型的训练损失进行了总结。整体架构如图2所示,所提出的框架由三个主要组件组成:提取多尺度图像特征图的骨干网络、并行产生对象相关查询特征的Transformer编码器-解码器以及同时执行对象检测和实例分割的多任务预测网络多层次特征。给定一幅图像I∈RH×W ×3,我们提取多尺度特征映射F={F3,F4,F5,F6}考虑到精细化的多尺度特征记忆和N可 学 习 的 对 象 查 询 , 然 后 我 们 通 过 可 变 形 的Transformer解码器为目标对象生成实例感知的查询嵌入(Zhu et al. 2021)。类似 六个解码器层被顺序地应用于编码器。每一个都由一个自我注意模块和一个可变形的交叉注意模块组成(Zhu et al. 2021),其中对象查询分别与彼此和全局上下文交互。最后,实例感知的查询特征被收集,然后被馈送到多任务预测网络。多任务预测。在查询特征提取之后,每个查询嵌入表示对应实例的特征。随后,我们同时应用三个分支来生成目标实例的类别、边界框位置和像素掩码的+v:mala2255获取更多论文3191×∈∈nMMQKMQK索引采样密钥,K是总采样密钥数(K HW)。n表示第n个对象查询(即,例如)。如图3所示,Δ mqk和Δmqk分别是第m个关注头中第k个采样点的采样偏移和关注权重。通过线性投影(即,,FC)层。然后,另一个线性投影层(即,,Wn)应用于输出投影,其可以被公式化为掩码n= W n[Concat(H n,H n,. . . ,Hn)],(2)1 2M+ 相对位置编码输出掩码图3:实例感知变压器的详细结构。 两个线性投影(即,FC)预测不同特征点的采样位置和注意力权重,从而得到不同的特征点。另一线性投影用于输出投影。在我们的实例感知的Transformer中,这三层的所有权重都是在mask分支中动态生成的,并以目标对象为条件。分类分支是预测每个对象的类别置信度的线性投影层(FC)。位置分支是一个隐藏大小为256的多层感知器(MLP),并预测盒子的归一化中心坐标,高度和宽度w.r.t. 输入图像。掩码分支架构与位置分支相同,只是输出层的通道设置为D。值得注意的是,掩码分支的输出是一组以特定实例为条件的动态参数。这些参数稍后用于构造实例感知的转换器,以直接从全图像特征图生成掩码,在下面的小节中详细描述。实例感知变压器与语义类别和边界框不同,它是由一个紧凑的固定长度的向量表示每像素的掩码,而没有ROI裁剪。我们的核心思想是,对于具有N个实例的图像,将动态生成N个不同的Transformer期望实例感知的Transformer能够对每个实例的特征进行编码,并且仅在对应对象的像素上触发。为了避免原始Transformer编码器中计算复杂度的二次增长其中“Concat”表示连接操作。为了建立我们的实例感知Transformer编码器,这三个线性投影层的权重是动态生成的,以目标实例为条件具体地,对于第n个对象查询,在掩码分支中预测的D参数被分成三部分,并被转换为三个线性投影的权重。此外,输出投影层的通道被设置为1用于掩码预测,随后是sigmoid激活函数。请注意,即使在相同的特征点上,每个实例的注意力位置和权重也是不同的,因此每个实例对在特征图中关注的位置都有特定的偏好共享掩码功能。 为了获得高质量的掩模,我们的方法在全图像特征图上生成像素级掩模,而不是具有固定大小的裁剪区域(例如,,1414in Mask R-CNN(He et al. 2017)).如图2所示,掩码编码器分支用于提供高分辨率特征映射F掩码RH掩码×W掩码×C掩码,实例感知变换器将其作为输入来预测每个实例的掩码。掩码编码器分支连接到聚合特征P3,因此,其输出分辨率为输入图像的1/8它由一个德-可成形的Transformer编码器层,其特征尺寸为256(与P3的特征通道相同)。之后,采用具有层归一化(LN)的线性投影层来将特征维度从256减少到8(即,,C掩码= 8)。如上所述,实例感知Transformer掩码头由于很少的改变而非常紧凑共享掩码特征的nels。相对位置编码如(Vaswani et al.2017),Transformer中的原始位置编码是通过不同频率的正弦和余弦函数计算的:PE(pos,2i)=sin(pos/100002i/d模型)(Vaswani et al. 2017),我们在可变形Transformer编码器上构建了我们的实例感知变换器(Zhu et al.PE(pos,2i+1)=cos(pos/100002i/d模型)(三)#20201;效率。具体地,给定输入特征图xRC×H ×W,令q索引查询(例如,,图3中的绿色网格点)与内容特征zq和2-d参考点pq,可变形多头注意力特征通过下式计算:K其中pos是绝对位置,i是维度,d 模 型是嵌入维度。DETR(Carion等人,2020)将上述位置编码扩展到2D情况。具体地,对于2D特征图中的每个嵌入的两个空间坐标(x,y),DETR独立地使用d模型/2个不同频率的正弦和余弦函数Hn=<$An·x(pq+<$p ),(1)k=1cies. 然后将它们连接起来,以获得最终的D模型更改-nel位置编码。对于我们的实例感知Transformer编码器,输入为其中m ∈ [1,2,. . . ,M]索引注意力头,k在-共享掩码特征和绝对位置的总和偏移的1 一个2一个3一个4重量实例感知Transformer......FCFCFC+v:mala2255获取更多论文3192l=1××如上所述的常规编码为了进一步利用每个对象查询的位置信息,我们提出了一种新的相对位置编码,可以写为:PE(pos,2i)=sin((pos−posq)/100002i/d模型)PE(pos,2i+1)=cos((pos−posq)/100002i/d模型)(四)其中posq是由当前对象查询预测的框的中心位置。请注意,所提出的相对位置编码为预测实例掩码提供了强有力的线索。消融研究中的性能改善证明了其优于原始绝对位置编码。训练损失在这项工作中,我们的框架的最终输出由三个子任务监督:分类,定位和分割。我们使用与(Zhu et al.2021)中相同的损失函数进行分类和定位,并采用Dice Loss(Milletari,Navab和Ahmadi 2016)和二进制交叉熵(BCE)损失进行实例分割。总损失函数写为:L= λclsLcls +λ L1 L L1 +λiouLiou +λdiceLdice+λbceLbce。根据(Zhu et al. 2021),我们设置λcls= 2,λL1= 5和λiou= 2。我们经验发现λdice= 8和λbce= 2对于所提出的框架最好。实验数据集和数据库我们在COCO基准上验证了我们的方法( Lin et al.2014 ) 。 COCO 2017 数 据 集 包 含 115 k 张 用 于 训 练( splittrain2017 ) 的 图 像 , 5 k 张 用 于 验 证(splitval 2017), 20 k张用 于测试 (splittest-dev),涉及80个具有实例级分割注释的对象类别按照惯例,我们的模型使用splittrain2017进行训练,所有消融实验都在splitval 2017上进行评估。我们的主要结果报告的测试开发分裂与国家的最先进的方法进行比较。与以前的方法一致(He et al.2017),使用标准掩码AP来评估实例分割的性能此外,我们还报告了框AP来显示对象检测性能。实现细节ImageNet(Deng et al. 2009)预训练的ResNet(He et al.2016)被用作骨干和多尺度特征图4:COCOval2017分割的对象检测和实例分割的定性结果。该模型在COCOtrain 2017上进行训练,使用ResNet-50主干。长边小于或等于1333。测试时,输入图像的大小调整为短边为800,长边小于或等于1333。所有实验都在16个NVIDIA Tesla V100 GPU上进行,总批量大小为32。主要结果如表1所示,我们将SOIT与COCO测试-开发分割上最先进的实例分割方法进行了比较。没有花里胡哨的,我们的方法实现了最好的性能上的对象检测和实例分割 。 与 典 型 的 两 阶 段 方 法 Mask R-CNN ( He et al.2017)相比,使用ResNet-50的SOIT将框AP和掩码AP分别显著提高了7.8%和5.0%。SOIT的性能也优于经过良好调整的CondInst(Tian,Shen和Chen 2020)是最新的基于动态卷积的最先进的一阶段实例分割方法。具有相同ResNet-50主干的SOIT优于具有4.7%掩码AP的CondInst有了更强大的主干,ResNet-101,SOIT仍然优于2.0%掩码AP的最先进方法。受益于RoI自由方案,我们 的 ResNet-50 方 法 超 过 了 最 近 的 SOLQ ( Dong etal.2021年)在没有FPN的情况下提取地图{F1}L(Lin et al.2017年a)。和QueryInst(Fang et al.2021年)下降2.8%和1.9%,除非另有说明,可变形注意力(Zhu et al. 2021)有8个注意力头,采样点数设置为4。编码器和解码器中的特征通道为256,FFN的隐藏dim为1024。 我们使用Adam优化器(Kingma和Ba 2015)训练我们的模型,基本学习率为2。010−4,动量0.9重量衰减为1。010- 4模型训练50epoch,并且初始学习率在第40个epoch处衰减0.1倍采用多尺度训练,其中短边在[480,800]内随机选择,- 是的我们还将SOIT应用于最近的Swin反式骨架(Liuet al.2021),而无需进一步修改,构建一个纯粹的基于transformer的实例分割框架。我们的模型与Swin-L可以实现56.9%和49.2%,分别在框AP和面具AP。我 们 在 COCOval 2017 拆 分 上 提 供 了 一 些 具 有ResNet- 50骨架的SOIT的定性结果,如图4所示。我们的口罩通常质量很高(例如:在对象边界处保留更多细节),并且检测到的框是精确的。+v:mala2255获取更多论文3193方法骨干无ROI无NMSAPAP50 AP75APSAPMAPL AP髁间盒Mask R-CNN(He et al. (2017年)37.559.340.221.139.648.341.3CMR(Cai和Vasconcelos 2019)38.860.442.019.440.953.944.5HTC(Chen et al. 2019年a)39.761.443.122.642.250.644.9BlendMask(Chen et al. (2020年a)CondInst(Tian,Shen和Chen 2020)C37.037.858.959.239.740.417.318.239.440.352.552.742.741.9SOLOv2(Wang et al. 2020年c)DSC(Ding et al. 2021年)ResNet-50C38.240.559.361.840.944.116.0-41.2-55.4-40.446.0RefineMask(Zhang et al. 2021年)40.2------SCNet(Vu,Kang和Yoo 2021)SOLQ(Dong et al. 2021年)C40.239.762.3-43.4-22.421.542.842.553.453.145.047.8QueryInst(Fang et al. 2021年)SOIT(我们的)CCC40.642.563.065.344.046.023.423.842.545.452.855.745.649.1Mask R-CNN(He et al. (2017年)38.860.941.921.841.450.543.1CMR(Cai和Vasconcelos 2019)39.961.643.319.842.155.745.7HTC(Chen et al. 2019年a)40.762.744.223.143.452.746.2MEInst(Zhang et al. 2020年)33.956.235.419.836.142.3-BlendMask(Chen et al. (2020年a)CondInst(Tian,Shen和Chen 2020)C39.639.161.660.942.642.022.421.542.241.751.450.944.843.3SOLOv2(Wang et al. 2020年c)DCT-Mask(Shen et al. 2021年)ResNet-101C39.740.160.761.242.943.617.322.742.942.757.451.842.6-DSC(Ding et al. 2021年)40.962.544.5---46.7RefineMask(Zhang et al. 2021年)41.2------SCNet(Vu,Kang和Yoo 2021)SOLQ(Dong et al. 2021年)C41.340.963.9-44.8-22.722.544.143.855.254.646.448.7QueryInst(Fang et al. 2021年)SOIT(我们的)CCC42.843.465.666.346.746.924.623.945.046.455.557.448.150.0SOLQ(Dong et al. 2021年)C46.7-74.274.3-53.853.529.231.530.250.151.852.760.963.265.256.5QueryInst(Fang et al. 2021年)SOIT(我们的)Swin-LCCC49.149.256.156.9表1:与COCO测试开发中最先进的实例分割方法的比较。CMR是Cascade Mask RCNN的缩写。AP框表示框AP,没有上标的AP表示掩码AP。所有模型均采用多尺度训练,单尺度测试。消融研究实 例 感 知 变 压 器 中 的 头 数 。 多 头 注 意 机 制 对 于Transformer具有重要意义。在本节中,我们将讨论这种设计对实例感知的Transformer编码器的影响。我们改变多头注意力的头数,实例分割的性能如表2所示。我们发现,只使用一个头的注意力已经有一个中等的能力,并导致合格的性能与37.8%的面具AP。实例分割的性能此外,当注意头的数量增加到8时,分割性能没有进一步提高我们假设头APAP50AP75APSAPMAPL137.861.639.518.141.141.341.741.957.6238.161.939.918.558.1438.462.040.118.658.4838.362.040.118.458.4表2:COCOval 2017上的实例分割结果,在实例感知的Transformer中具有不同数量的多头atten- tion。输入特征通道(即,,C掩码)默认情况下固定为8。掩码编码器的输出特征图(即,F掩模)。 作为性能饱和的两个原因。一个是4个不同的表示空间足以区分不同的实例。另一个原因是,预测太多的参数(873个参数)使得优化掩码分支变得困难。因此,在下面的实验中,我们将实例感知的Transformer中的注意力头的数量默认设置为4。掩模编码器的架构。然后,我们调查的影响,建议的掩码编码器与不同的archi- tectures。 我们首先改变C掩码,即,通道数如表3a所示,在掩模AP中性能下降0.8%,(from当F面罩的通道从8个收缩到4个时,F面罩的通道从38.4%收缩到37.6%。在这种情况下,多头注意力在每个注意力头中仅具有单通道映射。注意力模块很难获得关于每个实例的足够信息此外,当C掩码从8增加到16时,性能几乎保持不变。因此,我们在所有其他实验中默认将遮罩特征通道固定为8。当C掩码= 8并且注意头的数量为4时,掩码分支预测的用于构造实例感知的Transformer的参数总共有441个。+v:mala2255获取更多论文3194渠道APAP50AP75APSAPMAPL437.661.839.218.218.618.540.841.741.757.558.458.3838.462.040.11638.362.040.0层APAP50AP75APSAPMAPL037.961.439.418.040.957.658.458.6138.462.040.118.641.7238.461.940.118.541.6(a)改变掩码编码器的输出通道。(b)改变堆叠掩模编码器的层。表3:COCOval2017上的实例分割结果,使用不同的掩码编码器架构进行 “Layers”: the number of stacked maskPEAPAP50AP75APSAPMAPL没有一37.961.439.618.341.258.0ABS38.462.040.118.641.758.4Rel39.262.941.319.743.059.2表 4 : 实 例 感 知 Transformer 中 的 位 置 编 码 对COCOval2017拆分的影响“None” means re- moving为了证明掩码编码器的有效性,我们直接将具有层归一化的线性投影(输出通道为8)连接到特征图P3,而不是提议的掩码编码器。如表3b所示,分段性能下降0.5%(从38.4%降至37.9%)。这结果证明了掩码编码器的重要性,它产生专门的掩码特征,并将其从通用的图像上下文特征中提取出来。此外,当堆叠更多掩码编码器时,没有获得明显的性能改善,如表3b(第3行)所示。这表明一个掩码编码器就足够了,从而产生紧凑的实例分割模型。相对位置编码。我 们 进一步研究了我们提出的相对位置编码的实例感知变压器的效果。Abs是许多基于transformer的架构中使用的绝对位置编码(Carion等人,2020; Zhu等人,2021)。Rel是等式(4)中提出的相对位置编码,其采用对象查询的框中心坐标来获得实例感知的位置信息。如表4(第1行)所示,在去除对掩码特征的绝对位置编码之后,我们的模型的性能在掩码AP中下降实例感知的Transformer在没有位置信息的情况下无法区分在不同位置具有相似外观的实例。如表4(第3行)所示,与绝对位置编码相比,相对位置编码将我们的SOIT的分割性能提高了0.8%。我们认为,相对位置编码与相应的对象查询高度相关因此,在序列中,我们将所提出的相对位置编码用于所有以下实验。阶段启用掩码丢失。最终,我们消除了解码器阶段的数量对掩模丢失表5:在COCOval2017拆分上实现掩码丢失阶段是K意味着启用具有掩模丢失的最后K个0阶段表示没有任何掩模超视的对象检测模型。AP框表示框AP。在训练中默认情况下,在这些消融中的所有解码器级中启用分类和定位丢失请注意,当训练完成时,我们在中间阶段丢弃所有预测的掩码参数,仅使用最后阶段的预测进行推理。如表5所示实验结果表明,与仅在一个解码器上启用掩码丢失相比,在所有解码器上添加掩码丢失可以分别提高3.0%的掩码AP和1.6%的框AP。检测性能的增益主要来自于与实例分割的联合训练。如表5(最后一行)所示,SOIT的检测性能超过纯对象检测器2.1%(从46.8%到48.9%),所有解码器级都允许掩模丢失。这表明了我们的框架的优势,它学习了一个统一的查询嵌入执行实例分割和对象检测的同时。结论在本文中,我们提出了一个基于transformer的实例分割方法,称为SOIT。它将实例分割重新定义为直接集合预测问题,并构建了一个完全端到端的框架。SOIT自然是无ROI和无NMS的,避免了以前实例分割方法中涉及的许多手工操作。在MS COCO数据集上的大量实验表明,SOIT在实例分割和对象检测方面达到了最先进的性能。我们希望我们简单的端到端框架可以作为实例级感知的强大基线。阶段APAP50AP75AP髁间盒AP髁间盒 50AP髁间盒 750---46.866.350.7139.262.941.347.366.252.0240.763.643.447.666.452.5341.263.944.148.166.552.8441.764.244.548.266.453.0542.064.544.948.566.753.2642.264.645.348.967.053.4+v:mala2255获取更多论文3195致谢本课题得到国家自然科学基金项目(62006183)、国家重点研究开发项目(2020 AAA 0105600)、博士后科学基金项目(2020 M683489)和中央高校基础研究基金项目(xhj 032021017 -04和xzy 012020013)的资助。引用Bolya,D.; Zhou,C.;肖,F.;和Lee,Y. J. 2019年。Yolact:实时实例分割。IEEE/CVF计算机视觉国际会议论文集,9157-9166。蔡志;和Vasconcelos,N. 2019. Cascade r-cnn:高质量的对象检测和实例分割。IEEE Transactions on PatternAnalysis and Machine Intelligence.曹,J.;安韦尔河M.; Cholakkal,H.;汗角,加-地S.的;Pang,Y.;和Shao,L. 2020年a。Sipmask:空间信息保存,用于快速图像和视频实例分割。在计算机斯普林格。曹,J.; Cholakkal,H.;安韦尔河M.;汗角,加-地S.的;Pang,Y.;和Shao,L. 2020年b。D2det:面向高质量的对象检测和实例分割。IEEE/CVF计算机视觉和模式识别会议论文集,11485Carion , N.; Massa , F.; Synnaeve , G.; Lignier , N.;Kirillov,A.;和Zagoruyko,S. 2020.使用变压器进行端到端的物体检测。在欧洲计算机视觉会议上,213-229。斯普林格。陈,H.;孙,K.;田,Z.;沈,C.;黄,Y.;和Yan,Y.2020年a。BlendMask:自上而下与自下而上相结合,用于实例分割。IEEE/CVF计算机视觉和模式识别会议论文集,8573Chen,K.;彭,J.;王,J.;熊,Y.;李,X.;孙,S.;冯,W.;刘志;施,J.; Ouyang,W.;等,2019 a. 实例分割的混合任务级联。IEEE/CVF计算机视觉和模式识别会议论文集,4974陈 X; 格 希 克 河 ; 他 , K 。 和 Dol la'r , P. 2019 年 b.Tensormask:密集对象分割的基础.IEEE/CVF计算机视觉国际会议论文集,2061陈X;Lian,Y.;焦湖;王,H.;高,Y.;还有玲玲,S. 2020年b。用于精确图像实例分割的有监督边缘注意力网络。在计算机斯普林格。邓,J.;董,W.; Socher,R.;李湖,澳-地J.道:李,K.;和Fei-Fei,L. 2009. Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉与模式识别会议,248-255。很好丁,H.; Qiao,S.; Yuille,A.;和Shen,W. 2021.用于实例分割的深度形状引导级联。在IEEE/CVF计算机视觉和模式识别会议上,8278董,B.;曾,F.;王,T.;张,X.;Wei,Y.2021年SOLQ:通过学习分割对象。NeurIPS。Dosovitskiy,A.;拜尔湖; Kolesnikov,A.;魏森伯恩,D.;翟某; Unterthiner,T.; Dehghani,M.;明德勒,M。;海戈尔德,G.;Gelly,S.;等人2020年。一张图片相当于16x16个单词:用于大规模图像识别的变形金刚。arXiv预印本arXiv:2010.11929。方,Y.; Yang,S.;王,X.;李,Y.;方,C.; Shan,Y.;Feng,B.;和Liu,W. 2021.我的意思是,IEEE/CVF计算机视觉国际会议(ICCV),69
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功