没有合适的资源?快使用搜索试试~ 我知道了~
6910实例作为查询余新芳1*,杨树生1,2*,王星刚1†,余莉2,陈芳3,应山2,冯斌1,刘文宇11华中科技大学启德学院2腾讯应用研究中心(ARC)3腾讯摘要我们提出QueryInst,实例分割的一个新的角度。QueryInst是一个多阶段的端到端系统,它将感兴趣的实例视为可学习的查询,从而启用基于查询的对象检测器,例如,稀疏的R-CNN,具有很强的实例分割性能。实例的属性,如类别,边界框,实例掩码,实例关联嵌入- dings表示的查询在一个统一的方式。在QueryInst中,查询由检测和分割经由动态卷积共享我们对三个具有挑战性的基准进行了广泛的实验,即,COCO、CityScapes和YouTube-VIS,以评估QueryInst在对象检测、实例分割和视频实例分割任务中的有效性。这是第一次,我们证明了一个简单的端到端的查询为基础的框架,工作可以实现国家的最先进的性能在 各 种 实 例 级 识 别 任 务 。 代 码 可 在https://github.com/hustvl/QueryInst 上 获得。1. 介绍实例分割是一项基本但具有挑战性的计算机视觉任务,需要一种算法来分配像素级掩模,具有图像中感兴趣的每个实例的类别标签。流行的最先进的实例分割方法是基于高性能的对象检测器,并遵循多阶段的范例。其中,Mask R-CNN家族[22,25,32,5,10,44]是最成功的一个,其中用于实例分割的感兴趣区域(RoI)经由逐区域池化操作(例如,RoIPool[23,20]或RoIAlign [22]),或者基于来自区域提议网络(RPN)[41]的框级定位信息,或者基于来自区域提议网络(RPN)[ 41 ]的前一阶段边界确定框级定位信息。*平等捐款。本研究是杨树生在腾讯PCG应用研究中心实习期间完成的。†通讯作者,电子邮件:xgwang@hust.edu.cn。504540350 5 10每秒帧数(FPS)图1:AP与COCO上的FPS测试-开发 QueryInst-在准确性和速度方面执行当前最先进的方法。 速度是使用单个Titan Xp GPU测量的。框预测[4,5]。最终实例掩码通过将RoI特征馈送到掩码 头 中 来 获 得 , 掩 码 头 是 一 个 小 型 全 卷 积 网 络(FCN)[35]。最近,DETR [7]提出将对象检测重新表述为基于查询的直接集预测问题,其输入仅为100个学习对象查询。对象检测中的后续工作[63,44,45,19,60,16]改进了这种基于查询的方法,并实现了与最先进的检测器(例如Cascade R-CNN [4])相当的性能。结果表明,基于查询的实例级感知是一个很有前途的研究方向。因此,使得基于查询的检测框架能够执行实例分割是非常期望的。然而,我们发现,将Cascade MaskR-CNN [5]和HTC [10]中的先前成功实践(其是非基于查询的范例中的最先进的掩码生成解决方案)直接集成到基于查询的检测器中以用于实例掩码生成是低效的因此,迫切需要一种为基于查询的端到端框架定制的实例分割方法。为了弥补这一差距,我们提出了QueryInst(实例作为掩码R-CNN级联掩码R-CNN HTCCondInstSOLO V2QueryInstCOCO面罩AP6911查询),一种基于查询的端到端实例分割方法,由动态掩码头上的并行监督驱动[26,46,44]。QueryInst的关键见解是利用跨不同阶段的对象查询中的固有一对一对应关系,以及同一阶段中的掩码RoI特征和对象查询之间的一对一对应关系。具体来说,我们建立了动态掩码头在彼此并行,根据相应的查询自适应地变换每个掩码RoI功能,并同时在所有阶段进行训练。掩模梯度不仅流回主干特征提取器,而且流回对象查询,其在不同阶段内在地一对一互连。查询隐含地携带多级掩码信息,其由动态掩码头中的RoI特征读取以用于最终掩码生成。在不同的载物台掩模头或掩模特征之间没有明确的连接此外,查询在每个阶段中的对象检测和实例分割子网络之间共享,从而实现一个任务可以利用来自另一个任务的信息的跨任务通信。我们证明,这种共享查询设计可以充分利用对象检测和实例分割之间的协同作用当训练完成时,我们丢弃中间阶段的所有动态掩码头部,并且仅使用最后阶段的预测进行推断。在这样的方案下,QueryInst在AP方面超过了最先进的HTC,同时运行速度更快。具体而言,我们的主要贡献总结如下:• 我们试图从一个新的角度来解决实例分割,使用并行动态掩码头在基于查询的端到端检测框架。这种新颖的解决方案使得这样的新框架能够在准确性和速度方面优于良好建立的和高度优化的基于非查询的多级方案,例如级联掩码R-CNN和HTC(参见图1)。①的人。 我们最好的模型达到56。1AP盒和49. COCO测试-开发上的1个AP面罩• 我们建立了一个基于查询的对象检测和实例分割的任务联合范式,通过杠杆的共享查询和多头自注意设计。该范例在检测和分割任务之间建立了一种通信和协同,这鼓励这两个任务彼此受益。我们证明,我们的架构设计也可以显着提高目标检测性能。• 我 们 通 过 简 单 地 添 加 一 个 vanilla 轨 道 头 来 将QueryInst扩展到视频实例分段任务(VIS)[59]任务。在YouTube-VIS数据集上的实验[59]表明,使用相同的跟踪方法,我们的方法优于MaskTrackR-CNN [59]和[6]《易经·系辞下》:“大哉!QueryInst-VIS甚至可以胜过设计良好的VIS方法,如STEm-Seg [1]和VisTR [55]。2. 相关工作基于查询的方法。最近,出现了基于查询的方法来解决集合预测问题。具体地,DETR [7]首先将基于查询的方法与Transformer架构引入对象检测。[2019 -03 -23][2019 - 03 -16][2019 - 03 - 04][2019 - 03][2019 -04][2019 - 03][2019-证明了DETR顶级的性能。最近提出的稀疏R-CNN [44]在基于R-CNN [21,20,41]的检测器上构建了基于查询的集合预测框架。对于分割,VisTR [55]将基于查询的序列匹配和分割方法引入到视频实例分割中,为视频中的实例分割构建了一个完全端到端的框架。Max-DeepLab [51]提出了第一个无框的端到端全景分割模型,其中全局存储器作为外部查询。Trackformer [37]和Transtrack [43]分别在DETR和Deformable DETR上构建基于查询的多对象跟踪器AS-Net [12]将基于查询的集合预测管道引入到人类对象交互中,并获得了有希望的结果。尽管基于查询的集合预测方法被广泛用于许多计算机视觉任务,但很少有人致力于构建成功的本文旨在实现这一目标。物体检测。目标检测是计算机视觉中的一项基本任务,其目的是检测具有边界框的视觉目标。随着R-CNN [21],Fast R-CNN [20]和Faster R-CNN [41]的提出,基于锚点的方法[4,40,36,30,33]长期主导对象检测。CenterNet [61]和FCOS [47]建立了具有竞争性检测性能的无锚检测器。最近,随着所提出的DETR[7],基于查询的可变形DETR [63]将可变形卷积[62]引入DETR框架,以更快的训练收敛实现更好的性能UP-DETR [16]将DETR扩展到无监督场景。ACT [60]和TSP [45]将自适应聚类模块和新的二分匹配方法引入DETR。稀疏R-CNN [44]在R-CNN架构之上构建基于查询的检测器,而OneNet [42]和DeFCN [52]是在一级FCOS [47]上构建的端到端检测器在这项工作中,我们在基于查询的稀疏R-CNN检测器之上提出了一种基于查询的实例分割方法6912不不--B.Σ*b←Bx,t t∈P不--实例分段。实例分割是一项基本但具有挑战性的计算机视觉任务,需要一种算法来为图像中的每个感兴趣实例分配具有类别标签的像素级掩模。 Mask R-CNN[22]向Faster R-CNN [20]检测器引入了一个完全卷积的掩码头。Casacde Mask R-CNN [5]简单地将Casacde R-CNN [4]与Mask R-CNN结合起来。HTC [10]提出了交错执行和掩码信息流,并实现了最先进的性能。后续工作[25,13,50,27]也有助于Mask R-CNN家族。除了 基 于 R-CNN 的 方 法 之 外 , Y 0 LACT [3 , 2] 、SipMask [6]、CondInst [48]、Blend-Mask [9]和SOLO [53,54]在一阶段框架之上构建了一阶段实例分割框架,取得了相当的结果,具有良好的推理速度。在基于R-CNN的方法之后,我们提出了一个基于查询的实例分割框架。3. 实例作为查询我们提出了QueryInst(实例作为查询),基于查询的端到端实例分割方法。QueryInst由一个基于查询的对象检测器和六个由并行监督驱动的动态掩码头组成。我们的关键见解是利用内在的一对一的对应关系在不同阶段的查询。这种对应关系存在于所有基于查询的框架[49,17,39,8,7]中,而不管具体的实例化和应用。QueryInst的整体架构如图所示。第2段(c)分段。3.1. 基于查询的对象检测器QueryInst可以构建在任何基于多阶段查询的对象检测器上[7,63,44]。我们选择Sparse R-CNN [44]作为我们的默认实例,它有六个查询阶段。对象检测流水线在图1B中描绘2(a),并且可以如下公式化xbox← Pbox. xFPN,bt−1Σ,(a) 稀疏R-CNN(b) 稀疏R-CNN与香草面具头(c) 带动态掩码头的图2:QueryInst概述红色箭头表示遮罩分支。请注意QueryInst由6个并行的阶段组成,即t= 1、2、3、4、5、6。该图仅显示了两个阶段。X个框 *被馈送到框预测分支T中以用于当前边界框预测Bt。3.2. 掩模头结构q*t−1← MSA.qt−1Σ,(一)Σ3.2.1香草面膜头xbox*,qt←DynCo nvbox. xbox,q*t1,t t t−框不其中qRN×d表示对象查询。 N和dde-注意查询Q的长度(数目)和维数。在阶段t,池化算子框从FPN [ 29 ]特征x FPN中提取当前阶段边界框特征x框。例如掩模预测,我们首先采用广泛使用的Mask R-CNN中的vanilla mask head架构设计[22]作为我们的实例分割基线。模型建筑师-图中描绘了真实情况。第2段(b)分段。基于在第2节中描述的对象检测流水线。3.1中,掩模生成过程可以表示如下:x掩码← P掩码。xFPN,bΣ,在前一阶段包围盒预测选项bt−1。同时,一个不6913多头自我注意模式-不mt← Mt. x掩模Σ,(二)ULEMSA测试应用于输入查询q∗t−1 为了得到t转换查询qt1.一、 然后,进行框动态卷积模块DynConvbox将xbox和q*作为输入,并且en-其中bt是来自对象的边界框预测6914M检测器 P掩码表示用于6915汉斯河不框t*t−16916为掩模ROI特征提取。6917表示掩码FCN6918--xt通过读取qt1同时生成qt下一阶段最后,增强包围盒特征不6919由四个连续Conv层堆叠组成的头,6920不不--不不不不不M不不不不.Σm←Mx.t t不不固定数量(即,N)的所有阶段的提案--图3:阶段t处的DynConv掩模的图示。 x掩模 *级qt-1[s]在相同的第s个时隙中。此外,x_mask[s]对应于q_t [ s ] [ 44]并且由q_t[s][44]细化。因此,在这些框架中固有的不同阶段查询之间存在一对一的对应关系,以及在同一阶段中的掩码RoI特征和对象查询t tQueryInst是由对动态由两个连续的conv层增强,其内核参数由q*t−1产生。一个dconv层和一个1×1conv层用于掩模类掩码头,它充分利用了跨不同阶段的对象查询中固有的一对一对应关系。具体来说,我们设置了相互平行的动态掩模头,它们将每个掩模RoI特征x掩模[22]. m是当前阶段掩码预测。自适应地在DynConv掩模中根据相应测试查询*总的来说,这种香草设计是基于查询的框架中的Cascade MaskR-CNN[5]然而,我们发现这种设计不如原始的Cascade Mask R-CNN有效。此外,在此设计之上 建 立 HTC [ 10 ] 之 后 的 显 式 掩 码 流 ( 图 1 ) 。 2(b))只能以训练和推理速度的大幅下降为代价带来适度的改进。部分原因可能是我们框架中的查询数量比Cascade Mask R-CNN和HTC中的提案数量要小得多,导致训练样本的可用性有限。3.2.2动态面罩头我们的目标是设计一个掩码预测头量身定制的查询为基础的实例分割框架。为此,我们建议利用动态掩码头驱动的并行监督,以取代香草的设计。3.2.1.阶段t处的动态掩模头由动态掩模卷积模块DynConv掩模组成(参见图1)。3)[44]接着是香草面具头t[22]。掩码生成流水线被重新表述如下:x掩码 ← P掩码。xFPN,btΣ,不不qt1 , 并 且 在 所 有 阶 段 中 被 同 时 训 练 。 在DynConv掩码中,查询充当存储器,并且在正向传递中由掩码RoI特征x掩码读取,并且在反向传递中由x掩码在训练期间,每个掩码信息(即,掩码梯度)不仅流回掩码RoI特征x掩码,而且还流回对象查询q*t1,这在不同阶段中本质上是因此,每个掩码的信息流自然地通过杠杆建立老化基于查询的框架的固有属性,而不需要额外的连接。在训练完成之后,用于掩模预测的信息被存储在查询中。在推理过程中,我们丢弃5个中间阶段中的所有动态掩码头,仅使用最后阶段的预测进行推理。 查询隐含地携带用于掩模预测的多阶段信息,其由动态掩模卷积DynConv掩模中的掩模RoI特征x掩模在最后阶段读取以用于最终掩模生成。如果没有DynConv掩码,掩码RoI特征与查询之间的链接将丢失,并且不同阶段中的掩码头将被隔离。即使并行监督应用于所有掩码头,与掩码生成相关的信息也不能流入查询。在这种情况下x掩模* ←DynConvmask. x掩模,q*Σ(三)QueryInst退化为级联掩码R-CNN值得注意的是,所提出的动态掩模头和普通掩模头之间的唯一区别是现有技术。3.4. 基于共享查询和MSA的联合检测和分割DynConv遮罩的张力。我们证明了DynConv掩模在阶段t,多头自注意MSA施加t tt使(1)每个掩码的信息流在查询驱动并行掩码分支监督,以及(2)通信查询qt-1。MSAt将查询qt−1投影到高维嵌入空间,并读取其输出q*t以及联合检测和实例分割的协同作用通过动态盒卷积box−1下面两个小节分别。这两个性质的有效性在我们的实验中得到了验证DynConvt和动态掩模分别卷积DynConv掩模,以增强任务特定特征X框和X掩码。t t3.3.基于并行处理的每掩码信息流在诸如[7,63,44]的基于查询的模型中,模型为每个查询槽学习不同的专门化[7],即,qt[s]是先前的在整个过程中,查询和MSA在检测和实例分割任务之间共享。检测和分割信息都通过MSA流回到查询中。这种任务联合范例在检测和分割任务之间建立了一种沟通和协同,这鼓励这两个任务不掩模不t−16921×个×个×个∼×个∼彼此受益查询学习一个更好的实例级表示的指导下,两个高度相关的任务.我们观察到的性能下降,在我们的实验中使用separ- arate查询或MSA3.5.用于视频实例分割的QueryInst-VIS视频实例分割(VIS)[59]是一项与静止图像实例分割高度相关的任务,其目的是检测、分类、分割和跟踪视频帧上的视觉实例。我们证明了QueryInst可以通过简单地在Mask- Track R-CNN基线中添加vanilla跟踪头来轻松地扩展到VIS,只需进行最小的修改[59]。所提出的模型称为QueryInst-VIS,可以在实时操作的同时以在线方式执行视频实例分割。总训练和推理流水线与Mask-Track R-CNN保持相同。我们在具有挑战性的YouTube-VIS [59]基准上评估QueryInst-VIS,以证明其有效性。4. 实验4.1. 数据集可可我们的大多数实验都是在挑战性的COCO数据集上 进 行 的 [31] 。 按 照 常 规 做 法 , 我 们 使 用COCOtrain2017分割(115k图像)进行训练,使用val2017分割(5k图像)进行消融研究的验证我们报告我们的主要结果的测试-开发分裂(20k图像)。城市景观。Cityscapes [14]是一个以自我为中心的街景数据集,具有8个类别,2975个火车图像和500个验证图像,用于实例分割。与COCO相比,这些图像具有更高的分辨率(1024 - 2048像素),并且具有更高的像素精确度。YouTube视频 除了静态图像实例分割,我们证明了我们的QueryInst对视频实例分割的有效性。YouTube-VIS [59]是用于视频实例分割任务的挑战性数据集,其具有40个类别标签集,4,883个唯一视频实例和131k个高质量手动注释。有2238个培训视频,302个验证视频和343个测试视频。4.2. 实现细节培 训 设 置 。 我 们 的 实 现 基 于 MMDetection [11] 和Detectron2 [56]。在[44]之后,故障训练时间表是36个时期,并且初始学习率被设置为2。5 10−5,分别在第27个历元和第33个历元除以10我们采用AdamW优化器110−4重量衰减。 超参数、配置以及标签分配程序遵循[7,63,44]中的总的来说,QueryInst的R-CNN头包含6个并行的阶段[44]。 口罩头经过培训最大限度地减少芯片损耗[38]。在消融研究的实验中,我们采用用100个查询和ResNet-50-FPN [24,29]训练的QueryInst模型作为主干推理。给定输入图像,QueryInst直接输出前100个边界框预测及其分数和对应的实例掩码,而无需进一步的后处理。 对于推理,我们使用最后阶段的掩码作为预测,并忽略中间阶段的所有并行DynConv掩码报告的推理速度是使用单个Titan Xp GPU测量的,其中输入的大小调整为使其短边为800,长边小于或等于1333。4.3. 主要结果COCO实例分割的比较。QueryInst与COCOtest-dev上最先进的实例分割方法的比较列于表中。1.一、我们已经测试了不同的主干和数据增强。CondInst [48](具有辅助语义分支)和SOLOv2 [54]是基于动态卷积的最新最先进的实例用100个查询训练的5阶段QueryInst在1个以上的情况下优于它们。在相似的推理速度下,1掩码AP增益。用100个查询训练的QueryInst也可以超过Cascade Mask R-CNN [22] 1。5屏蔽AP,同时运行相同的FPS。为了与HTC [10]进行公平比较,我们使用36个时期的训练时间表和遵循[22,56]中的标准设置的多尺度数据增强来训练HTC w/o语义分割分支,产生比[10]中报告的原始结果高1在相同的实验条件下,QueryInst在准确性和速度方面都优于最先进的HTC。此外,QueryInst在不同IoU阈值(AP50和 AP75)作为AP在不同的尺度(APS,APM和APL),不考虑实验配置。我们还发现,与Cascade Mask R-CNN和HTC相比,基于查询的QueryInst可以从[7,63,44]中使用的更强的数据参数中受益更多。具体而言,使用ResNet-101-FPN [29]主干和更强大的随机裁剪多尺度数据论证,QueryInst通过二、0掩码AP和1. 8盒AP,同时运行2。4快毛皮-因此,具有可变形ResNeXt-101-FPN主干的QueryInst[57,15,62]达到44。6掩模AP和50. 4盒AP没有铃铛和哨子。我 们 证 明 QueryInst 的 实 例 分 割 性 能 不 仅 仅 来 自Sparse R-CNN [44]对象检测器提供的准确边界框。相反,QueryInst可以大大提高检测性能。[ 11 ]中报告的稀疏R-CNN(ResNet-101-FPN,300个查询,480 800w/ crop,36个epochs)的最佳结果是46。3盒AP。根据同一6922方法骨干八月历元AP髁间盒AP AP50 AP75 APS APM APLFPS[22]第二十二话CondInst w/ sem.[53]第四十八话:QueryInst(5阶段, 100个查询)ResNet-50-FPN6408003641岁3-四十444. 5三十七5三十八岁。6三十八岁。839岁9五十九3402六十岁。2414五十九九点四十一762. 243021岁139 648320块641 0511十六岁五点四十一7562二十二岁九点四十一7519十四岁0十四岁1十三岁8十三岁5级联掩码R-CNN [5]HTC [10]QueryInst(100个查询)QueryInst(300个查询)ResNet-50-FPN6408003644. 544. 944. 8四十五6三十八岁。639岁7四十1四十6六十岁。041761岁四四三162. 343463岁044.021岁七点四十八点四十九6二十二岁642250623岁342 152023岁四四二552810个。43 .第三章。110个。57 .第一次会议。0级联掩码R-CNNHTCQueryInst(300个查询)ResNet-101-FPN64080036四十五7四十六岁。2四十七039岁8四十741岁761岁643062. 七点四十四2六十四四点四十五3二十二岁四四二250823岁一百四十三4527二十四岁243九点五十三分98.7二、5六、1级联掩码R-CNNHTC稀疏R-CNN(300个查询)QueryInst(300个查询)ResNet-101-FPN480800w/crop36四十六岁。2四十六岁。3四十六岁。3四十八1四十0四十8- -四十二861岁七四三562. 6443- -六十五6467二十二岁542551223岁043 5526- --二十四岁64505558.7二、5六、9六、1QueryInst(300个查询)ResNeXt-101带DCN480800w/crop3650块 44. 68岁一百二十六岁646 3 .第6923×个46四十八79577三章。1QueryInst(300个查询)@valSwin-L4001200w/crop50五十六1四十八974岁0539 三十八点五十二66833 .第三章。3QueryInst(300个查询)Swin-L4001200w/crop50五十六1四十九174岁2538 31岁551 863.23 .第三章。3表1:COCO测试的主要结果-开发“八月”下面的数字表示步长为32的较短输入大小的缩放范围。AP框表示框AP。没有上标的AP表示掩码AP。每个配置的最佳结果以粗体显示上标实验设置,QueryInst可以实现48. 1盒AP,其比稀疏R-CNN性能好1。8盒AP。我们还在消融研究中表明,QueryInst 可 以 基 于 较 弱 的 基 于 查 询 的 检 测 器 胜 过Cascade Mask R-CNN和HTC。我 们 还 将 QueryInst 应 用 于 最 近 最 先 进 的 SwinTransformer [34]主干,无需进一步修改,我们发现所提 出 的 模 型 非 常 适 合 Swin-L 。 无 需 花 里 胡 哨 ,QueryInst可以在实例分割和对象检测方面实现最先进的性能。这是第一次,我们证明了一个端到端的查询为基础的框架驱动的并行监督可以实现国家的最先进的性能在各种实例级的识别任务。城市景观实例分割的比较。我们还在Cityscapes数据集上进行了实验,以证明QueryInst的泛化。根据[48,22]中的标准设置,所有模型首先在COCOtrain2017 split上进行预训练,然后使用批量大小为8的24k迭代的精细注释在Cityscapes上进行微调。初始学习率线性缩放为1。25 10−5,并在步骤18k处减小10倍。结果见表。二、 QueryInst实现39岁4AP on val split和34. 4AP在测试拆分上,表面通过了几个强基线。值得注意的是,与基于动态卷积的 方 法 CondInst [48] 相 比 , 具 有 ResNet-50 主 干 的QueryInst优于具有ResNet-101-DCN-BiFPN主干和语义分 支 的 CondInst 。 总 的 来 说 , 我 们 的 QueryInst 在Cityscapes数据集上取得了领先的结果,没有花里胡哨的东西。YouTube-VIS上的视频实例分割结果选项卡. 3示出了YouTube-VISval集合上的视频实例分割 结 果 。根 据 [59] 中 的 标 准 设 置 , 我 们 首 先 在COCOtrain 2017上预训练实例分割模型,然后在YouTube-VIS 训 练 集 上 微 调 相 应 的 VIS 模 型 12 个epoch。在Youtube-VIS数据集中,一帧中的最大实例数是10,因此我们在QueryInst-VIS中将查询数设置为10。该设置使模型能够实时操作(>30FPS)。如第3.5,QueryInst-VIS采用MaskTrack R-CNN [59]和SipMask-VIS [6]的香草跟踪方法,而它获得4. 3与MaskTrack R-CNN相比的AP改善和2. 与SipMask-VIS相比,AP改善1。此外,QueryInst可以在准确性和速度方面胜过许多成熟且高度优化的VIS方法,例如STEm-Seg、CompFeat和VisTR。6924方法骨干AP值APAP50人骑手车后备箱总线 火车 mcycle 自行车[22]第二十二话ResNet-50三十六4三十二0五十八1三十四8二十七岁0四十九1三十1四十9三十9二十四岁1十八岁7BShapeNet+[28]UPSNet [58]ResNet-50ResNet-50- -三十七8三十二9三十三岁。0五十八8五十九7三十六6三十五9二十四岁8二十七岁450块451岁9三十三岁。731岁841岁0四十三1三十三岁。731岁4二十五423岁8十七岁819号。1[第48话]ResNet-50三十七5三十三岁。2五十七2三十五1二十七岁7五十四529岁5四十二3三十三岁。823岁9 十八岁9CondInst [48] w/sem.DCN-101-BiFPN39岁3三十三岁。9五十八2三十五628岁155. 0 三十二144.2三十三岁。6二十四岁5十八岁6QueryInstResNet-5039岁4三十四4五十九6四十4 三十7五十六829岁1四十5三十8二十六岁021岁1表2:Cityscapesval(APval列)和test(剩余列)分割的实例分割结果最佳结果以粗体显示。方法骨干APAP50AP75AR1AR10FPSMaskTrack R-CNN [59]SipMask-VIS[6] SipMask-VIS* STEm-Seg[1][18]第十八话VisTR [55]VisTRResNet-50ResNet-50ResNet-50ResNet-50ResNet-101ResNet-50ResNet-50ResNet-101三十3三十二5三十三岁。7三十6三十四6三十五3三十四4三十五351岁1五十三0五十四150块755. 8五十六055. 7五十七0三十二6三十三岁。3三十五8三十三岁。5三十七9三十八岁。6三十六5三十六231岁0三十三岁。5三十五431岁6三十四4三十三岁。1三十三岁。5三十四3三十五5三十八岁。9四十1三十七141岁6四十3三十八岁。9四十4二十二岁1三十9三十94.第一章4二、1-三十0二十七岁7QueryInst-VISQueryInst-VIS*ResNet-50ResNet-50三十四6三十六255. 8五十六7三十六539岁7三十五4三十六1四十二4四十二9三十二3三十二3表3:与YouTube-VIS val集上的最先进视频实例分割方法的比较。带上标“*”的方法表示在训练期间使用多尺度数据论证。最佳结果以粗体显示。4.4. 消融研究并行监控和动态转换掩码的研究。我们表明,应用并行掩码头监督和DynConv掩码都是必不可少的良好性能。 如Tab.所示。5、在香草面膜头上使用平行监管并不能带来大的改善,被-因为不同阶段中的掩模头是隔离的,并且没有建立跨阶段的每个掩模信息流(第3.2.1)。在每个阶段上使用没有并行监督的DynConv掩码只能带来适度的改进,因为从最后阶段注入的掩码梯度不能完全驱动跨所有阶段中6925的查询的每个掩码信息流。当所有阶段的DynConv掩码同时由并行监督驱动时,QueryInst在推理速度仅略有下降的情况下实现了原因是在推理过程中,我们丢弃了中间阶段的所有并行DynConv掩码,只使用最终阶段的掩码预测。每掩码信息在训练期间被写入并保存在查询中,其仅需要在推断期间的最后阶段被读出查询和MSA的研究。选项卡. 6研究了使用共享查询和MSA的影响。正如预期的那样,SEC。3.4、利用共享查询和MSA同时建立一种通信和同步机制。该算法在检测和分割任务之间分配能量,使检测和分割任务相互促进,达到最高的盒AP和掩模AP。此外,这种配置消耗最少的参数和计算预算。因此,我们选择使用共享查询和MSA作为QueryInst的默认实例化。不同面罩头的研究。选项卡. 4研究了不同掩码头架构对基于查询和非查询的框架的影响。所有阶段都同时训练。对于非基于查询的框架,第一行是级联掩码R-CNN [5]的结果,第二行是HTC [10]。我们有以下三个主要观察。首先,我们发现直接将级联掩码头[5]和HTC掩码流[10]集成到基于查询的模型中不如在其原始框架中有效当应用级联掩码头(第3行)时,基于查询的模型为0。5AP盒和0. 6低于原始级联掩码R-CNN的AP掩码(第1行)。 当应用HTC掩码流(第4行)时,基于查询的模型为0。6AP盒和0的情况。4AP掩模低于原始HTC(第2行)。这些结果表明,以前成功的经验做法-来自非基于查询的多阶段模型的Tice可能不适合基于查询的模型(第2节)。3.2.1)。第二,当所提出的并行DynConv掩码为ap-D时,6926×个类型层叠面罩头[5]HTC面罩流量[10]DynConv掩模图AP髁间盒∆框AP掩模 ∆掩模FPS ∆FPS非基于✓✓44. 3三十八岁。510个。444. 4+0。139岁3 +0。83 .第三章。1-7. 3✓✓✓✓✓图2(b)四十三8三十七911个国家。1基于查询图2(c)四十三844. 544. 4+0。0+0。7+0。6三十八岁。939岁8四十0+1。0+1。9+2。1六、010个。5五、4-五个1-0 6-五个7表4:不同掩模头架构对不同框架的影响蓝色的设置是我们的默认实例化。平行DynConv掩模图AP髁间盒AP掩模FPS图2(b) 四十三5三十七411个国家。1✓图2(b)四十三8三十七911个国家。1✓图2(c)四十三8三十八岁。810个。5✓✓图2(c)44. 539岁810个。5表5:并行监督和DynConv掩码的影响。共享 MSA 共享查询AP髁间盒∆框AP掩模 ∆掩模✓四十三4四十三9+0。5三十八岁。1三十八岁。3+0。2✓44. 1 +0。739岁5 +1。4✓✓44. 5 +1。139岁8 +1。7表6:使用共享查询和MSA的影响。应用于基于查询的模型,QueryInst(第5行)比基线(第3行)高0。7AP盒和1. 9AP遮 罩,同时保持高FPS。此外,QueryInst还在AP框和AP掩码方面击败了原始HTC(第2排),同时运行速度快了约3。图图4定性地展示了DynConv掩模最后,我们还发现,对于基于查询的方法,HTC掩模流不能在并行DynConv掩模结构(第6行)之上带来进一步的改进这表明,所提出的并行DynConv掩码使得足够的掩码信息流在不同阶段的查询之间传播,因此,建立显式的模板特征流是多余的,不利于模型的效率.考虑到速度-精度权衡,我们选择图。2(c)as as as thedefault instantiation of our QueryInst.5. 结论在本文中,我们提出了一个高效的查询为基础的端到端的实例分割框架,QueryInst,驱动的动态掩码头上6927的并行监督。据我们所知,QueryInst是第一个基于查询的实例分割方法,其性能优于以前的最先进技术图4:DynConv遮罩的效果。第一行示出了直接从FPN 提取的掩模特征X掩 模。 第二行显示了通过DynConv mask中的查询增强的mask特征xmask *。最后一行是地面实况实例掩码。实验结果表明,经过查询增强后的掩模特征能够获得更真实、更准确的细节信息,并携带更多的实例信息。基于非查询的实例分割方法。大量的研究表明,并行掩码监督在不降低推理速度的前提下,可以显著提高性能,而动态掩码头与共享查询和MSA有机地结合了检测和分割两个子任务。我们希望这项工作可以加强对基于查询的框架的理解,并促进未来的研究。确认这项工作得到了国家自然科学基金的部分支持(No.61876212号61733007号61773176)和浙-2019NB0AB02号资助的江泽民实验室引用[1] AliAtha r,S. 阿尔乔萨·奥塞普湖?Leal-Taix e’和B. LeibeStem-seg:用于视频中的实例分割的时空嵌入。在ECCV,2020年。[2] Daniel Bolya,Chong Zhou,Fanyi Xiao,and Yong JaeLee. YOLACT++ : 更 好 的 实 时 实 例 分 割 。 ArXiv ,2019。[3] Daniel Bolya,Chong Zhou,Fanyi Xiao,and Yong JaeLee. YOLACT:实时实例分割。在ICCV,2019年。6928[4] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade R-CNN:深入研究高质量的对象检测。在CVPR,2018年。[5] 赵伟蔡和努诺·瓦斯康塞洛斯。级联r-cnn:高质量的对象检测和实例分割。TPAMI,2019。[6] JialeCao、Rao Muhammad Anwer、HishamCholakkal、Fa-hadShahbazKhan 、 YanweiPang 和 LingShao 。Sipmask:用于快速图像和视频实例分割的空间信息保存在ECCV,2020年。[7] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在ECCV,2020年。[8] 威廉·陈,奇旺·萨哈里亚,杰弗里·辛顿,莫汉-疯子诺鲁兹,纳夫迪普·贾特利。输入:通过插补和动态规划的序列建模。在ICML,2020。[9] 陈浩,孙昆阳,田智,沈春华,黄永明,严友良.BlendMask:自上而下与自下而上结合,用于实例分割。在CVPR,2020年。[10] Kai Chen,Jiangmiao Pang,Jiaqi Wang,Yu XiaoLi,Shuyang Sun,Wansen Feng,Ziwei Liu,Jianping Shi,Wanli Ouyang,et al.实例分段的混合任务级联。在CVPR,2019年。[11] Kai Chen,Jiaqi Wang,Jiangmiao Pang,Yuhang Cao,Yu Xiong,Xiaoxiao Li,Shuyang Sun,Wansen Feng,Ziwei
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功