没有合适的资源?快使用搜索试试~ 我知道了~
702012基于鲁棒跨模态伪标注的Dat Huynh1*Jason Kuen2Zhe Lin2Jiuxiang Gu2EhsanElhamifar11 Northeastern University2 Adobe Research{huynh.dat,e.elhamifar}@ northeastern.edu{kuen,zlin,jigu}@ adobe.com摘要开放词汇表实例分割的目的是在没有掩码注释的情况下分割新类这是朝着减少费力的人力监督迈出的重要一步大多数现有的作品首先在覆盖许多新类的标题图像上预训练模型,然后在具有掩码注释的有限基类上对其进行微调。然而,仅从字幕预训练学习的高级文本信息不能有效地编码逐像素分割所需的细节为了解决这个问题,我们提出了一个跨模态伪标记框架,它通过将标题中的单词语义与图像中对象掩码的视觉特征对齐来生成训练伪掩码。因此,我们的框架能够通过它们的单词语义来标记新的类,以自训练学生模型。为了考虑伪掩模中的噪声,我们设计了一个鲁棒的学生模型,该模型通过估计掩模噪声水平来选择性地提取掩模知识,从而减轻噪声伪掩模的不利影响。通过大量的实验,我们证明了我们的框架的有效性,其中,我们显着提高了4.5%的mAP得分在MS-COCO和5.1%的大规模开放图像概念字幕数据集相比,国家的最先进的。11. 介绍实例分割是一项关键而又具有挑战性的任务,它分割图像中的所有对象,在自动驾驶、监控系统和医疗成像中具有应用。由于在训练具有大量掩码注释的高容量模型方面的进步,分割工作取得了令人印象深刻的结果[1具体来说,大多数方法通过学习额外的掩码头来分割框建议[6- 9 ]内的对象,采用两阶段对象检测架构[5]来执行此任务近期作品*这项工作是在Dat Huynh在Adobe重新搜索实习期间完成的。1代码可从https://github.com/hbdat/cvpr22_cross_modal_pseudo_labeling获得。图1.传统的伪标记(顶部)仅基于视觉模态分割对象,这会产生不正确的标签并错过新的对象类。我们的方法(底部)通过将标题词的语义与对象掩码的视觉特征对齐来利用视觉和文本模态,以正确地标记对象并推广到没有掩码注释的新类通过使用动态网络[10,11]或边界细化[12尽管他们的成功,这些作品都需要昂贵的掩码注释的每一个类。因此,由于其用于训练的高掩码注释成本,难以将此类系统扩展到数百或数千个类在这项工作中,我们的目标是通过使用低成本的字幕图像分割新的类来显着减少增加分割类数量的最流行的方法之一是部分监督学习。它利用弱图像级[15-尽管部分监督方法取得了成功,但它们只能分割图像/框级注释所覆盖的类,而不能分割广泛的新类。与以前仅限于具有掩码注释的类的方法不同,零镜头实例/语义分割旨在分割新的类,而无需训练。7021····通过高级语义描述(如词嵌入)来分析样本。然而,当前的零射击方法在对象检测[24- 26 ]和实例分割上都存在[27]由于高级字嵌入不能有效地编码细粒度的形状信息,因此具有低的新颖类性能为了克服这个问题,最近的OVR[28]工作在标题图像上预训练视觉骨干,以学习丰富的视觉特征。由于OVR的主干对字幕中许多新类别的视觉外观进行编码,因此在检测任务中对其进行微调可以显着提高新类别的性能。尽管其检测的有效性,我们认为,骨干预训练对实例分割的影响有限,因为掩模预测被忽略,而不是在字幕预训练学习。在本文中,我们通过直接自训练我们的模型来解决训练过程中未知的新类别的实例分割,以在没有任何掩模注释的情况下分割标题图像中的对象。我们引入了一个强大的跨模态伪标记框架,该框架将字幕图像中的文本和视觉模态对齐,以创建字幕驱动的伪掩码,并将其推广到基类之外的新类。具体来说,我们在基类上训练教师模型,并使用该模型来选择视觉特征与字幕中单词该区域被进一步分割成用于字幕中的对象词的伪掩模。然后,我们将伪掩模提取为一个强大的学生,它共同学习分割并估计伪掩模噪声水平,以降低不正确的教师预测。最后,我们评估了我们在MS-COCO和Open Images Conceptual Captions数据集上的分割性能我们定性地证明了我们的泛化能力,真正新颖的类,从来没有出现在大多数分割数据集。本文的贡献如下:我们提出了一种新的跨模态伪标记框架,以生成字幕驱动的伪掩模和完全uti-无字幕的图像分割训练,而无需查询实例掩模注释。我们的方法被设计为通过选择其视觉特征与新颖类的语义最兼容的区域并将这些区域分割成伪掩模来自训练学生模型来与新颖类一起工作。我们明确地捕获的伪面具的可靠性,通过我们强大的学生模型。对于具有高掩模噪声的伪掩模,当图像中的对象不能接地时,我们降低损失的权重以避免错误传播。为了证明该方法的有效性,我们在MS-COCO和大规模Open Images Conceptual Captions数据集上进行了广泛的实验2. 相关作品部分监督学习。由于掩码注释的高成本[29],具有弱监督的学习分割最近引起了人们的强烈兴趣。给定边界框注释,[15,20,21,30,31]利用像素-明智的相似性来推断对象掩码,而[18,19,32,33]学习在掩码和框超视之间共享掩码知识以增强性能。然而,[16,17,34-最近,[39-未标记的图像也可以通过将置信预测视为这些图像的注释用于训练来提高性能[42然而,这些工作假设某些形式的弱注释可用于所有类,因此不能推广到广泛的可能根本没有注释的新类。零射击学习。为了推广到没有任何训练注释的新类,大多数零拍摄作品[49最近的工作已经通过学习区分背景和新对象区域[24,25],合成看不见的类特征[26]或使用更丰富的文本描述[59]来探索零拍摄对象检测。对于像素级掩模预测,[60-由于这些zero-shot方法只能访问基类注释,因此它们在新类上的性能很差尽管[68-此外,他们做出了一个强有力的假设,即未标记的样本总是属于训练过程中已知的一组受限的类。另一方面,视觉语言预训练旨在从包含广泛类别的标题图像中学习。大多数作品专注于学习视觉骨干,从标题图像对编码丰富的视觉信息,并在下游任务中对其进行微调。具体来说,[71-最近的工作[76,77]通过消除对对象检测器的需求来提高训练效率,并扩展到数亿个样本以获得实质性的性能增益[78]。此外,[28]提出了一种新的开放式词汇学习任务,并表明预训练的视觉特征不仅提高了基类的检测性能,还提高了新类的检测性能。然而,单独的主干预训练不能利用带标题的图像进行分割,因为模型没有被明确地训练以分割带标题的图像中的对象。7022i=1--)}YD {Y}O YRV|V||V|V{} ∈ VV·L使用Noisy Annotations学习虽然使用从网络收集或机器注释的噪声训练样本进行学习也可以显着降低注释成本,[79]表明深度神经网络可以轻松适应随机标签噪声。因此,大多数工作通过调节损失函数[80-由于这些方法不适用于分割任务,[62,94]建议捕获掩码预测中的不确定性,以调节像素分割损失,从而减少噪声注释的影响。然而,它们只能从属于基类的掩码注释中估计噪声,因此对于没有掩码注释的新类是无效的。3. 带字幕图像的鲁棒跨模态本节描述了我们强大的跨模态伪标记框架,该框架利用字幕-图像对来产生伪掩码并自训练学生模型。我们首先描述的问题设置,然后在我们的框架中提出不同的组件。3.1. 问题设置通过选择其视觉特征与字幕中的目标词的语义嵌入最兼容的掩码预测来生成伪掩码。我们首先构建一个教师模型,其中包含一个用于分类的嵌入头和一个用于分割的类不可知掩码头。然后,我们将来自教师预测和字幕的掩码知识提取到一个强大的学生模型中,该模型联合从伪掩码中学习并估计掩码噪声水平,以降低不可靠的伪掩码的权重。3.2.1教师模型为了有效地从字幕图像中提取掩码监督,我们首先引入了一个教师模型,h,能够根据这些类的单词嵌入来分割新的类。在[28]之后,我们建立了一个两阶段检测框架Mask R-CNN[6]。具体来说,我们训练了一个与类别无关的区域建议网络p,以在每个图像中选择一组区域建议:riNR=p(I)。鉴于区域提案,我们的目标是将其扩展到标题中提到的基类之外的任何类。因此,我们用嵌入头hEmb替换Mask R-CNN的分类头中的传统全连接层。在这里,hEmb将区域特征映射到词嵌入的语义空间中。与让DB={(Im,YmNBm=1 成为培训的一部分,嵌入头,每个区域的O类得分为计算为单词嵌入之间的内积,年龄和实例注释,类和区域VB类。每个图像Im与一组TI相关联,地面实况(GT)注释m,其包括实例掩码及其对应的对象类。在或-vohEmb(fr)n ∈ p(I),(1)其中vo是类o的单词嵌入,fI是vi-为了分割新的类,我们利用额外的图像,N地域特征Rr从视觉骨干C=(Ic,c)图像Cc=1 只有图片级别的字幕每个使用RoIAlign[6]和hEMB(fI)是视觉嵌入─Ic带有注释,我们可以从中解释-在每个标题中引导一组宾语名词c c由于标题注释的源代码成本相对较低,该地区的丁。为了简化符号,我们去掉了fI中的上标I,它可以从下式中推导出来。一组标题类,类,C|,明显大于基础短信了通过学习视觉之间的联合嵌入空间,教师可以根据自己的特点和单词的嵌入,C B,这是一种重要的成分-证明小说类的分割。我们遵循[28]来构建一组目标类T,没有任何掩码注释,并且在训练期间对模型未知。这些类只是用来作为一个代理,以评估在测试期间的新类的分割性能。我们的模型可以识别大量的新类,通过使用高级语义嵌入vo,对于所有对象类oBCT,来自预训练的BERT模型[95]。给定BERT嵌入,我们通过类语义相似性将知识从基础/标题转移到目标类。3.2. 该方法在本节中,我们提出了我们提出的用于开放词汇实例分割的跨模态伪标记框架。对于每个标题图像对,我们生成在没有训练样本的情况下,通过测量来实现新的类,视觉和文本特征之间的兼容性。我们还将背景嵌入定义为固定的零向量,这已被证明优于其他变量[28]。因此,如果区域提议的类别分数低于背景分数,则该区域提议被认为是此外,我们还学习了一个基于类别不可知的Mask R-CNN头部来分割每个区域中的对象,hMask(fr),其中hMask()是预测掩码logit分数的掩码头部。为了训练教师的嵌入和掩码头部,我们采用地面实况损失GT,包括标准检测和分割损失,如[6]所示。虽然教师可以分割新的类,但它不能有效地执行这一点,并且由于缺乏训练注释而经常误分类新的类。为了在不产生高注释成本的情况下为新类提供额外的监督,我们提出了一个跨模式的R|V7023OO⊂ Y--.LO掩模ΣBo图2. 给定图像Ic和标题c中的对象集合,我们首先生成区域提议。 然后,我们找到最大化 字幕中每个对象的教师嵌入头部(hEmb)的分数。我们进一步分割这些区域内的对象到伪面具使用教师最后,学生嵌入(gEmb)和掩码(gMask)头分别通过交叉模态和掩码损失进行训练。交叉模态损失也基于从我们的伪掩模损失中学习到的伪掩模噪声水平重新加权。伪学习方法,使用字幕词的语义信息来指导教师预测,并生成用于自训练学生模型的伪掩码。3.2.2跨模态伪标记为了提高教师我们首先利用标题来识别图像中的对象。为了简单起见,我们提取每个标题中的对象名词Cc,作为WordNet层次结构中“Object”节点的后代的单词,其灵感来自[ 3 ]。为了在图像中定位这些对象词,我们提出了一个跨模态对齐步骤,该步骤选择其特征与标题中对象名词的词嵌入最兼容的区域,如下所示:通过Softmax标准化,最小化其他不相关词w的得分。来自词嵌入{vo}o∈Oc(文本模态)和对齐对象区域的信息f boo∈Oc (视觉模态)是蒸馏到学生包埋头中,丹特跨模态损失通过作用于学生嵌入头来工作接下来,我们建议从教师那里获得伪掩模,并估计这些掩模的噪声水平我们的方法提供了监督的学生面具头,除了调节跨模态损失。3.2.3估计伪掩模噪声给定对齐的对象区域,我们通过在这些区域上应用教师掩码头部将它们转换为伪掩码:bo=argmaxvTohEmb(f r)r∈p(Ic)(2)Mo=1≥0[hMask(fbo)] (4)其中1≥0[·]是指示函数,如果其中Bo是对象o的对准对象区域w.r. t。它的单词嵌入vo和来自老师的视觉嵌入hEmb(fr)。由于我们的伪标记过程是由标题中的单词语义指导的,我们具体地搜索标题中的对象,并根据它们的词嵌入归纳到新的最近的作品像素预测为正,否则为0以二进制化掩模预测。简单地说,我们可以训练学生模型来模拟每个像素的精确伪掩模:公元前1000年。Mxy|gxy(f)n,(5)o∈Ocx,y在弱监督学习[96,97]中,我们为每个对象选择最高置信度的边界框以最小化其中BCE是像素logit预测的二进制交叉熵损失,Mxy是像素(x,y)处的伪掩模,并且假阳性预测二十给定一组对齐的对象区域,我们引入一个跨模态损失X,它训练学生将这些区域识别为他们的正匹配标题词:vTg Emb(f) 的方式g遮罩是像素处的学生遮罩预测。然而,由于教师预测中的错误,并非字幕中的所有对象都能被正确检测/分割,如图所示图3中的因此,最大限度地减少这种像素损失会将错误从伪掩码传播到学生掩码L(Y| I;g)=−日志e obo 、(三)头并降低其性能。说明错误X C Co∈Ocw∈VCevTwgEmb(f bo)在伪标签中,我们提出估计伪掩模中的噪声水平。特别是,学生预测一个附加的-其中gEmb是学生嵌入头。对于每个对齐的对象区域bo,学生最大化其对象伪掩模中每个像素的常规噪声值如下[62,94]。我们假设伪掩模中的每个像素是7024.ON电子邮件:info@yahoo.com.cn|I;g)+L(Y|I;g)MccccΣOX噪声Bo噪声OXY被高斯噪声破坏,其方差可以通过对准的对象区域的视觉特征来估计。因此,我们可以学习将像素级噪声估计为:L M(Yc|Ic,g)=BCE. Mxy|gxy(f)+xxyo∈Ocx,yxyo面具boo(f)不动产,图3.伪掩模噪声级的可视化及其可靠性(六)标题中提到的对象的分数其中,gNoise是预测噪声水平的神经网络是从高斯分布采样的对象o的像素(x,y)的噪声值,由g噪声参数化。具有分割错误的伪掩模(学生难以学习)将驱动g噪声估计高噪声水平以拟合这些错误。因此,我们的框架不仅在伪掩模上训练学生掩模头部,而且还估计伪掩模噪声以调节训练损失并考虑教师可能的分割错误由于具有估计伪掩模噪声的能力,我们UTI-在下一节中,我们将讨论这一点,以改善交叉模态损耗。3.2.4训练健壮的学生模型由于缺乏注释,学生和教师模型都不知道正确的新对象掩码,因此我们建议考虑掩码噪声作为伪掩码可靠性的代理。我们将每个伪掩模的噪声水平计算为像素噪声的平均值噪声预测的跨模态损失,以避免从教师到学生的错误传播。备注1由于学生是用跨模态伪标记训练的,它利用了标题图像中的新奇类信息,因此能够超过教师的表现。这与传统的知识提炼工程不同,在传统的知识提炼工程中,学生受到教师表现的限制4. 实验我们评估我们提出的方法,这是被称为交叉(X)-模 态 伪 掩 模 的 XPM , 在 MS-COCO 和 Open ImagesConceptual Captions数据集上进行对象检测和实例分割下面,我们讨论数据集统计,评估指标,基线和实施细节。然后,我们提出并分析我们的表现在各种设置下的基础和目标类。最后,我们通过消融研究证明了每个建议组件的重要性,并展示了我们的噪声估计x,y噪音(fbo)/|Bo|哪里|Bo|中的像素数|方法与其他变体进行比较。区域BO. 然后,我们分配一个可靠性得分,α(oIc),字幕中的每个对象作为其平均噪声的倒数等级,用于指示掩模可靠性:4.1. 实验装置数据集。 在[28]的设置之后,我们执行实验。α(O|Ic)=ηgxy(f)/|B | o∈ Oc,(七)MS-COCO [98]上的注释,其中包含48个带有掩码注释的基类和17个用于评估的目标类。其中η是被设置为所有带字幕图像2上的最小平均噪声水平的常数值。以η作为参考,我们将低权重分配给高噪声预测,同时对具有低噪声水平的干净伪掩模进行上加权。目标函数最后,我们在标题和基类的数据集上训练了一个健壮的学生模型:该数据集被划分为107,761个训练图像和4,836个测试图像,其中训练图像具有来自基础类的665,387个掩模注释,对于带标题的图像,我们使用包含118,287张图像的整个MS-COCO训练集每个图像都用五个描述图像中视觉基础对象的标题进行注释为了证明我们的方法在大数值上的有效性,ming={gEmb,gMask,gNoise}αXc∈DC我们使用大规模数据集:Open Images [2],具有300个类的210万个实例掩码+m∈DBLGT(Ym|Im;g),(八)和概念字幕[99]与3M字幕图像。我们建议将OpenImages类拆分为200个最常见的类,作为带有掩码注释的其中Lα是方程中的交叉模态损耗(3)修改为而剩下的100个最稀有的职业作为目标r e将其项加权为:α(o|I)×logevTogEm b(fbo)为在训练过程中模型未知的类。 因此我们每个物体,Cw∈VC evTwgEmb(fbo)模拟真实世界的设置,其中稀有类在训练期间可能是未知的。o∈ Oc.因此,我们有效地降低了2我们通过在图像子集上训练我们的方法来确定η,并将训练期间的最小平均噪声水平设置为η。评估指标。对于检测和分割实验,我们报告平均精度(mAP)Gx为ohBoΣ7025表1. 目标检测(mAP)性能在约束设置(输出基类或目标类)和广义设置(必须预测所有类)下,在MS-COCO中的基类上使用边界框或掩码监督进行训练。改进w.r.t.与其他基线的距离以蓝色突出显示。* 表示在[28]中报告的性能,而我们实现了其他性能。方法边界框监督实例掩码监督约束广义约束广义基准目标基本目标全部基准目标基本目标全部零射击训练[24]第二十四话29.70.729.20.324.9-----[27]第二十七话-11.446.54.835.6-----[28]第二十八话OVR[28]46.827.546.022.839.947.225.946.720.739.9SB[24]46.926.946.321.239.745.925.745.319.638.6[27]第二十七话46.826.046.220.739.546.025.045.519.338.7OVR+OMP[19]-----34.116.933.210.027.1伪标记[47]第四十七话47.418.847.112.438.046.616.046.210.436.8无偏见的教师[48]47.520.547.213.838.446.616.846.110.836.9[97]第97话--20.120.320.1-----XPM(我们的)四十六岁。829.9+2.4四十六岁。327.0+4.241.247.333.2+7.3四十六岁。329.9+9.242.0表2. MS-COCO和Open Images Conceptual Captions数据集中的实例分割(mAP)性能。方法MS-Coco打开图像概念字幕约束广义约束广义基准目标基本目标全部基准目标基本目标全部[28]第二十八话OVR[28]42.020.941.617.135.252.623.845.617.536.2SB[24]41.620.841.016.034.552.824.846.417.336.6[27]第二十七话41.820.141.315.434.552.925.347.316.937.1OVR+OMP[19]31.314.130.58.324.752.524.947.116.836.9伪标记[47]第四十七话41.814.841.59.633.252.025.946.617.636.8无偏见的教师[48]41.815.141.49.833.151.722.245.314.534.9XPM(我们的)42.424.0+3.141岁521.6+4.536.355.131.6+5.749.822.7+5.140.7在常规零激发设置之后,在0.5的交叉-联合(IoU)处[24,27,28]。为了分析基础类和目标类的性能,我们在两种设置中测量mAP分数:i)约束设置,其中仅在属于基础类或目标类的测试图像上评估模型; ii)广义设置,其中在基础类和目标类图像上联合测试模型后一种设置更具挑战性,因为它要求模型分割目标类并避免基类偏差,其中模型以高置信度将目标类检测为基类。基线。我们与SB[24]进行了比较,SB [24]分配了一个具有范数1的非零背景嵌入,以预测每个边界框的不同背景得分,并且开放词汇对象检测OVR[28]在标题图像对上预训练其嵌入空间。为了与传统的伪标签基线进行 比 较 , 我 们 采 用 了 Soft-Teacher[47] 和Unbiased-Teacher[48],它们仅使用视觉模态来构建伪标签,通过使用嵌入头进行新的类识别。 此外,我们还包括最先进的BA-RPN[27]对于零射击实例分割,提出了同步区域识别网络和检测头之间的背景分类器,以减少背景混淆。我们还将OMP[19]与OVR相结合,它用来自嵌入头的空间注意力特征来增强与类别无关的掩码头 。 最 后 , 为 了 从 字 幕 图 像 中 学 习 , 我 们 与Cap2Det[97]进行了比较,Cap2Det只为目标和基类生成伪标签。实施详情。为了与[28]相比较,我们使用Mask R-CNN架构,其中ResNet 50骨干来自maskrcnn基准代码库。为了训练教师模型,我们使用8个V-100 GPU在MS-COCO上进行150 k次迭代,在概念字幕上进行200 k次迭代,批次大小为32,初始学习率为0.01。然后,我们在MS-COCO和Open Images数据集上对分割/检测任务的主干进行微调,批量大小为8,迭代次数为90 k,学习率为0.001,以获得教师模型。学生使用教师权重进行初始化,并在伪和地面实况标签上进行额外的70k迭代训练。我们还将背景类的检测损失降低到0.2,以改善目标类的重新调用,类似于[28]。对于健壮的学生7026XL······LXLLXLL在模型中,我们设置η=0。01,这是在10k标题图像上离 线 估 计 的 最 小 平 均 噪 声 水 平 。 我 们 使 用 在BookCorpus和英语维基百科上训练的BERT的单词嵌入[95]。为了训练噪声估计模块gNoise,我们使用重新参数化技巧[100]通过采样的噪声值来反向传播梯度。此外,我们没有针对α优化g噪声,这将导致学生总是预测低可靠性分数以最小化损失的平凡解决方案。4.2. 实验结果物体检测。我们评估我们的方法的对象检测任务下的边界框或掩码监督表1中的基类在MS-COCO。基于约束设置和广义设置中的基/目标类结果,我们得出以下结论:虽然使用字幕预训练比零镜头训练提高了目标类的性能(在边界框监督下),但这种策略对于掩码级监督效果不佳。由于基于字幕的主干预训练[28]只能学习对象的高级空间粗糙特征,而不能学习细粒度的对象掩码,因此对掩码注释的微调会破坏学习的主干并降低其在目标类上的性能这表明掩码预测任务与预训练骨干中编码的信息之间的不兼容性。Soft-Teacher和Unbiased Teacher在基础类(在框级监督下)上的性能优于单独使用字幕预训练。然而,由于这些基线不限制他们的预测的基础上的字幕,他们错误的标签新的类,传播教师的错误和降低目标类的表现。尽管Cap2Det将其伪标签设置在标题上,但这些标签来自一组有限的基类和目标类。因此,Cap2Det无法利用字幕中其他新对象的有用信息。与边界框监督,我们的方法(没有估计掩模噪声)显着提高目标类性能的2.4%和4.2%,分别在约束和一般化设置。这表明了利用标题来改进没有注释的目标类的伪标签的重要性。此外,通过额外的掩码注释,与最先进的技术相比,我们在目标类上的性能进一步提高了9.2%,这表明了伪掩码自训练的有效性。实例 分段。 为了证明XPM的有效性,我们在MS-COCO和Open Images数据集上进行了实例分割实验。我们在表2中报告了结果,并得出结论:在MS-COCO上,SB、BA-RPN中的不同背景建模技术与基于嵌入的字幕预训练另一方面,显式地将这些知识从嵌入到掩码头通过OMP显着降低了基础和目标类的性能。这是由于基类和训练样本的数量不足以从小规模MS-COCO数据集学习有意义的对象掩码先验。在大规模概念说明和开放图像数据集上,SB和BA-RPN都改善了约束设置中的目标类分割,因为与MS-COCO相比,可以从开放图像中的大量基类中学习更准确的背景模型。我们观察到传统的伪标记方法Soft-Teacher,Unbiased Teacher在字幕预训练基线上没有显著的改进,因为它们不能利用字幕图像中的文本模态来正确地发现新的类。总的来说,我们的方法实现了显着的性能改进,至少4.5%和5.1%的mAP评分的可比性,其他基线在MS-COCO和开放图像数据集,分别。此外,在概念标题和开放图像设置中,我们观察到一种复合效应-在教师对概念说明进行标注时,我们受益于伪标签数量和质量的显著增加因此,学生在基础课和目标课上都取得了很好的成绩,所有课程的成绩都有3.6%的显著提高。消 融 研 究 。 图 6 显 示 了我们在 MS-COCO 和 OpenImages& Conceptual Captions 方法中引入不同组件时,与教师模型相比的分割改进。添加交叉模态损失X,显著提高了教师模型的分割性能,因为学生可以从标题图像中提取丰富的知识。 尽管掩码丢失M改善了MS-COCO上的目标类性能,但由于嘈杂的Web字幕,其无法改善概念字幕。 通过调整跨模态损失与噪声估计α,我们通过减轻从教师到学生模型的错误传播来进一步改善两个字幕数据集。鲁棒学生的有效性。在表3中,我们用其他方法对伪掩模噪声估计和损失重新加权进行了实验。我们评估随机BCE[62]其学习像素噪声以调节掩模损失,M. 该方法无法利用掩模噪声来调节交叉模态损失,无法提高分类性能。对于调节跨模态损失α的方法,我们考虑使用类预测置信度的类得分,通过聚合逐像素预测置信度来估计掩模质量的像素得分[ 101 ],以及通过多个丢弃通道计算预测熵的丢弃熵[ 102 ]。这些7027图4. 在广义设置中,我们对基类(在后框中)和目标类(在红框中)的掩码预测的可视化。图5. 可视化我们对野生环境中具有大规模交叉模态伪标记的新类的掩码预测。掩模(例如,‘bear’) only has a few noisy pixels along its然而,不正确的伪掩码(例如,‘skateboard’) contains alarge number of noisy pixels that spread over large areaswithin the bounding大规模跨模态伪标记。为了证明我们的方法的可扩展性,我们应用跨模态图6. 细分改进,教师模型从添加不同的建议组件的学生。表3. 不同的噪声估计和损失加权策略在开放图像上的分割性能。方法上使用基地 目标所有无噪声估计-53.3 30.2 39.1随机BCE[62]LM53.8 29.8 39.2类分数54.0 28.4 38.8[第101话][102]第一百零二话αLX53.253.630.129.738.538.5鲁棒学生(我们的)αX+M55.1 31.6 40.7方法没有提供显著的改进,因为它们是在基类的干净注释上训练的,并且不适于有噪声的伪掩码。通过学习估计噪音水平的伪掩模和调节LX,Lα,我们使用多个分割数据集(Open Images [2],LVIS [3]),对象检测数据集(Objects365 [103])和标题数据集(Conceptual Captions [99])进行伪标记,以创建高性能的学生模型。如图5所示,用我们的方法训练的这个强学生,不可避免地推广到新的类,如此外,我们可以分割这些真正新颖的类的细节,而无需任何掩码注释。5. 结论我们通过提出一个强大的跨模态伪标记框架来解决开放词汇实例分割的问题,以提供标题图像中新类别的掩码监督,用于训练分割模型。实现卓越的性能,估计。M无噪音埃尔斯在MS-COCO和OpenImages概念字幕数据集上,我们证明了该方法的有效性.然而,我们的方法可能不适合学习定性结果。图4显示了我们的方法在MS-COCO上对基类和目标类的掩码预测。我们的方法可以正确地检测和分割目标类的多个实例,而无需在训练过程中使用任何地面真实掩模注释。此外,我们的框架在基类上保持了很强的性能,这样它就可以在目标类“总线”中正确地分割基类我们还在图3的标题中可视化了每个对象的像素噪声。我们观察到,一个好的伪有限的基类,因为我们假设基类足够多样化以实现新类的泛化。确认我们要感谢胡平对实施鲁棒学生模型的宝贵建议。这项工作得到了DARPA(HR 00112220001)、NSF(IIS-2115110)和ARO(W 911 NF 2110276)的部分支持。内容不一定反映政府的立场/政策。不应推断官方的认可。7028引用[1]M. 科德茨,M。奥姆兰,S。拉莫斯,T.雷费尔德,M。恩茨韦勒R.贝南森,美国弗兰克,S。罗斯和B。Schiele,1[2]A. 库兹涅佐娃H. 罗姆N. 奥尔德林,J.Uijlings,I. Krasin,J. Pont-Tuset,S. Kamali,S. Popov,M. Malloci,A. Kolesnikov,T. Duerig和V. Ferrari,“The open im-ages dataset v4: Unified image classification, object de-tection, and visual relationship detection at scale,” 一、五、八[3]A. 古普塔山口Doll a'r和R. B. Girshick,一、四、八[4]S. W. 扎米尔A.阿罗拉A.古普塔河H. 汗湾,澳-地孙氏F.S.汗角,加-地朱湖,加-地邵,G. Xia和X.一个大规模的数据集,例如航空图像中的CVPR研讨会,2019年。1[5]S. Ren,K. 赫利河B. Girshick和J.Sun,1137-1149,2015。1[6]K. 他,G. Gkioxari,P. Doll a'r和R. B. Girshick,第1、3条[7]S.柳湖,加-地Qi,H. Qin,J. Shi和J. Jia,1[8]Z. M. Chen,X. S. Wei,P. Wang,and Y. Guo,1[9]H.黄角Wang,P. S. Yu和C. D. Wang,1[10]A. Arnab和P. H. S. Torr,1[11]Z.田角,澳-地Shen和H. Chen,1[12]A. Kirillov,Y. Wu,K.他和R. B. Girshick,1[13]G. Zhang,X. Lu,J. Tan,J. Li,Z.张,智-地Li和X.Hu,1[14]C. 唐,H.Chen,X.Li,J.Li,Z.Zhang和X.胡,1[15]C.- C. 徐 凯 许 志 永 , C.- C. Tsai , Y.- Y. 林 和 Y Y.Chuang,一、二[16]J. Ahn,S. Cho和S. Kwak,一、二[17]A.阿伦角V. Jawahar和M. P. Kumar,一、二[18]R. Hu , P.多 拉 尔 , K 。 他 , T. Darrell 和 R. B.Girshick,一、二[19]D.Biertimpel , S.Shkodrani , A.S.Baslamisli 和N.Baka,一、二、六[20]T. Zhou,W. Wang,S. Qi,H. Ling和J. Shen,一、二[21]Z.田角,澳-地Shen,X. Wang和H. Chen,一、二[22]J. Lee,J. Yi,C. Shin和S. Yoon,1[23]X. Wang,J. Feng,B.胡角丁湖,澳-地冉,X。Chen和W.Liu,1[24]A.班萨尔角西卡湾夏尔马河,巴西-地Chellappa和A.Di- vakaran,二、六[25]S. Rahman,S. Khan和N. Barnes,2[26]P. Zhu,H.Wang和V.Saligrama,2[27]Y. Zheng,J. Wu,Y. Qin,F. Zhang和L.崔,二、六[28]A. Zareian,K.D. Rosa,D.H. Hu和S.F. Chang,二三五六七7029[29]A. L. Bearman , O.Russakovsky , V.Ferrari 和 L.Fei-Fei,2[30]A. 霍雷瓦河Benenson,J.H. Hosang,M.海因,还有B. Schiele,2[31]S. 兰,智-地Yu,C.B. Choy,S.Radhakrishnan,G.刘先生,Y. 朱湖,加-地Davis和A.Anandkumar,2[32]W. Kuo、A.Angelova,J.马利克和T.-Y. Lin,2[33]Q.范湖,澳-地克,W。贝角K. Tang和Y W. Tai,2[34]Y. Zhou,Y.朱,加-地耶角Qiu和J. Jiao,2[35]W. Ge,S. Guo,W. Huang和M. R. Scott,2[36]P. Zhu,H.Wang和V.Saligrama,2[37]H.乔拉卡尔湾孙氏F. S. Khan和L. Shao,12 389-12397,2019年。2[38]Y. 申湖,澳-地 曹,Z. 陈湾,澳-地 Zhang C.,中国古猿科 Su,Y. 吴先生,F. Huang和R. Ji,2[39]I. H. 拉拉吉 N. Rostamzadeh, P. H. O. 皮涅罗D. Va'zquez和M. W. Schmidt,2[40]B. Cheng、黄花蒿O. Parkhi和A. Kirillov,2[41]Y. Li,H.Zhao,X.Qi,Y.陈湖,澳-地齐湖,加-地Wang,Z.Li,J.Sun和J. Jia,2[42]I. Radosavo vic,P.多尔河B. Girshick,G.Gkioxari,以及K.他,2[43]K. Wang,X. Yan,杨氏D.张丽Zhang和L. Lin,2[44]K. Sohn,Z.张角L. Li,H.张角Y. Lee和T. Pfister,2[45]J. Li,C. Zhang,P. Zhu,B.吴湖,加-地Chen和Q.Hu,2[46]B. Zoph,G.Ghiasi,T.Y. Lin,Y.Cui,H.Liu,E.D.Cubuk和Q. V.Le,神经信息处理系统,2020。2[47]M. Xu , Z.Zhang , H. 胡 , J. 王 湖 , 加 - 地 Wang ,F.Wei,X.Bai和Z. Liu,二、六[48]Y. C. Liu,C.Y. 妈Z。他,C.W. Kuo,K.Chen,P.张先生,B. Wu,Z. Kira和P. Vajda,二、六[49]D. Huynh和E. Elhamifar,2[50]Y.西安湾,澳-地Schiele和Z. Akata,2[51]E. Scho n feld,S. Ebrahimi,S. Sinha,T. Darrell和Z. Akata,2[52]R.费利克斯湾G.库马尔岛D. Reid和G. Questiro,2[53]H.江河,巴西-地Wang,S. Shan和X. Chen,2[54]Y. Atzmon和G.Chechik,2[55]Y. 贡,S.Karanam,Z.Wu,K.Peng,J.Ernst和P.Do-erschuk,2[56]D. Huynh和E. Elhamifar,2[57]--,27030
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于java的手势识别系统概述
- Windows常用消息大全
- Java面试题宝典经典中的经典啊
- Learn Matlab 7.0.PDF
- iptables不错脚本
- 网络安全相关:入侵容忍系统安全
- JavaScript 之Ajax详解
- java环境的JDK配置相关
- Thinking in Java(第四版 ).pdf
- EMC SRDF 入门资料
- sql导入导出命令大全
- DEV C编译器的简单介绍
- DriverWorks开发PCI驱动流程 DriverWorks开发PCI驱动流程
- 刘伟_Hibernate与Struts2和Spring组合开发
- linux与unix shell编程指南
- 新一代视频压缩编码标准—H.264AVC
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功