没有合适的资源?快使用搜索试试~ 我知道了~
3406DISCO BOX:弱监督实例分割和来自框监督的Shiyi Lan1余志定2 <$ChristopherChoy2Subhashree Radhakrishnan2Guilin Liu2Yuke Zhu2,3 Larry S.戴维斯1阿尼玛Anandkumar2,41马里兰大学帕克分校2NVIDIA3德克萨斯大学奥斯汀分校4加州理工学院摘要我们介绍了DiscoBox,一个新的框架,共同学习实例分割和语义对应使用包围盒监督。具体来说,我们提出了一个自我集成框架,其中实例分割和语义对应是由一个结构化的老师,除了边界框监督共同指导老师是一个结构化的能量模型,结合成对的潜力和跨图像的潜力,以模拟成对的像素关系内和跨框。最小化教师能量同时产生细化的对象掩码和类内对象之间的密集对应,其被作为伪标签来监督任务网络并为密集对比学习提供正/负对应对。我们展示了一种共生关系,这两个任务相互受益。我们的最佳模型在COCO实例分割上实现了37.9%的AP,超过了先前的弱监督方法,并且与监督方法具有竞争力我们还获得了PASCAL VOC 12和PF-PASCAL实时推理的最新弱监督结果1. 介绍定位和识别物体的能力是人类视觉的核心。这促使视觉界将物体检测[1]作为基本的视觉识别任务来研究。实例分割[2]在检测之上进一步引入以预测前景对象掩模,从而实现具有像素级精度的定位。最近,越来越多的作品旨在将上述任务提升到3D空间[3因此,界标[3,8]和(语义)对应性[9-这些方法已成为姿态估计[31*在NVIDIA Research实习期间完成的工作†通讯作者:.DiscoBox目标检测实例分割语义对应图1.任务概述。给定一对图像,DISCO BOX同时输出检测、实例分割和语义对应预测。最好用彩色观看。通过额外的约束来减少不确定性,例如确定相机姿势和视点[31,36]。在各种对应任务中,语义对应旨在建立跨不同场景和对象实例的关联,并且可以说是最具挑战性的任务,由于外观和姿态的大变化。语义对应和实例分割的文献在很大程度上保持分离。例如,主要的语义对应基准[19,39-然而,这些看似独立的问题可以彼此受益,因为关联对象部分需要先验地理解感兴趣的对象。类似地,了解对象的语义部分需要理解功能部分的几何形状,并且可以改善对象定位[44,45]。3407尽管联合学习对应性和实例分割的优点是清楚的,但是由于缺乏具有掩码和对应性的大规模数据集,许多现有技术的方法没有利用这种方法。为了克服这一挑战,最近引入了弱监督方法,以放松对两项任务中昂贵监督的需求[25我们的工作与这些努力是一致的,因为我们的目标是解决实例分割和语义对应与廉价的边界框监督。这使我们能够有效地用更多的数据突破界限。更重要的是,框监督提供了一种原则性的方式来耦合上述两项任务:首先,实例分割极大地扩展了语义对应处理多对象场景的能力。这允许人们定义一个更普遍和具有挑战性的语义对应任务,其中的性能强调对象级对应的质量和对象定位的准确性。第二,多任务提供了相互的约束,以克服琐碎的解决方案,在框监督。事实上,我们的研究显示了一种共生关系,其中本地化的好处,通过改进的本地化和代表性的对应,而对应反过来又有助于本地化与额外的跨图像信息。我们提出了D ISCO B OX,一个框架,它实例化上述目标,如图所示。1.一、D ISCO B OX利用各种层次的结构化知识和图像内部和图像之间的自我监督来减少不确定性。捐款摘要我们的工作是第一个提出一个统一的框架,联合弱监督的实例分割和语义对应使用包围盒监督。我们提出了一个新的自我集成框架,教师的目的是促进结构化的归纳偏见,并建立跨对象的对应关系。我们表明,该框架允许我们共同利用图像内和跨图像的自我监督,并导致显着提高任务性能。我们在弱监督实例分割上实现了最先进的性能。我们的最佳模型在COCO测试开发中实现了37.9%的AP,超过了竞争对手的监督方法,如YOLACT++[50] ( 34.6% AP ) 和 Mask R-CNN [51] ( 37.1%AP)。我们还在弱监督语义对应上实现了最先进的性能,并且是第一个为此任务提出多对象基准的人。任务网络。我们的任务网络包含一个实例分割骨干,具有多个实例学习头。该模块由包含丰富对象信息的边界框来监督。通过多个实例在学习中,粗糙对象掩模自然地作为网络注意出现,并且被教师作为初始预测。教师模型。教师由吉布斯能定义,吉布斯能包括一元势、成对势和交叉像势。一元势从学生获取初始输出,而成对和跨图像势对边界框内和边界框之间的成对像素关系进行建模。最大限度地减少教师能源促进对比敏感的平滑,同时建立密集的对应整个对象-S.这允许人们考虑跨图像自我监督,其中对应关系为密集对比学习提供正对和负对。我们表明,这反过来可以提高实例分割的质量。我们有希望的结果表明,在未来的实例分割问题完全删除掩码标签的可能性。我们还设想DISCO BOX对许多下游应用,特别是3D任务的广泛益处。2. 相关工作2.1. 目标识别与定位目标检测。目标检测一直是一个活跃的研究领域,具有丰富的文献。使用卷积神经网络(CNN)对大量边界框注释进行训练已经成为标准范例[52]。初始的基于CNN的检测器倾向于共享多阶段设计[52,53],其中第一阶段给出冗余对象建议,然后在第二阶段通过CNN进行细化。最近的设计趋势旨在通过具有单级架构[54-57 ]来降低复杂性,并且因此在效率和性能之间实现良好的我们的弱监督设计允许DISCO BOX在越来越大的数据集上像任何对象检测算法一样方便地训练[58实例分段。实例分割旨在通过预测对象分割掩模来产生比检测更精确的定位Bharath等人[2]是第一个引入基于R-CNN的框架,具有精确召回基准。与R-CNN[52]类似,他们的对象建议和掩码生成[61]不是端到端可学习的。最近的方法,包括Mask R-CNN [62-受一阶段检测的启发,还提出了许多一阶段实例分割方法[50,51,65这些方法在训练期间都需要掩码注释,而DIS-COBOX仅需要框标签。DISCO BOX对框架的选择也是不可知的。在这项工作中,我们在YOLACT++[50]和SOLOv 2 [68]上展示了DISCOBOX。将它们作为我们方法的基础架构。····3408×××{|}{|}2.2. 弱监督分割弱监督语义分割。已经提出了许多方法来学习具有图像级类别标签[69涂鸦[76其中,框监督语义分割可能是最相关的,最近的方法如Box2Seg [83]在Pascal VOC [58]上取得了令人印象深刻的性能这些方法通常使用MCG [61]和GrabCut[84]来获得用于监督后续任务的分割伪标签然而,他们专注于语义分割,不区分不同的对象实例。弱监督实例分割。这里,术语前者可以被视为弱监督对象检测的扩展[87],而我们的工作属于第二类。在后者的方法中,Hsu et al.[47]利用绑定框紧密包围对象的事实,并基于这种紧密性先验提出了还施加成对损失以维持对象完整性。然而,它们的成对一致性被定义在所有相邻像素对上,而不区分成对像素对比度。Arun等人。[48]提出了一种注释一致性框架,该框架可以处理具有图像级和边界框标签的弱监督实例分割。在COCO上,监督方法的差距仍然很大,直到最近BoxInst [49]才显著缩小了这一差距。DISCOB0X优于这些方法,同时还以语义对应为目标。2.3. 查找对应关系地方特色。使用局部特征来匹配不同视图中的关键点已经被广泛用于三维视觉问题,例如从运动恢复结构。在过去的十年中,这些方法已经从手工制作的方法[9-这些方法主要关注同一对象实例或场景的多视图关联,这与我们的任务不同,尽管潜在的强连接。语义对应。语义对应一直是一个具有挑战性的问题。这个问题可能可以追溯到SIFTFFlow [18],它使用手工制作的特征来建立对应关系。最近的方法普遍采用深度网络作为强大的特征提取器[21这项任务的挑战进一步加剧了通信注释的昂贵性质。现有的数据集[43,88]在大小上相对较小,并且仅提供稀疏的对应地面事实,因为手动注释密集的数据集是禁止的。针对这一挑战,弱监督语义核心响应被提出来学习没有对应地面真理的对应[25此外,现有的基准和方法主要集中在在这项工作中,我们进一步增加了挑战的任务,考虑一个更广义的多对象的情况下,在循环中的对象定位。3. 方法我们为问题中的变量定义了以下符号,并在本文的其余部分使用它们我们将输入图像表示为I。给定任何实 例 分 割 主 干 , 我 们 假 设 一 组 框 区 域 提 议R=rnn=1,.,N是生成的。每个框建议对应于大小为CH W的RoI特征图fn。另外,实例分割产生一组对象掩模M=m,n,n=1,…N,其中每个m,n是与r,n相关联的Hff概率图。图2示出了所提出的框架的概览。3.1. 任务网络DISCOBOOX对于任务网络是不可知的。因此,我们将其设计基于YOLACT++[50]和SOLOv2 [68],这是两个最近的单阶段实例分割框架。YOLACT++。该架构包括以下组件:1)预测头。该框架采用基于锚点的一阶段检测,其中预测头输出一组包含预测坐标和类概率的框建议2)口罩头。YOLACT++提出了一个PrototypeNet模块,用于在图像级生成D潜在分割建议,并使用预测头来预测每个框建议的掩码系数(D-暗向量)因此,每个建议的掩码激活是分段建议和掩码系数的加权组合的结果。3) 骨干采用特征金字塔网络(FPN)[89]作为主干,其中金字塔特征通过融合具有更高分辨率的跳跃连接主干特征来扩展SOLOv2. 我们还考虑了基于SOLOv2的替代设计[68]。SOLOv2是最先进的一阶段框架,其以无框、无分组和完全卷积的方式直接预测实例掩码这是通过将对象掩模生成解耦为掩模内核预测和掩模特征学习以及可并行化的矩阵非最大值抑制算法来完成的。SOLOv 2还采用FPN作为主干,其中在每个金字塔级别预测掩模核,并在1/4尺度下获得统一的掩模特征与我们基于YOLACT++的框架的一个微小的区别因此,我们将来自每个遮罩的紧密封闭的框作为我们用于裁剪fn的框建议。我们的框架是基于YOLACT++和SOLOv2的原始设计和实现,而Fig. 23409FPN结构化教师Exp移动平均FPN检测损失一致性对比损失损失负正袋袋面罩头MIL损失多示例学习存储体LLL LL∈Σ联系我们{|}{|∈∈}{1}|}我J×我我τp(xn)=−nsΣIk我J检索图2.DISCO BOX概述。我们设计了一个自集成框架,其中结构化教师生成细化的实例分割掩码,并在类内框建议之间建立密集的对应关系,以指导任务网络。最好的颜色。给出了一个抽象的说明。我们恳请读者参考[50,68]以了解更多细节。我们遵循相同的分类和框相关的训练损失,我们将在我们的论文中共同术语det 这涉及公司简介框在YOLACT++中,和在SOLOv2中进行切割由于掩码注释不可用,我们用以下多实例学习(MIL)损失替换掩码多实例学习(MIL)。MIL允许一个弱监督的任务与不精确的标签。我们遵循[47],其提出了利用绑定框紧密性先验的MIL框架。给定一个紧密包围一个对象的盒子,每行和每列至少包含一个前景像素,并且可以被视为正袋。如果行和列与地面实况框具有零重叠,则可以类似地构造负袋。表示bi属于的像素实例的掩码概率的集合对于rn的袋i,Y0LACT ++的MIL损失定义为:是一个重要的结构化归纳偏置在segmenta- tion [93]。我们的主要动机不是通过后处理一次性实现这一点[47],而是通过平均场扰动教师以更渐进的方式引导具有结构化归纳偏置的表示。我们定义一个随机场X= Xnn=1,…,N在图G=(V,E)上,其中xn0,1H×W是Xn在盒建议rn中的标号。来自盒η的每个节点vi,i,r,n与其8个直接相邻节点vj,j,N,p(i)稀疏连接,并且与来自另一个类内盒s的所有节点vk,k,r,s,N,c(n)密集连接。然后我们定义以下吉布斯能量:E(xn,Tns)=τu(xn)+τp(xn)+τc(xn,Tns)s∈Nc(n)其中τu(xn)=τ(xn)是取Lmil=−Σyilog(maxbi)+(1−yi)log(1−maxbi)来自实例分段头的初始输出mnτp(xn)是成对势,定义为:iΣ。|2Σ|2 Σ其中yw1expSOLOv2,Lmil与骰子损失[68]的定义类似其中In和In是框中像素i和j的RGB颜色3.2. 结构化教师我n,且[x nJ是给定的标签兼容性函数从MIL产生的分割通常仍然是粗糙的。我们的主要思想是考虑自集成[90],它在扰动模型之间施加自一致性作为自我监督以改善表示。自集成是半监督学习最近取得成功的关键因素[91,92]。但是,与这些方法,经常使用增强和随机辍学,以创建一个嘈杂的学生,我们的问题允许我们通过建模的结构化关系,形成一个强大的扰动教师提高对比敏感平滑度具有Potts模型。最后,τc(xn,xs,Tns)是交叉图像势,其同时对密集对应性Tns和交叉图像成对标记关系进行建模。该术语用以下能量定义τc(xn,Tns)=-w2Tns(i,k)(Cu(i,k)+Cg(i,k))[xn=xs]i∈r,k∈r其中Tns是大小为HW的软分配矩阵HW在框建议rn和rs之间。 此外,Cu(i,k)是[xn/=xn]我=1,如果袋i为正,且y我=0否则。为i∈rn,j∈Np(i)我2ζ2J3410ΣHNSG−|关闭- 关闭|我K我K1exp(Cu(i,ti)/τ)Σ。nsL对外观相似性进行建模的成本体积矩阵fn·fsCu(i,k)=ik|f|fs|fs|其中,fn和fs表示中的像素i的RoI特征。IkRn和Rs中的像素k。并且Cg(i,k)被进一步定义为旨在施加几何一致性的成对平滑正则化项:图3.所提出的迭代条件模式算法的说明。给定一对RoI特征,我们使用它们来初始化Cg(i,k)=exp−j∈r,l∈r|2 |22∗γTns(j,l)成本体积Cu。然后迭代地应用可微匈牙利语来优化Tns并更新Cg。其中offi,k表示在Rn中的像素i和Rs中的像素k之间的相对空间偏移。直觉是平滑成对偏移以避免虚假对应。3.3. 推理我们最小化能量E(xn,Tns)与xn和Tns3.4. 学习利用从老师推导出的x和T,我们可以定义以下自组装损失。我们在我们的任务网络和教师之间施加自我一致性:1ΣΣn n n n Σ或者。虽然原始τc(xn,Tns)包含不同的标号相容函数,但其与xnLcon= |Rn| i∈rn xilog(mi)+(1−xi)log(1−mi)与以下能量完全相等τc*(xn,Tns)=对于SOLOv2,con与Dice Loss [68]的定义类似。我们还使用密集对应Tns来获得用于密集对比学习的正对和负对:ΣTns(i,k)(Cu(i,k)+Cg(i,k))[xn/=xs]i,k因此,E(xn,Tns)可以通过标准均值最小化。Lnce= |Rn| i∈rn 对数Σk∈rs exp(Cu(i,k)/τ)领域更多详情请参见附录A当固定x时,我们通过求解具有以下能量的最优运输问题[23]来优化Tminτc(xn,Tns)TnsS.T. Tns1HW=µn,TnTs1HW=µs其中µn,µs表示rn中的像素重要性,通过对mn和ms应用阶跃函数而获得。可以使用可微匈牙利语(表示为),例如Sinkhorn然而,对于成对项,直接求解是非常困难的。因此,我们使用迭代条件模式进行近似,其中Tns被迭代地优化:其中ti=arg maxkTns(i,k),τ是温度。因此,我们的联合训练损失可以写成:L= Ldet+αmil Lmil+αcon Lcon+αnce Lnce3.5. 指数移动平均教师为了通过模型级增强、改进的稳定性和迭代之间更好的一致性来加强教师,我们遵循[90,94]以获得具有指数移动平均值(EMA)的平均教师。这是通过维护共享相同架构的另一个网络并如下更新参数来完成的:θt←−mθt+(1 −m)θs其中θt、θs是教师网络和任务的参数初始化:Cufn·fs|fn||f s| ,C0←−Cu (i,k)网络m是动量,并根据[94]设置为0.999。我们不培训教师,只更新它。赋值:Tt←−H(Ct)更新:Ct(i,k)←−Σj,l2exp(i,kj,l)Tns2∗γG(j,l)t3.6. 使用内存库的为了方便地获得语义对应的对象对,我们构造了一个先进先出(FIFO)队列Ct+1(i,k)=Cu(i,k)+Ct(i,k)上述算法的图示在图1B中示出。3.第三章。其他算法详情见附录B。迭代条件模式最优传输解算器←−Σ3411对于每个类别,其中我们将RoI特征f和从每个批次中屏蔽m。这使我们能够重用RoI特征和遮罩,并构造对象对,而无需太多3412×JJ我 我我的天J我JJ我J我的天我JJ我JJ我JΣ|−|≤×|−|≤Σ|−|≤×|−|FN Σ|−|≤额外的计算。在训练期间,模型将从对象库中检索相似的类内对象。在计算所有损失之后,我们将除了具有区域32的对象之外的所有对象推入对象库中。<类间对象存储在不同的队列中。只有类内对象共享相同的对象库。实际上,我们将一个类别的对象库的大小设置为100。4. 实验我们在4个数据集上进行实验:PASCAL VOC 2012( VOC12 ) [58] , COCO [59] , PF-PASCAL [88] ,PAS-CAL 3D+ [4]。我们在VOC12和COCO上测试实例分割,并在其他两个上测试语义对应4.1. 数据集和指标可 可 COCO 包含80个语义范 畴。我们遵循 包括train2017(118K图像)和val2017(5K图像)的标准分区进行训练和验证。我们还报告了我们的测试开发分裂的结果在训练过程中,我们只使用框注释。VOC12。 VOC12由20个类别组成,训练集约为10,500张图像,验证集约为5,000张图像。验证集包含实例分段注释。对于成对图像,我们找到类内对象对的所有组合,并使用这些对象对之间的关键点对作为对应的地面实况。由于遮挡,一些关键点可能丢失并且在评估中被忽略我们还忽略任何3D方向差异大于60度的成对对象,因为这导致有效的关键点对非常少。多目标对应度量。与对象检测类似,我们引入了一个基于精确度-召回率的平均精确度(AP)度量我们假设存在与每个预测对应相关联的置信度,并且我们在这项工作中将其定义为成对盒置信度的乘积。这允许我们通过定义真阳性(TP)、假阳性(FP)和假阴性(FN)来计算查准率和查全率由于PASCAL 3D+只提供稀疏的对应基础事实,这里的挑战是正确地忽略一些远离任何基础事实但正确的对应预测。为此,我们遵循关键点转移设置,其中我们总是为任何成对对象定义源侧s和目标侧t给定地面实况(gs,gt),预测对应(ps,pt)和距离阈值α:1[psgsα]1[ptgtα]i= Σ1[|ps− gs|≤ α]+1[Σ1[|ps− gs|≤ α]= 0]PF-PASCAL。PF-PASCAL数据集包含从PASCALVOC中选择的以对象为中心的图像子集它包含大约1,300个图像对,其中700对用于i=Σ1[psgsα]1[ptgt> α]1[|ps− gs|≤ α]+1[Σ1[|ps− gs|≤ α]= 0]训练集和验证集分别为300对,测试集分别为300在图像的中间只有一个明显的物体。每个图像对包含两个类内对象。PASCAL 3D+。PASCAL 3D+包含对象姿态、地标和3D CAD模型的注释以及边界框,由12个刚性类别组成,每个类别平均有3,000个对象实例我们评估了PASCAL 3D+数据集上的多目标对应关系边界框、地标和其他3D信息使其成为评估多对象语义对应的理想数据集。我们将基准设置在PASCAL 3D+的12个刚性类别上,并遵循VOC 12 train/val分割,其中图像仅包含从验证集中移除的8个非刚性类别。对于训练,我们仍然保留完整的VOC12训练集和注释(20个类)。由 于 PASCAL 3D+ 不 提 供 图 像 对 , 我 们 需 要 在PASCAL上生成图像对和关键点对,以进行对应性评估。我们列举了PASCAL 3D+验证集上两个图像的所有成对组合。对于任何成对的图像,如果两者都包含至少一个共同的类内对象,我们将它们标记为匹配,并保留这对图像用于评估。第二步是使用所提供的关键点在匹配的图像对之上生成稀疏对应地面实况任何1如果1[psgsα]=0,i=0,否则我们将平均精度称为AP@α,其中α是相对于框对角线的阈值然后,我们将最终AP定义为:75%,1%,1.5%、2%、3%)。4.2. 实现细节训练 我们使用随机梯度下降(SGD)进行网络优化。对于损失权重,我们将α mil,α con,α nce设置为10,2,0。1,并将α mil、α con、α nce设置为1、1、0。1在SOLOv2上。有关其他实施细节,请参阅附录C4.3. 弱监督实例分割主要成果。我们在COCO和VOC12上评估了实例分割,主要结果见表1。1和2。D ISCO B OX的表现优于BBTP [47] 10。2017年COCO验证的3%mAP与更小的 主 干 ( ResNet-50 ) 。 DISCO BOX 也 优 于 BoxInst[49],BoxInst [ 49 ]是COCO和VOC12上当前最先进的值 得 注 意 的 是 , BoxInst/ResNet-101-DCN 还 采 用 了BiFPN [95],这是FPN [89]的改进变体。图4和附录D另外可视化了实例分割结果。TPFPJ3413††LLL LLDISCOBOX(Ours)BoxInst [49] ResNet-101单级CondInst Box-33.2 56.5 33.6 16.2 35.3 45.1 84.9BoxInst [49] ResNet-101-DCN单级CondInst Box-35.0 59.3 35.6 17.1 37.2 48.9-DISCO BOX(Ours)ResNet-50-DCN单级YOLACT++ Box34.5 27.3 49.2 26.9 9.9 28.1 43.2 80.1DISCO BOX(Ours)ResNet-50单级SOLOv 2 Box 18.5 32.0 53.6 32.6 11.7 33.7 48.4 82.5DISCO BOX(Ours)ResNet-101-DCN单级SOLOv2 Box 10.3 35.8 59.8 36.4 16.9 38.7 52.1 85.9DISCOBOX(Ours)ResNeXt-101-DCN单级SOLOv2 Box 7.437.9 61.4 40.0 18.0 41.1 53.9 89.4表1.关于COCO的主要结果带有“”的结果在val 2017拆分上,否则为test-dev。具有SOLOv 2/ResNet-50的DISCO BOX的性能优于BBTP [47] 10.3%。我们最好的模型在测试开发中达到了37.9%的AP,在绝对性能上超过了Mask R-CNN等监督方法还报告了一些框监督方法和它们的监督对应物之间的性能比方法骨干拱AP25AP50AP70AP75SDI [46]VGG-16DeepLabv2-44.8-16.3[47]第四十七话ResNet-101Mask R-CNN75.058.930.421.6Arun等人[48个]ResNet-101Mask R-CNN73.157.733.531.2BoxInst [49]ResNet-50CondInst-59.1-34.2BoxInst [49]ResNet-101CondInst-61.4-37.0DISCO BOXResNet-50-DCNYOLACT++75.263.641.634.1DISCO BOXResNet-50SOLOv271.459.841.735.5DISCO BOXResNet-101SOLOv272.862.245.537.5信号方法骨干PCK@0.05PCK@0.1PCK@0.15没有一PFHOG [96]VGG1631.462.579.5图像[25]第二十五话R10149.074.884.0图像RTN [97]R10155.275.985.2图像NC-Net [98]R10154.378.986.0图像DCC-Net [99]R10155.682.390.5图像DHPF [30]R10156.182.191.1掩模[第28话]R10153.681.990.6框DISCO BOXR50-DCN59.387.295.3表2.VOC12验证集的主要结果DISCO BOX优于所有先前的方法,具有最先进的结果。表4. PF-PASCAL上的结果。DISCOBOX在弱监督语义对应上优于先前的最先进的方法,而没有铃声和口哨声。y yy s s s升密耳Lcon一次EMAStrAP50AP70AP75AP50AP70AP75C C C43.3十八点三17.0四十二点一十八点零十七点三C C C C62.040.1三十三点五58.1四十点九三十四点九CCCCC63.6四十一点六34.1五十九点八四十一点七三十五点五CCCC-- -48.620.7十七点六CCCC-- -58.340.5三十四点八表3. V0 C12的消融研究,其中分析. 我们使用以下方法对VOC12进行消融研究:密耳, connce,EMA和结构化教师。 Tab中的结果-s3显示一致的改善,从概念和nce,以及结构化的教师的重要性。我们还对实例分割(VOC12)1和语义对应(PASCAL 3D+,见第2节)的损失权重进行敏感性分析4.4)。 结 果 表明,该方法是可行的。6显示出DISCOBOX对重量变化不敏感。4.4. 弱监督语义对应PF-PASCAL(Object-Centric). 我们首先评估DIS-使用YOLACT++/ResNet-在PF-PASCAL [88]上进行COBOX1这里,AP遵循COCO评估:平均值(AP@{ 50,55,…95})。50-DCN,主要结果见表1。4.第一章我们不直接在PF-PASCAL上训练DISCOBOX模型。相反,我们在VOC 12训练集上训练它,排除PF-PASCAL验证集中存在的那些图像值得注意的是,许多现有的语义对应方法不能在VOC12上进行类似的训练而没有重大变化,即使其中一些确实考虑了一定程度的本地化信息,例如注意力。在推理过程中,我们使用实例分割来获得对象掩模,并使用结构化教师通过将掩模作为输入来产生密集的像素级对应我们的方法优于许多竞争力的弱监督语义对应相当大的利润率以前的方法。这种改进主要归因于三个方面:1)改进结构化教师的设计,在目标层次上呈现出良好的对应2)箱监督学习框架使得可以使用更多数据来扩大训练并获得改进的对应表示。3)高质量的目标定位信息作为耦合学习框架的结果,有助于指导语义对应学习。方法骨干类型拱SupFPSAPAP50AP75APSAPMAPL大鼠美国[62]ResNet-101两级MNC掩模<2.824.644.324.84.725.943.6-FCIS [63]ResNet-101两级FCIS掩模6.629.249.5-7.131.350.0-Mask R-CNN [64]ResNet-101两级Mask R-CNN掩模535.758.037.815.538.152.4-Mask R-CNN [64]ResNeXt-101两级Mask R-CNN掩模<537.160.039.416.938.953.5-PolarMask [51]ResNet-101一期PolarMask掩模12.332.153.733.114.733.845.3-[50]第五十话ResNet-50-DCN一期YOLACT++掩模33.534.153.336.211.736.153.6-[50]第五十话公司简介一期YOLACT++掩模27.334.653.836.911.936.855.1-[67]第六十七话ResNet-101一期CondInst掩模10.339.160.942.021.541.750.9-SOLOv2 [68]公司简介一期SOLOv2掩模10.341.763.245.118.045.061.6-SOLOv2 [68]ResNeXt-101-DCN一期SOLOv2掩模7.442.464.045.819.146.363.4-[47]第四十七话ResNet-101双级单级掩码R-CNNSOLOv 2包装<518.521.131.445.552.617.232.211.211.522.033.829.850.1--3414联系我们图4.COCO(YOLACT++/ResNet-50-DCN)上的实例分割可视化图5.基于PASCAL 3D+(YOLACT++/ResNet-50-DCN)的多对象语义对应的可视化α(密耳)3533α(con)3533α(nce)3533312927253129272531292725DISCO BOX31.7 15.8 21.4 31.8 39.5 50.357.51012.51511.522.530.05 0.070.10.20.3InstSeg(AP%)Corr(AP%)InstSeg(AP%)Corr(AP%)InstSeg(AP%)Corr(AP%)表5.PASCAL 3D+上的多对象对应结果图6.实例分割(VOC12)和语义对应(PASCAL 3D+)的损失权重敏感性分析。在YOLACT++/ResNet-50-DCN上进行分析。PASCAL 3D+(多对象)。最后,我们基准DISCOBOX和PASCAL 3D+上的几个基线。选项卡. 5列出了主要结果和图。5可视化了一些预测的对应关系。Tab.5定义如下:同一性:我们只考虑像素的位置来对齐每对图像。SCOT:[23]的修改版本,通过删除波束搜索并在我们的RoI特征上保留其匹配模块。DISCOBOX-:我们的模型在VOC 12上训练,没有密集的NCE损失,但在推理期间使用教师进行通信。DISCOBOX:我们的全面方法。我们使用YOLACT++/ResNet-50-DCN进行所有方法。我们的方法不包括具有验证数据和标签的波束搜索[23],因此是纯箱监督的。结果表明,我们提出的教师和密集对比学习的有效性其中AP0.75、AP1、AP1.5、AP2和AP3 表示AP@ α阈值α0. 75%,1%,1. 5%,2%,3%相对于框对角线。 AP定义为平均值(AP0.75、AP1、AP1.5、AP2、AP3)。5. 结论我们提出了DISCO BOX,一种新的框架,能够共同学习实例分割和语义对应,从框监督。我们提出的自我整合框架与结构化的教师,导致了显着的改进与国家的最先进的性能在这两项任务。我们还提出了一个新的基准多对象语义对应连同一个原则性的评价和灰度量。凭借从框监督联合产生高质量实例分割和语义对应的能力,我们设想DISCO BOX可以扩大规模并使许多下游2D和3D视觉任务受益。鸣谢:我们衷心感谢王新龙、田智、黄帅义、亚沙尔·阿斯加里耶、何塞M. Alvarez、黄德安等NVIDIA同仁进行了讨论并提出了建设性的建议。方法APAP0.75AP1AP1.5AP2AP3身份26.610.516.326.234.246.0[第23话]29.313.219.829.836.047.3DISCO BOX-30.915.621.330.638.048.93415引用[1] 保罗·维奥拉和迈克尔·琼斯使用简单特征的增强级联快速目标检测载于CVPR,2001年。1[2] BharathHariharan , PabloArbela' ez , RossGirshick ,andJi-tendra Malik. 同 时 检 测 和 分 割 。 2014 年 , 在ECCV。一、二[3] 穆赫辛·海杰拉提和德瓦·拉曼南分析杂乱图像中的3d对象。NIPS,2012年。1[4] YuXiang,RoozbehMottaghi,andSilvioSavarese.Beyond PASCAL:野外3D物体检测的基准InWACV,2014. 1、6[5] Yu Xiang , Wonhui Kim , Wei Chen , Jingwei Ji ,Christopher Choy , Hao Su , Roozbeh Mottaghi ,Leonidas Guibas,and Silvio Savarese.ObjectNet3D:用于三维物体识别的大规模数据库。在ECCV,2016年。1[6] Abhijit Kundu , Yin Li , and James M Rehg. 3D-RCNN:通过渲染和比较进行实例级3D对象重建。在CVPR,2018年。1[7] 乔治亚·吉奥克萨里 吉坦德拉·马利克 还有贾斯汀·约翰逊网格R-CNN。 在ICCV,2019年。1[8] Adrian Bulat和Georgios Tzimiropoulos我们离解决2D3D人脸对齐问题还有多远(and 230,000个3D面部标志的数据集)。InICCV,2017. 1[9] 大卫·G·洛从尺度不变关键点中提取独特的图像特征。IJCV,2004年。第1、3条[10] 赫伯特·贝、丁尼·图伊特拉尔斯和吕克·范古尔。SURF:加快了强大的功能。在ECCV,2006年。第1、3条[11] Engin Tola,Vincent Lepetit,and Pascal Fua. DAISY:适用于宽基线立体声的高效密集描述符IEEE Trans. PAMI,2009年。第1、3条[12] 爱德华·罗斯滕和汤姆·德拉蒙德。用于高速角点检测的机器学习在ECCV,2006年。第1、3条[13] Yannick Verdie , Kwang Yi , Pascal Fua , 和 VincentLep-etit. TILDE : 一 种 时 间 不 变 的 学 习 检 测 器 。CVPR,2015。第1、3条[14] Han Xufeng , Thomas Leung , Yangqing Jia , RahulSuk-thankar , and Alexander C Berg. MatchNet :Unifying fea- ture and metric learning for patch-basedmatching. CVPR,2015。第1、3条[15] Kwang Moo Yi,Eduard Trulls,Vincent Lepetit,andPascal Fua.LIFT:学习不变特征变换。在ECCV,2016年。第1、3条[16] Yuki Ono 、 Eduard Trulls 、 Pascal Fua 和 Kwang MooYi。LF-Net:从图像中学习局部特征。2018. 第1、3条[17] PaulEdouardSarlin , DanielDeTone , TomaszMalisiewicz,and Andrew Rabinovich.SuperGlue:使用图神经网络学习特征匹配。在CVPR,2020年。第1、3条[18] Ce Liu,Jenny Yuen,and Antonio Torralba. SIFT流:场景间的密集对应及其应用。IEEE Trans. PAMI,2010年。第1、3条3416[19] Tinghui Zhou , Yong Jae Lee , Stella X Yu , andAlyosha A Efros. FlowWeb:通过编织一致的像素对应关系来联合图像集对齐。CVPR,2015。1[20] ChristopherBChoy , JunYoungGwak , SilvioSavarese,and Manmohan Chandraker.通用通信网。在NIPS,2016年。1[21] Ignacio Rocco、Relja Arandjelovic和
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功