没有合适的资源?快使用搜索试试~ 我知道了~
带类别转移的弱监督目标检测
3070CaT:带类别转移的弱监督目标检测曹天跃1杜连宇1张晓云1* 陈思恒1,2张雅1,2王艳峰1,2上海交通大学合作媒体创新中心1上海人工智能实验室2{vanessa,dulianyu,xiaoyun.zhang,sihengc,ya zhang,wangyanfeng}@ sjtu.edu.cn摘要在全监督对象检测和弱监督对象检测之间存在很大的差距。为了缩小这一差距,一些方法考虑从附加的全监督数据集转移知识。但是这些方法没有充分利用全监督数据集中的判别类别信息,从而导致低mAP。为了解决这个问题,我们提出了一种新的类别转移框架弱监督对象检测。直觉是充分利用完全监督数据集中的视觉区分和语义相关类别信息,以增强对象分类能力。弱监督数据集双监督平均教师网络语义图卷积网络弱监督检测器的性能。为了处理重叠的类别转移,我们提出了一个双监督平均教师收集共同的类别信息和桥梁之间的领域差距两个数据集。为了处理非重叠类别转移,我们提出了一个语义图卷积网络,以促进相关类别之间的语义特征的聚合实验以Pascal VOC 2007为目标弱监督数据集,COCO为源全监督数据集。我们 的 类 别 转 移 框 架 实 现 了 63.5% 的 mAP 和 80.3% 的CorLoc,两个数据集之间有5个代码可在https://github.com/MediaBrain-SJTU/CaT网站。1. 介绍目标检测是计算机视觉中最基本的任务之一[44]。在过去的十年中,基于深度神经网络,许多方法[16,26,27]取得了巨大的成功。然而,大多数方法都遵循完全监督的设置,这需要大量的高质量注释,包括对象的精确边界框及其相应的类别标签。这一套-*张晓云为通讯作者。本工作得到了国家重点研发计划(2019YFB1804304)、国家自然科学基金(61771306)、超高清视音频制作与呈现国家重点实验室 、 上 海 市 数 字 媒 体 处 理 与 传 输 重 点 实 验 室 ( STCSM18DZ2270700)和111计划(BP0719010)的部分支持。图1.我们的类别转移框架的示意图。我们利用双监督平均教师网络传递重叠的类别和对象知识;并使用语义图卷积网络来传递非重叠的类别知识。最后的预测是由教师生成的。提取通常花费大量的时间和资源来获取这样的注释。为 了 降 低 注 释 成 本 , 提 出 了 弱 监 督 对 象 检 测(WSOD)[2,32,33]来训练仅具有图像级类别标签的检测模型然而,缺乏边界框级别的监督导致重大问题,如实例歧义和低质量的建议。因此,在全监督对象检测(89.1% mAP,SOTA [10])和弱监督对象检测(56.8% mAP,SOTA [13])之间仍然存在很大的性能差距为了缩小这一差距,一些以前的方法考虑从额外的数据的知识转移。主要有两种方法:对象转移方法和半监督方法。例如,[18,29,43]在源数据上训练通用对象检测器并将其应用于目标数据;然而,这种对象传递方法忽略了源数据集中的类别信息,导致分类效果下降。[11,37,35,15]用部分完全注释的数据遵循半监督设置,并将图像分类器转换为对象检测器。这样的半监督方法利用了框和类别信息,但通常不能解决数据集之间的领域差距,特别是类别不一致性问题.全监督数据集狗猫全监督学生重叠范畴迁移车狗猫教师儿童人分类标签:狗,椅子非重叠范畴转移弱监管学生狗椅子人3071↔↔↔↔····补间源数据集和目标数据集。此外,还没有利用类别之间的相关性。因此,缺乏利用类别信息仍然限制了目标数据集的经验性能。为了解决这些问题,本文特别考虑了类别迁移;也就是说,利用完全监督数据集中的视觉区分和语义相关的类别信息来增强识别。全监督数据集内图弱监督数据集内图弱监督检测器的犯罪能力。基于类别是否在全监督数据集和弱监督数据集中共享,类别转移包括重叠类别转移和非重叠类别转移,在重叠类别转移中,全监督数据集和弱监督数据集共享相同的类别,在非重叠类别转移中,两个数据集具有不同但相关的类别。为了实现重叠的类别转移,我们提出了一个双重监督的教师网络。双监督平均教师网络采用与平均教师方法类似的结构[36],但与两个学生一起工作,每个学生由全监督或弱监督数据集监督。因此,我们的老师可以从完全监督和弱监督的学生中收集重叠的类别信息,从而提高辨别能力。此外,平均教师结构可以弥合两个数据集之间的领域差距,包括图像和类别分布的差异。为了实现非重叠的类别转移,我们提出了一个语义图模型之间的相关性全监督和弱监督数据集中的所有类别。直觉是,即使两个类别是不同的,它们也可以是高度相关的,并且它们对应的类别信息可以根据相关强度被策略性地转移。图2示出了语义图的玩具示例。弱监督数据集中的类别kid与全监督数据集中的类别person不完全匹配,但它们在语义上在此语义图的基础上,我们使用图卷积网络来开发非重叠的类别信息,并为对象分类提供总的来说,我们提出了一个端到端的框架;参见图1。它包括一个更快的R-CNN [27]作为骨干网络,一个用于重叠类别转移的双监督平均教师网络,以及一个用于非重叠类别转移的语义图卷积网络。该框架可以通过使用平均教师结构来填补领域空白,并通过在语义图上聚合语义特征来与对象转移方法相比,我们从全监督数据集中转移类别信息来改进分类器。与半监督设置[11,37,35,15]下的方法相比,我们的方法应用双监督均值教师来求解域图2.类别标签图的一个例子红色、蓝色和黄色节点分别代表全监督、弱监督和普通类别。数据集间图边根据常见类别(“汽车(完全)”、“汽车(弱)”)和类别关系来构建这些关系包括子类关系(“人(完全)”、“小孩(弱)”)、包括关系(“自行车手(弱)”、“人(完全)”)和相似性关系(“自行车(完全)”、“轮椅(弱)”)。每个数据集内图是有向图,并且间图是具有双向边的双向图。最好用彩色观看。gap,并使用语义图卷积网络来充分利用类别之间的相关性,从而导致非重叠类别的语义转移我们的方法在WSOD中优于最先进的方法,并取得了与FSOD基线竞争的结果。我们将我们的主要贡献总结为:我们提出了一个新的WSOD的类别转移框架,专门处理的类别转移问题,包括重叠的类别转移和非重叠的类别转移的信息聚合问题我们提出了一种新的双监督平均教师网络来处理重叠的类别转移。该网络收集公共类别信息,并在两个数据集之间架起域差距的桥梁我们提出了一种新的语义图卷积网络,以解决非重叠的类别转移。该网络促进了相关类别之间语义特征的聚集。我们进行了广泛的实验,并表明,所提出的方法优于国家的最先进的弱监督对象检测方法,是有竞争力的基准完全监督对象检测基线。2. 相关作品弱监督目标检测。最近的作品通常制定WSOD作为一个MIL的问题。WSDDN[2]是WSOD中的第一个端到端MIL深度神经网络。受WSDDN的启发,提出了许多方法。[34]将WSDDN和多级在线实例分类器细化(OICR)算法集成到一个简单的深度网络中。[32]使用迭代过程,建议集群学习(PCL),学习基于车猫表车表孩子人足球自行车轮椅骑车人3072D∈D^ ^您的位置:F ∈DFMDi=1(一)fi=1OICR。[33]引入了连续多实例学习(C-MIL),通过平滑原始损失函数来解决部分支配问题。[42]使用自上而下的信心和自下而上的证据,并进行自适应训练-提取盒边界知识的机制关注-类似地,对于全监督数据集f,每个图像Xf具有实例级注释,包括边界框Bf={b(i)}r和它们对应的类别标签Yf={y}r,其中r是边界框Bf ={b(i)upworks通过自我训练[28]、自我升华[42] [13]等进一步提高性能。具有知识转移的弱监督目标检测。迁移学习通常用于域适应(DA)[38]。它可以桥接不同的数据集[36],类别[3],甚至任务[11,12],这降低了训练成本,并利用了来自另一个数据集/域/任务的知识。在本文中,我们专注于弱监督对象检测中的知识转移。附加数据通常用于提供用于检测的辅助先验信息[35,1]使用类别标签文本的词嵌入来表示类别之间的语义关系,并且使用类别的依赖性来辅助对象检测。[30,29,19]将在源域中学习的模型转移到目标域。此外,一些作品[15,11,35]使用权重预测来有效地将图像分类器转换为对象检测器。最近的研究[6,37,18,23]提出了共享源域中学习到的一般知识的想法。知识可以是对象预测器[6,23],对象候选区域[37]或一般边界框回归[18,43]。然而,由于两个数据集的类别通常是不相同的,现有的大多数方法在这种情况下都不起作用。在本文中,我们将WSOD与平均教师框架相结合,以充分利用来自公共全监督数据集和弱监督数据集的知识,这也可以解决类别不匹配问题。知识引导的图形推理。图推理在许多任务中被证明是有效的,包括图像分类[5,4],对象检测[40,39],基于人体骨架的动作识别[21]或运动预测[22]等。这些方法将领域知识建模为图,以基于类别依赖性,对象空间关系或对象语义关系传递知识。一些分类模型[5,4]基于数据集统计信息构建类别依赖图。[40]使用知识图来发现用于特征进化的最相关类别。我们的方法不仅使用语义图的完全监督和弱监督数据集的原因类别的依赖性,但也转移两个数据集之间的类别相似性或依赖性知识。3. 类别转移框架问题表述。在数学上,给定弱监督数据集w,数据集中的每个图像xw具有图像级类别标签yw,其中ywRCw,其中C w是弱监督数据集类别的数量。并且y(i)RCf是图像中的第i个的类别标签C f是完全监督的数据集类别的数量。我们的目标是在w上训练一个模型,并从f转移知识。 对于每个测试图像x,模型可以输出实例级检测,包括估计的边界框和类别估计;即B,Y = M(x)。概况. 为了设计这样一个模型,我们特别考虑了类别转移;也就是说,利用完全监督数据集中的对象识别的类别信息来增强检测器的辨别能力,该检测器是在弱监督数据集上训练的。类别转移使得区分能力能够从全监督数据集转移到弱监督检测器,从而导致更好的检测性能。如图3所示,建议的类别跨-FER框架包括三个部分:骨干网、双监督教师网络(第3.1节)和语义图卷积网络(第3.2节)。对于输入图像,我们的主干网络遵循Faster R-CNN [27]的主干,提取视觉特征并生成提案区域。双监督均值教师网络采用每个区域中的池化视觉特征,并且通过利用来自全监督和弱监督数据集两者的边界框和重叠类别信息来估计边界框和类为了进一步实现非重叠类别转移,语义图卷积网络利用类别之间的语义相关性并输出每个类别的语义特征。为了对每个区域进行分类,我们将语义图卷积网络产生的语义特征和来自双监督均值教师网络的R-CNN输出的视觉特征进行聚合,以生成最终的类别特征,从而提高识别能力。3.1. 双重监督意味着教师网络建议的双监督平均教师网络遵循传统的平均教师,但有两个不同的学生分支。这种新颖的架构可以弥合的领域差距,估计边界框和类通过重叠的类别转移。网络架构。 该网络由完全监督的学生分支、弱监督的学生分支和教师分支组成。三个分支中的每一个都将由骨干网络产生的建议区域的池化视觉特征作为输入,并通过几个卷积层更新视觉特征;也就是说,给定池化视觉特征Fp,则更新后的视觉特征F p将被更新。3073全监督学生支部word2vec......一分类头类别语义图语义特征EMA检测头语义图卷积网络教师支部一分类头检测头EMA一探测流弱监管学生支部RCNNtRCNNfRoIAlignCNN骨干RPNGCN人,车,足球......一∗·F†F=RCNN(F)∈†联系我们^FWW∈(一)^CwR,其由图像级类别la监督。R 分别表示。 输出由B^f={b^f}i=1和对应的类别Y^f=全监督数据集中的类别。 建筑师-到V∈Rr×Cw,并应用RCNNw分类流更快的R-CNN骨干双监督意味着教师网络弱监督数据路径全监督数据路径共享路径非反向传播路径特征聚合图3.我们的类别转移框架的整体架构。图像区域特征被转发到双监督平均教师,它有三个分支:完全监督的学生分支,弱监督的学生分支,和教师分支。通过语义图卷积网络更新语义特征,并将其融合到视觉特征中进行分类。一次迭代中的训练过程包含两个前向步骤(实线)、一个反向传播步骤(虚线)和一个指数移动平均(EMA)步骤。分支中的卷积层是o pRr×d,其中r是区域*n提案的数量,d是RCNN *()是区域卷积神经网络,并且是分支索引,其中f用于全监督分支,w用于弱监督分支,t用于教师分支。以全监督区域特征Fo作为输入,全监督学生分支使用回归头和分类头来输出估计的边界框语义特征一分类河流视觉特征探测流图4.弱监督学生支部的架构。(i) Ryfi=1真实边界框和相应的猫-完全监督数据集中的egory标签 注意,估计的标签是y(i)∈RCf,其中Cf是数字其中,Cw是弱监督数据集中的类别的数量。然后,我们沿着U的类别(第二)维度应用softmax运算,并获得类别预测得分σc(U)∈Rr×Cw,对于r个命题-这个分支的真实性与类不可知的Faster R相同连接图层d映射FoCNN [27]在RoIAlign层之后。弱监督学生分支训练受[2]启发的基于多实例学习(MIL)的网络。以弱监督区域特征Fo作为输入,这分支输出图像级类别预测弱监督数据集中的bels。图4说明了它的架构。 RCNN的输出特征被输入到分类流和检测流。分类流使用全连接图层c进行映射Fow 其中r是区域数沿着V的建议(第一)维度的softmax运算,以获得r个建议的检测得分σd(V)Rr×Cw最后,我们应用两个流的结果之间的逐元素乘法来获得图像级类别预测。教师分支通过指数移动平均(EMA)[36]积累来自两个学生分支的知识,而无需训练。它将全监督和弱监督区域特征作为输入,并输出将最后的框预测B^和猫的预测人症 同时,检测流使用另一个完全-Y1。teacher分支与3074转缺点~~^~^∈∈即(Pf)ij=Mij/Mi,其中Mi是数我 J我JI j··完全监督的学生分支,并且还包括回归头和分类头。不同之处在于,教师分支的输出类别的数量遵循弱监督数据集中的类别。为了传递回归能力,我们将完全监督的学生分支的回归头中的权重的指数为了转移分类能力,我们将弱监督学生分支的分类流中的权重以及完全监督学生分支中的重叠类别的权重的指数移动平均值作为教师分支的分类头中的权重。损失函数总损失函数包括三个部分:弱监督MIL损失Lmil,即人网球拍PE足球网球人足球网球拍网球rson人人图5.类别关系的示例。相关标签图是一个有向图,箭头表示类别之间的非对称“图像级交叉熵分类损失[2];全监督损失Lfull,与Faster R-CNN [27]相同,包括RPN损失Lrpn和R-CNN损失Lrcnn;以及一致性损失,以促进教师和两个学生分支之间的一致性;即,Lcons=类别注意类别之间的关系不是双向的,如图5中的足球和人。因此,依赖性是不对称的,并且数据集内图是有向图。为了定义每个图的连通性,我们首先计算一个图转移矩阵F缺点W缺点 ,其中全监督和弱-基于类别的共现,然后应用阈值化得到图邻接矩阵。对于前-监督一致性损失为LfW=Lbox(b^f,b^)+例如,全监督的图转移矩阵L_cls(y_f,y),L_cons=L_cls(y_w,y),其中b是教师分支的估计边界框,y是类。数据集为Pf∈RCf ×Cf. P的第(i,j)个元素是教师分支的重叠化分数y对于所有类别,Lcls是分类一致性的平滑损失,Lbox是箱回归一致性的均方误差总损失函数为L=Lmil+λfullLfull+λconsLcons,其中λfull和λcons是平衡弱监督、全监督和一致性损失的超参数。3.2. 语义图卷积网络为了利用全监督数据集中的非重叠类别,我们提出了一种新的语义图卷积网络。语义图反映了范畴之间的关系。基于语义图,图卷积网络更新所有类别的语义特征。优化的语义特征最终与视觉特征聚合以指导分类。语义图构建。我们建立一个语义图的基础上的所有类别之间的相关性。高度相关类别的对应对象往往联合出现,为对象提供了提示M ij是具有第i个类别的图像的数量,并且M ij是具有第i个类别和第j个类别的图像的数量。由于图的转移矩阵Pf多为满矩阵,可能会产生噪声,给后续的计算带来很大的开销,因此我们引入一个阈值τ来得到二元图的邻接矩阵Af∈ RCf×Cf. 第(i,j)个图相邻矩阵的元素,(Af)ij=0,当(Pf)ij< τ和1,否则。类似地,我们可以为弱监督数据集构造图邻接矩阵AwRCw×Cw。为了进一步捕获两个数据集之间的类别之间的语义关系,我们引入数据集间边来连接两个数据集内图,形成二分图BRCf×Cw。每个边的权值可以通过余弦相似度以及手工设计来获得。对于基于相似性的数据集间边缘,全监督数据集中的第i个节点与弱监督数据集中的第j个节点之间的边缘权重为exp(sim(vf,vw))B=,则侦测。 因此,适当地利用相关性-选择可以导致更好的分类和检测结果。ijΣ exp(sim(vf,vw))对于全监督和弱监督数据集中的每一个,我们通过类别的共现来构建数据集内图,以对类别之间的依赖关系进行建模。这里,每个节点模拟一个唯一的类别,每条边反映两个节点之间的依赖性。其中sim(i)是余弦相似度,vf和vw分别是全监督图中的第i个节点和弱监督图中的第j个对于手工制作的数据集间边缘,我们考虑二进制边缘权重来捕获逻辑关系-+LL第i个和第j个样本之间的类别,教师分支J3075O×个·------W∈∈FB∈RWFW∈∈f fwfw wfwword2vec全监督数据集分类语义图卷积与双重监督的融合意味着教师网络化。这两个语义特征都被两个学生分支的分类负责人使用。例如,在完全监督的student分支中,我们聚合语义特征和视觉特征以获得最终的视觉特征分类的特征;即ˇooT∈word2vec弱监督数据集分类初始语义特征词尾语义特征Ff=g(FfHf)+Ff其中r是提议区域的数量,g()是11卷积。完全监督的学生支部遵循相同的程序。实验结果表明,融合后的特征Fˇo比视觉特征Fˇo更具鉴别力特征O图6.语义图卷积网络的详细信息。全监督标签图和弱监督标签图共享相同的GNN权重,并通过数据集间图连接在两个图之间传输相关船舶分类之间。当图中的两个节点具有子类或包含关系 时 , 对 应 的 边 权 值 设 为 1 , 否 则 设 为 0. 例 如 ,pedestrain是person的子类,因此pedestrain和person之间的边权重为1。网络架构。 图6示出了语义图卷积网络的详细架构。我们首先使用word2vec预训练维基语料库初始化的语义特征,为每个类别,结合语义信息以及语言知识。 设H(0)RCf×k和H(0)RCw×k为语义特征在所有类别中,全监督和弱-其中,Cf是完全监督数据集的类别的数量,Cw是弱监督数据集的类别的数量,并且k是word2vec的维度。然后,我们使用两个图卷积层[14]来基于数据集内图更新语义特征。对于全监督数据集,第i个图卷积层将来自前一层的语义特征作为输入,输出潜在的特征,Z(i+1)=GCN(Af,H(i)),类似地,我们可以得到参见表3。4. 实验4.1. 实验装置数据集。我们在Pascal VOC 2007[8]并使用COCO 2014 [25]作为补充的公共全监督数据集。Pascal VOC数据集包含20个类别,在9,963张图像中包含24,640个对象。COCO数据集包含80个常见对象类别,在328k图像中具有250万个标记实例。Pascal VOC中的类别完全包含在COCO数据集中。为了更好地模拟不同的类别重叠情况,我们通过delet-将COCO数据集处理为COCO-(80n)*。对随机选取的n个重叠类别的注释进行排序,其中(80n)是COCO数据集中剩余类别的数量。与[43]不同,我们仅删除注释,但不删除重叠类别的图像,因为非重叠类别的对象可能出现在源全监督数据集中。我们使用COCO-(80n)*来表示去除重叠类别的所有图像的我们在KITTI数据集上进一步验证[9]。它包含7个与自动驾驶相关的类别,不包括misc和dont- care,在COCO数据集的标签集中只有汽车和卡车。这些类别有一些逻辑关系:行人和坐在KITTI中的人是子类别COCO中的person类别;cyclist是f f弱监督数据集的潜在特征Z(i+1)。接下来,我们通过数据集间图更新两个数据集中类别的语义特征H(i+1)= Z(i+1)+σ(B Z(i+1)W(i)),H(i+1)= Z(i+1)+σ(BTZ(i+1)W(i)),其中Cf×Cw反映了数据集间图,(i)是每个数据集的可训练权重矩阵,σ是t*he激活函数语义图卷积网络输出两个数据集HfRCf×d和HwRCw×d的最终语义特征,其中d是特征维度,其与两个学生分支中的每一个中的视觉特征Fo的特征维度相同。双重监督意味着教师网络。人与自行车我们使用这些关系在两个数据集之间构建手工制作的数据集间边缘。评价 我们使用平均精度(mAP) 以评估类别上的检测性能,以及CorLoc [7]以测量定位精度。实作详细数据。 我们使用Faster R-CNN[27]作为我们的基础模型,并遵循相同的设置。我们使用在ImageNet上预训练的vgg16[31]作为特征提取主干。对于Pascal VOC数据集,我们使用相似性数据集间的边缘来构建数据集间图。输入语义特征的维度为300。语义图卷积网络应用具有隐藏特征维度2048和4096的两个图在训练过程中,我们通过水平翻转、随机裁剪和在0.5到2之间随机调整图像大小来进行图像增强。初始学习速率为车自......猫人......孩......自行车植物......孩子,自行车手,植物,汽人、车、自行车、桌子…3076--方法WSDDN猫SIMHCmAP(%) CorLoc✓×个× 64.526.756.8猫× 83.8CaT ✓ ✓ 79.5 58.9×个✓80.651.5方法源数据集mAP(%) CorLoc(%)纯WSOD:WSDDN Ensemble [2]-39.358.0OICR-Ens+FR [34]-47.064.3PCL-Ens+FR [32]-48.866.6WSOD2 [42]-53.669.5CASD [13]-56.870.4WSOD(带传输):CaT0COCO-6058.073.8CaT*0COCO-60*59.275.9CaT5COCO-6563.580.3FSOD:更快的R-CNN [27]-69.6 94.3表1.我们的方法在Pascal VOC 2007测试集上与FSOD方法和最先进的WSOD方法在mAP(%)和CorLoc(%)方面的比较。我们的方法实现了更好的perfor-曼斯比以前的WSOD方法。表2. KITTI测试具有不同数据集间边缘的2D检测mAP(%)和CorLoc(%),其中“Sim”用于相似性数据集间边缘,并且“HC”用于手工制作的数据集间边缘。我们的模型具有良好的领域适应能力和相似的数据集间的边缘可以导致更好的性能。0.002. 我们采用SGD优化器,动量为0.9,权重衰减为0.0001。教师分支权重不参与反向传播,并且通过EMA衰减α = 0的EMA更新。999 平衡损耗的权重为λfull=0。5,λcons=1。0的情况。我们的方法是基于Pytorch Faster R-CNN框架实现的[41]。所有模型都在4个NVIDIA 1080 Ti GPU上训练批量大小为8。4.2. 与最新方法的Pascal VOC 2007。我们将我们的方法与Pascal VOC2007数据集上的最先进方法进行了比较,包括(1)纯WSOD 方法: WSDDN [2], OICR [34],PCL [32],WSOD2 [42],CASD [13]。这些在没有任何补充数据的情况下训练方法。(2) 知识转移的WSOD方法:MSD [24],OICR+UBBR[17],Boosting[43]。这些方法从具有绑定框注释的附加源数据集传递知识。 对于源数据集,COCO-(80−n)数据集删除注释和COCO-180*是ILSVRC2013数据集,删除了Pascal VOC数据集包含的20个类别(3) 全监督方法:我们还将我们的方法与Faster R-CNN[27]进行了比较,该方法在弱监督数据集上进行了完全注释训练,如[43,20,32]所示。表 1 在 mAP 和 CorLoc 方 面 将 我 们 的 方 法 与 PascalVOC测试集上的先前最先进的方法进行了比较。我们使用CaTn来表示我们 使用完全监督数据 集COCO-(80n)训练的方法,并使用CaT*n来表示我们使用完全监督数据集COCO-(80 n)训练的方法监督数据集COCO-(80−n)*。我们首先使用COCO-60或COCO- 60*作为源全监督数据集来评估我们的方法对于纯WSOD方法,CaT0比现有技术的方法CASD好1.2%mAP和3.4%CorLoc;并且CaT0将WSDDN基线提高18.7%mAP和15.8%CorLoc。对 于 具 有 转 移 的 WSOD 方 法 , CaT0 以 2.8%mAP 和1.4%CorLoc 优 于 最先 进 的 方 法 Boosting [43] , 其 中COCO-60作为源;CaT*0以1.4%mAP 和2.3%CorLoc优于Boosting *[43],其中COCO-60*作为源。使用COCO-60*作为源的CaT*0比使用COCO-60作为源的CaT* 0具有更好的性能,因为在COCO- 60中去除注释的区域在训练时被视为背景,这将降低CaT *0的召回率。然后,我们使用COCO-65作为源全监督数据集来评估我们的方法。由于COCO-65数据集和Pascal VOC数据集之间只有5个重叠类别,CaT5比最先进的纯WSOD方法CASD增加了6.7%的mAP和9.9%的Cor- Loc,并显着减少了弱监督对象检测方法和全监督方法之间的mAP差距,如Faster R-CNN!1关于KITTI的结果。我们还验证了我们的方法的域自适应能力。我们使用域通用数据集COCO作为源全监督数据集,并在域特定数据集KITTI上进行弱监督对象检测对于语义图的构建,我们可以根据KITTI和COCO数据集中的类别之间的逻辑关系来构建相似的数据集间边以及手工制作的数据集间边表2比较了我们的方法使用不同的数据集间边缘和WSDDN基线的性能。我们看到i)我们的方法显著优于我们的基线WSDDN,验证了我们方法的域适应能力;以及ii)我们的方法使用相似性数据集间边缘实现了最佳mAP80.6%,并且使用相似性和手工制作的数据集间边缘两者实现了最佳CorLoc 58.9%,这表明相似性数据集间边缘可以导致更好的类别转移。(80−n)*数据集删除了n个重叠的图像原始COCO数据集中的类别; ILSVRC 2013-1定性结果见补充资料。MSD-Ens [24]ILSVRC2013-18051.166.8OICR+UBBR [17]COCO-60*52.047.6提升[43]COCO-6055.272.4加强*[43]COCO-60*57.873.6我们的:3077CaT-n的mAP用于CaT-n的更快R-CNN CorLoc的mAPCorLoc用于更快的R-CNNmAPCorLocmAPCorLocmAP(%)/CorLoc(%)mAP(%)/CorLoc(%)mAP(%)/CorLoc(%)--10090 90909080 80808070 70707060 60606050 5050500 5 10 15 20重叠类别数n(a) 各种n400.5 1.0 1.5完全损失系数(cons= 1.0)(b) 不同λfull400.0 0.5 1.0 1.5 2.0损耗系数cons(full= 0.5)(c) 不同λcons的性能400.0 0.2 0.4 0.6 0.8图结构系数(d) 不同τ的性能图7.对重叠类别数n、全监督损失的平衡权重λfull、一致性损失的平衡权重λcons和图构造阈值τ的消融研究。我们的方法的性能随着n的增加而提高;并且我们的方法对λfull,λcons和τ具有鲁棒性。DSMTSGCNAero自行车鸟船瓶总线车猫椅子牛表狗马姆比凯人植物羊沙发火车电视mAP(%)CorLoc(%)(一)×个×个29.149.331.025.525.240.463.234.826.539.00.229.741.153.733.927.536.533.532.551.335.258.573.251.644.342.961.878.348.840.070.10.051.562.472.557.351.671.451.352.170.9855.5(B)✓×个72.649.254.940.249.679.080.469.143.375.530.665.971.159.367.131.568.859.770.866.960.387.869.678.264.271.390.292.382.260.292.958.781.884.677.379.658.391.873.880.382.077.8(C)✓✓74.070.760.031.150.075.982.070.732.874.369.570.269.577.037.545.867.061.172.468.063.087.384.480.359.171.389.191.780.752.592.986.284.585.092.362.670.189.873.581.984.780.0表3.双重监督的有效性意味着教师网络(DSMT)和语义图卷积网络(SGCN)在mAP(%)和CorLoc(%)方面COCO-65和Pascal VOC之间的重叠类别以粗体显示。DSMT和SGCN都是有效的检测性能和定位精度。4.3. 消融研究重叠类别的数量。图7(a)显示了重叠类别数量的影响n之间的完全监督和弱监督的数据集。我们看到i)性能随着n的增加而提高。原因是针对特定重叠类别的更多边界框和类别训练数据改进了检测器; 2)我 们 的 方 法 优 于 仅 在 具 有 n 个 重 叠 类 别 的 COCO-(80n)数据集对于以下消融研究,我们将重叠类别的数量固定为5。网络组件。为了验证所提出的双监督平均教师网络(DSMT)和所提出的语义图卷积网络(SGCN)的有效性,我们比较了三种网络设置:(A)纯弱监督对象检测器,其使用传统的平均教师结构而不使用任何提出的网络,其由更快的R-CNN骨干、类似WSDDN的弱监督学生分支以及与学生分支具有相同架构的教师分支组成;(2)基线网络与双督导平均教师网络( DSMT ) ; 以 及 ( C ) 具 有 双 监 督 平 均 教 师 网 络(DSMT)和语义图卷积网络(SGCN)的基线网络。表3比较了这三种设置的检测性能。我们看到i)设置(B)在mAP和CorLoc方面,分别优于(A)超过25%和20%,表明了巨大的优势ii)设置(C)进一步改进了(B),验证了SGCN的有效性。超参数。 图7(b)-(c)分别显示了丢失函数中超参数λfull、λcons和λcons的影响。我们看到,i)太小或太大的λfull都可能导致性能下降,并且我们的方法在λ full = 0时实现了最佳性能。5;和ii)较大的λcons意味着L cons上更强的正则化。该方法在λ full= 1时实现最佳性能。0的情况。图(d)示出了数据集内图形构造阈值τ的影响。 我们看到,较大的τ导致较稀疏的数据集内图,并且τ = 0。4模型图的密度适当,以达到最佳性能。5. 结论本文研究了具有全监督知识转移的弱监督目标检测问题。我们特别关注类别迁移;即利用完全监督数据集中的类别信息来提高检测器的辨别能力。对于重叠的类别转移,我们提出了一个双监督平均教师网络,以收集共同的类别信息,并弥合两个数据集之间的领域差距。对于非重叠类别转移,我们提出了一个语义图卷积网络,通过在相关类别之间传播语义信息来收集语义特征建议的网络的优势,导致一个新的国家的最先进的PASCAL VOC 2007年。mAPCorLocmAP(%)/CorLoc(%)3078引用[1] Ankan Bansal 、 Karan Sikka 、 Gaurav Sharma 、 RamaChel-lappa 和 Ajay Divakaran 。 零 镜 头 物 体 检 测 。 在ECCV ( 1 ) , Lecture Notes in Computer Science 的 第11205卷,第397-414页中Springer,2018. 三个[2] Hakan Bilen和Andrea Vedaldi。弱监督深度检测网络在CVPR中,第2846IEEE计算机协会,2016年。一二四五七[3] Pau Panareda Busto和Juergen Gall。开集域自适应。在ICCV,第754-763页中。IEEE计算机学会,2017年。三个[4] 陈天水,徐慕新,惠晓璐,吴贺峰,林亮。多标签图像识别的学习语义特定图表示。在ICCV,第522IEEE,2019。三个[5] Zhao-Min Chen , Xi-Shen Wei , Peng Wang , andYanwen Guo.用图卷积网络进行多标记图像识别。在CVPR中,第5177-5186页。计算机视觉基金会/ IEEE,2019年。三个[6] Thomas Deselaers Bogdan Alexe和Vittorio Ferrari弱监督定位和通用知识学习。国际计算机目视,100(3):275-293,2012. 三个[7] Thomas Deselaers Bogdan Alexe和Vittorio Ferrari弱监督定位和通用知识学习。国际计算机目视,100(3):275-293,2012. 六个[8] M.埃弗灵厄姆湖,澳-地凡古尔角,澳-地K. I.威廉斯,J.Winn 和 A. 齐 瑟 曼 。 PASCAL Visual Object ClassesChallenge2007(VOC2007)http://www.pascal-network.org/challenges/VOC/voc2007/workshop/index.html啊六个[9] Jannik Fritsch,Tobias Kuehnl,and Andreas Geiger.一种新的道路检测算法性能度量和评价基准在智能交通系统国际会议(ITSC),2013年。六个[10] 林宗义,崔银,史瑞文,林宗义,林志玲.阔克?库布克Le和Barret Zoph.简单的复制粘贴是一种强大的数据增强方法,用于实例分割。CoRR,abs/2012.07177,2020。一个[11] Judy Hoffman , Sergio Guadarrama , Eric Tzeng ,Ronghang Hu,Jeff Donahue,Ross B. Girshick,TrevorDarrell,and Kate Saenko. LSDA:通过自适应进行大规模检测。在NIPS,第3536-3544页,2014中。一、二、三[12] RonghangHu,PiotrDolla´r,KaimingHe,TrevorDarrell,andRoss B.娘娘腔。学会把每一件事都分割开来在CVPR中,第4233-4241页IEEE计算机学会,2018年。三个[13] 黄泽一,邹阳,B. V. K. Vijaya Kumar和Dong Huang。用于弱监督对象检测的综合注意力自蒸馏在NeurIPS,2020年。一、三、七[14] 托马斯·N Kipf和Max Welling。使用图卷积网络的半监督分类。在第五届国际学习表征会议上,ICLR 2017,法国土伦,2017年4月24日至26日,会议跟踪程序,2017年。六个[15] 放大图片作者:Jason Kuen,Federico Perazzi,Zhe
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功