没有合适的资源?快使用搜索试试~ 我知道了~
9397渐进多样性约束吴佳曦1,2,陈佳欣2,黄迪1,2*1北京航空航天大学软件开发环境国家重点实验室2北京航空航天大学计算机科学与工程学院{wujiaxi,jiaxinchen,dhuang}@ buaa.edu.cn摘要主动学习通过有意识地选择信息量更大的样本进行标注,是一种很有前途的方法,可以缓解用于对象检测的主动学习更加复杂,并且现有的努力相对较少。在本文中,我们提出了一种新的混合方法来解决这个问题,其中的实例级的不确定性和多样性共同考虑在一个自底向上的方式。为了平衡计算复杂度,所提出的方法被设计为一个两阶段的过程。在第一阶段,提出了一种基于熵的非最大值抑制算法(ENMS)来估计每幅图像的不确定性,该算法根据特征空间中的熵来进行非最大值抑制,以去除具有冗余信息增益的预测在第二阶段,探索了多样性原型(DivProto)策略,通过将其渐进地转换为基于熵的类特定原型的在MSCOCO和Pas- cal VOC上进行了大量的实验,所提出的方法达到了最先进的结果,并显着优于其他的相对部分,突出了其优越性。1. 介绍在过去的十年中,深度卷积神经网络(CNN)[12,27]极大地推进了视觉对象检测[23,30不幸的是,强大的CNN通常使用大量的注释数据来拟合大量的参数,并且训练这样的检测器需要图像上的边界框标签,这非常昂贵和耗时。作为缓解这一困境的最有前途的替代方案之一,主动学习[25,38]旨在通过有意识地选择更多的信息来降低这种高成本*通讯作者。形成的样本进行标记,并且期望与以随机方式进行的相比,以少得多的注释图像提供更高的准确性。在计算机视觉领域,主动学习主要讨论图像分类[15,25,28],目前的方法大致分为两类,即基于不确定性[9,36]和基于多样性[22,25]。基于不确定性的方法[9,36]根据其模糊性[3,9,15,36]从整个数据库中筛选信息样本由于样本是单独预测的,因此它们是有效的,但往往会引起高相关性。基于多样性的方法[1,22,25]声称信息样本是整个数据分布的代表,并使用距离度量[25]或类概率[1]识别子集。他们证明有效的小模型,但遭受高计算复杂性。此外,还存在另一种趋势,即将基于不确定性和多样性的方法结合为混合方法[2,6,35],并且所实现的优越性为其他任务提供了有希望的替代方案。我们知道,目标检测比图像分类更复杂,其中目标类别和位置同时输出。在这种情况下,主动学习需要处理图像中的各种数量的对象,并且基本问题是根据实例级预测做出图像级决策。基于多样性的方法CDAL [1]将空间池应用于粗略近似的实例聚合,并将图像选择公式化为强化学习过程。关于基于不确定性的方法,Learn Loss [36]设计了一个无任务的损失预测模块,并通过图像级特征而不是实例级特征来计算图像不确定性,而MIAL [37]将图像不确定性定义为前K个实例的不确定性,并使用基于多实例学习的重新加权来估计它。由于基于多样性的方法没有充分利用分类信息,而基于不确定性的方法不能很好地度量样本信息的差异性,这两类方法都有改进的空间。在这项研究中,我们提出了一种新的混合方法,9398预算=2推理预测1主动获取火车注释请求更新Oracle未标记图像标记的图像接受公司简介<拒绝DivProto优先级:潜水>潜水>潜水检测器不确定度估计渐进多样性测量图像间的图像内差异原型之间的图像间差异熵优先级:101公司简介1=2=3=ENMS优先级:公司简介1=2=3=图1.框架概述。空心圆圈表示不确定性预测,实心圆圈表示聚合原型。在每个周期中,检测器使用标记的图像进行训练,并推断未标记的图像。首先基于熵计算实例不确定性。然后,ENMS对每个映像执行删除冗余实例的操作。DivProto将每个图像的实例聚合为原型,并拒绝与选定图像接近的图像。通过3个示例说明主动采集的优先级:I1,I2,I3.在每个周期结束时,所选择的图像(例如,I2、I3)由oracle标记。主动学习用于对象检测,它在实例级别上考虑了不确定性和多样性。To balance the computational complexity,the proposed ap- proach works in a two-stage manner, asFig. 1 displays.在第一阶段,我们估计每个图像的不确定性的熵为基础的非最大值抑制(ENMS)。ENMS在特征空间中对计算的熵进行非最大值抑制以去除带来冗余信息增益的实例,其中ENMS细化的熵的较大值指示未标记图像的选择在第二阶段,与现有的基于不确定性的方法[24,37]不同,该方法选择前K个图像进行注释,我们引入了多样原型(DivProto)策略,以确保图像之间的实例级多样性它采用原型[29,33]作为图像级代表,通过聚合类特定的实例,并将跨图像多样性分解为类内和类间多样性。然后,我们获得的图像的少数类的类间多样性和拒绝的类内多样性的冗余。通过这种方式,所提出的方法结合了优势的不确定性和多样性为基础的自下而上的方式。我们在MSCOCO [19]和Pascal VOC [7,8]上评估了所提出的方法,并在两者上提供了最先进的分数,突出了其有效性。2. 相关工作2.1. 图像分类如上所述,大多数关于计算机视觉中主动学习的研究都是针对图像分类和主要分为基于多样性的[1,25]和基于不确定性的[9,36]。基于多样性的方法通过聚类[22]或分区[11]技术筛选样本子集以代表全局分布核心集[25]将主动学习定义为核心集选择问题,并采用k-中心近似。为了提高效率,CDAL [1]用KL散度代替了基于距离的相似性。这些方法在理论上是完备的,但在处理高维数据时计算效率不高。基于不确定性的方法选择被认为对整个数据集信息最丰富的模糊样本[3,9,15,36]。人们做了很多努力来估计数据的不确定性,例如类后验概率的熵[15]。在这种情况下,[9]引入了贝叶斯CNN作为专家;[3]采用了深度集成和蒙特卡洛丢弃;和Learn Loss[36]提出了一种无任务的图像级损失预测模块。上述方法是有效的,但会带来冗余的样本注释。一些替代方案[6,14,34]结合了这两种类型的优点。对于不确定性和多样性得分,[6]只是选择最小值;[35]强调早期周期的多样性,并逐渐转向不确定性;[13]将融合视为多臂强盗问题,并重新加权不同的分数。VAAL [28]对数据点是否属于标记或未标记池进行不确定性估计,并获取与后者最相似的样本。SRAAL [38]进一步利用不确定性估计器和监督学习器来封装注释信息。BADGE [2]通过梯度幅度和方向对不确定性和多样性进行建模,9399层分别。混合方法取得了可喜的成果,并提出了一种新的方式为其他任务。2.2. 基于主动学习的目标检测在过去的几年里,CNN [12,27]主要在一阶段[18,20,30]和两阶段[10,23]框架下对对象检测进行了极大的改进。由于检测注释更加昂贵和耗时,因此主动学习成为该分支的焦点,初步尝试证明了其必要性[4,16,21,24,32]。同时,由于要同时预测目标的类别和位置,这一任务更具挑战性.基于多样性和基于不确定性的方法最近都适用于对象检测,并且它们通过集成实例级预测来扩展直接图像级决策。对于前者,CDAL [1]表示使用空间池化后的检测特征来近似此过程的图像。尽管有一定的潜力,但要获得显著的性能提升,需要进行全局实例级特征比较,这会带来巨大的复杂性。对于后者,LearnLoss [36]采用整体图像级特征进行不确定性估计,并使用无任务损失预测模块,直接评估未标记图像贡献的信息量MIAL [37]通过测量其不确定性来选择图像,该不确定性基于在多实例学习框架中重新加权的前K个实例的不确定性,抑制噪声并突出显示代表性实例。它们忽略了整个数据池中的实例级相关性,因此提供了大量冗余。为了解决上述问题,本文提出了一种方法,联合使用它们的优势,以提高目标检测。3. 问题陈述随后由oracle标记S,并应用于将S更新为S:= SS。 请求oracle为每个选定的图像提供标签Y={ys(j)}j∈[m]。 学习模型DS依次由S和Y训练。作为 描绘 在 核心集 [25], 的 主动学习问题被定义为最小化核集损失i∈[n]l(Ii,yi;DS),其中yi是I i的标号.在目标检测的设置中,检测器DS被分解为编码器PS和连续预测器AS。PS通过采用接收式将I i中的一组空间位置{posk}k∈[t]编码为一组特征PS(Ii)={PS(Ii,k)}k∈[t],[2019- 05 -25][2019 - 05 -25][2019 - 05 - 05][2019 - 05- 05][2019 - 05 - 05][2019 - 05 - 05] 之后,基于Ps(Ii ) , 预 测 Ps ( Ps ( Ii ) ) ={y∈i , k , ci , k , pi ,k}k∈[t],其中y∈i ,k ,ci ,k和pi ,k分别是预测的边界框、对象类和置信度得分。用于目标检测的图像级视觉核心--集合损失l(·)可以重新表述为:k∈[t]lD( PS(Ii,k),yi ,k;AS),其中ID是实例级损失函数。为了采用基于核心集的解,l(·)应该是Lipschitz连续的,如[25]中的定理1然而,PS(Ii)是无序的,因此很难明确定义,使得l(·)不是Lipschitz连续的。为了解决这个问题,受不确定性研究[24,37]中,我们从PS(Ii)中探索经验不确定性,并采用基于熵的公式。具体来说,我们计算第k个实例的以下熵[26H(Ii,k)=−pi,klogpi,k−(1−pi,k)log(1−pi,k),(1)其中,pi,k是预测为某个类别的前景的置信度得分,1−pi,k是背景。从等式在等式(1)中,图像级基本检测熵通过将I(·)中的ID(·)替换为H(Ii,k)来定义如下:Σ本节首先阐述了主动学习的概念用于物体检测。 通用管道可以大致H(Ii|DS)=k∈[t] H(Ii,k).(二)分为三个步骤:(1)利用现有检测器对未标记图像的推断,(2)在预算下的图像获取和注释,以及(3)对新标记图像的检测器训练和评估。这三个步骤在一个循环中执行,每个迭代被视为一个周期(或阶段)。在每个主动学习周期之后,探测器的性能代表主动采集方法的能力,因为它们选择不同的图像进行注释,其中采用固定的图像量作为注释预算[1,36,37]。由于检测器训练和评估以相同的方式设置,我们专注于探索更有效的获取方法。假设我们有大量的候选图像{Ii}i∈[n] 以 及 所 选 择 的 图 像 集 S={Is ( j ) |s ( j )∈[n]}j∈[m],其中[n]={1,···,n}且[m]={1,···,m}。注意,S表示每个主动采集周期之前的标记子集给定在预算b中,批量主动学习算法旨在在每个周期中获取图像子集BLS,使得|∆S|= b.基于H(i|DS),对未标记的图像进行排序,并且选择前K个图像作为采集集ES。由于视觉上相似的边界框包含冗余由于在训练鲁棒检测器时不优选信息,因此希望选择信息量最大的信息并放弃其余信息。此外,这样的信息冗余不仅发生在每个图像内,而且发生在图像之间,使得更难以保持实例级的多样性。目前还缺乏一种既考虑实例级评估又实现图像级获取的混合方法。4. 方法4.1. 混合框架在本小节中,我们将详细描述我们提出的混合框架,该框架专门为对象检测的主动学习而设计。9400f·fi,j∥f ∥∥f ∥算法1基于熵的非最大值抑制(d)输入:预测类{ci,k}k∈[t]置信度得分{pi,k}k∈[t]实例级特征{fi,k}k∈[t]阈值Tenms(默认为0.5)(c)第(1)款输出:图像级熵Ei初始化:Ei:= 0ENMS后(b)第(1)款图2.实例级多样性的层次结构在(a)中示出。(b)是指通过ENMS去除实例级冗余的图像内多样性。(c)以及(d)分别加强跨用类特定原型制定的图像的类内和类间差异如图1、拟议框架主要由三个模块组成:不确定性估计使用基本的检测熵,基于熵的非最大值抑制(ENMS)和不同的原型(DivProto)策略。方程中的基本检测熵。(2)用于定量度量对象实例的图像级不确定性。然后提出了基于熵的ENMS算法,去除图像中的冗余信息,从而增强图像的实例级多样性。DivProto通过将其转换为使用特定于类的原型制定的类间和类内差异,进一步确保了图像之间的实例级差异。具体来说,我们的分集增强方法的层次结构如图所示。二、总体实例级多样性(a)被划分为图像内多样性(b)。(b)通过ENMS,图像间多样性由DivProto完成,然后分解为类间和类内多样性,分别如(c)和(d)所示。通过这种渐进的方式,预测实例的多样性约束有效地进行。其余部分详细阐述。4.2. 用于图像内分集的ENMS如等式(2)描绘了基本检测熵H(I,|是候选边界框的熵的简单和。然而,现有的物体检测器通常是通用的,该算法使用了大量重叠的边界框,导致了严重的空间冗余和高计算代价。这个问题可以通过应用非最大值抑制(NMS)[20,23]来部分缓解,基于此,属于同一实例的边界框被合并为一个统一的边界框。但NMS不能处理实例级冗余,即在同一上下文中出现的具有相似外观的实例,这是主动获取时应该减少的。1:根据等式1计算实例熵{H(Ii,k)}k∈[t](一)2:初始化指示集合Sins:=[t]第三章: whileSins=04:根据kpick:=argmaxk∈[Sins]H(Ii,k)从Sins中选择信息量最大的实例kpick , 并 更新Sins :=Sins- {kpick}5:更新熵Ei:=Ei+H(Ii,kpick)6:对于jinSins,7:如 果 ci , j=ci , kpick 并 且 Sim ( fi , j , fi ,kpick)>Tenms然后8:移除实例j作为Sins:=Sins−{j}9:如果结束10:结束11:结束while为了克服NMS的这一缺点,我们提出了一种简单而有效的基于熵的非最大值抑制(ENMS),作为NMS实例级的后续步骤冗余删除具体地,我们首先计算以下余弦距离Sim(·,·)以测量逐对整数。不实例复制:Sim(f i,k,f i,j)=i ,k,wherei,k i,jf i,k是由PS(·)提取的图像I i中的实例k的特征。 随后,ENMS在初始化为[ t ]的指示集合Sins上执行,其中[t]是Ii中的所有实例的集合。如算法1中所总结的,ENMS的基本思想是从Sins中选择信息量最大的实例kpick,其中对应的熵H(Ii,kpick)针对图像级熵Ei被累积。同时,与kpick相似的剩余类内实例(即,成对相似度大于阈值T_enms)被视为冗余实例,并且进一步地,从S中删除。迭代地进行上述过程,直到Sins变为空。值得注意的是,ENMS只比较来自相同类别的实例w.r.t.所选择的信息实例,并且因此在计算上是有效的。同时,ENMS实时提取实例级特征,大大降低了内存开销。此外,ENMS还可以通过删除冗余实例来缓解每个映像的实例数量不平衡的4.3. 图像间多样性的多样原型ENMS增强了图像内的多样性,类别一BC实例原型功能比较班级间图片池类内<接受图像内公司简介(一)9401我αC算法2多样的原型输入:标记图像S未标记图像{Ii}i∈[n]− S预算b和阈值T帧内和T帧间输出:待标记的所选图像集1:计算熵{Ei}以及原型{{protoi,c}c∈[C]}对于未标记图像的集合[I]i∈[n]- S,由ENMS和等式(3)分别。2:基于S计算配额{qc}c∈[C]未标记的图像根据其熵{Ei}通过ENMS以降序排列。随后,我们通过类内冗余拒绝来提高类内多样性,示于图2(c)和类间分集经由类间平衡如图2(c)。第2段(d)分段。班级内的多样性。给定候选图像Ii和所获取的集合IJS的原型,Ii的类内多样性通过以下度量来测量Mg(Ii,[C])= min max Sim(proto j,c,protoi,c)(4)轻微3:按照降序对{Ii}i∈[n]− S进行排序,{Ei}。. Σ第四章: forIin. {Ii}i∈[n]− S.做5:如果Mg(Ii,[C])T帧间,则6:选择Ii并更新S:= S{Ii}7:forcin[Cminor]do8:如果p(i,c)> Tinter,则更新qc:=qc−19:更新Cminor:=Cminor−1,如果qc= 010:结束11:如果结束12:结束13:从排序集的其余图像中填充BLOGS{i}i∈[n]− S直到|∆S|= b图像多样性(即图像间的冗余)仍然存在。大多数传统方法[1]基于整体图像级特征来解决这个问题,这些特征太粗糙,无法在对象检测中实现实例级处理一些基于重新加权的方法[13,35]可以从图像级调整到实例级,减轻图像间的冗余。然而,它们需要计算所有实例对之间的距离,这会产生很高的内存和计算成本。此外,现有的研究很少考虑实例类别的不平衡性,使得归一化多样性难以估计。受先前尝试的启发[29,33,39],我们引入原型来解决上述缺点。Con- cretely, the i-th prototype of class cis formulatedas:Σc∈[C] j∈|∆S|由方程式(4)我们可以看到:1)通过使用Mg,图像间多样性通过原型之间的相似性而不是实例级成对比较来测量,从而显著降低了计算复杂性,以及2)Mg(Ii,[C])对跨图像的类内原型之间的相似性进行编码,并且如果Ii是更类似于所拾取的图像集C2S。基于以上观察,我们因此采用以下类内冗余拒绝过程来增强跨图像的类内多样性:当Mg(Ii,[C])大于阈值T_intra(默认为0.7)时拒绝图像I i,否则接受。阶级的多样性。虽然类内多样性可以基于Mg(Ii,[C])来增强,但是由类内拒绝过程获取的图像集倾向于偏向某些类(即,多数类),导致严重的类不平衡。为了解决这个问题,我们通过引入类间平衡过程来增加类间多样性,即自适应地为少数类提供比多数类更多的预算。具体地,我们首先通过根据在标记图像集合S中出现的频率对总体类进行排序并选择具有Cminor最少实 例 的 类 来 构 建 少 数 类 集 合 [Cminor] , 其 中Cminor=αC(0<α1)。 我们指定每个少数类c∈[C小调]一个相对较大的配额qc=βb(α β1),类的具体预算。对于未标记的图像Ii,我们通过计算来k∈[t]<$(c,ci,k)·H(Ii,k)·fi,k原i,c=Σk∈[t] (c,ci,kH(I,k),(3)Mp(Ii,[Cminor])= maxc∈[C小调] p(i,c),(5)其中,如果c=ci,k,则n(c,c i,k)等于1,否则等于0。如等式1所示。 (3)、制定原型依据其中p(i,c)= max(c,ck∈[t]i,k)·pi,k估计概率-在熵和预测类,而不是配置,证据得分与现有工作[33]相同,因为我们的框架专注于信息增益。因此,具有高分类置信度的实例对原型的贡献小于不确定的实例。基于ENMS和原型,我们提出了DivProto策略来增强图像间的具体来说,我们首先对i中c类的实例的存在性。在这项工作中,我们采用阈值T_inter(默认为0.3),其中如果M_p(I_i,[C_minor])> T_inter,则图像I_i被接受为包含少数类,否则被拒绝。一旦Ii被接受,配额{qc}将更新为qc:=qc−1ifp(i,c)> Tinter.在图像采集期间,qc= 0的类将被从少数类中删除类集[C小调],而少数类9402(a) MS COCO上的FRCNN(b)MSCOCO上的RetinaNet(c)Pascal VOC图3.比较结果。(a)/(b)通过使用训练数据的不同部分在MS COCO上的AP(%);(c)帕斯卡VOC的mAP(%)。(一)、(b) 以及(c)分别采用Faster R-CNN和RetinaNet与ResNet-50,SSD与VGG-16Cminor由Cminor更新:=Cminor−1。当C 小调达到0时,整个过程终止。由于图像可能包含来自多个微小类和β<1的实例,因此通过使用类间平衡过程获取的图像的数量不应超过预算b。因此,我们用剩余的未标记图像填充BLS,直到预算b用完。通过执行上面的过程,我们可以使平衡w.r.t.从各个类 的 实 例 的 数 量 , 并 最 终 增 加 类 间 的 多 样 性 。DivProto的详细信息总结在算法2中。5. 实验5.1. 实验设置数据集。我们在用于对象检测的两个基准上评估所提出的方法:MS COCO [19]和Pascal VOC [7,8]。MSCOCO有80个对象类别,118,287个图像用于训练,5,000个图像用于验证[19]。与[28]在处理大规模数据时类似,我们报告了20%,25%,30%,35%,40%的训练集的在每个采集周期,在检测器完全训练后,通过主动学习从其余未标记集合中采集总图像的5%(即5,914)用于注释。我们采用平均精度(AP)在IoU阈值范围从0.5到0.95作为评价指标。Pascal VOC包含20个对象类别,包括VOC 2007训练集、VOC 2012训练集和VOC 2007测试集。通过遵循设置[36],我们将具有16,511个图像的训练集组合为未标记图像,并随机选择1,000个图像作为初始标记子集。每个采购周期的预算固定为1,000。将0.5 IoU阈值下的平均精度(mAP)用作评估指标。实施详情。 我们为实例级设置T_enms和0.3。α和β设置为0.5和0.75,确保至少75%的预算分配给50%的类(少数类)。我们利用Faster R-CNN [23]和RetinaNet [18]以及ResNet-50 [12]和FPN [17]作为MSCOCO上的检测模型。在所有的主动学习周期中,我们用批量大小训练检测器12个epoch16.学习率初始化为0.02,并降低到在最大训练时期的2/3和8/9之后分别为0.002和0.0002在Pascal VOC上,我们采用[36]中的设置,使用SSD[20]和VGG-16 [27]作为基本检测器。对应方法。 我们和州政府做比较-最先进的方法。其中,核心价值观包括:[25][26][27][28][29][29][29]为了使核心集[25]适应检测任务,我们遵循学习损失[36]来对图像级特征执行k-中心贪婪。 关于 在CDAL [1]中,我们在softmax层之后的特征上应用强化学习策略。基于不确定性的方法包括学习损失[36]和MIAL [37]。我们遵循Learn Loss [36]添加了一个损失预测模块,以同时预测分类和回归损失。损失预测模块通过比较图像对进行训练,其经验表现优于均方误差[36]。由于损失预测会影响检测器训练,我们分别进行主动采集和检测器再训练,以进行公平比较。5.2. 实验结果在可可小姐身上。MS COCO上的比较结果总结于图中。第3(a)段。根据开源实现*,使用完整(100%)训练集构建的检测器实现了36.8%的AP,这可以被视为近似上限。正如所证明的,我们的方法始终达到最佳性能在所有主动学习周期,显示了优越性的提议收购策略。在最后一个周期中,40%的注释图像,我们的方法实现了32.87%的AP,在ENMS中的冗余去除,Tintra用于类内二-将类间多样性的versity和Tinter分别调整为0.5、0.7* 网址https://github.com/facebookresearch/maskrcnn-benchmark9403方法熵ENMSDivProto注释百分比百分之二十百分之二十五百分之三十百分之三十五百分之四十随机27.57±0.1828.97±0.1230.07±0.2430.99±0.1231.62±0.29✓27.57±0.1829.38±0.1330.61±0.1231.47±0.1732.36±0.07我们✓✓✓✓27.57±0.1827.57±0.1829.76±0.1629.73±0.1630.82±0.2330.64±0.1131.79±0.1531.86±0.0932.56±0.0932.53±0.14✓✓✓27.57±0.1829.78±0.0630.90±0.1431.99±0.0532.87±0.04表1.AP(%)通过使用MS COCO上的Faster R-CNN(ResNet-50)所提出的方法的不同组件 在应用各种主动采集策略的情况下,结果以5次试验的标准差报告αβAPAP50AP750.500.2530.6852.4831.930.500.5030.7452.9731.860.500.7530.9053.0832.010.501.0030.7953.0032.010.250.7530.7152.9031.630.750.7530.5852.6232.15表2.在MS COCO上使用Faster R-CNN(具有ResNet-50骨架)的30%循环的结果,具有各种α和β。AP50 (%) and AP75(%) refer to AP at the IoU thresholds 0.5 and 0.75, respectively.方法注释百分比百分之二十百分之二十五百分之三十百分之三十五百分之四十随机29.3831.0332.1033.1333.58熵29.3831.4832.5333.9834.12我们29.3831.7932.9534.1434.89表3.AP (% )使用MS COCO 上的Faster R-CNN(ResNet-101)比均匀随机抽样提高1.25%。基于不确定性的方法,即学习损失[36]和MIAL [37],提供与基本熵几乎相同的性能基于多样性的,即核心集[19]和CDAL [1],表现不佳,因为它们在空间池化后利用整体特征,而不聚合实例级信息。此外,我们报告的结果与小预算(不超过10%)以下MIAL [37]。与图3(b),我们的方法在这些设置中仍然优于对应的方法。虽然在如此小的预算下的检测性能不符合现实世界的应用水平,但与MIAL [37]相比的显著增益证明了其有效性。关于Pascal VOC 我们遵循与先前研究[1,36,37]中报告的相同设置和开源实现,其结果是所有(100%)训练图像的mAP为77.43%。如图3(b),我们的方法取得了更好的结果比其他同行之间的4 k到10 k周期。注意,我们的方法达到了73.68%†https://github.com/amdegroot/ssd.pytorchmAP仅使用7k图像。作为对比,CDAL [1]和MIAL [37]需要8k,而Learn Loss [36]需要10k,这表明我们的方法在节省注释方面具有优势事实上,我们的方法在2k和3k周期上没有更好的表现。这是因为检测器由于初始周期的训练不足而受到限制,并且无法区分不确定查询之间的差异。这促使我们在不同的主动学习期间,不确定性和多样性应该具有不同的权重,但是在增加复杂性的情况下,我们在这里不进一步。MIAL[37]在使用1k,2k和3k图像时实现了最佳性能。需要注意的是,MIAL对未标记的图像进行半监督学习,这对于比较来说是不公平的,特别是当标记的图像远远少于未标记的图像时。相反,我们的方法只关注主动学习,暂时不引入半监督5.3. 消融研究在ENMS和DivProto上。如表1所示,分别应用ENMS或DivProto的基线基于熵的方法(具有ResNet- 50的FasterR-CNN)优于仅使用均匀采样和熵的方法,通过确保实例级别的多样性显示出优越性。这两个模块的组合进一步提高了整体精度,表明图像内分集和图像间分集为性能改进提供了互补的分集DivProto中的超参数。α和β控制类的实例级平衡,这对类间多样性很重要。我们研究了这两个超参数在30%循环下对MS COCO的影响,其中使用了相同的如表2所示,我们的方法在α = 0时实现了最佳性能。5且β= 0。75. 在不同的脊椎上。为了评估主干对检测精度的影响,我们使用ResNet-101报告了Faster R-CNN的性能。如表3所示,ResNet-101通常可以提高性能,因为与ResNet-50相比,它是一个更强大的主干。我们的主动采集策略仍然持续优于随机均匀采样和基本9404方法推断收购满(s)CDAL [1]5,5992,7988,397UB1,6669.95×1079.96×107我们1,7021,0152,717表4.在20%周期下,在MS COCO上进行主动学习的时间成本比较“推断”是指对未标记图像的预测,而“采集”是指图像选择。UB表示原始实例级分集计算的上界。西兰花长颈鹿橙色绵羊斑马= 11.21图4.通过t-SNE在MS COCO上为6个类可视化原型。灰色点表示原型。顶部和底部的行是使用我们的方法和熵基线的结果。熵,显示其有效性与各种骨干。5.4. 分析计算复杂性。我们将多样性引入到基于不确定性的解决方案中,计算复杂度和时间成本相应增加。由于设计确保了实例级的多样性,我们通过将它们转换为用于对象检测的主动学习的所有三个步骤来减少大量计算,从而避免了显着的复杂性增加。表4报告了基于多样性的方法的时间成本,并在具有8个NVIDIA 1080TiGPU的服务器上进行了评估。如表4所示,当比较每个预测实例对(UB)时,时间成本是不可接受的,其中,由于每个图像通常包含多个对象,因此发生指数时间增加相比之下,我们提出的方法实现了实例级的多样性约束,通过渐进的框架,并显着降低了时间成本。此外,我们的方法比CDAL [1]花费更少的时间,因为它需要基于REINFORCE的模型训练。原型的可视化。我们定性地评估我们的方法,在亲-体型我们选择基本熵作为基线,并通过t-SNE [31]从MS COCO中可视化六个类别的原型。我们还相应地报告了标准差σ。如示于图4、DivProto得到的原型对整个未标记数据集更有代表性。此外,根据标准差,这些原型更加多样化。论阶级差异。利用MS COCO的主动采集子集,可以进行更多的评估。图5. MS COCO上80个类的实例量的标准差曲线。对活动采集子集进行统计。我们的方法。例如,如图1所示。5.计算了80个类的实例数量的标准差,分析了类间的差异。如图所示,所提出的ENMS和Di-vProto模块都降低了标准偏差,这表明与基本熵相比,它们在选择类别平衡的图像子集方面表现更好。ENMS和DivProto的组合进一步提高了整体性能,证实了我们的方法提高了类间多样性,并有助于为更强的检测器构建平衡的子集。6. 结论在本文中,我们提出了一种新的混合主动学习方法的目标检测,它结合了实例级的不确定性和多样性,在自底向上的方式。ENMS用于估计单个图像的实例级不确定性,而DivProto通过采用基于熵的类特定原型来增强类内和类间不确定性。在MS COCO和PascalVOC上的实验结果表明,我们的方法优于现有技术。确认本 研 究 得 到 了 国 家 自 然 科 学 基 金(No.62022011)、软件开发环境国家重点实验室研究计划(SKLSDE-2021 ZX-04)、中央高校基础研究基金等。= 13.38我们熵9405引用[1] Sharat Agarwal、Himanshu Arora、Saket Anand和ChetanArora。积极学习的情境多样性。在欧洲计算机视觉上,第137一二三五六七八[2] 乔丹·T Ash,Chicheng Zhang,Akshay Krishnamurthy,John Langford,and Alekh Agarwal.通过不同的、不确定的梯度下限进行深度批量主动在2020年国际学习表征会议上。一、二[3] 威 廉 ·H Beluch , TimGen e wein , AndreasNuürnberge r ,andJanM. 科勒河集成在行为学习图像分类中的作用在IEEE计算机视觉和模式识别会议上,第9368-9377页一、二[4] 克莱门斯-艾尔·亚历山大·布鲁斯特,克里斯托夫·卡丁,约阿希姆·登茨勒。深度目标检测的主动学习。在计算机视觉,成像和计算机图形理论与应用国际联合会议上,第181- 190页,2019年。3[5] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在欧洲计算机视觉会议上,第213-229页3[6] 放大图片作者:John W. Yang和S. Shankar Sastry 主 动 学 习 的 凸 优 化 框 架 。 在 IEEEInternational Conference on Computer Vision,第209-216页,2013年。一、二[7] Mark Everingham,S.M. 放大图片作者:Ali Eslami,Luc Van Gool,Christo- pher K.I.约翰·威廉姆斯温恩和安德鲁·齐瑟曼。pascal visual object classes挑战:回顾展。国际计算机目视,111(1):98-136,2015. 二、六[8] 放 大图 片 作 者: Mark Everingham , Luc Van Gool,Christopher K. I.约翰·威廉姆斯温恩和安德鲁·齐瑟曼。pas- cal visual object classes ( VOC ) 挑 战 。 Int. J.Comput.目视,88(2):303-338,2010. 二、六[9] Yarin Gal、Riashat Islam和Zoubin Ghahramani。基于图像数据的深度贝叶斯主动学习。在国际机器学习会议上,第1183-1192页,2017年。一、二[10] 罗 斯 湾 娘 娘 腔 。 快 速 R-CNN 。 在 IEEE InternationalConference on Computer Vision,第1440-1448页,2015中。3[11] 郭玉红。通过矩阵划分的活动实例采样。神经信息处理系统进展,第802-810页,2010年2[12] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在IEEE Conferenceon Computer Vision and Pattern Recognition,第770-778页一、三、六[13] 徐伟宁和林轩天。在学习中主动学习在AAAI人工智能会议上,第2659-2665页,2015年。二、五[14] Sheng-Jun Huang,Rong Jin,and Zhi-Hua Zhou.通过查询信息丰富和有代表性的示例进行主动学习。IEEE传输模式分析马赫内特尔,36(10):19362[15] AjayJ.Joshi ,DahhPorikli,andNikolaosPapanikolopou- los.图像分类的多类主动学习。在IEEE计算机视觉和模式识别会议,第2372-2379页,2009年。一、二[16] 高杰琦、李登育、森普拉迪普、刘明宇。用于对象检测的定位感知主动学习。在亚洲计算机视觉会议上,第506-522页,2018年。3[17] 放 大 图 片 作 者 : 林 宗 毅 , 彼 得 · 多 尔 , 罗 斯 ·B.Girshick,KaimingHe,Bharath Hariharan,and Serge J.贝隆吉用于对象检测的特征金字塔网络。IEEE计算机视觉和模式识别,第936-944页,2017年6[18] 放 大 图 片 创 作 者 : 林 宗 毅 , Priya Goyal , Ross B.Girshick,Kaiming He,andP i otrDoll a'r. 密集目 标 检测 的 焦面损失。在IEEE计算机视觉国际会议上,第2999-3007页,2017年。三、六[19] 作者:Michael
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功