没有合适的资源?快使用搜索试试~ 我知道了~
弱监督区域建议网络与目标检测唐鹏1、王兴刚1、王昂天1、严永銮1、刘文宇1()、黄俊洲2、 3、Alan Yuille41华中科技大学启德学院,武汉,中国{pengtang,xgwang,angtianwang,yongluanyan,liuwy}@ hust.edu.cn2腾讯人工智能实验室,中国深圳3德克萨斯大学阿灵顿分校CSE系,美国阿灵顿jzhuang75@gmail.com4美国巴尔的摩约翰霍普金斯大学计算机科学系alan.l. gmail.com抽象。提出了一种基于卷积神经网络(CNN)的区域建议生成方法(即基于卷积神经网络的区域建议生成方法)。区域建议网络)是现代完全监督对象检测器中的必要组成部分。然而,弱监督对象检测(WSOD)由于没有边界框注释而没有从基于CNN的提议生成中受益,并且依赖于标准提议生成方法,例如选择性搜索。在本文中,我们提出了一个弱监督的区域建议网络,该网络仅使用图像级注释进行训练弱监督区域建议网络由两个阶段组成。第一阶段通过利用CNN中的低级信息来评估滑动窗口框我们提出的区域建议网络适用于WSOD,可以很容易地插入到WSOD网络中,并且可以与WSOD网络共享其卷积计算。在PASCAL VOC和ImageNet检测数据集上的实验表明,我们的方法实现了WSOD的最先进性能,平均性能增益约为3%。关键词:目标检测,区域建议,弱监督学习,卷积神经网络1介绍卷积神经网络(CNN)[22,24]与具有详细边界框注释的大规模数据集[14,26,32]相结合,为对象检测[15,16,30,37,43]带来了巨大的飞跃然而,收集边界框注释是相比之下,仅具有指示图像是否属于对象类的图像级注释的图像更容易获取(例如,使用关键字搜索2P. Tang等人区域建议网络012CPGPRWSOD我Conv了图1.一、以上两项工作将构成一个历史性的过程。"我":输入我的数据;“P0”:该初始方案通过以下方式列出,“P1”:两个工作的第一个部分“P2”的前序:以下是两个工作“D”的生态条件测试的前题:确定结果“C o n v”:通常情况下,“C P G”:coa rs e prop os a l g e n e rat ion,"P R":prop o s al re fine me n t,"W S O D":我们的客户支持服务受到限制在互联网上)。受这一事实的启发,在本文中,我们专注于训练对象检测器,只有图像级的监督,即,弱监督目标检测(WSOD)。WSOD最流行的流水线有三个主要步骤[4,5,9,12,20,21,25、34、38、39、42]:区域提议生成(简称为提议生成),以生成可以覆盖对象的一组候选框;提议特征提取,以从这些提议中提取特征;以及提议分类,以将每个提议分类为对象类或背景。各种研究都集中在提出更好的建议分类方法[4,9,41,42]。最近,一些方法已经联合训练了最后两个步骤,并取得了很大的改进[5,21,38,39]。但以往的研究大多只采用标准方法,如:选择性搜索[40]和边缘框[46],以生成建议。以前的工作[17]已经表明,建议的质量对完全监督的对象检测的性能有很大的影响(即,使用边界框注释进行训练)。此外,基于CNN的区域建议生成方法(即,区域提议网络)[30]是最先进的全监督对象检测器中的重要组成部分。这些促使我们改进建议生成方法,特别是提出基于CNN的WSOD方法。在本文中,我们专注于WSOD的提案生成,并提出了一种新的弱监督区域提案网络,该网络通过在弱监督下训练的CNN生成提案由于没有边界框注释,我们无法像Faster RCNN [30]那样端到端地训练区域建议网络。相反,我们将建议网络分解为两个阶段,其中第一阶段是粗略建议生成,其从与两个块P0(|均 p0|>>|P1|),而选择性数据是一种改进建议P1以生成更准确的建议P2(|P1|>>|P2|)的情况。将预存的P2发送到WSOD网络中,以预存检测结果D。此外,提案网络和WSOD网络被集成到一个三级网络中,见图1。1.一、弱监督区域建议网络与目标检测3图像Conv1 Conv2 Conv3 Conv4 Conv5 Fusion图二、来自VGG16 [36]网络的不同卷积层的响应仅使用图像级注释在ImageNet [32]数据集结果从左到右分别是原始图像、第一层到第五层的响应以及第二层到第四层我们的方法的第一阶段是出于直觉,即为对象识别训练的CNN例如,如图2所示2,早期的卷积层集中在低级视觉特征上(例如边缘)并且后面的层集中于更多的语义特征(例如,对象本身)。由于第一和第五卷积层在许多非边缘区域上也具有高响应,因此我们仅利用第二到第四卷积层的低级信息来产生边缘状响应,如图所示。二、更具体地,在从滑动窗口框的穷举集合生成初始建议P〇之后,这些边缘状响应被用于评估建议P〇的对象性分数(即,一个建议是一个对象的概率),遵循[46]。然后我们得到了相应的建议P1。然而,上面生成的建议仍然非常粗糙,因为早期的卷积层也会对背景区域产生影响。为了解决这个问题,我们在第二阶段中改进了P1我们使用P1训练了一个基于区域的CNN分类器,这是一个小型WSOD网络[38],并调整网络以区分P1是对象还是背景区域,而不是检测对象。使用分类器重新评估Pl中的提案的客观性分数具有高客观性分数的建议更有可能是对象,这产生了改进的建议P2。我们不直接在滑动窗口框上使用基于区域的CNN分类器,因为这需要大量的滑动窗口框来确保高召回率,并且基于区域的分类器很难实现。CNN分类器可以有效地处理如此大量的盒子建议P2用于训练第三级WSOD网络以产生检测结果D.为了使WSOD的建议生成高效,我们采用了Faster RCNN [30]中的交替训练策略,将建议网络和WSOD网络集成到单个网络中。更准确地说,我们交替训练建议网络和WSOD网络,并在两个网络之间共享卷积特征在此基础上,将建议生成和WSOD的卷积计算进行了共享,提高了计算效率。4P. Tang等人在具有挑战性的PASCAL VOC [14]和ImageNet [32]检测数据集上进行了详细的实验我们的方法在所有这些数据集上获得了最先进的性能,例如50块4%mAP和68. PASCAL VOC 2007数据集上的CorLoc为4%,超过先前最佳性能方法3%以上综上所述,我们的主要工作贡献如下。– 我们确认CNN包含潜在的对象位置信息,我们利用它来生成WSOD的建议。– 我们提出了一个两阶段的区域建议网络,用于WSOD中的建议生成,其中第一阶段利用早期卷积层的低级信息来生成建议,第二阶段是基于区域的CNN分类器,用于改进第一阶段的建议。– 我们采用交替训练策略[30]在建议网络和WSOD网络之间共享卷积计算以测试效率,因此建议网络和WSOD网络被集成到单个网络中。– 我们的方法在WSOD的PASCAL VOC和ImageNet检测数据集上获得了最先进的性能2相关工作弱监督对象检测/定位。 WSOD近年来引起了极大的关注[4、5、9、12、20、21、34、38、39、41、42]。大多数方法采用三步流水线:建议生成、建议特征提取和建议分类。基于该流水线,已经引入了许多变体来给出更好的建议分类,例如,基于多实例学习的方法[4,9,34,39,42]。最近,受CNN的巨大成功的启发,许多方法通过集成最后两个步骤(即:建议特征提取和建议分类)到单个网络中[5,12,21,38]。这些网络显示出更有前途的结果比一步一步的。然而,这些方法中的大多数使用现成的方法[40,46]用于建议生成步骤。与他们不同的是,我们提出了一个更好的建议生成方法WSOD。更具体地说,我们提出了一个弱监督区域建议网络,它通过在弱监督下训练的CNN生成对象建议,并将建议网络和WSOD网络集成这与Diba等人的工作有关。[12]他们提出了一个级联卷积网络来选择一些最可靠的WSOD建议。他们首先通过边缘框[46]生成一组建议,然后根据[44]的类激活图或[2]的分割图这些选择的建议用于训练多个实例学习分类器。与它们不同的是,我们使用CNN来生成建议,并使用基于区域的CNN分类器来改进建议事实上,他们的网络可以用作我们的WSOD网络。最近,一些研究显示了类似的直觉,即在弱监督下训练的CNN包含对象位置信息,并试图定位对象。弱监督区域建议网络与目标检测5[10][18][27][35][44]例如,Oquabet al.[27]训练基于最大池化的多实例学习网络以定位对象。但是它们只能给出与物体大小和长宽比无关的物体的粗略位置。[10,35,44,45]中的方法通过首先生成对象得分热图然后在高响应区域周围放置边界框来定位对象。然而,他们主要在ImageNet本地化数据集上测试他们的方法,该数据集包含大部分图标对象图像(即位于图像中心的单个大对象考虑到自然图像(例如PASCAL VOC中的图像)包含位于图像中任何位置的几个不同对象,与基于提议的方法[5,12,21,38]相比,这些方法的性能可能受到限制。Zhu等[45]还提出了一种用于弱监督对象定位软建议方法。他们使用一种基于图形的方法来生成一个对象映射,该映射指示映射上的每个点是否属于一个对象。然而,该方法不能获得“真实”的结果,即。例如,生成一个对象,其内容与图像中的单个对象一样我们的方法与这些方法的不同之处在于,我们使用CNN生成一组建议,这些建议可能紧密地覆盖对象(即,与地面实况对象框具有较高的Intersection-over-Union),并在复杂图像中使用WSOD此外,所有这些方法都专注于包含更多语义信息的后期卷积层,而我们的方法利用了早期层的低级信息。区域提案生成。有许多工作集中在区域提案生成[6,29,40,46],其中选择性搜索(SS)[40]和边缘框(EB)[46]是WSOD的两种最常用的提案生成方法SS基于超像素合并方法生成建议EB通过首先提取图像边缘,然后评估滑动窗口框的对象性得分来我们的方法遵循EB的客观性评分评价在第一阶段。但与EB不同,EB采用在具有像素级边缘注释的数据集上训练的边缘检测器[13]来确保高的建议召回率,我们利用CNN中的低级信息来生成边缘状响应,并使用基于区域的CNN分类器来细化建议。实验结果表明,该方法获得了更好的WSOD性能。已经有一些基于CNN的提案生成方法[23,28,30]。例如,区域建议网络(RPN)[30]使用边界框注释作为监督来训练建议网络,其中训练目标是对一些滑动窗口样式的框(即锚框)作为对象或背景,并将框位置回归到真实对象位置。这些类似RPN的建议是最近完全监督对象检测器的标准。然而,为了确保其高性能,这些方法需要边界框注释[23,31]甚至像素级注释[28]来训练其网络,这偏离了WSOD的要求,即在训练期间仅可使用图像级注释。相反,我们表明,在弱监督下训练的CNN有可能产生非常令人满意的建议。他人[3,33]的工作还表明,不同的CNN层包含不同层次的视觉信息。与我们的方法不同,Bertasiusetal.[3]目标6P. Tang等人n阶段1:粗略建议生成01客观性评分评价B1n第二阶段:提案细化o1n2保险丝3 × 3 × 512 256-d256-dfI,bRoI池FCFC 1n h o 1n,I,b1no1nB2n阶段3:弱监督对象检测Conv1Conv2Conv3Conv4Conv5RoI池FC FC FC7 × 7 × 512 4096-d4096-d检测评分我检测结果了图3.第三章。这两项工作的最终结果。第一个分类“成本节约成本”包含了一些成本 节 约 的 成 本 , 其 中 , 成 本 节 约 成 本 可 能 会 影 响 到 以 下 两 个 数 据 库 P 0 和 P 1 的 核 心。 定义“Prop os alRe fine- m e - m e n t”使用基于小区域的C NN 类来独立地评估P1中的Chp p os al的可能核心,并将其转换为P2中的Refine p os al。第三分类“Weakly Supervised ObjectDetecti〇 n”使用基于区域的C NN分类器将P2中的对象分类为不同对象类别或背景,以产生对象检测结果。方案Pt,t∈ {0,1,2}由盒{bt}Nt组成和客观性得分{ot}Ntn n=0n =0融合来自不同层的信息以用于更好的边缘检测,这需要像素级边缘注释用于训练。Saleh等人[33]选择更多语义层(即,后层)作为前景先验来指导弱监督语义分割的训练,而我们表明,低级别的线索可以用于建议生成。3方法我们的网络架构如图所示1和图3 .第三章。我们的架构包括三个阶段,在测试过程中,其中第一和第二阶段是区域建议网络的建议生成和第三阶段是WSOD网络的对象检测。对于图像I,给定作为滑动窗口框的穷举集合的初始提议P0,粗略提议生成阶段从P0生成一些粗略提议P1,参见第3.1节。提案细化阶段细化提案P1以生成更准确的提案P2,参见3.2节。WSOD阶段对建议P2进行分类以产生检测结果,参见3.3节.建议书由边界框和客观性分数,即,Pt={(bt,ot)}Nt,t∈ {0, 1, 2},其中bt和ot是nnn =1nn框坐标和第n个提议的对象性得分。0= 1,n ∈ {1,…, N0}因为我们事 先 不知道O弱监督区域建议网络与目标检测7因此,我们认为所有初始建议覆盖对象的概率相等。为了在不同阶段之间共享conv参数,我们使用交替训练策略,参见第3.4节。3.1粗略建议生成如果p ={(b 0,o0)}N0,则在p={(b0,o0)}N0的情况下图像I是详尽的nnn =1一组具有各种尺寸和纵横比的滑动窗口框,连同为了确定图像的conv特征,粗略建议生成阶段粗略地评估这些建议的对象性分数,并且过滤掉对应于背景的大多数这个阶段需要非常高效,因为初始提案的数量通常非常大(数十万甚至数百万)。在这里,我们利用低级信息,更具体地说,来自CNN的边缘状信息用于该阶段。让我们从图开始。二、这可视化了在ImageNet分类数据集上训练的VGG16网络[36]的其他网络也有类似的结果,也可以选择作为替代方案。特别地,我们通过网络向前传递图像,并计算每个conv层的通道维度的平均值,以获得五个响应图(因为有五个conv层)。 然后将这些图调整为原始图像大小,并可视化为图2中的第二至第六列。二、正如我们所看到的,早期的层在底层视觉特征(如边缘)上启动。相比之下,后面的层倾向于响应更多的语义特征,例如对象或对象部分,并且来自这些层的响应图类似于显着图。显然,这些响应图为定位对象提供了有用的信息。在这里,我们建议利用第二层到第四层来产生用于提案生成的边缘状响应图,如图所示。3 .第三章。更具体地,假设来自卷积层的输出特征图是F∈RC×W×H,其中C、W、H分别是特征图的通道数、权重和高度。然后通过方程(1)得到该层的响应图R∈RW×H其首先计算通道上的平均值,然后进行归一化,其中f_cwh和r_wh分别是F和R中的元素rwh= 1摄氏度fcwh,rwh←rwh.(一)Cc=1最大rw′h′w′,h′正如我们可以看到的图。在图2中,第二至第四conv层都在边缘上具有高响应,而在图像的其他部分上具有相对低的响应。因此,我们首先将第二个到第四个conv层的响应映射调整为原始图像大小并将其求和,参见图7中的第7列。2为例。相应地,我们获得了边缘状响应图。我们不选择第一个和第五个conv层的响应映射,因为前者在大多数图像区域上具有高响应,而后者倾向于对整个物体而不是边缘开火8P. Tang等人nn在获得类似边缘的响应图之后,我们通过使用边缘框(EB)[46]来计算每个初始提案中存在的边缘的数量来评估初始提案P0的对象性更确切地说,我们遵循EB中的策略来生成P0,评估对象性得分,并执行非最大抑制(NMS),因此该阶段与边缘框一样有效。最后,我们根据评估的客观分数对提案进行排名,并选择具有最高客观分数的N1(N1N0)个提案<因此我们得到了第一个问题P_1={(b_1,o_1)}N_ 1。nnn =1事实上,对数据进行映射的几何相似性并不是“真正”的几何相似性由完全监督的边缘检测器生成的边缘感[13]。因此,直接使用EB可能不是最佳的。我们怀疑,这一阶段可以通过设计更复杂的建议生成方法,考虑边缘样的响应图的特点此外,来自其他层的响应也可以用作定位对象的线索,例如使用基于显着性的方法[1]。探索这些变量留给未来的工作,在本文中,我们表明,我们的简单的方法是足以产生令人满意的建议,为以下阶段。在该阶段中不需要直接损耗,并且可以选择任何训练的网络3.2提案细化由粗略提议生成阶段生成的提议仍然非常嘈杂,因为在边缘状响应图的背景区域上也存在高响应。为了解决这个问题,我们使用基于区域的CNN分类器来重新评估对象分数,如图所示1和图3 .第三章。假设pp={(bl,o1)}N1从第一个数据库和第二个数据库nnn =1图像的特征,建议细化阶段的任务是计算可以使用基于区域的CNN来实现所有块x块1转换nclassifief(I,b1),以评估bj ej ees cor e ess1.Σ=h〇1,f(I,bl),和d无无无无无无无拒绝分数低的提案。为此,我们首先提取b1的卷积特征映射,并使用RoIpollgmethod[15]将其重新大小为512 × 3 × 3。 之后,我们通过两个256维全连接(FC)层传递卷积特征图以获得对象提议特征向量。最后,使用FC层和softmax层来区分提议是对象还是背景(我们省略图1中的softmax层)3为简化)。因此我们得到p~1={(b~ 1,o~1)}N~ 1其中,每个值都可以被定义为s c或e o~1。nnn =1N他使用一个简单的多点并行计算将h(·,·)计算为Eq中的。 (二)、1 .一、 11 Σ11o~n=hon,f(I,bn)=on·f(I,bn)。(二)还有其他可能的选择,如加法,但我们发现乘法在实验中效果很好。为了得到最终的建议,我们可以简单地根据对象的大小对建议进行排序,并选择具有对象的大小的部分建议。但是,如果您不想使用这些资源,请使用以下资源:e. 在P~1中,高覆盖率(p = 0)。这是-为此,我们在P~1上应用NMS,并将pN2与最高节点一起保存s c或e s。通过计算,我们得到了一个新的精确算法P2={(b2,o2)}N2。nnn =1弱监督区域建议网络与目标检测9nNKnnnn为了仅使用图像级注释来训练网络,我们在[38]中训练了给定的对象的状态WSODN网络,并将网络调整为计算f(I,bl)而不是检测对象。[38]中的网络具有由图像分类损失训练的多实例学习流,以及一些实例分类器细化流,其鼓励空间相邻建议之间的类别一致性。在第二阶段网络中训练网络的损失具有L2(I, y,P1; Θ2)的形式,其中y是图像级注释,Θ2表示网络的参数详情请参阅[38]其他WSOD网络[5,12,21]也可以选择作为替代。特别是输出的pro posalboxb1by[3 8]是prob bi i ityvect或p1=[p1,…p1],其中p1nn n是背景,p> 1,k >0是第k个对象类,K是数字作为服务的对象。我们将此资源分配给位于B1的资源库覆盖anobjectbyf(I,b1)=1−p1=ΣKnp1.我们使用的网络比n n0k=1nk[38]中的原始网络,以确保效率。3.3弱监督目标检测最后阶段,即WSOD将建议P2分类为不同的对象类或背景。这是我们的最终目标。与前一阶段类似,我们使用基于区域的CNN进行分类,见图1。3 .第三章。假设P2={(b2,o2)}N2从电子数据存储和计算机nnn =1图像的特征提取采用了512 × 7 × 7的原始图像和2个4096维的FC层。然后,将{K+1}维的F_(Cl)层用于将b2视为K个对象类或背景中的一个。最后,NMS用于去除冗余检测框并产生对象检测结果。本文还对文献[38]中给出的WSOD网络进行了训练,并作了一些改进。然后训练第三级网络的损失具有L3(I, y,P2; Θ3)的形式,其中Θ3表示网络的参数。在[38]中,多实例检测流和实例分类器细化流两者都是可预测的。假设来自多实例检测流的建议分类概率向量为n,则类似于[5],我们将n乘以对象性氧分压在训练期间利用现有对象/背景知识从客观性得分来看。更多的改进描述在手册材料中。我们使用[38]中的原始版本网络,而不是第3.2节中的较小版本,以获得更好的检测性能。3.4全面网络培训如果我们不在不同阶段之间共享conv层的参数,则每个建议生成阶段和WSOD阶段具有其自己的单独网络。假设Mpre、M1、M2和M分别是ImageNet预训练网络、第一阶段的提案网络、第二阶段的提案网络和第三阶段的WSOD网络,我们训练ImageNet预训练网络。10P. Tang等人算法1建议网络训练输入:使用该图像级别的神经网络进行图像传输;一个独立的CNN网络工作。输出:建议网络M1,M2;建议P2.1:一般情况下,通过Minit,可以为一个内存和一个初始化Mini zeMinit提供P 0。2:使用P0和M1为每个图像生成建议P1。3:将该预处理器发送到任务M2和MinitusingP 1。4:使用P1和M2为每个图像生成P 2。算法2交替网络训练输入:使用此映像级别的网络节点传输映像;Mpre。输出:建议网络M1,M2; WSOD网络M.1:在M上对M1、M2进行迭代,并且针对一个图像对P2进行常规迭代,参见算法1。2:TrainWSODnetwor kM′onMpreusingP2.3:在M’上重新训练建议网络M1、M2,固定conv层的参数,并为每个图像重新生成建议P2,参见算法1。4:使用P2在M’上重新训练WSOD网络M,并固定卷积层的参数。建议网络和WSOD网络,因为在我们的架构中,每个网络都需要从其先前的网络生成的输出进行训练。也就是说,我们先用Mpre初始化M1并生成P1,然后用P1训练M2并生成P2,最后用P2训练M虽然我们可以在不同的阶段使用不同的网络,但这在测试过程中非常耗时,因为它需要通过三个不同的网络传递图像。因此,我们采用Faster RCNN [30]中的交替网络训练策略,以便在所有阶段之间共享conv层的参数也就是说,在训练单独的网络M1、M2和M之后,我们在M上重新训练建议网络M1和M2,固定conv层的参数。然后,我们生成在M上训练WSOD网络的建议,同时固定conv层的参数。因此,共享所有级我们在算法2中总结了该过程。很明显,共享方法比非共享方法更有效,因为它只计算一次而不是三次卷积特征。4实验在本节中,我们将给出实验来分析我们的方法的不同组成部分,并将我们的方法与以前的技术水平进行4.1实验设置数据集和评估指标。我们选择具有挑战性的PASCAL VOC 2007,2012 [14]和ImageNet [32]检测数据集进行评估。我们只使用图像级注释进行训练。弱监督区域建议网络与目标检测11表1.PASCAL VOC 2007测试集上不同方法的结果比较(AP和mAP,%)上/下部分为单/多模型结果。我们的方法获得了最好的mAP。有关基于Ours的方法的定义,请参见第4.2方法Aero 自行车鸟船瓶总线车猫 椅子牛表狗 马姆比凯人 植物羊沙发火车电视地图WSDDN-VGG1639.4 50.1 31.5 16.312.664.5 42.8 42.6 10.1 35.7 24.9 38.2 34.455.69.414.730.2 40.7 54.7 46.9 34.8WSDDN+context [21]57.1 52.0 31.57.611.555.0 53.1 34.11.733.1 49.2 42.0 47.356.615.312.824.8 48.9 44.4 47.8 36.3OICR-VGG16 [38]58.0 62.4 31.1 19.4 13.065.1 62.2 28.4 24.8 44.7 30.6 25.3 37.865.515.724.141.7 46.9 六十四点三62.6 41.2我们的-VGG 1657.9 70.5 37.8 5.721.0 66.1 69.2 59.4 3.4 57.1 57.3 35.2 64.2 68.632.8 28.6 50.8 49.5 41.1 30.0 45.3WSDDN-Ens。[五]《中国日报》46.4 58.3 35.5 25.914.066.7 53.0 39.28.941.8 26.6 38.6 44.759.010.817.340.7 49.6 56.9 50.8 39.3OM+MIL+FRCNN [25]54.5 47.4 41.3 20.817.751.9 63.5 46.1 21.8 57.1 22.1 34.4 50.561.816.229.9 40.7 15.9 55.3 40.2 39.5WCCN [12]49.5 60.6 38.6 29.2 16.2 70.8 56.9 42.5 10.9 44.1 29.9 42.2 47.964.113.823.545.9 54.1 60.8 54.5 42.8HCP+DSD+OSSH3 [20]54.2 52.0 35.2 25.915.059.6 67.9 58.7 10.1 67.4 27.3 37.8 54.867.35.119.752.6 43.5 56.9 62.5 43.7OICR-Ens.+ FRCNN [38]65.5 67.2 47.2 21.622.168.0 68.5 35.95.763.1 49.5 30.3 64.766.113.025.650.0 57.1 60.2 59.0 47.0我们的60.3 66.2 45.0 19.626.668.1 68.4 49.48.056.9 55.0 33.6 62.568.220.629.049.0 54.1 58.8 58.4 47.9Ours-Ens.+ FRCNN63.0 69.7 40.8 11.6 27.7 70.5 74.1 58.5 10.0 66.7 60.6 34.7 75.7 70.325.726.5 55.4 56.4 55.5 54.9 50.4PASCAL VOC 2007和2012中分别有20个对象类的9,962和22,531个图像。数据集分为训练集、验证集和测试集。在[5,21,38]之后,我们在trainval集合上训练我们的网络。为了进行评估,平均精度(AP)和AP的平均值(mAP)[14]用于在测试集上评估我们的网络;正确定位(CorLoc)[11]用于评估trainval集上的定位精度。ImageNet检测数据集中有200个对象类的数十万张图像,该数据集分为训练集、验证集和测试集。在[16]之后,我们将val集分为val1和val2集,从训练集(train1k集)中随机选择不超过1000个图像,将train1k和val1集组合起来进行训练,并在val2集上报告mAP。实 施 详 情 。 我 们 选 择 在 ImageNet 分 类 数 据 集 [32] 上 预 训 练 的VGG16网络[ 36 ]作为第3.4节中的初始CNN网络Mpre。第3.2节中的两个256维FC层通过对原始VGG16网络中的FC参数的参数进行子采样来初始化,遵循[8]。 其他新添加的层通过从平均值为0且标准偏差为0的高斯分布采样来初始化。01.在训练过程中,我们选择随机梯度下降,并将PASCAL VOC和ImageNet的batchsize分别设置为2和32 我们分别为PSACAL VOC 2007、2012和ImageNet数据集训练每个网络50K、80K和20K次迭代,其中学习率为0。001,以及0. 0001对于其他迭代。我们将动量和权重衰减设置为0。九比零。0005分别。如第3.2节和第3.3节所述,我们选择了Tang等人提出的性能最好的WSOD网络。[38]对于区域分类,也可以选择其他WSOD我们在训练和测试期间使用五个图像尺度{480, 576, 688, 864, 1024}以及水平翻转进行数据增强,并使用我们的方法的最高得分建议训练FastRCNN(FRCNN)[15]作为伪地面事实[12,25,38]。对于FRCNN训练,我们还通过FRCNN网络在算法2的第二行和第四行中使用我们的前向算法k来充分地重新执行“W S O D N t w or k”。 其他超参数如下:来自网络的第一级的提议的数量被设置为10K(即,N1=10K),来自第二阶段的提案数量12P. Tang等人表2.PASCAL VOC 2007训练集上不同方法之间的结果比较(CorLoc %)上/下部分为单/多模型结果。我们的方法获得了CorLoc的最佳均值。有关基于Ours的方法的定义,请参见第4.2方法Aero 自行车鸟船瓶总线车猫 椅子 牛表狗马姆比凯人植物羊沙发 火车电视是说WSDDN-VGG1665.1 58.8 58.5 33.139.868.3 60.2 59.6 34.8 64.5 30.5 43.0 56.882.425.541.661.5 55.9 65.9 63.7 53.5WSDDN+context [21]83.3 68.6 54.7 23.418.373.6 74.1 54.18.665.1 47.1 59.5 67.083.535.339.967.0 49.7 63.5 65.2 55.1OICR-VGG16 [38]81.7 80.4 48.7 49.5 32.8 81.7 85.4 40.1 40.6 79.5 35.7 33.7 60.588.821.857.976.3 59.9 75.3 81.4 60.6SP-VGG16 [45]85.3 64.2 67.0 42.016.471.0 64.7 88.7 20.7 63.8 58.0 84.1 84.780.060.029.456.3六十八点一77.4 30.5 60.6我们的-VGG 1677.5 81.2 55.3 19.7 44.3 80.2 86.6 69.5 10.1 87.7 68.4 52.1 84.4 91.657.463.4 77.3 58.1 57.0 53.8 63.8OM+MIL+FRCNN [25]78.2 67.1 61.8 38.136.161.8 78.8 55.2 28.5 68.8 18.5 49.2 64.173.521.447.464.6 22.3 60.9 52.3 52.4WSDDN-Ens。[五]《中国日报》68.9 68.7 65.2 42.540.672.6 75.2 53.7 29.7 68.1 33.5 45.6 65.986.127.544.976.0 62.4 66.3 66.8 58.0WCCN [12]83.9 72.8 64.5 44.140.165.7 82.5 58.9 33.7 72.5 25.6 53.7 67.477.426.849.168.1 27.9 64.5 55.7 56.7HCP+DSD+OSSH3 [20]72.7 55.3 53.0 27.835.268.6 81.9 60.7 11.6 71.6 29.7 54.3 64.388.222.253.772.2 52.6 68.9 75.5 56.1OICR-Ens.+ FRCNN [38]八十五点八82.7 62.8 45.2 43.5 84.8 87.0 46.8 15.7 82.2 51.0 45.6 83.791.222.259.775.3 65.1 76.8 78.1 64.3我们的81.2 81.2 60.7 36.752.380.7 89.0 65.1 20.5 86.3 61.6 49.5 86.492.441.462.6 79.4 62.4 73.0 75.6 66.9Ours-Ens.+ FRCNN83.8 82.7 60.7 35.1 53.8 82.7 88.6 67.4 22.0 86.3 68.8 50.9 90.8 93.644.061.2 82.5 65.9 71.1 76.7 68.4表3. PAS- CAL VOC 2012数据集上不同方 法 的 结 果 比 较 ( mAP 和 Cor-Loc,%)我们的方法获得了最好的mAP和CorLoc表4. 结果比较(mAP in%)。我们的方法获得了最好的mAP方法地图CorLocWSDDN+context [21]35.3 54.8WCCN [12]37.9-HCP+DSD+OSSH3 [20]38.3 58.8OICR-Ens.+ FRCNN [38]42.5 65.6我们的-VGG 1640.864.9Ours-VGG16-Ens.43.467.2Ours-VGG16-Ens.+FRCNN45.769.3方法结果Wang等人[41个]6.0OM+MIL+FRCNN [25]10.8WCCN [12]16.3我们的-VGG 1618.5网络被设置为2K(即, N2 = 2K),其与选择性搜索[40]的规模相同,并且三个阶段的NMS阈值被设置为0。九比零。75、0。3所示。我们只报告共享conv特性的方法的结果,因为共享和非共享方法之间没有性能差异。我们所有的实验都是在NIVDIA GTX 1080Ti GPU上进行的,使用Caffe [19]深度学习框架。4.2实验结果我们的方法和其他方法对PAS-CAL VOC数据集的结果比较如表1、表2和表3所示。正如我们所看到的,使用我们的建议(表中的Ours-VGG16),我们获得了比使用单个模型的其他方法更好的性能[5,21,38],特别是OICR-VGG 16方法[38],这是我们的WSOD网络。遵循通过模型集成或训练FRCNN [5,12,20,38]组合多个模型的其他方法,我们还对我们的建议结果和模型集成进行了分析。弱监督区域建议网络与目标检测13300个提案11000个提案12000个候选区10.80.80.80.60.60.60.40.40.40.20.20.200.50.60.7 0.8 0.91IOU00.50.60.7 0.8 0.91IOU00.50.60.7 0.8 0.9 1IOU图4.第一章召回vs.VOC 2007测试集上不同建议方法的IoU我们的方法优于除RPN [30]之外的所有方法,RPN [ 30 ]使用边界框注释进行训练选择性搜索建议结果(Ours-VGG 16-Ens.在表格中)。如表所示,性能提高了很多,这表明我们的建议和选择性搜索建议在某种程度上是互补的我们还使用Ours-VGG 16-Ens中得分最高的建议来训练FRCNN网络作为伪标记(Ours-VGG 16-Ens.+表中的FRCNN)。很明显,结果得到了进一步的提升。重要的是,我们的结果优于最先进的无命题方法的结果(即在没有建议的情况下定位对象)[45],这证实了基于建议的方法可以在复杂图像中更好地定位对象。补充材料中载有一些定性结果。我们还在表4中报告了ImageNet检测数据集上的Ours-VGG 16结果。使用单一模型已经优于所有以前的最先进技术[12,25,41]。相信,我们的结果可以通过组合多个模型来进一步改进。4.3消融实验我们在PASCAL VOC 2007数据集上进行了一些消融实验,以分析我们的方法的不同组成部分,包括建议召回,不同建议方法的检测结果,以及建议细化的影响。更多烧蚀实验请参见补充资料。建议召回。我们首先使用groundtruth框计算不同IoU阈值下的建议召回率。尽管IoU召回度量与检测结果[7,17]松散相关,但它可以给出可靠的结果来诊断提案是否很好地覆盖了所需类别的对象[30]。图4,我们观察到我们的方法比IoU 0.9的选择性搜索(SS)和边缘框(EB)方法获得更高的召回率,特别是当提议的数量很小时(例如300项提案)。这是因为我们的基于区域的分类器改进了propos- als。地区提案网络(RPN)的召回并不奇怪
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功