没有合适的资源?快使用搜索试试~ 我知道了~
9834C-MIDN:带分割指导的高艳1,2,*,刘博晓1,2,*,南郭1,2,叶晓春1,2,方婉2,游海航1,2,范东瑞1,2,†1中国科学院计算技术研究所计算机体系结构国家重点实验室,北京2中国科学院大学,中国{高燕,刘博晓,郭楠,叶晓春,游海航,范先生}@ ict.ac.cn,wanfang13@mails.ucas.ac.cn摘要弱监督目标检测(WSOD)是一种只需要图像级标注的目标检测方法,近年来得到了广泛的关注。多实例 检 测 网 络 ( Multiple Instance Detection Network ,MIDN)将卷积神经网络与多实例学习方法相结合,已成为解决WSOD问题最流行的方法,并被许多工作采用作为初始模型。我们认为,MIDN倾向于收敛到最具歧视性的对象部分,这限制了基于它的方法的性能在本文中,我们提出了一种新的耦合多实例检测网络(C-MIDN)来解决这个问题。具体来说,我们使用一对MIDN,它的工作在一个互补的方式与建议删除。MIDN的定位信息被进一步耦合以获得更紧密的边界框并定位多个对象。我们还引入了一个分段引导的建议删除(SGPR)算法,以保证删除后的MIL约束通过一个简单的实现C-MIDN与在线检测器细化,我们获得了53.6%和50.3%的mAP上的挑战PASCAL VOC 2007年和2012年的基准,这显着优于以前的国家的最先进的。1. 介绍卷积神经网络(CNN)[18]的最新发展帮助对象检测实现了卓越的性能[13,23,22,20]。然而,为了训练这样的对象*同等捐款。†通讯作者。图1.所提出的C-MIDN的图示。绿色矩形表示得分最高的边界框。两个MIDN以互补的方式工作,并生成耦合的候选者。最好用彩色观看。检测器需要具有精确的边界框注释的大规模数据集,这花费了相当多的人力来获得。为了解决这个问题,在训练期间仅需要图像级注释的弱监督对象检测(WSOD)变得越来越有吸引力。与边界框注释相比,图像级注释更容易收集,并且也可以通过互联网大量获得。为了在没有边界框注释的情况下定位杂乱场景中的对象,一种常见的方法是将WSOD公式化为多实例学习(MIL)问题。近年来Bilen和Vedaldi [4]提出了一种简洁的端到端弱监督深度检测网络(WSDDN)。WSDDN是一种高效、方便的MIDN,因此很多作品都选择它作为基本的MIDN。然而,由于训练对象和监督之间的不一致性,WSDDN倾向于本地化最有区别的对象部分,而不是整个对象。MidnSGPR耦合Midn9835一些工作建议使用细化模块结合WSDDN来解决这个问题。Tang等人[31]提出了一种在线检测器细化方法来细化WSDNN的输出。Wang等人[37]引入了一个协作学习框架,该框架在一个端到端网络中结合了WSDDN和FasterRCNN,以提高检测性能。但是,这些方法的性能仍然受到基本WS- DDN性能的限制。一旦WSDDN收敛到对象的一部分,并且无法在大多数训练图像上生成合理的初始检测,则这些方法几乎没有机会定位紧密的对象预测框。我们的动机是:虽然单个MIDN倾向于集中于对象的最有区别的部分,但是我们可以耦合以互补方式工作的MIDN的定位信息以减轻该问题。基于这一思想 , 我 们 提 出 了 一 种 耦 合 多 实 例 检 测 网 络 ( C-MIDN)。C-MIDN由两个MIDN组成,我们使用建议移除来迫使它们挖掘不同的候选边界框。特别是,我们从第二个输入中删除了第一个MIDN的最高得分建议。如果第一检测器发现仅包含对象部分的建议,则这种移除可以迫使第二检测器定位整个对象,图12。1.此外,当图像中存在多个对象时,第二检测器可以找到新的对象。但是建议移除必须小心地执行,以保证在移除之后仍然存在正确的对象边界框。否则,removal将破坏MIL约束,并导致第二个检测器误入歧途。为了使MIDNs更强大,我们进一步引入了分割指导的建议删除算法。这是基于以下观察:如果检测结果不能覆盖分割区域,则检测结果包含对象的部分或错过一些对象实例。在这两种情况下,在删除结果后都有严格的建议。因此,我们利用弱监督语义分割方法生成分割图,并引入分割覆盖率作为指标来指导建议删除操作。最后,我们耦合的MIDNs的本地化证据,以获得更紧密的包围盒和本地化多个对象,通过应用基于优先级的抑制算法。我们的C-MIDN可以与基于MIDN的方法组合在本文中,我们实现了C-MIDN与流行的在线检测器细化( ODR ) 的 方 法 , 并 进 行 了 广 泛 的 实 验 , 挑 战PASCAL VOC 2007 年 和 2012 年 的 基 准 。 使 用 C-MIDN,我们在VOC 2007和VOC 2012上分别获得了53.6%和50.3%的mAP,两者均显著优于先前的最新技术水平。总之,本文的贡献有三个方面。1. 我们提出了一种新的耦合多实例检测网络。通过将一对MIDN与该方法通过去除proposal并进一步耦合结果,可以找到完整的包围盒并定位多个实例。2. 我们进一步提出了一个分割引导的建议删除算法,使MIDNs更强大的建议removal后,保证MIL约束。3. 该框架在PASCAL VOC2007和VOC2012数据集上的性能明显2. 相关工作传统的多实例学习为了实现仅提供图像级注释的本地化,大多数先前的工作[17,7,28,5,14,3,2,24,27]将WSOD公式化为MIL问题[10]。在该公式下,图像可以被视为由对象提议方法生成的候选提议的袋学习过程在训练检测器和选择阳性建议之间交替。这种MIL策略导致非凸优化问题,其对初始化敏感并且可能陷入局部最优。一些作品试图找到更好的初始化方法[17,7,28,5,14]。Jie等[14]提出了一种自学的方法来收获高质量的积极对象建议样本。Deselaers等人[7]使用对象性得分来初始化对象位置。Cinbis等人[5]提出了一种多重MIL,通过将训练数据分割成多个部分来逃避局部最优值。近年来,已经提出了许多端到端框架来组合MIL和CNN [4,31,30,15,42,36,35,34,37,25,37,38,39]。32,9]。Bilen和Vedaldi [4]提出了WSDDN,它由两个并行的数据流组成,分别获得建议的分类和检测置信度。进一步添加空间正则化器以保证空间平滑性,该空间正则化器迫使最高得分区域和具有高重叠的区域的特征相同许多作品将WSDDN纳入他们的框架,并提高检测性能。Tang等人[31]将WSDDN与多个实例分类器相结合 , 提 出 了 一 种 在 线 实 例 分 类 器 精 化 方 法 , 对WSDDN的初始候选进行精化。PCL [30]使用基于图的中心聚类方法和基于[31]的平均MIL损失。Zhang等人[43]提出了一个弱监督到全监督的框架(W2F),该框架使用PGA和PGE从MIDN中挖掘更好的伪地面真值来训练全监督检测器。Wang等人[37]介绍了一种协作学习框架,该框架将WSDDN检测器和Faster RCNN结合在一个端到端网络中,同时使用特征共享来改进WSDNN。这些方法已经取得了有希望的结果,9836图2.建议的架构。使用具有ROI池层的骨干网络来获得候选提案的特征向量然后将这些特征向量馈送到两个主要模块C-MIDN和ODR中。在C-MIDN中,两个MIDN以互补的方式与分割引导的建议移除一起工作在ODR中,有几个实例分类器。第一阶段的监督来自C-MIDN的耦合结果,其他阶段的监督在C-MIDN的第二MIDN中,4但是它们的性能受到基本MIDN的限制我们还选择WSDDN作为我们的基本MIDN,但我们耦合的两个互补的WSDDN的本地化信息,以逃避检测对象部分的次优。一些方法提出利用弱监督语义分割来改进WSOD[12,9,40]。Diba等人[9]使用分割置信度图为MIL生成更好的建议Wei等[40]引入两个基于分段的度量,纯度和完整性,以挖掘紧密的盒子。但是,WSSS只能提供语义级的信息。当在一个图像中存在彼此靠近的若干实例时,分割图可以混合成一个大区域,如图1B的最后一行所示。4(c),导致这些方法学习包含多个实例的建议。我们的方法也使用WSSS,但我们引入了一个新的角度,即。使用分割区域的覆盖率来识别是否存在检测器尚未找到的紧实例边界框。这样我们就可以继承WSSS的优点,避免其缺点。弱监督语义分割在过去几年中已经见证了WSSS性能的显著进步[44,16,38,1,29,45,41]。类激活图[44]提供了一种简单有效的方法来产生初始分割区域。Kolesnikov和Lampert [16]介绍了三个原则,并提出了一个端到端网络来实现这些原则。Wei等[39]提出了一种对抗性擦除的方法来逐步挖掘目标区域。Ahn和Kwak [1]提出了AffinityNet,其训练网络以预测像素之间的亲和性,并且进一步采用随机游走算法来细化CAM。不失一般性,我们选择AffinityNet来生成我们的方法中使用的语义分割图。3. 方法在本节中,我们将首先介绍基本的MIDN。然后,我 们 详 细 描 述 了 所 提 出 的 耦 合 多 实 例 网 络 ( C-MIDN)。 最后, 实现C-MIDN与在 线检测 器细化(ODR)。3.1. 多实例检测网络通过结合CNN和MIL,MIDN为WSOD提供了一个简单而有效的管道。在本文中,我们选择WSDDN作为我们的基本MIDN。WSDDN使用加权和池化策略将潜在检测器生成的建议分数映射到图像级分类置信度。通过以端到端方式优化多类交叉熵损失,可以仅在图像级监督下训练潜在检测器特别地,对于给定图像I,对应的标签被表示为Y={yi,y2,. . .,y C},其中y c=1或0指示I中存在或不存在类c,并且C是类的数目。我们使用选择性搜索[33]来生成候选提案B={bl,b2,. . . ,b|B|{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F} 馈送提议B和图像I到CNN中提取提案的特征向量。 作为示于图3、网络包含两个数据流,建议求和逐元素乘法网络连接仅转发连接C-MIDNSoftmaxMIDN损失SoftmaxSGPR耦合分割图Softmax*MIDN损失Softmax输入图像具有ROI池的CONV网上解决Softmax优化损失Softmax优化损失对象提议FC6FC7FCFCFCFCFCFC9837ckkckckFC基于类的Softmax逐元素相乘FC基于提案的Softmax求和建议映像级预测图3.详细介绍了MIDN网络的基本结构.分别命名为分类分支和检测分支。这两个分支都由线性贴图层和softmax层组成。 在分类分支中,线性映射层将特征向量映射到矩阵xc∈RC×|B|,然后通过定义为XC算法1SGPR输入:第一个MIDN的最终得分xs;对象提议B;图像标签Y。输出:第二个MIDN M∈{0,1}C×的掩码|B|.1:设所有Mck=1,c∈{1,. . . ,C}且k∈{1,. . . 、|B|{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F}2:对于c=1至C,做3:如果yc=1,则4:b c←arg maxb ∈Bx s。5:计算的分割覆盖率r。bc.[σ(xc)]=eij。侦查科也会...类ijΣCxc6:如果rc t覆盖,则k=1ekj在特征向量上施加线性映射以生成矩阵x d∈R C×|B|,但下面的softmax运算符是exC7:对于k=l至|B|做8:计算提议bk之间的IoUIk和B1。变更为[σdet(xd)]ij=IJΣ|B|XC.c的最终得分k=0eik每个建议都是由两个矩阵的元素乘积生成的:x R=σclass(x c)⊙σ det(x d). 最后使用对所有提议的求和来获得图像9:如果Ik> t移除,则10:M ck← 0。得分pcΣ|B|k=1 xR. 参数优化由一个MIDN多类交叉熵损失L,如等式中所示。1.一、ΣC损失MIDN=− {yclogpc+(1−yc)log(1−pc)}(1)c=13.2. 耦合多实例检测网络基本的MIDN倾向于定位最有区别的对象部分,这在检测任务中是不期望的。为了解决这个问题,我们的C-MIDN包含一对MIDN,它们以互补的方式工作。1.这两个MIDN具有类似的结构,但具体的建议从第二个MIDN的输入中删除。特别地,在前向传播之后,第一检测器的最高得分建议和相邻建议将从第二MIDN的输入中通过这种移除,后一检测器可以避免被捕获到与第一检测器相同的对象部分,并且有更多的机会找到整个对象或定位新对象。然而,如果在图像中仅存在一个对象并且第一MIDN已经正确地定位了它,则图1B示出了第一MIDN。4(b),这种删除将导致无可能存在两种情况:1)IM中仅存在一个对象年龄,和检测器只发现对象的一部分,图.4(a);2)存在同一类的多个对象实例,并且检测器未能找到所有这些对象实例,图2。第4(c)段。 在这两种情况下,都存在尚未找到的紧密实例边界框。因此,我们使用分割覆盖率作为衡量标准,以评估是否可以执行删除操作。具体来说,我们生成的分割图的- fline弱监督语义分割方法。不失一般性,我们选择AffinityNet [1],这是最先进的WSSS方法之一。首先,我们检查第一个检测器的顶部提议的分割覆盖率我们在分割类c的映射为Mc。对于yc=1的每个类别c,我们选择第一检测器2,并且将bc的内部像素的集合表示为Nc。然后,覆盖率r。可以根据等式(1)计算3.第三章。如果RC小于覆盖阈值Tcover,则我们对类别C执行提议移除,否则我们保留所有提议。在剩余的建议书中进行压缩,并打破MILbc=arg maxxs(二)约束,这将混淆第二个检测器并造成伤害bk∈B其检测性能。为了解决这个问题,我们提出利用弱监督语义分割rc= |Mc不N c|(三)以引导提议移除的过程,称为分段引导的提议移除(SGPR)。最后,我们耦合的MIDN的本地化信息,以保持良好的建议,尽可能多的和抑制坏的。在本小节的其余部分,我们将介绍SGPR算法和耦合方法的细节。如在[40,9]中证明的,语义分割可以找到更完整的对象区域。如果第一次的分割覆盖率=9838|Mc|当执行提案移除时,我们选择其IoU与b_c大于t_remove的提案,并以类特定的方式将它们从第二检测器 的 输 入 中 在 实 践 中 , 我 们 生 成 掩 码 M ∈ {0 ,1}C×|B|、其中,M_ck=0指示需要重新计算提案b_k搬到C类。检测分支中的softmax的第二MIDN被修改以实现建议removal,如在Eq. 4.与WSSDN类似,第二检测器中的每个提议的得分可以通过元素-9839Midnnp网上解决图4.不同MIDN之间的比较和耦合结果。“MIDN”表示基线模型中的MIDN。 “MIDN- 1”指示所提出的C-MIDN中的第一个MIDN,并且“MIDN-2”指示第二个MIDN。“偶联”表示偶联后的结果。”Segmentation” indicates the segmentation map generatedby明智的乘法 然后是图像级评分和损失预训练的VGG [26]模型。C-损失2可以以与第一种MIDN将用于生成初始监督检测器C-MIDN的总损耗是两个检测器的损耗的总和,等式(1)。五、exCODR的第一个IC,而第k个IC的监督取决于第{k-1}个IC形式上,我们将图像标签向量表示为2det(xd)ij=Σ|B|ijMijexC(四){y1,y2,. . . ,y C}。 对于y c= 1的每个类c,我们选择第{k-1}个IC的最高得分建议作为正种子,k=0米克第k个 IC,而第一个IC的积极种子来自于损失C-MIDN=损失1+损失2(五)C-MIDN的耦合结果考虑一个种子库,我们首先计算IoU的集合{Ick},其中Ick是在MidnMIDNj j为了使SGPR算法更加清晰,我们总结了第j个建议bj和种子sck。然后我们表示假设的建议的集合为Bck={bj|Ick≥0。5}和PJ算法1中的SGPR过程。一组n个给定的建议,如Bck={bj|0的情况。1≤Ick<0。5}。N J如图所示,候选人耦合。4、C-MIDN中的MIDN可以定位不同的目标区域。为了耦合MIDN的本地化证据,我们选择得分最高的建议作为候选边界框,然后通过基于优先级的抑制合并候选边界框。否定的建议将被标记为类{C+1},其中表示背景类。而不是直接标记积极的建议到c类,我们把这些积极的建议作为一个袋子,并使用平均MIL池方法[30]。对于seedsck,否定提案的损失是Sion方法 具体而言,如果顶级提案损失k=−1(logxk)(6)小于0.1,很有可能属于不同的物体,所以我们把它们都保留下来 否则n|B|bj∈Bck(C+1)j它们可能属于同一个对象,并且有很好的机会,我们保留第二个MIDN的顶部建议,因为它更有可能在一些坏建议之后找到竞争对象并且第kIC的平均MIL损耗为Σckxk已被SPRG删除。01 - 02 -01张晓萍(|Bck|1998年12月20日(bj∈BpCJ)) (7)p|B|p|Bck|3.3. ODR的实施那么,第k个IC的ODR损耗为是以下各项的总和在本节中,我们将描述如何将C- MIND与流行的在线检测器优化(ODR)框架结合起来[31,30,32]。如图2、在网络中加入多个与C-MIDN并行的实例分类器(IC)。建议书特征提取自σ9840在所有种子和所有正类上都有损失此外,我们使用OICR中建议的加权损失。更多详情请参见[30,31]。最后,我们使用SGD通过结合C-MIDN和ODR的损失来训练网络端到端,如等式2所示。8.9841网上解决方法Aero自行车鸟船瓶总线车猫椅子牛表狗马姆比凯 人植物羊沙发火车电视地图WSDDN [4]46.458.335.525.914.066.753.039.28.941.826.638.644.759.010.817.340.749.656.950.839.3OICR [31]58.563.035.116.917.463.260.834.48.249.741.031.351.964.813.623.141.648.458.958.742.0WCCN [9]49.560.638.629.216.270.856.942.510.944.129.942.247.964.113.823.545.954.160.854.542.8TS2C [40]59.357.543.727.313.563.961.759.924.146.936.745.639.962.610.323.641.752.458.756.644.3PCL [30]57.167.140.916.918.865.163.745.317.056.748.933.254.468.3十六点八分25.745.852.259.162.045.8MELM [36]55.666.934.229.116.468.868.143.025.065.645.353.249.668.62.025.452.556.862.157.147.3WSRPN [32]60.366.245.019.626.668.168.449.48.056.955.033.662.568.220.629.049.054.158.858.447.9OICR+FRCNN [31]65.567.247.221.622.168.068.535.95.763.149.530.364.766.113.025.650.057.160.259.047.0中文(简体)61.266.648.326.015.866.565.453.924.761.246.253.548.566.112.122.049.253.266.259.448.3PCL+FRCNN [30]63.269.947.922.627.371.069.149.612.060.151.537.363.363.915.823.648.855.361.262.148.8WSRPN+FRCNN [32]63.069.740.811.627.770.574.158.510.066.760.634.775.770.325.726.555.456.455.554.950.4W2F [43]63.570.150.531.914.472.067.873.723.353.449.465.957.267.227.623.851.858.764.062.352.4基线(MIDN+ODR)44.371.045.624.215.470.069.547.021.865.937.559.852.770.47.226.459.860.567.564.449.0C-MIDN53.371.549.826.120.370.369.968.328.765.345.164.658.071.220.027.554.954.969.463.552.6C-MIDN+FRCNN54.174.556.926.422.268.768.974.825.264.846.470.366.367.521.624.453.059.768.758.953.6表1. PASCAL VOC 2007测试集的检测平均精度(%)。上部分示出了弱监督检测器的结果,并且第二部分示出了通过使用弱监督检测器的结果的输出作为伪地面实况来训练的完全监督检测器的结果方法Aero自行车鸟船瓶总线车猫椅子牛表狗马姆比凯 人植物羊沙发火车电视地图OICR [31]67.761.241.525.622.254.649.725.419.947.018.126.038.967.72.022.641.134.337.955.337.9TS2C [40]67.457.037.723.715.257.049.164.815.139.419.348.444.567.22.123.335.140.246.645.840.0PCL [30]63.464.244.225.626.454.555.130.511.651.015.839.455.970.78.226.346.941.344.157.741.6OICR+FRCNN [31]71.469.455.129.828.155.057.924.417.259.121.826.657.871.31.023.152.737.533.556.642.5中文(简体)70.567.849.620.822.161.451.734.720.350.319.043.549.370.810.220.848.141.056.556.743.3PCL+FRCNN [30]69.071.356.130.327.355.257.630.18.656.618.443.964.671.87.523.046.044.142.658.844.2W2F [43]73.069.445.830.028.758.858.656.720.558.910.069.567.073.47.424.648.246.850.758.047.8基线(MIDN+ODR)68.870.448.830.429.461.255.645.025.561.326.245.460.673.97.625.054.628.258.960.046.8C-MIDN72.968.953.925.329.760.956.078.323.057.825.773.063.573.713.128.751.535.056.157.550.2C-MIDN+FRCNN72.070.758.727.226.059.054.382.621.555.726.078.366.272.816.720.444.837.561.954.350.3表2.PASCAL VOC 2012测试集的检测平均精度(%)损失=损失C−MIDN+4. 实验ΣKk=1损失k(八)4.2.实现细节我们使用VGG16作为我们的骨干网络,它是在ImageNet数据集上预先训练的[6]。此外,我们将倒数第二个最大池化层和后续卷积层替换为中推荐的膨胀卷积层4.1. 数据集和评估指标我 们 在 具 有 挑 战 性 的 PAS-CAL VOC 2007 、PASCAL VOC 2012和MS-COCO数据集[11,19],其被广泛用作广泛监督的对象检测的基准。在所有的实验中,只有图像级注释用于训练。对于VOC 2007和2012,我们使用训练集(分别为5011张图像和11540张图像)来训练我们的网络,并使用测试集(分别为4952张图像和10991张图像)进行测试。为了评估,我们使用两种测量方法:1)遵循标准PAS-CAL VOC方案,测试集上的平均精度(AP)和AP的平均值(mAP); 2)在trainval集合上的CorLoc[8],以评估定位精度。基于PASCAL准则,如果边界框满足以下条件,则该边界框被认为是正的:IoU≥0。5与两个指标的地面实况。对于MS-COCO,使用MS-COCO 2014的训练集(约80 K图像)进行训练,使用val集(约40 K图像)进行测试。 为了评估,我 们使用两个度 量mAP@0.5和mAP@[.5,.95],它们分别是标准PAS-CAL准则和标准MS-COCO准则。[31]第30段。在SGPR中,覆盖阈值t覆盖被设置为0.3。并且IoU阈值t_remove被设置为0.3。细化时间k被设置为3。动量和重量衰减分别设为0.9和5×104对于VOC2007、VOC 2012和MS-COCO,用于训练的小批次分别被设置为2、2和4。学习率为1×10- 3第一个50K,100K和120K迭代,然后减少到对于VOC 2007、VOC 2012和MS-COCO的以下25 K、50 K和80 K迭代分别为1 ×10−4我们使用Seletective Search [33]为VOC 2007和2012数据集生成对象方案,并使用MCG [21]为MS-COCO数 据 集 生 成 对 象 方 案 。 训 练 图 像 的 分 割 图 由AffinityNet离线生成,AffinityNet在相同的训练图像上训练,我们使用[1]中推荐的对于数据扩充,我们将图像的最短边重新缩放为其中之一五个尺度{480,576,688,864,1233},并且将最长图像侧覆盖到2000。训练图像的比例是-选择圆顶并应用随机水平翻转。在评估中,每个测试图像都用所有这五个尺度和水平翻转进行增强,然后将总共10个图像的平均得分用作最终得分。对于所有实验,采用0.3的NMS以获得最终检测9842结果.我们的实验基于Py- Torch深度学习框架实现,并在NVIDIA TITAN X GPU上运行方法VOC 2007VOC 2012WSDDN [4]58.0-OICR [31]61.263.5WCCN [9]56.7-TS2C [40]61.064.4PCL [30]63.065.0MELM [36]61.4-WSRPN [32]66.967.2OICR+FRCNN [31]64.365.6中文(简体)64.765.2PCL+FRCNN [30]66.668.0WSRPN+FRCNN [32]68.469.3W2F [43]70.369.4C-MIDN68.771.2C-MIDN+FRCNN71.973.3表3. VOC 2007和VOC 2012训练集的检测CorLoc(%)方法mAP@0.5mAP@[.5,.95]PCL [30]19.48.5PCL+FRCNN [30]19.69.2C-MIDN21.49.6表 4.MS-COCO 数 据 集 上 的 结 果 ( mAP@0.5 和mAP@[.5,.95],以%计)4.3. 消融研究我 们 首 先 比 较 所 提 出 的 框 架 与 基 线 模 型(WSDDN+ODR),以证明C-MIDN的有效性。提出了额外的消融实验来说明SGPR和IOU阈值在提议移除中的影响,表示为t移除。在不失一般性的情况下,我们只在VOC 2007上进行实验C-MIDN框架的影响为了显示所提出的C-MIDN的有效性,我们将我们的方法的结果与基线框架进行比较,该基线框架用WSDDN替换我们框架中的C-MIDN,并选择WSDDN的顶部提案作为ODR的初始监督。桌子上1,我们可以看到我们的模型在mAP上超过基线3. 6个点,增加了大约7%。表中的CorLoc。3显示与mAP相同的趋势。几乎所有班级的成绩都得到了提高。我们的模型不仅可以大大提高非刚性类的性能同时,我们的模型也可以提高一些刚性类的性能,如餐桌(mAP从37.5到45.1)和飞机(mAP从44.3到53.3)。这是因为C-MIDN可以通过候选耦合过程发现更多的对象,丰富对象模式。(图5. (a)不同建议移除策略的结果。“普遍定期审议”表示无条件提案删除方法。“SGPR”表示所提出的分段引导的建议移除算法。“基线”表示结合WSDDN和ODR的基本框架。(b)不同建议删除阈值tremove的结果比较。SGPR的影响为了验证SGPR的效果,我们通过用无条件建议移除方法(UPR)替换SGPR来进行实验。具体而言,在普遍定期审议的整个培训过程中,将始终执行与SGPR相同的提案删除操作表2显示,在普遍定期审议的情况下,业绩大幅下降。我们认为其原因是UPR方法去除了某些图像上的所有紧密建议,打破了MIL的基本假设。因此,第二个MIDN将被混淆,并错误地定位背景区域,这甚至最终损害整个模型的性能。tremove的影响我们进行实验来分析去除阈值tremove的影响。如图在图5中,我们可以观察到我们的框架对t移除不敏感,并且具有不同阈值的所有模型都可以在mAP中超过基线2.4。特别是,性能上升,然后随着t移除连续增加而下降,在0.3处达到峰值。这一趋势背后的原因可能是两个折叠。当tremove太小时,会删除太多的提案,并且存在删除所有紧提案的高当t_remove太大时,将仅移除少数提议,这可能导致两个检测器都被捕获在对象的部分所以在其他实验中,我们将tremove设置为0.3。4.4. 与最新技术在本小节中,我们提出了我们的C-MIDN与其他国家的最先进的方法相比的结果。表. 1显示了VOC 2007数据集的结果,表1显示了VOC 2007数据集的结果。2显示了VOC 2012数据集的结果。在VOC 2007年,我们的模型获得52.6 mAP,比最先进的方法高出9.8%。在VOC 2012上,我们的模型获得50.2mAP,并且比最先进的改进增加到15.7%。这种改进的增加是因为我们的模型可以受益于更好的分割重新,最大平最大平9843图6.基线模型和我们的框架的定性结果蓝色矩形表示基线模型得分最高的边界框,绿色矩形表示我们的边界框。在更大的数据集上训练的结果。 如表中所示。1,我们的模型在几乎所有非刚性类上都取得了最好的结果。一些工作提出通过使用基于MIL的检测器的结果作为伪地面实况来训练全监督检测器,并且表现出性能的显著改善。继Tang等人[31]之后,我们还使用C-MIDN产生的最高得分建议作为伪地面实况来训练Fast-RCNN。如表中所示。1、桌子2,我们的方法对VOC 2007和VOC 2012的检测性能进一步提高,分别为53.6和50.3,这是新的最先进的。表 中 报 告 了 C-MIDN 对 VOC 2007 和 VOC 2012 的CorLoc结果3,这也创造了新的国家的艺术。为了进一步揭示我们的方法的鲁棒性,我们在更具挑战性的MS-COCO 数 据 集 上 进 行 实 验 , 并 且 C-MIDN 在mAP@0.5和mAP@[.5,.95] 4上都超过了现有方法我们在图1中示出了我们的框架的一些检测结果。6.实验结果表明,该方法能够准确定位目标,而基线法只能定位部分目标。但是在一些类别上的检测结果仍然是不期望的,并且我们在图7中示出了一些失败的情况。主要的失败是由于第二个MIDN也发现歧视性的部分对象,而不是整个对象,特别是在类的人。5. 结论在本文中,我们提出了一个耦合多实例检测网络的WSOD。C-MIDN使用两个MIDN,它们通过建议删除以互补的方式工作。提出了一种新的分割引导的建议去除算法,以保证建议去除后的MIL约束最后我们将MIDN图7.两个MIDN都找到对象的不同部分的失败情况。红色矩形表示两个MIDN的失败检测结果。以获得更紧密的对象边界框并调用更多的对象。大量的实验已经进行了验证C-MIDN的有效性。结合在线检测器细化,所提出的框架超越了以前提出的所有WSOD方法,并创造了新的国家的最先进的。致谢本工作得到了国家重点研究发展计划(2018 YFB1003501,2017 YFB 0202502)、国家自然科学基金(61732018,61872335,61802367)、奥地利-中国合作&研发项目(FFG and CAS)批准号:171111 KYSB20170032,中国科学院战略重点研究计划,批准号:XDA 18000000,计算机体系结构国家重点实验室创新项 目 计 划 ( CARCH 4505 , CARCH 4506 , CARCH4509)。 作者感谢王瑞平提供的有益讨论。9844引用[1] 安智云和郭淑华。学习像素级语义亲和力与图像级监督弱监督语义分割。在IEEE计算机视觉和模式识别会议论文集,第4981-4990页[2] Hakan Bilen、Marco Pedersoli和Tinne Tuytelaars。后验正则化弱监督目标检测。英国机器视觉会议,第3卷,2014年。[3] Hakan Bilen、Marco Pedersoli和Tinne Tuytelaars。基于凸聚类的弱监督目标检测。在IEEE计算机视觉和模式识别会议论文集,第1081-1089页[4] Hakan Bilen和Andrea Vedaldi。弱监督深度检测网络在IEEE计算机视觉和模式识别会议论文集,第2846- 2854页[5] Ramazan Gokberk Cinbis,Jakob Verbeek,and CordeliaSchmid.基于多重多示例学习的弱监督目标定位。IEEETransactionsonPatternAnalysisandMachineIntelligence,39(1):189[6] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,第248-255页。Ieee,2009年。[7] Thomas Deselaers Bogdan Alexe和Vittorio Ferrari在学习物体外观的同时将其局部化。在欧洲计算机视觉会议上,第452-466页。施普林格,2010年。[8] Thomas Deselaers Bogdan Alexe和Vittorio Ferrari弱监督定位和通用知识学习。国际计算机视觉杂志,100(3):275[9] Ali Diba 、 Vivek Sharma 、 Ali Pazandeh 、 HamedPirsiavash和Luc Van Gool。弱监督级联卷积网络。在IEEE计算机视觉和模式识别集,第914[10] 托马斯·G·迪特里希、理查德·H·莱思罗普和托马的洛扎诺·佩雷斯。用平行轴矩形求解多实例问题人工智能,89(1-2):31[11] Mark Everingham , Luc Van Gool , Christopher KIWilliams,John Winn,and Andrew Zisserman.pascal视觉 对 象 类 ( voc ) 的 挑 战 。 International Journal ofComputer Vision,88(2):303[12] 伟峰阁、司北央、益州羽。基于弱监督学习的多标记分类、目标检测和语义分割的多证据过滤与融合。InProceedings of
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功