SLV：弱监督目标检测的空间似然投票

191 浏览量更新于2023-10-25 收藏 3.15MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12995SLV：弱监督目标检测的空间似然投票陈泽1，2，傅志航5，蒋荣新1，3，陈耀武1，4，<$ Xian-shengHua5，<$1浙江大学先进数字技术与仪器研究所2浙江大学嵌入式系统工程研究中心，中国教育部3浙江大学工业控制技术国家重点实验室4浙江省网络多媒体技术重点实验室5阿里巴巴达摩院，阿里巴巴集团{chenze，rongxinj}@ zju.edu.cn{zhihang.fzh，xiansheng.hxs}@cyw@mail.bme.zju.edu.cn alibaba-inc.com摘要基于多示例学习框架的大量工作促进了弱监督目标检测的发展。然而，大多数基于MIL的方法倾向于将实例本地化到其区分部分而不是整个内容。在本文中，我们提出了一个空间似然投票（SLV）模块，以con-verge的建议本地化过程中，没有任何绑定框注释。具体而言，给定图像中的所有区域建议在训练期间的每次迭代中都扮演投票者的角色，为空间维度中每个类别的可能性投票。在对具有大似然值的区域进行膨胀对齐之后，将投票结果正则化为边界框，用于最终的分类和定位。基于SLV，我们进一步提出了一个端到端的多任务学习训练框架。分类和定位任务相互促进，进一步提高了检测性能。在PASCAL VOC2007和2012数据集上的大量实验证明了SLV的优越性能。1. 介绍目标检测是计算机视觉中的一个重要问题，其目的是定位给定图像中所有实例的紧密包围盒并重新分类。随着卷积神经网络（CNN）[10，13，14]和大规模注释数据集[6，18，23]的发展，近年来目标检测[8，9，17，19，21]有了很大的然而，它是费时费力的注释accu，*本文是作者在阿里巴巴实习时完成的。†通讯作者。图1.不带/带SLV模块的探测结果。(a)常见的基于MIL的方法很容易将实例定位到其可区分的部分而不是整个内容。(b)SLV模块- ule转移对象的建议，并检测准确的边界框的对象。为大规模数据集的对象边界框评级。因此，弱监督目标检测（ Weakly Supervised Object Detection ，WSOD）仅使用图像级标注进行训练，被认为是现实中很有前途的解决方案，近年来引起了学术界的关注。大多数WSOD方法[3，4，22，25，26，32]遵循12996多实例学习（MIL）范式。将WSOD看作一个实例分类问题，在MIL约束下训练一个实例分类器，以达到目标检测的目的。然而，现有的基于MIL的方法只关注实例分类的特征表示，而没有考虑建议区域的定位精度。因此，它们倾向于将实例本地化到它们的区分部分，而不是整个内容，如图1（a）所示。由于缺乏边界框标注，缺少定位任务一直是WSOD中的一个严重问题。作为补救措施，后续的工作[15，25，26，30]选择重新训练Fast-RCNN [8]检测器，该检测器完全由伪地面实况监督，这些伪地面实况由基于MIL的弱监督对象检测器生成。全监督Fast-RCNN通过多任务训练的方式解决了上述问题[8]。但它仍然远离最优解。在本文中，我们提出了一个空间似然投票（SLV）模块收敛的建议本地化过程中没有任何边界框注释。空间似然投票操作包括实例选择、空间概率累积和高似然区域投票。与以前的方法总是保持其区域建议的位置不变不同，SLV中的所有区域pro-bands在训练期间的每次迭代中都扮演选民的角色，为空间维度中每个类别的可能性投票然后，将用于图1（b）中所示的重新分类和重新定位的投票结果通过在具有大似然值的区域上扩大对齐而被正则化为边界框。通过生成投票结果，SLV算法将实例分类问题转化为多任务问题。SLV为WSOD方法同时学习分类和本地化打开了大门。此外，我们提出了一个端到端的培训框架的基础上SLV模块。分类和定位任务相互促进，最终得到更好的定位和分类结果，缩短了弱监督和全监督目标检测之间的差距。此外，我们对PASCAL VOC数据集进行了大量的实验[6]，以确认我们方法的有效性。拟议框架在2007年和2012年分别实现了53.5%和49.2%的mAP据我们所知，这是迄今为止最好的单一模型性能。本文的贡献总结如下：1) 我们提出了一个空间似然投票（SLV）模块，以收敛的建议定位过程中只有图像级的注释。建议SLV演变的实例分类问题到多任务领域。2) 我们引入了一个端到端的训练策略，该策略通过特征表示共享来提高检测性能。3) 在不同的数据集上进行了大量的实验。优越的性能表明，除了独立的Fast-RCNN再训练之外，复杂的定位微调应该是一种有前途的探索。2. 相关工作MIL是一个经典的弱监督学习问题，目前是解决WSOD的主要途径。MIL将每个训练图像视为“包”，将候选提案视为“实例”。MIL的目标是训练一个实例分类器，从这个“包”中选择阳性实例。随着卷积神经网络的发展，许多工作[3，5，11，27]将CNN和MIL结合起来处理WSOD问题。例如，Bilen和Vedaldi [3]提出了一种代表性的双流弱监督深度检测网络（WSDDN），可以以端到端的方式使用图像级注释基于[3]中的体系结构，[11]提出利用来自对象周围区域的上下文信息作为WSOD的超级指导。在实践中，发现MIL解决方案很容易收敛到对象的可区分部分。这是由于MIL的损失函数是非凸的，因此MIL解通常陷入局部极小值。为了解决这个问题，Tanget al.[26]将WSDDN与多阶段分类器细化相结合，并提出了一种OICR算法，以帮助他们的网络在训练期间看到更大的对象部分。此外，在[26]的基础上，Tanget al.[25]随后引入建议聚类学习，并使用建议聚类作为指示对象最可能出现的粗略位置的在[31]中，Wan等人，尽量减少学习过程中定位的随机性。在[34]中，Zhanget al.使用MIL框架添加课程学习。从优化的角度看，Wanet al. [30]介绍了延拓方法，并尝试对MIL的损失函数进行光滑化，以缓解其非凸性问题。在[7]中，Gaoet al.利用MIL检测器的不稳定性，设计了一个正交初始化的多分支网络。此外，有许多尝试[1，12，16，33，35]从其他角度提高弱监督检测器的定位精度Arun等人[1]通过采用概率对象来对对象位置中的不确定性进行建模，可以获得更好的性能。在[16]中，Liet al.提出了一个分割检测协作网络，它利用分割图作为先验信息来监督目标检测的学习。在[12]中，Kosugiet al.专注于实例标记问题，12997CR图2.我们的方法的网络架构。使用具有RoI池化的VGG16基网来提取每个建议的特征。然后，建议的功能通过两个完全连接的层和生成的特征向量分支到基本MIL模块和SLV模块（再分类分支）。在基本MIL模块中，有一个WSDDN分支和三个细化分支。三个精化分支的平均分类得分被送入SLV模块以生成监督。SLV模块中的另一个全连接softmax1是类上的softmax操作，softmax2是建议上的softmax操作。lem并设计了两种不同的标记方法来找到紧密的盒子而不是有区别的盒子。在[35]中，Zhanget al.建议从经过良好训练的基于MIL的网络中挖掘准确的伪地面实况，以训练完全监督的对象检测器。与此相反，杨等人的工作。[33]将WSOD和Fast-RCNN重新训练集成到单个网络分别对于分类分支，通过将建议特征通过一个全连通（fc）层来产生得分矩阵Xcls∈RC×R，其中C表示图像类别的数量，R表示建议的数量。然后对类执行softmax操作xcls产生σ（Xcls），[σ（Xcls）]为eCR- 是的模拟CLSCLS铬铬xcls可以联合优化回归和分类。3. 方法建议架构的整体架构如下：k=1ekr类似地，得分矩阵Xdet∈RC×R是由检测分支的另一个fc层产生的，但σdet（Xdet）是通过对建议的softmax运算产生的x检测器比类： [σ（Xdet）]为eCR- 是的比分detcrrx检测器如图2所示我们采用基于MIL的网络作为基础，sic部分，并将建议的SLV模块集成到最终的架构中。在训练的前向过程中，建议特征被输入基本MIL模块，k=1eck由元素乘积生成：0=σcls（Xcls）<$σdet（Xdet）。最后，对图像进行分类，C类的阳离子分数通过求和计算生成提案得分矩阵。随后，这些亲在所有提案中：φc=Rr=1 100美元。我们表示标签最后，利用SLV模块的训练过程，生成监督矩阵。3.1. 基本MIL模块训练图像y=[y1，y2，...，其中yc=1或0指示具有或不具有类别c的图像。为了训练实例分类器，损失函数在等式（1）中示出（一）.ΣC使用图像级注释，许多现有的作品[2，3，4，11]基于MIL网络检测对象。在这项工作中，Lw=−c=1{yclogφc+（1−yc）log（1−φc）}（1）我们遵循[3]中的方法，该方法提出了双流弱监督深度检测网络（WSDDN）来训练实例分类器。对于训练图像及其区域建议，建议特征由CNN主干提取，然后分支成两个流，分别对应于分类分支和检测分支此外，采用建议聚类学习（PCL）[25]，它额外嵌入了3个实例分类器细化分支，以获得更好的实例分类器。第k个细化分支的输出是k∈R（C+1）×R，其中（C+1）表示C个不同类和背景。12998n雷克nKCRC具体地，基于输出得分Rankk和提案空间信息，构建提案聚类中心。然后，根据它们之间的IoU将所有提案划分为这些集群，一个用于背景，其他用于不同的实例。在同一个集群中的提议（除了用于背景的集群之外）在空间上是相邻的并且与同一个对象相关联。与监管算法1生成监督Hslv输入：建议框B={b1，...，bR};建议平均得分;图像标签向量y=[y1，.，yC]T;图像大小{H，W}。输出量：监督Hslv.Hk=.k Nk+1nn=1（yk是第n个簇的标签），1：初始化Hslv= 0。精细化分支将每个簇视为一个小袋。每袋在第k次细化中，通过加权交叉熵损失来优化分支。Σ2：对于c=1至C，做3：如果yc=1，则4：初始化Bc= 0。将Mc初始化为零。Lk=− 1ΣN（skMklogr∈Ck金银银5：对于r=1到R，6：如果Tcr>Tscre，则Rn nMk7：B.append（b）.n=1 Σ+nλklogλk）（二）C r8：如果结束Rr∈CkN+1个（C+1）r9：结束10：构建体Mc由等式(3)参见第3.2节。kk11：将M c中的元素范围缩放到[0，1]。其中sn和Mn是第n个聚类的置信度得分12：将Mc变换为二进制版本Mc。ter和第n个集群中的提案数，则bk为bckcr13：在Mb中找到最小边界矩形Gc。第r个提议的预测得分。 r∈Cn表示第r个建议属于第n个建议集群，14：Hslv={Gc，c}.KN k+1是背景的聚类，λk是损失权重15：Hslv.append（Hslv）.16：如果结束这和第r个方案的信心是一样的。3.2. 空间投票弱监督对象检测器很难从对象的所有建议中挑选出最合适的边界框获得最高分类分数的建议通常覆盖对象的有区别的部分，而覆盖较大部分的许多其他建议往往具有较低的分数。因此，在MIL约束下选择具有最高得分的建议作为检测结果是不稳定的。但从总体分布来看，那些得分高的提案总是至少覆盖了部分对象。为此，我们建议利用所有建议的空间似然性，这意味着图像中对象的边界和类别在本小节中，17：结束十八： returnHslv.首先过滤掉低得分的提议，因为它们对于空间似然投票几乎没有意义保留的建议被认为围绕类别c的实例，并被放入 Bc ， Bc={br|{\fn 黑体\fs22\bord1\shad0\3aHBE\4aH00\fscx67\fscy66\2cHFFFFFF\3cH808080}第二步，我们实现了一个空间概率-根据预测的分类得分和B中的提案的位置进行城市累积。具体地说，我们构造了一个得分矩阵Mc∈ RH×W，其中H和W是训练图像I的高度和宽度。M c中的所有元素都初始化为零。然后，对于每个建议br∈Bc，我们将br的预测得分累积到Mc我们引入空间似然投票（SLV）模块，同时执行分类和本地化细化，而不是仅执行实例分类器。SLV模块便于插入任何空间上。ΣCIJr s.t. b r ∈Bc，（i，j）∈br中国（3）基于建议的检测器，并且可以与基本检测器联合优化。SLV的精神是通过将所有提案的空间信息和类别在训练过程中，SLV模块考虑所有提案然后计算空间Lik= f。他们为gener-其中（i，j）∈ br表示提议br内的像素（i，j）。对于Bc中的建议，我们计算它们在空间维度上的可能性和Mcindi中元素的最终值给出了类别c的实例出现在该位置的可能性。最后，Mc中的元素范围被缩放到[0，1]并且阈值Tc被设置为将Mc变换为二进制ver-c。启动监督Hslv（y，y），其中y=3Bk/3。C cKMC=12999k=1锡永湾Mb被视为二值图像，形式上，对于具有标签y的图像I，存在三个最小边界矩形Gc={gm}Nc，步骤以在y=1时生成Hslv。为了节省训练时间，cm=1cc区域在Mb（gm是第m个矩形，Nc是数量，13000RCRRCR算法2整个训练过程输入：训练图像及其建议框B;图像标签向量y=[yi，.，细化次数K=3;训练迭代索引i。输出量：更新的网络。1：将图像和建议框B馈送到基本MIL模块中以产生得分矩阵k，k∈ {0，1，2，3}2：通过等式计算损失Lw和Lk，k∈ {1，2，3}。(2)/（1），图3.SLV的可视化示例图像的标签是参见第3.1节。3：计算平均得分矩阵4：对于c=1到C，5：如果yc=1，则.3k=1Σk/3。{person，horse}，则生成两个不同的M c和Hslv。并对基本MIL模块进行完整的培训;2）固定6：根据B和建议框B生成H s l v，参见第3.2节。7：如果结束第八章：端9：生成Hslv，参见算法1。十：计算损失Ls，见第3.2节。图11：通过训练迭代索引x i计算损失w e=ws。基本的MIL模块，并使用输出的分类分数用来训练SLV模块这种策略是有意义的，但单独训练网络的不同部分可能会损害性能。因此，我们提出了一个培训框架，将这两个培训步骤整合为一个。我们在Eq中改变损失。(5)到加权版本，如在Eq. （六）、Σ312：优化（Lw+3k=1 Lk+wsLs）。L=Lw+k=1 Lk+wsLs（6）在Mc）中的连接区域的ber被用于生成Hslv损失权重ws初始化为零，并将迭代增加。在培训之初，虽然基本B如Eq. （四）、CMIL模块是不稳定的，我们不能得到很好的监督Hslv，ws是小的，损失wsLs也很小。作为Hslv={Gc，c}（4）算法1中总结了生成HsLV的整个过程，图3中示出了SLV的可视化示例监督Hslv是实例级注释，我们在每个标记的建议上使用多任务损失Ls来执行分类和本地化完善同时重分类分支的输出为rs∈R（C+1）×R，重定位分支的输出为 ts∈R4×R. SLV 模的损失为 Ls=Lcls（Ts，Hslv）+Lloc（Ts，Hslv），其中Lcls为交叉熵损失，Lloc为光滑L1损失.3.3. 总体培训框架为了提高弱监督目标检测器的精度，将基本的MIL模块和SLV模块集成为一个模块。结合两者的损失函数，整个网络的最终损失在等式中。（五）、Σ3因此，基本MIL模块的性能将不会受到太大影响。在训练过程中，基本的MIL模块将很好地分类建议，因此我们可以获得稳定的分类分数，以生成更精确的监督Hslv。拟议的培训框架易于实施，网络可从共享提案功能。我们的网络的整体训练过程如算法2所示。在测试过程中，三个改进的实例分类器和SLV重分类分支的建议分数被用作最终的检测分数。由SLV重定位分支计算的边界框回归偏移量用于移动所有建议。4. 实验4.1. 数据集和评估指标在两个具有挑战性的数据集上评价了SLV：PAS-CAL VOC 2007和2012数据集[6]，其中有9，962个L=Lw+k=1 Lk+Ls（5）和22,531幅图像。对于每个数据集，我们使用trainval集进行训练和测试然而，基本MIL模块的输出分类分数在训练的早期阶段是有噪声的，这导致投票监督Hslv不够精确以训练对象检测器。有一种替代的训练策略可以避免这个问题：1）固定SLV模块准备测试仅使用图像级注释来训练我们的网络。为了评估，使用两个指标来评估我们的模型。首先，我们使用 PASCAL VOC 2007 上的平均精度（mAP）来Σ13001B再循环重新锁定end-to-end快速反应神经网络地图C50.151.0C51.6CC52.5CCC53.5CCCC53.9表1.PASCAL VOC 2007测试集上不同消融实验的检测性能“2012年测试集其次，我们在PASCAL VOC 2007和2012训练集上使用正确定位（CorLoc）评估定位准确性。根据PASCAL准则，如果预测框的IoU > 0，则认为它是正的。5、一个真实的边界框。4.2. 实现细节该框架基于VGG16 [24] CNN模型实现，该模型在ImageNet数据集上进行了预训练[23]。我们使用选择性搜索[29]来为每张图像生成在基本的MIL模块中，我们遵循[25]中的实现来三次细化实例分类器。对于SLV模块，我们使用三个精化实例分类器的平均建议得分来生成监督，并且超参数的设置是直观的。为了节省时间，阈值T分数被设置为0.001，并且对于人员类别，Tc被设置为0.2，对于其他类别，Tc被设置为0.5。在训练期间，用于训练的mini-batch大小设置为2。动量和重量衰减分别设为0.9和5×10−4。初始学习率为5×10−4，学习率衰减步骤为第9、12和15个epoch。对于数据增强，我们使用五种图像尺度{480，576，688，864，1200}水平翻转用于训练和测试。我们随机选择一个比例来调整图像的大小，然后将图像水平翻转。期间测试中，10个增强图像的平均得分被用作最终分类得分。类似地，10个增强图像的输出回归偏移也被平均。我们的实验基于PyTorch[20]深度学习框架实现我们所有的实验都在NVIDIA GTX 1080Ti GPU上运行。4.3. 消融研究我们在PASCAL VOC 2007上进行消融，以分析拟议的SLV模块。基线模型（PASCAL VOC 2007测试集上的mAP 50.1%）是第3.1节中描述的基本PCL检测器，其在PASCAL VOC 2007训练集上训练。下文讨论了消融研究的详细信息图4. SLV模块基线和不同训练时期的VOC 2007结果。图5. 3种不同标签方案的示例。(a)常规方案。(b)聚类方案。(c)SLV每个标签框顶部的值是IoU及其相应的地面实况边界框。SLVvs.No SLV. 为了证实所提出的SLV模块的有效性，我们对SLV中的重新分类和重新定位分支进行了不同的消融实验。如表1（第2行和第3行）所示，仅包含重新分类或重新定位分支的SLV模块的简化版本都优于基线模型。这表明，空间似然投票方法产生的监督，这是制定在第3.2节，不仅是足够精确的分类，而且定位。此外，由于多任务学习，SLV模块的普通版本进一步提高了检测性能。如图4所示，基于经过良好训练的基线模型训练的SLV模块显著提高了性能（mAP从50.1%提高到52.5%），这表明将建议本地化过程收敛到WSOD解决方案中的必要性，正如我们上面讨论的那样。端到端与替代方案。在前面的小节中，烧蚀实验是通过修复的方式进行的。13002方法Aero自行车鸟船瓶总线车猫椅子牛表狗马姆比凯人植物羊沙发火车电视地图OICR（VGG）[26]58.062.431.119.413.065.162.228.424.844.730.625.337.865.515.724.141.746.964.362.641.2[25]第二十五话54.469.039.319.215.762.964.430.025.152.544.419.639.367.717.822.946.657.558.663.043.5[28]第二十八话57.970.537.85.721.066.169.259.43.457.157.335.264.268.632.828.650.849.541.130.045.3C-MIL [30]62.558.449.532.119.870.566.163.420.060.552.953.557.468.98.424.651.858.766.763.550.5中文（简体）[7]63.470.545.128.318.469.865.869.627.262.644.059.656.271.411.926.256.659.669.265.452.0Pred Net（VGG）[1]66.769.552.831.424.774.574.167.314.653.046.152.969.970.818.528.454.660.767.160.452.9SLV（VGG）65.671.449.037.124.669.670.370.630.863.136.061.465.368.412.429.952.460.067.664.553.5[26]第二十六话65.567.247.221.622.168.068.535.95.763.149.530.364.766.113.025.650.057.160.259.047.0PCL+FRCNN [25]63.269.947.922.627.371.069.149.612.060.151.537.363.363.915.823.648.855.361.262.148.8[28]第二十八话63.069.740.811.627.770.574.158.510.066.760.634.775.770.325.726.555.456.455.554.950.4W2F [35]63.570.150.531.914.472.067.873.723.353.449.465.957.267.227.623.851.858.764.062.352.4UI+FRCNN [7]62.769.143.631.120.869.868.172.723.165.246.564.067.266.510.723.855.062.469.660.352.6C-MIL+FRCNN [30]61.860.956.228.918.968.269.671.418.564.357.266.965.965.713.822.954.161.968.266.153.1Pred Net（Ens）[1]67.770.452.931.326.175.573.768.614.954.047.353.770.870.219.729.254.961.367.661.253.6SLV（VGG）+FRCNN 62.172.154.134.525.666.767.477.224.261.647.571.672.067.212.124.651.761.165.360.153.9表2. PASCAL VOC 2007测试集的平均精密度（%）。第一部分显示了使用单个模型的弱监督对象检测器的结果，第二部分显示了使用集成模型的弱监督对象检测器或由弱监督对象检测器生成的伪地面实况训练的全监督对象检测器的结果。方法Aero自行车鸟船瓶总线车猫椅子牛表狗马姆比凯人植物羊沙发火车电视CorLocOICR（VGG）[26]81.780.448.749.532.881.785.440.140.679.535.733.760.588.821.857.976.359.975.381.460.6[25]第二十五话79.685.562.247.937.083.883.443.038.380.150.630.957.890.827.058.275.368.575.778.962.7[28]第二十八话77.581.255.319.744.380.286.669.510.187.768.452.184.491.657.463.477.358.157.053.863.8C-MIL [30]--------------------65.0中文（简体）[7]84.284.759.552.737.881.283.372.441.684.943.769.575.990.818.154.981.460.879.180.666.9Pred Net（VGG）[1]88.686.371.853.451.287.689.065.333.286.658.865.987.793.330.958.983.467.878.780.270.9SLV（VGG）84.684.373.358.549.280.287.079.446.883.641.879.388.890.419.559.779.467.782.983.271.0[26]第二十六话85.882.762.845.243.584.887.046.815.782.251.045.683.791.222.259.775.365.176.878.164.3PCL+FRCNN [25]83.885.165.543.150.883.285.359.328.582.257.450.785.092.027.954.272.265.977.682.166.6[28]第二十八话83.882.760.735.153.882.788.667.422.086.368.850.990.893.644.061.282.565.971.176.768.4W2F [35]--------------------70.3UI+FRCNN [7]86.785.964.355.342.084.885.278.247.288.449.073.384.092.820.556.884.562.982.178.166.9Pred Net（Ens）[1]89.286.772.250.951.888.389.565.633.687.459.766.488.594.630.460.283.868.978.981.371.4SLV（VGG）+FRCNN85.885.973.356.952.779.787.184.049.382.946.881.289.892.421.259.380.470.482.178.872.0表3. PASCAL VOC 2007训练集上的CorLoc（%）。第一部分显示了使用单个模型的弱监督对象检测器的结果，第二部分显示了使用集成模型的弱监督对象检测器或由弱监督对象检测器生成的伪地面实况训练的全监督对象检测器的结果。方法最大平均接入点（%）CorLoc（%）[25]第二十五话40.663.2[28]第二十八话40.864.9C-MIL [30]46.767.4中文（简体）[7]48.067.4Pred Net（VGG）[1]48.469.5SLV（VGG）49.269.2表4.在PASCAL VOC 2012数据集上使用单个模型的不同检测器的检测和定位性能。基线模型和训练SLV模块。所提出的网络的两个部分分别训练，这类似于重新训练独立的Fast-RCNN模型。在表1的第4行和第5行中，我们展示了具有不同训练策略的模型的性能与替代训练策略（第4行）相比正如我们在第3.3节中讨论的那样，端到端训练框架缩短了弱监督和全监督对象检测之间的差距SLV与其他标签方案。关于SVL，作为一种伪标记策略，我们比较了3种不同的标记方案，并分析了它们各自的优缺点。The first scheme is aconventional ver- sion that selects the highest-scoringproposal for each posi- tive class.第二个方案是聚类版本，它从每个正类的每个提案聚类中选择得分最高的提案。最后一个方案是所提出的SLV。图5包含不同场景中3种方案的一些标记示例然后，第二行显示了标记较大对象时3种方案的属性，并且由SLV标记的边界框具有更高的IoU与地面实况框。然而，如图5的第三行所示，当物体聚集在一起时，SLV倾向于将这些物体标记为一个实例。同时，由于其弱特征表示（表中的板被标记），所有3种方案在标记“表”时都失败了这是今后工作中值得探讨的问题。尽管有这些坏的情况下，与SLV（53.5%mAP）的网络的性能仍然超过了它的计数器部分使用其他两个标记方案（52.1%mAP的第一个方案和52.4%mAP的第二个方案）。13003图6.我们的方法和竞争对手（PCL模型）的检测结果绿色边界框是我们的方法检测到的对象，红色边界框是竞争对手检测到的结果。4.4. 与其他方法在这一小节中，我们比较了我们的方法与其他作品的结果我们在表2、表3和表4中报告了我们对PASCALVOC 2007和2012数据集的实验结果。该方法在VOC2007数据集上使用单个VGG 16模型对mAP和CorLoc的识别率分别为53.5%和71.0%，优于所有其他单模型方法。我们进一步基于SLV（VGG）产生的伪地面实况重新训练Fast-RCNN检测器，重新训练的模型在VOC2007数据集上的mAP上获得53.9%，在CorLoc上获得72.0%在VOC 2012数据集上，我们的方法在mAP上获得了49.2%，这也是所有单模型方法中最好的，在CorLoc上获得了69.2%。不同于最近的作品，例如。[33]该方法选择高得分的建议作为伪地面实况以增强定位能力，而所提出的SLV则致力于从更宏观的角度搜索不同目标的边界，从而获得更好的检测能力。我们在图6中展示了我们的方法和竞争对手模型的一些典型检测结果。结果表明，该方法输出的边界框具有较好的定位性能.这是因为我们的多任务网络能够同时对建议进行分类和定位，而竞争对手是单任务形式，只突出最具区别性的对象部分。虽然我们的方法明显优于竞争对手，但值得注意的是，对某些类别如“椅子”、“桌子”、“植物”和“人”的检测结果有时是不希望的（图6的最后一行）。我们认为，在SLV模块中生成的监督在对象聚集场景中不够精确：许多椅子聚集在一起或室内桌子周围有许多其他对象。5. 结论在本文中，我们提出了一种新的和有效的模型，空间似然投票（SLV），弱监督目标检测。我们建议将大多数基于MIL的模型中的实例分类问题进化到多任务领域，以缩短弱监督和全监督对象检测之间的差距。提出的SLV模块收敛的建议本地化过程中，没有任何边界框注释和端到端的训练框架，提出了我们的模型。该框架通过端到端的多任务学习获得了更好的分类和本地化性能。在VOC 2007和2012数据集上进行的大量实验表明，与以前的WSOD方法相比，我们的方法有了很大的改进。6. 确认本工作得到了中央高校基础研究基金和国家自然科学基金31627802的资助。13004引用[1] Aditya Arun，CV Jawahar和M Pawan Kumar。基于不相似系数的弱监督目标检测。在IEEE计算机视觉和模式识别会议论文集，第9432-9441页[2] Hakan Bilen、Marco Pedersoli和Tinne Tuytelaars。基于凸聚类的弱监督目标检测。在IEEE计算机视觉和模式识别会议论文集，第1081-1089页[3] Hakan Bilen和Andrea Vedaldi。弱监督深度检测网络在IEEE计算机视觉和模式识别会议论文集，第2846- 2854页[4] Ramazan Gokberk Cinbis，Jakob Verbeek，and CordeliaSchmid.基于多重多示例学习的弱监督目标定位。IEEEtransactionsonpatternanalysisandmachineintelligence，39（1）：189[5] Ali Diba 、 Vivek Sharma 、 Ali Pazandeh 、 HamedPirsiavash和Luc Van Gool。弱监督级联卷积网络。在IEEE计算机视觉和模式识别集，第914[6] Mark Everingham 、 SM Ali Eslami 、 Luc Van Gool 、Christo-pherKIWilliams 、 JohnWinn 和 AndrewZisserman 。 Pascal Visual Object Classes Challenge ： ARetrospective.International Journal of Computer Vision，111（1）：98[7] 高岩、刘博笑、南郭、叶小春、方晚、游海航、樊东瑞。利用弱监督目标检测中的不稳定性。arXiv预印本arXiv：1906.06023，2019。[8] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision ，第 1440-1448页，2015中。[9] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 580[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[11] Vadim Kantorov 、 Maxime Oquab 、 Minsu Cho 和 IvanLaptev。Contextlocnet：用于弱监督定位的上下文感知深度网络模型。欧洲计算机视觉会议，第350-365页。施普林格，2016年。[12] Satoshi Kosugi ， Toshihiko Yamasaki ， and KiyoharuAizawa.用于弱监督对象检测的对象感知实例标记在IEEE计算机视觉国际会议集，第6064-6072页[13] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展，第1097-1105页，2012年[14] YannLeCun，Le'onBottou，YoshuaBengio，PatrickHaf fner等人。基于梯度的学习应用于文档识别。Proceedingsof the IEEE，86（11）：2278[15] Dong Li，Jia-Bin Huang，Yali Li，Shengjin Wang，andMing-Hsuan Yang.具有渐进域适应的弱监督对象定位。在IEEE计算机视觉和模式识别会议论文集，第3512-3520页[16] Xiaoyan Li ， Meina Kan ， Shiguang Shan ， and XilinChen.弱监督目标检测与分割合作。arXiv预印本arXiv：1904.00551，2019。[17] 林宗义、彼得·多尔、罗斯·格希克、何启明、巴拉特·哈里哈兰和塞尔日·贝隆吉. 用于目标检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议论文集，第2117-2125页[18] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740-755页。Springer，2014.[19] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ， Scott Reed ， Cheng-Y

下载后可阅读完整内容，剩余1页未读，立即下载