计数引导弱监督定位（C-WSL）：通过计数引导的监督形式改进弱监督定位方法，使用基于计数的区域选择算法提高区域质量，并将其集成到现有的WSL架构中

160 浏览量更新于2023-10-13 收藏 3.64MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

C-WSL：计数引导的弱监督定位高明飞1，李昂2，余瑞驰1，弗拉德I. Morariu3， and Larry S. 戴维斯11马里兰大学帕克分校2DeepMind3 Adobe Research{mgao，richyu，lsd}@ umiacs.umd.edumorariu@adobe.comanglili@google.com抽象。我们引入计数引导的弱监督定位（C-WSL），这种方法使用每类对象计数作为一种新的监督形式，以改善弱监督定位（WSL）。C-WSL使用简单的基于计数的区域选择算法来选择高质量的区域，每个区域在训练期间覆盖单个对象实例，并且通过使用所选择的区域进行训练来改进现有的WSL方法。为了证明C-WSL的有效性，我们将其集成到两个WSL架构，并在VOC 2007和VOC 2012上进行了广泛的实验。实验结果表明，C-WSL导致大的改进WSL和所提出的方法显着out-performing国家的最先进的方法。VOC2007上的注释实验的结果表明，一个适度的额外的时间是需要获得每类对象计数相比，仅标记图像中的对象类别此外，与中心单击和边界框注释相比，我们将注释时间减少了2倍和38倍以上关键词：弱监督局部化·计数监督1介绍卷积神经网络（CNN）在对象检测任务上已经实现了最先进的性能[29，23，27，28，32，21，12，20，37，33，38，39]。然而，这些检测器是在强监督环境中训练的，需要大量的边界框注释和大量的人工劳动。为了减轻人类注释的负担，弱监督定位（WSL）方法使用弱监督来训练检测器，例如。图像级超视，而不是紧密的对象边界框。图像中对象类别的存在可以在互联网上几乎免费获得，因此大多数现有的WSL架构只需要对象类别作为监督。现有方法[1，3，5，15，24，36，35，19，14，40，16，30，34]已经提出了不同的架构来解决WSL问题。然而，在标准对象检测基准[9，10，22]上，弱监督检测器和强监督检测器[29，28，23通常，这是由于对象类别监督提供的信息有限。一个重大悬案该作品是作者在马里兰大学时完成的2M. Gao，中国粘蝇A.利河，巴西-地Yu，V.I.Morariu和L.S. 戴维斯训练阶段测试阶段狗WSL检测器（2，建议检测区域选择培训测试Fig. 1.给定一组对象建议和每类对象计数标签，我们选择高质量的正区域（紧密覆盖单个对象）来训练WSL检测器。计数信息显著地减少了检测到的松散且包含两个或更多对象实例的边界框，这是弱监督检测器WSL的问题在于高置信度检测倾向于包括多个对象而不是一个对象。如图 1（红十字分支），因为包含多只狗的训练图像被标记为“狗”，所以检测器倾向于学习多只狗的复合外观，就好像它们是一只狗一样，并且在测试时将多只狗分组为单个实例。为了解决这种模糊性，我们使用每类对象计数信息来监督检测器训练。对象计数是一种图像级监督，比实例级监督（如中心点击[26]和边界框）弱得多，也便宜与中心点击和边界框注释不同，它们需要几个训练有素的注释者来指定每个对象的中心和紧密框，对象计数不包含位置信息，并且可以在不实际点击对象的情况下获得。此外，心理学中一种被广泛研究的现象，称为subitizing [4]，表明如果图像中的对象总数很小（通常为1-4），则人类能够确定对象的数量，而无需依次指向或注视每个对象[2]。因此，人们可以仅用一瞥就能够指定对象计数。证明计数注释的廉价性，我们在Pascal VOC2007上进行了注释实验实验结果表明，只需要少量的额外的时间来获得每类对象计数相比，标记只是对象类别的图像和计数注释的响应时间是远远小于对象中心和边界框。我们提出的方法，计数引导WSL（C-WSL），如图所示。1.一、在训练过程中，C-WSL利用每类对象计数监督来从一组对象提议中识别正确的高分对象边界框。然后，用这些高质量区域作为伪地面实况（GT）边界框来细化弱监督检测器。该策略类似于使用自动识别的边界框[19，14，35]来细化检测器的现有WSL方法。然而，由于这些方法不利用对象计数监督，因此它们仅将最高得分区域视为伪GT框，而不管图像中存在的对象实例的数量。这有时会导致将多个对象实例分组到单个pseudo中C-WSL3G TBOX，这会损害检测器的本地化能力，并导致数据丢失。在对象计数标签的指导下，C-WSL选择将对象集合作为图中的所示的紧凑盒区域。1（“（2，D og）”表示）。C-WSL的主要贡献是它使用了每个类的对象计数，一种廉价且有效的图像级监督形式，以解决WSL中的常见故障情况，其中一个检测到的边界框包含多个对象实例。为了实现C-WSL，我们开发了一个简单的基于计数的区域选择（CRS）算法，并将其集成到两个现有的架构-交替检测器细化（ADR）和在线检测器细化（ODR）-显着提高WSL。在Pascal VOC 2007 [9]和VOC 2012 [10]上的实验结果表明，C-WSL显著改善了WSL检测，并且优于最先进的方法。2相关作品基于MIL的CNN方法。大多数现有的WSL方法[1，3，5，15，24，36，35，19，14]基于多实例学习（MIL）[6]。在MIL设置中，包被定义为图像内的区域的集合。如果袋中至少有一个实例为阳性且标记为阴性，则袋标记为阳性如果它的所有样本都是负的。Bilen等人 [1]提出了一种双流CNN架构，可以同时进行分类和定位，并以端到端的方式训练网络。在[1]之后，Kantorov等人[15]添加了加法和对比模型，以改进对象边界而不是局部部分的定位。 Singhetal. [34]提供“Hi-de-and-Seek”（高级和高级视图），以鼓励WSL检测完整的在[19]中，Li等人进行了渐进式域自适应，并显着提高了基线检测器的定位能力。Diba等人 [5]在两个/三个级联阶段中执行WSL，以基于生成的类别激活图找到最佳候选位置。Jie等人提出了一种自学的学习方法在[14]中，其在分类器训练和在线支持样本收获之间交替。类似地，在[35]中，Tang等人设计了一个在线分类器细化流水线，以逐步定位图像的最具鉴别力的区域。[14]和[35]与我们的方法最相关，因为我们也进行交替和在线检测器细化。然而，代替使用得分最高的检测作为正标签[35]或通过解决复杂的稠密子图发现问题[14]来挖掘置信区域，我们使用每类对象计数，这是一种廉价的形式指导区域选择，逐步获得较好的正向培训区域。不同监督的WSL[25]提出了一个新的框架，其中注释器验证预测的结果，而不是手动绘制框。Kolesnikov等人 [17]将物体或干扰物标签分配给图像中共存的物体改善WSL。Papadopoulos等人。 [26]提出了点击监督，并将其集成到现有的基于MIL的方法中，以提高本地化性能。然而，这些方法要么高度依赖于生成的结果，需要与注释者频繁交互，要么需要注释者搜索4M. Gao，中国粘蝇A.利河，巴西-地Yu，V.I.Morariu和L.S. 戴维斯0.950.950.800.820.200.300.800.820.200.30相容互斥图二、WSL方法的常见失败案例（左）和我们的区域选择公式的图形表示（右）。我们的目标是选择两个绿色的盒子，每个盒子紧紧地覆盖一个对象，作为WSL检测器的正训练样本我们通过分析区域之间的置信度和空间约束来实现这一点并单击图像中的每个实例。相比之下，对象计数是图像级注释，其根本不包含位置信息它可以在没有点击和很少交互的情况下获得，因此需要更少的注释时间。3该方法C-WSL选择区域覆盖单个对象的帮助下，每类对象计数监督，然后细化WSL检测器使用这些区域作为伪GT边界框。我们首先介绍了一个简单的基于计数的区域选择（CRS）算法，C-WSL依赖于从训练图像上的对象建议中选择高质量的区域。然后，我们将CRS集成到两个检测器细化结构，以改善弱监督检测器。3.1基于计数的区域选择（CRS）如图2（左），在没有对象计数信息的情况下，以前的方法通常选择训练图像中得分最高的框作为正训练样本来改进WSL检测器[35，19，14]。它们的检测性能降低，因为在许多情况下，最高得分框包含来自相同类别的多个对象，例如，，两只猫。我们的目标是选择不同的区域，每个区域覆盖一个对象作为正训练样本，在对象计数约束的帮助下，使得检测器将学习单个猫的外观我们制定的问题作为一个区域选择问题。给定一组盒B={bl，…bN}，并且确定的系数P={p1，… pN}（e. G. ，每个检测器细化迭代中的区域的检测得分），选择子集G作为正训练区域的集合，其中|G |=C，C表示每个类的对象计数。我们确定了一个很好的子集G使用的贪婪算法应用到一组框的图形表示每个盒子都代表C-WSL5作为图中的一个节点，如果两个节点的相应框的空间重叠低于阈值，则两个节点是连接的（见图中的实线）。2）的情况。贪婪算法提供了对以下优化问题的近似：G = arg maxGΣbk∈Gpk，（一）S. t. |G |=C，ao（bi，bj） smax，则∗smax←s; G ←G折断;1常用的对称交并测度将选择足够小的区域，即使它们被现有的大框完全重叠6M. Gao，中国粘蝇A.利河，巴西-地Yu，V.I.Morariu和L.S. 戴维斯GT候选生成伪GT基于计数的区域选择WSL检测器列车检测器生成伪GT(a) 交替检测器细化（b）在线检测器细化w/CRS图3.第三章。（a）：应用基于计数的区域选择（CRS）以从由WSL检测器生成的地面实况（GT）候选框中选择高质量然后使用这些区域来细化WSL检测器。(b)多实例检测网络（MIDN）[1，35]和多个检测器网络共享相同的特征表示，以在所有阶段一起优化检测器。Cls损失表示分类损失，Bbox损失表示边界框回归损失3.2具有CRS的交替检测器细化（ADR）。我们首先将CRS集成到交替的WSL细化架构中，其中可以迭代地细化差的弱监督检测器该架构如图所示3，其中WSL检测器在生成高质量区域作为伪地面实况（GT）框和使用这些GT框来改进自身之间交替一些WSL方法基于这样的策略[3，14]。主要的区别是，我们使用CRS来选择多个高质量的区域作为GT框。初始化阶段。我们首先使用预先训练的WSL检测器从训练数据生成一组框候选。这组框候选被视为作为初始化的伪GT，并且之后将被迭代地细化交替训练阶段。我们使用Fast R-CNN [13]作为我们的WSL网络。从初始化的伪GT框开始，Fast R-CNN在通过用CRS生成的伪GT框进行再训练来改进自身和在训练图像上生成一组细化的GT候选框之间在线检测器优化（ODR）。如[35]中所述，交替策略具有两个潜在的限制：1）在固定标签上的训练和由训练模型生成标签之间交替是耗时的;2）将细化分离到不同的迭代中可能会损害性能，因为它阻碍了在迭代中共享图像表示的过程基于[35]，我们提出了一个与CRS集成的在线检测器细化框架所提出的方法的图示在图中示出。3.多实例检测网络（MIDN）和若干检测器细化阶段共享从主干结构提取的相同特征表示。的图像丢失探测器优化，第1次Cls损失转换层FC层图像分数图像标签建议得分预测框伪GT框CRSBbox损失Cls损耗Bbox损CRS探测器优化，第k次MidnC-WSL7MIDN利用对象类别标签来监督其训练，如[35，1]所示。每个检测器细化网络输出每个区域提议的分类分数和预测的边界框在每个阶段具有分数的预测框将用于选择伪GT用于下一阶段细化。与[35]相比，我们有两个主要的区别：1）我们使用CRS来生成高质量的区域作为伪GT，而不仅仅是选择得分最高的区域; 2）我们使用分类损失和边界框回归损失来进行检测器改进，就像RCNN一样。注意，由MIDN产生的CRS的输入是在对建议求和之前具有分数的建议。4实验我们与现有的WSL方法进行了比较，这些方法是由对象类库训练的，以显示per-clascuntsu pervision的优势。这可能是一个不公平的组合，因为这些属性可以在与对象类相比较的情况下提供更多的规范然而，我们通过我们的注释实验证明，额外信息的成本是非常低的，这使得它合理地确定通过添加这些信息可以获得多少改进。4.1实验装置数据集和评估指标。在VOC2007 [9]和VOC2012 [10]上进行了与最先进方法的比较，其中包含20个对象类别。对于VOC2007，所有模型都在包含5，011 张图像的训练集上训练，并在包含 4 ， 952 张图像的测试对于VOC2012，模型在训练集的5，717个图像上进行训练，并在val集中的5，823个图像上进行评估我们使用两个广泛使用的指标进行定位评估：正确定位（CorLoc）[24]和平均精度（AP）[11]。CorLoc通过测量检测的最大响应点是否在地面实况边界框内来评估定位精度。AP通过比较输出和地面实况边界框之间的IoU来评估模型。实施详情。我们固定T= 0。对于两个数据集上所有迭代的所有模型，均为1。注意，我们的实验表明该方法对T是鲁棒的，例如，以步长0.1将T从0.1变化到1，我们实现了（平均值，标准差）=（47.2%， 0.42%）mAP。在[14，35]之后，我们将总迭代次数设置为3，并使用VGG16[31]作为ADR和ODR的主干结构。为了公平比较，现有的作品也使用VGG16，除了[3]使用AlexNet。在ADR中，我们严格遵循在每次迭代中训练Fast-RCNN的步骤，并使用所有已发布的默认训练参数，除了我们使用生成的伪GT框而不是边界框标签。在网上解决中，我们遵循[35]中的基本MIDN结构和训练过程，并使用作者发布的参数。请注意，我们在ODR中使用与[13]相同的分类和边界框回归损失我们的方法的变化C-WSL：WSLPDA/OICR+ADR 表示使用预训练的WSLPDA [19]（或OICR [35]）模型初始化的 A D R ，其中CRS是8M. Gao，中国粘蝇A.利河，巴西-地Yu，V.I.Morariu和L.S. 戴维斯用于在每次迭代中选择置信GT框。然后，如我们在第2节中提到的，快速RCNN被交替地细化3.2. C-WSL：ODR表示图1中所示的结构。3（b）款。C-WSL：ODR+FRCNN表示使用C-WSL：ODR生成的最高得分区域训练的快速RCNN，以改善结果（受[19，35]的启发）。C-WSL*表示通过我们的注释计数训练的模型。4.2注释时间与检测精度对象计数非常简单。用户界面包括图像和指示计数的15个按钮我们将对象计数上限设置为15，因为同类的计数很少大于15。类似于点击实验[21]，注释者被赋予一个类别，并被要求点击与该类别相对应的计数在[26]之后，给定一个对象类别，我们测量从图像出现的那一刻到确定计数的对象实例计数的响应时间注释评价在具有20个VOC 2007类别的完整训练集上进行[9]。每类每图像计数单个对象的平均响应时间为0。90后注释单个图像类的每个图像的平均响应时间为1。5比1 9 s [18]，给定对象类的注释计数为1。48 s，因此从图像中获得每类对象计数仅需要1。48比1 9 = 78%比1。48比1 5=与仅注释对象类相比，时间多99%。每个图像的对象计数的注释时间随着对象数量的增加而增加然而，对所有对象进行计数可能并不总是有帮助的，尤其是对于具有许多对象的图像，因为这些图像更可能描绘复杂场景，例如显著遮挡和小对象实例，并且对于这样的图像，所生成的GT候选可能首先不包括所有对象。因此，我们使用最多K个每类对象注释来评估我们的模型的检测精度，其中K是针对每个图像计数的每类对象实例的上限。显然，K与注释时间呈正相关，因为注释者可能无法对高K值进行subitize，并且将需要花费成比例的时间量K，以便产生精确的计数。mAP和平均CorLoc与K如图所示4.第一章结果表明，检测精度达到最高点时，最多3每类对象计数每图像。对于具有最多3个每类对象的图像，每个图像的平均注释时间为1。20秒，与对象类别注释相比，开销为63%- 80%我们比较我们的模型训练我们的注释计数和那些获得表1.精度与VOC2007上的边界框、点击和计数监督之间的成本。我们使用[29]作为完全监督检测器方法[29]第二十九话[26]第二十六话[26]第二十六话C-WSL*：ODR+FRCNN最大平均接入点（%）69.949.1（AlexNet）/57.5（VGG16）45.9（AlexNet）48.2（VGG16）注释成本34.5s/img+anno. 火车+重新抽取拒收的箱子3.74s/img+anno. 火车+重新点击被拒绝的点击1.87s/img+anno. 火车+重新点击被拒绝的点击0.90s/imgC-WSL9C-WSL*：WSLPDA+ADRC-WSL*：OICR+ADRC-WSL*：ODRC-WSL*：ODR+FRCNN最大平均接入Avg. CorLoc与VOC2007培训中的K67mAP与VOC2007测试中的K4966 4865 4764 4663 4562 4461 4360 42591（0.99）2（1.12）3（1.20）4（1.27）5（1.33）6（1.37）7（1.40）全部（1.48）每类最多K个对象411（0.99）2（1.12）3（1.20）4（1.27）5（1.33）6（1.37）7（1.40）全部（1.48）每类最多K个对象见图4。当在图像中计数至多K个每类对象时的检测精度分析。括号中显示了每个K当K=3时，检测精度变得稳定从选项卡中的VOC2007注释。2和3结果表明，由两组注释训练的模型具有相当的性能，这表明我们的注释与VOC2007注释一样有用。因此，在下面的分析中，我们只使用（C-WSL）VOC 2007注释。准确性和成本之间的比较框，点击和计数监督显示在选项卡。1.虽然我们的方法的准确性并不优于监督和双击方法，但我们已经实现了注释成本的显着降低。我们是38倍和4倍快的响应时间，为一个单一的图像。此外，框和点击注释需要额外的重复注释器培训，以准确定位对象和冗长的质量控制过程。我们的注释不需要知道对象的位置，因此它避免了对位置噪声的敏感性因此，在我们的实验中，我们不4.3与最新技术水平（SOTA）方法的比较VOC2007测试集上的mAP和VOC2007训练集上的CorLoc的比较如表1所示。2和3中所示。总体而言，所提出的C-WSL：ODR+FRCNN优于使用CorLoc和mAP测量的所有现有SOTA方法。选项卡.图4和图5将我们的变体与两个基线检测器进行比较，即[19]结果表明，即使是简单的ADR策略也可以显着改善结果。此外，如果我们使用对象计数信息，我们可以大大提高WSLPDA 6.2%mAP（9.5%平均CorLoc）和OICR 5.2%mAP（4.0%平均CorLoc）。C-WSL在VOC 2007测试集上的mAP 方面（在VOC 2007训练集上的CorLoc方面）改善了WSLPDA+ADR在20个类别中的17（15）个类别上的结果2这些数字是使用作者发布的代码复制的C-WSL*：WSLPDA+ADRC-WSL*：OICR+ADRC-WSL*：ODRC-WSL*：ODR+FRCNNAvg. CorLoc（%）10M. Gao，中国粘蝇A.利河，巴西-地Yu，V.I.Morariu和L.S. 戴维斯表2.在VOC2007测试的mAP方面与最新技术水平的比较集如果我们的号码是这一栏中最好的，就用红色方法是BIKBRDBoaBTL总线车猫Cha牛TBL狗小时MBKPRSPLTSHPSFA土耳其电视台地图Cinbis等人[ 3]第一章39.343.0 28.8 20.4 8.0 45.5 47.9 22.1 8.4 33.5 23.6 29.2 38.5 47.9 20.3 20.0 35.8 30.8 41.030.2Wang等人[ 36个]48.841.0 23.6 12.1 11.1 42.7 40.9 35.5 11.1 36.6 18.4 35.3 34.8 51.3 17.2 17.4 26.8 32.8 35.1 45.630.9Jie等[14个]52.247.1 35.0 26.7 15.4 61.3 66.0 54.3 3.0 53.6 24.7 43.6 48.4 65.8 6.6 18.8 51.9 43.6 53.6 62.441.7WSDDN [1]39.450.1 31.5 16.3 12.6 64.5 42.8 42.6 10.1 35.7 24.9 38.2 34.4 55.6 9.4 14.7 30.2 40.7 54.7 46.934.8[15]第十五话57.152.0 31.5 7.6 11.5 55.0 53.1 34.1 1.7 33.1 49.2 42.0 47.3 56.6 15.3 12.8 24.8 48.9 44.4 47.836.3WSDDN-Ens。[1]第一章46.458.3 35.5 25.9 14.0 66.7 53.0 39.2 8.9 41.8 26.6 38.6 44.7 59.0 10.8 17.3 40.7 49.6 56.9 50.839.3WCCN-3级[5]49.560.6 38.6 29.2 16.2 70.8 56.9 42.5 10.9 44.1 29.9 42.2 47.9 64.1 13.8 23.5 45.9 54.1 60.8 54.542.8WSLPDA [19]54.547.4 41.3 20.8 17.7 51.9 63.5 46.1 21.8 57.1 22.1 34.4 50.5 61.8 16.2 29.9 40.7 15.9 55.3 40.239.5OICR [35]58.062.4 31.1 19.4 13.0 65.1 62.2 28.4 24.8 44.7 30.6 25.3 37.8 65.5 15.7 24.1 41.7 46.9 64.3 62.641.2OICR-Ens.+法国有线电视新闻网（FRCNN）2 [35]64.564.4 44.1 25.9 16.9 67.8 68.4 33.2 9.0 57.5 46.4 21.7 57.8 64.3 10.0 23.7 50.6 60.9 64.7 58.045.5C-WSL：ODR62.7 63.7 40.0 25.5 17.7 70.1 68.3 38.9 25.4 54.5 41.6 29.9 37.9 64.2 11.3 27.4 49.3 54.7 61.467.445.6C-WSL*：ODR62.9 64.8 39.8 28.1 16.4 69.5 68.2 47.0 27.9 55.8 43.7 31.2 43.8 65.0 10.9 26.1 52.7 55.3 60.2 66.646.8C-WSL：ODR+FRCNN61.9 61.9 48.6 28.723.3 71.1 71.3 38.728.5 60.6 45.4 26.3 49.7 65.5 7.2 27.3 54.761.6 63.2 59.547.8C-WSL*：ODR+FRCNN62.968.3 52.9 25.8 16.571.1 69.5 48.2 26.0 58.6 44.5 28.2 49.666.4 10.2 26.455.3 59.9 61.6 62.248.2表3.在VOC 2007的CorLoc（%）方面与最新技术水平的比较训练值集如果我们的号码是这一栏中最好的，就用红色方法是BIKBRDBoaBTL总线车猫Cha牛TBL狗小时MBKPRSPLTSHPSFATRN电视Avg.Cinbis等人[3]第一章65.355.0 52.4 48.3 18.2 66.4 77.8 35.6 26.5 67.0 46.9 48.4 70.5 69.1 35.2 35.2 69.6 43.4 64.6 43.752.0Wang等人[ 36个]80.163.9 51.5 14.9 21.0 55.7 74.2 43.5 26.2 53.4 16.3 56.7 58.3 69.5 14.1 38.3 58.848.5Jie等[ 14个]72.755.3 53.0 27.8 35.2 68.6 81.9 60.7 11.6 71.6 29.7 54.3 64.3 88.2 22.2 53.7 72.2 52.6 68.9 75.556.1WSDDN [1]65.158.8 58.5 33.1 39.8 68.3 60.2 59.6 34.8 64.5 30.5 43.0 56.8 82.4 25.5 41.6 61.5 55.9 65.9 63.753.5[15]第十五话83.368.6 54.7 23.4 18.3 73.6 74.1 54.1 8.6 65.1 47.1 59.5 67.0 83.5 35.3 39.9 67.0 49.7 63.5 65.255.1WSDDN-Ens。[1]第一章68.968.7 65.2 42.5 40.6 72.6 75.2 53.7 29.7 68.1 33.5 45.6 65.9 86.1 27.5 44.9 76.0 62.4 66.3 66.858.0WCCN-3级[5]83.972.8 64.5 44.1 40.1 65.7 82.5 58.9 33.7 72.5 25.6 53.7 67.4 77.4 26.8 49.1 68.1 27.9 64.5 55.756.7SP-VGGNet [40]85.364.2 67.0 42.0 16.4 71.0 64.7 88.7 20.7 63.8 58.0 84.7 80.0 60.0 29.4 56.3 68.1 77.4 30.560.6WSLPDA [19]78.267.1 61.8 38.1 36.1 61.8 78.8 55.2 28.5 68.8 18.5 49.2 64.1 73.5 21.4 47.4 64.6 22.3 60.9 52.352.4OICR [35]81.780.4 48.7 49.5 32.8 81.7 85.4 40.1 40.6 79.5 35.7 33.7 60.5 88.8 21.8 57.9 76.3 59.9 75.3 81.460.6OICR-Ens.+法国有线电视新闻网（FRCNN）2 [35]88.378.8 62.8 48.9 38.9 83.2 85.4 50.0 21.9 77.4 45.6 41.9 79.3 91.6 12.6 60.8 86.6 70.2 80.2 79.964.2C-WSL：ODR86.3 80.4 58.3 50.0 36.685.8 86.2 47.1 42.7 81.5 42.2 42.6 50.7 90.0 14.361.9 85.6 64.2 77.2 82.463.3C-WSL*：ODR85.8 81.2 64.9 50.5 32.1 84.3 85.9 54.7 43.4 80.1 42.2 42.6 60.5 90.4 13.7 57.5 82.5 61.8 74.1 82.463.5C-WSL：ODR+FRCNN85.8 78.0 61.652.1 44.7 81.788.4 49.1 50.082.9 44.1 44.4 63.9 92.4 14.3 60.486.6 68.380.6 82.865.6C-WSL*：ODR+FRCNN87.581.6 65.552.1 37.4 83.8 87.9 57.650.3 80.8 44.9 44.4 65.692.8 14.9 61.2 83.5 68.5 77.683.566.1表4.在VOC2007测试集上与基线的mAP比较。该表包含由双实线分隔的两个比较组每组显示ADR和C-WSL改善每个基线的程度。如果C-WSL变体优于其基线，则使用下划线方法是BIKBRDBoaBTL总线车猫Cha牛TBL狗小时MBKPRSPLTSHPSFA土耳其电视台地图WSLPDA [19]54.547.4 41.3 20.8 17.7 51.9 63.5 46.1 21.8 57.1 22.1 34.4 50.5 61.8 16.2 29.9 40.7 15.9 55.3 40.239.5WSLPDA+ADR57.968.3 47.8 20.3 12.2 52.9 67.6 68.8 24.6 50.0 24.9 49.8 54.8 63.5 14.1 27.4 41.2 19.5 57.1 30.742.7C-WSL：WSLPDA+ADR60.570.152.524.724.463.671.858.126.066.426.5 34.755.065.8 8.831.951.620.460.041.845.7OICR [35]58.062.4 31.1 19.4 13.0 65.1 62.2 28.4 24.8 44.7 30.6 25.3 37.8 65.5 15.7 24.1 41.7 46.9 64.3 62.641.2OICR+ADR58.161.2 43.3 24.4 19.4 65.5 67.1 34.3 3.6 56.5 45.5 26.4 61.9 60.7 10.4 23.6 49.2 62.1 61.4 64.244.9C-WSL：OICR+ADR61.766.845.621.123.567.273.8 32.5 10.6 54.6 42.9 16.6 59.2 63.3 11.025.455.3 61.367.467.846.4表5.在VOC 2007训练值集上与基线检测器的CorLoc（%）比较。该表包含由双实线分隔的两个比较组。每组显示ADR和C-WSL改善每个基线的程度。如果C-WSL变体优于其基线，则使用下划线方法是BIKBRDBoaBTL总线车猫Cha牛TBL狗小时MBKPRSPLTSHPSFA土耳其电视台Avg.WSLPDA [19]78.267.1 61.8 38.1 36.1 61.8 78.8 55.2 28.5 68.8 18.5 49.2 64.1 73.5 21.4 47.4 64.6 22.3 60.9 52.352.4WSLPDA+ADR84.676.9 69.7 41.0 21.8 68.5 83.2 77.6 34.4 76.7 19.8 73.7 75.2 84.7 26.3 53.8 70.1 22.3 73.8 50.959.2C-WSL：WSLPDA+ADR83.380.070.951.641.273.685.3 67.740.779.520.9 54.779.687.1 24.556.883.5 20.776.060.261.9OICR [35]81.780.4 48.7 49.5 32.8 81.7 85.4 40.1 40.6 79.5 35.7 33.7 60.5 88.8 21.8 57.9 76.3 59.9 75.3 81.460.6OICR+ADR85.876.9 65.8 49.5 38.5 83.2 84.8 49.7 14.0 79.5 46.8 41.2 80.3 89.2 15.0 60.1 84.5 66.4 78.3 80.663.5C-WSL：OICR+ADR85.4 78.0 65.549.543.584.387.5 48.0 23.680.8 43.3 38.8 79.992.8 15.860.187.666.481.0 80.364.6C-WSL11VOC2007列车阀组多对象百分比0.60.50.40.30.20.60.50.40.30.20.10.100 2 4 6 810121416182000 2 4 6 8101214161820图五.多个对象的图像数与非零对象的图像数之比。请注意，“p s o n”m e an s“p er rs o n”、“p l t”m e an s“p l an n t”和“s hp”d e n ot es“s h ee p”。C-WSL在大多数具有高多对象百分比的类上工作得更好参见第4.3如第二节所述。1，对象计数信息有助于避免检测器定位在多个对象上。为了证明这一点，我们首先计算在V OC 2007中每个类有多个对象（多对象）的图像的百分比。就像在电影里一样。在图5中，“bot tle”、“car”、“chal r”、“cow”、“p e r s on”、“p l an t”和“s h e ep”具有较高的图像长度，其中在相应的类别中包含多于一个对象。如Tab.所示。在图2和图3中，C-WSL：ODR+FRCNN对于这7个类别中的5个类别优于SOTA方法。在研究WSLPDA上对象计数监督的效果时和OICR，我们看到这些类别的显着改善，如Tab. 4和d5。 Considerhes h e p a t e gore a p a t e gor e p a t e p a t e gor e p a t e p e pe C-WSL：WSLPDA+ADR将WSLPDA+ADR 改进了 13. 4%CorLoc 和 10.4%AP 。 C-WSL ：OICR+ADROICR+ADR 提高 3 。 1%CorLoc 和 6. 1%AP 。图图 6 示出了由OICR+CRS和OICR选择的训练区域的一些示例。OICR倾向于选择包含多个实例的区域，而对象计数有助于获得包含单个实例的区域。我们的C-WSL：ODR+FRCNN和OICR-Ens之间的定性比较。FRCNN在VOC2007测试集上的测试结果如图所示。8，表明我们的方法实现了更精确的定位时，多个每类对象出现在图像中我们将进一步分析我们的方法对图像的不同数量的对象在秒。4.4选项卡.图6和图7示出了C-WSL与VOC 2012上的SOTA的比较。请注意，WSLPDA和OICR模型的结果是通过运行预训练模型和作者发布的代码来复制的。结果表明，我们的方法优于SOTA方法（OICR-Ens.+FRCNN） 2。VOC2012 值集上的mAP为6%，而 2. VOC2012列车组的CorLoc为8%C-WSL在VOC 2012val集的mAP方面（在VOC 2012列车集的CorLoc方面）改进了WSLPDA+ADR在20个类别中的12（10）个类别上的结果以及OICR+ADR在20个类别中的10（12）个类别上的结果我们还使用COCOmAP@0.5指标在MS COCO [22] 35 k-val 2014集中的常见20个类上评估了我们的方法和基线（在VOC 2007训练集上预先训练）虽然没有在COCO上

下载后可阅读完整内容，剩余1页未读，立即下载