全网络监督噪声感知目标检测

88 浏览量更新于2023-10-25 收藏 1.77MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11326噪声感知的全网络监督目标检测沈云航1，冀荣荣1，陈志伟1，洪小鹏2，郑锋3，刘建庄4，徐明亮5，田琦41厦门大学信息学院人工智能系媒体分析与计算实验室2西安3南方科技大学计算机科学与工程系4华为诺亚hongxiaopeng@mail.xjtu.edu.cnzhengf@sustech.edu.cnhuawei.comiexumingliang@zzu.edu.cnhuawei.comzhiweichen@stu.xmu.edu.cnrrj@xmu.edu.cnshenyunhang01@gmail.com摘要我们研究了新兴的任务，学习对象检测器在网络上的唯一图像级标签，而不需要任何其他监督，如精确的注释或额外的图像从良好的注释基准数据集。这样的任务，被称为完全网络监督对象检测，是非常具有挑战性的，因为网络上的图像级标签总是嘈杂的，导致学习检测器的性能差。在这项工作中，我们提出了一个端到端的框架来共同学习网络监督检测器，并减少噪声标签的负面影响这种噪声是异质的，其进一步分为两种类型，即背景噪声和前景噪声。对于背景噪声，我们提出了一种结合弱监督检测的残差学习为了明确地学习干净数据和噪声标签之间的残差特征，我们进一步提出了一种空间敏感的熵准则，该准则利用检测结果的条件分布来估计背景类别是噪声的置信度对于前景噪声，引入了装袋混合学习，该学习抑制了来自错误标记图像的前景噪声信号，同时保持了训练数据的多样性。我们通过在网络图像上训练检测器，在流行的基准数据集上评估了所提出的方法，这些网络图像由来自照片共享网站的相应类别标签检索大量的实验表明，我们的方法实现了显着的改进，比国家的最先进的方法1。*通讯作者。1代码和数据集可从以下网址获得：https://github.com/shenyunhang/NA-fWebSOD.图1：完全网络监督对象检测的整体流程图。1. 介绍大多数对象检测方法[18，40，33，39，14，13，15]依赖于强监督，即，地面实况边界框，来自良好注释的数据集[12，32]用于训练。Mask R-CNN [22]等方法甚至利用细粒度的像素级掩码进行监督。显然，收集边界框或像素级掩模的注释是劳动力昂贵的，这导致在类别多样性和标签数量方面的解释方法的严重限制使用这样的设置来学习对象检测器以有效地处理众多对象类别是不可行的。降低强监督视觉要求的一种方法是弱监督对象检测（WSOD），其仅依赖于手动图像级注释进行训练[37，6，50，56，45，44]。然而，对于需要非常大规模的图像集和类别的应用，图像级注释仍然需要巨大的人力。相比之下，随着照片分享网站的流行11327图2：该图描述了通过查询aeroplane检索的几个Web图像。当目标类别只有飞机和人时，分别列举了相应的背景标记（ BL ）、前景标记（ FL ）、背景噪声（BN）和前景噪声（FN）。像Flickr一样，网络上有大量带有噪声标签的图像因此，期望从具有噪声图像级标签的这种大规模web资源中学习对象检测器，这被称为Webly监督对象检测（ WebSOD ）。本文重点研究了全 WebSOD（fWebSOD），即，WebSOD的最极端的情况下，只有网络图像可用，在训练过程中没有良好注释的基准，如图所1.一、与WSOD和WebSOD相比，fWeb-SOD在不需要任何其他形式的知识的情况下，珍贵的注释或来自注释良好的基准数据集的附加图像。虽然fWebSOD在文献中没有任何现有工作的情况下具有挑战性，但已经进行了WebSOD的几次尝试[11，7，53]。Web- SOD任务的常用方法直接从Web标签中学习检测器，从简单到复杂的策略[7，52]或使用附加数据，例如， Google books ngrams 语料库 [11]和PASCAL VOC图像[53]。这样的方法具有一个主要缺点：它们没有明确地减少web数据中的图像级标签噪声的负面影响此外，这些方法通常在训练或测试期间遵循两阶段/多阶段方案。小的工作探索了fWebSOD任务的端到端管道。在本文中，我们通过在端到端的fash- ion中处理图像级噪声标签来解决上述缺点。我们将异质噪声分为两种类型，即背景噪声和前景噪声。在此我们定义了几个相关概念. (i)背景标签和前景标签分别被称为图像级标签的背景和前景部分(ii) 背景噪声，即，缺失标签表示那些不能描述图像中存在的前景类别的背景标签。例如，类别person和areoplane的实例在图2的2，但是类别人没有被标记，其被定义为背景噪声。 (iii)前景噪声表示图像中未出现前景类别例如，图的最后一个图像。2不包含任何目标类别的飞机。为了处理背景噪声，我们通过用残差学习对干净的数据为此，背景标签的可靠部分需要从大量噪声数据中明确识别。我们观察到背景类别的精确检测结果的分布是空间分散的，并且在数值上是均匀的。出于这种观察的动机，对于背景标签，我们采取产生具有均匀和中等分数的空间分散的建议，同时惩罚只有少数聚类建议产生高分的检测结果。为了处理前景噪声，我们收集了相同前景标签的多个图像来合成一组新的训练样本，这是受多实例分类（MIC）[1]的启发，其中任何具有阳性标签的物质都会将阳性标签移动到相应的袋子。这种多实例装袋机制能够抑制来自不正确标签的前景噪声的影响，并且同时保持训练样本的多样性。特别是，我们提出了一个端到端的学习框架，以共同学习完全网络监督的检测器，并减少图像级噪声标签的负面影响。给定一组目标类别，我们查询照片共享网站，如Flickr自动检索相应的Web图像。为了解决背景噪声，我们设计了一个残差学习结构结合弱监督检测。提出了一种新的空间敏感的熵准则，用于在边界框搜索空间中估计检测结果的空间熵和数值熵。该准则估计背景标签为噪声的置信度。为了处理前景噪声，引入了一种装袋-混合学习策略，收集多幅具有相同前景标签的图像，合成一组新的训练样本，每个训练样本都是袋子中所有图像的凸组合。广泛的实验表明，所提出的框架在PASCAL VOC和MS COCO上实现了比最先进方法[11，7，53]的显著改进综上所述，本文的主要贡献如下：• 我们提出了一个残差学习结构，在端到端的框架中结合弱监督检测，学习完全的网络监督去检测。通过分解噪声和建模干净的数据，来检测和减少噪声标签的负面影响• 进一步提出了一种空间敏感的熵准则和一种bagging- mixup学习来显式估计匹配背景标签噪声的置信度，并抑制前景噪声的影响，11328i=1i=1eXeXXeXe我i=1标签不正确。• 我们的模型只在网络数据上训练，每个类别大约有4000张图像，与流行的最先进的方法相比，最大基准，即，PASCAL VOC和MS COCO。2. 相关工作弱监督目标检测。WSOD指的是学习一个只具有图像级注释的对象检测模型，该注释仅指示对象类别的存在。最近的方法将卷积神经网络（CNN）和多实例分类（MIC）[1]结合到一个统一的框架中[6，28，10，51，42，43]。MIC的学习阶段在选择阳性样本和训练外观模型之间交替有一些方法通过利用深度特征图[4，3，62，59]和类激活图[61，20，59]来关注无命题范式。一些作品还使用附加的注释和数据来提高性能，例如，对象大小估计[47]、实例计数注释[16]、视频运动提示[49]和人类验证[38]。还利用了用于渐进式跨域适应的知识转移，例如，数据域自适应[46]和任务域自适应[25]。一些方法不是优化MIC，而是优化实例级定位的目标函数。例如，[30，27，16，50]中的工作挖掘了高置信度的propos，然后将其视为正样本来训练完全监督模型。许多人[60，17]都在努力。图像级标签。Shen等人[41]提出了利用Web和目标数据的互补信息来生成用于语义分割的训练掩码。Hong等人[24]使用分类器来识别网络视频中的相关时空体积，并生成用于分割的对象掩模。Webly监督的对象检测。有几在WebSOD的文献中尝试Divvala等人[第十一届]利用Googlen-gram语料库从网络数据中训练可变形零件模型，以扩展类别。 Chen等人[7]提出了一种从网络数据中学习检测器的两阶段方法，该方法使用简单的Google图像启动CNN，并在更复杂的Flickr图像上对其进行微调。Tao等人[53]专注于从网络数据到目标数据的知识转移，并进行对抗性领域适应。与[11，7]中的工作不同，我们通过以端到端的方式处理背景噪声和前景噪声来减少Web数据中噪声图像级标签的负面影响。与使用目标数据集的[53]相比，我们的目标是fWebSOD，它只使用网络图像训练检测器，而不使用来自人类注释数据集的任何图像，例如，PASCALVOC [12]或MS COCO [32]。与WSOD和WebSOD相似，fWebSOD不依赖于任何其他形式的知识，例如，手动注释或附加图像，并且能够处理真实世界场景中的多样和大量的对象类别。3. 该方法给定一组Nc个类别，我们通过使用类别标签作为查询关键字来检索Web图像，构造训练数据D={Ii，ti}ND，其中Ii是挖掘高质量的边界框。进一步完善鲁棒性，一些作品[50，31，54，58]结合弱抓取的Web图像和ti∈Ni=1c是对应的监督MIC模型和完全监督检测器。Webly监督学习Webly监督学习在过去十年中得到了广泛的研究，它通常用于图像分类[5，34，35，36，21，63]，对象检测 [11， 7 ， 53]和语义分割[55 ， 41， 24]。Bergamoet al. [5]提出将手动注释的示例和Web数据相结合来学习图像分类器。Mahajan等人[34]表明，训练大规模的主题标签预测可以改善图像分类和对象检测任务。为了处理标签噪声，Niuet al.[35]建议加入变分自动编码器和分类网络，以利用图像级信息。Guo等[21]通过测量复杂的，独热标签向量。我们使用基本的WSDDN [6]作为我们框架中的基础模型我们首先通过空间金字塔池层[23]从骨干中提取图像的Nb个对象建议{bi}Nb的特征φ = { φ i } Nb。池化特征由两个全连接（FC）层转换，其输出提议特征φfc={φfc}Nb。然后将建议特征分叉成两个流，即，分类流和检测流，产生两个得分矩阵X c，X d∈Nb ×Nc两个FC层，分别。这两个得分矩阵分别在类别和建议上通过softmax函数σ（·）进行归一化C dij ijσ（Xc）ij= Σ，σ（Xd）ij= Σ。（一）使用分布密度进行图像分类的数据量。Niu等人[36]第三十六话NCCk=1ikNbdr=1rj以及零触发学习，以学习零触发细粒度分类器。Zhuang等[63]建议将多个网络图像输入CNN，并汇集部分神经元激活作为分类的最终表示。Wei等[55个]然后，两个流的Hadamard乘积输出检测分数矩阵：Xs=σ（X c）<$σ（X d）。为了获取图像级视觉分类分数，还执行总和池化。应用：yk=Nb X s，其中X s 是The Scorer=1rk rk利用简单的网络数据来帮助语义分割，第r个建议和第k个类别。然后我们得到11329RKKKKKKK图3：拟议框架概览。我们的方法包括三个部分：首先，一个bagging-mixup（BM）学习策略构造一组新的训练图像具有相同的前景标签，以抑制来自不正确的标签的前景噪声的负面影响。第二，残留检测（RD）头和弱检测（WD）头分别负责分解背景噪声和建模干净的数据第三，提出的空间敏感熵（SSE）标准被用来估计信任图像级背景标签的置信度。基线交叉熵损失函数L基线：噪声特征φfc={φf c}Nb，其中φfc=φ<$fc+φf c。模拟我i =1我我我L基线=ΣNc、tklog yk+（1− tk）log（1−yk）、.（二）类似于WD头，φ_fc被馈送到分类流和检测流中，随后是softmax操作和求和池化，其产生图像级分类。k=1阳离子分数喀麦隆br=1 X的。给一只猫一个血淋淋的K，损失我们的基线方法是直接在Web数据D上学习检测器。然而，如随后的实验所示，与在手动注释的图像级标签上训练的检测器相比，一个主要原因是Web数据是嘈杂的。为了克服这个问题，我们提出了一个端到端的学习框架，从两个方面来减少web数据中图像级噪声标签的负面影响，即，背景噪声和前景噪声，如图所示。3.第三章。3.1. 噪声分解为了减少背景噪音的负面影响，我们提出了一种与弱监督检测相结合的残差特征学习结构来分解背景噪声并对干净数据建模。我们利用多任务学习来学习两个检测头，弱检测头和剩余检测头，它们共享主干。弱检测（WD）头部具有池化特征φ作为其输入，并输出建议特征φfc和检测分数Xs，这与我们的基线方法类似。k类WD水头的损失函数为：LWD= tklog yk+（1 − tk）log（1 − yk）。（三）建议的残差检测（RD）头的目标是学习可靠和不可靠之间的残差特征在大量嘈杂的数据中找到可靠的部分。具体地，池化特征φ被映射到残差特征φ<$fc=研发头的功能是：LRD=tklogyk+（1−tk）log（1−yk）。（四）最后，我们得到了总体损失函数，它是LWD和LRD的所有类别特定加权和的总和：ΣNc -是的ΣL=（1 −pk）LWD+pkLRD，（5）k=1其中pk∈[0，1]是图像中第k个从学习干净数据和噪声标签之间的关系的角度来看，RD头用作分解项，这有助于WD头利用大量噪声数据中的可靠信息，同时避免不可靠信息的大影响当类别k标签具有作为噪声的低置信度时，pk为低，则RD头被抑制，并且WD头为类别k调制可靠信息。当pk高时，RD头利用来自WD头的建议特征φfc并产生噪声特征φfc来预测类别k的不可靠标签，这迫使RD头通过学习残余特征φ fc来分解噪声。因此，残差学习结构共同分解背景噪声，并基于置信度p对干净数据进行建模，置信度p控制通过网络的梯度流。置信度p可以看作是一个信息门。我们将提案得分和像素梯度{φ<$fc}Nb两个FC层。我们将残差特征图中WD和RD头的地图。4. WD和RD具有我i =1φ<$fc和该建议的特点φfc从WD头得到对地面实况标签和前景标签的响应更高=11330RKRKRKNzz我们利用Shannon熵作为稀疏性指标来描述检测结果的条件分布，估计背景标签为噪声的置信度p。注意，检测结果由置信度分数和边界框两者组成。假设我们只有两个边界框{bA，bB}的结果，类别的相应检测分数{1，1}如果2 2图4：两个网络图像的WD和RD头的建议分数和相应的像素梯度图。bA和bB没有重叠，我们可以估计熵为2.然而，如果bA和bB具有大的交并（IoU），例如，IoU（b A，b B）≥0。9，人们会期望熵更低。在后一种情况下，bA和bB接近点，检测结果比前一种情况稀疏。因此，如果没有边界框的空间信息，很难准确地为了解决这个问题，我们提出了一个空间敏感熵（SSE）标准，通过引入空间信息来估计稀疏性。我们计算检测分数的香农熵为：Erk=−XslnXs，（6）Figure 5: The distributions of detection results. 第一其中E∈ <$Nb×Nc Xs∈[0，1]. 我们还计算列显示输入图像。后三列说明了背景类别和前景类别的理想检测结果，即，摩托车和人，分别。该图是用Jet色标绘制的，其中红色矩形对应高分Jaccardindex矩阵J∈<$Nb×Nb为Jij=IoU（bi，bj），其中bi和bj表示第i个和第j个方案，re-分别为。我们得到熵正则化子为：G=E（JE），（7）而蓝色的得分很低。I1I2第一部分第二章其中G是Hadamard除法，G∈<$Nb×Nc.分母项JE对由其空间信息加权的个体检测分数的所有熵求和即，两个提案之间的IOU。然后，将原始熵E除以熵的加权和，其在[0，1]的范围内。我们的直觉是，熵根据每对命题之间的IoU而减小。如果检测边界框与图6：该图描述了bottle（上）和train（下）类别的装袋混淆学习。(FL)分别表示将WD和RD的两个结果结合起来，可以将BN从FL中分解出来。我们不是通过模型预测置信度p，而是以在线方式显式地估计它，这将在下一小节中详细描述。3.2. 空间敏感熵准则，则JE = E，且G是全一矩阵。然后，在考虑了空间建议中的信息计算如下：E=GE，（8）其中⊙是Hadamard乘积。背景标签k的置信度是等式中的噪声。5计算为：.吴恩达我们观察到，准确检测的分布重新-pk=1−rbErkK如果tk=0、（9）背景类别的检测结果在空间上是分散的并且在数值上是均匀的，而空间上聚集的并且在数值上是不均匀的检测结果可能包含目标类别的实例，如图1所示。5.出于这种观察的动机，对于背景标签，我们采取产生空间分散的建议与低分数，而惩罚的检测结果，其中一小部分集群的建议产生高分。0iftk=1其中p，z∈Nc 且zk=−yklnyk。我们用zk去-B注意给定图像的检测结果的最大熵第k个类别的水平预测yk和Nb边界NbE箱. 因此，我们认为，rrk在等式中的[0，1]的范围内。9.第九条。K为了进一步验证上述分析，我们计算了随机抽取的200张网络图像的SSE标准p11331i=1i=1i=1表1：实验中的数据集。类别数据集图像数量培训测试Pascal VOC 2007[12个]-4,952VOCPascal VOC 2012Flickr-Clean[12个][55个]-41,6251,0991-Flickr-VOC88,064-CocoMS Coco[32个]-5,000Flickr-COCO335,324-模型训练后的Flickr-VOC，并在[0，1]范围内对其进行归一化。地面和背景的平均Em为0. 07和0。78、分别对于BN，即，前地缺失，p的平均值为0。九十三SSE和BN之间的Pearson相关性高达0。91.3.3. Bagging Mixup学习为了减少前景噪声的负面影响，我们提出了一种新的bagging-mixup策略用于数据扩充，该策略受到多实例装袋机制的启发，可以有效地处理不正确的特别地，装袋混合策略应用袋子中具有相同前景标签的所有图像的凸组合来合成一组训练图像。因此，bagging-mixup旨在抑制使用错误标签的概率，同时保持训练样本的多样性。装袋混料学习包括三个步骤。首先，我们随机抽取Na个具有相同la的web图像{i}Na4. 实验评价4.1. 训练数据集Flickr-VOC和Flickr-COCO。我们构建了两个新的数据集 Flickr-VOC 和 Flickr-COCO 来训练检测器。PASCAL VOC [12]和MS COCO [32]中的类别被用作从Flickr照片共享网站检索图像的查询没有其他查询条件，例如、拍摄日期、摄影师对于每一个类别，我们抓取Flickr API返回的前4000个搜索结果中的图像。总共收集了83，905和335，327张图像，分别没有对Flickr-VOC和Flickr-COCO进行任何后处理[55] 第五十五章 . Flickr-Clean [55] 是由 Flickr 和PASCAL VOC [12]类别构建的，总共有41，625与我们的Flickr-VOC不同，Flickr-Clean [55]由显着对象检测器（DRFI [26]）和显着性切割分割[8]进行后处理，以去除噪声数据并仅保留简单图像。换句话说，Flickr-Clean是从原始Web数据中过滤出来的，并且包含来自[26，8]的人工注释。因此，我们抓取的Flickr-VOC更具挑战性，更接近真实世界的Web数据集。4.2. 测试数据集PASCAL VOC 2007 和 2012 [12] 。在进行 Flickr-VOC和Flickr-Clean培训时 [55]，我们评估检测结果，贝尔T，即，相同的前景标签。第二，我们随机从Dirichlet分布Dir（α1，. . .，α Na），其中α1=N aα2=· ··= N a α Na.最后，装袋混练构成了多种综合训练标签相同的图片：PASCAL VOC 2007和2012 [12]测试集上的测试结果，分别有超过20个类别的4，092和10，991个在我们的评估中，我们确保在我们的训练集中不存在PASCALVOC图像（包括训练集和I=λ I+{2，.，Na}，{1，.，Na}\iλI、（10）MS COCO [32]. 在Flickr-COCO上进行培训时，i1im，nmn评估MS COCO [32]上的检测器，这是对象检测最具挑战性的数据集之它能-其中i ∈ {1，2，. - 是的- 是的，N a}。的视觉比较，原始图像和合成图像如图所示。6. 然后合成图像{Ii}Na作为标签为t的训练样本被馈送到模型。我们不提取对象提案这在训练期间的效率方面是不可行的。相反，我们将原始图像的建议坐标转换为合成图像。所提出的装袋混合学习在以下两个方面与混合不同[57]首先，mixup对类别是不可知的，因为它在所有类别中随机采样数据Bagging-mixup是通过对具有相同标签的图像进行采样来分类特定的，其被设计为对前景噪声具有鲁棒性。其次，mixup只利用每个图像对的部分信息来生成单个图像。Bagging-mixup构造多个合成图像，每个合成图像都是袋子中所有图像的凸组合，其权重从Dirichlet分布中采样，这也保持了训练数据的多样性。包含80个对象类别。我们的实验涉及5000张MS COCO验证（minival）的图像进行测试。关于这些数据集的更详细的统计数据在Tab.1.一、4.3. 评价方案对于VOC类别，使用平均精密度（AP）和平均精密度（mAP）作为评价指标。我们遵循标准PASCALVOC协议，以地面实况报告检测到的盒子的50%相交于联合（IoU）处的mAP。对于COCO类别，我们还报告了标准COCO指标，包括不同IoU阈值和规模的AP。4.4. 实现细节该方法在4个GPU上实现。我们报告我们的表现在三个骨干网络，即。，VGG-CNN-F [29]（VGG-F），VGG-CNN-M-1024（VGG-11332表2：与VOC 2007测试集上的物体检测基线的比较（AP方法Aero比西鸟Boabot总线车猫Cha牛dtab狗开胃姆比克pers波兰国家电视台她沙发trai电视Av.关于PASCAL VOC 2007 tranaval图像的培训，带有图像级注释WSDDN VGG-F [6]42.956.032.017.610.261.850.229.03.8三十六点二18.531.1四十五点八54.510.2十五点四36.345.250.143.834.5WSDDN VGG-M [6]43.650.432.226.09.858.550.430.97.936.118.231.741.452.68.814.037.8四十六点九53.4四十七点九34.9WSDDN VGG 16 [6]39.450.131.516.312.6六十四点五42.842.610.135.7二十四点九38.234.4五十五点六9.414.730.240.7五十四点七46.934.8Flickr-VOC培训WSDDN VGG-F32.436.731.110.712.848.040.239.710.521.410.424.730.444.912.110.235.330.235.31.825.9WSDDN VGG-M6.624.332.310.813.837.337.541.57.624.45.529.630.047.910.49.735.113.941.420.725.5WSDDN VGG1635.839.535.89.610.051.539.541.37.122.47.431.033.447.313.09.232.727.544.614.227.6VGG-F45.438.138.920.113.860.842.955.216.129.29.433.330.952.914.514.937.828.849.226.832.9VGG-M45.738.536.920.6十六点九55.238.857.514.825.010.638.739.351.816.313.638.034.646.326.133.3我们的VGG16四十五点九39.6三十九点八21.114.460.939.9六十一点五15.632.514.1四十四点八45.251.7十八点零13.8三十八点九32.147.223.535.1表3：VOC 2007测试集上物体检测的SOTA比较（AP（%））。方法Aero比西鸟Boabot总线车猫Cha牛dtab狗开胃姆比克pers波兰国家电视台她沙发trai电视Av.关于PASCAL VOC 2007 trainval图像的培训，带有建议/图像级注释FSOD VGG 16[第四十届]70.080.670.157.349.978.280.482.052.275.367.280.379.875.076.339.168.367.381.167.669.9WSOD VGG 16[四十三]64.870.751.525.129.074.169.769.612.769.543.954.939.371.332.629.857.061.066.657.452.5关于Google和FlickrDivvala等人[第十一届]14.036.212.510.39.235.035.98.410.017.56.512.930.627.56.01.518.810.323.516.417.1Chen等人谷歌[7]29.538.315.114.09.144.329.324.96.915.89.722.623.534.39.712.721.415.833.419.421.5Chen等人Flickr[七]《中国日报》30.2四十一点三21.718.39.244.332.225.59.821.510.426.727.342.812.613.320.420.936.222.824.4Flickr-Clean和PASCAL VOC 2007培训图像Tao等人VGG-M [53]35.631.318.27.79.140.438.423.89.720.1三十三点四22.530.941.49.810.818.728.727.134.724.6Tao等人VGG 16 [53]40.630.117.815.96.442.940.531.511.420.327.415.724.143.88.912.217.737.332.131.025.4关于Flickr-Clean的VGG-F43.734.532.912.613.754.245.235.011.326.026.922.725.749.220.89.134.748.946.6三十八点九31.6VGG-M44.337.832.515.014.155.244.532.410.928.026.817.926.249.620.29.735.449.448.937.231.8我们的VGG1644.636.634.318.613.856.747.237.711.623.332.529.133.352.6二十一点五8.935.552.445.338.233.7Flickr-VOC培训VGG-F45.438.138.920.113.860.842.955.216.129.29.433.330.9五十二点九14.5十四点九37.828.8四十九点二26.832.9VGG-M45.738.536.920.6十六点九55.238.857.514.825.010.638.739.351.816.313.638.034.646.326.133.3我们的VGG16四十五点九39.6三十九点八二十一点一14.4六十点九39.9六十一点五15.6三十二点五14.1四十四点八四十五点二51.718.013.8三十八点九32.147.223.535.1M）和深度VGG-VD 16 [48]（VGG 16），它们是用ImageNet [9]上预先训练的权重初始化的。训练在所有实验中，小批量的大小，学习率，动量，衰减权重和辍学率被设置为1，0。001，0。九比零。0005和0。5，分别。在训练过程中，我们冻结了主干中的所有卷积层。为了提高鲁棒性，我们随机调整图像的曝光和饱和度，最多调整1倍。5在HSV空间和一个随机作物0. 9的原始图像大小。我们使用MCG[2]为所有实验生成对象建议，包括我们的基线方法。我们将图像中区域建议的最大数量设置为2048。所有模型都经过训练20万次迭代。我们应用Xavier初始化[19]到ini-实现新的全连接层。装袋混淆超参数α1设置为1。五、试验. 我们使用WD磁头X s的输出作为最终检测分数。检测结果由NMS模块使用阈值0进行后处理。5个借据。4.5. 与基线的我们首先比较了在PASCAL VOC 2007上训练的WSDDN与人工注释的图像级标签以及直接在Flickr数据上训练的WSDDN的性能，即，Flickr- VOC。如Tab的第一部分和第二部分所示。2、在Flickr-VOC上训练的检测器的性能急剧下降。由于Flickr-VOC中图像级标签的噪声，三个主干的性能只有25。百分之九，二十五。 5% 和 27 。 6% ，亏损 10. 1% ， 9. 7% 和 9. 与在PASCAL VOC 2007上训练的WSDDN模型相比，分别为3%在-11333总之，在PASCAL VOC和Web数据上训练的模型之间存在显著的差距我们表明，提出的方法在Flickr-VOC上实现了32。9%，33. 3%和35。1%，改善7。0%，7.8%和7. 5%，分别。它还表明，我们的方法优于基线的一个很大的利润，并减少了fWebSOD和WSOD之间的差距。4.6. 与最新技术水平（SOTA）的比较我们将我们的方法与最先进的方法进行了比较，包括[11，7，53]。选项卡. 3显示了我们在PAS- CALVOC 2007测试中的mAP结果。我们的三个模块-对Flickr-VOC的敏感性达到32. 9%，33. 3%和35。1%的mAP分别具有VGG-F、VGG-M和VGG 16骨干，其性能优于最先进的算法。虽然Flickr-Clean已经过后处理以减少噪音，但我们在Flickr-VOC上训练的模型仍然可以实现更好的性能。由于Flickr-VOC的图像数量是Flickr-Clean的两倍多值得注意的是，与基线WSDDN[6]方法相比，我们的方法具有相同的推理速度。我们的单一模型VGG-F优于最先进的结果25。4%，涨幅为7. 5%，在MAP。请注意，所提出的框架和以前的方法之间的数据使用的比较可以更好地揭示我们的工作的意义。Divvalaet al. [11]，Chenet al. [7]和Taoet al.[53]都使用外部人工知识，例如，谷歌图书的n元语法语料库，容易从谷歌搜索引擎和PASCAL VOC图像图像。然而，我们的方法只使用Web图像，而没有任何其他形式的知识。11334表4：VOC 2012测试集上物体检测的SOTA比较（AP（%））。方法Aero比西鸟Boabot总线车猫Cha牛dtab狗开胃姆比克pers波兰国家电视台她沙发trai电视Av.关于PASCAL VOC 2012 trainval图像的培训，带有建议/图像级注释FSOD VGG 16[18个国家]82.376.471.048.445.272.172.387.342.273.750.086.878.778.477.434.570.157.177.158.967.0WSOD VGG 16[四十三]--------------------46.1Flickr-Clean和PASCAL VOC培训2012培训图像Flickr-CleanFlickr-VOC培训VGG-F40.233.738.412.513.052.740.441.213.024.718.031.6三十二点五51.712.411.633.330.440.522.129.7VGG-M42.636.736.917.514.853.638.344.4十三点七28.819.224.626.8五十二点二11.310.539.126.642.921.430.1我们的VGG1641.940.638.420.59.056.940.350.113.030.817.2三十二点七29.951.217.0十三点五36.439.2四十五点三29.2三十二点七表5：我们的方法在VOC 2007测试集上的物体检测的消融研究，以AP（%）表示。方法Aerobicybirdboabotbuscarcatchacowdtab狗腿姆比克Pers plnt she sofa trai tvAv.基线路研发部+EW研发部+SSERD + SSE-所有RD + SSE + BM2 RD + SSE +BM 3研发+ SSE + BM 435.8三十九点五35.8 9.6 10.051.5三十九点五41.3 7.1 7.4 31.033.4四十七点三13.0 9.2 32.727.544.6十四点二42.234.8三十四点五19.4 9.8 53.142.046.6十点六26.0 9.4 29.926.248.713.718.238.828.740.7二十二点七44.334.938.716.313.055.540.744.3 十五点三23.5 5.2三十五点三50.714.711.630.133.145.9二十四点九27.629.830.733.433.635.1三十五点二35.145.446.938.319.8十二点四61.741.547.113.926.111.839.1四十一点六52.8十六点三13.738.432.045.7二十四点六11.640.032.839.0 27.613.838.932.147.2二十三点五15.238.732.047.7二十四点三14.638.730.949.3 二十四点一48.042.741.620.112.5六十点八42.148.715.4二十七点七18.338.834.9五十二点二16.818.018.445.939.639.821.114.460.939.961.515.632.514.144.845.2五十一点七45.739.940.920.714.360.7三十九点九61.7十五点八32.113.9四十四点四45.451.845.939.041.420.614.360.539.560.915.332.117.243.744.552.3 十八点零表6：COCO minival套件的结果。方法Avg.精度，IoU：0.5：0.95 0.5 0.75Avg.精密度，面积：S M L关于COCO培训图像的培训，带有建议/图像级注释FSOD VGG 16 [18]21.241.5----WSOD VGG 16 [43]10.520.39.22.210.918.3WSDDN VGG169.519.28.22.110.417.2Flickr-COCO培训WSDDN VGG163.17.02.30.42.66.9我们的VGG165.410.64.60.65.1十点七在选项卡中。4、在PASCAL VOC 2012测试中对该方法进行了评价。我们的模型始终优于最先进的方法。在选项卡中。6、在MS COCO上对本文方法进行了与使用标记良好的MS COCO相比，直接在Flickr-COCO上训练WSDDN模型，导致性能不佳（19. 2% vs. 7. 0% AP 0. （五）。然而，我们的框架达到了10. 6%AP 0. 5，这大大超过了现有技术的方法。4.7. 消融研究残留检测（RD）头。为了研究RD头的效果，我们将pk设置为0。五是各类。因此，它总是在此设置中组合来自两个头部的梯度流如Tab.所示。5，RD的结果略好于基线，因为它迫使模型学习残差特征而不显式

下载后可阅读完整内容，剩余1页未读，立即下载