通过弱标题监督学习进行对象检测

197 浏览量更新于2023-10-12 收藏 1009KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9686Cap2Det：学习增强弱标题监督以进行对象检测Keren Ye1，Mingda Zhang1，Adriana Kovashka1，Wei Li<$2，Danfeng Qin2，and Jesse Berent21美国匹兹堡大学计算机科学系2Google Research，苏黎世，瑞士{yekeren，mzhang，kovashka}@lwthucs@gmail.com cs.pitt.edugoogle.com摘要学习定位和命名对象实例是视觉中的一个基本问题，但最先进的方法依赖于昂贵的边界框监督。虽然弱监督检测（WSOD）方法将对框的需要放宽到图像级注释的需要，但是以用户在上传图像内容时可以自由提供的非结构化文本描述的形式自然可以获得甚至更便宜的监督。然而，直接的方法来使用这些数据的WSOD浪费dis-card标题不完全匹配的对象名称。相反，我们展示了如何通过训练一个纯文本分类器来从这些标题中挤出最多的信息，该分类器可以超越数据集边界。我们的发现提供了一个机会，从嘈杂的，但更丰富的和免费提供的字幕数据学习检测模型。我们还验证了我们的模型上的三个经典的对象检测基准，并实现国家的最先进的WSOD性能。我们的代码可以在https：//github上找到。com/yekeren/Cap2Det.1. 介绍学习定位和分类视觉是计算机视觉中的一个基本问题。它具有广泛的应用，包括机器人、自动驾驶汽车、智能视频监控和增强现实。自深度神经网络复兴以来，对象检测已经通过一系列开创性的工作进行了革命性的改革，包括Faster-RCNN [26]，Mask-RCNN[13]和YOLO [25]。现代探测器可以在移动设备上实时运行，并已成为未来技术的驱动力。尽管取得了这些成就，但大多数现代探测器都受到一个重要限制：他们接受过前在Google[2] Facebook Inc.图1：我们的方法概述。我们利用一种新的弱监督源进行对象检测，即自然语言字幕，通过放大这些字幕使用文本分类器提供的信号。即使然后，我们训练一个模型，它以迭代的方式对对象建议进行评分，以将对象本地化作为其最终输出。由大量的人工注释者精心绘制的大量装订盒形式的沉思式监督由于众所周知的域移位问题[8，33，19，29，12]和不完善的域自适应技术，这意味着当在新域中执行检测时，需要重复昂贵的注释过程。弱监督对象检测（WSOD）技术旨在减轻收集这种昂贵的框注释的负担经典的WSOD问题公式[4，37，31，30]将图像视为一袋建议，并使用多实例学习（MIL）学习为这些建议分配实例级语义。WSOD在物体检测方面表现出了巨大的潜力，最先进的模型在Pascal VOC上达到了40% mAP [30]一只白色的小狗在看水上的鸭子输入（培训）字幕的弱监督检测一个人在水果摊上戴着一顶有a的帽子，分发水果样品。一辆停在街上的蓝色卡车。穿着围裙站在提案分类分数中的人带平底锅的烤箱前面和烤盘提案检测分数伪标号推理瓶碗一名男子在围裙站在前面的烤箱与平底锅和烤盘杯迪尼布勒吴达MLP烤箱人…96872012.然而，WSOD中的一个关键假设是图像级标签应该是精确的，表明图像中至少有一个建议实例需要与标签相关联。这个假设并不总是成立，特别是对于现实世界的问题和现实世界的监督。弱监督检测方法需要大规模图像级对象类别标签。这些标签需要人类的努力，这是在一个不自然的，众包的环境提供。然而，对对象的更自然的监督存在-例如，以网络用户在将其照片上传到 YouTube 或Instagram等社交媒体网站每天有数千万张照片上传到Instagram ，其中大多数都有标题，标签或删除。YouTube上也有大量带字幕的视频。这些注释是“免费”的，因为没有用户付费提供它们;它们产生于用户使他们的内容对其他人可用的固有需求。然而，现有的WSOD方法不能使用这样的监督。首先，这些自然语言描述是非结构化的;需要对它们进行解析，并且需要提取与对象识别相关的词，同时去除非对象词。其次，这些描述既不精确又不详尽-它们可能会提到图像中没有的内容（例如，用户参加了什么事件或者在拍摄照片之后他们遇到了谁），并且还省略了图像中实际存在但不感兴趣的内容考虑图1右下角的图像1.一、它包含许多对象，其中许多相当大，例如。餐桌和碗--然而提供描述的人没有提到这些物品。因此，直接将Web数据馈送到最先进的WSOD系统包含许多限制-至少，它未充分利用字幕可以提供的丰富监督。为了解决这个问题，我们从与附带的标题（句子）配对的图像中构建了一个对象检测器。我们的模型桥接人类书写的自由形式的文本和视觉对象，并在图像中的对象上生成准确的边界框。我们的方法依赖于两个关键组件。首先，我们训练一个文本分类器来将captions映射到离散对象标签。这种分类器不依赖于数据集，只需要一小部分标签，并且可以超越数据集边界进行泛化。它使我们能够弥合人类在标题中提到的内容与图像中真正的内容其次，我们使用这个文本分类器预测的伪地面我们提出的方法提取现成的区域建议，然后对于每个建议和每个类，学习类得分和检测得分。然后使用迭代方法对这些分数进行细化，以产生最终的检测结果。本文的贡献有三个方面。首先，我们提出了一个新的任务，从嘈杂的字幕注释学习-#21453;，树立新的标杆。我们不仅将对象类别视为ID，还利用它们的语义以及这些对象名称的同义词其次，在这个基准上，我们表明我们优于字幕的其他用途，例如。准确地将字幕与对象类别词匹配，或者从字幕中检索与对象类别的手工注释或预测同义词。我们通过在COCO或Flickr30K字幕上学习来展示具有竞争力的WSOD性能。我们通过将COCO训练的文本分类器应用于Flickr30K，并在Flickr30K上进行训练，然后在PASCAL上进行评估，进一步验证了COCO训练的文本分类器的优势。最后，在经典WSOD设置下的并排比较中，我们的模型展示了图像级监督的卓越性能，并在所有三个WSOD基准上实现了最先进的性能（ VOC 2007 为 48.5%mAP@0.5 ， VOC 2012 为45.1%mAP@0.5，COCO为23.4%mAP@0.5本文的其余部分组织如下。我们在SEC中概述相关工作。2.节中3.1，我们讨论了不同的方法来减少自由形式的标题和对象类别之间的差距节中3.2，我们描述了我们的WSOD模型的主干，它以一种新的方式结合了以前的工作[31，28]。节中4、我们将我们的方法与最先进的方法和替代方法进行了比较。我们在Sec中结束。五、2. 相关工作我们制定了一个新的变体弱监督对象检测，其中的监督甚至比以前的工作更弱。我们利用标题，所以我们也讨论了在图像区域和文本之间找到对齐的工作。通过MIL进行弱监督检测。大多数WSOD方法将任务描述为多实例学习（MIL）问题。在这个问题中，图像的建议被视为一袋候选实例。如果图像被标记为包含对象，则至少一个建议将负责提供该对象的预测。[23，41]提出了全局平均（最大）池化层来学习类激活映射。[4]提出了包含分类和检测数据流的弱[17]通过考虑上下文来改进WSDDN。[31，30]与WSDDN一起联合训练多个细化模型，并显示最终模型受益于在线迭代细化。[10，37]应用分割图和[37]公司内显着性。最后，[36]增加了最小熵损失以减少检测结果的随机性我们的工作与这些类似，因为我们也使用MIL加权表示来表示提案，但是，我们更进一步，成功地采用了更先进的神经架构和更具挑战性的监督场景。9688图像输入：多实例检测模块检测分数生成建议建议功能（i）��（ det）i，FC层在线精化模块检测结果@0罗亚利FC层注意称重特征提取器盒子分类器分类评分（i，图像级预测��文本注释：一个女人站在厨房柜台旁，身后是一个孩子和一只狗。一个蹒跚学步的孩子、狗和成年人洗碗的老照片。一个成年人正在厨房柜台旁做饭，旁边是一个婴儿和一只狗。标号推理模块{人，狗，碗}隐藏监督文本伪标签…检测结果@K一个女人站在狗最终检测…混合_5a混合_5b混合_5c图2：Cap2Det：从自由格式文本中获取检测模型。我们建议使用标签推理模块（底部-中心）来放大自由形式文本中的信号，以监督多实例检测网络（顶部）的学习。然后，在线细化模块（右）对学习的检测模型进行细化，以产生最终的检测结果。从文本中学习。最近，人们对图像和文本之间的关系建模产生了很大的兴趣，但据我们所知，还没有研究从字幕中学习图像检测器。[6]学习发现和本地化新的对象，从纪录片视频相关联的字幕，以视频tracklets。他们使用TFIDF从字幕中提取关键词视频提供了我们无法利用的优势，例如包含几乎相同的对象实例的多个帧。重要的是，我们表明，只有我们的话，实际上出现在标题（如TFIDF）的结果在次优性能相比，我们的方法。也有工作将标题中的短语与视觉描绘的对象相关联[27，14，2，32，18，38]，但没有一个能够训练具有准确定位和分类的独立对象检测器，正如我们所提出的。标题、类别和人类偏见。我们的研究结果表明，人类在标题中命名的内容与它们提供的分类注释[22]研究一种类似的现象，他们称之为他们将实际对象的存在建模为潜在变量，但我们做的恰恰相反-我们通过观察“值得说的”来建模“图像中的此外，我们使用的结果模型作为精确的监督，以指导检测模型学习。在其他工作中，[40]预测广告图像和口号之间的细微差别，[34]研究属性支配，[3]探索感知的视觉重要性。3. 方法使用图像级文本注释的训练的整体架构如图所示。2.有三个主要组成部分：标签推理模块，提取噪声文本中提到的目标（底部中心）;多实例检测模块，其估计每个建议的分类和检测分数（顶部）;以及在线细化模块，其细化这些以获得最终检测结果（右）。我们的方法的关键新颖性在于标签推理模块。3.1. 从文本进行标签推理WSOD的基础建立在MIL的一个重要假设之上（等式1）。4），这表明应该提供精确的图像级标签。然而，收集这样干净的注释并不是小事。在大多数现实生活中，视觉内容的语义对应物以自然语言短语、句子甚至段落（在报纸中）的形式出现，这比对象标签更嘈杂。通过词汇匹配从标题中提取对象标签的直接解决方案并不好用考虑一个带有三个句子描述的图像：“一个人在桥边骑自行车，““一个人骑着自行车过马路。““一个骑自行车的人在繁忙的城市街道上叫卖。“然而，只有第一句话完全匹配的猫- egories即使我们允许“man”和“person”或“bicycle”和“bike”的同义词当使用这些示例来训练对象检测器时，前两个实例可能会带来积极的效果，但最后一个实例将被浪费地丢弃为假阴性，即。与“人”或“自行车”类别无关。更糟糕的是，在图中所示的例子1、没有标题（一个Conv2d_1a_7x7混合_4d混合_4e9689i，ci，ci，ci，cj，cp o如图所示）提到存在的这一观察启发我们放大字幕提供的监督信号，并从中挤出更多信息。图2（底部）显示了我们用来放大信号的方法。这种纯文本模型将自由形式的文本作为输入，使用GloVe [24]将单个单词嵌入到300 D空间，并将嵌入的特征投影到400 D潜在空间。然后，我们使用最大池来聚合单词级表示。然后，我们使用这种中间表示来预测隐含的实例（例如，COCO中定义的80类，或任何其他类别）;该预测回答“图像中有什么”，并在训练对象检测器中用作伪图像级标签。值得注意的是，在使用伪标签来训练对象检测器时存在微妙的平衡。诚然，我们的策略提高了召回率，因此更多的数据可以为每个提案提取固定长度的特征。如果[r1，. . .，r，m]是给定图像x的建议，该过程导致建议特征向量[φ（r1），. . .，φ（rm）]，其中每个φ（ri）∈Rd.请注意，虽然我们的模型在ImageNet上进行了预训练，但它并没有利用任何图像标签在我们训练和评估我们的检测模型（ PASCAL 和COCO）的数据集上。3.2.1弱监督检测本文介绍了图像级水平标签p∈c（c∈ {1，. . .，C}，其中C是类别的数量）和作为副产品的检测分数的数量。该提案建议-tures φ（ri）被馈送到两个并行的全连接层中以计算检测分数odet∈R1（图1中绿色MIL模块中的顶部分支）。2）和分类得分ocls∈R1（底部分支），其中两个得分都与特定类别c和特定提议ri相关：被利用。然而，随着召回率的提高，ocls=wclsφ（r）+bcls，odet=wdetφ（r）+bdet（一）将不可避免地下降，因此，i，c cici，c cic米受到威胁。具体而言，精确的标签选择使模型对假阳性情况非常敏感：当给出不适当的标签时，没有一个亲有一个好的反应，模型变得混乱，重新我们将这些分数转换为：（1）pcls，对象c出现在建议ri中的概率;以及（2）pdet，ri对于预测图像级标签yc很重要的概率：经验，经验导致非最佳检测。pcls=σ（ocls），pdet=Σi，c（二）我们最终采用了两步程序：首先我们寻找i，ci，ci，cMj=1 经验，经验-根据明确提到的对象在图像中应该足够显著和明显的直觉，来自字幕的对象标签的精确匹配;第二，当没有最后，聚合的图像级预测计算如下，其中p∈c∈[0，1]的值越大意味着c存在于图像中的可能性越高：对象可以匹配，我们使用我们的标签推理模型来预测标签作为未说出的预期对象，以指导对象检测。我们证明我们的方法优于几个p=σ.Σmi=1Σ代克莱斯i，c i，c（三）也推断伪标签的强替代方案。讨论我们的文本分类器依赖于标题和类别标签。然而，一旦桥之间的上限-假设标签yc=1当且仅当存在类c时，用于训练模型的多实例检测损失被定义为：建立了选项和标签，这个分类器可以推广到其他数据集，如我们在Tab中所示。1.重要的是，我们只需要一小部分标签来训练这个文本分类器;Lmid=− ΣCc=1ΣΣyclogpc+（1−yc） log（1−pc）（四）我们在图中显示。3、精度范围在89%到92%之间，我们使用的COCO只有5%到100%之间。数据，而召回率稳定在62%。因此，我们的文本模型初步检测分数。给定建议Ri和类别C的弱监督检测得分是如所述进一步精制的PCLS和PDET的产物它可以从一个带有几个标签的源数据集学习，然后它可以将知识转移到其他目标数据集，i，c节中第3.2.2条。i，c只需要自由格式的文本作为监督。3.2. 从推断的标签进行检测接下来，我们描述如何使用推断的伪标签来训练对象检测模型。如图2，我们首先提取具有伴随特征的提案。图像被送入预先训练的（ImageNet [9]）卷积层。然后，ROIAlign[13]用于裁剪选择性搜索[35]生成的建议（每个图像最多500个框最后，本文提出了一个盒子特征提取器.3.2.2在线实例分类器精化我们的WSOD模型的第三个组成部分是在线实例分类器细化（OICR），提出了唐等人。[31]第30段。OICR背后的主要思想很简单：给定地面实况类别标签，最高得分的提议以及与其高度重叠的提议被选择作为参考。这些建议被视为积极的例子，训练盒分类器的这一类，而其他被视为负面。最初得分最高的建议可能只覆盖了部分对象，因此允许高度重叠的建议被视9690为积极的建议，9691i，ci，c第二次机会被认为是包含一个对象，在随后的模型细化。这减少了传播错误预测的机会。此外，在原始模型和改进模型之间共享卷积特征，使训练更加鲁棒。在[31]之后，我们堆叠多个细化分类器，并使用前一个的输出来生成实例级监督来训练后继者。检测分数在使用s（0）=pclspdet，s（0）=0计算第0次迭代它是一种通用的、独立于数据集的建议生成程序，与其它基于CNN的替代方案相反，其它基于CNN的替代方案是以监督的方式从特定数据集端到端地训练的。我们还尝试了Edge Box [42]，但性能较差我们使用TensorFlow [1]作为我们的训练框架。为了计算建议特征向量，我们使用Inception-V2 [28]中的层（i，ci，ci，ci，C+1（其中C+1是后台类）。给定第k次迭代的检测得分s（k），我们使用图像级标签以在（k+1）处获得实例级监督y（k+1）-在ROIAlign之后提取建议特征向量[13]操作Inception-V2模型在ImageNet上进行了预训练[9];我们的监督检测器对应物th迭代。假设C′i，c是附加到图像X的标签，使用这种架构的模型由[15]探索。到增加训练数据，我们随机调整图像我们首先寻找最高得分框r（j=argmaxs（k））。jiic′则设y（k+1）=1，|IoU（r，r）>thr_hold}。四个方面，一个是四个方面。我们也在训练时随机地将图像从左向右翻转在我，c′lJ当k> 0时，使用（C +1）路FC层来推断s（k），如等式（1）中所示。1.一、OICR训练损失在等式中定义五、在考试时间，我们平均了不同的提案分数-输入分辨率。我们将细化的次数设置为3为OICR，因为它提供了最好的性能。为Lk=−1ΣmCΣ+1y∈ S（k）|logS（k），k=1，. . . ，K（5）后处理，我们使用非最大值抑制，国际红十字会Mi=1c =1i，ci，cIOU阈值为0。4.第一章我们使用AdaGrad优化器，学习率为0。01，批量大小为2，与最初的OICR不同，我们的WSOD模块可以-盖茨logits而不是概率得分，这在我们的经验稳定训练。我们还删除了[31]中强调的不可信信号的重新加权，因为我们发现它没有显著贡献。我们优化的最终损失是Eq。六、如果没有另外提到，我们将模型改进3次（K=3ΣK在WSOD方法中使用[31，30]。这些模型通常在PascalVOC上进行10万次迭代训练（在VOC 2007上大约40个epoch，在VOC 2012上大约17个epoch），在COCO上进行50万次迭代训练（8.5个epoch），使用验证集来选择最佳模型。我们的实施可在https://github.com/yekeren/Cap2Det 上获得。4.2.使用标题作为监督L=L中间+4. 实验k=1K国际红十字会（六）在本节中，我们将评估我们的完整方法，包括如何从字幕提供的弱监督中挤出最多信息的建议（第二节）。第3.1节）。我们评估我们的方法的所有组件：学习将标题映射到对象标签的文本分类器，弱监督检测模块和细化。我们表明，与其他策略相比，我们的方法从标题中提取了最准确和最广泛的信息（第二节）。4.2）。通过对COCO字幕的训练，我们在PASCAL上实现了接近最先进的弱监督检测结果重要的是，我们的文本分类器允许我们在Flickr30K上训练以在PASCAL上检测的任务中表现出色，即使该分类器是在不同的数据集（COCO）上训练的。最后，我们展示了我们的方法在从图像级标签学习的任务上优于先前的方法（第二节）。4.3）。4.1. 实现细节在训练检测器之前，我们使用选择性搜索[35]从OpenCV [5]中为每个图像提取最多500个建议。我们遵循[35]中的我们更喜欢选择性搜索，我们还实验了生成伪标签的替代策略，并通过与地面真实标签的比较来评估准确率和召回率方面的性能替代策略。我们比较了多个伪标签生成基线时，词法匹配（EXACT MATCH）未能找到匹配。正如前面的例子所示，考虑同义词可以有效地降低脱靶匹配率。因此，我们的第一个基线采用一个手动构建的，因此昂贵的COCO同义词词汇表（EXTEND VOCAB），它将413个单词映射到80个类别[21]。另一种变体GLO VEPSEUDO利用GloVe单词嵌入[24]，通过寻找与句子中任何单词具有最小嵌入距离的分类来为句子分配伪标签。我们也遵循类似的策略--[38]第38话：我的世界在COCO上使用视觉文本排名损失，并使用由结果LEARNED GLO VE检索的伪标签作为更强的基线。使用地面实况图像级标签GT-LABEL的最终参考模型是一个向上的L9692方法航空自行车鸟船瓶子公共汽车汽车猫椅牛桌狗马mbikeperson种羊沙发火车电视是说使用地面实况标签对不同数据集进行训练：GT-LABEL VOC68.7 49.7 53.3 27.6 14.1 64.3 58.1 76.0 23.6 59.8 50.7 57.4 48.1 63.0 15.5 18.4 49.7 55.0 48.4 67.8 48.5GT-LABEL COCO65.3 50.3 53.2 25.3 16.2 68.0 54.8 65.5 20.7 62.5 51.6 45.6 48.6 62.37.224.6 49.6 34.6 51.1 69.3 46.3使用标题进行COCO数据集培训：E XACT M ATCH（EM）63.0 50.3 50.7 25.9 14.1 64.5 50.8 33.4 17.2 49.0 48.2 46.7 44.2 59.2 10.4 14.3 49.8 37.7 21.5 47.6 39.9EM + GLO VE PSEUDO66.6 43.7 53.3 29.4 13.6 65.3 51.6 33.7 15.6 50.7 46.6 45.4 47.6 62.18.015.7 48.6 46.3 30.6 36.4 40.5EM + L赚取 G低 VE64.1 49.9 58.6 24.9 13.2 66.9 49.2 26.9 13.1 57.7 52.8 42.6 53.2 58.6 14.3 15.0 45.2 50.3 34.1 43.5 41.7EM + EXTEND VOCAB65.0 44.9 49.2 30.6 13.6 64.1 50.8 28.0 17.8 59.8 45.5 56.1 49.4 59.1 16.8 15.2 51.1 57.8 14.0 61.8 42.5EM + TEXT CLSF63.8 42.6 50.4 29.9 12.1 61.2 46.1 41.6 16.6 61.2 48.3 55.1 51.5 59.7 16.9 15.2 50.5 53.2 38.2 48.2 43.1使用标题在Flickr30K数据集上进行训练：E XACT M ATCH（EM）46.6 42.9 42.09.67.731.6 44.8 53.2 13.1 28.0 39.1 43.2 31.9 52.54.05.138.0 28.7 15.8 41.1 31.0EM + EXTEND VOCAB37.8 37.6 35.5 11.0 10.3 18.0 47.9 51.3 17.7 25.5 37.0 47.9 35.2 46.1 15.20.827.8 35.65.842.0 29.3EM + TEXT CLSF24.1 38.8 44.5 13.36.238.9 49.9 60.4 12.4 47.4 39.2 59.3 34.8 48.1 10.70.342.4 39.4 14.1 47.3 33.6表1：VOC 2007测试集的平均精度（%）（从COCO和Flickr 30K字幕学习）。我们从描述80个对象的COCO标题中学习检测模型，但仅对重叠的20个VOC对象进行评估L赚取 G低 VEP84.7% R 28.9%TEXT CLSF 100%数据92.2%TEXT CLSF 5%数据89.4%EXACTMATCHP 83.1%GLO VEPSEUDOP 84.5%EXTENDVOCABP 81.1%图3：不同文本监督的分析。我们将伪标签（Sec.3.1）to COCOval ground-truth.每一次跳跃。请注意，除了用于挖掘图像级标签的策略外，这些策略都使用与我们的方法相同的架构和WSOD方法（第2节）。3.2）。在后面的章节中，我们将展示精确匹配策略与这些方法的组合（当精确匹配失败时），结果为EM+G LO V E P SEUDO、EM+LEARNED G LO V E、EM+E XTEND V OCAB 和EM+TEXTCLSF。我们研究这些策略和其他策略如何利用COCO和Flickr30K的字幕来产生准确的检测。文本监督分析。在图3中，我们显示了直接在COCO图像级标签（val2017集的5，000个示例）上评估的这些标签推理方法的精确度和召回率我们观察到，EXTENDVOCAB使用手工制作的同义词词典，在所有方法中提供了最好的召回率（60.6%），但提供了最差的准确率81.1% 。基于词嵌入的最高评分匹配方法 GLO VEPSEUDO和LEARNED GLO VE提供了精确的预测（分别为84.5%和84.7%，这是最高的）。然而，我们的TEXTCLSF与这些相比实现了显着提高的精度。我们想指出的是，在Tab中。如图1和图2所示，我们的方法使用完整的COCO训练集（118，287个级联字幕），即使只使用一小部分数据也能实现非常相似的性能在5%的数据下，该方法达到了89%的精确度（相对于92%）。100%数据的精确度），两者都比任何其他基线高得多;对于5%和100%训练数据，召回率约为62%换句话说，使用一小部分精确的文本标签来训练可泛化的标签推理分类器就足够了，并且知识可以转移到其他数据集，如我们在Tab中所示。1.一、为了更好地理解生成的标签，我们在图中展示了两个定性示例4.第一章右图显示，我们的模型从“present-ter”，“conference”和“suit”的观察中推断出我们认为，从字幕中推断出合理标签的能力对于从噪声字幕中学习检测模型至关重要用COCO字幕训练。我们接下来训练我们的去使用COCO字幕的保护模型[7]。公司现采用国际591，435个注释标题与118，287个train2017图像配对为了进行评估，我们使用 COCOtest-dev 2017 和PASCAL VOC 2007测试集。在我们的补充文件中，我们展示了来自COCOval集合的定性示例。选项卡. 1显示了PASCAL VOC 2007的结果。在顶部是两个上限方法，它们在图像级标签上训练，而其余的方法在图像级标题上训练。E-XACTMATCH（EM）由于其低数据利用率而表现最差，这一事实证明了所有引入伪标签的方法都显着提高了性能。具体来说，EM+GLOVE PSEUDO使用预先训练的GloVe嵌入的免费知识。它在一定程度上解决了同义词问题，因此与EXACT MATCH相比，它将mAP 提高了2% 。然而，GloVe嵌入没有针对特定的视觉字幕进行优化，导致噪声知识转换。EM+LEARNED GLO VE学习特定于网络的单词嵌入。正如预期的那样，其性能在mAP方面比EM+GLO VE PSEUDO 高出 3% 。最强的基线是EM+EXTEND VOCAB，因为手动选择的词汇表涵盖了最常见的情况。96931545Flickr30K Flickr200K40353025202K4K6K8K10K20K40K60K80K100K 200K#训练示例A man is in a kitchen making pizzas .人在围裙站在前面的烤箱用平底锅和烤盘。一位面包师正在厨房里擀面团. 一个人站在厨房里的火炉旁。一张桌子上正在做馅饼，一个人站在墙上，锅碗瓢盆挂在墙上。GROUNDTRUTH：餐桌，烤箱，人，瓶，碗，花椰菜，胡萝卜，杯子，刀，水槽，勺子EXACTMATCH：餐桌，烤箱，人EXTENDVOCAB：餐桌，烤箱，人，比萨GLOVEPSEUDO：烤箱LEARNEDGLOVE：餐桌TEXTCLSF：人，烤箱，碗，餐桌，瓶子，杯子，勺子，刀，椅子，冰箱，比萨饼在一个大屏幕上投射的一个介绍者在一个会议人们观看一个在屏幕上介绍的一个绅士在一套衣服。人们在屏幕上观看一个人发表演讲。一个大屏幕显示一个穿着西装的人一位观众正在观看一部放映在墙上的电影，电影中一个男人正在拍摄。GROUNDTRUTH：人，领带，瓶子ExACTMATCH：personEXTENDVOCAB：personGLOVEPSEUDO：personLEARNEDGLOVE：personTEXTCLSF：人，领带，椅子，手提包，电视图5：数据与性能。我们在COCO上学习的文本分类器在Flickr30K和由用户生成的内容标签形成的噪音较大的Flickr200K数据上推广得很好。与一些类名称匹配。结果显示在选项卡底部。1.我们观察到，由于有限的训练大小，在Flickr30K字幕上训练的检测模型的性能比在COCO上训练的检测模型的性能要差图4：不同伪标签的演示。我们的方法通过在语义层面上进行推理，填补了存在的内容和提到的内容之间的空白。与地面实况的匹配以蓝色显示。方法Avg.精度，IoU0.5：0.95 0.50.75Avg.精密度，面积S M LGT-LABEL10.623.48.73.212.118.1E XACT M ATCH（EM）8.919.77.12.310.116.3EM + GLO VE PSEUDO8.619.06.92.210.016.0EM + L赚取 G低 VE8.919.77.22.510.416.6EM + EXTEND VOCAB8.819.47.12.310.516.1EM + TEXT CLSF9.120.27.32.610.816.6表2 ： COCO测试- 开发结果（从COCO标题中学习）。我们通过提交到COCO评估服务器来报告这些数字。最佳方法以粗体显示。然而，收集这样的词汇需要人工努力，并且不是可扩展和可转移的策略。我们的EM+TEXT CLSF优于这个昂贵的基线，特别是对于类别在Tab的顶部1是依赖于地面实况图像级字幕的两个上限方法尽管有嘈杂的监督，我们的EM+TEXT CLSF几乎弥合了COCO标签上限的差距。对于COCO上的结果（Tab. 2），不同方法之间的性能差距较小，但如前所述，我们提出的EM+TEXTCLSF表现出最好的性能。我们认为较小的差距是因为许多COCO对象没有通过自然语言精确描述，并且数据集本身比PASCAL更具挑战性，因此可能会被困难的例子稀释。使用Flickr 30K字幕进行训练。我们还在Flickr30K数据集上训练了我们的模型，该数据集包含31，783张图像和158，915个描述性标题。在Flickr 30 K上进行培训更具挑战性：一方面，它包含的数据量比COCO少;另一方面，我们观察到E XACT M ATCH的标题召回率仅为48.9%，这意味着只有一半的数据可以被字幕不过，考虑到“免费”的重要的是，我们观察到，即使我们的文本分类器是在COCO标题和标签上训练的，它也能很好地推广到 Flickr30K 标题，正如EM+TEXT CLSF和EM+EXTEND VOCAB之间的差距所证明的那样。数据与性能我们使用Flickr30K和MIRFlickr1M展示了我们模型的潜力[16]。对于后者，我们将标题和所有用户生成的内容标签连接起来，形成标题注释。然后，我们使用在COCO上学习的文本分类器来排除不太可能提到我们的目标类的例子这种过滤产生的数据集约为原始数据的20%，我们将其引用到Flickr200K我们使用来自两个数据集的10%、20%、50%、100%数据，并在VOC 2007上报告平均精度。我们从图中看到。随着训练数据的增加，mAP相应地增加。为了估计模型潜力，我们将平方根函数拟合到图中最右边的四个点，并使用它来估计100万个样本的54.4 mAP。4.3.使用图像标签作为监督我们最后展示了我们的方法在经典的WSOD设置中的图像级监督的性能。这些结果验证了第2.2节中描述的方法组件。3.2.他们也作为一个近似上限为更具有挑战性的任务，在第二. 四点二。PASCAL VOC的结果。对于每幅图像，我们从所有的地面实况边界框中提取对象类别，并仅保留这些图像级标签用于训练，丢弃框信息。对于VOC 2007和2012，我们分别在5，011和11，540个trainval图像上进行训练，并在4，952和10，991个测试图像上进行评估。1我们报告IoU > 0时的标准平均精度（mAP）。五、我们与多个强大的WSOD基线进行比较。结果见表。3，我们的单一模型比基线方法（有时甚至是集成方法）表现得更好。在VOC 2007上，我们的模型改进了1 VOC 2012结果：http://host.robots.ox.ac.uk:8080/anonymous/NOR9IV2007年VOC的 mAP（%）3740.1.43333.63425.817.616.49694方法VOC 2007年结果：OICR VGG 16 [31]58.062.4 31.1 19.4 13.065.1 62.2 28.4 24.8 44.7 30.6 25.3 37.8 65.5 15.724.1 41.7 46.964.3 62.641.2PCL-OB-G VGG16 [30]54.469.039.3 19.215.7 62.964.4 30.025.1 52.5 44.4 19.6 39.367.7 17.8 22.9 46.657.5 58.6 63.043.5TS2 C [37]59.357.5 43.7 13.5 63.9 61.7 59.9 24.1 46.9 36.7 45.6 39.9 62.6 10.3 23.6 41.7 52.4 58.7 56.644.3OICR Ens.+ [31]第三十一话65.567.2 47.2 21.6 22.1 68.0 68.5 35.9 5.763.1 49.5 30.364.7 66.1 13.025.6 50.0 57.1 60.2 59.047.0PCL-OB-G Ens.+ [30]第三十话63.269.947.9 22.627.3 71.0 69.1 49.6 12.0 60.151.5 37.3 63.3 63.9 15.8 23.6 48.8 55.3 61.2 62.148.8我们68.749.753.3 27.6 14.1 64.3 58.176.0 23.659.8 50.7 57.4 48.1 63.0 15.5 18.449.7 55.0 48.467.848.5VOC 2012年结果：OICR VGG 16 [31]67.7 61.2 41.5 25.6 22.2 54.6 49.7 25.4 19.9 47.0 18.1 26.0 38.9 67.72.022.6 41.1 34.3 37.9 55.3 37.9PCL-OB-G VGG16 [30]58.2 66.0 41.8 24.8 27.2 55.7 55.2 28.5 16.6 51.0 17.5 28.6 49.7 70.57.125.7 47.5 36.6 44.1 59.2 40.6TS2 C [37]67.4 57.0 37.7 23.7 15.2 56.9 49.1 64.8 15.1 39.4 19.3 48.4 44.5 67.22.123.3 35.1 40.2 46.6 45.8 40.0OICR Ens.+ [31]第三十一话71.4 69.4 55.1 29.8 28.1 55.0 57.9 24.4 17.2 59.1 21.8 26.6 57.8 71.31.023.1 52.7 37.5 33.5 56.6 42.5PCL-OB-G Ens.+ [30]第三十话69.0 71.3 56.1 30.3 27.3 55.2 57.6 30.18.656.6 18.4 43.9 64.6 71.87.523.0 46.0 44.1 42.6 58.8 44.2我们74.2 49.8 56.0 32.5 22.0 55.1 49.8 73.4 20.4 47.8 32.0 39.7 48.0 62.68.623.7 52.1 52.5 42.9 59.1 45.1表3：使用图像级标签的Pascal VOC测试集的平均精度（%）。上图显示2007年VO

下载后可阅读完整内容，剩余1页未读，立即下载