点击监督方法：减少目标类边界框注释时间，提高检测器性能

27 浏览量更新于2023-10-16 收藏 1.7MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1使用点击监督迪姆山口帕帕多普洛斯1贾斯珀河R. Uijlings2弗兰克·凯勒1维托里奥·法拉利1，2dim. ed.ac.ukjrru@google.comvferrari@inf.ed.ac.ukkeller@inf.ed.ac.uk1爱丁堡大学2谷歌研究摘要训练对象类检测器通常需要大量图像，其中对象由边界框注释。但是，手动绘制边界框非常耗时。在本文中，我们通过提出中心点击注释来大大减少注释时间：我们要求注释者点击紧密包围对象实例的假想边界框的中心。然后，我们将这些点击合并到现有的多实例学习技术中，用于弱监督对象定位，以联合定位所有训练图像上的对象边界框。在PASCAL VOC 2007和MS COCO上进行的大量实验表明：（1）我们的方案提供了高质量的检测器，比弱监督技术产生的检测器表现得更好，具有适度的额外注释工作;（2）这些检测器实际上在接近从手动绘制的边界框训练的检测器的范围内表现;（3）由于中心点击任务非常快，我们的方案将总标注时间减少了9倍到18倍。1. 介绍我们如何以最少的人工注释工作来训练高质量的计算机视觉模型？获取训练数据对于对象类检测来说尤其昂贵，对象类检测是检测图像中给定对象类的所有实例的任务。通常，检测器是在完全监督下训练的，这需要在大量训练图像中手动绘制紧密的对象绑定框。这需要时间：注释流行的ILSVRC数据集[52]需要每个边界框约35秒，使用针对高效边界框注释优化的众包技术[66]（更多细节请参见第12节）。2）的情况。对象检测器也可以在弱监督下仅使用图像级标签进行训练。虽然这是相当便宜的，产生的检测器通常只提供约一半的准确性，其完全监督的计数器部分[6，7，8，11，13，29，54，61，62，63，75]。在本文中，我们的目标是最大限度地减少人类的注释工作，同时产生高质量的检测器。为此，我们建议通过单击对象的中心来注释对象。点击一个对象可以被看作是人机交互相当于指向一个对象。指向是人类在认知发展早期出现的一种自然的交流方式[69]。人类的指向行为在人机交互中得到了很好的理解，并且可以在数学上建模[65]。对于图像注释，单击对象是一个自然的选择。与其他注释边界框的方法相比，单击提供了几个优势：(1) 比绘制边界框快得多[66]，(2) 需要很少的指令或注释者训练计算机来绘制[66]或验证边界框[46，53，66]，因为这是人类自然的任务(3) 可以使用简单的注释界面（与边界框绘制不同[66]）执行，并且不需要专用硬件（与眼动跟踪不同[45]）。请注意，我们提出的方案不需要人在回路设置[12，46，47，72，24]：点击可以单独采集，独立于所使用的检测器训练框架。给定一个已知包含某个对象类的图像，我们要求注释者点击包围该对象的假想边界框的中心（中心点击注释）。这些点击为整个边界框提供了可靠的锚点，因为它们提供了其中心的估计。此外，我们还可以要求两个不同的注释器在同一个对象上提供中心点击。由于它们的误差是独立的，我们可以通过平均它们的点击位置来获得对对象中心的更准确的估计。有趣的是，给定两次点击，我们甚至可以通过利用对象大小与点击到真实中心的距离（误差）之间的相关性来估计对象的大小由于误差是独立的，因此两次单击之间的距离这使得能够基于点击之间的距离来估计大小。作为我们的众包协议的一个新的组成部分，我们引入了一个阶段来训练基于合成多边形的注释器。这使得可以生成任意大的训练问题集，而无需使用任何手动绘制的边界框。此外，我们直接从这个多边形阶段得到注释器误差的模型，并在以后使用它们来估计真实图像中的对象大小。63746375指令注释员培训资质反馈注释图像主要任务YY用户是否合格？N通过？NN通过？Y返回提交图1. 我们的众包框架收集点击注释的工作流程。注释者阅读一组说明然后通过一个交互式训练阶段，该阶段包括一个基于合成多边形的简单资格测试。完成后，他们会收到关于他们表现如何的详细反馈成功通过资格测试的注释者可以进入注释阶段。如果失败，他们可以重复测试多次。我们将这些点击合并到参考多实例学习（MIL）框架中，该框架最初是为弱监督对象检测而设计的[11]。它联合本地化的对象包围盒在所有的训练图像的对象类。它在重新训练检测器和重新定位对象之间反复交替。我们在重定位阶段使用中心点击，以促进选择与基于点击估计的对象中心和大小兼容的边界框。基于对Amazon Mechanical Turk for PASCAL VOC2007的众包中心点击的广泛实验和MS COCO上的模拟，我们证明：（1）我们的方案将中心点击纳入MIL中，在训练集上提供更好的边界框反过来，这导致了高质量的检测器，比弱监督技术产生的检测器表现得更好，具有适度的额外注释工作（在整个PASCALVOC 2007 trainval上不到4小时）;（2）这些检测器实际上在接近于从手动绘制的边界框训练的那些检测器的范围内执行;（3）由于中心点击任务非常快，我们的方案将总标注时间减少了9×（一次点击）到18×（两次点击）;（4）在相同的人类符号预算下，我们的方案优于最近的人类验证方案[46]，后者已经非常有效。2. 相关工作是时候画一个边界框了。绘制边界框所需的时间取决于若干因素，包括框的期望质量和所使用的特定众包协议。在本文中，作为权威参考，我们使用[66]的协议，该协议用于注释ILSVRC [52]。它的设计目的是在Amazon Mechanical Turk上以最少的人工注释时间生成高质量的边界框，这是一个受欢迎的人群-采购平台。他们报告了以下用于注释图像中的对象类的中位数时间[66]：绘制一个框的时间为25.5秒，验证其质量的时间为9.0秒，检查是否有其他同类对象尚未注释的时间为7.8秒（在这种情况下，该过程重复）。由于我们只考虑在每个图像中每个类定位一个对象，因此我们使用25。5秒+9秒。0s=34。5s作为手动注释高质量边界框的参考时间。这是保守估计：当考虑到一些框在第二步中被拒绝并且需要多次重新绘制直到它们正确时，中值时间增加到55秒。如果我们使用平均时间而不是中位数，成本将进一步增加到117 s。我们使用34.5s作为PASCAL VOC[ 17 ]和COCO [39]的参考，PASCAL VOC[17]具有与ILSVRC [52]相当的难度这两个数据集都有高质量的边界框，我们将其用作与我们的方法进行比较的参考。弱监督目标定位（WSOL）。这些方法是从一组仅标记为包含某个对象类的图像中训练的，而不需要给出对象的位置[6，7，8，10，13，29，54，61，62，63，75]。目标是定位这些训练图像中的对象，同时学习对象检测器以定位新测试图像中的实例。由于卷积神经网络（CNN [20，34]），最近关于WSOL [6，7，8，10，29，62，63，75]的工作然而，学习没有位置注释的检测器是困难的，并且性能通常是其完全监督的对应物的一半左右[6，7，8，10，13，29，54，61，62，63，75]。WSOL通常被称为多实例学习（MIL）问题[6，10，13，14，59，61，62，63]。在本文中，我们使用MIL作为我们的基础，并增加了中心点击监督。6376飞机自行车图2. 指令示例：（左）所需的框中心可能不在对象上，（中）如果对象实例被截断，你的点击和真正的中心之间的距离是15像素你的点击和真实中心之间的距离是60像素点击可见部分的中心，如果有多个实例，点击其中任何一个的中心。单击监督。点击注释方案已用于基于部分的检测中以注释对象的部分位置[9，74]，并且用于人体姿势估计中以注释人体部分的关键点[26，49，56]。点击超级视觉也被用于减少语义分割的注释时间[4，23，5，76]。最近，Bearman et al.[4]通过要求注释者点击目标对象上的任何地方来收集点击。节中5.1，我们表明，我们的中心点击注释优于这些点击任何地方的对象类检测注释。最后，Mettes et al.[42]建议用点击注释来注释视频中的动作。我们的工作还提供了其他新的元素，在上述工作，如。从两次点击估计对象区域，并使用合成多边形训练注释器。降低注释成本的其他方法。研究人员试图从视频中学习对象类检测器，其中时空连续性有助于对象定位[28，38，48，36，68]。另一个方向是迁移学习，其中新类的外观模型是从相关类的示例上的边界框注释中学习的[3，18，21，22，35，37，50]。眼动跟踪数据可以被视为指向对象的另一种类型。这些数据已被用作弱监控信号，以定位图像[41，45]或视频[57，40]上的观测。最近，Papadopoulos et al.[46]提出了一个非常有效的框架，用于训练对象类检测器，它只需要人类验证由学习算法产生的边界框。我们与[46]在第二节进行比较。五、3. 众包点击我们现在描述我们的众包工作流程的主要组成部分，如图所示. 1.一、3.1. 指令我们的注释器被赋予一个图像和目标类的名称。与[4]中要求注释者单击目标对象上的任何位置不同，我们希望他们单击一个假想的边界框周围的对象（图的中心。2）的情况。这个中心的定义是至关重要的，因为它为实际的边界框位置提供了一个强大的锚点。然而，人类倾向于点击对象的质心，这会为框位置提供不太精确的锚点。因此，我们仔细地措辞我们的指示：图3. 注释者作为反馈接收的示例。对于每个示例，我们提供了多边形的真实中心（黄点），它们的点击（绿点或红点）以及两者之间的欧几里得距离。框周围的对象，然后点击尽可能接近这个假想框的中心”。对于凹的物体，盒子的中心甚至可能位于物体的外部（图1）。2-左）。我们还包括对特殊情况的解释：如果对象被截断（即，只有一部分是可见的），注释者应该点击可见部分的中心（图1）。2-中间）。如果目标类有多个实例，则应仅单击其中一个实例的中心（图1）。2-右）。为了让注释者知道任务大约需要多长时间，我们建议每次点击时间为3秒。这是我们从小型试点研究中估计的预期注释时间的上限。3.2. 注释员培训在阅读说明之后，注释者将进入培训阶段。他们完成一个简单的资格测试，在测试结束时，我们会提供关于他们表现如何的详细反馈。成功通过此测试的注释器可以继续进行注释阶段。如果失败，注释者可以重复测试，直到成功。资格测试。资格测试已经成功-充分用于提高质量的众包数据和过滤出坏的注释者和垃圾邮件发送者[2，16，27，32，52，66]。这是因为一些注释器很少或根本不注意任务指令。在资格测试中，注释者被要求回答一些已知答案的问题这通常需要专家注释一批示例（在我们的例子中绘制对象边界框）。相反，我们使用一个无注释的资格测试，其中注释tators需要点击20个综合生成的多边形的中心，如图中所示1.一、使用合成的聚乙烯，使我们能够生成一个任意大的一组资格问题，零人工注释成本。Addi-注释者不能过度适应资格问题或通过共享答案来欺骗，当资格问题的数量很小时，这是可能的。为什么是多边形？我们使用多边形而不是轴对齐的矩形，以训练注释器对象的质心和包围对象的假想框的中心此外，多边形为资格考试提供了更真实的难度。找到轴对齐的矩形的中心是注释者反馈6377353025201510502060100140180220260300340380420460 500物体面积图4. 注释器的误差距离是对象面积平方根的函数。平凡，而找到多边形的中心类似于找到真实物体的中心。然而，多边形是真实对象的抽象，因此减少了注释者的认知负荷，可能使训练阶段更有效。反馈在注释者完成资格测试后，他们会收到一个反馈页面，其中包含他们注释的所有多边形示例（图1）。（3）第三章。对于每个多边形，我们显示(a)实际中心的位置，（b）注释者点击的位置成功还是失败。注释器需要在靠近多边形的真实中心处单击，以通过测试。通过测试的确切标准是在测试中所有多边形的平均误差距离低于20个通过资格测试的注释器将被标记作为合格的注释者，并且可以进行到主要的注释任务，在该任务中，他们在真实图像上工作。一个合格的注释者永远不必重新参加资格考试。在失败的情况下，注释者可以根据需要重复测试多次，直到成功通过。提供丰富的反馈，并允许注释者在交互式和高效的培训阶段重复测试结果3.3. 注释图像在注释阶段，向注释者呈现小批量的20个连续图像以进行注释。为了提高效率，我们的批处理由单个对象类组成。由于这一点，注释者不必重新阅读每个图像的类名，并且可以将注意力集中在他们关于类的先验知识上，以便在图像中快速找到它[70]。更一般地说，它避免了众所周知的增加响应时间和降低准确性的任务切换[51]。质量控制质量控制是众包图像注释时的常见过程[4，31，39，52，55，64、66、73、77]。我们通过隐藏两个评估图像来控制点击注释的质量，我们在20个图像批次中有地面实况边界框，并监控注释器未能达到资格测试中设置的阈值以上的精度的标注器我们不会对提交的数据进行任何后处理。资格考试质量控制误差距离没有没有43.8图像没有29.4多边形没有29.3多边形是的21.2表1.我们的众包协议的两个主要元素对点击准确性的影响。我们指出，我们使用了极少数不同的黄金问题，并将它们重复添加到许多批次中。在PASCAL VOC 2007上，我们只使用了40，相当于0。数据集的5%。这是一个微不足道的开销。3.4. 数据收集我们在Amazon Machanical Turk（AMT）上实现了我们的注释方案，并且我们收集了PASCAL VOC 2007[17]的整个训练集的所有20个类的点击注释每个图像都由两个不同的注释者对图像中存在的每个类进行这导致5，011个tranaval图像总共有14，612次点击注释时间。在注释阶段，我们表示-确保注释者的响应时间从即时消息的年龄显示，直到他们点击。平均响应时间为1。87S.这表明注释器可以非常有效地执行任务。请注意，我们能够在3.8小时内对整个PASCAL VOC 2007训练集进行注释，只需单击每个图像的每个对象类。有趣的是，我们测量的响应时间与图像级注释时间（[ 33 ]中的1.5s）可比较，表明大部分时间都花在视觉搜索上以找到对象，而不是点击它。此外，我们需要点击对象的中心并不会减慢注释器的速度：我们的响应时间与[ 4 ]中报告的用于click-anywhere注释的时间相当。我们研究了响应时间作为目标对象的面积的函数当对象变小时，响应时间不会增加，范围从非常小的对象的1.7s到与整个图像一样大的对象的2.2s我们假设，虽然小物体更难找到，但估计它们的中心比大物体更容易。误差分析我们通过测量它们与地面实况对象边界框的真实中心的距离来评估收集的点击的准确性。图4我们将此误差距离表示为目标面积的平方根的函数正如预期的那样，以像素为单位的误差距离随着对象区域的增加而增加。然而，当物体占据整个图像时，它会稍微下降这可能是因为这样的图像具有截断的实例，这意味着标注器需要在图像的中心而不是对象的中心单击，这是一个更容易的一般来说，误差距离相当低：平均19.5像素，中值为13.1像素（图像平均为300x500接下来，我们要了解使用资格测试、使用质量控制和使用面误差距离6378图5. 以自行车为例，框中心得分Sbc（左）：一键注释。（中间）：同一实例上的双击注释。（右）：不同实例上的双击注释。热图中每个像素的值给出了以该像素为中心的对象的Sbc或在资格测试中的真实例子因此，我们对PASCALVOC 2007培训的400张图像进行了一系列小规模的众包实验。作为Tab。1显示，使用合格测试显著降低了平均误差，从43.8像素降低到29.4像素。有趣的是，使用多边形而不是真实的例子根本不会影响错误，这表明我们提出的资格测试非常适合训练注释器。质量控制，将两个评估图像隐藏在注释图像的任务中，将误差进一步降低到21.2像素（在完整的数据集上，我们测量到19.5像素的误差）。最后，我们注意到Tab中的所有四个变体。1导致相似的注释时间。因此，资格测试或质量控制对注释器的速度没有显着影响。成本我们向注释者支付0美元。10注释一批20个图像。基于它们的平均响应时间，一个消极的形象只包含消极的建议，而一个积极的形象包含至少一个积极的建议，与大多数消极的建议混合在一起。目标是找到真正的积极建议，从中学习对象类的外观模型。我们通过在两个步骤之间交替来迭代地构建SVM外观模型A：(I) 重新定位：在每个正图像中，我们选择具有由当前出现模型A给出的最高分数的建议。(II) 重新训练：我们使用来自正图像的建议的当前选择以及来自负图像的所有作为初始化，在第一次迭代中，我们使用完整的图像作为正训练示例来训练分类器[10，11，44，54，43，30]。精炼。为了获得有竞争力的基线，我们对标准MIL框架应用两个改进。首先，我们使用多重折叠[11]，这有助于摆脱局部最优。第二，我们将外观模型A给出的分数与“对象性”的一般度量O结合起来，该度量O衡量了一个亲的可能性，以紧密地包围任何类别的对象（例如，鸟、车、羊），而不是背景（例如，天空、水、草）。之前在WSOL中使用了客观性，以将本地化过程转向对象，远离背景[11，13，21，48，58，61，59，67，75]。在本文中，我们使用[15]中最近的客观性度量。形式上，在步骤（I）中，我们在相等权重的假设下线性组合得分A和O每个建议p的得分由S ap（p）=1· A（p）+1·O（p）给出。每小时工资约9元。注释22的总成本带有两个点击注释的PASCAL VOC 2007的整个训练集是75美元。40美元（或37美元）。70用于单击注释）。4. 将点击数转换为WSOL我们现在介绍我们如何将我们的点击监督纳入参考多实例学习（MIL）框架，该框架通常用于弱监督对象检测（WSOL）。本节中的所有解释都考虑一次处理一个对象类，因为我们本质上是独立处理它们的。4.1. 参考多实例学习（MIL）MIL的输入是一个训练集，其中包含目标类的正图像和不包含目标类的负图像。我们将每个图像表示为使用Edge-Box [15]提取的一袋对象建议。遵循[20，11，6，7，62，75]，我们使用AlexNet CNN [34]的Caffe 实现 [25 我们在 ILSVRC [52] 数据集上预训练CNN，深MIL。在MIL收敛后（通常在10以内），迭代），我们执行两个额外的迭代，其中dur-在步骤（II）中，我们深入地重新训练整个CNN网络，而不仅仅是在固定特征表示之上的SVM在这些迭代过程中，我们使用Fast RCNN [19]作为外观模型A。4.2. 一键监督动机点击使用我们的众包方法的对象中心的注释。3提供关于物体位置有力提示。在本节中，我们通过在目标类的每个图像中使用单击c框中心得分S bc。直观地说，简单地选择其中心最接近点击的对象提案将失败，因为注释器并不完全准确。相反，我们引入了一个得分函数Sbc，它表示根据其中心点cp和点击c覆盖对象的建议p-cp−c2图像级标签（无边界框注释）。SBC（p;c，σbc）=e2σ2BC（一）63790.20.1051015202530354045505560657075误差距离0−1−2−3−4−5−6−70 10 20 30 40 50 60 70|| C− c||12图6. 箱区得分Sba。这里使用的所有窗口都具有固定的长宽比，并且以对象的中心为中心。其中，cp−c表示c和cp之间以像素为单位的欧几里得距离。标准差σbc控制着当cp远离c时，Sbc下降的速度（图2）。（五）。用于重新定位。我们在MIL的重新定位步骤（I）中使用框中心提示Sbc（第二节）。4.1）。而不是根据选择得分最高的建议，图7.（左）注释者在我们的资格测试中所犯错误的分布。（右）合成多边形的相对面积（对数标度）作为两次点击之间距离的函数。红线表示回归函数μ。设μ（μc1−c2μ c）是一个估算物体面积对数的函数（我们将在第二节中解释如何学习这个函数）。4.4）。基于此，对于每个提议p，我们引入表示根据提议面积与估计的对象面积之间的比率的p覆盖对象的可能性的框面积得分Sba：-（ap−µ（c1−c2））2评分函数Sap单独，我们将其与Sbc与S吧（p;c1，c2，σba）=e2σ2BA（二）a积：Sap（p）·Sbc（p;c，σbc）。节中5.1我们表明，这会改善重新定位，从而在下一次重新训练迭代中产生更好的外观模型，并最终改善最终的MIL结果。用于初始化。我们还使用点击位置来改进MIL初始化。而不是从完整的图像中初始化阳性训练样本，我们现在构建以点击为中心的窗口，同时具有最大尺寸而不超过图像边界。这大大改善了MIL初始化，特别是在点击位置接近图像边界的情况下。4.3. 两次点击监督动机虽然使用两次注释器点击比一次点击的总注释时间增加了一倍，但它允许我们更准确地估计对象中心。此外，我们可以根据两次点击之间的距离来估计对象区域。框中心得分S bc。通过平均两次点击的位置，我们可以更准确地估计物体中心。我们简单地在等式中替换c。（1）用两次点击的平均值c1和c2。然而，在包含目标类的多个实例的图像中，两个注释器可能会点击不同的实例（图10）。5，右）。为了解决这个问题，我们引入了一个距离阈值dmax，超过该阈值的点击被认为是针对不同的实例。在这种情况下，我们保留两个点击，并在等式中使用它们。（一）.形式上，如果c1−c2>d max，那么对于每个建议p，我们使用两个点击中最接近其中心的一个。箱区得分S ba。物体的面积和点击的误差距离之间存在明显的相关性（图10）。4）.由于两个注释者所犯的错误是独立的，因此两次点击之间的距离随着对象区域的增加而增加（平均而言）。因此，我们根据两次点击之间的距离c1和c2来估计对象区域。这里p是提案面积的对数标准差σba控制着当p与µ不同时，Sba下降的速度。图6示出了Sba分数对各个区域的提议的影响的示例。为了说明的目的，这里使用的所有建议都具有固定的纵横比，并且以对象为中心。当建议的面积与估计的对象面积匹配时，得分最大。用于重新定位。现在，我们在MIL步骤的重新定位步骤（I）期间将最终得分函数中的所有线索用于提案pS （ p ） =Sap （ p ） ·Sbc （ p;c1 ， c2 ， σbc ） ·Sba（p;c1，c2，σba）（3）4.4. 学习成绩参数我们利用从合成多边形的资格任务中获得的点击来估计我们模型的超参数：σ bc（公式（1）），dmax（Sec. 4.3），σba（Eq.（2）和函数μ（等式（2）译注。图7-左显示了在我们的资格测试期间注释器的误差距离的分布。我们从这个分布估计σbc。此外，在同一图中，我们看到最大误差距离为70像素，因此我们设置dmax=70。图7-right显示合成多边形的相对面积的对数作为两次点击之间我们学习函数µ（c1− c2）作为拟合此数据的多项式回归量（图中的红线）。7-右）。最后，我们将σ ba简单地设置为由多边形上的回归量进行的面积估计的平均误差。5. 实验结果5.1. 关于PASCAL VOC 2007数据集。我们在PASCAL VOC 2007 [17]上进行了实验，它有20个类，5，011个训练图像（trainval）和4，952个测试图像。在训练中，我们只log（对象的相对面积）6380图8.使用我们的单击（蓝色）和双击（绿色）监督模型在PASCAL VOC 2007的tranaval集上本地化的对象示例。对于每个示例，我们还显示了参考MIL（红色）产生的本地化。使用图像级标签。与之前的一些WSOL工作不同，它删除了具有截断和困难对象的图像[10，11，13，54，75]，我们使用完整的训练集。目标检测模型。作为对象检测器，我们使用Fast R-CNN [19]。代替选择性搜索[71]，我们使用边缘框[15]作为建议，因为它们带有我们在MIL中使用的对象性度量[1]。除非另有说明，否则我们使用AlexNet [34]作为我们方法和所有比较方法的底层CNN架构。评价给定一个带有图像级标签（可能还有点击注释）的训练集，我们的目标是定位这个集合中的对象实例，并训练出好的对象检测器。我们使用正确定位（CorLoc）量化训练集上的定位性能，从而能够与WSOL方法直接兼容[6，7，8，11，13，29，54，61，75]。CorLoc是其中由算法返回的边界框正确地定位目标类的对象的图像的百分比IoU ≥0。（五）。我们使用平均精度（mAP）来测量训练对象检测器在测试集上的性能。我们量化注释的实际人类时间测量方面的效果。比较方法。我们通过在相同的训练图像上训练相同的对象检测器[19]来比较我们的方法与完全监督的替代方案，但是使用手动注释的边界框（每个图像每个类一个，用于公平比较）。我们还比较了现代基于MIL的WSOL技术（第二节）。4.1）在相同的训练图像上运行，但没有点击监督。对于MIL WSOL，绘制边界框的工作量为零。对于完全监督学习，我们使用[66]中ILSVRC的实际注释时间：35秒用于绘制单个边界框并验证其质量（第二节）。2）的情况。这些时间是PASCAL VOC的代表，因为它们的图像具有可比的难度和质量[52]。我们还使用他们报告的时间和各种基线与人类验证方案[46]进行比较参考MIL。我们运行参考MIL WSOL，k=10次折叠，10次迭代，之后收敛。它在训练集上达到了43.4%的CorLoc。应用两次深度MIL迭代（第4.1）在此基础上提高到44.5% CorLoc。通过这种方法产生的检测器在测试集上实现了29.6%的mAP（图中的红点）。第9段）。一键监管收益率73.3%CorLoc.结果对象检测器产生45.9%的mAP（图中的黄点）第9段）。因此，在适度的额外注释成本只有3.8小时与参考 MIL 相比，我们实现了 +28.8%CorLoc 和+16.3%mAP的绝对改进。双击监督使注释时间加倍，但它在两个方面改进了我们的模型：（1）我们可以更准确地估计对象中心，以及（2）我们可以基于两次点击之间的距离来估计对象区域。仅使用两次点击监督来改善框中心估计Sbc，与使用一次点击相比，带来了+0.8%的CorLoc和+0.9%的mAP 。还包括框面积估计 Sba 导致比一次点击的+5.2%CorLoc和+3.2%mAP的总改进（78.5%CorLoc和49.1%mAP，图11中的橙色点）。第9段）。这表明，框面积估计对双击带来的改进贡献最大，而不是单击监督。基于AlexNet架构的最先进的WSOL方法[34]执行如下。Wang 等人 [75]： 48.5% CorLoc 和31.6% mAP 。Cinbis等人[11]：52.0% CorLoc和30.2% mAP。Bilen等人[8]：54.2% CorLoc和34.5% mAP。我们的双击监督优于所有这些方法，CorLoc为78.5%，mAP为49.1%，额外的注释成本适中。全监管实现 55.5% 的 mAP 。我们的两个点击超级pervision非常接近（49.1% mAP）。重要的是，全面监督需要71小时的注释时间。相反，我们的双击方法只需要7.6小时，减少了9倍（或我们的单击方法的18倍人类验证[46]如图中的蓝线所示。9.第九条。给定相同的总注释时间，方法提供更高的CorLoc和mAP。当我们使用双击注释时，在相同的注释工作量下，我们匹配它们的mAP并获得略高的CorLoc。CNN深度报道。当使用VGG16 [60]而不是AlexNet时，完全监督的训练导致65.9%的mAP。我们的双击模型实现了57.5%的mAP，而参考MIL WSOL提供了32.4%的mAP。点击精度的影响。我们比较了我们收集的中心点击符号（第二节）。 3 ）三种替代方案：（ oracleclicks）：使用地面实况框的中心作为clicks;（随机点击）：均匀采样地面实况框内的像素 ; （ click-anywhere）：我们模拟了一个场景，其中人类被指示点击对象上的任何地方，通过模仿PASCAL VOC 2012上公开可用的点击注释[4]的分布。我们测量从地面实况框的中心到它们的点击的距离然后我们建立一个回归量来预测这个距离638160402001 10 100 1000201001 10 100 1000注释时间（小时）图9. PASCAL VOC 2007评测CorLoc和mAP性能相对于人工注释时间（小时）（对数标尺）。基于物体的面积。最后，我们将此回归器应用于VOC2007，并通过预测距离替换地面实况对象中心。为了简单起见，我们使用替代点击到我们的一键监督模型（第二节）。4.2）在参考MIL结束时的一个附加的重新定位迭代中（与在每次迭代中使用它相反）。对于这三个备选方案中的每一个，我们使用参数σbc的oracle最佳值，而对于我们的中心点击注释，我们使用在合成多边形上学习的值（第二节）。4.4）。作为参考，当以这种方式在MIL上使用时，我们的中心点击导致 67.2% 的 CorLoc 。 Oracle 点击给出了73.7%CorLoc的上限，而对象上的随机点击没有超过MIL（43.4%CorLoc）。最后，单击任意位置场景实现了55.5%的CorLoc。有趣的是，使用我们的中心点击导致+11.7%CorLoc，这表明它们传达了更多的信息。5.2. MS COCO数据集。 MS COCO数据集[39]比PASCAL VOC更困难，如[39]所示，平均具有更小的对象和更多的对象类（80）。我们使用与PAS-CAL VOC 2007完全相同的评价设置，并在训练集（82，783张图像）上评价CorLoc，在val集（40，504张图像）上评价mAP。参考MIL。参考MIL WSOL达到24.2% CorLoc和8.9%mAP（图中的红点）。第10段）。这远远低于其在PASCAL VOC 2007上的性能单击监督。我们没有为COCO收集真实的点击注释，而是模拟它们。由于我们想要创建一个接近真实注释者点击的真实场景，所以我们没有使用可用的地面实况框的中心作为模拟点击。假设注释器的错误距离仅取决于对象区域，我们使用PASCALVOC2007上的错误分析结果（图1）。4）为COCO生成逼真的嘈杂模拟点击。我们的模拟一键监督方法实现了参考MIL性能的两倍，达到51.8%图10. 对MSCOCO的评价。CorLoc和mAP性能相对于人类注释时间（小时）（对数标尺）。CorLoc和18.3% mAP（图中的黄点）第10段）。我们模拟的双击监督方法甚至超过了这一点，58.6%的CorLoc和19.3%的mAP（图中的橙色点）第10段）。假设每次单击的注释时间与PASCAL VOC 2007中相同全面监督。全面监督的培训需要2，343小时的注释时间，并导致24.0%的mAP。人类验证[46]。由于[46]未对COCO进行实验，因此我们通过根据他们报告的VOC实际人类的误差分布对其进行采样来模拟其验证响应。这将创建逼真的模拟。该方案的CorLoc和mAP可以在图1中看到。10（蓝线）。我们的双击监督方法达到了与模拟[46]相同的CorLoc（58.3%），并且在mAP方面表现更好（19.3%vs 18.8%）。重要的是，它需要大约3。总注释时间减少5倍从另一个角度来看，在相同的注释时间（250小时）下，我们的双击监督方法比人工验证方法的性能高出+16%CorLoc和+4%mAP。因此，在具有小目标的困难数据集上，我们的方法具有优势，因为[46]的效率下降，而点击监督的好处仍然存在。6. 结论我们提出了中心点击注释作为训练对象类检测器的一种方式，并表明众包注释器可以准确快速地执行此任务（每个对象 1.9 秒）。在 PASCAL VOC 和 MSCOCO上的大量实验中，我们已经证明了我们的中心点击方案在对象检测器的弱监督学习上有了显着的改进，并且增加了适度的注释成本。此外，我们已经证明，与手动绘制边界框相比，它将总注释时间减少了9×-18×最后，我们已经证明，我们的方案与最近的一种注释器自动验证提议的边界框的方法相比是有利的[46]。谢谢。这项工作得到了ERC启动赠款“VisCul”的支持CorLoc密耳绘图人工验证一键监管一键监管地图6382引用[1] B. Alexe，T. Deselaers和V.法拉利什么是对象？在2010年，加拿大残疾人协会。五、七[2] M.安德里卢卡湖Pishchulin，P. Gehler和B.席勒2D人体姿态估计：新的基准和最先进的分析。CVPR，2014。3[3] Y. Aytar和A.齐瑟曼。Tabula rasa：用于对象类别检测的模型转移。见ICCV，2011年。3[4] A. Bearman，O. Russakovsky，V. Ferrari和L.飞飞这有什么意义：基于点监督的语义分割。在ECCV，2016年。三、四、七[5] S. Bell，P. Upchurch，N. Snavely和K.巴拉野外材料识别与上下文数据库中的材料CVPR，2015。3[6] H. Bilen，M.Pedersoli和T.Tuytelaars 基于后验正则化的弱InBMVC，2014. 一、二、五、七[7] H. Bilen，M.Pedersoli和T.Tuytelaars 基于凸聚类的弱CVPR，2015。一、二、五、七[8] H. Bilen和A.维达尔迪弱监督深度检测网络在CVPR，2016年。一、二、七[9] S. Branson，P. Perona，and S.贝隆吉从弱注解强监管：可变形零件模型的交互式训练。见ICCV，2011年。3[10] R. Cinbis，J.Verbeek和C.施密特弱监督目标定位的多重milCVPR，2014。二、五、七[11] R. Cinbis，J. Verbeek，and C.施密特弱监督目标定位与多重多实例学习。IEEE Trans. on PAMI，2016. 一、二、五、七[12] J. Deng，J.Krause和L.飞飞细粒度众包，用于细粒度识别。CVPR，2013。1[13] T.德塞拉湾Alexe和V法拉利在学习对象外观的同时定位对象。ECCV，2010年。一、二、五、七[14] T. G.迪特里希河H. Lathrop和T.洛扎诺-佩雷斯用平行轴矩形求解多实例问题。人工智能，89（1-2）：31-71，1997. 2[15] P.Dollar和C.齐特尼克边缘框：从边缘定位对象投影。2014年，在ECCV。五、七[16] I. Endres、A.Farhadi，D.Hoiem和D.A. 福赛斯收集更丰富的对象注释的好处和挑战2010年CVPR的DeepVision研讨会。3[17] M. 埃弗灵厄姆湖，澳-地凡古尔角，澳-地K. I. 威廉斯，J.Winn和A.齐瑟曼。 PASCAL Visual Object Classes（VOC）挑战. IJCV，2010年。二、四、六[18] L.费费河Fergus和P.佩洛娜从几个训练示例中学习生成视觉模型：一个增量的baidu方法测试了101个对象类别。cviu，2007年。3[19] R.娘娘腔。快速R-CNN。在ICCV，2015年。五、七[20] R.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，用于准确的对象检测和语义分割。CVPR，2014。二、五[21] M. Guillaumin和V.法拉利imagenet中用于目标定位的大规模知识CVPR，2012。三、五[22] J. Hoffman，S. Guadarrama、E.曾河胡，和J。LSDA：通过自适应进行大规模检测。在NIPS，2014。3[23] S. Jain和K.格劳曼点击雕刻：分段对象在视频与点击。第四届AAAI人类计算和众包会议论文集，2016年。3[24] S. D. Jain和K.格劳曼主动图像分割算法.在C

下载后可阅读完整内容，剩余1页未读，立即下载