改进弱标记数据的低拍类检测

92 浏览量更新于2023-10-25 收藏 1.31MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1DLWL：改进弱标记数据的低拍类检测VigneshRamanathanFacebookvigneshr@fb.com王锐Facebookruiw@fb.comDhruvMahajanFacebookdhruvm@fb.com摘要大型检测数据集有一个长尾的低拍摄类与很少的边界框注释。我们希望改进对低拍摄类的检测，弱标记的网络规模数据集只有图像级别的标签。这需要一个检测框架，可以用有限数量的边界框注释图像和大量的弱标记图像联合训练。为此，我们提出了对FRCNN[39]模型的修改，以在训练期间从弱标记图像自动推断对象建议的标签分配。我们把这个标签分配作为一个线性规划的限制，在图像中的对象实例的数量和重叠。我们表明，这可以有效地解决在训练弱标记图像。与仅使用少量注释示例进行训练相比，在我们的框架中使用弱标记示例进行增强可以提供显着的收益。我们在LVIS数据集上证明了这一点（3。AP中的5%增益）以及COCO数据集的不同低射变体。我们对训练检测模型所需的弱标记和完全标记数据我们的DLWL框架也可以超越自监督基线，如用于低拍摄类的全方位监督[37]。1. 介绍对象检测模型在标准数据集上取得了巨大的进步，如COCO [31]和PASCAL VOC [11]，每个类有数千个对象实例。然而，在这方面，当我们转向像LVIS[18]这样的更大的数据集时，我们会遇到具有少于10个边界框的低拍摄类。另一方面，有巨大的网络规模的数据集，[50]具有大量类别的图像级标签，但没有任何边界框。利用这些信息来提高对低命中类的检测是有利可图的。弱监督对象检测（WSOD）[3，62，53]是一种仅使用图像级类别标签来训练检测模型的工作。然而，这些模型的性能明显低于其完全监督的性能高镜头低射图1：大规模检测数据集具有长尾分布，其中包含许多lowshot类。我们采用FRCNN [39]来利用额外的弱标记图像来改善这些类别的检测。同行在我们的工作中，我们调查了一个更实际的中间立场。我们在检测数据集中结合大量弱标记图像使用低拍摄类的少数边界框注释（图11）。1）。直观地说，与WSOD模型相比，来自完全监督示例的边界框可以导致更好的定位。同样，弱监督样本的类监督可以帮助减少目标检测中的分类错误。我们提出了一个框架，以改善低杆类与弱标记（DLWL）数据的检测为了实现这一点，我们希望启用像FRCNN [39]这样的标准检测模型来使用完全标记和弱标记数据。FRCNN有两个阶段：对象方案生成之后是方案的分类。对于完全监督的图像，FRCNN在每次迭代时使用注释边界框和提案之间的重叠来识别分类阶段中使用的提案类标签。弱标记示例的主要挑战是，在训练过程中，提案的类标签是未知的。我们解决这个问题，一般化的标签分配方法，以及与图像级标签。这与WSOD方法[26，53，15，1]相反，WSOD方法具有专门的架构和损失函数，仅从弱标记图像中学习我们制定建议标签分配作为一个优化问题。根据分类期望最大化（C-EM[5]）的精神，9342大规模检测数据集狗腊肠犬腊肠犬腊肠犬三轮车三轮车三轮车三轮车FRCNN弱标记Web数据约束线性规划9343训练期间的每个建议可以用于识别其标签。然而，在没有附加约束的情况下，这可能导致错误的标签分配。因此，我们引入了图像中对象的空间分布和实例数量的界限，并将其视为线性规划（LP）。我们还展示了如何在每次迭代中有效地解决这个LP。然后，这些估计的标签可以用作伪地面实况来训练模型。通过对标签分配过程的这种简单修改，可以使用两种形式的监督来训练模型，而无需对模型架构进行任何在过去的工作中也探索了使用额外数据来提高检测的想法[37，12]。这些方法使用来自初始低拍摄模型的噪声估计从更大的数据集中挖掘额外的边界框。另一方面，我们与所有数据联合训练。此外，我们允许模型在训练过程中使用特定于对象的约束和逐步更好的预测来推断弱标记图像的边界框。我们工作的主要贡献有两个方面：（a）我们通过提出一个基于LP的框架，使FRCNN模型能够用两种形式的监督进行训练，该框架将标签标记为弱标记图像中的建议，以及（b）我们对用弱标记示例增强低拍摄类的效果进行了彻底的分析。为此，我们提出了三组实验。(a)我们首先展示了COCO数据集的模拟低拍摄设置的结果我们观察到mAP显著增加（>5%）通过增强低拍摄类（每类10张图像），弱标记图像。我们还观察到，自我训练基线[37]。此外，我们还展示了低激发数据量和弱标记数据量的影响。(b)我们用来自网络规模数据集YFCC 100M [ 50 ]的噪声弱标记示例增强了现实世界的低拍摄数据集LVIS [ 18 ]，并观察到3。稀有职业获得5%的增益，无需任何附加注释。(c)我们还评估了我们的模型在一个极端的设置没有任何边界框标签，并证明了可比的性能，曼斯国家的最先进的WSOD模型。2. 相关工作使用额外数据增强：半监督方法[28，6，40，37]被广泛用于使用额外的未标记数据训练模型。自训练方法使用来自初始模型的预测来注释其他数据，然后重新训练模型[40，37]。特别是，全方位监督[37]表明，自我训练可以导致最适度的性能增益在highshot制度。在lowshot机制中，来自初始模型的预测是嘈杂的，这可能会对自我训练方法产生不利影响。我们通过使用弱标记和完全标记的数据进行联合训练来处理这种噪声，这些数据在训练过程中推断出边界框标签，而不是仅仅依赖于初始预测。最近，NOTE-RCNN [12]从弱标记数据集合中迭代挖掘高置信度示例。虽然他们的设置与我们的类似，但他们需要多轮培训。其他最近的工作[58，51]高激发源类和低激发目标类之间的UTI-ESTIMATION相关性，以改善细粒度检测。这些方法是为了选择更好的例子和在班级之间分享信息。这些想法是对我们工作的补充，可以与我们的模型结合使用YOLO9000[38]还通过在每个图像中使用最有信心的预测作为伪地面实况来使用分类数据集。我们通过允许每个图像具有多个对象实例以及图像级约束来概括这一概念。另一项相关工作[34]提出了一种用于弱监督分割的约束卷积网络，其具有基于凸优化的替代算法。沿着类似的路线，我们提出了一个更简单的线性规划与边界框约束的对象检测。弱监督学习：弱监督对象检测已被广泛研究，仅用图像级标签训练检测模型[7，27，23，35，44，57，33、48、45、65、16、61、46、64、63、9、43、62]。特别是C-MIL [53]和Gao et al. [15]通过与图像分类和对象检测丢失联合训练，在PAS- CAL VOC [11]上获得良好的结果。 Prednet [1]引入了一种新的基于相异度的目标函数。这些方法专注于在完全没有边界框标签的我们的工作提供了一个更实际的设置，其中至少有几个边界框标签可用的广泛的结果。与具有专门架构的WSOD方法相比，它相对简单，只需要对FRCNN进行很小的更改。低拍摄对象定位：许多最近的作品[21，32，56，55，20，24，10，41，22]也开发了特殊的技术来改善低拍摄对象定位。例如，[22]使用注意力和上下文引导学习以改进低拍语义分割。具有知识转移的元学习也被用于改进低拍摄模型[56]。或者，我们探索添加弱标记的例子来提高低拍检测。3. 方法FRCNN [39]是一种广泛用于完全监督对象检测的模型它包括一个区域建议网络（RPN），该网络为图像生成对象建议，随后是感兴趣区域（ROI）组件（ROI对齐和ROI头部）。ROI对齐从亲聚合功能，而ROI头分配类标签亲和微调他们的这示于图2、实线。在本节中，我们将这个FRCNN模型进行了推广，以实现完全la-9344CA不Gb/G0.4020.4......p狗p3B/G强标号........0.40.20.4度B/GC建议评分矩阵（S）猫狗如果边界框标签不可用弱标号猫，狗罗伊黑德P1p1和p2p2p3......你好。..P3... ...你好。....P1猫RPN主干建议P1猫P2犬2P3B/G损失狗猫狗猫全程监督监管不力猫，狗if bounding boxlabelsare available图2：我们的DLWL框架概述，该框架使用弱标记和强标记示例来训练FRCNN模型。如果所提供的示例具有边界框标签，则使用具有IoU匹配的标准绿色模块来将标签分配给提案，否则使用具有约束的线性规划来推断提案标签，如黄色模块中虚线所示。线性规划在第二节中有更详细的解释。3带钟形和弱标记的数据。我们把我们的框架称为DLWL（检测低拍类与弱拉贝尔数据）。我们考虑像LVIS [18]这样的大规模数据集，由highshot类（具有大量边界框注释）和lowshot类（具有很少的边界框注释）组成。这种类混合的固有优点是，highshot类中的大量绑定框可以帮助学习网络的类不可知部分，如RPN，从而导致整体更好的对象检测。我们增加这样的数据集与其他弱标记的例子低拍摄类。MSorealy，令训练图像由yX=响应类标签。这种对齐对于弱标记的图像是不可能的，因为没有边界框标记。我们通过一个基于优化的标签分配模块（图中黄色部分）来解决这个问题。2）。一个简单的方法是选择每个弱标记类的得分最高的提案作为该类的正边界框。但是，如果图像中存在对象的多个实例，则我们将冒着不将标签与所有实例关联的风险而且，这并没有利用图像中的一些内在约束，例如对象的不同实例不应重叠。我们克服这通过在标签分配期间包括这些约束来实现。更正式地，我们考虑图像x∈ Xw，其中CXfXw，具有全监督（Xf）和弱监督（Xw）示例。我们首先考虑的是弱监管的标准形式，它只提供图像级没有边界框的类标签。稍后，我们还讨论了使用图像中每个类的实际边界框数量作为额外的弱监督。3.1. 弱示例的标签分配FRCNN中的ROI头为RPN生成的每个建议分配类分数这反过来又被用来弱标签在任何给定的迭代中，设S是由ROI负责人分配给Pproposals的所有班级分数。我们考虑一个P×（C+1）子矩阵SC，表示图像中C个弱标签和背景类C+1对应的P个建议的得分，使得spc是图像中第c个弱类的第p我们希望给每一种产品都贴上标签。让这个标签分配由二进制矩阵Y∈{0，1}P×C+1。在C-EM [5]中，每个建议的标签将通过解决以下优化问题来推断：在训练期间计算分类损失。使用弱标记图像进行训练的主要挑战是提案的类别标签是未知的。用于完全标记的图像，这些是通过对齐亲，Y=argmaxYTr s.t. Y1=1，Σ.ΣSTY、（1）使用图像中的带标签的边界框填充。这被图示为图1中的（Inersection over Union）IoU匹配器模块。2，其中具有大于阈值的IoU的提案具有带标签的框，被分配核心，ypc≥1， C≤C，p其中Tr（. ）表示矩阵的迹。第一个约束确保每个建议都被分配一个标签，ROI对齐IoU匹配器线性规划9345汽车、摩托车的高分提案组合提案第二约束确保图像中的每个弱标签被分配给至少一个提议。为了改善训练过程中的标签分配，我们扩展了这个优化问题，增加了额外的约束。特别是，我们增加了对每个类的选择框的数量，以及它们的空间分布的限制。对于每个对象类，我们假设每个图像的平均盒子数量这可以从lowshot数据集获得，甚至可以为数据集中的所有类设置一个固定的数字，如我们在实验部分所示。对于每个类c，让这个数表示为Nc。这导致方程中更严格的约束。1.一、ypc=Nc，Nc ≤ C.（二）1辆汽车、3辆摩托车的线性规划解决方案p此外，我们希望确保对于每个类，我们选择的框不会明显重叠。这样可以确保对象的多个实例分布良好。为了实现这一点，我们首先根据它们的IoU对图像中的所有提案进行聚类。在实践中，我们使用凝聚聚类与阈值产生H集群。数量聚类的大小由阈值决定，并随图像的变化而变化假设聚类由{h1，. . .，h H}。我们现在可以添加一个额外的约束，以确保每个集群只包含一个对象的一个实例ypc≤1，μc≤C，1≤i≤H（3）p∈hi图1显示了这些约束条件下标签分配的效果。3.第三章。如图所示，LP不禁止集群包含不同对象的实例。3.2. 较弱模型的自举使用弱标记示例进行训练时的一个常见问题是，模型可能会在训练的初始阶段陷入糟糕的局部最小值[51]，因为模型的预测最初是不可靠的。我们通过首先训练一个没有任何弱标记数据的低射模型（Mlow），并使用从（Mlow）预测的标签来增强当前模型的预测来解决这个问题。换句话说，我们将得分矩阵S替换为加权组合λS+（1 − λ）Sinit，其中Sinit是从低射模型（M low）的预测中获得的矩阵，0 ≤ λ ≤ 1。在初始阶段，lowshot类的分数可能非常低，Sinit有助于引导训练。当模型开始训练时，我们还将λ退火到0，因为模型对低射的置信度班级随着时间的推移而增加。有关退火的详细信息，请参阅补充资料。为了计算Sinit，我们使用来自（Mlow）的每个图像100个检测在给定的迭代中，对于图像中的每个建议p，我们从具有最高重叠的低拍摄模型中找到检测边界框如果重叠大于0。7，我们分配检测的类分数图3：说明使用线性规划进行标签分配的示例两个弱类汽车和摩托车的最高得分提案不同的提案集群显示在左下角的图像中，其中每种颜色表示一个唯一的集群。来自LP的最终标签分配如右图所示。3.3. 基于计数的监督弱监督检测通常是指设置，其中我们只知道图像中存在的对象类的集合Gaoet al. [13]研究了基于计数的监督作为弱监督的替代形式，其中图像中每个类的实例数量被注释。这比其他形式的注释（如单击[2]）更便宜，并且可以使弱监督检测受益。有趣的是，这种薄弱的监督自然符合我们的框架。而不是使用粗略的猜测或先验数据集，如果一个对象的确切计数是已知的，我们可以使用它作为一个更严格的约束方程。二、换句话说，计数监督将为我们提供每个图像中Nc的真实值3.4. 培训详细信息LP优化：为了解决Eq. 1与方程中的附加约束。2和3，我们首先放松二元约束。然而，结果的LP是非常昂贵的解决标准LP求解器。当我们遇到弱标记图像时，这必须在每次迭代时进行。我们通过观察优化分离成可分离的约束来解决这个问题，这些约束可以使用ADMM [4]有效地解决（在补充中显示）。RPN和边界框回归：我们禁用所有弱LA的RPN损失和边界框回归损失。框中的第p行。如果重叠低于这个阈值-旧的，我们设置对应于背景的值在第p行到1。打电话的例子。这些损失只适用于完全-监督图像，其中在训练期间已知精确的边界框坐标。93464. 实验我们工作的主要贡献是对FRCNN框架进行了简单但有效的更改，该框架能够使用完全监督和弱监督数据的混合来训练对象检测模型。我们表明，这对于具有低拍摄类的数据集特别有益。我们首先通过对COCO[31]数据集的低射变体进行对照实验来证明这一点除非另有说明，否则我们使用2017年版本的数据集。我们还通过使用从YFCC 100M [50]中挖掘的弱标记图像来增强LVIS [18]数据集的稀有类，而不使用任何额外的注释，来展示我们模型的实用性。最后，我们表明，即使在更严格的弱监督制度下（没有任何低拍摄数据），我们的模型可以实现与现有的弱监督对象检测器相当的性能。4.1. 实验设置实施详情：除非另有说明，否则我们将ImageNet [8]预训练的ResNet-50 [19]与特征金字塔网络（FPN）[30]作为所有低拍摄实验的FRCNN模型的骨干。我们训练了所有的模型90K次迭代，批量大小为16，标准学习率时间表在[18]中使用我们调整了图像的大小，使其最小边缘大小为800，并使用水平翻转进行数据增强，除非另有说明。此外，如[18]中所建议的，我们在所有低拍摄实验中使用平方根上采样来处理跨类的数据不平衡。我们使用λ= 0。5，并在训练结束时指数衰减为0。评估：我们报告标准COCO指标，如AP（在IoU阈值上取平均值）和AP50。基线：我们将我们的模型称为DLWL，并将结果与以下模型进行比较：仅低射：我们只使用可用的边界框注释在完全监督的数据上训练模型。全方位弱：我们还将我们的模型与全方位监督方法进行了比较[37]。为了进行公平的比较，我们使用了一个轻微的变体，它使用了弱标签。特别地，对于给定的类，我们首先从与该类相关联的弱标记数据集中选择图像的子集，并且仅使用该子集来使用仅低拍摄模型生成附加的边界框注释。我们使用与[37]相同的策略来识别每类阈值，该阈值导致弱标记数据集中每个类的边界框的平均数量与原始低拍摄数据集相同。如果该阈值在弱标记图像中不产生边界然后，我们用原始的加上新的注释来训练FRCNN模型。11我们还尝试了这个模型的另一种变体，我们只使用了一个-4.2. COCO低投实验数据集构建：我们将80个COCO类分为一组70个highshot类和10个lowshot类（cho-sen randomly，list insupp. 部分）。我们创建了一个COCO训练数据集的变体，其中我们有大量的高镜头类图像，只有少数图像来自低镜头类。具体来说，我们创建了以下两个COCO-train数据子集：COCO-N-strong：在这个子集中，我们只保留来自10个低镜头类中每个类的N个训练图像，以及来自不包含任何一个低水平的班级请注意，由于lowshot和highshot类可以在图像中同时出现，因此我们可能也会排除一些具有highshot对象的图像。我们改变N的值来创建不同的N个镜头子集。COCO-N-weak ：从 COCO-N-strong 中排除的 COCO-train中的剩余图像用于形成弱标记数据集。在这个子集中，我们只保留图像级标签，而不保留图像的边界框。请注意，这个子集由属于10个低射类的对象主导。我们称之为COCO-N-weak。我们评估了COCO验证集中的5000张图像。改变完全监督的数量：我们现在探索改变低射数据量的影响。对于N的每个值，我们使用相应的N-shot分割COCO-N-strong作为全监督训练数据集。对于使用弱标记数据的模型，我们使用COCO-N-weak中的弱标记示例来增强此数据我们将Nc固定为完全监督的低拍摄数据集COCO-N-strong中c类的边界框的平均数量。注意，在实践中，这并不对应于Nc的整数值。我们在训练过程中对每个样本进行随机舍入，以便在多次迭代中平均值收敛到分数值。对于N=0的特定情况，这是弱监督设置，我们通过计算70个高镜头类的边界框的平均数的平均值将Nc设置为3从图4中，我们立即观察到，与对所有模型仅使用弱标记数据（N=0）相比，添加少量完全标记的示例（N=10）导致了巨大的改进。这表明了至少使用少数完全标记的示例进行训练的好处。图5.随着监管工作的增加，本地化的情况会有所改善与仅低拍相比，我们显示出不同N值的显著增益（8。8%，N=10）。我们的模型只训练了N = 20个样本，超过了使用N=200个样本训练的低拍模型。我们还将我们的方法与强大的全方位-弱基线也利用了弱标记数据。我们对每个弱监督图像的每类符号进行了测试，但发现结果比我们在实验中使用的版本更差或相当。9347NNc= 1Nc= 2Nc= 3Nc= 4N c = avg.0109.813.211.215.812.116.510.314.1-17.1表2：在训练我们的DLWL模型中改变Nc值的效果。模型N=0N= 10N= 20N= 50DLWLDLWL +计数12.013.617.118.223.324.026.326.5图4：改变全面监督量的效果。lowshot-only模型仅在不同的N值下使用COCO-N-strong，而其他模型也使用COCO-N-weak进行训练。模型N= 10N= 20N= 100N= 200仅低拍35.735.936.236.3全弱35.836.236.436.6DLWL35.736.036.136.4表1：hisghshot类的性能，其中将弱标记数据添加到lowshot类。在N50的低射区，我们的模型的表现远远优于omn-weak。< 对于N = 10，我们的方法达到17。1%的AP与13。1%，由omni- weak实现。全弱用于获得伪地面实况注释的仅低拍模型的预测在低拍区域中非常嘈杂，这影响了其性能。另一方面，我们的方法使用的额外约束和训练期间的动态标签分配有助于纠正错误的标签分配给提案。在N>= 50的highshot区域中，我们观察到与全弱模型相比，我们的模型的回报逐渐减少。低拍模型的性能随着N值的增加而提高，这反过来也会导致全弱模型的性能更好。我们还报告了70个highshot类在不同的N值的性能。1.一、我们注意到，与完全监督的仅低拍模型相比，这些类弱标记数据量的影响：由于工作的主要重点是利用弱标记图像，因此分析所需图像数量的影响很重要。为此，我们将COCO-10-strong固定为完全监督数据集，用COCO-10-weak中不同数量的弱标记图像对其进行增强，然后训练我们的模型。COCO-10-weak由COCO-10-strong中不存在的10k图6显示了当我们以1000为增量改变弱标记示例的数量时的结果。我们观察到，性能在开始时迅速增加，表3：当训练我们的DLWL模型时，在不同的N值下向弱监督数据集COCO-N-weak添加基于计数的监督的效果。饱和大约8k图像。因此，将多两个数量级的弱标记数据相加仍然提高了低拍摄类的检测性能。Nc的效果：我们建议将Nc设置为COCO-N-strong数据集中每个低拍摄类的每个图像的对象实例我们使用Nc=avg来描述这种设置。我们现在用不同的策略来实验决定Nc。最简单的方法是将它固定为所有类的相同整数值。我们使用COCO-N-strong作为全监督数据集，并使用COCO-N- weak对其进行增强。选项卡. 2显示了N=0和10的结果。我们观察到，性能首先增加，然后下降-当我们改变Nc时，注意，在Nc=1时，模型在没有等式中的约束的情况下训练。2，因为每个类只选择一个实例。这会导致性能下降，这表明了我们框架中引入的约束的重要性。通过增加Nc，估计的边界框之一覆盖图像中的真实对象实例的机会更高，从而导致更高的召回率。然而，在非常高的值下，由于误报的增加，这也会导致较低的精度。因此，Nc的值需要接近图像中每个类别的对象实例的真实计数。我们的策略（NC=平均值）的估计，交配NC从低拍摄数据集本身的作品最好。计数监督：Nc的选择可能导致模型性能的显著变化因此，我们研究一种形式的弱监督，其中Nc是已知的每一个图像。我们假设我们知道所有类的每个类的计数弱标记数据集中的图像COCO-N-weak。这可以直接用于将标签分配绑定到等式中的pro-binding。二、我们展示了不同N-shot值在Tab中添加了此监督。3 .第三章。我们观察到0的标称增益。7%-1。6%。这是相当便宜的，可以导致良好的收益在低投制度。4.3. 用弱标记数据增强LVIS最近发布的LVIS [18]数据集清楚地强调了对更好的低拍摄对象检测模型的需求。该数据集有超过100个“罕见”类，在训练数据集中有不到10个边界框注释。我们试图通过增加额外的弱标记图像的稀有类，以提高该模型的性能。与受控设置不同，COCO在SEC4.2我们没有清洁的来源26.327.027.9 二十八点七分23.326.825.120.827.928.925.021.917.120.112.117.013.113.18.39348N=5N=10DLWL全弱奶牛摩托车图5：在N = 5和N = 10时，我们的模型和全弱模型的检测样本图像。随着N的增加，我们看到两种模型的定位效果都更好1816槌141210810002000 4000 6000 800010000弱标记示例数图6：除了低射COCO-10强数据集之外，还使用不同数量的弱标记数据来训练我们的模型。LVIS的弱标记图像。因此，我们期待另一个数据集YFCC 100M [50]来增加稀有类。YFCC 100 M作为弱标记数据集：YFCC 100M具有100M图像以及嘈杂的标签，被视为弱图像级标签。对于每个稀有类，我们使用与之相关联的名称2来查找匹配的主题标签。然后，我们使用带有匹配的哈希标签的图像然而，很大一部分类没有相应的标记。因此，我们也使用最近的邻居来收集广告示例。具体而言，我们使用每个稀有类的裁剪边界框（使用类似于[17]的额外上下文进行扩展）从YFCC 100M中检索最多1000个最近邻然后，我们将这些检索到的图像也包含在弱标记集合中。详情请参阅供应商资料然而，由于错误的标记和最近邻返回，这组弱标记图像可能非常嘈杂2每个LVIS类都是一个WordNet同义词集，有多个相关的名称。鹦鹉屏蔽图7：来自YFCC 100M的一些罕见类别的样本，这些类别是我们弱标记数据集的一部分。对于每幅图像，我们用蓝色显示来自初始低拍模型的检测。有噪声且没有对应对象实例的图像将以红色突出显示我们注意到大量的噪声图像以及初始模型中丢失或错误定位的对象不相关的图像，特别是对于小物体。为了减少噪声，我们使用在LVIS数据集上训练的原始模型（仅低拍摄）来过滤掉阈值为0以上没有检测的图像。001.第001章稀有的等级在此过滤之后，我们保留每个类别最多500个具有最高检测分数的图像请注意，这是一个非常低的阈值，旨在获得更高的召回率。所得到的图像用于构建弱标记数据集YFCC 100 M-weak。这个数据集仍然有大量的噪音（图）。（七）.映像重复数据消除：我们使用最近邻方法从YFCC 100M-weak中删除所有图像，这些图像与LVIS验证集中的图像接近重复，以避免欧r DLWL 模型恩肖特瓦10的lueAP9349模型AP50APMELM [54]18.87.8Ge等人[16个]19.38.5PCL [47]19.69.2DLWL19.59.2表4：在使用来自YFCC-100 M的弱标记数据进行增强后，我们的模型与LVIS数据集上的不同基线进行比较的性能。AP-r是稀有类的平均精度，AP是所有类的平均精度∗(a) PASCAL VOC 07结果(b) COCO14结果请注意，低拍摄掩模使用具有分割掩模的掩模RCNN作为附加掩模。监督不同于表中的其他方法。训练和测试数据之间的损坏。评估：我们报告了3次训练运行中AP-r和AP的平均值（和标准差）。AP-r是罕见类别的平均精度，AP是所有类别的平均精度，遵循[18]的约定。结果：从Tab。4，我们观察到添加额外的弱标记示例为omni- weak和我们的模型都提供了增益。此外，我们看到我们的模型利用图像级约束来处理训练期间的噪声，其性能优于omni-weak。更有趣的是，我们的模型在稀有类上的性能超过了mask-RCNN，后者使用了分割掩码的额外监督，从而清楚地证明了利用弱标记数据的能力。将我们的方法扩展到mask-RCNN是一个有趣的未来方向。4.4. 其他弱监督实验我们工作的主要重点是提供一个模型，可以用弱标记和完全标记的例子进行联合训练，而不是专门针对独立的弱监督检测。然而，我们通过对我们的设置进行一些简单的修改，在弱监督基准上呈现结果。自举：不像低射情况（第二节）。3.2），我们没有初始的完全监督模型用于引导。因此，我们首先训练另一个弱监督模型WS- DDN [3]，并使用上下文池[25]进行增强，并使用其预测进行自举。我们选择WSDDN是因为它简单;使用更复杂的模型可以带来更好的性能。详见补充资料。数据集：我们报告了 PASCAL VOC 07 和 COCO 14（2014版COCO[31]）数据集的结果。在报告COCO 14的结果时，我们对列车分割进行培训，并对完整的val-split进行评估培训详情：我们使用VGG-16骨干所有实验。根据[47]中的设置，用于引导的WSDDN模型使用PASCALVOC07的MCG [36]建议和COCO14的选择性搜索[52]建议进行训练。一旦训练了WSDDN，我们就使用这个模型的检测来初始化S init，并使用我们的方法训练一个FR-CNN。与以前的作品一样，作为一个表5：具有VGG-16骨架的PASCAL-VOC 07和COCO 14的弱监督对象检测结果。最后一步，我们还使用我们的模型的预测作为伪地面实况来重新训练FRCNN。对于PASCAL-VOC 07，我们训练了20个epoch的所有模型，初始学习率为5e−3，10个epoch后下降到5e−4我们使用了与第二节中描述的相同的学习率计划。4为COCO14。在训练过程中，我们使用了5种不同尺度的尺度抖动和水平翻转。结果：结果见表1。PASCAL VOC07和COCO14为5。我们看到，我们的模型的性能与最先进的弱监督方法相当。专用弱监督模型[26，53，15，1]具有专门的架构和损失函数，用于对弱标记示例进行微调预测。这些方法是对我们工作中提出的对FRCNN的简单改变的补充。我们还注意到，最近的模型[14，60，29，42]通过使用来自弱监督分割或超像素跨越的额外分割信号来引导网络，在检测性能方面获得了相当大的增益。由于我们的目标是提供一种简单的方法来利用标准FRCNN模型中的弱标记示例，因此分割信号的使用超出了这项工作的范围。5. 结论我们引入了一个框架来改进对弱标记数据（DLWL）的Lowshot类的检测。我们展示了如何使用弱监督和完全监督图像来训练FRCNN模型，通过扩展FRCNN中的建议标签分配过程来处理这两种形式的监督。我们将弱标记图像的标记分配公式化为线性规划（LP）。LP对图像中对象的实例数量施加约束，并确保同一对象的多个实例不重叠。我们在LVIS数据集和COCO数据集的低射变体上证明了我们的方法的有效性。对于未来的工作，我们可以扩展到其他形式的弱监督，如一点注释。另一个有趣的方向是在我们的框架中训练mask-RCNN。骨干方法AP-rAPResNet-50仅低拍10.84± 0.7621.88± 0.24ResNet-50[18]第十八话11.15± 0.7423.32± 0.21ResNet-50[37]第三十七话12.88± 1.2321.85± 0.22ResNet-50DLWL14.21± 1.0322.14± 0.16ResNeXt-101-32x8d仅低拍12.73± 1.1823.75± 0.41ResNeXt-101-32x8d[37]第三十七话16.03± 0.6624.74± 0.73ResNeXt-101-32x8dDLWL17.36± 0.8025.07± 0.10模型AP50OICR [48]47.0PCL [47]48.8MELM [54]47.3[49]第四十九话50.4Yang等人 [59个]51.5PGE [26]52.1C-MIL [53]52.3Gao等人[第十五条]52.6Prednet [1]52.99350引用[1] Aditya Arun，CV Jawahar和M Pawan Kumar。基于不相似系数的弱监督目标检测。在IEEE计算机视觉和模式识别会议论文集，第9432-9441页一、二、八[2] Amy Bearman，Olga Russakovsky，Vittorio Ferrari和LiFei-Fei。重点是什么欧洲计算机视觉会议，第549-565页。施普林格，2016年。4[3] Hakan Bilen和Andrea Vedaldi。弱监督深度检测网络在IEEE计算机视觉和模式识别会议论文集，第2846- 2854页，2016年。1、8[4] Stephen Boyd、Neal Parikh、Eric Chu、Borja Peleato和Jonathan Eckstein。通过乘子交替方向法的分布式优化和统计学习。Found. 趋势马赫数学习. ，3（1）：14[5] 吉勒·西勒和热拉尔·戈瓦特。聚类算法的一个分类及两种计算统计数据分析，14（3）：315-332，1992. 第1、3条[6] Xinlei Chen，Abhinav Shrivastava，and Abhinav Gupta.从网络数据中提取视觉知识。在IEEE计算机视觉国际会议论文集，第1409-1416页2[7] Ramazan Gokberk Cinbis，Jakob Verbeek，and CordeliaSchmid.基于多重多示例学习的弱监督目标定位。IEEETransactionsonPatternAnalysisandMachineIntelligence，39（1）：189-203，2017。2[8] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。5[9] Ali Diba ，Vivek Sharma ，Ali Mohammad Pazandeh ，Hamed Pirsiavash，and Luc Van Gool.弱监督级联卷积网络。在CVPR，第3卷，第9页，2017年。2[10] 董宣义、梁铮、范马、杨毅、孟德宇。具有模型通信的少示例对象检测。IEEE transactions on pattern analysisand machine intelligence，41（7）：1641-1654，2018。2[11] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K. I.威廉斯，J.Winn 和 A. 齐瑟曼。 PASCAL Visual Object ClassesChallenge2007（VOC2007）http://www.pascal-network.org/challenges/VOC/voc2007/workshop/index.html啊一、二[12] Jiyang Gao，Jiang Wang，Shengyang Dai，Li-Jia Li，and Ram Nevatia.用于半监督目标检测的抗噪集成rcnn。在IEEE计算机视觉国际会议论文集，第9508- 9517页，2019年。2[13] Mingfei Gao，Ang Li，Ruichi Yu，Vlad I Morariu，andLarry S Davis. C-wsl：计数引导的弱监督局部化。在欧洲计算机视觉会议（ECCV）的会议记录中，第152-168页，2018年。4[14] 高岩、刘博笑、南郭、叶小春、方晚、游海航、樊东瑞。C-midn：耦合多具有分割指导的多实例检测网络，用于弱监督对象检测。在IEEE国际计算机视觉会议（ICCV）上，2019年10月。8[15] 高岩、刘博笑、南郭、叶小春、方晚、游海航、樊东瑞。利用弱监督目标检测中的不稳定性。arXiv预印本arXiv：1906.06023，2019。一、二、八[16] 伟峰阁、司北央、益州羽。基于弱监督学习的多标记分类、目标检测和语义分割的多证据过滤与融合。InProceedings of the IEEE Conference计算机视觉和模式识别，第1277- 1286页，2018年。二、八[17] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision ，第 1440-1448页，2015中。7[18] 阿格里姆·古普塔，皮奥特·多勒，罗斯·格希克。Lvis：用于大词汇实例分割的数据集。在IEEE计算机视觉和模式识别会议上，第5356-5364页，2019年。一二三五六八[19] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun. 用于图像识别的深度残差学习。 CoRR ，abs/1512.03385，2015。5[20] Ping Hu，Ximeng Sun，Kate Saenko，and Stan Scaroff.弱监督

下载后可阅读完整内容，剩余1页未读，立即下载