基于点的弱半监督对象检测：点DETR的研究

96 浏览量更新于2024-01-22 收藏 2.13MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8823以点为单位：基于点的陈良宇1、2* 杨彤1* 张翔宇1张伟2<$孙健11迈谷科技2复旦大学{陈良玉，杨彤，张翔宇，孙健}@ megvii.comweizh@fudan.edu.cn摘要我们提出了一种新的点注释设置的弱半监督对象检测任务，其中的数据集包括小的完全注释的图像和大的弱注释的图像点。它实现了巨大的注释负担和检测性能之间的平衡。基于这种设置，我们分析了现有的检测器，发现这些检测器很难充分利用的权力的注释点。为了解决这个问题，我们引入了一个新的检测器，点DETR，通过添加一个点编码器扩展DETR。在MS-COCO数据集上进行的大量实验表明了该方法的有效性。特别是，当使用 20%的完全标记的数据从COCO，我们的检测器实现了一个有前途的性能，33.3AP，这比形成一个强基线（FCOS）的2.0 AP，我们演示了点注释带来超过10点的各种AR指标。1. 介绍目标检测是计算机视觉的基本问题之一。现代物体探测器[12，14，15，22，29]在大量注释数据的帮助下取得了巨大成功。然而，对大量检测数据进行注释的成本非常高。具体而言，对于每个对象实例，需要手动仔细标记精确的边界框，这非常耗时：标记对象需要10-35秒[27，24，1]。为了降低数据标注的代价，提出了弱监督对象检测（WSOD）和半监督对象检测（SSOD）方法。弱监督对象检测方法[2，11，25，36]利用具有弱注释的大数据，例如图像标签，这比精确注释的边界框更容易收集。半监督对象检测方法[10，17，26，28，31]学习少量检测器框级标记图像和大的未标记图像，*同等贡献。[2]通讯作者。其中图像注释的成本很小。虽然这些方法可以显著降低注释成本，但其性能远不如其监督的同行[14，15，29]。为了在符号成本和性能之间进行权衡，研究了弱半监督对象检测方法（WSSOD）[33然而，弱注释数据中的图像级注释对于对象检测任务不是最佳的，因为图像标签不包含所有对象的实例级信息。受[1]的启发，我们通过一个点来注释图像中的每个实例（如图1d所示），而不是图像级注释，主要有两个原因。首先，与图像级表示法相比，点表示法提供了更丰富的信息，不仅能表示目标的类别，而且能提供目标位置的强先验信息。其次，对点注释没有严格要求，例如对象的中心点。因此，与图像级注释[1]相比，标记成本的增加是微不足道的：23.3秒/图像与VOC数据集中的20.0秒/图像[6]。虽然上述新设置对于弱半监督对象检测更好，但最近的检测器[14，15，29]难以基于点注释预测对象框在大多数检测器中，FPN [14]是一个基本组件，它利用多级特征图来预测对象框。FPN可以提高检测器的性能，但它是不称职的预测对象框使用点注释，因为它是很难选择最佳的框预测，从多层次的，预测一个点注释。对于单级特征检测器，即使它们避免选择特征图级别，它们也可能遭受性能差[20，21，22]或对点注释的严格要求[5，12，35]。受DETR [4]的启发，我们提出了一种新的检测器，点DETR，通过添加一个点编码器到DETR。它可以从点注释中精确预测对象框。具体来说，它使用单层次特征图来预测对象框，避免了多层次选择问题，并且可以预测具有松散8824(a) 弱监督对象检测（b）半监督对象检测（c）具有图像级标签的弱半监督对象检测（d）具有点的弱半监督对象检测（我们的）图1.不同类型的对象检测设置，降低数据标注成本点，对点标注没有严格要求。此外，它继承了DETR的强代表性，具有良好的目标检测性能。但与DETR不同的是，我们使用点编码器将标注点的位置和类别编码为对象查询，容易建立点与对象查询之间的一一对应关系，适合基于点的框预测。此外，为了提高检测性能并使优化更容易，我们将框预测作为偏移量w.r.t.点位置，而不是像DETR那样直接进行框预测。为了显示我们的检测器的优越性，我们主要在MS-COCO数据集上评估我们提出的检测器[16]。为了进行公平的比较，我们将FCOS [29]作为故障基线，其被视为基于点的检测器。根据我们提出的弱半监督对象检测设置，（5%-50%）全部注释，其余部分按点注释。在这些不同的设置与不同的压裂-基于完全注释的图像数据，我们提出的检测器优于其他现代检测器，包括多级特征检测器和单级特征检测器。特别是，当使用来自COCO的20%完全标记数据时，我们的检测器比FCOS和Faster R-CNN的性能高出2。0 AP和1。9、分别。我们的主要贡献可归纳如下：• 我们提出了一个潜在的和新的设置弱半监督的对象检测任务，其中包括小的完全注释的图像和大的弱注释的图像点。与图像级数据设置[1]相比，该设置引入了具有边际代价的弱实例级信息，适合于目标检测。这提供了一个新的视角，以提高检测性能与弱注释的检测图像。• 基于上述设置，我们分析了其弊端提出了一种简单易实现的点目标检测器。所提出的检测器将对象点作为输入，将这些点转换为对象查询，并为这些查询精确地预测对象框，如图3所示。• 在COCO数据集[16]上进行了大量实验，以证明我们提出的检测器的有效性。我们的探测器在各种数据设置中优于大多数我们还做了数量和质量的实验，以表明我们的检测器解决了大多数现代检测器所遇到的问题。2. 相关工作监督目标检测：利用大规模的完全注释的检测数据，现有的现代检测器[12，14，15，22，29]在目标检测任务中获得了很大的改进。这些检测器可以分为两类：两级检测器和一级检测器。FPN [14]是一种流行的两阶段检测器，它首先预测对象建议，并最终改进这些建议。与两级检测器不同，一级检测器[12，15，29]直接输出每个对象的分类和位置，而无需细化。虽然取得了很大的成功，这些检测器是用大量的完全注释的数据训练的，这是昂贵的注释。因此，提出了许多工作来降低注释成本。半监督 / 弱监督对象检测：引入半监督对象检测（SSOD）[10，17，26，28，31]和弱监督对象检测（WSOD）[2，11，25，36]以减少数据注释的大量成本。半监督对象检测方法学习具有少量框级标记图像和大量未标记图像的检测器。Jeong等人[10]利用对象检测的一致性约束8825Step1. 教师培训模式监督图像Step2. 生成伪标签弱监督图像人马老师step3. 训练学生模型监督图像伪标记图像学生n佩尔索马n佩尔索马人未标记的数据。然而，弱监督对象检测方法利用具有弱注释的大数据，例如图像标签。Bilen等人[2]通过结合区域分类和选择，在图像级监督下学习对象检测器此外，为了追求监督检测的性能并保持符号的低成本，研究了弱半监督对象检测方法（WSSOD）[33]，该方法使用小框级标记图像以及大的弱标记图像来学习检测器。与这些半/弱监督对象检测不同，我们提出的检测器利用了一种新的低成本注释：点，它提供实例位置。最近，UFO2 [23]也使用点监督作为弱标签，但它没有充分探索点信息，如我们在第4.3节中所示。基于点的半监督分割：语义分割采用了点监督[1，19，34]。Bearman等人[1]在提高分割性能和减轻注释负担之前，将点监督与对象合并。 Qian等人[19]利用几个标记点之间的语义关系来解决语义场景解析任务。与这些工作不同的是，我们专注于目标检测任务，其中基于点的检测已经探索得很少。由于缺乏开发，现有的检测器不能很好地适应点级标注.DETR：与现有探测器不同，DETR [4]消除了对许多手动设计组件的需求，如非最大抑制程序或锚定生成。借助Transformer [30]，DETR将图像作为输入，并直接输出一组固定的框预测。对于基于点的检测任务，DETR有一个有益的特点：一个单一的层次特征图，避免了多级选择问题。然而，直接将DETR应用于基于点的检测任务是不切实际的。DETR中的对象查询是通用的嵌入，没有特定的点信息。相反，我们的检测器编码的位置和类别的注释点到对象查询与点编码器，并建立点注释和对象查询之间的一对一的对应关系。3. 方法在本节中，我们首先介绍了弱半监督对象检测（WSSOD）的任务与点标记，并讨论了为什么现有的对象检测器不能很好地适应这一任务。接下来，为了解决这个问题，我们详细说明了我们的新检测器，点DETR带有点注释的WSSOD：WSSOD通常使用一小组实例级标记图像和大量弱图像级标记图像作为训练数据（图1c）。然而，对于对象检测，图像级标记马图2.总体框架。白色箭头表示训练阶段，黑色箭头表示推理阶段。框架的步骤分别由红色、黄色、蓝色圆角矩形表示。最好用彩色观看。图像不适合WSSOD，因为它不能提供实例信息。这就提出了一个自然的问题：是否有一种新的弱标记图像的数据注释，它具有实例信息而没有大量的注释负担？在本文中，我们介绍了弱标记图像的点标注点注释：它是由Bearman等人介绍的。[1]，但在目标检测中还没有得到很好的研究。在目标检测中，我们将点标注定义为：它定位于目标上，以目标类为类别。因此，我们将对象表示为（x，y，c），其中（x，y）∈[0，1]2和c分别表示点位置和对象类别。我们必须注意，我们的方法对于点定位是鲁棒的，如表1e所示。因此，点标注可以定位在对象的任何位置。通过这种方式，我们可以减轻注释负担。总体框架：通过这种新的设置，即少量的监督图像和大量的弱监督图像，我们将自训练作为我们的默认训练管道，这在半监督学习中取得了相当大的进步（例如，Lee [13]，Noise- Student [32]，STAC [26]）。步骤总结如下：1. 在可用的标记图像上训练教师模型8826图3.点DETR将图像及其对应的对象点作为输入。对象点被归一化为[0，1]2，并由点编码器模块编码为对象查询。Transformer解码器接受对象查询，并额外关注图像特征（通过主干和编码器提取）。Transformer解码器的输出被传递到头部，生成框预测。框预测是从边界框的四个边到点位置的相对偏移。与DETR不同的组件以浅黄色突出显示。2. 使用训练好的教师模型生成弱点标注图像的伪标签3. 使用完全标记图像和伪标记图像训练学生模型总体框架如图2所示。对于大多数基于自训练的检测方法，超参数都是经过仔细选择的，因为它们必须保持真实的对象框并尽可能地筛选出错误的对象框。相反，我们可以直接为每个点注释预测相应的对象框，而无需重复对象框。虽然选择超参数不再是一个障碍，perception，预测对象盒从点级注释与现有的检测器仍然是一个问题。现有检测器的讨论：现有的检测器可以分为两类：多级特征检测器和单级特征检测器。对于多级检测器（例如，FCOS[29]），他们很难预测带有点注释的对象框，因为点注释没有特征级信息，这些信息用于从多级框预测中选择一个预测（图8b）。另一方面，单级特征检测器（例如，更快的R-CNN[22]）尽管避免选择特征图级别（图8c），但性能不佳或对点注释有严格要求。更多实验见第4.3节。3.1.点DETRDETR：我们首先回顾DETR [4]，这是一个端到端的基于集合的对象检测器。DETR由CNN主干、编码器-解码器Transformer和预测头组成。DETR首先从CNN主干中提取一个单层2D特征图，对其进行优化，并使用位置编码对其进行补充然后，编码器-解码器变换器将一组固定的对象查询（学习到的位置嵌入）作为输入，并处理1D图像特征嵌入。最后，将Transformer的输出嵌入点DETR：点DETR，如图3所示，采用了DETR的大部分组件。为了适应点注释图像，点DETR有一个特殊的模块，点编码器。点编码器可以将点注释编码为对象查询，对象查询被Transformer解码器作为输入。与DETR中学习位置嵌入的对象查询不同，这些对象查询是包含对象实例的位置和类别信息的特定实例嵌入。因此，这些对象查询与对象实例具有一一对应关系。此外，对象查询的数量随着图像中对象实例的数量而变化，而不是像DETR那样的固定数量（例如100）。在训练过程中，我们简单地将每个对象查询的丢失定义为L=Lbox，因为我们已经为每个对象查询提供了类别，并且只需要回归对象盒子边界盒损失L盒与DETR中定义的相同。但是，对于预测i的盒子，它计算为：bi=为了避免WS-i i探测器4中现有探测器的缺点，是点注释的位置，并且bi∈[0，1]是SOD与点注释任务，我们介绍了一种新的去-tector，Point DETR：将点编码器添加到DETR。它将点标注转换为对象查询，提取每个对象查询的图像特征，并输出相应的对象框。接下来，我们将介绍PointDETR的一个关键元素，即点编码器，它对于带点注释的WSSOD任务至关重要相对偏移w.r.t.点位置（x，y）遵循FCOS [29]。在我们的实验中，我们表明这种回归方式可以减轻点注释和对象框之间的不匹配，参见第4.3节。点编码器：在点DETR中，如何将点标注编码为对象查询是点编码器的关键8827（，）（，，）分解组成图4.点编码器。对于每个点（x，y，c），它分别对位置（x，y）和范畴c进行编码，然后将元素加法作为点嵌入。如图4所示，点注释（x，y，c）被分解为2D坐标（x，y）∈[0，1]2和类别索引C. 基于（x，y），位置嵌入epos∈R256为从固定的空间位置编码中提取[30，18，4]，其与在Transformer编码器中使用的相同。对于类别嵌入ecat∈R256，它是从预定义的可学习类别嵌入中按类别索引得到的，即.C.最后，我们融合这些嵌入，得到对象查询求和运算。虽然点编码器简单且易于实现，但它在点注释和对象查询之间架起了一座桥梁。在实验中，我们展示了点式编码器中各个组件（位置编码器和类别编码器）的基本原理，见4.3节。4. 实验我们在COCO 2017检测数据集[16]上评估了我们的模型，并使用合成点注释（详见第4.1节）。我们报告了标准COCO指标，包括AP（在IoU阈值上取平均值）、AP50、AP75。此外，为了显示生成的伪框的质量，我们还计算生成的伪框和地面实况边界框之间的mIoU对于无法直接应用于我们的点注释设置的现有检测器，我们对现有检测器进行了一些修改：FCOS和Faster R-CNN。这些改进的检测器分别表示为FCOS†和Faster R-CNN†。对于FCOS†，我们通过双线性插值[9]分别从多层次特征映射中提取点特征，并预测相应的对象框，最后使用具有最高点类别得分的框预测至于FasterR-CNN，我们从一级特征图中提取点特征，然后预测框(a) 地面真相。（b）绝对回归。（c）相对回归。图5. 绝对与相对回归：不同的颜色来区分实例，点注释的颜色与其相应的框一致。最好用彩色观看。对于不同的锚点，最后使用具有最高点类别得分的锚点作为伪框。4.1. 实现细节我们使用ResNet-50 [8]作为不同检测器的默认骨干数据集：我们用118k张训练图像训练模型，并在剩下的5k张val图像上评估检测器的性能。特别地，对于我们的点注释设置，我们随机抽取5%，10%，20%，30%，40%，50%的训练图像作为完全标记集，并使用其余的图像作为弱标记集。在本文中，为了简单起见，我们将它们标记为不同的数据设置。20%数据设置。对于弱标记集，我们如下合成每个对象的点注释：（a）如果对象具有实例分割，则从实例掩码中随机采样一个点作为对象的点注释;（b）如果没有，则简单地在其边界框中随机采样一个点。培训：在我们的框架中，有两个模型：教师模型和学生模型。我们的教师模型包括Point DETR、FCOS和Faster R-CNN。而我们只是选择FCOS作为默认的学生模型，因为学生模型只用于评估教师模型的有效性。我们通过实验（在4.3节中）表明位置编码器类别编码器（，+…882835302520150%的百分比百分之十百分之二十百分之三十百分之四十百分之五十0%的百分比百分之十百分之二十百分之三十百分之四十百分之五十CocoCoco图6.学生模式的AP比较（即FCOS）用于MS-COCO上的不同方法。 “Supervised” refers to the student models trained onlabeled data对于教师模型的训练，FCOS和Faster R-CNN很简单。我们用他们最好的训练设置训练他们。为了进行公平的比较，我们还使用了数据增强，如[4]所示。对于Point DETR，它遵循[4]中使用的大多数训练设置，但有几个不同之处：我们在8个GTX 1080Ti GPU上训练模型108个epoch，每个GPU有2个图像。为了确保训练的稳定性，我们在第一个epoch中使用了预热方案[7]。学习率分别在时期72和96降低了10倍。在训练中，我们在每个边界框中随机采样一个点，并将点转换为点注释。使用这些点注释，我们训练 PointDETR，如图3所示。对于默认的学生模型，我们将教师模型生成的完全标记的图像和伪标记的图像结合起来训练学生，如图2所示。4.2. 主要结果我们首先展示了Point DETR在不同数据分割设置上的有效性，见图6。我们训练学生模型（即. FCOS）仅具有完全注释的图像（标记为“监督”）。通过将“Supervised”与使用伪框训练的学生模型进行比较，我们可以评估伪框带来的好处。点DETR和FCOS< $优于这表明具有点注释的图像可以提高检测任务的性能此外，Point DETR的性能远远优于FCOS†。接下来，我们验证有助于我们的方法的出色性能的因素。我们比较了FCOS和DETR的准确性，如图7所示，在大多数设置中，DETR的性能比FCOS差。考虑到我们基于DETR的方法实现了更好的性能，我们可以得出结论，我们方法的高精度主要不图7.比较FCOS和DETR的AP，以证明改进来自我们的方法，而不是一个更强大的教师模型。FCOS在DETR增强方面进行了培训，对比在大多数情况下（5%至40%），FCOS 的性能优于DETR。受益于其强大的代表性。此外，我们进行了质量和数量实验，以显示我们的方法在伪对象框上的优越性，见图8。由于FPN，多层次特征检测器FCOS<$不能很好地预测对象框，而单层次特征检测器Faster R-CNN<$也难以回归框，但是，Point DETR可以生成比其他探测器更精确的物体盒。具体而言，Point DETR的mIoU分别比FCOS和Faster R-CNN大基于上述实验，我们的方法主要通过从点注释生成精确的伪对象4.3. 消融实验我们在20%的数据设置下进行烧蚀实验结果显示在表1中，并在下面详细讨论点编码器：表1a显示了点编码器模块中组件的有效性（如图4所示）。只有位置嵌入的点DETR优于只有类别嵌入的点DETR，并且点DETR在AP中有严重的损失（18。6分）无位置嵌入。基于我们的方法只回归对象框，这表明在没有位置嵌入的情况下很难学习我们还发现，将类别嵌入添加到位置嵌入可以将性能提高2个点。我们推测这种改进是由于类别嵌入可以提供对象先验，如对象形状。学生模型：对于学生模型，我们使用FCOS [29]作为默认检测器。为了利用我们方法的鲁棒性，35.435.834.83533.3三十32.834.532.831.330.430.63028.428.526.2252525.521.120监管FCOS†点DETR（我们17.21534.936.335.434.833.332.930.929.325.423.7FCOS20.9DETR18.2APAP8829pos？cate？APAP50 AP75C14.734.310.4点编码器C31.351.032.6CC33.353.534.8老师学生APAP50 AP75FCOS†我们RetinaNet30.449.931.632.552.833.7FCOS†我们FCOS31.333.350.753.532.634.8(a) 点编码器：位置编码器的有效性分类编码器(b) 学生模型：RetinaNet [15]作为学生模型证明了我们方法的有效性与学生模型无关。APAP50 AP75更快的R-CNN †31.451.6三十二点六我们的33.353.5三十四点八UFO2监督AP AP50 AP7529.1 30.1--我们的28.133.553.8 三十四点八我们我们中心？ AP33.3C33.3AP50 AP7553.5三十四点八53.634.6(c) 单级检测器：点DETR与更快的R-CNN†。(d) 与UFO2[23]的比较：(e) 点位置：点位置的有效性。积分？得分？APAP50AP75APsAPmAPlAR1AR10AR100ARsARmARlDETR19.133.218.75.620.231.322.932.833.612.035.051.0C26.943.827.59.227.739.924.233.233.612.035.051.0我们C26.852.324.212.629.538.930.744.044.522.846.963.9∆-0.1+8.5-3.3+3.4+1.8-1.0+6.5+10.8+10.9+10.8+11.9+12.9(f) 点注释：为了确认点注释的好处，我们通过分析生成的框相对于地面实况框来比较点DETR（有点）与DETR（无点）。由于AR远远超过DETR，我们的AP仍然相当。表1. 消融术。除（d）外，所有消融实验均在20%数据设置下进行。(a) 地面真相。（b）FCOS。 mIoU：57.1。（c）更快的R-CNN。mIoU：58.1。（d）DETR点（我国）。mIoU：63.4。图8. FCOS、 Faster R-CNN和Point DETR的可视化结果（我们的）。提供了整个弱标记图像上的地面真值框和伪框之间的mIoU。不同的颜色来区分实例，并且点注释的颜色与其对应的框一致。最好用彩色观看。我们用RetinaNet取代FCOS [15]。在表1b中，我们发现我们的方法比基线有2.1 AP增益。这表明我们的方法对学生模型是鲁棒单级检测器：我们将Point DETR与单级特征检测器进行比较，并选择Faster R-CNN†作为默认的单级特征检测器。所示表1c，Point DETR优于Faster R-CNN† 1.9个点。这突出了Point DETR的有效性。与UFO2的比较[23]：为了证明我们方法的有效性，我们将Point DETR与UFO2进行了比较。为了公平比较，我们按照UFO2中的数据集分割来训练Point DETR：COCO-35（完全标记的图像），8830COCO-80 （点标记图像）。如表 1d所示，当只在COCO-35上训练时，我们的方法的性能比UFO2差，但在添加COCO-80时，它比UFO2高这表明我们的方法可以更好地利用点注释信息。点定位：为了验证我们的方法对点定位的鲁棒性，我们比较了两种点定位方案的性能：中心点和对象上的任意点。如表1e所示，我们的方法在这两个点定位方案之间具有相当的性能。绝对与相对回归：我们的方法使用相对回归来预测对象框。在图5中，我们比较了DETR中使用的相对回归和绝对回归绝对回归不正确地将点与不对应的边界框匹配（例如，图5b）中的绿色时钟。与绝对回归相比，相对回归几乎不存在点与对象框的失配问题，这主要归因于它利用了先验知识：点在边界框内点注释：为了评估点注释的有效性，我们将我们的方法与没有点注释的方法进行了比较。为了公平比较，我们使用DETR作为没有点注释的方法。我们直接在DETR上应用自我训练框架（遵循[26]）。我们首先用完全标记的图像训练DETR，然后为没有点注释的弱标记图像生成伪框为了删除重复的框，我们使用阈值τ=0。7，这导致在弱标记图像上的最佳框预测。对于生成的伪对象框，它们与点注释没有一一对应。因此，计算生成的框和地面实况框之间的mIoU为了进行比较，我们使用标准COCO指标而不是mIoU，如表1f所示。点DETR在mAP上的表现与DETR相当，并且在召回方面表现出更大的优势具体来说，Point DETR在各种AR指标（例如，ARs、ARm、ARl、AR100），其AP与 DETR 相当（ 26.8 vs.26.9 ）。虽然 Point DETR 比DETR低3.3点AP75，这可能是因为高τ筛选出低质量的盒子而保留高质量的盒子，但Point DETR的高召回率可以抵消这种不利影响。此外，我们将DETR生成的伪框的分类得分设置为一个恒定值，如0.5，这与我们的方法一致。在这种情况下，DETR的性能下降了很大的幅度和performs比我们的方法差得多。这突出表明，使用点注释，我们的方法不会受到分类分数质量的影响我们还在图9中分析了TIDE[3]生成的盒子的错误。错过的地面实况是最大的(a) DETR.（b）DETR点（我国）。图9.用TIDE诊断生成的伪盒的错误[3]。不同的错误类型：Cls：正确定位但分类不正确，Loc：正确分类但定位不正确，Both：cls和loc错误，Duplex：重复检测错误，Bkg：检测到背景为前景，Miss：错过地面实况错误。问题的DETR，而它并没有影响点DETR的性能很大。这是通过使用点符号来解释的，点DETR不会错过像DETR这样的对象此外，与DETR不同，定位误差是Point DETR的主要此外，点DETR也有重复检测错误。这是由那些位于多个边界框中的点注释引起的，这些点注释将预测错误的地面实况的对象框，这导致具有多个框预测的地面实况。5. 结论在这项工作中，我们验证了点注释的有效性，在弱半监督检测任务。我们还表明，现有的检测器阻碍了点注释的力量。为了解决这个问题，我们提出了点DETR，它应用一个点编码器的点注释，建立一对一的点注释和对象之间的对应关系。我们的方法是简单和容易实现我们通过大量的实验分析证明了它的有效性，表明它达到了最先进的性能。鸣谢本工作得到国家重点研发计划（2020AAA0105200）的支持。8831引用[1] 艾米·比尔曼，奥尔加·鲁萨科夫斯基，维托里奥·法拉利，还有李飞飞。重点是什么欧洲计算机视觉会议，第549-565页。Springer，2016.[2] Hakan Bilen和Andrea Vedaldi。弱监督深度检测网络在IEEE计算机视觉和模式识别会议论文集，第2846- 2854页[3] 丹尼尔·博亚，肖恩·福利，詹姆斯·海斯，和朱迪·霍夫曼。Tide：用于识别对象检测错误的通用工具箱。arXiv预印本arXiv：2008.08115，2020。[4] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳伊夫、尼古拉斯·乌索尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器的端到端对象检测。arXiv预印本arXiv：2005.12872，2020。[5] 段凯文，白松，谢灵犀，齐宏刚，黄庆明，田奇.Centernet：用于对象检测的关键点三元组。在IEEE计算机视觉国际会议论文集，第6569-6578页[6] Mark Everingham 、 Luc Van Gool 、 Christopher KIWilliams、John Winn和Andrew Zisserman。pascal visualobject classes（pascal visual object classes）国际计算机视觉杂志，88（2）：303[7] PriyaGo yal ， PiotrDolla'r ， RossGirshick ， PieterNoord-huis ， Lukasz Wesolowski ， Aapo Kyrola ， AndrewTulloch，Yangqing Jia，and Kaiming He.准确，大的小批量sgd：1小时内训练imagenet. arXiv预印本arXiv：1706.02677，2017。[8] 何开明，张翔宇，任少卿，孙健。用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议论文集，第770-778页，2016年[9] Max Jaderberg，Karen Simonyan，Andrew Zisserman，et al. Spatial Transformer networks. 神经信息处理系统的进展，第2017-2025页，2015年[10] Jisoo Jeong ， Seungeui Lee ， Jeesoo Kim ， and NojunKwak.基于一致性的对象检测半监督学习。神经信息处理系统的进展，第10759-10768页，2019年[11] 杰泽群，魏云超，金小杰，冯佳世，刘伟。用于弱监督对象定位的深度自学学习。在IEEE计算机视觉和模式识别会议论文集，第1377- 1385页[12] 黑律和贾登。Cornernet：将对象检测为成对的关键点。在欧洲计算机视觉会议论文集（ECCV），第734-750页[13] 李东贤伪标签：用于深度神经网络的简单有效的半监督学习方法。在表征学习挑战研讨会上，ICML，第3卷，2013年。[14] 林宗义、彼得·多尔、罗斯·格希克、何光明、巴拉斯·哈里哈兰和塞尔日·贝隆吉。用于目标检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议论文集，第2117-2125页[15] Tsung-YiLin ， Priya Goyal ， Ross Girshick ， KaimingHe，and PiotrDol la'r. 用于密集目标检测的焦面损失。在IEEE计算机视觉国际会议的主席，第2980-2988页，2017年[16] 林宗义，迈克尔·梅尔，塞尔日·贝隆吉，詹姆斯·海斯，彼得罗·佩罗纳，德瓦·拉马南，彼得·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft coco：上下文中的常见对象。欧洲计算机视觉会议，第740-755页。Springer，2014.[17] Nhu-Van Nguyen ， Christophe Rigaud ， and Jean-Christophe Burie. 使用未标记数据的半监督对象检测在VISIGRAPP（5：VISAPP），第289-296页，2019年。[18] Niki Parmar ， Ashish Vaswani ， Jakob Uszkoreit ，Jakukasz Kaiser ， Noam Shazeer ， Alexander Ku ， andDustin Tran. 图像 Transformer 。 arXiv 预印本 arXiv ：1802.05751，2018。[19] Rui Qian ， Yunchao Wei ，Honghui Shi，Jiachen Li ，Jiaying Liu，and Thomas Huang.基于点距离度量学习的弱监督场景解析在AAAI人工智能会议论文集，第33卷，第8843-8850页[20] 约瑟夫·雷德蒙，桑托什·迪瓦拉，罗斯·吉希克，阿里·法哈迪。您只需查看一次：统一的实时物体检测。在IEEE计算机视觉和模式识别集，第779-788页[21] 约瑟夫·雷德蒙和阿里·法哈迪Yolo9000：更好，更快，更强。在IEEE计算机视觉和模式识别会议论文集，第7263-7271页[22] 任少卿，何开明，Ross Girshick，孙健。更快的r-cnn：用区域建议网络实现实时目标检测。神经信息处理系统的进展，第91-99页，2015年[23] Zhongzheng Ren，Zhiding Yu，Xiaodong Yang，Ming-Yu Liu，Alexander G Schwing，and Jan Kautz. Ufo2：一个统一的框架，面向全监督对象检测。欧洲计算机视觉会议，第288-313页。施普林格，2020年。[24] 奥尔加·鲁萨科夫斯基，李丽佳，李飞飞。两全其美：人机协作进行对象注释。在IEEE计算机视觉和模式识别会议论文集，第2121-2131页[25] 施妙静，霍尔格·凯撒，维托里奥·法拉利。弱监督的对象定位使用的东西和东西的转移。在IEEE计算机视觉国际会议论文集，第3381-3390页[26] Kihyuk Sohn ， Zizhao Zhang ， Chun-Liang Li ， HanZhang，Chen-Yu Lee，and Tomas Pfister.一个简单的半监督学习框架，用于对象检测。arXiv预印本arXiv：2005.04757，2020。[27] 苏浩，登嘉，李飞飞。用于视觉对象检测的众包注释在2012年第二十六届AAAI人工智能会议上的研讨会上[28] 彭唐，Chetan Ramaiah，Ran Xu，和Caiming Xiong。用于半监督对象检测的建议学习。arXiv预印本arXiv：2001.05086，2020。[29] 智天、神春华、陈昊、童鹤。Fcos：完全卷积的一阶段对象检测。在IEEE计算机视觉国际会议论文集，第9627-9636页，2019年8832[30] Ashish Vaswani， Noam Shazeer ， Niki Parmar ， JakobUszko-reit ， Llion Jones ， Aidan N Gomez ， JakukaszKaiser，and Illia Polosukhin.你需要的只是关注。神经信息处理系统的进展，第5998-6008页，2017年[31] Keze Wang ， Xiaopeng Yan ， Dongyu Zhang ， LeiZhang，and Liang Lin.走向人机合作：自监督样本挖掘对象检测。在IEEE计算机视觉和模式识别会议论文集，第1605-1613页，2018年[32] Qizhe Xie ， Minh-Thang Luong ， Eduard Hovy ， andQuoc V Le. 用吵闹的学生进行自我训练可提高图像分类。在IEEE/CVF计算机视觉和模式识别会议论文集，第10687- 10698页[33] 严子昂，梁健，潘伟申，李进，张长水.基于期望最大化算法的弱监督和半监督目标检测。arXiv预印本arXiv：1702.08740，2017年。[34] Shiyin Zhang ， Jun Hao Liew ， Yunchao Wei ， ShikuiWei，and Yao Zhao.内外引导的交互式目标分割.在IEEE/CVF计算机视觉和模式识别会议论文集，第12234-12244页[35] XingyiZhou，DequanWang，andPhilippK réhenbühl. 奥布-拉克萨斯点。arXiv预印本arXiv：1904.07850，2019。[36] Yi Zhu，Yanzhao Zhou，Qixiang Ye，Qiang Qiu，andXiaoJiao.用于弱监督对象定位的软建议网络。在IEEE计算机视觉国际会议论文集，第1841-1850页

下载后可阅读完整内容，剩余1页未读，立即下载