全球类原型多实例对齐提升半监督目标检测性能

108 浏览量更新于2023-10-25 收藏 17.38MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

lax@pku.edu.cn, yuanpeng126@huawei.com, Li.Zhenguo@huawei.com98090通过全局类原型的多实例对齐实现半监督目标检测0华为诺亚方舟实验室，中国，李傲雪，袁鹏，李正国0摘要0半监督目标检测（SSOD）旨在通过大规模未标记图像提高对象检测器的泛化能力。当前基于伪标签的SSOD方法通常分别从标记数据和未标记数据中学习，而不考虑它们之间的关系。为了充分利用标记数据，我们提出了一种基于全局类原型的多实例对齐模型，通过增强预测一致性来提高性能（MA-GCP）。具体而言，我们通过最小化基于全局类原型计算的类分布的交叉熵损失，强制执行伪标签和其高IoU候选提案之间的一致性。这些全局类原型是通过指数移动平均算法使用整个标记数据集估计得到的。为了评估提出的MA-GCP模型，我们将其集成到最先进的SSOD框架中，并在两个基准数据集上进行实验，证明了我们的MA-GCP方法的有效性。01. 引言0随着大量标记数据的可用性，深度学习在解决目标检测任务时表现出优越性能。然而，为每个对象类别收集足够的标记数据非常昂贵。幸运的是，有大量的未标记数据可用，可以从社交媒体和网站收集。半监督目标检测（SSOD）旨在通过使用这些标记和未标记图像来提高对象检测器的泛化能力。为了实现这个目标，现有的SSOD方法通常采用两种策略：基于一致性的SSOD013 , 30 ]和基于伪标签的SSOD [ 18 , 22 , 26 – 29 , 31]。基于一致性的方法训练目标检测器0通过减少不同扰动下未标记数据的预测结果之间的不一致性来提高目标检测的性能。他们的性能高度依赖于扰动的设计和一致性的测量。最近，基于伪标签的方法变得流行起来。如图1的黄色框所示，它们采用了教师-学生学习框架。具体而言，首先使用教师检测器估计未标记图像的伪标签，然后使用标签细化模块对其进行改进。然后，他们同时训练带有标记和未标记图像的学生检测器。使用标记和未标记图像的检测损失来优化学生检测器的参数。教师检测器的参数通过指数移动平均（EMA）算法更新，或者使用所有标记图像进行预训练。然而，这些模型分别使用标记数据和未标记数据训练学生检测器。也就是说，它们的标记和未标记数据的检测损失分别更新学生检测器，而不考虑它们之间的关系。本文通过开发具有全局类原型的多实例对齐模型（MA-GCP），充分利用标记图像来改进SSOD。我们的关键见解是通过使用从所有标记图像中学到的可靠信息更好地估计未标记图像的预测一致性。通过在基于伪标签的框架中强制执行一致性正则化，我们的方法可以提高其检测性能。具体而言，我们假设每个类在特征空间中由一个原型表示。如图1的绿色框所示，每个原型通过EMA算法与相应类别的区域特征一起进展。由于每个原型在整个训练过程中都使用所有标记实例进行更新，我们称之为全局类原型。然后，我们基于其与每个全局类原型的视觉相似性计算未标记图像提案的类分布。之后，我们通过最小化其类交叉熵损失来强制执行每个伪标签提案与具有高交并比（IoU）分数的候选提案之间的一致性98100未标记图像0教师检测器0标记图像0学生检测器0弱增强0� 0� � ��0�0� �0�0标签0细化0伪基准提案0候选提案0全局类原型0EMA0EMA0多实例0对齐0强增强0多实例对齐损失0前向计算0未标记数据0前向计算0标记数据0师生学习框架0图1.所提方法的示意图。我们的方法基于基于伪标签的SSOD框架实现，如黄色框所示。它使用教师检测器估计未标记图像的伪标签，然后通过标签细化模块联合训练学生检测器和标记图像。如绿色框所示，为了充分利用标记图像，我们提出了一个基于全局类原型的多实例对齐模型，该模型通过EMA算法学习所有标记图像的全局类原型。标记图像的检测损失Ls_det、未标记图像的检测损失Lu_det和多实例对齐损失Lu_aln用于训练学生检测器，教师检测器的参数通过EMA算法更新为学生检测器的参数。0不同于以往基于一致性的SSOD方法[2, 12,13]使用批次原型作为参考或直接计算预测结果而不使用参考，我们的模型利用这些全局类原型来产生更可靠的一致性正则化，从而提高SSOD的检测准确性。为了评估我们的MA-GCP方法的性能，我们将其集成到最先进的基于伪标签的框架中。在PASCALVOC和MSCOCO数据集上的实验结果表明，我们的方法优于竞争模型，从而获得了最先进的结果。总之，我们的主要贡献如下：0•我们提出了一个基于全局类原型的多实例对齐模型，以增强基于伪标签的SSOD方法的预测一致性。0•我们提出使用EMA算法学习全局类原型，并利用它们来估计未标记图像的预测一致性。这些全局类原型有助于估计更可靠的预测一致性，从而提高SSOD的性能。0•大量实验证明我们的MA-GCP方法在两个基准数据集上取得了一致的改进，并获得了最先进的结果。02. 相关工作0半监督图像分类（SSIC）旨在利用大量未标记数据来提高分类性能。0大多数方法采用一致性正则化来惩罚不同增强视图下未标记图像的预测结果的不一致性[1, 9, 19,24]。最近，一些数据增强方法被设计用来解决半监督图像分类问题，并展现出卓越的性能[3, 4,25]。本文旨在解决一个更具挑战性的任务-SSOD，其中不仅需要处理分类任务，还需要处理定位任务。现有的SSOD方法可以分为两类：基于一致性的方法[12, 13,30]和基于伪标签的方法[18, 22, 28, 29,31]。基于一致性的方法遵循半监督分类的原则，通过强制要求不同增强视图下的未标记图像的预测一致性来学习未标记数据。例如，Jeong等人在每个未标记图像和其水平翻转变体之间强制要求预测一致性[12]。他们进一步发展了一种基于插值的SSOD（ISD）方法，该方法从两个输入图像生成可靠的混合补丁，并最大化混合补丁与原始补丁之间的一致性[13]。他们将这种ISD方法与之前的基于一致性的方法相结合，以提高检测性能。这些方法主要关注增强方法的设计以提高样本多样性。我们的方法不仅通过引入高IoU的伪基准提案来改善空间多样性，还提出了通过可靠的全局类原型来加强一致性的方法。最近，伪标签（或自训练）策略在SSOD中变得流行。Sohn等人预训练了一个教师模型Lstdet(Ds, Du) = Lsdet(Ds) + λuLudet(Du).(1)98110使用标记图像和未标记图像生成的伪标签微调目标（学生）检测器[21]。他们的伪标签只生成一次，并在训练的其余过程中保持固定。许多后续工作提出了同时以端到端方式更新教师检测器和学生检测器的方法。刘等人采用EMA策略训练学生检测器和逐渐进展的教师检测器，使其相互受益[18]。唐等人也利用EMA更新教师检测器，并提出了一种数据集成方法来为未标记图像生成可靠的伪标签[22]。徐等人开发了一种端到端的软教师机制，其中每个未标记边界框的分类损失由教师网络产生的分类分数加权[27]。然而，这些方法分别从标记和未标记数据中学习。为了充分利用标记数据，我们提出了一种基于全局类原型的多实例对齐模型。通过将提出的对齐模型插入到教师-学生训练框架中，我们的方法可以提高其检测准确性。03. 方法0在本节中，我们首先提供SSOD的公式和流行的教师-学生框架。然后，概述简要介绍了提出的模型。之后，我们详细介绍了两个关键组件，即全局类原型和多实例对齐的技术细节。最后给出了整体的训练目标。03.1. 初步：半监督目标检测的教师-学生框架0在介绍SSOD方法之前，我们首先给出SSOD的定义。在SSOD中，我们给定一组标记图像Ds={(xsi,ysi)}Nsi=1和一组未标记图像Du={(xuj)}Nuj=1，其中Ns和Nu分别是标记和未标记图像的总数。这里，ysi表示图像xsi的图像注释。SSOD的目标是使用Ds和Du学习一个好的检测器。最近的尝试[18, 22, 26, 27, 29,31]利用教师-学生框架来解决SSOD。具体而言，如图1中的黄色框所示，给定一个未标记图像xui，我们首先将其输入到弱数据增强模型Tw和强数据增强模块Ts中，分别得到教师检测器Mt和学生检测器Ms的输入。然后，将弱增强图像Tw(xui)输入到教师检测器Mt中，然后通过标签细化后处理模块H生成每个未标记图像的伪标签。之后，将强增强图像Ts(xui)输入到学生模型Ms中预测检测结果。使用未标记图像的检测损失Lu_det来最小化预测结果Ms(Ts(xui))与伪标签之间的差异。同时，将每个标记图像xsj输入到学生检测器Ms中预测0检测结果和检测损失Ls_det用于最小化其预测结果与其真实标签之间的差异。通过将这两个损失结合在一起，给定一个未标记图像集Du和一个标记图像集Ds，我们计算教师-学生框架的总损失Lst_det，其公式如下（1）。0其中，λu是一个超参数，用于平衡标记和未标记图像的检测损失。在训练阶段，总损失用于优化学生检测器和标签细化模块的参数。教师检测器和学生检测器共享相同的网络架构。教师检测器的参数通过所有标记图像进行预训练，然后通过EMA算法与学生检测器参数固定或缓慢进展。在测试阶段，使用学生检测器预测测试图像的检测结果。03.2. 概述0尽管教师-学生框架在SSOD中取得了有希望的结果，但它没有考虑标记和未标记图像之间的关系。为了充分利用标记图像，我们提出了一个多实例对齐模型，该模型基于从所有标记图像中学习到的全局类原型强制执行提议级一致性。我们的MA-GCP方法受益于可靠的全局类原型，并可以为目标检测学习更强大的视觉特征。我们将MA-GCP模型插入到SOTASSOD模型[27]中，并将其作为额外的一致性正则化以提高性能。03.3. 全局类原型学习0在我们的模型中，我们用全局原型表示每个类。这些全局类表示通过高斯噪声进行初始化，然后通过EMA算法使用地面真实提议的特征进行更新。具体而言，在每个训练迭代中，给定一个标记图像xsi，我们首先使用学生检测器的RoI头部计算其地面真实提议的RoI特征集。RoI特征集表示为Fgti={(fgti,j,ygti,j)}，其中fgti,j表示第j个地面真实提议的RoI特征，ygti,j∈C表示其类别标签，C表示所有训练对象类别的集合。然后，我们按类别对这些RoI特征进行平均，并为每个类别获得一个局部原型：0vk=0� �0� 0�0i,j0�0i,j1(ygti,j=k), �0i1(ygti,j=k)>0,00, �0i1(ygti,j=k)=0. (2)0其中vk表示C中第k个类的局部原型，0表示零向量，1表示指示运算With these global class prototypes, we propose a multi-instance alignment model which minimizes the differencebetween the class distributions of pseudo ground-truth pro-posals and their high-IoU candidate proposals, as illus-trated in Figure 2. These class distributions are computedwith global class prototypes as references.Specifically,the alignment model takes as inputs the pseudo ground-truth proposals obtained by the label refinement module,RoI proposals obtained by the student detector and globalclass prototypes. For each pseudo ground-truth proposalrpgti,j of a given unlabeled image xui , RoI proposals with ahigh intersection-of-union(IoU) score are selected to con-struct its candidate proposal set, which is denoted by Rci,j ={rci,j,z}. Then, we feed these pseudo ground-truth propos-als and their candidate proposal sets into the RoI head ofstudent detector, and obtain their RoI features, which aredenoted by {f pgti,j } and F ci,j = {f ci,j,z}, respectively. Here,98120伪真实0候选提议0学生0检测器的RoI头部0学生0检测器的RoI头部0全局类原型0交叉熵0损失0目标类别分布0预测类别分布0RoI特征0共享0图2.所提出的多实例对齐模型的示意图。多实例对齐模型以教师检测器获得的伪真实提议和学生检测器获得的候选提议作为输入，并通过最小化基于全局类原型的类别分布之间的交叉熵损失来强制它们的一致性。0检测器的RoI头部。通过EMA算法，全局类原型通过局部原型进行更新。更新全局类原型的过程在公式（3）中表示。0gk=α∙gk+(1−α)∙vk. (3)0其中gk表示C中第k个类的全局原型。α是动量参数，经验上设置为0.99。通过这样做，我们得到一组全局类原型，并将其作为多实例对齐的参考。03.4. 多实例对齐0j是未标记图像xui的伪造真实提议的索引，z是第j个伪造真实提议的候选提议的索引。然后，我们根据其在特征空间中与全局类原型的相似性，生成fpgt i的类别分布：0p(y=k|fpgt i,j)=exp(0�0k exp(sim(fpgt i,j,gk)).（4）0其中，sim表示RoI特征和全局类原型之间的相似度度量。在这里，我们经验性地使用余弦相似度，并且其形式的诊断研究在第4.4节中提供。同样地，我们可以获得候选提议的类别分布。对于每个伪造真实提议，我们通过最小化其类别分布之间的交叉熵损失Lu_aln，强制其与候选提议的预测一致性。给出了Lu_aln的公式和计算Lu_aln的概要的算法1。0Lu_aln = �0�0k∈C−p(y=k|fpgt i,j)logp(y=k|fci,j,z).0（5）需要注意的是，所提出的多实例对齐模型与以前基于一致性的SSOD方法[2,12,13,30]在两个方面有所不同：（1）我们强制在伪造的真实提议和具有高IoU分数的候选提议之间保持一致性，而不是从图像中裁剪出相同的候选提议和它们的水平变体。98130算法1 多实例对齐损失计算0要求：标记数据集Ds={(xsi,ysi)}，无标签数据集Du={xui}，对象类别集C，学生检测器Ms，教师检测器Mt，标签细化模块H。0确保：多实例对齐损失Laln。0对于Ds中的每个(xsi,ysi)。0通过使用Ms提取真实提议的fgt i,j。0对于C中的每个k。0根据公式（2）计算局部原型vk。0根据公式（3）更新全局原型gk。0结束循环。0结束循环。对于Du中的每个xui。0通过使用Mt后跟H，获取伪造真实提议rpgt i,j。0通过使用Ms使用高IoU分数获取候选提议集Rci,j={rci,j,z}。0通过使用Ms计算rpgt i,j的RoI特征fpgt i,j。0通过使用Ms计算rci,j,z的RoI特征fci,j,z。0对于C中的每个k。0根据公式（4）计算类别分布p(y=k|fpgti,j)和p(y=k|fci,j,z)。0结束循环。0根据公式（5）计算Lu_aln。0结束循环。0翻转变体[12]。通过这种方式，我们增加了输入提议对的多样性，从而使SSOD受益。（2）一致性是基于从标记图像中学习的全局类原型计算的，而以前的方法要么使用批次原型[2]，要么直接计算一致性而没有任何标记图像的参考[12,13,30]，这些方法不太可靠并且受到类别不平衡问题的困扰。03.5. 总体训练目标函数0提出的多实例对齐模型可以灵活地与师生框架结合，以提高其检测性能。通过将原始检测器的检测损失Lst_det与Laln相结合，可以得到公式（6）中的整体目标函数。0L overal = L st det + λ a L u aln . (6)0其中 λ a 表示多实例对齐损失 L aln 的权重，λ a的诊断研究在第4.4节中提供。04. 实验结果与讨论0在本节中，为了评估我们方法的有效性，我们进行了三组实验：1）与最先进的SSOD方法进行比较；2）消融研究以测试关键组件的有效性和选择超参数；3）定性分析。0研究以测试关键组件的有效性和选择超参数；3）定性分析。04.1. 实验设置0我们在两个基准数据集上评估我们的方法，即PASCAL VOC[ 7 ]和MSCOCO [ 17 ]数据集。PASCALVOC包含20个目标类别。在SSOD中，使用了来自VOC2007的trainval集的5,011个标记图像和来自VOC2012的trainval集的11,540个未标记图像进行训练，并使用来自VOC2007测试集的4,952个图像进行测试。与[ 12 , 13]一样，使用IoU阈值为0.5的平均精度(mAP)作为评估指标。MSCOCO是一个更具挑战性的数据集，包含80个目标类别。其训练集、验证集和未标记集分别包含118k、5k和123k个图像。根据[ 21 , 27]，SSOD有两种数据划分：部分标记划分和完全标记划分。部分标记划分从MSCOCO的训练集中随机选择1%、5%或10%的标记图像作为标记数据集，其余图像用于构建未标记数据集。完全标记划分更实际，它使用MSCOCO的整个训练集作为标记数据集，MSCOCO的整个未标记集作为未标记数据集。在这两种数据划分中，评估的测试集是MSCOCO的验证集。与[ 27]一样，使用IoU阈值从0.5到0.95的平均精度作为评估指标。为了避免部分标记划分中的采样随机性，我们报告了在5个数据折叠上的平均结果，就像最近的SSOD方法[ 18 , 27]一样。04.2. 实现细节0我们的方法基于最近的基于伪标签的SSOD [ 27]实现，该方法在基准数据集上取得了最先进的结果。基线检测框架是Faster RCNN [ 20 ]，配备了金字塔特征网络 [ 16]。骨干网络是ResNet50 [ 20 ]。对于PASCALVOC数据集，模型在8个GPU上进行了60k次迭代，每个GPU上有5个图像。对于每个训练迭代，标记样本和未标记样本的数量比为0.25。我们使用带有动量的SGD [ 15]训练整个模型。学习率初始化为0.01，在第40k次迭代和50k次迭代时除以10。权重衰减和动量分别设置为0.0001和0.9。对于MSCOCO数据集，我们使用与[ 27]相同的学习方案训练完整模型。04.3. 与现有技术的比较0PASCAL VOC。表1提供了PASCALVOC数据集上的比较结果。从这个表格中，我们可以观察到我们的方法优于SoftTeacher基线并取得了最先进的结果。具体而言，我们的方法超过了SoftTeacher基线1.40%。CSD [12]VOC2007VOC201274.70STAC [21]VOC2007VOC201277.45ISD [13]VOC2007VOC201274.40ISMT [29]VOC2007VOC201277.23UGMP [26]VOC2007VOC201278.6098140设置模型标记数据集未标记数据集 mAP(%)0完全监督 Faster RCNN+FPN VOC2007 None 76.300半监督0无偏教师 [ 18 ] VOC2007 VOC2012 77.370谦卑的教师 [ 22 ] VOC2007 VOC2012 80.940Instant-Teaching [31] VOC2007 VOC2012 79.900SoftTeacher* [27] VOC2007 VOC2012 80.320MA-GCP(我们的) VOC2007 VOC2012 81.720表1. 在Pascal VOC上的结果，评估指标为在VOC07测试集上的IoU阈值为0.5的mAP。SoftTeacher*表示使用与我们相同的训练方案的[27]的官方实现得到的结果。我们的方法不仅优于竞争的SSOD模型，还实现了与使用VOC2007和VOC2012数据集中的所有样本进行训练的完全监督基准相当的结果。0模型 1%标记样本 5%标记样本 10%标记样本0STAC [21] 13.97 ± 0.35 24.38 ± 0.12 28.64 ± 0.21 ISMT [29] 18.88 ± 0.74 26.37 ± 0.24 30.53 ±0.52 Unbiased Teacher [18] 20.75 ± 0.12 28.27 ± 0.11 31.50 ± 0.10 HumbleTeacher [22] 16.96± 0.38 27.70 ± 0.15 31.61 ± 0.28 Instant-Teaching [31] 18.05 ± 0.15 26.75 ± 0.05 30.40 ± 0.05SoftTeacher [27] 20.46 ± 0.39 30.74 ± 0.08 34.04 ± 0.140MA-GCP(我们的) 21.30 ± 0.28 31.67 ± 0.16 35.02 ± 0.260表2.在部分标记的设置下对MSCOCO的结果，评估指标为在MSCOCO的验证集上的IoU阈值从0.5到0.95的mAP(%)。我们报告了在最近的SSOD方法[21, 27]中使用的5个数据折叠的平均结果。我们的方法在不同比例的标记图像下始终优于竞争的SSOD模型。0模型 AP 0.5:0.95 (%)0STAC [21] 39.20 ISMT [29] 39.64UnbiasedTeacher [18] 41.30HumbleTeacher [22] 42.37Instant-Teaching [31] 40.20SoftTeacher [27] 44.500MA-GCP(我们的) 45.920表3.在完全标记的设置下对MSCOCO的结果，其中MSCOCO的整个训练集用作标记数据集，MSCOCO的整个未标记集用作未标记数据集。评估指标与表2相同。我们的方法比竞争的SSOD方法产生更好的结果。0在mAP方面，我们的方法在MSCOCO上相对于基线超过了5.43%的绝对点数，并且优于基线超过了5.43%的绝对点数。此外，我们的方法在两种设置下都实现了与基线相当的结果。0通过使用来自VOC2007和VOC2012数据集的所有标记样本进行训练的修正基准，证明了我们MA-GCP方法在SSOD中的有效性。0MSCOCO。表2和表3分别提供了在部分标记和完全标记的设置下在MSCOCO数据集上的比较结果。对于更具挑战性的MSCOCO数据集，我们的方法在这两种设置下始终优于竞争的SSOD模型。与最先进的SoftTeacher相比，我们的方法在1%、5%和10%标记设置下分别提高了0.84、0.93和0.98个点。当标记图像的比例较大时，我们的方法显示出更高的有效性。可以预期，更多的标记样本有助于学习更可靠的全局类原型，从而对SSOD产生更多的益处。对于更实际的完全标记设置，我们的MA-GCP模型实现了45.92%的mAP，超过SoftTeacher1.42个绝对点，这比部分标记设置的提升更大。这表明了我们MA-GCP的优势。̸8080.380.680.981.281.581.882.100.10.20.30.40.50.60.70.80.9198150模型 mAP(%)0基线 80.32 基线+MA(对比) 80.53基线+MA(孪生) 80.79基线+MA(GCP) 81.720表4. 在PASCALVOC数据集上对我们模型的关键组件的消融研究。评估指标与表1相同。注释：‘Baseline’-最先进的SSOD模型[27]；‘MA(对比)’-多实例对齐模型，通过对比学习将伪造的真实提议的RoI特征与其高IoU候选者对齐；‘MA(孪生)’-多实例对齐模型，通过孪生学习将伪造的真实提议的RoI特征与其高IoU候选者对齐；‘GCP’-在第3.3节中提出的全局类原型。与Baseline相比的持续改进表明了我们MA-GCP模型中提出的关键组件的有效性。0当有更多标记图像可用时，模型不会减少。也就是说，我们的方法适用于同时具有大规模标记和未标记数据集的实际场景。04.4.消融研究0关键组件的影响。我们首先进行消融研究，验证MA-GCP方法中关键组件的有效性。在这里，我们将完整模型与三个简化版本进行比较：最简单的版本是‘Baseline’，即最先进的SSOD[27]。另外两个简化版本通过视觉相似性对伪造的真实建议的RoI特征和它们的高IoU候选进行对齐，而不是全局类原型上的类分布。具体而言，我们遵循最近的自监督学习方法，并开发了两种测量它们视觉相似性的方法。第一种方法基于对比学习[5,10]，用‘MA(Costrastive)’表示：我们将这些RoI特征输入到投影头B中，然后在这些投影RoI特征上添加对比损失。公式（5）中的对齐损失如下所示。0L u CtAln = − 0z log exp（B（fci，j，z），B（fpgt0k � = j exp（B（fci，k，z），B（fpgti，j））（7）第二种方法基于孪生学习[6]，用‘MA(Siamese)’表示：我们首先将这些RoI特征输入到投影头B中，然后将候选建议的投影RoI特征输入到预测头S中。我们使用一种新的对齐损失来优化模型，该损失最大化了伪造的真实建议的投影RoI特征与其候选建议的预测RoI特征之间的余弦距离。新的对齐0模型mAP（%）0负L2距离81.04余弦相似度（我们的）81.720表5.不同形式相似性函数的诊断研究。评估指标与表4完全相同。符号：‘NegativeL2-Distance’-两个输入之间的负L2范数，公式（10）中定义；‘Cosine(ours)’-余弦相似度，公式（9）中定义。0平均精度（%）0� �0图3.在方程（6）中对超参数λ a进行诊断实验。评估指标与表4相同。0损失在方程（8）中定义。0L u SeAln = − 0j0z cos（S（B（fci，j，z）），B（fpgti，j））（8）0在方程（8）中，cos（∙，∙）表示两个输入之间的余弦距离。与[6]一样，伪造的真实建议的投影RoI特征B（fpgti，j）不会反向传播梯度。表4提供了这些模型在PASCALVOC数据集上的比较结果。从这个表中，我们可以观察到：1）通过三种不同的方式实现的多实例对齐可以提高基线模型的检测准确性。这表明了所提出的对齐模型对于SSOD是有效的。2）我们基于全局类原型的对齐结果比基于对比学习或孪生学习的结果要好得多。这些结果证明了所提出的全局类原型的优越性，这是本文的一个关键贡献之一。这是可以预期的-从标记图像中学习到的全局类原型为一致性正则化提供了可靠的指导，从而提高了检测性能。相似性函数的形式。在我们的实验中，我们将相似性函数实现为两个输入特征向量之间的余弦相似度，公式（9）中定义。0sim（fpgt i，j，gk）= fpgt i，j（gk）T0∥ g k ∥ ∙ ∥ f pgt i,j ∥ . (9)98160测试图像0基准模型0未标记的图像0我们的方法0狗猫人人瓶子0汽车汽车汽车汽车0汽车汽车汽车汽车汽车0瓶子0人人0人0牛0猫0猫0猫0电视监视器电视监视器电视监视器电视监视器电视监视器0图4. 在PASCALVOC数据集上，基准模型和我们的方法检测到的新颖对象的定性可视化。我们展示了我们的模型比基准模型取得了更好的检测结果。0另一种方法是使用两个输入之间差异的负L2范数作为它们的相似度，其公式如（10）所示。0相似度（ f pgt i,j , g k ）= −∥ f pgt i,j − g0表5提供了PASCALVOC数据集上替代方法和我们解决方案的比较结果。我们可以观察到，我们的方法始终优于负L2距离策略。这表明我们的余弦相似度解决方案比负L2距离更合适。多实例对齐损失的权重。我们在方程（6）中对重要的超参数λa进行了诊断实验。不同λa值的结果如图3所示。我们可以观察到，当λa=0.8时，我们获得了最佳性能。因此，在我们的实验中将λa设置为0.8。04.5. 定性结果0我们在PASCALVOC的未标记集和测试集上提供了检测结果的定性可视化，如图4所示。我们展示了我们的模型在检测方面取得了更好的结果。0相比基准模型，我们的方法在目标检测上取得了更好的结果，这要归功于基于可靠全局类别原型的多实例对齐模型。此外，我们还在补充材料中展示了一些失败案例，并对这些失败案例进行了讨论。我们可以观察到，我们的方法在复杂背景或罕见视角中检测对象时存在困难。这可能是一个需要进一步研究的未来方向。请谨慎将此模型应用于导致严重不良后果的失败情况。05. 结论0在本文中，我们提出了一种基于全局类别原型的多实例对齐模型，充分利用SSOD中的标记图像。通过使用所有标记的训练图像学习到的全局类别原型被证明是提高SSOD的可靠指导。有了可靠的指导，我们可以增强教师检测器和学生检测器之间的预测结果的一致性。通过将我们的MA-GCP方法插入到最先进的SSOD模型中，我们得到了一个强大的目标检测解决方案。98170参考文献0[1] Abulikemu Abuduweili, Xingjian Li, Humphrey Shi,Cheng- Zhong Xu, and Dejing Dou.自适应一致性正则化用于半监督迁移学习.在IEEE计算机视觉与模式识别会议CVPR2021中发表，页码6923-6932. 20[2] Mahmoud Assran, Mathilde Caron, Ishan Misra, Piotr Bo-janowski, Armand Joulin, Nicolas Ballas, and Michael G.Rabbat. 非参数预测视图分配的半监督学习视觉特征.在IEEE计算机视觉会议ICCV 2021中发表，页码3060-3069. 2, 4,50[3] David Berthelot, Nicholas Carlini, Ekin D. Cubuk, Alex Ku-rakin, Kihyuk Sohn, Han Zhang, and Colin Raffel. Remix-match: 半监督学习中的分布匹配和增强锚定.在国际学习表示会议ICLR 2020中发表. 20[4] David Berthelot，Nicholas Carlini，Ian J.Goodfellow，Nico- las Papernot，Avital Oliver和ColinRaffel。MixMatch:半监督学习的整体方法。在神经信息处理系统进展中，NeurIPS，页5050-5060，2019年。20[5] 陈婷，Simon Kornblith，Mohammad Norouzi和Ge-offrey E.Hinton。对比学习视觉表示的简单框架。在第37届国际机器学习大会ICML的论文集中，卷- 119，页1597-1607，2020年。70[6] Xinlei Chen和KaimingHe。探索简单的孪生表示学习。在IEEE计算机视觉和模式识别会议CVPR，页15750-15758，2021年。70[7] Mark Everingham，Luc Van Gool，Christopher K. I.Williams，John M. Winn和AndrewZisserman。帕斯卡视觉对象类（voc）挑战。计算机视觉国际期刊IJCV，88（2）：303-338，2010年。50[8] 高继扬，王江，戴胜阳，李立佳和RamNevatia。NOTE-RCNN:噪声容忍集成RCNN用于半监督目标检测。在IEEE/CVF国际计算机视觉会议ICCV，页9507-9516，2019年。10[9]龚成跃，王迪林和刘强。AlphaMatch:使用alpha散度改进半监督学习的一致性。在IEEE计算机视觉和模式识别会议CVPR，页13683-13692，2021年。20[10] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie和RossB.Girshick。动量对比用于无监督视觉表示学习。在IEEE/CVF计算机视觉和模式识别会议CVPR，页9726-9735，2020年。70[11] 胡子健，杨正宇，胡学峰和Ram Neva-tia。Simple:用于半监督分类的相似伪标签利用。在IEEE计算机视觉和模式识别会议CVPR，页15099-15108，2021年。20[12] Jisoo Jeong，Seungeui Lee，Jeesoo Kim和NojunKwak。基于一致性的半监督学习用于目标检测。0tection.在神经信息处理系统进展中，NeurIPS，页10758-10767，2019年。1，2，4，5，60[13] Jisoo Jeong，Vikas Verma，Minsung Hyun，Juho Kan-nala和NojunKwak。基于插值的半监督学习用于目标检测。在IEEE计算机视觉和模式识别会议CVPR，页11602-11611，2021年。1，2，4，5，60[14] Samuli Laine和TimoAila。用于半监督学习的时间集成。在国际学习表示会议ICLR，2017年。20[15] Yann LeCun，Bernhard E. Boser，John S.Denker，Donnie Henderson，Richard E. Howard和LawrenceD. Hubbard，Wayne E.andJackel。反向传播应用于手写邮政编码识别。神经计算，1（4）：541-551，1989年。50[16] 林宗毅，Piotr Doll´ar，Ross B. Girshick，KaimingHe，Bharath Hariharan和Serge J.Belongie。特征金字塔网络用于目标检测。在IEEE计算机视觉和模式识别会议CVPR，页936-944，2017年。50[17] 林宗毅，Michael Maire，Serge Belongie，JamesHays，Pietro Perona，Deva Ramanann，Piotr Dollar和CLawrence Zitnick。Microsoftcoco：上下文中的常见对象。在欧洲计算机视觉会议ECCV上，页740-755，2014年。50[18]刘彦成，马志尧，何子健，郭家文，陈侃，张培钊，吴必琛，ZsoltKira和PeterVajda。无偏教师用于半监督目标检测。在国际学习表示会议ICLR，2021年。1，2，3，5，60[19] Takeru Miyato，Shin-ichi Maeda，MasanoriKoyama和ShinIshii。虚拟对抗训练：一种监督和半监督学习的正则化方法。IEEE模式分析与机器智能交互，41（8）：1979-1993，2019年。20[20] Shaoqing Ren, Kaiming He, Ross B. Girshick, and JianSun. Faster R-CNN: 实时目标检测与区域建议网络.IEEE模式分析与机器智能杂志 , 39(6):1137–1149, 2017. 50[21] Kihyuk Sohn, Zizhao Zhang, Chun-Liang Li, Han Zhang,Chen-Yu Lee, and Tomas

下载后可阅读完整内容，剩余1页未读，立即下载