基于普适原型增强的少镜头目标检测

27 浏览量更新于2023-10-13 收藏 2.5MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9567基于普适原型增强的少镜头目标检测吴阿明1韩亚红2，3，4朱林超5杨毅51西安电子科技大学电子工程学院2天津大学智能与计算学院3天津大学天津市机器学习重点实验室4深圳鹏程实验室5悉尼科技大学AAIIReLER实验室amwu@xidian.edu.cn，yahong@tju.edu.cn，{Linchao.Zhu，yi.yang} @ uts.edu.au摘要少镜头目标检测（FSOD）的目的是用少量标记样本来增强新目标检测的性能为了缓解小样本的限制，提高学习特征对新对象的泛化能力起着关键作用。因此，FSOD的特征学习过程应该更多地关注对象的本质特征，这些特征在不同的视觉变化下是不变的，因此有助于特征泛化。与元学习范式的先前尝试不同，在本文中，我们探索了如何增强对象特征，这些特征具有在不同对象类别中通用的我们提出了一个新的原型，即通用的原型，这是从所有对象类别学习。除了表征不变特征的优点之外，通用原型减轻了不平衡对象类别的影响在用通用原型增强对象特征之后，我们施加一致性损失以最大化增强特征与原始特征之间的一致性，这有利于学习不变对象特征。因此，我们开发了一个新的框架，工作的少镜头目标检测与通用原型（FSOD），具有的优点，对新的对象的特征概括。在PASCAL VOC和MS COCO上的实验结果表明了FSOD的有效性。特别地，对于VOC Split2的1次激发情况，FSOD向上在mAP方面超过基线6.8%1. 介绍最近，由于深度学习的成功，在对象检测方面取得了很大进展[26，11，14，12]。然而，出色的性能[25，21，3，18]取决于每个类别的训练图像中丰富的注释对象。作为一项具有挑战性的任务，少数拍摄对象检测-*通讯作者图1.通用原型（彩色星星）是从所有对象类别中学习的，而不是特定于某些对象类别。通用原型通过潜在投影捕获不同的本质对象特性，例如，原型Fincorpo-对“汽车”和“摩托车”的对象特性进行评级FSOD（FSOD）[16，35]主要旨在提高属于某些类别但很少出现在注释训练图像中的新对象的检测性能。FSOD的主要挑战在于如何从基本类别中的丰富样本和新类别中的少量样本中学习通用对象特征，从而同时描述不变的对象特征并减轻不平衡类别的影响。最近，元学习策略[28，30，9]已经被使用，lized在[38，37，35，8]中，以适应从基本对象类别到新类别的表示能力。然而，与基本微调方法[33，36，4，5]相比的弱性能表明元学习技术未能提高对象特征学习的泛化能力。一个可能的原因是元学习机制中的自适应过程不能充分捕获跨类别的不变特征。入侵，即，在不同的视觉变化（如文本变化或环境噪声）下不变，总是与本质对象特征相关联。如[23]所示，可以提取不变表示的模型通常比其非不变表示更好地推广。9568三部分因此，本文研究了如何利用不变对象特征来增强对象特征学习的泛化能力。我们设计了通用原型（如图所示）。1）学习不变对象特征。不同于从每个类别单独学习的原型[28，20，32]，所提出的通用原型是从所有对象类别学习的。好处是双重的。一方面，所有类别的原型不仅从不同的对象类别中获取丰富的信息，而且还从图像的上下文中获取信息。另一方面，通用原型减少了不同类别之间的数据不平衡的影响。此外，通过微调，单一的原型可以有效地适应数据稀缺的小说类别。为此，我们开发了一个新的框架工作的少镜头目标检测与通用原型（FSOD）。特别是，我们利用软注意的学习通用原型，以提高对象的功能。这种通用原型增强（即，增强特征的每个在这里，我们采用的一致性损失，使增强和原始对象的功能之间的最大协议。在训练过程中，我们首先在数据丰富的基础类别上训练模型。然后，在重新构建的训练集上对模型进行微调，该训练集包含来自基础对象类别和新对象类别的少量平衡训练样本。在两个基准测试上的实验结果和大量的可视化分析证明了该方法的有效性。我们的代码将在https://github.com/AmingWu/UP-FSOD上提供。这些贡献摘要如下：(1) 对于FSOD，我们设计了一个专用的原型和一个新的框架与通用原型增强。(2) 我们成功地证明，微调后，与通用原型增强功能，对象检测器有效地适应新的类别。(3) 我们在PASCAL VOC [7，6]和MS COCO [19]上获得了新的性能增强不变性和概括与学习的通用原型经验验证。此外，广泛的可视化分析也表明，通用原型能够增强对象的特性，这是有益的FSOD。2. 相关工作少镜头图像分类。少镜头图像分类[31，24，29，13，10]的目标是识别每个类别中只有很少样本的新类别。Meta学习是一种广泛用于解决少样本分类的方法[22]，其旨在利用任务级元知识来帮助模型适应具有少量标记样本的新任务。Vinyals等人[31]和Snell et al.[28]就业元学习策略学习可以跨不同任务转移的相似性度量。特别地，基于元学习策略，原型网络[28]提出了以同类支持样本的嵌入中心分类可以通过计算每个类别的样本和原型的表示之间的距离来执行然而，当数据不平衡或缺乏时，学习的原型不能准确地表示每个类别的信息，从而影响分类性能。此外，在元学习期间，Gidaris et al.[10]和Wang et al.[34]引入了新的参数，以促进对新任务的适应。然而，这些用于少镜头图像分类的元学习方法不能直接应用于需要定位和识别对象的对象检测。少镜头物体检测。大多数现有方法采用元学习[8，17]或微调[39，36]策略来解决FSOD。具体而言，Wang et al.[35]开发了一个基于元学习的框架，以利用来自数据丰富的基本类别的元级知识来学习新类别的检测器。Yan等人。[38]通过对RoI（感兴趣区域）特征进行元学习，进一步扩展了Faster R-CNN [26]。然而，与基本的微调方法相比，弱的性能表明基于元学习的方法未能提高对象检测器的泛化能力。对于微调的方法和在基本类别上预训练的模型，Wang et al.[33]采用了两阶段微调过程，即，微调检测器的最后几层并冻结检测器的其它参数，以使对象预测器适应新的类别。Wu等人。[36]提出了一种多尺度正样本细化的方法来处理对象检测中的尺度变化问题，这与数据增强类似[40]。与以往的FSOD方法不同，本文提出从所有对象类别中学习通用原型。我们开发了一个新的框架FSOD与通用原型增强。实验结果和可视化分析证明了通用原型增强的有效性。3. 使用通用原型的在本文中，我们遵循相同的FSOD设置介绍康等人。[16]第10段。注释的检测数据被划分为一组基本类别，具有丰富的实例和一组新的类别，只有很少的（通常小于30）每个类别的实例。主要目的是提高检测器的泛化能力。3.1. 通用原型最近，许多方法[28，20，32]为每个类别构建原型来解决少镜头图像分类。9569G∈}{∈V∈e−VV ∈∈∈图2.具有通用原型增强的少镜头目标检测体系结构。‘Conv’和‘fc_layer’分别表示卷积层和全连接层。彩色的星星是有学问的宇宙原型。‘ ’ and ‘[,]’ denote the residual operation and 我们专注于通过学习不变对象特性来提高检测器的泛化能力首先，从所有对象类别中学习通用原型根据区域建议网络的输出，通过对通用原型的条件转换得到条件原型接下来，基于条件原型计算增强的对象特征最后，计算增强的和原始特征之间的一致性损失。阳离子。虽然反映类别信息的原型已被证明是有效的图像分类，他们不能被应用到FSOD。原因可能是这些类别特定的原型表示图像级信息并且未能捕获有助于定位和识别对象的对象特性。不同于特定于类别的原型，基于所有对象类别，我们试图学习通用原型，这有利于捕获在不同视觉变化下不变的本质对象特征具体地，图的左部分2显示了通用原型的学习我们采用广泛使用的Faster R-CNN [26]，一种两阶段对象检测器，作为基本检测模型。给定输入图像，我们首先采用特征提取器，例如，ResNet [15]，以提取相应的特征FRw×h×m，其中w、h和m分别表示宽度、高度和通道数。然后，通用原型被定义为C=C iRm，i=1、…D.然后，基于原型集合C，我们计算-表示图像级信息的后期描述符。I=Wg*F+bg，连接层通过级联操作，将描述子融合到原始特征F中，增强了F的表示能力。Ψ由两个具有ReLU激活的卷积层组成，用于转换级联结果。最后，PRn×s×s×m是具有RoI Pooling的RPN的输出[26，14]，其中n和s分别表示提案的数量和提案的大小。P的特征尺寸与F相同。3.2. 对象特征如右图所示。2，首先基于泛原型C计算条件原型。然后，我们进行增强对象的功能与条件原型。3.2.1条件原型由于Eq. (1)基于所提取的代表整个输入图像的特征，通用原型C主要反映图像级信息。在这里，Vi=WHj=1eIj，iDj，ii=1（Fj−ci），（一）图像级信息包括对象级信息和关于图像内容的其它相关信息。然而，在RPN之后，建议特征P主要包含对象级信息。直接利用univer-其中W gR3×3×m×D和b gRD是卷积的参数RD×m表示输出描述符。‘最后，我们将F和的级联结果作为RPN模块的输入。销售原型C可能不能准确地表示对象级信息。因此，我们进行仿射变换以促进CA=α<$C+β，（3）P= RPN（Ψ（[F，VrWp+bp]）），（2）其中α∈RD×1和β∈RD×1是变换后的参数。是元素级乘积。最后，A ∈RD×m其中Vr∈R1×Dm是V的整形结果。同时，Wp∈RDm×m和bp∈Rm是完全-表示条件原型。接下来，我们采用与Eq相同的过程。(1)生成对象级描述Σ9570Σ∈∈∈×A∈∈···∈∈一L一∈AL∈∈∈tors.其过程如下：E=Wc*P+bc，S2Ok，i=eEk，j，iΣDeEk，j，i（Pk，j−ai），（四）j=1i =1其中k=1，，n. WCR3×3×m×D和b c研发是卷积参数。aiR1×m是的第i个条件原型. ORn×D×m表示输出描述符。最后，我们把P和O的级联结果作为分类器的输入y=Clf（[Ψc（P），O r W r+ b r]），（5）其中O rRn×Dm是O. CLF表示分类器。与此同时，W rRDm×2m和brR2m是全连通层的参数。Ψc由两个完全连接的层组成，并且输出具有维度n2m的矩阵。最后，y是预测概率。在实验中，我们发现使用基于条件原型生成的描述符O提高了FSOD的性能，这表明了条件原型的有效性。3.2.2使用条件原型进行为了提高检测器的泛化能力，我们尝试利用条件原型来增强目标特征。具体而言，图3示出了增强细节。对于建议特征P∈Rn×s×s×m和条件图3.对象特征的增强。基于RPN输出P的每个元素，我们计算条件原型的软注意以生成增强特征。增强特征的每个元素都是条件原型类型的组合，保留了P的语义信息。找到增强的操作（Eq.（6）和（7））对于FSOD是有益的，这进一步指示所学习的原型包含对象级信息。3.3. 两阶段微调法许多半监督学习方法[2，1]依赖于一致性损失来强制模型输出在输入被扰动时保持不变。受此想法的启发，为了学习不变的对象特征，我们计算来自原始特征的预测y之间的一致性损失（参见等式（1））。(5))以及来自增强特征的预测yEnh。特别地，KL-发散损失被用于实施一致的预测，即，L_con=H（y，y_enh）。联合训练损失定义如下：L=Lrpn+Lcls+Lloc+γLcon，（8）其中Lrpn是RPN的损失，以区分前景与背景并细化边界框锚点。 L原型A ∈RD×m，我们分别采用卷积-和CLS将P和投影到嵌入空间中，即，e p=Φp（P）和ea=Φa（）。然后，基于每个元素的ep，我们计算的软注意的ea获得增强的对象特征。λk= softmax（ep，k eT），LOC分别表示分类损失和盒回归损失。γ是一个超参数。在训练期间，我们采用两阶段微调方法（如图所示）。4）优化FSOD模型。具体地说，在基础训练阶段，我们采用联合损失优化整个模型的基础上的数据丰富的基类。经过基地训练阶段，只有一Enhk= ReLU（Φt（[ep，k，λkea]）+Pk），（六）检测头的最后一个全连接层（用于分类）被替换。新的分类图层为其中k=l，···，η。e磷钾∈Rs2×m表示第k个com-随机初始化此外，在少数镜头微调[33]第一个阶段，与工作不同，没有网络层-2ep的分量 λk∈Rs×D表示注意力权重。 Φ她被冻结了。并且我们仍然采用损耗L来微调由两个具有ReLU激活的卷积层组成。而Φ t的输出维数为m。 PKRs×s×m为P的第k个分量。最后，EnhRn×s×s×m为增强的对象特征融合了条件原型的信息，有助于提高对新对象的泛化能力。接下来，将Enh作为分类器的输入以输出预测概率。y_enh= Clf（[Ψc（Enh），Ψc（P）]），（7）其中y_enh是预测概率。除此之外，Eq。(5)和等式(7)共享相同的分类器。实验中不9571整个模型基于由少数基本类别和新类别组成的平衡训练集。3.4. 讨论在本节中，我们将进一步讨论用于少镜头对象检测的通用原型。尽管原型已被证明对少数拍摄图像分类有效[28，31]，但尚不清楚如何构建FSOD的原型[16]。(1)如果我们遵循少镜头图像分类并为每个类别构建原型，则该情况的计算成本会增加9572图4. FSODup的两阶段微调方法图示。在基础训练阶段，整个检测器，包括特征提取器，通用原型的学习模块和基于条件原型的增强模块，在数据丰富的基础类别上进行联合训练。在少量微调阶段，整个检测器在由少量基本类别和新类别组成的平衡训练集上进行微调。大量的对象类别。同时，由于对象类别的不平衡，构造的原型类型可能不能准确地反映类别信息。(2)与上述相关，用于特定对象类别的检测器可能受到一个图像中共同出现的对象的影响，并且因此用于这种类别的所构建的原型的质量可能负担沉重。(3)更重要的是，由于基础训练阶段中的对象类别的数量与少数微调阶段中的对象类别的数量不同，因此为每个对象类别构建原型使得不可能在基础训练和少数微调之间对齐原型。也就是说，在基础类别上预训练的原型不能直接用于微调阶段。因此，对于基于微调的方法，很难为每个类别构建原型。为了解决FSOD，我们建议从所有对象类别中学习通用通用原型并不特定于某些对象类别，并且可以通过微调有效地适应新的类别。在实验中，我们发现，通用原型有助于表征不同对象类别的区域信息。同时，通过普适原型增强，可以显著提高少镜头检测的性能4. 实验我们首先在PASCAL VOC [7，6]和MS COCO [19]上评估我们的方法。为了公平比较，我们使用[16，38]中的设置来构建少量检测数据集。具体地，对于PASCAL VOC，20个类被随机地分成5个新类和15个基类。在这里，我们遵循工作[16]使用相同的三个类拆分，其中每个新类别只有K个对象实例可用，并且K被设置为 1 ， 2 ， 3 ， 5 ， 10 。对于 MS COCO ，与PASCAL VOC重叠的20个类别被用作K= 10、30的新类别。其余60个类别作为基础类别。实施详情。更快的R-CNN [26]被用作基本检测器。我们的主干是Resnet-101 [15]和RoI Align [14]层。我们使用预先训练的权重ImageNet [27]在初始化中。对于FSOD，通用原型的数量（见等式1）。（1））被设置为24。所有这些原型都是随机初始化的。接下来，在2个GPU上使用批量大小为2的模型进行训练，每个GPU 1个图像。同时，为了减轻规模问题的影响，我们采用了正样本细化[36]。超参数γ（参见Eq.（8））被设置为1.0。所有模型都使用SGD优化器进行训练最后，在推理期间，我们取Eq.(5)作为分类结果。4.1. 少镜头检测我们将FSOD与两种基线方法进行比较，即，[33]和MPSR [36]。这两种方法均采用两阶段微调法求解FSOD。PASCAL VOC的结果。表1显示PASCAL VOC的结果。随着新颖类别的数量减少，性能显著降低。这表明，解决少数拍摄问题是至关重要的，以提高检测器的泛化。我们可以看到，所提出的FSOD向上方法始终优于两种基线方法。这表明，采用通用原型增强有助于学习不变的对象特性，从而提高性能。同时，这也表明关注不变性在求解FSOD中起着关键作用。在图5中，我们显示了MPSR [36]和我们的方法的检测结果。‘鸟’和‘公共汽车’属于小说类。我们可以看到，我们的方法可以成功地检测图像中存在的对象。这进一步表明，所提出的通用原型增强有助于捕获不变的目标特征，从而提高检测的准确性。MS COCO的结果。表2示出了在MS COCO数据集上的少数发射检测性能。与两种基线方法相比，TFA[33]和MPSR [36]，我们的方法始终优于它们的性能。这进一步证明了拟议的通用原型增强的有效性。此外，FSOD-VE [37]是最近提出的基于元学习的方法，其9573一无条件新原型我们38.142.143.843.8 48.9 55.644.6 48.8 56.147.8 50.355.461.7小说集1小说集2小说集3方法/镜头123510123510123510Meta R-CNN [38]19.925.535.045.751.510.419.429.634.845.414.318.227.541.248.1RepMet [17]26.132.934.438.641.317.222.123.428.335.827.531.131.534.437.2FSOD-VE [37]24.235.342.249.157.421.624.631.937.045.721.230.037.243.849.6TFA w/fc [33]36.829.143.655.757.018.229.033.435.539.027.733.642.548.750.2TFA w/cos [33]39.836.144.755.756.023.526.934.135.139.130.834.842.849.549.8TFA]w/fc [37，33]22.934.540.446.752.016.926.430.534.639.715.727.234.740.844.6TFA]w/cos [37，33]25.336.442.147.952.818.327.530.934.139.517.927.234.340.845.6MPSR][36]40.741.248.953.660.324.429.339.239.947.832.934.442.348.049.2我们的（FSODup）43.847.850.355.461.731.230.541.242.248.335.539.743.950.653.5表1. PASCAL VOC数据集上的少量检测性能（mAP（%））。我们评估了三个不同的新类别集的性能。Resnet-101 [15]被用作主干。‘图5.基于5次拍摄情况的检测结果。第一行显示了MPSR的结果[36]。第二行是我们的检测结果。我们的方法准确地检测对象。将FSOD与几个镜头的视点估计相结合，并遵循MetaR-CNN [38]来优化检测器。虽然FSOD-VE的同时，与FSOD-VE相比，该方法的训练更容易。并且我们不使用视点信息。这些结果进一步证明了利用通用原型增强有助于提高检测器4.2. 消融分析在本节中，基于PASCAL VOC的新颖集合1，我们对我们的方法进行了消融分析。条件原型。为了充分地表示对象级信息，基于通用原型类型C（参见等式（1））。(1))，我们进行仿射变换以获得条件原型（参见等式（1））。（三））。接下来，我们对条件原型进行消融分析。表3示出了比较结果。我们可以看到，利用条件运算可以提高检测性能。表2. MS COCO数据集上的少量检测性能（%）。这里，APS、APM和APL分别指示小型、中型和大型对象的mAP性能。表3.分析条件原型。这里，(3)并直接使用通用原型C进行增强。性能显著。特别是，对于2次拍摄的情况下，我们的方法分别优于这表明，基于通用原型的条件原型能够有效地表示对象级信息，提高了检测性能。通用原型的数量。对于我们的方法，方法/镜头123510镜头方法APAP75APSAPMAPLMeta R-CNN [38]8.76.62.37.714.0FSOD-VE [37]12.59.82.513.819.9TFA w/fc [33]10.09.2–––10TFA w/cos [33]TFA]w/fc [37，33]10.09.19.38.5––––––TFA]w/cos [37，33]9.18.8–––MPSR][36]9.59.53.38.215.9我们的（FSODup）11.010.74.511.217.3Meta R-CNN [38]12.410.82.811.619.0FSOD-VE [37]14.712.23.215.223.8TFA w/fc [33]13.413.2–––30TFA w/cos [33]TFA]w/fc [37，33]13.712.013.411.8––––––TFA]w/cos [37，33]12.112.0–––MPSR][36]13.813.54.012.922.99574·数量/注射1 2 35101641.2 42.754.260.12042.5 44.156.060.52443.8 47.8 50.355.461.72842.6 44.6 49.656.760.63241.4 42.1 49.653.960.0图6.原型的t-SNE图。我们分析了采用不同镜头的影响。这里，原型的数量是24。和F分别表示通用原型（见等式1）。(1))和条件原型（见等式（三））。对于新的类别，使用不同数量的样本影响的普遍和条件原型的分布。随着新事物数量的增加，普遍原型变得更加分散，而条件原型变得更加集中。表4.通用原型数量的影响。在这里，我们只使用不同数量的原型，并保持其他组件不变。表5. 2次/5次注射病例中每个新类别的AP（%）。我们还提出了新的和基础类别的mAP（%）。通用原型的数量（见等式(1))是重要的超参数。如果数量很小，这些原型不能充分代表不变的对象特性。相反，大量的原型可能会增加参数和计算成本。表4示出了采用不同数量的原型的性能。我们可以看到，使用24个原型的性能是最好的。当数目大于或小于24时，性能显著下降。这表明原型的数量影响FSOD性能。一般来说，对于大规模数据集的情况，图7.基于5次拍摄的情况将图像区域分配给通用原型。每个图像中的高亮区域分别被分配给一个相同的原型。分散以捕获更多图像级信息。在RPN之后，计算条件原型以表示对象级信息。基于条件原型计算的特征用于分类。因此，随着新对象的数量增加，条件原型的分布将变得更加集中，以集中于特定类别，这可以提高检测的准确性。这些分析进一步表明通用原型能够增强特征表示，这对FSOD是有益的。任务映射的可视化。在图7中，我们可视化了通用原型的分配图，即，软指派eIj，i在等式（一）. 或每个IM-ΣDeIj，i有大量的类别，雇用更多的原-类型能够充分捕捉对象级特征原型分布的可视化分析。在图6中，基于不同的镜头，我们分析了原型的分布。具体地，随着新对象的数量增加，为了提高检测性能，通用原型（参见等式（1））可以被改进。（1）会变得更年龄，我们可以看到不同的对象区域被分配同一个通用原型。特别地，对于第二行的第二图像，“沙发”和“桌子”的对象区域都被分配给一个相同的原型。这表明普遍原型并不特定于某些对象类别。此外，通用原型有助于表征不同对象的区域信息，并且可以通过微调有效地适应新的类别。i=1新颖类是说枪方法鸟总线牛姆比凯沙发小说基地2MPSR][36]36.824.856.959.128.441.265.4我们的（FSODup）40.741.358.962.235.947.866.35MPSR][36]44.160.754.366.842.153.669.59575LL(a) 1发（b）2发（c）3发（d）5发（e）10发图8.基于不同镜头的RPN所用特征图的可视化。第二行和第三行分别指示F和Ψ的输出（参见等式2）。（2）译注。对于每个特征图，选择与最大值对应的通道用于可视化。scriptors将性能提高了2.1%和1.2%。这表明将描述符融合到当前特征中有助于提高特征的表示能力。在图8中，基于不同的镜头，我们示出了F的可视化结果和Ψ的输出（参见等式10）。（2）译注。这里，我们分别取F和Ψ的输出作为表6.超参数γ的烧蚀分析。基本类别的性能表5显示了每种新型和基础类别的性能我们可以看到，我们的方法在新类别和基本类别上优于MPSR [36]特别是，对于这表明我们的方法可以提高检测器的泛化性能。超参数γ的分析对于联合训练损失（参见等式(8)))，我们使用一个超参数γ来平衡一致性损失con. 表6示出了结果。我们可以看到，超参数γ的不同设置影响FSOD的性能对于我们的方法，当γ设置为1.0时，性能最好。输出描述符的分析。由方程式(2)（5）将输出描述符融合为RPN和分类器的输入接下来，我们分析描述符的影响。具体地，对于Eq. (2)，我们只取F作为RPN的输入，其他分量保持不变。对于1次拍摄和5次拍摄的情况，融合描述符将性能提高了2.7%和1.8%。对于方程(5)，只取Ψc（P）作为分类器的输入，其他成分保持不变。对于1-shot和5-shot的情况，熔化去-RPN。我们可以看到，对于基础范畴和新颖范畴，与F相比，P2P的输出包含了更多的对象相关信息。以5杆成绩为例我们的方法的输出（第三行的第四个图像这进一步表明融合描述符有助于增强对象级信息。5. 结论为了解决FSOD，我们建议从所有对象类别中学习通用同时，我们开发了一种具有通用原型类型的少镜头目标检测方法（FSODup）。具体地说，在获得通用原型和条件原型之后，基于条件原型计算增强对象特征。接下来，通过一致性损失，FSODup增强了不变性和泛化。在两个数据集上的实验结果表明了该方法的有效性。确认这项工作得到了国家自然科学基金的支持（基金61876130，61932009）。设置/拍摄1235101.443.243.549.054.861.01.241.142.150.254.360.71.043.847.850.355.461.70.839.742.549.056.060.50.640.843.350.156.960.69576引用[1] 放大图片作者：David Berthelot，Nicholas Carlini，EkinD. Cubuk，Alex Kurakin，Kihyuk Sohn，Han Zhang，and Colin Raffel. Remixmatch：具有分布对齐和增强锚定的半监督学习。arXiv预印本arXiv：1911.09785，2019。[2] David Berthelot 、 Nicholas Carlini 、 Ian Goodfellow 、Nicolas Papernot 、 Avital Oliver 和 Colin A Raffel 。Mixmatch：半监督学习的整体方法。在神经信息处理系统的进展中，第5049-5059页[3] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。欧洲计算机视觉会议，2020年。[4] Wei-Yu Chen，Yen-Cheng Liu，Zsolt Kira，Yu-ChiangFrank Wang，and Jia-Bin Huang.更仔细地观察几次分类。在ICLR 2019：2019年[5] Guneet Singh Dhillon ， Pratik Chaudhari ， AvinashRavichan-dran，and Stefano Soatto.少数拍摄图像分类的基线ICLR 2020：第八届学习表征国际会议，2020年。[6] Mark Everingham 、 SM Ali Eslami 、 Luc Van Gool 、Christo-pherKIWilliams 、 JohnWinn 和 AndrewZisserman 。 Pascal Visual Object Classes Challenge ： ARetrospective.International Journal of Computer Vision，111（1）：98[7] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（ voc ）的挑战。 International Journal ofComputer Vision，88（2）：303[8] 范琦、卓伟、唐志强、戴玉荣。基于注意-rpn和多关系检测器的少镜头目标检测。在IEEE/CVF计算机视觉和模式识别会议论文集，第4013- 4022页[9] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。在ICML[10] 斯派罗·吉达里斯和尼科斯·科莫达基斯动态少镜头视觉学习而不忘。2018年IEEE/CVF计算机视觉和模式识别会议，第4367-4375页[11] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision ，第 1440-1448页，2015中。[12] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 580[13] Bharath Hariharan和Ross Girshick通过缩小和幻觉特征进行低镜头视觉识别。在2017年IEEE国际计算机视觉会议（ICCV），第3037-3046页[14] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。2016年IEEE计算机视觉和模式识别会议（CVPR），第770-778页[16] 秉义康、庄柳、辛王、渔人余、嘉世丰、特雷弗·达雷尔。通过特征重加权的少镜头对象检测。在IEEE计算机视觉国际会议集，第8420-8429页[17] Leonid Karlinsky 、 Joseph Shtok 、 Sivan Harary 、 EliSchwartz 、Amit Aides 、Rogerio Feris、Raja Giryes 和Alex M.布朗斯坦。Repmet：基于代表性的度量学习，用于分类和少量目标检测。在IEEE/CVF计算机视觉和模式识别会议（CVPR）上，2019年6月。[18] Tsung-Yi Lin ， Piotr Dollar ， Ross Girshick ， KaimingHe，Bharath Hariharan，and Serge Belongie.用于对象检测的特征金字塔网络。 2017年IEEE计算机视觉和模式识别会议（CVPR），第936-944页[19] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740-755页。Springer，2014.[20] 刘金露，宋良，秦永强。用于少量学习的原型校正2020年欧洲计算机视觉会议[21] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ， Scott Reed ， Cheng-Yang Fu ， andAlexander C Berg. Ssd：单发多盒探测器。在欧洲计算机视觉会议上，第21-37页。施普林格，2016年。[22] 姜璐、龚平华、叶杰平、张长水。从很少的样本中学习：一个调查。 arXiv 预印本 arXiv ： 2009.02653 ，2020。[23] Clare Lyle，Marta Kwiatkowksa，and Yarin Gal.神经网络中不变性对泛化的影响分析。在2019年的机器学习国际会议上，关于理解和改进深度学习泛化的研讨会[24] 萨钦·拉维和雨果·拉罗谢尔。优化作为一个模型的少镜头学习。在 ICLR 2017 ： International Conference onLearning Representations 2017，2017中。[25] 约瑟夫·雷德蒙和阿里·法哈迪Yolo9000：更好，更快，更强。在IEEE计算机视觉和模式识别会议论文集，第7263-7271页[26] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：利用区域建议网络进行实时目标检测。神经信息处理系统的进展，第91-99页，2015年[27] OlgaRussakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein ， et al. 图像网大规模视觉识别挑战。International Journal of Computer Vision，115（3）：2119577[28] 杰克·斯内尔凯文·斯沃斯基和理查德·泽梅尔用于少量学习的原型网络。神经信息处理系统进展，第4077-4087页，2017年[29] 宋洪洪，杨永新，李章，陶翔，菲利普H. S. Torr和Timothy M.医院学习比较：关系网络用于少镜头学习。2018年IEEE/CVF计算机视觉和模式识别会议，第1199-1208页[30] 田永隆，王跃，Dilip Krishnan，Joshua B.特伦鲍姆，菲利普·伊索拉。重新思考少数拍摄图像分类：一个好的嵌入就够了吗arXiv预印本arXiv：2003.11539，2020。[31] 作者：George，Charles Blundell，Timothy Lillicrap，Daan Wierstra，et al.匹配网络进行一次性学习。在神经信息处理系统的进展，第3630-3638页[32] 王凯欣、刘俊浩、邹应天、周大全、冯嘉世。Panet：具有原型对齐的少镜头图像语义分割。在IEEE计算机视觉国际会议论文集，第9197- 9206页[33] Xin Wang，Thomas E Huang，Trevor Darrell，Joseph EGonzalez，and Fisher Yu.令人沮丧的简单的少数拍摄对象检测。2020年机器学习国际会议。[34] Xin Wang，Fisher Yu，Ruth Wang，Trevor Darrell，andJoseph E Gonzalez. Tafe-net：用于低拍摄学习的任务感知功能嵌入。在IEEE计算机视觉和模式识别会议论文集，第1831-1840页[35] Yu-XiongWang ， DevaRamanan ， andMartia

下载后可阅读完整内容，剩余1页未读，立即下载