基于改进分类特征的少镜头目标检测模型

128 浏览量更新于2023-10-16 收藏 1.5MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5386基于改进分类特征的少镜头目标检测姜新宇1，李正佳1，田茂庆2，刘建波3，帅毅2，苗多倩1*1同济大学2商汤研究3香港中文大学{xinyujiang，zjli1997，dqmiao}@tongji.edu.cn {tianmaoqing，yishuai}@liujianbo@link.cuhk.edu.hk摘要少镜头目标检测（FSOD）旨在将知识从基本类转移到新类，近年来受到广泛关注。然而，当前技术的性能受到检测头中的不良分类能力和不适当特征的限制。为了解决这一问题，本文提出了一种多层次特征增强（MFE）模型，从空间层次、任务层次和正则化层次三个不同的角度对分类特征进行改进。首先，我们修改的分类器其次，我们将RoI-Align特征分成两个不同的特征分布，以便在任务级改进特征。最后，针对FSOD中的过拟合问题，设计了一个简单有效的正则化增强模块，将特征采样到不同的分布中，增强分类的正则化能力。大量的实验表明，我们的方法在PASCAL VOC数据集上取得了有竞争力的结果，并且在具有挑战性的MS-COCO数据集上的所有镜头设置中超过了当前最先进的方法1. 介绍近年来，通用目标检测技术取得了很大的进步.已经提出了许多创新技术[17，4]，但其中大多数不能在少数镜头设置中提供相当满意的性能。因此，人类和这些人工算法之间的智能存在明显的差异，因为人类即使在几次曝光后也可以识别从少量实例中学习对于真实场景中的目标检测具有重要意义少镜头目标检测（FSOD）是一个具有挑战性的任务，结合了少镜头学习和目标检测。给定具有丰富训练数据的基类和*通讯作者。FSOD训练了一个模型，该模型从基类学习一般知识，然后在新类上利用它们。以前的模型可以分为两类：基于元学习和基于迁移学习的方法。基于元学习的方法旨在解决元学习范式中的FSOD任务，其主要遵循统一/自适应采样方案以在每个事件中生成任务[12，34，30]。对于基于迁移学习的方法，他们首先在具有大量实例的基类上训练模型，然后在只有少数实例的新类上微调该模型。随着少镜头目标检测技术的发展，人们普遍认为分类器最近已经提出了一些工作来改进FSOD中的分类性能[25，13]。尽管专注于解决少数镜头对象检测的分类问题如果使用原始功能，可能会出现以下问题：空间转移。在广泛使用的Faster R-CNN架构中，回归器和分类器使用来自RoI-Align特征的词干表示的相同特征来同时执行回归和分类。在一般的目标检测任务中，在训练阶段使用了许多带注释的示例，并且该模型对于建议特征和精确包围盒特征之间的差异具有鲁棒性然而，低质量的建议功能限制了少数镜头设置中的分类性能。准确的边界框特征和建议特征之间的差异对分类器如图1a所示，在分类中使用的功能是不准确的，这会导致较差的分类器perfor-曼斯在少数拍摄设置。任务冲突。分类和回归的目标是不同的，因为它们是两个不同的任务。回归器的主要任务是定位对象，分类器的主要任务是区分不同的类别。因此，更快的R-CNN架构受到相互冲突的目标的5387分类回归(a)（b）（c）图1：少镜头目标检测中的潜在问题。(a)表示空间移位问题。绿色边界框：校正对象的坐标。红色边界框：由RPN生成的对象坐标。黄色边框：由R-CNN基于建议生成的坐标。（b）表示任务级问题。相同的建议特征难以同时表示分类和回归任务，并且在反向传播阶段任务之间可能存在冲突(c) 表示过拟合问题。在几个镜头的设置中，在训练过程中的分类和回归，和功能生成的RoI-Align操作不能考虑这种冲突。模型在对象检测中定位和分类相似项的能力通常由足够的训练数据实现，这减轻了这种现象。然而，在镜头较少的情况下，地点和分类之间的斗争更加激烈。严重过度拟合。少镜头目标检测期望用很少的训练数据学习一个类的所有表示，这对于一般的分类器来说是困难的特别是在少数镜头设置的情况下，模型很容易过拟合训练数据，并且很难区分特征空间中远离训练数据的对象。因此，该模型很难区分马和斑马等相似的类。在本文中，我们专注于提高质量的分类功能，在少镜头目标检测模型。针对上述现象，提出了一种多层次特征增强（ Multi-Level Feature Enhancement ，MFE）方法，在空间层次、任务层次和正则化层次上对分类特征进行增强。通过改变分类特征的空间位置，空间级模块增强了分类特征。通过关注不同通道的特征，任务级模块实现了定位和分类任务。正则化层模块提高了分类器通过三个特征增强模块的融合，MFE将原始建议特征增强为适合分类的特征。实验结果表明，MFE大大提高了两级少拍检测器的性能。我们的方法的主要贡献有三个方面：• 本文从分类器特征不完善的角度指出了小镜头目标检测中存在的问题，这些特征在一般目标检测中并不重要• 我们提出了多层次特征增强（MFE），从空间，任务和正则化水平提高检测功能。• 我们的方法取得了竞争力的COCO 和 PASCALVOC基准测试结果，这证明了我们的框架的有效性。2. 相关工作少镜头分类。作为一个具有挑战性和有意义的问题，已经提出了许多方法[8，28]用于少镜头分类，以提高从基类到新类的快速适应能力，只需很少的样本。这些方法试图学习许多训练任务来解决一个新的看不见的少数镜头任务。在每次迭代中，该模型从特定的n路k次任务中学习，以利用任务级Meta知识，这被称为元学习。元学习中的一些方法优化梯度下降过程，为新任务找到一个好的初始化[8，14]。其他一些方法旨在学习更好的嵌入空间以进行少量学习[28，24，26，3]。除了元学习范式之外，还有一些方法探索了少量学习中的微调范式[18，3，27]。Chen等人[3]提出了一个简单的预训练和微调模型与最后一个分类器层也可以得到一个有竞争力的性能相比，Meta学习。少镜头物体检测。FSOD任务有两个初始工作流。最通用的方法之一是基于元学习的方法。Meta学习算法将训练过程抽象为一个任务5388∅建议分类器前述特征正则约束前述特征雷热索尔分类器空间级增强模块监管级别增强模块图2：MFE架构。而不是标准的R-CNN架构，我们从空间，任务和正则化级别增强了分类器的特征SEM、TEM和REM分别表示空间级、任务级和正则化级增强模块。范例，利用一组支持的例子来预测查询图像中的对象。Kang等人[12]首先在FSOD任务中应用Meta学习，通过特征重新加权结合YOLO架构[21]。Yan等人[34]提出元学习Faster R-CNN架构的RoI模块。Xiao等[33]定义了一个简单而有效的统一框架，解决了少镜头对象检测和少镜头视点估计。粉丝等人[6]提出了一个通用的少镜头目标检测网络，学习图像对之间的匹配度量。Wu等[31]以Meta学习的方式使用通用原型增强对象特征。另一个流是基于迁移学习的方法。Chen等人[1]通过结合SSD[16]和Faster R-CNN fash [22]，以迁移学习的方式涉及这个问题。Wang等人[29]他指出，只对现有探测器的最后一层进行微调对FSOD任务至关重要Wu等[32]提出了一种多尺度正样本细化方法，以丰富目标尺度。近年来，越来越多的研究工作集中在提高分类性能上。Sun等人[25]应用对比损失判别相似类，同时Li等.[13]利用类利润损失技术来平衡类间和类内利润。Qiao等人[20]捕捉到了RPN和R-CNN模块之间的冲突，并引入了解耦模块来解决这个问题。3. 方法在本文中，我们提出了一种多级特征增强（MFE）方法，从三个特定的角度来改进分类特征，如图2所示，包括空间级增强模块（SEM），任务级增强模块（TEM）和正则化级增强模块（REM）。我们在第3.1节中介绍了问题的定义，并在第3.2、3.3、3.4节中介绍了MFE中不同层次的三个拟议模块3.1. 问题定义我们首先给出了一个正式的少镜头对象检测定义，然后是Kang[12]。给定两个数据集Cbase和Cnovel，Cbase表示基类中大量的带注释的实例，Cnovel表示新类中少量的带注释的实例. Cbase和Cnovel的交集类有. 我们的目标是获得一个少镜头的目标检测模型，充分利用一般的知识，从基类和转移到新的类。通常，在Cnovel中每个类只有k个实例，称为k-shot对象检测。我们主要采用迁移学习方法进行模型训练和测试，与之前基于迁移学习的方法相同[29，20]。模型训练可以概括为两个阶段：在第一阶段，我们的模型在基类上进行训练，并学习广义知识建议TEMSEMTEMREM骨干5389∈⊗阶段/IoU 0.50：0.90 0.90：1.00基础训练10发训练表1：在MS COCO基准上，RPN在每个图像的两个训练阶段中例如前景边界框特征和用于区分对象的基本信息。在第二阶段，也称为新的训练阶段，利用从第一阶段的知识学习，我们进一步微调这个模型的基础上新的类别。在测试阶段，我们的模型旨在检测属于新类别的对象。3.2. 空间级增强对于少镜头对象检测，我们观察到存在一般问题：在分类中使用的建议特征不可靠，如图1a所示，这是少数拍摄设置中较差分类器结果的主要原因。为了证明这一观点，我们在表1中统计了在FSOD的两个培训阶段中RPN生成的建议的数量。尽管在基础培训中产生了更多低质量的阳性样本提案-SEM的蚂蚁为SEM-c和SEM-r。第4.4节中的实验分析表明，这两个辅助头是不必要的，SEM优于这两个变体。在第4.5节中，我们分析了充分数据设置和少激发设置之间的SEM性能影响，以证明FSOD中的空间偏移更严重。3.3. 任务级增强在标准的R-CNN中，分类器和回归器使用相同的特征来分类和定位。然而，分类和回归服务于不同的目的。分类器试图区分不同的类别，而回归器则专注于确定对象的边界在训练过程中，它们遭受分类目标和回归目标之间的冲突，而RoI-Align生成的特征不能考虑这种冲突。我们创建了一个任务增强模块（TEM），将原始空间中的特征分解为每个任务的唯一空间，以解决上述问题。我们的主要目标是更有效地解决分类和回归任务，避免这两个不同任务之间的冲突。如等式1所示，我们采用通道式注意力机制来实现这一点。在10次投篮训练阶段，两组间差异不显著。然而，对于高质量的建议书，其IoU大于0.9与gt，有近五个-D（z，θ，θ）=zss=σ（W2（ReLU（W1（Pool（z）），θ）），θ）（一）两个阶段产生的建议数量相差一倍。结果表明，与基础训练阶段相比，10次训练阶段的高质量提案要少得多低质量的建议特征不可逆地损害检测头中的分类器的性能为了解决上述问题，我们利用R-CNN作为更强的RPN来提供更准确的候选边界框，并提出了空间增强模块（SEM）来改善最终的分类结果，如图2所示。在引入SEM模型之前，我们首先以类不可知的方式修改R-CNN的回归模块我们在MFE中的回归模块仅识别前景对象，并且不为每个类别生成边界框。虽然此设置会略微降低性能，但它可以帮助我们识别各种类别并更好地适应我们的空间模块。然后，为了为分类任务提供更强的RPN，我们依次连接回归和分类模块。分类模块在这样的框架中执行得更好除了我们的SEM，我们还讨论了SEM的变体一个简单的想法是，我们也可以从原来的建议中得到分类结果，作为额外的监管。类似地，另一个回归损失可以通过更新的边界框特征来计算。我们将这两个变量-如等式1所示，在前向传播期间，每个建议zRb×c×4×4的卷积特征通过最大池化被折叠成向量，从而丢失空间信息。然后将这些特征通过线性层W1变换到更小的特征空间Rb×c//16×1×1。然后，一个ReLU层和另一个线性层W2将特征的维数提升到Rb×c×1×1，并通过sigmoid函数σ计算注意力得分D（z）。θ和θ分别表示W1和W2结果，我们在图像高度和宽度方向上得到注意力分数s然后，我们输出一个新的表示的ROI特征相结合的通道明智的注意力和原产地的功能。表示逐元素乘法，σ表示sigmoid激活函数。是否有更好的转换层？我们探索了几种模块来实现我们的TEM，包括线性变换，空间方面的注意和通道方面的注意。实验结果表明，通道式的注意力大大优于其他设计此外，我们还尝试在不使用特定任务适配器的情况下使用通道式注意力，结果表明，特定任务适配器的思想是提高性能的主要因素。实验的细节在第4.4节中讨论。5390FFL方法/注射单次拍摄2-拍摄三发5次射击10杆30发[30]第三十话1.0*1.8*2.8*4.0*6.511.1免费WiFi [29]4.45.46.07.710.013.7MPSR[32]5.16.77.48.79.814.1FSDetView[33]4.56.67.210.712.514.7Meta Faster R-CNN[9]5.17.69.810.812.716.6CME[13]----15.116.9FCT[10]5.67.911.114.017.121.4DeFRCN[20]9.312.914.816.118.522.6DAnA-FasterRCNN----18.621.6MFE（我们）10.513.515.817.920.124.1表2：MS-COCO数据集上的少激发检测性能（mAP）。我们在多次运行中评估了1、2、3、5、10和30次射击的性能。粗体表示最佳结果。’-’ indicates no reported3.4. 规范化级别增强少镜头目标检测困难的根本原因是数据严重不足。当只观察到一个类的一个实例时，检测器无法获得有关特征的必要信息以区分相关类。为了减少过拟合问题，我们期望增强模型的正则化能力，并引导模型基于部分特征信息来识别类。为了实现这一点，我们设计了一个简单但有效的正则化特征增强模块，具有正则化一致性（RC）损失，如下所示：LRC=F（g1，g2）（2）其中g1和g2是相同特征的不同样本。是g1和g2是否一致的度量函数。我们使用dropout技术对g1和g2进行采样，并使用Kullback-Leibler（KL）散度来实现。在那里-因此，MFE的总损失可以概括为：LMFE=LSEM+LRPN+α[LRC1+LRC2]（3）SEM包括g1和g2的回归损失和两个分类损失。α是控制RC损失权重的超参数。通过添加这种正则化级别的增强，我们的模型从特征级别增加了数据，同时对不同的数据分布具有鲁棒性该方法可以很容易地应用于不同的模型结构，同时也可以考虑更复杂的采样方法。4. 实验在本节中，我们首先介绍更多的实现细节和广泛的实验结果。然后，我们给广告消融研究和可视化，以证明我们的工作的有效性。我们使用Faster R-CNN作为我们的检测模型，并选择在ImageNet[23]上预训练的标准ResNet-101 [11]作为骨干。我们基于 detectron 2 作为基线重新实现DeFRCN[20]。具体来说，我们将回归头修改为类不可知的方式。基本训练阶段和微调阶段均采用SGD优化器，最小批量为16，建议采样的批量为512。在基本训练和微调训练阶段，初始学习率分别为0.02和0.01RC损耗中的α为1。我们观察到，由于与PASCAL VOC相比有更多的类别，MS COCO上的模型需要更多的迭代来收敛，因此该模型在COCO中总共训练了110000次迭代，在PASCAL VOC中总共训练了20000次迭代。4.1. 实验基准可可小姐 MS COCO[15]是目标检测中具有挑战性的基准，特别是在少数镜头设置中。在前人的基础上，将这80个类别分为60个基本类别和20个小说类别。所有训练数据均来自MS COCO 2014训练数据集，并使用minival数据集的5K图像作为测试数据。从未见过的小说类中随机抽取小说实例的K次我们在COCO风格的mAP上评估我们的模型。PASCAL VOC. PASCAL VOC 07+12数据集[5]共20个类别。根据现有的工作[12，29]，5391✓✓✓17.920.124.1方法/注射1小说集12 3101小说集22 3101小说集32 310Meta R-CNN[34]19.925.535.051.510.419.429.645.414.318.227.548.1免费WiFi [29]39.836.144.756.023.526.934.139.130.834.842.849.8MPSR[32]41.742.551.461.824.429.339.247.835.641.842.349.7CME[13]41.547.550.460.927.230.241.446.834.339.645.151.5FSCE[25]44.243.851.463.427.329.543.550.237.241.947.558.5[35]第三十五话47.850.551.356.832.535.339.143.840.141.544.346.4DeFRCN[20]53.657.561.560.830.138.147.047.948.450.952.357.4MFE（我们）55.055.559.259.734.738.244.146.449.544.247.355.4表3：VOC数据集上的实验结果。我们使用AP50作为指标，并在3个不同的分割上进行评估方法/注射地图AP751231012310基线32.934.737.438.134.537.339.041.9MFE（我们）33.1（+0.2）35.5（+0.8）38.5（+1.1）41.0（+2.9）35.2（+0.7）38.7（+1.4）42.4（+3.4）44.3（+2.4）表4：Novel Set 1上VOC数据集的mAP和AP75SEM TEM REM5-shot 10-shot 30-shot方法/Shots10发30发15.718.522.6FsDetView[33]6.710.0✓16.819.222.4一次[19]13.7-✓17.319.222.8MPSR[32]15.317.1✓16.518.822.7[30]第三十话18.118.6✓ ✓17.519.824.1免费WiFi [29]27.929.7✓ ✓17.619.622.7保留型R-CNN[7]32.132.9✓ ✓17.519.323.1MFE（我们）31.632.9表5：关于MS COCO上MFE性能的消融研究。有三个随机分裂用于少激发目标检测，称为新分裂1、2和3。每个分裂包括15个基本类和5个新类。所有基本类别都来自PASCAL VOC 07+12训练集，我们报告了PASCAL VOC测试集上新类别的AP504.2. 比较结果可可小姐。表2显示了我们对挑战COCO基准的主要评估结果。我们的模型与传统的作品相比有一个鼓舞人心的改进。与之前的SOTA工作[20，2，10，13]相比，我们的MFE在所有设置中的性能都优于它们，在mAP方面分别为1.2%，0.6%，1.0%，1.8%，1.5%，1.5%。分别是1，2，3，5，10和30枪。据我们所知，我们是第一个实现10%的1杆设置。更重要的表6：COCO在10，30次拍摄设置下的总体分类结果。与我们的基线相比，在微调阶段实现收敛此外，MFE还具有在广义FSOD（G-FSOD）设置中检测的能力，我们将在第4.3节中讨论。PASCAL VOC. 我们在表3中列出了三种常见分裂的VOC评估结果。我们的模型得到了有竞争力的结果，并且在1次拍摄设置中，我们的模型在所有分割中排名最好，表明我们的模型更好地解决了较少拍摄设置的问题为了进一步说明MFE的有效性，我们在表4中的mAP和AP75指标下评估了基线和MFE的有效性在更严格的阳性样本测定下，MFE较基线显著增加。5392表7：关于我们的SEM和其他类似架构的比较结果。建筑/镜头10杆30发线性层18.122.1空间-Attn19.423.1客户-收件人（平均池）19.923.5客户-收件人（最大池）19.924.1具有共享权重的19.822.8表8：TEM和其他架构中的通道注意力的比较结果。4.3. 广义少镜头目标检测广义少镜头目标检测（GFSOD）不仅关注新类目标检测的性能，而且关注少镜头目标检测方法的整体分类性能在GFSOD中，每个基本类别的实例的k-shot也参与微调阶段。评价了少次学习模型的无遗忘增量学习能力.我们在表6中报告了COCO的总体分类结果。与SOTA相比的竞争结果表明，MFE可以在没有遗忘的情况下学习。4.4. 消融我们建议的MFE的组成部分。我们对表5中的MFE模块进行了消融研究与基线相比此外，我们的所有三个它们可以被认为是正交合作，因为它们在不同的维度上工作。这三个模块协同工作以获得最佳结果。其他类似架构与SEM的区别。如第3.2节所述，我们还设计了SEM的两个变体，分别称为SEM-r和SEM-c，以证明我们的SEM与类似架构相比是有效的。它们都在R-CNN中使用顺序回归和分类，但它们生成另一个回归和分类模块来帮助优化。如表7所示，SEM-r的表现与我们的SEM相差甚远，因为过度集中于回归不利于分类，这是最显著空间级增强任务级增强图3：每个空间和任务级别增强的可视化结果FSOD中的任务，正如我们之前提到的。SEM-c还降低了性能，因为原始提案中的特征不准确，这也是我们SEM模块的动机。TEM与其它类似体系结构的区别。我们使用通道方向注意力设计TEM，并且在实验期间，我们探索不同类型的转换层并在表8中比较它们之间总之，我们发现通道方向的注意力比空间方向的注意力和线性变换层的注意力要好得多。同时，我们还对通道式注意的不同形式的汇集进行了实验，如第3-4行所总结的。因此，最大池化是一个更好的选择如表8的最后一行所示，我们还报告了具有共享权重的TEM的性能，即，分类和回归模块使用来自注意力层的相同特征，这表明该特征没有被分离。研究结果表明，TEM的改进来自注意机制和特征解纠缠。此外，在1、2、3和5次射击中，它们之间的平均差异为0.6%。4.5. 分析和可视化有一个显着的性能差异之间的一般和少数镜头的目标检测，并根据我们的在-回归分类修改提案原产地提案方法/注射单次拍摄2-拍摄三发SEM-r6.49.711.9SEM-c8.610.312.4SEM9.612.815.75393图4：MFE挽救的不良病例的可视化结果。备份10秒备份5秒备份3秒备份2秒备份1秒备份4540353025201510建议显然已得到纠正。在任务级增强模块中，提案特征被转换成不同的特征图，分别适应分类和回归任务我们还在图4中提供了MFE和DeFRCN的定性结果在挑战10次MS COCO设置下，我们可视化了两种方法中置信度得分大于0.5在这些图像中，特别是在一些混淆类别中，可以观察到更好的分类性能，这表明我们从特征的角度考虑是有效的。50-一比零50三角洲系数0的情况。5 15. 结论在这项工作中，我们提出了一个新的架构，为少数-图5：在充分数据设置的情况下，少数拍摄设置之间的偏移的影响。研究表明，在少拍条件下，该模型对特征更为敏感如图5所示，delta表示回归偏移，我们改变delta的系数以观察检测器的性能用x表示delta的系数，x= 0表示原始建议特征，x= 1表示完全依赖于回归结果更新建议特征，并且x0表示在偏移的相反方向上虽然增量在基础训练阶段不会显著影响mAP结果，但在少数拍摄设置中会影响。这可以解释少炮探测器对空间位移更敏感只有很少的功能，所以空间抖动影响探测器明显。可视化我们在图3中可视化了MFE空间级增强后，基于特征的镜头目标检测。我们指出，在分类中使用的功能的质量是显着的FSOD，并涉及一种新的架构称为MFE，以改善它从三个正交的角度。通过R-CNN的顺序设计，部署两个特定于任务的适配器和正则化一致性模块，MFE分别在空间，任务和正则化水平上增强了分类器的性能在PASCAL VOC和MS COCO基准测试中，我们的模型取得了有竞争力的结果，特别是在MS COCO中，我们在每个设置中都取得了最好的性能。确认本文得到了国家自然科学基金项目（No.61976158）的、第 62163016 号，第 62006172 号，No.61976160，江西省 “ 双千计划 ” 、江西省自然科学基金（第62076182号）、江西省自然科学基金（第62076182号）、江西省自然科学基金（第62076182号）、江西省自然科学基金（第 62076182 号）等项目。20212ACB202001）。APMFEDeFRCN5394引用[1] Hao Chen，Yali Wang，Guoyou Wang，and Yu Qiao.Lstd：用于物体检测的低拍摄传输检测器。在AAAI人工智能会议上的会议，第32卷，2018年。[2] 陈东一，刘月成，苏宏庭，张玉成，林玉祥，叶嘉芳，陈文钦，徐文辉。双意识注意少数拍摄对象检测。arXiv预印本arXiv：2102.12152，2021。[3] Wei-Yu Chen，Yen-Cheng Liu，Zsolt Kira，Yu-ChiangFrank Wang，and Jia-Bin Huang.更仔细地观察少数镜头分类。arXiv预印本arXiv：1904.04232，2019。[4] Xiyang Dai ， Yinpeng Chen ， Bin Xiao ， DongdongChen，Mengchen Liu，Lu Yuan，and Lei Zhang.动压头：将物体探测头与注意力统一起来。在IEEE/CVF计算机视觉和模式识别会议论文集，第7373-7382页，2021年[5] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（ voc ）的挑战。 International Journal ofComputer Vision，88（2）：303[6] 范琦、卓伟、唐志强、戴玉荣。基于注意-rpn和多关系检测器的少镜头目标检测。在IEEE/CVF计算机视觉和模式识别会议论文集，第4013- 4022页[7] Zhibo Fan，Yuchen Ma，Zeming Li，and Jian Sun.通用化的少数镜头对象检测而不会忘记。在IEEE/CVF计算机视觉和模式识别会议上，第4527-4536页，2021年[8] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。国际机器学习会议，第1126-1135页。PMLR，2017年。[9] Guangxing Han，Shiyuan Huang，Jiawei Ma，YichengHe，and Shih-Fu Chang. Meta更快的r-cnn：走向精确的少数拍摄对象检测与细心的特征对齐。在AAAI人工智能会议论文集，第36卷，第780-789页[10] Guangxing Han ， Jiawei Ma ， Shiyuan Huang ， LongChen，and Shih-Fu Chang.具有完全交叉变换器的少镜头目标检测。在IEEE/CVF计算机视觉和模式识别会议论文集，第5321-5330页[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[12] 秉义康、庄柳、辛王、渔人余、嘉世丰、特雷弗·达雷尔。通过特征重加权的少镜头对象检测。在IEEE/CVF计算机视觉国际会议论文集，第8420-8429页[13] 李伯豪，杨伯宇，刘畅，刘凤，姬荣荣，叶启祥。超出最大余量：类边缘equi-liquidation为少数拍摄对象检测。在IEEE/CVF计算机视觉和模式识别会议论文集，第7363-7372页[14] Zhengguo Li，Fengwei Zhou，Fei Chen，and Hang Li.Meta- sgd：学习快速学习，进行少量学习。arXiv预印本arXiv：1707.09835，2017。[15] Tsung-Yi Lin，Michael Maire，Serge Belongie，JamesHays，Pietro Perona，Deva Ramanan，Piotr Dollár，andC Lawrence Zitnick.微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740-755页。Springer，2014.[16] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ， Scott Reed ， Cheng-Yang Fu ， andAlexander C Berg. Ssd：单发多盒探测器。在欧洲计算机视觉会议上，第21-37页。施普林格，2016年。[17] Z Liu，Y Lin，Y Cao，H Hu，Y Wei，Z Zhang，SLin，and B Guo. Swin Transformer：使用移动窗口的分层视觉变换器。 arxiv 2021. arXiv 预印本 arXiv ：2103.14030。[18] Sinno Jialin Pan 和 Qiang Yang 。迁移学习研究 IEEETransactions on knowledge and data engineering ， 22（10）：1345[19] Juan-Manuel Perez-Rua ， Xiatian Zhu ， Timothy MHospedales，and Tao Xiang. 增量式少数拍摄对象检测。在IEEE/CVF计算机视觉和模式识别会议论文集，第13846-13855页[20] Limeng Qiao ， Yuxuan Zhao ， Zhiyuan Li ， Xi Qiu ，Jianan Wu，and Chi Zhang.Defrcn：解耦更快的r-cnn，用于少数拍摄对象检测。在IEEE/CVF国际计算机视觉会议论文集，第8681[21] 约瑟夫·雷德蒙和阿里·法哈迪Yolo9000：更好，更快，更强。在IEEE计算机视觉和模式识别会议论文集，第7263-7271页[22] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn ：实现区域建议网络的实时对象检测。 IEEETransactionsonPatternAnalysisandMachineIntelligence，39（6）：1137[23] OlgaRussakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein ， et al. 图像网大规模视觉识别挑战。International Journal of Computer Vision，115（3）：211[24] Jake Snell，Kevin Swersky，and Richard S Zemel.用于少量学习的亲典型网络。 arXiv 预印本 arXiv ：1703.05175，2017。[25] 孙波、李邦怀、彩胜彩、叶远、赤章。Fsce：通过对比度预编码的少镜头对象检测。在IEEE/CVF计算机视觉和模式识别会议论文集，第7352- 7362页[26] Flood Sung，Yongxin Yang，Li Zhang，Tao Xiang，Philip HS Torr，and Timothy M Hospedales.学习比较：用于少数学习的关系网络。在IEEE计算机视觉和模式识别会议论文集，第1199-1208页[27] Yonglong Tian，Yue Wang，Dilip Krishnan，Joshua BTenen-baum，and Phillip Isola.重新思考少数拍摄图像分类：一个好的嵌入是所有你需要的？计算机53952020年愿景：第16届欧洲会议，格拉斯哥，英国，2020年8月23日至28日，会议记录，第XIV部分16页266-282. Springer，2020年。[28] 作者：George，Charles Blundell，Timothy Lillicrap，Daan Wierstra，et al.匹配网络进行一次性学习。神经信息处理系统的进展，29：3630[29] Xin Wang，Thomas E Huang，Trevor Darrell，Joseph EGonzalez，and Fisher Yu.令人沮丧的简单的少数拍摄对象检测。arXiv预印本arXiv：2003.06957，2020。[30] Yu-XiongWang ， DevaRamanan ， andMartialHebert.Meta-学习检测稀有物体。在IEEE/CVF计算机视觉国际会议论文集，第9925-9934页[31] Aming Wu，Yahong Han，Linchao Zhu，and Yi Yang.用于少数镜头对象检测的通用原型增强在IEEE/CVF计算机视觉国际会议论文集，第9567-9576页[32] Jiaxi Wu，Songtao Liu，Di Huang，and Yunhong Wang.用于少镜头目标检测的多尺度正样本细化。欧洲计算机视觉会议，第456-472页。Springer，2020年。[33] 杨晓和雷诺·马莱。野外目标的少镜头目标检测和视点估计欧洲计算机视觉会议，第192-210页Springer，2020年。[34] 严晓鹏，陈子良，徐安妮，王晓曦，梁晓丹，林亮.Meta r-cnn：面向实例级低拍摄学习的通用求解器。在IEEE/CVF计算机视觉国际会议论文集，第9577-9586页[35] Chenchen Zhu，Fangyi Chen，Uzair Ahmed，ZhiqiangShen，and Marios Savvides.镜头稳定的少镜头目标检测的语义关系推理。在IEEE/CVF计算机视觉和模式识别会议论文集，第8782-8791页

下载后可阅读完整内容，剩余1页未读，立即下载