基于异构图卷积网络的少镜头目标检测模型QA-FewDet

61 浏览量更新于2023-10-15 收藏 1.16MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3263基于异构图卷积网络的Guangxing Han，Yicheng He，Shiyuan Huang，Jiawei Ma，Shih-FuChang Columbia University{gh2561，yh3330，sh3813，jiawei. m，sc250} @ columbia.edu摘要少镜头对象检测（FSOD）旨在使用很少的示例来检测从未见过的对象。由于元学习技术，通过学习如何在查询图像和少镜头类示例之间进行匹配，使得学习的模型可以推广到少镜头新类，该领域最近得到了改进。然而，目前，大多数基于元学习的方法分别在查询图像区域（通常是建议）和新类别之间执行逐解析匹配，因此未能考虑到它们之间的多种关系。在本文中，我们提出了一种新的FSOD模型使用异构图卷积网络。通过在具有三种不同类型的边的所有建议和类节点之间的有效消息传递，我们可以获得上下文感知的建议特征和每个类的查询自适应的、多类增强的原型表示，这可以帮助促进成对匹配并提高最终FSOD准确性。广泛的实验结果表明，我们提出的模型，表示为QA-FewDet，优于目前最先进的方法，PASCAL VOC和MSCOCO FSOD基准在不同的镜头和评价指标。1. 介绍利用对象的丰富注释训练示例，深度神经网络被定制为提取共性并相应地检测对象实例然而，当仅存在几个可用的示例时，这样的方法倾向于过拟合。另一方面，在看到许多相似的物体后，人类可以在只看到几个例子的情况下识别出一个新的物体。受人类突出的泛化知识能力的启发虽然像Faster-RCNN这样的对象检测方法[31] 在数据丰富的基类上工作得非常好，它图1.概述我们提出的少镜头目标检测（FSOD）方法。(a)基于元学习的FSOD方法。这些方法旨在学习如何在查询图像中的区域（通常是建议）与少数镜头类示例之间进行匹配。请注意，关键模块匹配网络将重复应用于每个建议和类对。(b)建立在基于元学习的方法，我们的方法提出了一种新的异构GCN模块与三种不同类型的边缘，允许有效的消息传递之间的所有节点。(c)我们的模型中使用了三种类型的边。是不平凡的，以适应模型，以少数镜头新颖的类。这主要是因为R-CNN中使用的softmax分类器的任务是在前景类之间执行分类然而，当我们将模型适应新的类时，背景的概念发生了变化通常，有两种方法解决这个问题。一种方法[37，40]是使用长尾学习方法在不平衡数据集上进行训练，但这种模型的泛化能力仍然有限。另一种方法[3，29，39，14]是使用元学习方法来学习基类上的类不可知的少数镜头检测器，其可以很容易地适应新的类而无需额外的训练。结构简单，检测能力强3264准确性使得基于元学习的方法成为FSOD的有前途的选择这些元学习方法的关键是学习如何在查询图像中的区域（通常是RPN建议[31]）和少数镜头类示例之间进行匹配。这是通过使用二元分类器学习类不可知匹配网络两个输入是从图像[6]中提取的建议特征和原型表示[32] 一个少数拍摄类。然后，匹配网络将重复应用于每个建议和类对。然而，这种方法有三个潜在的限制首先，这种方法是一种“单类”检测器，没有建模多类关系。这一点很重要，特别是当有类似于新类的基类时，因为我们可以其次，由于类原型仅从少数镜头示例中提取，因此考虑到各种各样的对象及其不同的图像统计，在所提取的原型和建议特征之间可能存在巨大的第三，建议可能是嘈杂的，可能不包含完整的对象。目前的方法不考虑图像中的上下文信息进行匹配。为了解决这三个挑战，我们提出了一种新的基于GCN的FSOD模型，表示为QA-FewDet（query-A自适应少拍对象检测），它利用图传播来学习上下文感知的建议功能和查询自适应，多类增强类原型。如图1中，我们在提案和类节点之间构建了一个图，用于有效的类-类、类-提案和提案-提案通信。首先，通过类-类边连接不同的类（包括基类），我们的方法可以建模多类关系，并增强新的类原型与其他类似的类的原型。其次，类建议边提供类原型和建议特征之间的相互适应，从而减少了两个特征之间的分布差异。同时，它可以从属于该类别的提案中提供该类别的其他示例第三，提案边提供局部和全局上下文信息，以帮助分类和边界框定位。图构造的简单方法是将所有的命题和类包含在单个图中。然而，这样的图对于消息传递来说是存储器昂贵且低效的。为了更好地将这三种类型的边缘纳入我们的模型中，如图所示1，我们提出了一种新的异构图组成的查询不可知的类间子图，和多个类特定的类内子图为每个查询图像。这两个子图被顺序地处理，以在所有节点之间进行有效的消息传递。整个网络可以使用基于场景的训练对丰富的基本类数据进行端到端学习。到为了验证模型的有效性，我们在两个广泛使用的FSOD基准测试上进行了综合实验结果表明，我们的QA-FewDet超越了目前的SOTAs在不同的镜头和指标的巨大利润我们的贡献是1）据我们所知，我们是第一个提出一个图模型，认为类类，类的建议，并建议建议在少数拍摄对象检测的关系，2）我们提出了一种新的异构图结构，允许所有节点之间的有效消息传递，3）我们的模型取得了显着更好的结果比目前国家的最先进的方法对PASCAL VOC和MSCOCO FSOD基准测试跨各种设置。2. 相关作品物体检测。当前的基于DCNN的对象检测方法可以主要分为两类：基于提案的方法和无提案的方法。基于建议的方法[31，11，8，10]通过首先生成一组区域建议，然后对每个建议执行分类和边界框回归，将对象检测分为两个连续阶段。无建议方法[30，23，34，9]直接预测CNN特征顶部的边界框和相应的类标签。我们选择在我们的模型中使用最具代表性的基于提议的方法之一Faster R-CNN [31]，因为由于级联设计，它通常比无提议检测器具有更好的检测准确性，并且提高检测准确性仍然是FSOD的首要任务。少镜头学习和元学习。少镜头学习的目标是只使用很少的例子来识别新的类。元学习已经被证明是一种有前途的学习范式，通过将从数据丰富的基类学习到的元知识转移到数据稀缺的新类来完成少量学习任务。当前基于元学习的少次学习方法可以大致分为三类：基于优化的方法[4]、基于参数生成的方法[5]和基于度量学习的方法[36，32，33，25]。大多数的少镜头学习方法是为图像分类任务而开发的。少镜头对象检测。与少镜头图像分类不同，少镜头目标检测不仅需要以少镜头样本为参考识别具有任意外观、姿态和尺度的目标，而且需要定位图像中的（多个）目标并拒绝大量背景区域。现有工程主要可分为以下两类：（1）基于长尾学习的方法[37，40]。这些方法试图通过使用来自数据丰富的基础类和数据稀缺的新类两者的训练数据来学习对象检测为了处理不平衡的训练集，重新采样[37]和重新加权[21]是两个主要的策略[17]。然而，在联合数据集上训练的模型对于添加从未见过的少数镜头类是不灵活的。 (2)元学习方法3265||∈∈∩∈∪{}{|∈我 ∈我i i=1i联系我们[18、16]。元学习器[16，3，29，43]被引入通过特征重新加权来获取类级元知识，并帮助模型推广到新的类。基于Meta学习的方法[39，18，41，3，44，7，14，28]已被证明对于FSOD是成功的。此外，基于元学习的方法可以有效地用于在网络推理期间递增地添加新的少量类别我们的方法属于这一类。图卷积网络。首先由Kipf等人提出。[19]，图卷积网络（GCN）及其变体，如图注意力网络（GAT）[35]，已经在计算机视觉中得到了大量应用，包括在动作定位中建模视频建议关系[27，45]，视觉关系推理中的对象关系[26]，基于骨架的动作识别中的联合关系[42]，以及对象建议对象检测中的关系[1]。 Liu等人[24]将GNN注入到更快的R-CNN框架中，以在R-CNN分类器之前将区域建议的特征这改善了结果，但它仅显示传统多次拍摄设置下的结果一些方法[38]在表示概念本体的图上使用GNN，这可以通过考虑它们与常见概念的关系来实现对看不见的概念的与以往的工作不同，我们提出了一种新的异构GCN在本文中，考虑各种内部和之间的建议和FSOD类的关系。3. 任务制定在少镜头目标检测（FSOD）中，我们将目标类C分成C base和C novel，使得C=C base C novel和Cbase C novel=。对于每个类cC，其标注T c包含对象实例的标签和图像内的绑定框。形式上，T c=（c，u，I）u U，IRHI*WI*3和U R4=（x i，y i，w i，h i）表示图像中的边界框。对于每个类c C基，我们都有大量带注释的实例。对于每个C类C小说，我们只有有限的K个例子，也称为支持图像，（例如， Tc=K，其中K=1、5、10）。FSOD旨在检测具有少量注释对象实例的新类对象实例。从形式上讲，给定查询图像I q∈ RHq *Wq * 3，FSOD输出一组检测Sq={（c，u）|c ∈ C novel，u ∈ U}.4. 基线FSOD模型如图 2，我们主要遵循Fan et al. ’s 在一个分支中，查询图像Iq被馈送到特征提取网络中以提取其用于检测头的特征r（Iq）（res4类似地，另一分支在给定输入支持图像Is的情况下提取特征r（Is）。然后使用Attention-RPN [3]来产生N图2.基线FSOD模型[3]。（在[3]之后默认N = 100）针对新颖类cC新颖的类特定提议P c=p cN，p c U。之后，我们使用res5块和RoIpooling [6]从查询图像特征r（Iq）中提取用于提案pc的特征f（p c）RH×W×C（H=W=7，C=2048）。我们将相同的层应用于r（Is），并将属于新类c的所有支持图像的平均特征作为类原型f（c）。之后，使用多关系网络[3]来计算建议特征和类原型之间的相似性得分，然后按照[31]生成类c的最终检测结果。上述过程将独立地应用于每个小说类。我们使用[3]作为基线模型的原因如下。首先，整个框架简单而优雅，并且是原始Faster R-CNN到少数镜头设置的自然扩展。其次，如第6.3节所示，它在主要的FSOD基准测试中达到了SOTA精度。虽然[3]已被证明是一个有前途的FSOD模型，但如第1节所讨论的，存在三个潜在的限制，主要原因是每个提案和类对的单独分类。为了解决这个问题，我们在下面的章节中提出了一种新的具有异质GCN的FSOD模型。5. 我们的异构GCN我们提出的异构GCN的最终目标是使有效的消息传递之间的所有建议和类成对分类之前。为此，我们首先生成类特定的建议，并提取建议功能和类原型的基线模型。然后，我们建立一个新的异构图使用生成的建议和类节点，并使用GCN层更新功能，我们的图中的每个节点在一个顺序的方式。之后，我们使用更新的特征进行最终的成对分类。5.1. 我们的异构图我们的目标是构建一个图，以捕获各种类型的关系内和建议和类之间构造图的一种方式是将所有建议和类包括在单个图中。然而，这样的构造是内存昂贵的，因为建议的数量随着类的数量而显著增加，并且跨类之间的边缘3266联系我们在线留言--联系我们||}我相似性以1来f（ci）Tf（cj）e（ci，cj）=f（ci）（一）然后，我们对每个类ci应用softmax来归一化其成对相关性ijexp（e（ci，cj））（二）Ainter=Σ、exp（e（c，c））k∈Ci k5.3.类内子图图3.我们提出的异构图。建议招致冗余和噪声信息。考虑到在我们的模型中生成的类特定的提议，我们构建了由两种类型的节点、三种类型的边和两种类型的子图组成的异构图G，如图1所示。3.第三章。具体地，我们构建图G=（V，E），其中V和E分别表示节点集和边集。V中的两种类型的节点是提议节点V p=c∈CnovelPc，即针对每个新颖类的类特定提议，以及包括所有新颖类和基类的类节点V c=C。E有三个组成部分：类-类边E c−c、提议-提议边E p−p和类-提议边E c−p。我们的异构图G具有两种类型的子图：在所有查询图像之间共享的查询不可知的类间子图G和多个类内子图对于每个查询图像，Gintra={Gc，c∈Cnovel}，其中考虑到在我们的模型中生成的类特定的建议每个子图由一个类节点和相应的类特定的建议。形式上，对于每个新的类c，我们构造Gc=（Vc，Ec），其中Vc=Pc，且Pc=PcG. 在这里，g表示包含整个图像I，并且我们通过从整个图像特征执行RoI池化来获得其特征f（g）。Ac是Gc的邻接矩阵，具有Ec的边权。为了对类内子图内的不同类型的关系进行建模，我们将Ec分成两个分量：提案边缘。背景信息已经被证明对于传统的多次拍摄对象检测是至关重要的[45，15，24]。在本文中，我们将这一思想应用到少数镜头设置，以获得上下文感知的 pro-proposal 功能。具体来说，如果 IoU（pi，pj）>θ，则我们在提议p i 2和提议p j之间建立边，其中θ是确定有意义重叠（θ=0。[45]后的默认值为7），IoU被定义为IoU（p，p）=∩（pi，pj），p，p∈P（3）I j表示新类c的∪（pi，pj）ijc5.2. 类间子图受以前的作品[13，5]的启发，对多类关系进行建模可以帮助增强少数类的原型表示并执行鲁棒分类。在本文中，我们首先建立一个类间子图之间的所有类。给定所有类的集合C = c1，c2… C|C|，我们构造G_inter=（V_inter，E_inter），其中V_inter=C并且E_inter=C。（ci，cj）：1i、jC. 帧间是具有针对E帧间的边权重的G帧间的邻接矩阵。G inter是一个只有类节点的图，并考虑所有基类和新类之间的关系，以增强新类原型。阶级的边缘。为了有效地聚合来自其他类的有价值的信息，我们计算每个类对之间的类相关性。关键的思想是，如果两个类相似，那么使用另一个类的原型来更新一个类的原型是有意义的因此，两者之间的边权重应当相应地增加。对于一个类对（ci，cj），我们使用cosi ne同时，我们还通过将上述全局图像节点g连接到每个提议来提供图像级上下文信息通过利用附近提议和全局场景上下文构建边缘，提议-提议边缘利用局部和全局上下文信息两者来丰富原始提议特征，从而导致更好的分类准确性和更精确的边界框位置。如等式（1）中计算并归一化A。中的提议-提议边的权重1和等式二、班级提案边缘。传统方法[3，41，43]通常使用K-shot支持图像来提取新类的原型。然而，所提取的原型类型不能使用非常少的示例很好地表示新颖类。此外，使用仅在特征集上训练的特征主干来提取鲁棒的新类原型是具有挑战性的。1和第4节一样，我们使用f（c）来表示类c的原型。同样的规则也适用于提案功能。2在本节的其余部分，我们使用新的类c作为示例，为了简单起见，删除了p c中的类标签c。3267联系我们|}C~。Σf（p）=A·f（c）+iCCC~。Σ∈∈~Σf（c）=Ai~基本类为了校准提案特征和类原型之间的不同统计分布，我们引入了类提案边以进行动态相互适应。此外，如果查询图像包含新颖类的实例，则类特定建议应覆盖这些区域，并且因此贡献来自查询图像的额外镜头。这可以帮助提取准确的小说类在类内子图中，对于新类c的每个提议p i，令Ppi=gPJ表示其重叠提议的集合和全局“提议”。我们使用GCN层聚合来自增强类原型的pi更适合查询图像的原型。在实践中，我们在类节点c和所有类特定提议节点Pc之间建立双向边。我们中国共产党p∈PpiAppi·f（p）ΣW+f（pi），（6）在6.2节中表明，相互自适应比只有一个方向自适应更好。此外，由于我们只想将相关的建议连接到类节点，Cpi是Gc中类c和p i的边权.ppi的定义类似。我们通过以下方法更新类c我们计算余弦相似度，如等式（1）中所示。1来估计类建议对之间的相关性并滤除噪声关系。然后，对于类节点c，我们将f（c）=f（c）+pk∈PcApkc·f（pi）ΣW+f（c），（7）所有传入的类建议边的权重类似于等式二、对于建议节点，我们使用原始余弦相似性作为传入类建议边的权重5.4. 我们的异构GCN在构建了我们的异构图之后，我们首先在查询不可知的类间子图上执行消息传递，以便在处理任何查询图像之前增强新类原型。与增强的新颖类的原型，然后，我们建立多个类内子图为每个查询图像，并应用消息传递，以促进建议和类节点之间的通信。对于每个图，我们依次执行L层GCN（L = 1，如6.2节所示），它接收特征 X0 并输出相同大小（R7×7×2048）的特征X L。在实践中，我们通过以下方式实现第l个GCN层（1≤l≤L）：Xl=AXl−1Wl（4）在这个等式中，XlRH*W*dl是第l个GCN层的输出特征。A_inter和A_c是类间子图和类c的类内子图的相应邻接矩阵。WlRdl−1*dl是可学习的参数矩阵。每一层之后是残余块。请注意，为了保持类节点和提议节点之间的一致特征空间，我们将相同数量的可学习转换层应用于它们作为连体网络。因此，我们不在类间子图中的任何GCN层中使用Wl。关于这一点的详细讨论可以在第6.2节中找到。对于每一个类ci，每一层的效果相当于其他类原型的加权和乘以3在获得更新的建议特征和类原型之后，我们将它们馈送到成对匹配网络[3]中进行最终分类。5.5. 培训框架为了将知识从基础类转移到新类，我们采用了两阶段的训练策略。基础类的元学习。与一个预先训练的特征提取器，我们执行基于episode的基础类的训练为了模拟少数镜头场景，每个片段由一个注释的查询图像和每个基类的K个随机采样镜头组成整个模型的监督下的二进制交叉熵损失的分类和边界框回归的平滑L1 在Meta-测试，我们可以通过简单地计算它们的原型表示。使用新类进行微调（可选）。我们可以根据先前的工作[3，41，43，37]进一步微调新类别上的类别不可知的少数镜头检测器。微调和仅元学习之间的区别在于，在微调期间，我们使用从原始新颖类图像生成的正面和负面建议来训练我们的少拍检测器，而在仅元学习中，不存在对新颖类的训练。我们在6.2节中研究了我们的模型的性能，无论是有微调还是没有微调。6. 实验结果6.1. 数据集我们使用两个广泛使用的少量目标检测基准MSCOCO 2014 [22]和PASCAL VOC 2007和2012 [2]进行模型评估，并遵循相同的FSOD纪除其他j∈C3·f（c，j）+f（c，i）（5）设置为以前的作品[16，37]公平比较。MSCOCO。我们将20个PASCAL VOC类别设置为新颖类，其余60个类别设置为基类。为了简单起见，我们使用f（ci）和f（ci）来表示输入和第l层GCN的输出类似的策略适用于Eq。6和Eq。7 .第一次会议。我们使用与[16]相同的少量支持图像我们报告检测精度与AP，AP50，和AP75下拍摄32681、2、3、5、10和30。请注意，在MSCOCO数据集中，30次激发被视为少激发，因为准确度仍然大大落后于多次激发设置[16]。我们使用MSCOCO数据集进行第6.2节中的消融研究。PASCAL VOC，20个PASCAL VOC类别分为15个基本类和5个新类。我们遵循[16]并使用相同的基础/小说分割和支持图像。我们报告了第1次、第2次、第3次、第5次和第10次注射的AP50结果。更多实施细节包含在补充文件中。6.2. 消融研究图卷积层如何帮助FSOD？如表1和图4所示，我们分析了模型中每个组件的影响。我们首先验证GCN层的有效性。为此，我们用全连接层（MLP）替换GCN层。具体地，如果我们仅考虑一层GCN，则等式4变为Y=AXW，其中A是邻接矩阵，W是可学习参数。注意，除了我们移除邻接矩阵A之外，MLP基线与GCN共享相同的结构。换句话说，MLP可以被公式化为Y=XW。与GCN层相比，MLP基线仅使用图中的自连接边，因此，每个节点独立地更新其特征。将表1（b）中的MLP基线与表1（a）中的普通基线模型和表1（g）中的我们的异质GCN进行比较，我们可以得出结论，附加的可学习模块是有用的，并且图中不同节点之间的消息传递对于最终性能是至关重要三种类型的边对FSOD有何帮助？然后，我们分析了三种类型的边缘在我们的heterogeneous图的作用。首先，我们实验仅使用一种类型的边缘，如表1（c-e）所示。我们注意到，所有三种类型的边缘都可以改善表1（b）中的基线模型的这证明了多类建模，类提案相互适应，并在我们的模型中学习上下文感知的建议功能的有效性。在所有三种类型的边缘中，我们观察到类建议边缘是最重要的。这是因为FSOD的目标是计算建议特征和类原型之间的相似性得分，从而优选双方彼此适应通过进一步添加提议-提议边，我们获得了完整的类内子图，如表1（f）所示，由于上下文感知提议特征，这进一步提高了性能。最后，我们的完整模型，如表1（g）所示，在引入类间子图后达到了元学习和微调的有效性。我们在表1（g）和（h）中示出了仅元训练和微调之间的比较结果。我们发现，微调提高了10/30拍摄设置的性能然而，当例子极其稀少时，例如，对于如表1中的2-shot，性能几乎没有改善，因为微调倾向于与小样本过拟合。这证明了我们的基于元学习的模型具有很强的泛化能力，并且微调需要大量的样本才能表现良好。本地和全局上下文在提案-提案边缘中的作用。我们在表2中显示了使用局部和全局背景的消融研究。我们发现，本地和全球的上下文信息有助于模型的性能。局部上下文可以提供缺失的特征并帮助细化边界框，特别是在建议不准确时。另一方面，全局场景上下文可以提供来自全局视图的补充信息。同时使用这两种上下文会产生最佳结果。双向类建议边缘的功效。我们在表3中示出了使用双向类建议边缘相对于仅使用单向边缘的结果。我们观察到，具有相互适应的模型比具有两种类型的单向边缘中的任何一种都获得了更好的结果[14]中的类建议边缘和非局部注意之间的比较我们比较我们提出的方法与Hsieh等人。’s Hsieh等[14]提出在查询图像和支持图像之间使用非局部注意力（也称为共同注意力）以用于特征增强。为了将其性能与我们的类建议边缘进行比较，我们使用[14]的官方代码库，并在我们的FSOD管道中进行训练/测试。我们的模型优于Hsieh等人。’s method [主要区别在于[14]中，特征图中的每个相比之下，特定类别的建议被用作我们模型中的基本节点与[ 14 ]中使用的特征图中的“像素”相比在类间子图中使用基类内存的优点。我们在表6中显示了在我们的类间子图中使用不同数量的基类的结果。如果我们只使用新的类，该模型从多类建模中获得的优势很小。然而，当引入所有基类原型时，类间子图看到了巨大的改进在实践中，我们默认在我们的Inter-Class Subgraph中部署了所有60个基类对类间子图和类内子图中不同GCN层数的分析。我们在表4和5中示出了在两个子图中应用不同数量的GCN层的结果（1）我们首先强调建议和类节点在之前应该在一个连体网络中经过相同数量的转换层3269表1.在我们的模型中对每个组件进行消融研究班班班级提案提案-提案2-拍摄10杆30发APAP50AP75APAP50AP75APAP50AP75在基类上对模型进行元训练，在新类（一）不含异构GCN5.411.64.67.615.46.88.917.88.0（b）第（1）款使用MLP而不是GCN层（仅自连接边）5.912.55.18.417.07.69.820.38.8（c）第（1）款C6.313.35.59.017.78.110.620.99.6（d）其他事项C7.616.06.59.819.78.811.222.810.1（e）C6.714.05.89.318.58.310.821.59.7（f）第（1）款CC7.616.26.510.020.18.911.323.110.1（g）CCC7.816.46.610.220.49.011.523.410.3在新类上微调模型，并在新类（h）CCC7.616.16.211.623.99.816.531.915.5表2.提案-提案边缘的消融研究当地全球AP2-拍摄AP50AP75AP10杆AP50AP75C6.613.85.79.017.98.1C6.413.25.79.117.98.26.714.05.89.318.58.3CC表3.在班级提案边缘的消融研究模型AP2次AP50AP75AP10次AP50AP75类→提案class←proposalclassproposal6.47.27.613.215.716.05.95.76.58.69.49.817.119.119.77.98.68.8非本地注意力[14]6.012.85.38.317.37.4表4.类间子图GCN层数的烧蚀研究。#GCN层AP2-拍摄AP50AP75AP10杆AP50AP751 W/W5.010.44.37.214.26.51 w/o W6.313.35.59.017.78.12 w/o W6.113.05.38.817.68.03 w/o W5.812.24.98.617.37.8表5.类内子图GCN层数的消融研究。#GCN层AP2次AP50AP75AP10次AP50AP751 w/o W7.215.66.09.419.38.41 W/W7.616.26.510.020.18.92 w/W7.415.96.39.819.78.83 W/W6.914.55.59.218.68.1最后的成对匹配。如果我们学习类间子图的W，则少数类将比提议多一个可学习层，并且我们在表4中示出了性能更差。但是对于类内子图，GCN层既适用于提议，也适用于少数镜头3270表6.类间子图中基类记忆的消融研究。#基类AP2次AP50AP75AP10次AP50AP7506.012.85.18.517.07.7206.113.15.28.617.37.7406.313.45.48.917.58.0606.313.35.59.017.78.1图4.表1中模型在10次运行中的平均准确度和标准偏差结果。班如表5所示，学习W不会违反连体结构，并且可以帮助提高性能。（2）如表4和表5所示，在两个子图中使用一个GCN层是足够的，因为我们已经将边连接到我们的模型中节点需要的所有邻居。由于GCN中的过平滑问题[20]，使用更多的GCN层没有帮助6.3. 与现有技术的如表7和表8所示，我们将我们的QA-FewDet与PASCAL VOC和MSCOCO FSOD基准上的STOA进行了比较。我们得出以下三个结论。（1）我们的最终模型显著优于以前的STOA超过4。在PASCALVOC的大多数镜头和指标中，AP50为0%我们在MSCOCO上实现了类似的改进（2）微调在极端的少数拍摄设置中没有太大帮助，因为它倾向于用非常少的样本过度拟合（例如，PASCAL VOC中的1次注射3271表7.PASCAL VOC数据集上的少量目标检测性能（AP50）†我们按照[16，37]中的标准程序重新评估方法我们的方法，只有元学习可以实现竞争力的结果相比，其他方法的极端少杆设置。经过微调，我们的模型在几乎所有设置中始终优于其他最先进的方法。方法/镜头会场骨干1小说集1二三五101小说集2二三五101小说集3二三五10在基类上对模型进行元训练，在新类上进行元测试Fan等人[3]†CVPR 2020ResNet-10132.4 22.1 23.1 31.7 35.714.8 18.1 24.4 18.6 19.525.8 20.9 23.9 27.8 29.0QA-FewDet（我们的）这项工作ResNet-10141.0 33.2 35.3 47.5 52.023.5 29.4 37.9 35.9 37.133.2 29.4 37.6 39.8 41.5在新类上微调模型，并在新类上进行测试FSRW [16]ICCV 2019YOLOv214.8 15.5 26.7 33.9 47.215.7 15.3 22.7 30.1 40.521.3 25.6 28.4 42.8 45.9MetaDet [39]ICCV 2019VGG1618.9 20.6 30.2 36.8 49.621.8 23.1 27.8 31.7 43.020.6 23.9 29.4 43.9 44.1Meta R-CNN [43]ICCV 2019ResNet-10119.9 25.5 35.0 45.7 51.510.4 19.4 29.6 34.8 45.414.3 18.2 27.5 41.2 48.1TFA w/ fc [37]ICML 2020ResNet-10136.8 29.1 43.6 55.7 57.018.2 29.0 33.4 35.5 39.027.7 33.6 42.5 48.7 50.2TFA w/ cos [37]ICML 2020ResNet-10139.8 36.1 44.7 55.7 56.023.5 26.9 34.1 35.1 39.130.8 34.8 42.8 49.5 49.8Xiao等[41个]ECCV 2020年版ResNet-10124.2 35.3 42.2 49.1 57.421.6 24.6 31.9 37.0 45.721.2 30.0 37.2 43.8 49.6MPSR [40]ECCV 2020年版ResNet-10141.7 42.5 51.4 55.2 61.824.4 29.3 39.2 39.9 47.835.6 41.8 42.3 48.0 49.7Fan等人[3]†CVPR 2020ResNet-10137.8 43.6 51.6 56.5 58.622.5 30.6 40.7 43.1 47.631.0 37.9 43.7 51.3 49.8QA-FewDet（我们的）这项工作ResNet-10142.4 51.9 55.7 62.6 63.425.9 37.8 46.6 48.9 51.135.2 42.9 47.8 54.8 53.5表 8. COCO 新类的少镜头检测性能。† 我们按照 [16 ， 37] 中的标准程序重新评估方法。 [3] 作者在https://github.com/YoungXIAO13/FewShotDetection上展示了这些结果。我们的方法在大多数镜头和指标中始终优于最先进的方法。方法AP单次拍摄AP50AP75AP2-拍摄AP50AP75AP三发AP50AP75AP5次射击AP50AP75AP10杆AP50AP75AP30发AP50AP75在基类上对模型进行元训练，在新类上进行元测试Fan等人[3]†4.08.53.55.411.64.65.912.55.06.914.36.07.615.46.88.917.88.0QA-FewDet（我们的）5.110.54.57.816.46.68.617.77.59.519.38.510.220.49.011.523.410.3在新类上微调模型，并在新类上进行测试FSRW[16]------------5.612.34.69.119.07.6MetaDet[39]------------7.114.66.111.321.78.1Meta R-CNN [43]------------8.719.16.612.425.310.8TFA w/ fc [37]2.95.72.84.38.54.16.712.66.68.416.08.410.019.29.213.424.713.2TFA w/ cos [37]3.45.83.84.68.34.86.612.16.58.315.38.010.019.19.313.724.913.4Xiao等[41]‡3.28.91.44.913.32.36.718.62.98.120.14.410.725.66.515.931.715.1[40]†2.34.12.33.56.33.45.29.55.16.712.66.49.817.99.714.125.414.2Fan等人[3]†4.29.13.05.614.03.96.615.94.98.018.56.39.620.77.713.528.511.7QA-FewDet（我们的）4.910.34.47.616.16.28.418.07.39.720.38.611.623.99.816.531.915.5和1/2/3-MSCOCO中的镜头），但是可以在较大的拍摄设置中有所帮助。（3）与强基线模型[3]相比，我们的仅元学习模型显著改善，并且优于或至少达到与其他SOTA相当的结果，这些SOTA在PASCAL VOC中使用1/2-shot和MSCOCO中的1/2/3/5/10-shot进行微调7. 结论在本文中，我们介绍了一种新的异构GCN，考虑FSOD的建议和类节点之间的多个关系。类间子图通过对多类关系建模来增强类内子图提供查询自适应类原型和上下文感知建议功能，以促进成对匹配。我们的实验表明3272模型，QA-FewDet，只有元学习，可以超越或实现竞争的结果，特别是在极端的少数镜头设置。微调后，我们的模型优于当前的SOTAs在各种设置的大幅度鸣谢：本研究基于情报高级研究项目活动（ IARPA ）通过内政部 / 内政部商业中心（DOI/IBC）合同号D17 PC 00345支持的工作。的美国政府被授权复制和分发再版用于政府目的，而不受任何版权注释。免责声明：本文所载的观点和结论是作者的观点和结论，不应被解释为必然代表IARPA，DOI/IBC或美国政府的官方政策或认可，无论是明示或暗示政府的3273引用[1] Jintai Chen，Biwen Lei，Qingyu Song，Haochao Ying，Danny Z Chen，and Jian Wu.点云上三维目标检测的层次图网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第392-401页，2020年。三个[2] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（ voc ）的挑战。 International Journal ofComputer Vision，88（2）：303-338，2010。五个[3] 范琦、卓伟、唐志强、戴玉荣。基于注意-rpn和多关系检测器的少镜头目标检测。在IEEE/CVF计算机视觉和模式识别集，第4013一二三四五八[4] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。在国际机器学习会议上，第1126-1135页，2017年。二个[5] 斯派罗·吉达里斯和尼科斯·科莫达基斯动态少镜头视觉学习而不忘。在IEEE计算机视觉和模式识别会议论文集，第4367-4375页二、四[6] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision，第1440-1448页，2015中。二、三[7] Guangxing Han，Shiyuan Huang，Jiawei Ma，YichengHe，and Shih-Fu Chang. Meta Faster R-CNN：走向精确的少数拍摄对象检测与细心的特征对齐。arXiv预印本arXiv：2104.07719，2021。三个[8] 韩广兴，张璇，李重荣。重温更快的r-cnn：深入了解区域提案网络。在ICONIP，第14-24页，2017年。二个[9] 韩广兴，张璇，李重荣。自上而下细化的单在ICIP，第3360-3364页，2017年。二个[10] 韩广兴，张璇，李重荣。半监督dff：视频对象检测器的解耦检测和特征流。第26届ACM国际多媒体会议论文集，第1811-1819页，2018年。二个[11] 何开明、吉欧吉亚·吉欧萨里、彼

下载后可阅读完整内容，剩余1页未读，立即下载