基于特征重加权的少拍对象检测模型

16 浏览量更新于2023-10-12 收藏 1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基类基于特征重加权的康秉义1*，刘庄2刘鑫，王欣2，余菲2，冯佳石1，特雷弗·达雷尔21新加坡国立大学2加州大学伯克利分校摘要基于深度CNN的对象检测器的常规训练需要大量的边界框注释，这可能不适用于罕见的类别。在这项工作中，我们开发了一个少数拍摄对象检测器，可以学习检测新的对象，只有几个注释的例子。我们提出的模型利用完全标记的基类，并快速适应新的类，使用Meta特征学习器和一个一级检测架构内的重加权模块特征学习器提取Meta特征，这些元特征是可概括的，以检测新的对象类，使用来自具有足够样本的基类的训练数据。重新加权模块将来自新类的一些支持这两个模块与检测预测模块一起，基于情节少拍学习方案和精心设计的损失函数进行端到端训练。通过大量的实验，我们证明了我们的模型在多个数据集和设置上，对于少拍对象检测，我们的模型的性能远远优于既定的基线。我们还提出了我们提出的模型的各个方面的分析，旨在提供一些启示，为未来的少镜头检测工作。1. 介绍深度卷积神经网络（CNN）最近在对象检测中的成功[32，15，30，31]在很大程度上依赖于具有准确边界框注释的大量训练数据。当标记的数据稀缺时，CNN可能会严重过拟合并且无法泛化。相比之下，人类在这些任务中表现出很强的表现：儿童可以从很少的给定例子中学会快速地检测新物体。计算机视觉系统也需要这种从很少的例子中学习检测的能力加州消防车，濒危动物或某些医疗数据[33]。*同等贡献。Tr@in图1：我们的目标是通过在具有足够示例的基类上进行训练来获得少量检测模型，这样模型就可以从一些注释示例中学习，以检测测试图像上的新对象。在这项工作中，我们的目标在具有挑战性的少数拍摄对象检测问题，如图所示。1.一、具体来说，给定一些具有足够示例的基类和一些仅具有少量样本的新类，我们的目标是获得一个可以在测试时检测基础和新对象获得这样的少数镜头检测模型将对许多应用有用。然而，有效的方法仍然缺乏。最近，Meta学习[39，35，12]为类似问题提供了有希望的解决方案，即，少炮分类然而，对象检测本质上要困难得多，因为它不仅涉及类别预测，而且涉及对象的定位，因此现成的少镜头分类方法不能直接应用于少镜头检测问题。以匹配网络[39]和原型网络[35]为例，目前还不清楚如何构建用于匹配和定位的对象原型，因为图像中可能存在不相关类别的分散注意力的对象或根本没有目标对象。我们提出了一种新的检测模型，它通过充分利用来自一些基本类的检测训练数据并根据一些支持示例快速调整检测预测网络来预测新的类，从而提供该模型首先学习Meta特征的基类，是概括到不同的对象类的检测。然后，它有效地利用了一些支持的例子来识别Meta8420新颖类少射探测器狗自行车Depl○y8421这些特征对于检测新类是重要的和有区别的，并且相应地适应于将检测知识从基类转移到新类。因此，我们提出的模型引入了一个新的检测框架，包含两个模块，即，Meta特征学习器和轻量特征重新加权模块。给定一个查询图像和一些支持图像的新类，特征学习器提取Meta特征的查询图像。重新加权模块学习捕获支持图像的全局特征，并将它们嵌入到重新加权系数中以调制查询图像Meta特征。因此，查询Meta特征有效地接收支持信息并且适于适合于新颖对象检测。然后，适应的Meta特征被馈送到检测预测模块中，以预测查询中的新对象的类和边界框（图1B）。2）的情况。特别地，如果存在N个新类要检测，则重新加权模块将接收N个类的支持示例并将它们变换成N个重新加权向量，每个重新加权向量负责从相应的类中检测新对象通过这种类特定的重加权向量，新类的一些重要的和有区别的Meta特征将被识别并对检测决策做出更多贡献，并且整个检测框架可以学习有效地检测新类。Meta特征学习器和重加权模块与检测预测模块一起端到端地训练。为了确保少镜头泛化能力，使用两阶段学习方案来训练整个少镜头检测模型：首先从基类中学习Meta特征和良好的重加权模块;然后微调检测模型以适应新的类别。为了处理检测学习中的困难（例如，分散注意力的物体的存在），它引入了精心设计的损失函数。我们提出的少拍检测器在多个数据集和各种设置上优于竞争基线方法。此外，它还展示了从一个数据集到另一个不同数据集的良好可迁移性。我们的贡献可归纳如下：• 我们是最早研究少镜头目标检测问题的人之一，这具有很大的实用价值，但在少镜头学习文献中，这是一个比图像分类探索较少的任务• 我们设计了一个新的少镜头检测模型，1）学习可推广的Meta特征;以及2）通过从少数支持样本产生类特定激活系数来自动地重新加权用于新类检测的特征。• 我们的实验表明，我们的模型优于基线方法的大幅度，特别是当标签的数量非常低。我们的模型适应新的类显着更快。2. 相关工作一般对象检测。基于深度CNN的对象检测器可以分为两类：基于提案和无提案。 RCNN系列[15，14，32]探测器属于第一类。RCNN [15]使用预先训练的CNN对选择性搜索生成的区域建议进行分类[38]。SPP-Net[17]和Fast-RCNN [14]通过RoI池化层改进RCNN，以直接从卷积特征映射中提取区域特征。Faster-RCNN [32]引入了区域建议网络（RPN）来提高生成建议的效率。相比之下，YOLO [29]提供了一个无提案框架，它使用单个卷积网络直接执行类和边界框预测。SSD[22]通过使用默认框（锚点）来调整各种对象形状来改进 YOLOYOLOv2 [30] 通过一系列技术改进了YOLO，例如，多尺度训练，新的网络架构（DarkNet-19）。与基于建议的方法相比，无建议方法不需要每个区域的分类器，因此在概念上更简单，速度也更快。我们的少拍探测器基于YOLOv2架构构建。很少有机会学习。少样本学习是指每个类只从几个训练样本中学习。Li等[20]使用贝叶斯推理从预先训练的模型中概括知识，以执行一次性学习。Lake等人[19]提出了一个分层贝叶斯一次性学习系统，利用组合性和因果关系。Luo等人[23]考虑适应新领域中的新类别的问题。Douze等人[9]假设大量未标记的图像，并在半监督设置中采用标签传播。一种越来越流行的少镜头学习解决方案是元学习，它可以进一步分为三类：a）基于度量学习的[18，37，39，35]。特别是，匹配网络[39]学习在一小群标记图像中找到目标图像最相似的类的任务原型网络[35]通过为每个类生成线性分类器而不是加权最近邻居来扩展匹配网络。关系网络[37]学习一个距离度量，将目标图像与一些标记图像进行比较。b）快速自适应优化。Ravi和Larochelle [28]提出了一种LSTM Meta学习器，该学习器经过训练，可以在新的少量任务中快速收敛学习器分类器。模型不可知元学习（MAML）[12]优化了任务不可知网络，因此对其参数的一些梯度更新将在新的少镜头任务上带来良好的性能。c）参数预测。Learnet [2]基于每个类的单个示例动态学习因子化权重层的参数，实现一次性学习。上面的方法仅仅是为了识别新的图像而开发的，还有一些其他的工作试图学习一个模型，该模型8422Meta特征重新加权向量W CHyXOW CHyXOW CHyXO图像掩模共享分类器BBox回归器预测图2：我们提出的少数镜头检测模型的架构。它由Meta特征提取器和重加权模块组成。特征提取器遵循单阶段检测器架构，并且直接回归对象性分数（〇）、边界框位置（x，y，h，w）和分类分数（c）。重新加权模块被训练为将N个类的支持样本映射到N个重新加权向量，每个重新加权向量负责调制Meta特征以检测来自相应类的对象。基于softmax的分类得分归一化被施加到最终输出上。可以分类基础图像和新图像。 Hariharanet al的近期作品。[16，40]引入图像幻觉技术来增强新颖的训练数据，使得新颖类和基类在某种程度上平衡权重印记[26]使用标记示例的缩放嵌入为新类别设置权重。动态网络[13]学习权重生成器，以在给定相应的标记图像的情况下对特定类别的权重进行分类。这些以前的工作只处理图像分类任务，而我们的工作重点是目标检测。具有有限标签的对象检测。有许多关于检测的现有工作集中在具有有限标签的设置上。弱监督设置[3，7，36]考虑了仅使用图像级标签训练对象检测器的问题，但没有边界框注释，这更昂贵。一些示例对象检测[25，41，8]假设每个类仅几个标记的边界框，但依赖于大量的未标记图像来生成用于训练的可信伪注释。零拍摄对象检测[1，27，42]旨在检测先前未见过的对象类别，因此通常需要外部信息，例如类别之间的关系与这些设置不同的是，我们的少镜头检测器对每个新类使用很少的绑定框注释（1-10），而不需要未标记的图像或外部知识。Chen等人[4]研究类似的设置，但仅在迁移学习上下文中，其中目标域图像仅包含没有基类的新类。3. 方法在这项工作中，我们定义了一个新颖的和现实的设置少镜头目标检测，其中有两种数据可用于训练，即，基类和小说类对于基本类，有丰富的注释数据可用，而只有少数标记样本被给予新类[16]。我们的目标是获得一个少镜头检测模型，可以学习检测新的目标时，在测试中的基类和新的类从基类杠杆老化知识。这种设置值得探索，因为它与实际情况很好地吻合-人们可能期望为只有几个标记样本的新类部署预训练的检测器。更具体地，大规模对象检测数据集（例如，PSACAL VOC、MSCOCO）可用于预训练检测模型。然而，其中的对象类别的数量是相当有限的，特别是与现实世界中庞大的对象类别相比。因此，非常需要解决这种少数镜头对象检测问题。3.1. 用于检测的特征重加权我们提出的少镜头检测模型将Meta特征学习器D和重新加权模块M引入到一阶段检测框架中。在这项工作中，我们采用了无提案检测框架YOLOv2 [30]。它通过检测预测模块P直接回归每个锚点的特征以检测包括分类得分和对象边界框坐标的相关输出。如图2，我们采用YOLOv2的主干（即，DarkNet-19）来实现Meta特征提取器D，并遵循与YOLOv2. 对于重新加权模块M，我们仔细地将其设计为轻量级CNN，以增强效率，学而易之，学而易之。由于篇幅所限，其体系结构细节将推迟到补充部分。Meta特征学习器D学习如何提取输入查询图像的元特征以检测它们的新对象。特征提取器重新加权模块“摩托车”“人”“猫”输入图像预测层Softmax8423QJ对象。重加权模块M以支持度实例为输入，学习将支持度信息嵌入到重加权向量中，并调整每个Meta的贡献模块P。我们通过最小化以下损失来共同优化它们：Σ因此，查询图像的特征用于随后的检测预测模块P。利用重加权模块，一些Meta特征信息检测新的对象将被激发，从而辅助检测预测。minθD，θM，θPL：==L（Tj）JΣLdet（PθPJ（DθD（Ij）Mθ （Sj）），Mq）.形式上，让I表示输入查询图像。其相应的Meta特征F∈Rw×h ×m由D：F=D（I）生成。所产生的Meta特征具有m个特征映射。我们表示支持图像及其相关的边界-ing框注释，指示要检测的目标类，分别为I i和M i，对于类i，i=1，. . .、N.重新加权模块M将一个支持图像（Ii，Mi）作为输入，并将其嵌入到类特定表示wi∈Rm中，其中wi=M（Ii，Mi）。这样的嵌入捕获目标对象w.r.t.的全局表示MMeta功能. 它将负责重新加权Meta特征，并突出显示更重要和相关的元特征，以从类别i中检测目标对象。更具体地说，在获得类别特定的重新加权系数wi之后，我们的模型通过以下方式应用它来获得新类别i的类别特定的特征FiF i=Fw i，i=1，. . .，N，（1）其中，表示逐通道乘法。我们通过1×1深度卷积实现它。在获取类特定特征Fi之后，我们将它们馈送到预测模块P中，以针对一组预定义锚点中的每一个回归对象性得分o、边界框位置偏移（x，y，h，w）和分类得分ci{o i，xi，yi，hi，wi，ci}= P（Fi），i = 1，. . . ，N，（2）其中C1是指示对应对象属于类别i的概率的一对全部分类分数。3.2. 学习方案从基本类学习好的Meta特征学习器D和重新加权模块M为了保证模型的泛化性能，从几个例子，我们开发了一个新的两阶段学习方案，其不同于用于检测模型训练的常规方案。我们重新组织训练图像与注释从基类到多个少数拍摄检测学习任务Tj 。每个任务Tj为SjQj为{（I j，M j），. . .，（I j，M j）}<${（I q，Mq）}包含一个超这里Ldet是检测损失函数，我们稍后解释其细节。上述优化确保了模型学习查询的良好Meta特征，并重新加权。支持系数整个学习过程包括两个阶段。第一阶段是基础训练阶段。在这个阶段，尽管每个基类都有丰富的标签，但我们仍然联合训练特征学习器，检测预测和重新加权模块。这是为了使它们以期望的方式协调：该模型需要通过参考良好的重新加权向量来学习检测感兴趣的对象。第二阶段是少量微调。在这个阶段，我们在基类和新类上训练模型。由于只有k个标记的边界框可用于新类，为了平衡来自基础类和新类的样本，我们还包括每个基础类的k个框。训练过程与第一阶段相同，只是模型收敛所需的迭代次数明显减少。在两个训练阶段中，重新加权系数依赖于从可用数据迭代中随机采样的（支持图像，边界框）的输入对。经过几次微调后，我们希望获得一个可以直接执行检测而无需任何支持输入的检测模型。这是通过将目标类的重新加权向量设置为在将k个拍摄样本作为输入之后由模型预测的平均值来实现的。在此之后，重新加权模块可以在推理期间完全移除。因此，我们的模型增加了负的额外的模型参数，以原来的检测器检测损失函数。为了训练少镜头检测模型，我们需要仔细选择损失函数，特别是对于类预测分支，因为样本数量很少。考虑到预测是按类进行的，使用二进制交叉熵损失似乎很自然，如果对象是目标类则回归1，否则回归0。然而，我们发现使用该损失函数给出了易于输出冗余检测结果的模型（例如，将列车检测为公共汽车和小汽车）。这是由于对于特定的感兴趣区域，N个类中只有一个是真正正的。然而，二进制损失努力产生1 1N Nj j端口集Sj（由N个支持图像组成，每个支持图像来自不同的基类）和查询集Qj（提供具有用于性能评估的注释的查询图像设θD、θM和θP表示Meta特征学习器D、重加权模块M和预测平衡积极和消极的预测。非极大抑制不能帮助消除这种假阳性，因为它只对每个类内的预测起作用。为了解决这个问题，我们提出的模型采用了一个软最大层来校准分类得分，M8424N不同的类，并自适应地降低错误类的检测分数。因此，实际分类得分2007 [11]、VOC 2012 [10]和MS-COCO [21]。我们遵循通用做法[30，32，34，6]并使用VOC 07测试集对于第i个类，是giv en byci=ecij=1 ecj . 那就更好了用于测试，同时使用VOC 07和12列/值组进行列-对齐训练过程和少镜头检测，采用校准分数c_1上的交叉进入损失ΣNLc=−1（·，i）log（c<$i），（3）i=1其中1（·，i）是当前锚框是否真正属于类别i的指示符函数。介绍后使用softmax，特定锚点的分类得分的总和等于1，并且将抑制不太可能的类在以下实验中，该softmax损失将被证明优于二进制损失对于边界框和客观性回归，我们采用与YOLOv2 [30]相似的损失函数Lbbx和Lobj，但我们通过不计算客观性评分的阴性样本的一些损失来平衡阳性和阴性。因此，总检测损失函数为Ldet=Lc+Lbbx+Lobj。重新加权模块输入。重新加权模块的输入应该是感兴趣的对象。然而，在目标检测任务中，一个图像可能包含来自不同类别的多个目标。为了让重新加权模块知道目标类是什么，除了三个RGB通道之外，我们还包括一个仅具有二进制值的附加“掩码”通道（M i）：在感兴趣对象的边界框内的位置上，值为1，否则为0（见图1的左下角）。2）的情况。如果图像上存在多个目标对象，则仅使用一个对象该附加掩模通道给予重新加权模块关于其应当使用图像信息的什么部分将掩模和图像组合作为输入不仅提供了感兴趣对象的类别信息，而且还提供了对检测有用的位置信息在实验中，我们还研究了其他输入形式。4. 实验在本节中，我们将评估我们的模型，并将其与各种基线进行比较，以表明我们的模型可以更快、更准确地学习检测新对象。我们使用YOLOv2 [30]作为基本检测器。由于篇幅限制，我们将所有的模型架构和实现细节推迟到补充材料中。代码将在github.com/bingykang/Fewshot_Detection上发布结果。4.1. 实验装置数据集。我们评估我们的模型的几个镜头检测广泛使用的目标检测基准，即，VOCing. 在20个对象类别中，我们随机选择5个类作为新的类，而保留其余15个类作为基础。我们用3种不同的碱基/新的分裂进行评估。在基本训练期间，仅给出基本类的注释。对于少量的微调，我们使用一组非常小的训练图像来确保每类对象只有k个带注释的边界框，其中k等于1，2，3，5和10。类似地，在MS-COCO数据集上，我们使用来自验证集的5000个图像进行评估，并使用train/val集中的其余图像进行训练。在其80个对象类中，我们选择了20个与VOC重叠的类作为新类，其余60个类作为基类。我们还考虑从COCO的60个基类上学习模型，并将其应用于检测PASCAL VOC中的20个新对象这个设置的特点是一个跨数据集学习问题，我们将其表示为 COCO toPASCAL。注意，测试图像可能包含分散注意力的基类（其不是要检测的目标类），并且一些图像不包含目标新颖类的对象。这使得少数镜头检测进一步具有挑战性。基线。我们将我们的模型与五个竞争基线进行比较。其中三个是建立在香草YOLOv2检测器上的第一个是在来自基础类和新类的图像上一起训练检测器通过这种方式，它可以从基类中学习适用于检测新类的我们将该基线称为YOLO关节。我们使用与我们相同的总迭代来训练这个基线模型。其他两个基于YOLO的基线也像我们一样使用两个训练阶段。特别是，他们用与我们相同的基本训练阶段训练原始YOLOv 2模型;对于少量微调阶段，一个人用与我们相同的迭代来微调模型，给出YOLO-ft基线;另一个人训练模型完全收敛，给出YOLO-ft-full。与这些基线的比较可以帮助理解我们的模型所带来的特征重新加权方法的少镜头学习优势。最后两个基线来自最近的少炮检测方法，即，低发射传输检测器（LSTD）[4]。LSTD依赖于背景抑制（BD）和转移知识（TK），以获得一个新的类上的几杆检测模型。为了公平比较，我们基于YOLOV 2重新实现BD和TK，训练它进行与我们相同的迭代，获得LSTD（YOLO）;并训练它收敛以获得最后的基线，LSTD（YOLO）-full。4.2. 与基线的PASCAL VOC. 我们在表1中提出了我们关于新类别的主要结果。首先，我们注意到我们的模型显著优于基线，特别是当LA-8425平均精度平均召回小说集1小说集2小说集3方法/镜头123510123510123510YOLO接头0.00.01.81.81.80.00.10.01.80.01.81.81.83.63.9YOLO-ft3.26.56.47.512.38.23.83.53.57.88.17.47.69.510.5YOLO-ft-full6.610.7 12.5 24.8 38.612.54.211.6 16.1 33.913.0 15.9 15.0 32.2 38.4LSTD（YOLO）6.99.27.412.2 11.69.95.43.35.719.210.97.69.515.3 16.9LSTD（YOLO）-完整8.211.0 12.4 29.1 38.511.43.85.015.7 31.012.68.515.0 27.3 36.3我们14.815.5 26.7 33.947.215.715.3 22.730.1 40.521.325.6 28.442.8 45.9表1：PASCAL VOC数据集上的少发射检测性能（mAP）。我们评估了三个不同的新类别集的性能。我们的模型始终优于基线方法。注射次数0.5：0.950.50.75SML110100SMLYOLO-ft0.41.10.10.30.70.65.88.08.00.65.115.5YOLO-ft-full3.17.91.70.72.06.37.810.510.51.15.52010LSTD（YOLO）0.41.10.20.20.70.65.87.97.90.65.015.3LSTD（YOLO）-完整3.28.12.10.92.06.57.810.410.41.15.619.6我们5.612.34.60.93.510.510.114.314.41.58.428.2YOLO-ft0.61.50.30.20.71.07.49.49.40.43.919.3YOLO-ft-full7.716.76.40.43.314.411.715.315.31.07.729.230LSTD（YOLO）0.61.40.30.20.81.07.19.19.20.43.918.7LSTD（YOLO）-完整6.715.85.10.42.912.310.914.314.30.97.127.0我们9.119.07.60.84.916.813.217.717.81.510.433.5表2：COCO数据集上新类别的少镜头检测性能我们评估了不同数量的训练镜头的新类别的性能贝尔非常稀少（1-3发）。对于不同的基础/小说类分割和镜头数量，改进也是一致的相比之下， LSTD（YOLO）在某些情况下可以提高性能，但在其他情况下可能会损害检测以5 次拍摄检测为例，LSTD（YOLO）- full在新颖集合1上相比YOLO-ft- full带来4.3mAP 改进，但在新颖集合 2 上比 YOLO-ft-full 差5.1mAP其次，我们注意到YOLO-ft/YOLO-ft-full的性能也明显优于YOLO-joint。这证明了在我们的模型中采用的两个训练阶段的必要性：最好首先在基本类上训练良好的知识表示，然后用少量数据进行微调，否则联合训练会让检测器偏向基本类，而几乎不了解新类。关于每个类别的更详细的结果可在补充材料中获得。可可 COCO数据集的结果见表二、我们评估k=10和k=30次射击每类。在这两种情况下，我们的模型都优于所有基线。特别是，当YOLO基线使用相同的通过我们的模型迭代，它实现了小于1%的AP我们还观察到，有很大的空间，以改善在少数镜头的情况下获得的结果。这可能是由于COCO中的复杂性和大量数据，使得对其进行少镜头检测是相当具有挑战性的。COCO到PASCAL 我们使用10-从 PASCAL 拍摄每个类图像。 YOLO-ft 、 YOLO-ft-full、LSTD（YOLO）、LSTD（YOLO）-full的mAP分别为11.24%、28.29%、10.99%、28.95%，而我们的方法达到了32.29%。PASCAL新类的性能比我们在PASCAL数据集中使用基类时的性能差（其mAP约为40%）。这可以用不同数量的新类来解释，即，20对五、4.3. 性能分析学习速度。在这里，我们分析了我们的模型的学习速度。结果表明，尽管我们的少镜头检测模型在优化过程中没有明确考虑自适应速度，但它仍然表现出惊人的快速自适应能力。注意，在表1的实验中，YOLO-ft-full和LSTD（YOLO）-full需要25，000次迭代才能完全收敛，而我们的模型只需要1200次迭代就能收敛到更高的精度。当基线YOLO-ft和LSTD（YOLO）与我们的迭代相同时，它们的性能要差得多。在本节中，我们比较YOLO-joint、YOLO-ft-full和图中我们的方法的完全收敛行为。3 .第三章。在我们的方法和基线一起训练期间，通过最大值对AP值进行归一化该实验在PASCAL VOC基础/新颖拆分1上进行，在新颖类上具有10-shot边界框标签。84261.00.80.6鸟牛、马、羊、猫和狗都在右下角，它们都是动物。运输工具的类别在图的顶部。人和鸟在视觉上与上述动物有更大的不同，但仍然比交通工具更接近它们。已学习Meta功能。在这里，我们分析学习Meta0.40.2我们的基线公共汽车母牛摩托车沙发是说在第一个训练阶段从基类中提取特征理想地，当数据丰富时，理想的少数镜头检测模型应该优选地执行我们来-0.00 5k 10k 15k 20k25k迭代图3：我们提出的少量检测模型和YOLO-ft-full基线之间的学习速度比较。我们绘制AP（由收敛值归一化）与训练迭代次数的关系。我们的模型显示出更快的适应速度。从图3中可以看出，我们的方法（实线）收敛速度明显快于基线YOLO检测器（虚线），对于每个新类别以及平均而言。对于类Sofa（橙色线），尽管基线YOLO检测器最终略优于我们的方法，但需要大量的训练迭代才能赶上后者。这种行为使我们的模型在实践中成为一个很好的少数检测器，几乎没有标记的新类可能随时出现，并且需要短的适应时间以使系统快速投入实际使用。这也打开了我们的模型我们还观察到我们的模型优于YOLO-ft-full和LSTD（YOLO）-full的类似收敛优势学习的重加权系数。加权系数对元特征的使用和检测性能有重要影响为了看到这一点，我们首先在图中绘制每个类的1024-d重加权向量。4a.在图中，每一行对应于类，每一列对应于特征。特征从左到右按20个类别之间的方差排序。我们观察到，大约一半的特征（列）在不同的类别之间具有显著的差异（列中的多种颜色），而另一半对类别不敏感（列中大致相同的颜色）。这表明，当检测不同的类时，实际上只有一部分特征被不同地使用，而其余的特征在不同的类之间共享我们进一步通过图4 b中的t-SNE [24]可视化重新加权向量，从基础/新分裂1上的10个镜头/类中学习。在此图中，我们绘制了由每个支持输入生成的重新加权向量，以及每个类的平均值我们观察到，不仅相同类的向量倾向于形成集群，视觉上相似类的向量例如，类在基类上为之后获得的模型重命名mAP第一阶段基础训练，在我们的模型和香草YOLO检测器（用于后两个基线）之间。结果示于表3中。尽管我们的检测器是为几个镜头场景设计的，但它也具有强大的表示能力，并提供了良好的Meta特征，可以与在大量样本上训练的原始YOLOv2检测器达到相当的性能。这为解决少镜头目标检测问题奠定了基础基础组1基础组2基础组3YOLO基线70.372.270.6我们的模型69.772.070.8表3：基于基础类别的检测性能（mAP）。我们评估香草YOLO检测器和我们提出的检测模型上的三个不同的基础类别。4.4. 消融研究通过比较基类和新类的性能，我们分析了系统中各个组件的效果实验是在PASCAL VOC基础/新的分裂1，使用新类的10-镜头数据。要重新加权的图层输出要素。在我们的实验中，我们应用重新加权模块来调节倒数第二层（第21层）的输出。这是我们可以使用的最高级别的中间特性.然而，也可以考虑其他选择。我们尝试将重新加权向量应用于从第20层和第13层输出的特征图，同时也只考虑第21层中的一半特征。结果示于表4中。可以看出，采用特征重加权的在较深的层，因为使用较早的层给出较差的性能。此外，仅调节一半的特征不会对性能造成太大损害，这表明很大一部分的特征可以在类之间共享，正如我们在第二节中分析的那样。四点三。损失函数。正如我们在SEC中提到的。3.2，有几种选择来定义分类损失。其中，二进制损失是最直接的一个：如果对重加权模块和检测器的输入来自同一类，则模型预测为1，否则归一化AP8427牛狗马羊鸟猫摩托车盆栽沙发餐桌汽车人椅子飞机自行车瓶子火车船总线电视监视器（一）1.00.80.60.40.20.0电视监视器：重量：重量平均值灰色：基础cls黑色：novel cls（b）第（1）款图4：（a）来自每个类的重新加权模块的重新加权系数（以行向量形式）的可视化列对应-spond到Meta特征图，按类间方差排序由于空间限制，我们只绘制随机抽样的256个特征。（b）t-SNE[24]重新加权系数的可视化视觉上更相似的类往往具有更接近的系数。层13层20层21第21层（半）基地69.669.269.769.2小说40.743.647.246.9表4：在不同层上应用重新加权训练的检测模型的性能比较单二进制多二进制Softmax基地49.164.169.7小说14.841.647.2表5：使用不同损失函数训练的检测模型的性能比较0.这种二进制损失可以用以下两种方式定义。单二进制损失是指在每一次迭代中，重加权模块只取一类输入，检测器回归0或1;而多二进制损失是指每次迭代，重加权模块从N个类中取N个样本，并总共计算N个二进制损失。Siamese Network [18]和Learnet [2]上的先前工作使用单二进制损失。相反，我们的模型使用softmax loss来校准N个类的分类得分为了研究使用不同损失函数的影响，我们比较了使用单二进制，多二进制损失和表5中的softmax损失训练的模型性能。我们观察到使用softmax loss的性能明显优于binary loss。这可能是由于其抑制冗余检测结果的效果。重新加权模块的输入形式。在我们的实验中，我们使用一个目标类的图像与一个二进制掩码通道指示的对象的位置作为输入到Meta模型。我们研究的情况下，我们只饲料的图像。从表6中我们看到，这给出了较低的性能，特别是在新的类别上。一种明显合理的替代方案是将裁剪的目标对象与图像一起馈送从表6可以看出，该解决方案也稍差。掩模的必要性可能在于它提供了关于对象位置及其上下文的精确信息。我们还分析了用于测试的输入采样方案和特征提取器和重加权模块之间共享权值的影响。参见补充材料。图像掩模对象基地小说C69.543.3CC69.747.2CC69.245.8CCC69.446.8表6：不同支持输入形式的性能比较。阴影线是我们在主要实验中使用的线。5. 结论这项工作是第一次探索实际和具有挑战性的少镜头检测问题。介绍了一种新的学习模型，以快速调整基本特征的贡献来检测新的类，并给出了几个例子。在真实基准数据集上的实验清楚地证明了它的有效性。本文还比较了模型的学习速度，分析了预测的重加权向量和每个设计组件的贡献，提供了对所提出的模型的深入理解少镜头检测是一个具有挑战性的问题，我们将进一步探讨如何提高其性能更复杂的场景。不规则Jiashi Feng 获得了 NUS IDS R-263- 000-C67-646 ，列车总线飞机船车自行车摩托车盆栽瓶椅子鸟沙发餐桌羊牧牛猫狗人8428ECRA R-263-000-C87-133和MoE Tier-II R-263-000-D17-112。这项工作得到了美国国防部、伯克利深度驱动（BDD）中心和伯克利人工智能研究（BAIR）实验室的部分支持8429引用[1] Ankan Bansal 、 Karan Sikka 、 Gaurav Sharma 、 RamaChel-lappa和Ajay Divakaran。零镜头物体检测。arXiv预印本arXiv：1804.04340，2018。3[2] 卢卡·贝尔蒂内托，约翰·阿托·F·恩里克斯，杰克·V·阿尔马德雷，菲利普·托尔和安德烈·韦达尔迪。学习前馈一次性学习器。神经信息处理系统进展，第523-531页，2016年二、八[3] Hakan Bilen和Andrea Vedaldi。弱监督深度检测网络在IEEE计算机视觉和模式识别会议论文集，第2846- 2854页，2016年。3[4] Hao Chen ， Yali Wang ， Guoyou Wang ， and YuQiao.Lstd：用于物体检测的低拍摄传输检测器arXiv预印本arXiv：1803.01529，2018。三、五[5] 陈志远和刘冰。终身机器学习人工智能和机器学习综合讲座，12（3）：1-207，2018。7[6] 戴纪峰，易力，何开明，孙建。R-fcn：通过基于区域的全卷积网络的目标检测。神经信息处理系统的进展，第379-387页，2016年。5[7] Ali Diba ，Vivek Sharma ，Ali Mohammad Pazandeh ，Hamed Pirsiavash，and Luc Van Gool.弱监督级联卷积网络。在CVPR，2017年。3[8] 董宣义、梁铮、范马、杨毅、孟德宇。具有模型通信的少示例对象检测。arXiv预印本arXiv：1706.08249，2017。3[9] Matthijs Douze，Arthur Szlam，Bharath Hariharan，andHerve 'Je' gou. 低拍摄学习与大规模的差异。在计算机视觉和模式识别（CVPR），2018年。2[10] Mark Everingham 、 SM Ali Eslami 、 Luc Van Gool 、Christo-pherKIWilliams 、 JohnWinn 和 AndrewZisserman 。 Pascal Visual Object Classes Challenge ： ARetrospective.International Journal of Computer Vision，111（1）：985[11] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（ voc ）的挑战。 International Journal ofComputer Vision，88（2）：303-338，2010。5[12] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。ICML，2017. 一、二[13] 斯派罗·吉达里斯和尼科斯·科莫达基斯动态少镜头视觉学习而不忘。在IEEE计算机视觉和模式识别会议论文集，第4367-4375页，2018年。3[14] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision ，第 1440-1448页，2015中。2[15] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 580一、二[16] Bharath Hariharan和Ross Girshick通过缩小和幻觉特征进行低镜头视觉识别。2017年8430IEEEInternationalConferenceonComputerVision（ICCV），第3037-3046页。IEEE，2017年。3[17] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于视觉识别的深度卷积网络中的空间金字塔池。在欧洲计算机视觉会议上，第 346-361 页。Springer，2014. 2[18] 格雷戈里·科赫用于一次性图像识别的连体神经网络。在ICML研讨会，2015。二、八[19] 布伦登M湖，鲁斯兰R萨拉胡迪诺夫，乔什Tenen-baum。通过反转合成因果过程的一次性学习神经信息处理系统的进展，第2526-2534页，2013年。2[20] Fei-Fei Li，Rob Fergus，and Pietro Perona.对象类别的一次性 IEEE T

下载后可阅读完整内容，剩余1页未读，立即下载