基于表示的度量学习用于分类和少镜头对象检测

50 浏览量更新于2023-10-18 收藏 3.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1RepMet：基于表示的度量学习用于分类和少镜头对象检测Leonid Karlinsky，Joseph Shtok，Sivan Harary， Eli Schwartz，Amit Aides，RogerioFeris IBM Research AI拉贾·吉里斯特拉维夫大学亚历克斯·M 布朗斯坦理工学院摘要距离度量学习（DML）已经成功地应用于对象分类，无论是在标准制度的丰富的训练数据和在少数镜头的情况下，其中每个类别是由只有几个例子表示。在这项工作中，我们提出了一种用于DML的新方法，该方法在单个端到端训练过程中同时学习骨干网络参数、我们的方法优于国家的最先进的方法，基于DML的对象分类的各种标准的细粒度数据集。此外，我们证明了我们的方法的有效性的问题，少镜头的目标检测，通过将拟议的DML架构作为一个分类头到一个标准的目标检测模型。与强基线相比，当只有少数训练样本可用时，我们在ImageNet-LOC数据集上获得了最佳结果我们还为社区提供了一个基于ImageNet数据集的新的场景基准，用于少镜头对象检测任务。1. 介绍由于深度神经网络（DNN）在图像分类和检测任务中取得了巨大成功[7，11，12，14，32，45]，它们现在被广泛接受为几乎所有计算机视觉应用的“首选特征提取器”，主要是因为它们能够从数据中学习良好的众所周知，从头开始训练常规DNN模型需要大量的训练数据[26]。然而，在许多实际应用中，每个类可能只给出几个训练样本来学习分类器。这就是所谓的少镜头学习问题。最近的研究在使用DNN进行少量学习方面取得了重大进展这已经在特定领域的任务中得到了证明，例如人脸识别[28]和一般类别的分类作者对这项工作做出了同样的贡献图1. 一次检测示例。周边图像：训练中看不见的新类别的例子。中心图像：在包含作为新类别之一的微粒物质的图像上的单次检测器的检测结果。[6，10，33，38，40，44]。然而，很少有作品已经调查了少镜头对象检测的问题，其中识别由几个示例表示的类别的实例的任务由于图像背景的存在和精确定位对象的需要而变得复杂。最近，几篇有趣的论文展示了零镜头对象检测情况[1，23]和少镜头迁移学习情况[5]在这项工作中，我们提出了一种新的距离度量学习（DML）的方法，并证明了其有效性的少镜头的对象检测和对象分类。我们用一个多模态的混合模型来表示每一类，并把这些模态的中心作为该类的代表向量。与以前的方法不同，我们同时学习嵌入空间，骨干网络参数，和训练类别的代表向量，在一个单一的端到端的训练过程。对于少镜头对象检测，我们建立在现代方法（例如，变形FPN变体的更快，51975198图2. 概述我们的方法。（a）训练时间：联合学习类的骨干、嵌入空间和混合模型，类代表是嵌入空间中的混合模式中心;（b）测试时间：仅使用一个或几个示例，在学习的嵌入空间中向检测器引入新的（在训练期间看不见的）类。微调代表和嵌入（在情节训练数据上）可以用于进一步提高性能（第5节）。为了简洁起见，在测试中仅说明了两个新颖的类。类后验通过测量输入特征到每个类的代表的距离来计算RCNN [7，11]），其依赖于区域建议网络（RPN）来生成感兴趣区域，以及分类器为了学习一个强大的检测器只有几个训练的例子（见图1的一个单次检测的例子），我们建议取代分类器头与子网学习计算类后验为每个ROI，使用我们提出的DML方法。该子网的输入是从ROI汇集的特征向量，并且通过将其嵌入向量与每个类别的代表集合进行检测任务需要解决在这种情况下，联合端到端训练是重要的，因为采样背景ROI用于DML的单独训练是非常低效的（第5节）。在少镜头检测实验中，我们引入了新的类别到检测器。这是通过将学习的代表（对应于旧的类别）替换为嵌入向量来完成的，嵌入向量是从针对这些类别给出的几个训练示例（针对k个镜头检测的k个我们还调查了微调我们提出的模型和基线的少数镜头学习的影响。与基线和以前的工作相比，在少数镜头检测任务（第5.2节）上报告了有希望的结果，强调了有效性联合优化主干和DML的嵌入。图2示意性地示出了我们的少镜头检测方法的概述我们还通过与磁铁损耗[25]和其他最先进的基于DML的方法[43，22]进行比较，证明了我们的方法用于基于DML的一般分类。我们提出的方法不是[25]中使用的嵌入和聚类的交替训练，而是端到端训练一个能够学习DML嵌入和代表性（混合分布的有效地，这将集群引入端到端网络训练中。使用这种方法，我们能够改进[22，25，43]在各种细粒度分类数据集上的最新分类结果5.1）。我们的贡献有三方面。首先，我们提出了一种新的子网架构，用于联合训练嵌入空间以及该空间中的混合分布集，每个类别都有一个（多模态）混合物。这种架构被示出，以改善当前的技术水平，基于DML的对象分类和少镜头对象检测。其次，我们提出了一种方法来装备一个对象检测器与DML分类器头，可以承认新的类别，从而将其转换成一个少拍检测器。据我们所知，这是以前没有做过的。这可能是由于检测器训练批次通常限于每个GPU一个图像列车时刻狗类代表微调测试时间骨干、嵌入空间、代表共同Few-Shot小说类示例小说类代表人物自行车类代表+++++++++++ +++++++背景+++++卡车类代表（其他）小说类代表(a)（b）第（1）款5199不允许在类别内容方面进行批量控制。这种控制是目前任何使用基于情节的训练的少数学习者所需要的这反过来又使得在端到端训练的检测器中使用这些方法具有挑战性。在我们的方法中，一组代表充当第三，在少数镜头分类文献中，通常的做法是通过对少数镜头任务的多个实例（称为片段）的性能进行平均来评估方法。我们提供这样一个情节基准的少镜头检测问题，建立在一个具有挑战性的细粒度少镜头检测任务。2. 相关工作距离度量学习。将度量学习用于计算机视觉任务有着悠久的历史（参见[15]的调查）。在越来越多的工作中，冰毒-基于深度DML的图像分类和检索的ODS在各种任务上取得了最先进的结果[22，25，34，43]。Rippel等人[25]表明，如果在训练期间改变类别实例的嵌入和聚类，则在各种具有挑战性的细粒度数据集上[13，20，21，27]，即使相对于非DML方法，基于DML的分类也会提高最新技术水平。在DML中，学习的度量通常被实现为神经网络生成的嵌入空间中样本之间的L2用于训练这种嵌入的基本损失函数是三重损失[41]，或其最近的推广之一[34，35，39]。这些损失旨在使嵌入空间在语义上有意义，使得来自相同类别的对象在L2距离下接近，而来自不同类别的对象则相距较远。这使得DML成为少数镜头视觉识别的自然选择。根据DML，在测试时计算判别类后验。为此，通常使用非参数方法，例如k-最近邻（k-NN）在学习的嵌入空间[38，33，41]中建模类分布，尽管在某些情况下也使用参数模型[4]。此外，在许多方法中，如[33，41]，有一个固有的假设，即类别分布在嵌入空间中是单峰相反，我们的方法为每个类别学习多模态混合，同时学习嵌入空间，在嵌入空间中计算到这些代表的距离少拍学习。最近在少数镜头分类方面的一项重要工作引入了匹配网络[38]，其中训练和测试数据都以“情节”组织N路M镜头片段是由来自N个类别中的每个类别的M个训练示例的集合以及来自类别之一的对象的一个查询图像表示的少镜头任务的实例。目标是确定查询的正确类别。在[38]中，算法学习生成特定于剧集的专用DML嵌入。在[33]中，每个类都由一个原型类型表示-对应于该类别的批处理元素的质心最近，使用元学习方法[9，19，24，44]和综合，方法[6，10，29，40，44]。虽然在少镜头分类方面取得了很大的进展，但将这些方法应用于少镜头检测仍然是困难的。原因是检测器训练批次通常仅由一张图像组成，前景与背景ROI比率高度不平衡（使用OHM[31]等进行平衡这对于现有的少数样本学习器来说是有问题的，这些学习器通常需要在每一批中从多个类别中平衡一组示例，并且通常难以处理非结构化噪声（在我们的情况下是背景ROI）。目前只有少数几个现有的作品少杆检测。一个有趣的最近的工作陈在al。[5]提出了在几个给定的示例上使用正则化微调，以便将预先训练的检测器转移到少数任务。作者表明，使用他们提出的正则化，标准检测器（如FRCNN [30]和SSD [18]）的微调可以在少量训练场景中显着改善。Dong et al.[8]在半监督设置中使用额外的未标记数据。通过使用高置信度样本选择来丰富训练数据的经典方法，[8]的方法产生了与具有大量训练示例的弱监督方法相当的结果。不像以前的方法，我们提出了一种基于DML的方法，用于少镜头目标检测，这产生了优越的性能。与现有技术相比。3. RepMet架构我们提出了一个子网架构和相应的损失，使我们能够训练DML嵌入联合用于计算类后验在所得嵌入空间的多模态混合分布然后，该子网成为基于DML的分类器头，其可以附接在分类或检测骨干的顶部。重要的是要注意，我们的DML子网是与功能产生骨干联合训练的。建议子网的架构如图3所示。使用批量训练，但为了简单起见，我们将子网的输入称为由骨干针对给定图像（或ROI）计算的单个（池化）特征向量X∈Rf主干的示例是InceptionV3 [36]或FPN [16]（不含RCNN）。我们首先使用DML嵌入模块，由几个具有批归一化（BN）和ReLU非线性的全连接（FC）层组成线性（在我们的实验中有2-3层嵌入模块的输出是向量E=E（X）∈Re，其中通常嵌入大小e<$f。作为一组额外的训练参数，我们持有一组5200IJ..图3. 建议的RepMet DML子网架构执行联合端到端的DML嵌入训练的模式的类后验分布。关于符号和不同组件的详细描述，请参考第3节。Rij∈Re。每个向量Rij表示嵌入空间中学习的区分性混合分布的第j个模式的中心，对于总共N个类别中的第i个班我们假设在每个类别的分布中有固定数目的K个模（峰），所以1≤j≤K。在我们的实现中，代表被实现为接收固定标量输入1的大小为N·K·e的FC层的权重。该层的输出被重新整形为N×K×e张量。在训练过程中，这个简单的构造将梯度流到FC层的权重，并学习代表。对于给定的图像（或探测器ROI）及其相应的嵌入向量E，我们的网络计算E和代表Rij之间的N× K距离矩阵d ij（E）= d（E，R ij）。这些距离用于计算给定图像（或ROI）在每个图像中的概率。不平凡因此，在等式中使用上限。 2消除了估计混合系数的需要。一个有趣的未来扩展，我们的方法将预测的混合系数和协方差的模式作为一个函数E或X。在计算类后验之后，我们还估计了“开放”背景⑻类的（判别性）后验在[2]之后，我们不对背景概率进行建模，而是使用前景（类）概率通过其下限进行估计：P（B）|X）=P（B|E）=1−maxpij（E）（3）IJ有P（C=i|X）和P（B）|X）在网络中计算，我们使用两个损失的总和来训练我们的模型（DML每个类别i的模式j：pij（E）.Σd2（E）-2σ2（一）子网+主干）。第一个损失是常规交叉-熵（CE）与针对对应于X的图像（或ROI）给出的地面实况标签。另一个是为了确保在距离之间至少有α余量，在这里，我们假设所有的类分布都是混合的-方差为σ2的各向同性多变量高斯分布图。E转换为正确类的最接近的代表，E到错误类的最近代表的距离在我们当前的实现中，我们不学习混合。.系数，并将判别类后验设置为：L（E，R）=. mind i j（E）− min d ij（E）+ α。（四）. j j，iii，+P（C = i|X）= P（C = i|E）最大值j =1，…Kpij（E）（2）其中i是当前示例其中C=i表示类别i，并且在其混合物的所有模式上取最大值这个条件概率是实际类后验的上界。使用这种近似的原因是，对于单次检测，在测试时，代表被替换为新类的嵌入示例，在训练期间看不到（更多细节见第5节）。混合系数与特定模式相关，由于模式在测试时发生变化，因此学习混合系数变得非常重要。和|·|+是ReLU函数。图4说明了建议的DML子网集成在整个网络用于基于DML的分类和少数镜头检测实验的架构4. 实现细节在本节中，我们列出了针对基于DML的分类（第4.1节）和少数镜头检测（第4.2节）任务的建议方法的1FC层（大小为N x K xe）计算嵌入空间向量丢失输入1类代表 …N类代表交叉熵损失DML嵌入模块地面真值类标号E计算距离计算后（每类混合物）嵌入损失min，− min，+��嵌入式特征向量你好，��=正确的类索引+合并特征向量5201实现的其他细节我们的代码在这里可用。5202（一）图4. 使用的网络架构。（a）基于DML的分类网络。(b)少数发射探测网络其主干是具有可变形ROI排列FPN+DCN [7]。4.1. DML分类对于基于DML的分类实验，我们使用InceptionV3 [36]骨干网，将建议的DML子网连接到其最后一个FC层之前的层。子网的嵌入模块由大小为2048 和 1024 的两个 FC 层组成，第一个具有 BN 和ReLU，第二个仅具有线性激活。这之后是嵌入向量的L2所有层随机初始化。在我们所有基于DML的分类实验中，我们设置σ=0。每个类别使用K=3个代表。在验证集上改变K（图5（d））表明，从K=1到K=3，精度提高了15%，而对于K >5，精度适度降低了5%。学习每个类别的最优K是未来的一个方向。每个训练批次通过随机抽样M=12个类别和从每个类别中抽样D=4个随机实例来在标准基准上的基于DML的分类实验中，不存在背景类别B，因此我们不需要我们的类混合物来处理对于所有混合物来说是离群值的点。因此，我们求助于一个更经典的混合模型变体，模式，取代类后在方程。2与其更软的归一化版本，我们已经实验验证了这对基于DML的分类更有益：ΣKK=每类5个代表，σ=0。五、图6（d）示出了学习代表的示例与[7]一样，每个训练批次包含一个随机训练图像。5. 结果我们已经评估了我们提出的DML子网在一系列分类和少镜头检测任务上的实用性5.1. DML分类细粒度分类。我们测试了我们的方法一组细粒度分类数据集，广泛用于最先进的DML分类工作[22，25，43]：Stanford Dogs [13]，Oxford-IIIT Pet [21]，Oxford 102[20]和ImageNet属性[25]。表1中报告的结果表明，我们的方法在除Oxford Flowers之外的所有数据集1上的性能优于最先进的DML分类方法[22，25，43]图5显示了训练迭代中嵌入空间中训练实例的t-SNE [37属性分布。我们验证了在DML分类训练之后，具有相似属性的图像在嵌入空间中彼此更接近（即使在训练期间没有使用属性注释）。我们使用与[25]相同的实验方案。具体来说，我们在ImageNet属性P（C = i|X）= P（C =i|E）=pij（E）j=1（五）[25]中定义的数据集，其中包含来自90节课。接下来，我们测量了ΣN ΣK pij（E）对象属性数据集[27]，它为每个类的大约25个图像提供25个i=1j =14.2.基于DML的少镜头检测对于少数镜头检测，我们使用我们的DML子网-而不是在其变形卷积（DCN）变体[ 7 ]中的FPN骨干[ 16 ]之上的RCNN（分类我们的代码基于[7]的原始MXNet实现。骨干在MS-COCO上进行了预训练[17]。我们的DML子网，包括representatives，是随机初始化的。整个网络使用OHM [31]和SoftNMS [3]进行端到端训练。DML子网中用于单次检测的嵌入模块由两个宽度为1024的FC层组成，BN90节课。对于该数据集中的每个图像，以及每个属性，我们计算不同邻域基数上也具有该属性的邻域的分数。图6（a）显示了我们的方法获得的改进结果与[25]和其他方法相比。超参数稳健性-消融研究。我们评估了每个类的不同代表值（1≤K≤8）和9种不同的嵌入网络架构（在1到3之间改变密集层的数量，并为每个层使用三种不同的宽度稳健性相同还对我们的[25]的实现（reproduc- ing结果）重复了测试（原始代码不可用）。和ReLU的最终FC层，以及具有线性的宽度256的最终FC层，激活，然后L2正常化。我们使用1Non-DML [42]训练达到3。Stn上的3%误差使用外部数据的狗InceptionV3建议的DML子网参数共享（b）第（1）款建议的DML子网ROI对齐ROI对齐ROI对齐FC25203方法数据集[22]第二十二话磁铁[25]VMF [43]我们斯坦福犬29.724.924.013.7牛津花10.58.64.411牛津宠物18.810.69.96.9ImageNet属性–15.9-13.2表1.在不同的细粒度分类数据集上与最先进的DML分类器方法的测试误差（%）比较（越低越好）。对于我们的方法，所有数据集都使用相同的超参数特定的调整可以进一步改善花卉效果。图5. t-SNE可视化嵌入空间的演变，同时在牛津花上训练。不同的颜色对应于不同的混合模式。（a）初始;（b）1200次迭代;（c）4200次迭代;（d）不同K=代表数量的性能图6（b）和6（c）表明，与[25]相比，我们的方法对超参数变化更具鲁棒性。我们注意到，每次[25]执行k均值步骤时，都会发生显著的损失增加，导致收敛速度较慢且不稳定。在我们的方法中，这是通过对嵌入模型和混合模型进行联合更新来解决的。5.2.少镜头目标检测据我们所知，迄今为止唯一可用的几次检测基准是Chen等人在LSTD工作[5]中报告的，他提出了通过正则化微调来实现少拍检测。在表2中，我们将我们的方法与LSTD [5]在“任务1”上几枪侦测场景1 发 5 发 10 发 LSTD [5]19.2 37.4 44.3我们的24.1 39.6 49.2表2. 与LSTD [5]在任务1实验中的比较对50个ImageNet类别进行50路检测（mAP%）。由于对于他们提出的所有任务，[5]的基准测试仅由每个任务的一个事件（训练/测试图像选择）组成，因此我们为少数镜头检测创建了一个额外的基准测试。我们提出的基准测试是基于ImageNet-P2P数据。该基准包含多个随机事件（少数镜头检测任务的实例）;我们在基准测试中使用了500个随机事件。这个表格是从少数镜头分类文献中借来的。对于n-shot，m-way few-shot检测任务的情况，每个片段包含随机的n个训练示例，用于m个随机选择的类中的每一个，以及包含属于这些类的一个或多个实例的10·m个随机查询图像（因此每个类至少10个我们的目标是检测并正确分类这些实例。为了一致性，对于每个n∈ {1，5，10}，在所有n次拍摄实验中使用相同的500个随机片段。请参见图1中的单镜头、5路片段的图示。在建议的几杆检测基准，我们比较了我们的方法，三个基线。首先，德-被称为（m）每个（n-镜头，m-路）测试片段中的小说类别。具体来说，我们微调了FPN-DCN检测器[7]的分类器头的线性决策层，我们使用相同的检测器作为我们方法的骨干。对于第二基线，表示为用于此基线的FPN-DCN检测器在与我们的方法相同的数据上被对于第三个基线，表示为使用三重损失在采样的前景和背景ROI上训练嵌入[41]。使用原型网络[33]训练嵌入获得了该基线的类似性能。所有基线都在与我们的模型相同的训练集上进行了预训练，并在相同的集合上进行了测试5204图6.（a）平均属性精度作为ImageNet Attributes数据集上邻域大小的函数 (b)测试我们的方法的超参数变化和磁体损失的性能稳定性[25]。我们绘制了分类误差的STD，作为迭代次数的函数，测量了嵌入模型的各种深度和宽度大小。越低越好。(c)对于所学习的混合中的各种数目的模式，与（b）相同。(d)显示了学习代表的示例，对于每个具有最接近嵌入的代表性训练RPN裁剪（请使用缩放）。无事件微调，有事件微调数据集方法单次拍摄5次射击10杆单次拍摄5次射击10杆ImageNet-基线-FT（FPN-DCN [7]）---35.051.059.7(214看不见的动物类）基线-DML41.358.261.641.359.766.5基线-DML-外部19.030.230.432.137.238.1我们56.968.871.559.273.979.2ImageNet-我们的培训代表-86.3----(100看过动物类）我们的-插曲代表64.579.482.6---表3.在ImageNet上进行少量5路检测测试报告为mAP %。或随机事件。为了训练模型，我们使用了ImageNet的前100个类别（主要是动物和鸟类）。为了进行测试，我们使用了所有剩余的214个ImageNet动物和鸟类物种类别（在训练时看不到），以确保训练和测试类别属于相同的概念域。对于我们的模型和所有的DML基线，在每个片段中，通过用从与片段的训练对象相对应的ROI计算的嵌入向量替换DML子网中的代表R的集合，将检测到的类别的集合重置为m个新的类别这些ROI是通过检查从RPN返回的每个图像的2K判断哪些ROI通过了IoU ≥0。7要求用训练对象的边界框。在我们的方法中，EM-将bedding和backbone联合优化，以便与基于代表的类后验一起使用。与基线相比，这提供了一个优势，如表3中报告的性能比较所示。我们的方法的评估和基线上的一组看不见的类报告在表3中（在其看不见的类部分）。平均精度（mAP）（%）是在5路检测任务（500个这样的任务）上计算的。mAP通过收集和联合评估（根据计算精度和召回率的分数阈值）在所有500个测试片段中检测到的整个边界框集合来计算，每个测试片段具有50个查询图像此外，对于每种测试方法（我们的基线），我们重复了实验，同时仅在情节训练图像上微调网络的最后一层（对于我们的模型和使用DML的基线，最后一个微调的结果也报告在表3中。图7显示了单次检测测试结果的示例。从“基线-DML-外部”的相对较低的性能根据我们的仔细检查，“基线-DML-外部”的mAP减少主要归因于比其他方法显著更高的假阳性率。虽然外部嵌入是在与我们的方法和其他基线相同的训练图像上训练的，但是当作为检测器端到端训练时，对我们的方法正在处理的可能背景ROI的整个集合进行采样是不可行的。因此，我们不得不求助于每个图像采样200个ROI，这降低了基线为了测试学习的嵌入对在训练期间与其联合学习的特定代表的相互依赖性，我们对在训练期间看到的类集合重复基于情节的测试（仅使用未用于训练的该评价的结果也报告在表3的可见类别部分中。我们重复了两次看到的类测试：一旦使用代表-5205图7. 单次检测结果示例。绿色框表示正确检测到的对象，红色框表示错误检测。阈值为0。在整个检测分数上使用5得分较高的检测被绘制在得分较低的检测从每一集的训练对象中获取重新训练（与未见过的类相同），并且使用原始训练的代表（因为它们对应于看到的类的集合由于在训练过程中，我们学习K=5表示每个类的-k，因此我们在5次射击列中报告第二次测试的结果。我们可以看到，（i）训练后的表示比随机类样本的嵌入表现更好，再次强调了联合训练的好处;（ii）从受过训练的代表到自由班级成员的表现下降并不大（0.77分），这表明，学习的嵌入对代表的变化是鲁棒的并且很可能在新的看不见的类别上表现良好（如上面在我们的几次实验中所验证的）。在[1]中，使用Recall@100作为其性能指标（在每个测试图像中采用100个最高检测的召回%）。我们还在单次测试中实施了这一措施，在我们整个500次测试集上计算出的100次召回率为88.2%，10次召回率为65.9%这证明了我们的方法在单个图像的基础上工作良好，并说明了在计算AP时同时考虑所有测试图像中的所有框的重要性，正如我们在基准测试中所做的那样。为了检查通过用我们的DML子网替换RCNN分类器所引入的修改是否妨碍了对所见类的检测性能，我们在100个第一Imagenet-DCN训练类别和PASCAL VOC的验证集上测试了如表4所示，我们的检测器在Pas- calVOC上略劣于原始FPN-DCN模型，但在100个第一Imagenet-DCN（更细粒度）类别上比较有利6. 简要结论在这项工作中，我们提出了一种新的DML方法，实现了最先进的对象分类性能PASCAL VOC ImageNet（HTML）方法/IoU0.70.50.30.70.50.3FPN-DCN [7]74.683.585.346.955.260.2我们73.782.984.960.761.770.7表4.每个不同验收IoU的常规检测性能（mAP [%]）FPN-DCN使用其原始代码进行评估。与其他基于DML的方法相比。使用这种方法，我们设计了第一个少镜头检测方法，这是目前的少镜头检测最先进的相比。我们还提出了一个基于 Imagenet-Wavelet数据集的少数镜头对象检测的基准，希望它能鼓励研究人员进一步研究这个问题，到目前为止，这个问题几乎没有被触及。未来的工作方向包括预测混合系数和协方差的类混合物内学习我们的DML子网作为一个函数的输入。高RPN回忆是重要的（对于任何两阶段检测器），并且显然更难在少数样本中实现。另一个有趣的未来方向是将我们提出的DML分类器也用于RPN。这将允许提高RPN对新类别的灵敏度，并可能更好地处理初始训练中少数镜头类别与训练类别一起出现的情况。也就是说，类不可知的RPN（如我们的方法）是针对“一般对象”进行训练的致谢：这项研究得到了ERC-StG SPADE PI Giryes、ERC-StG RAPID PI Bronstein和欧盟地平线2020研究和创新项目的部分支持。根据赠款协议688930克。Rogerio Feris通过DOI/IBC合同号D17 PC 00341得到 IARPA的本文中包含的观点和结论是作者的观点和结论，不应被解释为必然代表IARPA、DOI/IBC或美国的官方政策或认可（无论是明示还是暗示）。政府）。5206引用[1] Ankan Bansal 、 Karan Sikka 、 Gaurav Sharma 、 RamaChel-lappa和Ajay Divakaran。零拍摄物体检测。arXiv：1804.04340，2018年。1、8[2] Abhijit Bendale和Terrance Boult。走向开放的世界。IEEE计算机视觉和模式识别会议（CVPR），第1893-1902页4[3] Navaneeth Bodla，Bharat Singh，Rama Chellappa，andLarry S Davis. Soft-NMS -用一行代码改进目标检测。IEEE计算机视觉国际会议（ICCV），第5562-5570页5[4] Dong Chen，Xudong Cao，Liwei Wang，Fang Wen，and Jian Sun. Bayesian Face：一种联合制剂。欧洲计算机视觉会议（ECCV），第566-579页，2012年。3[5] Hao Chen，Yali Wang，Guoyou Wang，and Yu Qiao.LSTD：一种用于目标检测的低拍摄传输检测器。AAAI，2018年。一、三、六[6] Zitian Chen ， Yanwei Fu ， Yinda Zhang ， Yu-GangJiang，Xiangyang Xue，and Leonid Sigal.少样本学习中的语义特征arXiv：1804.05298v2，2018. 第1、3条[7] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络IEEE计算机视觉（ICCV），第764-773页一、二、五、六、七、八[8] 董宣义、梁铮、范马、杨毅、孟德宇。少镜头物体检测。Arxiv：1706.08249，第1-11页3[9] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。arXiv：1703.03400，2017年。3[10] Bharath Hariharan和Ross Girshick通过收缩和幻觉特征的低镜头视觉识别。 IEEE 国际计算机视觉会议（ICCV），2017。第1、3条[11] 何开明、吉欧吉亚·吉欧萨里、彼得·多尔和罗斯·吉尔希克.面罩R-CNN。arXiv：1703.06870，2017年。一、二[12] 高璜，刘壮，吕D. Maaten和Kilian Q Weinberger。密集连接的卷积网络。2017年IEEE计算机视觉和模式识别会议（CVPR），第2261-2269页1[13] Aditya Khosla、Nityananda Jayadevaprakash、BangpengYao和Li Fei-Fei。用于细粒度图像分类的新数据集。IEEE计算机视觉和模式识别会议（CVPR）研讨会，2011年。三、五[14] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的ImageNet分类。神经信息处理系统的进展，第1-9页，2012年。1[15] 布莱恩 · 库利斯。度量学习：调查。 FoundationsandTrends in Machine Learning，5（4）：287 3[16] 林宗义、彼得·多尔、罗斯·格希克、何开明、巴拉特·哈里哈兰和塞尔日·贝隆吉. 用于目标检测的特征金字塔网络。IEEE计算机视觉和模式识别会议（CVPR），2017年。三、五[17] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔和C. 劳伦斯·齐特尼克。Microsoft COCO：上下文中的公用对象。在计算机科学讲座笔记（包括人工智能讲座笔记和生物信息学讲座笔记的子系列），第8693卷 LNCS，第7405[18] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ， Scott Reed ， Cheng Yang Fu ， andAlexander C.伯格。 SSD：单次触发多盒探测器。计算机科学讲义（包括人工智能和生物信息学讲义的子系列讲义），9905 LNCS：21 3[19] Nikhil Mishra ， Mostafa Rohaninejad ， Xi Chen ， andPieter Abbeel. 使用时间卷积的元学习。 arXiv ：1707.03141，2017。3[20] Maria Elena Nilsback和Andrew Zisserman自动交配花类分类繁多 . Proceedings - 6th Indian Conference onComputer Vision ， Graphics and Image Processing ，ICVGIP，pages 722 三、五[21] Omkar M Parkhi，Andrea Vedaldi，Andrew Zisserman，and C V Jawahar.猫和狗。2012年IEEE计算机视觉和模式识别会议（CVPR），第3498-3505页三、五[22] 齐浅，容靳，祝圣火，林元庆。基于多阶段度量学习的细粒度视觉分类。IEEE计算机视觉和模式识别会议（CVPR），07-12-June：3716 二三五六[23] Shafin Rahman，Salman Khan，and Fatih Porikli.零拍摄物体检测：学习同时识别和本地化新概念。arXiv：1803.06049，2018。1[24] 萨钦·拉维和雨果·拉罗谢尔。优化作为少镜头学习的模型。International Conference onLearning Representations（ICLR），第1-11页3[25] Oren Rippel ， Manohar Paluri ， Piotr Dollar ， andLubomir Bourdev.具有自适应密度判别的度量学习。arXiv：1511.05939，第1-15页，2015年。二三五六 7[26] Olga Russakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein，Alexander C.伯格和李飞飞。ImageNet大规模视觉识别挑战。IJCV，9 2015. 1[27] 奥尔加·鲁萨科夫斯基和李飞飞大规模数据集中的属性学习。计算机科学讲义（包括人工智能子系列讲义和生物信息学讲义），6553 LNCS（第1部分）：1 三、五[28] FlorianSchroffDmitryKalenichenkoJamesPhilbinFaceNet：用于人脸识别和聚类的统一嵌入IEEE计算机视觉和模式识别会议（CVPR），第815-823页1[29] Eli Schwartz，Leonid Karlinsky ，Joseph Shtok，SivanHarary ， Mattias Marder ， Abhishek Kumar ， RogerioFeris，Raja Giryes，and Alex M Bronstein.- 编码器：有效5207一种用于少镜头目标识别的样本合成方法NIPS，2018年。3[30] Ross Girshick Jian孙少卿任，Kaiming何。基于注意力连体网络的弱监督单次检测NIPS，第1-9页，2015年。3[31] Abhinav Shrivastava，Abhinav Gupta和Ross Girshick。利用在线硬示例挖掘训练基于区域的对象检测器。IEEE计算机视觉和模式识别会议（CVPR），2016。三、五[32] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。CoRR arXiv：1409.1556，abs/1409.1：1-14，2014年。1[33] Jake Snell，Kevin Swersky，and Richard S.泽梅尔用于少次学习的原型网络。神经信息处理系统进展（NIPS），2017年。一、三、六[34] 孙奇赫改进的多类N对损失目标深度度量学习。神经信息处理系统（NIPS），第1-9页3[35] Hyun Oh Song ， Yu Xiang ， Stefanie Jegelka 和 SilvioSavarese。通过提升结构化特征嵌入的深度度量学习。IEEE计算机视觉和模式识别会议（CVPR），第4004-4012页3[36] Christian Szegedy，Vincent Vanhoucke，Sergey Ioffe，Jonatha史伦斯和Zbigniew沃伊纳重新思考计算机视觉的初始架构。arXiv：1512.00567，2015。三、五[37] L J P Van Der Maaten和G E Hinton。使用t-sne实现高维数据的可视化。Journal of Machine LearningResearch，9：2579 5[38] Oriol Vinyals，Charles Blundell，Timothy Lillicrap，Ko-ray Kavukcuoglu，and Daan Wierstra.匹配网络用于一次学习。神经信息处理系统进展（NIPS），2016年。第1、3条[39] 王健，周峰，温石磊，刘晓，林元庆. 深度度量学习与角度损失在IEEE计算

下载后可阅读完整内容，剩余1页未读，立即下载