基于记忆的邻域嵌入：增强CNN特征嵌入，解决视觉识别问题

37 浏览量更新于2023-10-12 收藏 846KB PDF 举报

视觉识别

图像搜索

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6102基于记忆的邻域嵌入视觉识别中国科学技术大学信息科学与技术学院2中国科学3商汤科技研究lsc1230@mail.ustc.edu.cn，{chendapeng，zhaorui}@ sensetime.com，{flowice，ynh}@ustc.edu.cn摘要学习有区别的图像特征嵌入对于视觉识别具有重要意义。为了获得更好的特征嵌入，目前的方法大多集中在设计不同的网络结构或损失函数，估计的特征嵌入通常只与输入图像有关。在本文中，我们提出了基于记忆的邻域嵌入（MNE），通过考虑其邻域来增强一般CNN特征述的方法原始特征嵌入本文提出的方法是在图上进行的(c) 得到的图嵌入旨在解决两个关键问题，即，如何在网络训练中获取更多相关的邻域以及如何聚集邻域信息以用于更有区分性的嵌入。我们首先在网络中增加一个情景然后，邻居被组织在树图中，目标实例作为根节点。邻域信息以自底向上的方式逐渐聚合到根节点我们将MNE应用于图像搜索和小镜头学习任务。广泛的消融研究证明了每个组件的有效性，我们的方法显着优于最先进的方法。1. 介绍将图像的语义信息编码到特征嵌入中是视觉识别的核心要求来自相同或相关类别的图像被期望映射到流形上的附近点，这对于许多应用来说是至关重要的，如少镜头学习[41，31，37]，视觉搜索[7，13，45]，面部/人识别[20，26，43，2]和细粒度检索[19，18]。有了理想的特征嵌入，分类任务可以减少到这份工作是李穗婵在商汤科技实习时完成的。[14] D. Chen和B.刘先生为共同通讯作者。图1：解释所提出的方法的基本思想的案例。红色节点和蓝色节点分别表示两个类的特征嵌入原始特征嵌入可能无法将不同类别的样本分离为红线连接的两个节点。而我们的方法，考虑到特征及其邻域图，可以修改当前的特征嵌入与他们的上下文结构，并输出嵌入更符合他们的标签。最近邻问题，而检索任务将更容易通过检查图像间的关系。为了用深度神经网络改进特征嵌入作品，国家的最先进的方法主要集中在设计-网络结构。例如，VGGNets [30]和GoogleNet [38]建议增加网络的深度可以提高特征嵌入的质量，而ResNet[10]表明添加基于身份的跳过连接可以帮助学习更深更强的网络。同时，还存在一系列通过施加不同损失函数来监督特征嵌入的方法，包括对比损失[8]，三重损失[45]和四重损失[3]。 Chen等人 [2]在一个图像批内建立了一个图，形成了一种CRF组损失。这些损失函数的主要目标是减少类内变化，同时扩大类间变化。虽然这些努力不断带来更好的特征嵌入，但它们中的大多数估计基于单个图像的特征嵌入，以及丰富的上下文信息。我们的方法我们的方法6103形成被忽视。当同一类别的个体经历剧烈的外观变化时，或者不同类别之间的视觉差异很小时，对于单个图像的嵌入来说，分离不同类别的样本变得非常这种情况的例子如图所示。1a，其中两个类的特征嵌入可以彼此非常接近。尽管如此，如果考虑到特征嵌入及其邻域，两个接近的特征嵌入可以被分类为两个不同的聚类，并且与其邻域的亲和力可以反过来用于修改原始特征嵌入，实现更具区分力的特征，如图所示。1b和图1杯为了有效地增强特征嵌入并充分利用身份标注，本文提出了基于记忆的邻域嵌入（MNE）方法，以充分利用邻域之间丰富的特征和关系。对于传统的神经网络，基于批的训练策略决定了训练样本只能观察同一批图像中的特征。为了获取更多相关的上下文信息，我们用情景记忆来增强网络，情景记忆存储了许多图像实例的必要特征和标签，并且在训练期间根据新计算的CNN特征来对于图像批次中的每个图像在树结构的基础上，提出了一种迭代聚合策略，将邻居节点的信息逐步以这种方式，靠近目标实例的邻居可以比远程邻居对目标实例的嵌入具有更显著的我们还观察到，如果两个节点属于同一个类，它们之间的聚合权重更大，这有助于在每个类中产生因此，一个新的注意力模块被引入到预测的聚合权重，我们监督模块的节点明智的类关系。经过特征聚集的迭代，我们得到目标实例从根节点开始的邻域嵌入。本文件的贡献可归纳为三个方面：（1）我们通过将情节分类扩展到深度神经网络来利用邻域信息进行特征嵌入。存储器可以提供更相关的邻居并支持端到端训练。(2) 提出了一种迭代的特征聚合策略，用于总结邻域中的信息该策略将邻域组织成树形图，并将相关信息逐步传播到根节点。(3) 为特征聚合引入了一个新的注意力模块，并通过节点间的语义关系对该模块进行监督，以更好地分离特征。不同类的嵌入。我们将MNE应用于图像搜索和小镜头学习任务。广泛的消融研究验证了这三种成分的有效性，我们的方法明显优于最先进的方法。2. 相关工作所提出的方法旨在利用上下文进行特征学习。它与图神经网络（GNN）有关，它从图结构中聚合信息，并与转导少数学习方法有一些相似之处基于上下文的特征学习。最近，研究人员开始利用深度神经网络的上下文信息来学习更好的特征嵌入或细化图像间的相似性。 Turcot等人 [39]建议通过合并图像的相邻图像的有用特征来增强图像的词袋表示。 Iscen等人。 [11]通过稀疏线性系统求解器对局部图像区域的描述符进行扩散，以细化图像检索的排名分数。Donoser等人 [5]分析了许多扩散机制，并推导出检索应用范围内迭代扩散过程的通用框架。虽然这些方法试图涉及更多的图像进行特征学习，但它们需要预先计算特征或只能在一个图像批次中获取特征为了解决这个问题，我们用情景记忆模块来增强神经网络。也有一些作品在网络中添加了内存模块Sprechmann等人 [32]使用分类器扩展神经网络，并将旧的训练示例存储在内存中以进行参数自适应。Sukhbaatar等人。 [34]提出了一种在大型外部存储器上的递归神经网络架构，允许在输出符号之前从存储器中多次读取。在我们的例子中，我们从每个训练图像的情景记忆模块中检索邻居，并聚合邻居信息以实现更具鉴别力的特征嵌入。图神经网络图神经网络（GNN）是CNN从常规欧几里德数据到图的直接扩展根据表征学习的思想-Deep Walk [21]提出通过将SkipGram模型[17]与图随机行走相结合来生成图嵌入。GraghSAGE [9]提出以归纳的方式计算节点表示。它为每个节点采样一个固定大小的邻域，然后执行简单的特征聚合，如均值池，最大池和LSTM。与GraphSAGE估计所有节点的图嵌入不同，我们的方法只对目标实例感兴趣。然后，特征聚合可以在树中高效地操作，并且信息逐渐传播到根节点。为了改善特征聚合，Petar et al. [40]建议注意--6104的架构来执行图结构数据的节点分类与[40]相比，我们的方法充分考虑了图像在内存中的注释的优势，并额外地利用节点类关系来监督注意力权重。Transductive Few-shot Learning （ transductive Few-shotLearning）给定一个具有不同类别的标记数据集，少样本学习的目标是为一组看不见的新类别训练分类器，其中只有少数标记的示例可用。与原始的少镜头学习问题相似，transductive少镜头任务同时馈送所有测试实例，这允许我们利用未标记的测试实例。为了解决这个问题，TPN [15]使用邻域图将标签从标记的实例扩展到未标记的实例，其中邻域结构由高斯相似性函数构造。不是表演- 通过标签传播，我们的方法旨在通过特征聚合来增强目标节点的特征嵌入。FEAT [46]通过使用自注意机制将嵌入从任务不可知转换为任务特定。特别地，该算法直接通过注意力权重选择相关实例，然后将其变换后的特征进行组合，得到新的特征嵌入。我们不使用线性特征组合，而是用从内存中检索的邻居构建树图，然后自适应地沿着树聚集到根节点的特征。3. 方法我们的目标是通过检查实例及其邻域之间的关系来增强单个图像实例的嵌入。为了有效地获取特征空间中更相关的邻居，我们用情景记忆来增强神经网络，情景记忆提供了大量实例的必要特征和标签。给定从CNN主干中提取的目标特征，我们从内存中检索它的邻居，并将它们组织成树图。最后的嵌入是通过一个迭代的基于注意力的聚合策略在树。特别是，我们动态地修剪树的叶节点，并通过监督邻域中的成对关系来学习注意力权重。总体框架如图所示。二、3.1. 情景记忆在大多数情况下，一幅图像的特征嵌入已经可以编码其语义信息以供视觉识别。或者，我们也可以通过检查其相邻特征来估计实例的标签，这是因为具有非常相似特征的图像通常属于相同或相关的类。允许快速获取更多相关邻居，同时保留算法1树图构造输入：目标节点t，存储器集合M，树深度H，邻居数K。输出：树图G（t）1：G（t）={t}，h=0，L={t}，其中L是叶节点的集合。2：当h<=H时，3：对于v∈ L，4：N（v）=SEightenEIGHBORS（v，K，M）5：G（t）=ADDN EWL EAFN ODES（v，N（v），G（t））6：结束7：L=GETL EAFN ODES（G（t））8：h=h+19：结束时十： returnG（t）高性能和标准深度模型的良好推广，我们增加了一个情节记忆模块。在训练中，情景记忆M由训练数据的数据和标签组成：M列车={（fi，y i）|i ∈ Dtrain}，（1）其中fi是实例i的特征嵌入，yi是相关联的类标签。存储在内存中的实例的数量通常，更多的实例是首选的，因为它们可以提供更多的相关邻居。为了构建用于视觉识别的记忆，我们首先预训练CNN特征提取器，然后使用提取的特征以及相关标签初始化记忆。在存储器支持端到端训练的情况下，它可以用于在前向传递中在大量候选项上搜索邻居。由于训练会影响CNN主干，因此内存也需要更新。我们将内存中与当前训练示例对应的特征替换为来自CNN主干的新计算的特征。在测试时间内，模型推理不需要标签信息.为了增加内存的多样性，我们可以根据特定应用程序的协议，在验证或测试集中使用未标记的数据来增加内存：Mtest = Mtrain {fi |i ∈ Dtest/val}。（二）3.2. 邻域树图的嵌入我们的方法的主要目的是获得一个更鲁棒的特征嵌入视觉识别。我们不是从单个图像中提取特征，而是从其邻域中“重新估计”特征，该邻域特别地，我们将目标实例作为根节点，然后以迭代的方式构建树。每个6105uexp（）v=+u，v vAAAu，图像集情景记忆街道邻域嵌入的构造树图图2：所提出的基于存储器的邻域嵌入（MNE）的流程图。情景记忆由从预训练的CNN骨干中提取蓝线展示了训练中的数据流，包括特征提取、树图构建和聚合邻域嵌入。我们用CNN主干的特征更新内存算法2聚合邻域嵌入输入：树图G（t），树深度H。输出：G（t）的邻域嵌入f′。其中C（u）是节点u的子节点，并且f0由原始特征初始化。直观地说，目标实例应该对最终1：G0不= G（t），h = 0嵌入为此，我们执行了功能集成-2：whileh Hdo3：// branch节点表示至少有一个子节点4：Bh=GETBRANCHNODES（Gh）5：对于v∈ Bh，6：C（v）=GETC HILDN ODES（v，Gh）7：fh+1=AGGREGATE（fh，C（v））在动态图上的gation，如Alg中所示二、每次，我们更新树中所有分支节点的特征，然后删除叶子节点以形成新树。最后，树只剩下一个节点，其特征是邻域嵌入。我们对邻域嵌入施加交叉熵损失：V V8：结束.ΣIexp（w9：L=GETL EAFN ODES（Gh）10：Gh+1=Gh\L//丢弃叶节点11：h=h+1LC（t）=− yi，tlogi=1it，（4）Iwf′j=1jt12：结束while13：f′=L2 NORM（fH） //归一化其中yi，t是索引标签，如果图像t属于第i类，否则yi，t=0。有我t′t类。14：返回ft此时，我们通过添加来自存储器M的它们的K个最近邻居作为新的叶节点来扩展所有叶节点。树图增长，直到它达到预定义的深度H。详细的程序在Alg中演示。1.一、值得注意的是，我们允许同一个实例出现多个时间在树上。频繁出现的节点通常是实例的嵌入则可以利用邻域树图来挖掘更丰富的信息，3.3. 具有监督注意力的聚合一般的聚合策略，如平均池和最大池，不能确定哪些邻居更重要。为了自适应地聚集来自同一类的特征，这是视觉识别的关键，我们提出了一个网络模块命名为ASA的Aggregate功能与S-viewedA tentence。图中所有父节点的第h个聚合由同一个模块完成（如图1所示）2），表示为ASA-h。在模块中，我们在子节点上引入注意力权重，然后通过以下方式指定聚合：阵由于图中的节点没有排序信息，因此像CNN这样的标准神经网络fhWh. fh−1 Σu A uv∈C（u）ahfh−1+bh，（5）或者RNN不能被直接采用。为了处理图输入，我们在连接的节点之间迭代地执行特征聚合，这逐渐将图中的信息传播到目标实例。具体来说，H-其中，Wh、bh是用于特征变换的参数，并且ah是注意力权重。子节点fh−1的特征嵌入需要映射到接近park的特征嵌入。如果它们来自同一个类，那么，节点u特征聚集可以表示为：fh=AGGREGATE（fh−1，C（u）），（3）注意力权重au，v需要高。不同于大多方法，隐式地学习注意力权重目标图像目标特征聚集ASA-1聚集ASA-2CNN检索骨干更新ASA-1特色介绍. ..聚合后删除叶节点交叉熵损失L2NORM6106u u6107u，vu，vPu，vHu，vBCE损失注意力权重图3：所提出的ASA-h模块的图示。我们通过聚合先前的特征和其子节点的特征来估计节点的当前特征。注意力权重由两个节点是否属于同一类来监督。网络中，我们利用内存中的标签信息来监督注意模块。特别地，注意力权重被设计成与两个节点属于同一类的概率成比例：Σ搜索和转换的少镜头学习。我们现在介绍CNN骨干的选择，相应的两个任务的内存图像搜索。遵循[36]的实践，我们采用ResNet-50 [10]作为骨干网络，并将最后一个下采样块的步长从2改为1，这有助于获得更细粒度的特征。我们预先训练CNN骨干对训练集中的所有类别进行分类，然后使用预训练的网络提取整个训练集的特征，并在训练阶段使用它们来初始化在训练中，我们通过随机水平翻转和随机擦除来增强输入图像[48]，然后使用Adam [12]来优化整个模型。由于CNN骨干已经过预训练，初始学习率为10−5对于CNN骨干和10−4对于模型的其他部分分别我们在20岁之后将学习率衰减0.1epoch，并在40 epoch后获得最终模型。在测试中，我们利用CNN主干提取图库图像的特征，并将其增强到内存中。有了这个记忆，我们估计所有查询和图库图像的邻域嵌入，并利用嵌入来执行图像搜索。hu，vu，v/k∈C（u）胡克 .（六）Transductive Few-shot Learning（transductive Few-shotLearning）为了与现有方法进行公平比较，我们采用了广泛使用的四种方法-概率p h是根据之前的特征层卷积网络[6，31]作为骨干。它能-四个街区。每个块都有一个卷积层，通过以下步骤嵌入fh−1和fh−1u vdh= Wh（ fh−1−fh−1）+bh，内核大小为3，一个批处理规范化层，一个relu激活层和最大池化层。我们预先训练骨干u，v D u v Dph=σ（Wh（dh◦ DH（七））+bh），网络的交叉熵损失的训练集。u，vSu，vu，v S培训遵循情景策略。我们模仿其中Wh，bh和Wh，bh是线性反式的参数在每个训练批次中的N路M-射击任务，以保持-D D S S形成，以获得差异特征向量和对-明智的概率对于dh，我们首先执行逐元素平方，然后将获得的向量投影到标量值，最后使用sigmoid函数σ将标量值归一化到（0，1）内。我们监督父节点与其所有子节点之间的概率：在测试中完成N路M次射击任务。存储器包含当前事件中所有训练和测试图像的特征嵌入。例如，考虑典型的1次5路任务，每个类具有15个测试实例，存储器将具有80（5+5x15）个图像。有了预先训练的CNN骨干[46]，我们仍然使用Adam进行优化。Lh（u）=−Σv∈C（u）[yu，v对数ph+（1−yu，v）log（1−ph）]其中，CNN主干的初始学习率和其他部分为10−4和10−3。学习率在衰减（八）其中u∈ Bh，Bh是第h个如果节点u和v属于同一类，则yu，v=1，否则yu，v=0。图3示出了所提出的ASA-h模块的详细架构。总的来说，我们的MNE是用两种损失函数学习的一个是多类交叉熵损失（等式2）。4），其施加在邻域嵌入上，另一个是二进制交叉熵损失（等式4）。8），其监督每个树中的节点之间的成对概率。4. 执行提出的基于记忆的邻域嵌入（MNE）应用于两个识别任务，即。，图像每5000集增加0.1，30000集后停止训练在测试中，我们首先估计内存中每幅图像的邻域嵌入，然后根据测试图像与训练图像的相似度为测试图像分配标记5. 实验我们在四个数据集上评估了所提出的方法。消融研究主要在CUHK03 [13]和miniImageNet [41]上进行，分别是关于人物搜索和此外，我们报告了DukeMTMC[24]和分层ImageNet [23]的更多结果，以与当前最先进的方法进行比较。注意力重量生成逐元素S形逐元素减投影逐元素平方线性softmax投影归一化父节点嵌入子节点嵌入加权聚合向量和线性投影&一=pp6108基线，无更新MNE搜索深度CUHK03mini ImageNet（一）方法(b)物的比值图4：情景记忆的研究。我们评估（a）记忆更新策略的有效性;（b）存储器大小对mAP和秩-1精度的影响。表1：搜索深度H的影响。对于CUHK03，我们固定K= 12，对于mini ImageNet，我们固定K = 10。为简单起见，省略了95%(a) （b）我们的MNE的嵌入图5：最近邻数K的影响。我们在CUHK 03上报告了mAP和rank-1精度，并在miniImagenet上报告了1次和5次分类精度。5.1. 实验装置数据集。CUHK03和DukeMTMC是两个大规模的个人搜索基准。CUHK03包含14，096个图像，1，467个身份。每个身份都是从两个摄像头捕获的，每个摄像头平均有4.8张图像。我们遵循[47]中提出的训练/测试协议，该协议将数据集分为具有767个身份的训练集和具有700个身份的测试集。DukeMTMC是多目标、多摄像头行人跟踪数据集的子集[24]。它包含由8个摄像头捕获的1，812个身份。总共有36，411个图像，其中702个身份的16，522个图像用于训练，另外702个身份的2，228个图像用作查询图像，其余17，661个图像是图库图像。对于少量学习，迷你ImageNet [41]和分层ImageNet [23]是两个广泛使用的基准。miniImageNet拥有从ILSVRC-12数据集中选择的100个类别的60，000张图像[25]，每个类别有600张图像。根据[22]中的协议，我们使用64个类进行训练，16个类用于验证，20个类用于测试。分层ImageNet[23]也是ImageNet的一个子集，但它有608个类，比迷你ImageNet中的大得多。所有类被归纳为34类，其中又分为20个训练类（351类），6个验证类（97类）和8个测试类（160类）。这种策略确保了训练类与测试类的区别。这是一个更具挑战性和现实的少数镜头设置。评估指标。累积匹配精度图6：特征嵌入的t-SNE可视化。每个点表示从随机选择的30个DukeMTMC身份中的测试图像。不同的身份可以共享相同的颜色。采用rank-1和平均精度（mAP）进行图像搜索。我们使用10，000个样本测试集评估了1次5向和5次5向分类任务，并报告了平均准确率和95%置信区间。5.2. 消融研究我们研究了MNE的主要组成部分，包括情景记忆、树图嵌入和监督注意。5.2.1存储器将情景记忆结合到特征嵌入中是本方法的一个特点，也是进行邻域嵌入的前提我们研究了内存大小和内存更新策略对CUHK03数据集的影响，该数据集可以在训练和测试中提供灵活的内存大小。内存更新。由于CNN骨干在训练中发生变化，内存更新是获得邻域嵌入更新特征的重要步骤。我们比较了三个变体，基线，MNE没有内存更新和建议的MNE。其中，基线方法表示直接从CNN骨干中提取特征。结果表明，该方法是可行的。图4a表明，没有记忆更新的MNE已经显著改善了基线，而记忆更新可以带来额外的增益。它将rank-1准确率从72.9%（（地图rank1单次拍摄5次射击0（基线）62.865.750.4170.52175.775.559.6871.71277.777.460.2072.16376.976.259.8371.126109(a) 香港中文大学03年的mAP（b）（c）一次注射在mini ImageNet（d）5-shot Acc.在mini ImageNet上图7：注意力聚合在CUHK03上用于图像搜索和mini ImageNet上用于转导少数学习的有效性。mAP从74.6%上升到77.7%。内存大小。在测试中，我们采样不同数量的图库图像来构建内存。图4b报告了随采样率变化的性能。可以看出，较大的采样率，即这验证了较大的存储空间可以提供更多的相关邻域来提高邻域嵌入的假设。5.2.2树图邻域嵌入我们提出了基于树图的嵌入网络来利用特征空间中的上下文信息，旨在增强原始CNN特征。由于树图结构对嵌入的重要性，我们首先研究了树结构如何树建设。我们研究邻居的数量K以及树的深度H。来建造这棵树图中，我们通过从内存中添加它们的K个最近邻居来扩展叶节点。当 H=2 时，我们观察了 CUHK03 和miniImagenet上的性能如何随K变化。结果表明，该方法是可行的。结果表明，K值太大或太小都会导致较差的结果。这是因为太小的K将不会得到足够的邻居，而太大的K将引入不相关的邻居，这可能会削弱特征聚合的有效性。我们还观察了H如何影响性能固定K=12在表。1.一、当H=2时实现最佳结果，并且更深的树图不会带来额外的增益。随着搜索深度的增加，可能会引入更多不相关的样本，这可能会损害目标样本的特征嵌入。邻里嵌入与主干功能。两种特征嵌入的性能差距可以在Tab中反映出来1，我们的方法可以-在图像搜索和少量学习任务上都以较大的幅度执行基线1次拍摄场景可以比5次拍摄场景更多地受益于邻域嵌入，这与[15]中的结果一致。随着镜头的增加，更多的标记图像在测试阶段可用，因此邻域嵌入的有效性，即利用未标记的上下文，将表2：BCE注意力丧失对CUHK03和迷你ImageNet。削弱此外，我们采用t-SNE通过CNN骨干和邻域嵌入来可视化来自DukeMTMC的相同30个测试人员的特征嵌入，如图11所示。6，这清楚地表明，结合邻域嵌入可以生成更具鉴别力的特征嵌入。5.2.3监督注意注意力聚集的有效性。我们将所提出的专注聚合与均值/最大值特征池化方法进行了比较，这是总结特征的最直接策略。CUHK 03和mini ImageNet上的结果显示在图中。7，其中注意聚合在两个任务上都优于平均/最大聚合。随着K的增加，mean/max聚类结果变差，而我们的方法是稳定的。注意力监督的有效性。我们施加BCE损失（等式2）。8）在ASA模块中，为了使注意力权重能够反映两幅图像是否属于同一类。Tab中的结果。2、证明我--摆BCE通常可以实现优越的性能。5.3. 与最先进方法的图像搜索。我们报告我们的方法和国家的最先进的方法之间的比较结果在表。3和Tab。4的DukeMTMC和CUHK03，我们的方法显着优于其他人没有任何额外的后处理。我们的方法达到87.5%和77.7%数据集K度量关于BCE不含BCECUHK038地图rank176.875.676.075.0CUHK0312地图rank177.777.473.072.5迷你ImageNet8单次拍摄5次射击59.9271.7658.5171.40迷你ImageNet12单次拍摄60.0459.326110方法Ref单次拍摄5次射击MAML [6]ICML'17四十八70±1。8463岁11±0。92ProteNet [31]NIPS'17四十六岁。14±0。77六十五77±0。70联系网络[37]CVPR'1851岁38±0。8267岁07 ±0.69[46]第四十六话Arxiv'1855. 21 ±0。20七十二17±0。16[23]第二十三话ICLR'1850块41±0。31六十四59±0。28TPN [15]ICLR'19五十三75±0。8669岁。43±0。67[15]第十五话ICLR'1955. 51 ±0。8669岁。86±0。65FEAT+转导[46]Arxiv'18五十六49±0。2172.65 ±0. 16拟议的MNE60.20 ±0. 23 七十二16±0。17表3：所提出的MNE和现有技术方法在DukeMTMC数据集上的实验结果。方法Ref地图rank1SVDNet [35]ICCV'1737.840.9民主党[4]ICCV'1740.543.0[14]第十四话CVPR'1841.044.4MLFN [1]CVPR'1849.254.7[44]第四十四话CVPR'1861.666.1SFT [16]Arxiv'1862.468.2SFT+post [16]Arxiv'1871.774.3拟议的MNE77.777.4表4：所提出的MNE和最先进的方法在CUHK03数据集上的实验结果。DukeMTMC 和 CUHK03 上的 mAP ，分别将竞争性Spectral+post[16]提高了7.9%和6.0%。Spectral+post和我们的方法都在测试中利用了上下文信息，但有两个主要区别。(1)Spectral+post通过使用排名列表的前n个图库项目来细化特征(2)光谱+后处理中的后处理是一种非参数操作，我们的方法是一种参数模型，可以以端到端的方式进行训练。少拍学习。我们在迷你ImageNet和分层ImageNet上比较了我们的方法和最先进的方法，结果在Tab中报告。3和Tab。平均准确度为4，置信区间为95%。可以看出，由于在测试阶段允许转导少镜头方法探索未标记的测试样本，因此转导少镜头学习方法优于大多数原始少镜头学习方法。与此同时，我们的AP-PROACH显著优于所比较的方法，特别是在一次性情况下。最高可达 60.20 ±0. 23% 和 60.04±0. 在miniImageNet和tiredImageNet上分别有28%的单次准确率。值得注意的是，5杆精度FEAT[15]在mini ImageNet上的一个可能的原因是，Feat使用自注意机制来选择相关实例以增强特征嵌入，这类似于我们基于注意力的聚合。方法Ref地图rank1[14]第十四话CVPR'1863.880.5MLFN [1]CVPR'1862.881.0DuATM [29]CVPR'1864.681.8PCB [36]ECCV'1869.283.3部分对齐[33]ECCV'1869.384.4曼克斯[42]ECCV'1871.884.9GSRW [27]CVPR'1866.480.7SGGNN [28]ECCV'1868.281.1光谱[16]Arxiv'1873.286.9光谱+post [16]Arxiv'1879.690.0拟议的MNE87.590.46111表5：所提出的MNE和最先进方法在mini ImageNet上的实验结果。原始少镜头学习和转导少镜头学习方法的结果是分开的。方法Ref单次拍摄5次射击MAML [6]ICML'1751岁67±1。81七十30±1。75ProteNet [31]NIPS'17四十八58±0。8769岁。57±0。75联系网络[37]CVPR'18五十四48±0。93七十一31±0。78[23]第二十三话ICLR'1852岁39±0。44七十25±0。31TPN [15]ICLR'19五十七53±0。96七十二85±0。74[15]第十五话ICLR'19五十九91±0。94七十三。30 ±0。75拟议的MNE60.04 ±0. 2873.63 ±0. 21表6：所提出的MNE和最先进的方法在疲惫的ImageNet上的实验结果。原始少镜头学习和转导少镜头学习方法的结果是分开的。6. 结论在这项工作中，我们提出了一种新的基于记忆的邻域嵌入（MNE）的方法。它通过利用实例邻域中的信息和关系来增强单个图像实例的特征嵌入。我们的方法通过情景记忆来增强网络，这可以在训练和测试中提供更多相关邻居的特征邻居被组织为树，并且它们的特征以自下而上的方式逐渐聚集到目标实例。此外，特征聚合是基于监督注意策略。我们仔细验证了MNE中各个组件在图像搜索和少量学习任务上的有效性，并且我们的方法可以在这两个任务上实现最确认本工作得到国家自然科学基金（批准号：中国科学院重点实验室基金（CXJJ-17 S 044）和中央高校基础研究基金（ WK2100330002 、 WK3480000005）。6112引用[1] Xiaobin Chang，Timothy M Hospedales，and Tao Xiang.用于人员重新识别的多级分解网络。IEEE计算机视觉和模式识别会议，2018年。8[2] 陈大鹏，徐丹，李洪生，Nicu Sebe，王晓刚.基于深度crf的群体一致性相似性学习方法。在IEEE计算机视觉和模式识别会议上，2018年。1[3] Weihua Chen ， Xiaotang Chen ， Jianguo Zhang ， andKaiqi Huang.除了三重态损失：一个深度的四元组网络用于人的重新识别。2017年在IEEE计算机视觉和模式识别会议上发表。1[4] 陈燕北，朱夏天，龚少刚。通过深度学习多尺度表示进行人员重新识别。 IEEEInternational Conference onComputer Vi-sion，2017。8[5] Michael Donoser等人再论检索的扩散过程. CVPR，2013。2[6] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。2017年国际机器学习会议。五、八[7] M Hadi Kiapour ， Xufeng Han ， Svetlana Lazebnik ，Alexan- der C Berg，and Tamara L Berg.在哪里购买：在网上商店匹配街头服装照片。IEEE国际计算机视觉会议，2015。1[8] Raia Hadsell，Sumit Chopra，and Yann LeCun.通过学习一个不变映射来降低维数.在IEEE计算机协会计算机视觉和模式识别会议上，2006年。1[9] Will Hamilton，Zhitao Ying，and Jure Leskovec.大图上的归纳表示学习在神经信息处理系统的进展，2017。2[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议上，2016年。一、五[11] Ahmet Iscen等人区域流形上的有效扩散：用压缩cnn表示法恢复小目标。在CVPR，2017年。2[12] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。5[13] Wei Li ， Rui Zhao ，Tong Xiao ，and Xiaogang Wang.Deep- reid：深度过滤配对神经网络，用于人物重新识别。IEEE计算机视觉与模式识别会议，2014年。一、五[14] Wei Li，Xiatian Zhu，and Shaogang Gong.和谐的关注网络，人的再认同。在IEEE计算机视觉和模式识别会议上，2018年。8[15] Yanbin Liu，Juho Lee，Minseop Park，Saehoon Kim，Eunho Yang，Sungju Hwang，and Yi Yang.学习传播标签：用于少量学习的直推传播网络在学习代表国际会议上，2019年。三、七、八[16] 罗传晨，陈云涛，王乃艳，张兆祥.光谱特征变换用于人的再识别。arXiv预印本arXiv：1811.11405，2018。8[17] Tomas Mikolov，Kai Chen，Greg Corrado，and JeffreyDean. 向量空间中词表示的有效估计。 arXivpreprintarXiv：1301.3781，2013. 2[18] Hyun Oh Song、Stefanie Jegelka、Vivek Rathod和KevinMurphy。通过设施位置进行深度度量学习。2017年在IEEE计算机视觉和模式识别会议上发表。1[19] Hyun Oh Song ， Yu Xiang ， Stefanie Jegelka 和 SilvioSavarese。通过提升结构化特征嵌入进行深度度量学习。2016年在IEEE计算机视觉和模式识别会议上发表。1[20] Omkar M Parkhi，Andrea Vedaldi，Andrew Zisserman等人。英国机器视觉会议，2015年。1[21] Bryan Perozzi Rami Alrfou和Steven Skiena。Deepwalk：社交表征的在线学习。 Acm Sigkdd InternationalConference on Knowledge Discovery and Data Mining，2014。2[22] 萨钦·拉维和雨果·拉罗谢尔。优化作为一个模型的少镜头学习。在2017年的国际学习代表会议上6[23] Mengye Ren ， Eleni Triantafillou ， Sachin Ravi ， JakeSnell ， Kevin Swersky ， Joshua B.Tenenbaum ， HugoLarochelle，and Richard S.泽梅尔用于半监督少镜头分类的元学习。在2018年国际学习代表。五六八[24] Ergys Ristani ， Francesco Solera ， Roger Zou ， RitaCucchiara，and Carlo Tomasi.多目标、多相机跟踪的性能测量和数据集。欧洲计算机视觉会议。施普林格，2016年。五、六[25] OlgaRussakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein，et al.图像网大规模视觉识别挑战。国际计算机视觉杂志，2015年。6[26] FlorianSchroffDmitryKalenichenkoJamesPhilbinFacenet：用于人脸识别和聚类的统一嵌入IEEE计算机视觉和模式识别会议，2015。1[27] Yantao Shen，Hongsheng Li，Tong Xiao，Shuai Yi，Dapeng Chen，and Xiaogang Wang.深度群体混洗随机游走用于人的重新识别。在IEEE计算机视觉和模式识别会议上，2018。8[28] Yantao Shen，Hongsheng Li，Shuai Yi，Dapeng Chen，and Xiaogang Wang.基于深度相似性引导图神经网络的人物再识别。在欧洲计算机视觉会议上，2018年。8[29] Jianlou Si ， Honggang Zhang ， Chun-Guang

下载后可阅读完整内容，剩余1页未读，立即下载