没有合适的资源?快使用搜索试试~ 我知道了~
9119Transformer中的属性代理学习和谱令牌池化的少样本学习何杨吉1、2梁维汉1、2赵东阳1、2周宏宇3葛伟峰1、2于益州3张文强21复旦大学2上海市智能信息处理3香港大学摘要本文提出了新的分层级联变压器,可以提高数据效率,通过属性代理学习和频谱令牌池。视觉转换器最近被认为是卷积神经网络的一种有前途的替代方案,用于视觉识别。但是当没有足够的数据时,它会陷入过拟合,表现出较差的性能。为了提高数据效率,我们提出了分层的cas-caded变换器,利用内在的图像结构,通过频谱令牌池和优化的可学习的参数,通过潜在的属性代理。利用图像的内在结构,通过频谱标记池化来减少前景内容和背景噪声之间的模糊性。而属性替代学习方案的设计受益于丰富的视觉信息的图像标签对,而不是简单的视觉概念分配的标签。我们的分层Cas- caded Transformers,称为HCTransformers,是建立在一个自我监督的学习框架DINO,并在几个流行的少数学习基准测试。在归纳设置中,HCTransformers在mini ImageNet上超过DINO基线9.7%的5向1次精度和9.17%的5向5次精度,这表明HCTransformers能够有效地提取区分特征。此外,HCTrans-former在四个流行的基准数据集( 包 括 mini ImageNet , 分 层 ImageNet , FC 100 和CIFAR-FS)上的5路1次和5路5次设置中显示出明显优于SOTA几次分类方法的优势。训练的权重和代码可在https://github.com/StomachCold/HCTransformers网站。*对应author:wfge@fudan.edu.cn1. 介绍少样本学习[16,33,53]指的是从非常少量的标记数据中学习的问题,这有望降低标记成本,实现低成本和快速的模型部署,缩小人类智能和机器模型之间的差距。少样本学习的关键问题是如何有效地从隐藏在注释数据中的丰富信息中学习。受GraphFPN [71]和GLAM [21]中使用的部分-整体分层概念的如果能够将其嵌入到视觉变换器中来指导特征学习,我们将得到有区别的特征表示。同时,为了避免视觉信息集中在单个概念上,我们需要将图像标签的隐藏信息扩展为更一般的语义表示。如何挖掘这些潜在的信息,并生成一个完整的视觉概念的描述变得重要。在本文中,我们的目标是提高ViT [13]中的数据效率,以进行少量图像分类。具体来说,我们设计了一个Meta特征提取器,它由三个连续级联的变换器组成,每个变换器在不同的语义层次上对前一个Transformer的输出令牌被传递到频谱令牌池化层,以产生后续的输入令牌。频谱令牌池部分基于频谱聚类[38,64],其中相同聚类内的tokens的特征被平均以生成用于后续Transformer的新令牌描述符频谱令牌池化背后的动机是将图像分割层次结构引入到变换器中。这意味着当Transformer执行自注意时,它需要考虑图像布局,而不是简单地通过位置嵌入,而是从不同图像区域的语义关系。在我们的实现中,每个标记可以被认为代表图像中的某个特定区域。9120×我们把每一个令牌作为一个图中的一个顶点和令牌的相似性矩阵描述的边连通性。因此,频谱令牌池化成为图像分割问题,并且可以像归一化切割中那样有效地解决[49]。在实践中,我们插入两个频谱令牌池层之间的三个变压器。由于它们捕获了不同层次结构中令牌的语义依赖关系,因此我们称之为分层级联转换器(写为HCTransformers)。此外,我们相反,我们引入了一个潜在的属性代理学习计划学习强大的视觉概念的表示。我们为每个类产生一些潜在的语义代理来指导深度模型的学习。潜在语义代理还具有可学习的参数,这些参数可以与transformer的参数端到端地联合学习。实际上,它是一种弱监督学习,将图像级标注推广到属性级监督。基于这样的潜在属性代理学习方案,我们避免了直接将图像从预定义的对象类别集合映射到单个视觉概念。本文的贡献如下:• 我们采用ViT作为Meta特征提取器进行少量学习 , 并 提 出 了 分 层 级 联 变 换 器(HCTransformers),通过属性代理学习和谱令牌池化,极大地提高了数据效率。• 我们提出了一个潜在的监督传播计划变压器在弱监督的方式。它将图像标签预测任务转换为潜在属性代理学习问题。通过这种方式,可以有效地监督类令牌和补丁令牌• 我们介绍了一种新的频谱令牌池方案的变压器。它从空间布局和语义关系两个方面对图像区域的依赖由于这样的机制,ViT可以在不同的语义层次上学习更多的区分特征。• 实验证明,我们的HCTransformers在miniImageNet[53]上超过了其DINO基线,并且在多个少量学习基准测试中显著优于其他最先进的算法,包括miniImageNet [53] , 分 层 ImageNet [46] 以 及CIFAR-FS [4]和FC-100 [39]。2. 相关工作Meta-/Few-shot学习。元学习或在多个学习事件中。元学习已经成为少数学习的主导范式[15,51]。已经提出了各种基于元学习的方法用于少数镜头图像分类,例如MAML [15],REGRAB[43],TAML [23],MetaOptNet [28]等。然而,根据[9,17,42],与以标准方式预训练的CNN特征提取器相比,从头开始使用元学习训练CNN显示出较差的性能。还有其他方法专注于更好的特征提取[59],附加知识[56],知识转移[29]和图形神经网络[26]。与以往的元学习方法不同,我们将图像固有的语义层次引入到变换器中,并使用潜在属性代理来监督参数学习。通过这种方式,我们缓解了过拟合问题,并得到了令人印象深刻的结果。变形金刚中的令牌池。ViT [13]直接将Transformer架构应用到视觉任务中,通过补丁嵌入将输入图像分割为16 16个令牌。尽管在几个视觉基准测试中取得了令人印象深刻的结果,但普通Transformer架构专注于关注全局信息,而忽略了本地连接,这阻碍了细粒度图像特征的使用,从而导致其数据饥饿的性质。许多后续的工作通过建立一个渐进的收缩金字塔来解决这个问题,该金字塔允许模型显式地处理低级模式。有一组方法将每个固定窗口内的令牌合并为一个,以减少令牌的数量[7,20,31,40,54,57,66]。相比之下,第二组方法放弃了这一限制,并引入了更灵活的选择方案[8,37,44,67]。而我们的HCTransformers允许令牌自适应地合并与他们的邻居令牌根据其空间布局和语义相似性。在Transformer中管理补丁令牌。ViT [13]增加了一个[cls]令牌来全局汇总补丁令牌的整体然而,其他标记保持表达独特模式的能力,并可能微妙地帮助最终预测。一些作品提出删除[cls]to- ken并通过特定的平均池操作整合补丁令牌来构建全局令牌[7,31,40,45]。LV- ViT [24]探索了联合使用[cls]to- ken和patch令牌的可能性它重新制定的分类任务与令牌标记问题。同样,So-ViT [60]将二阶和互协方差池应用于视觉标记,并将其与[cls]标记组合用于最终分类。我们的方法与这两种方法具有相似的直觉,但区别是明显的。我们将补丁令牌集成为加权和,其中分数是基于它们与全局[cls]令牌的连接来计算的9121×∈S∈∈∈--Ss∈∈其目的是主要利用重要的补丁令牌。此外,我们假设集成的补丁令牌不与[cls]令牌共享特征空间,并在自己的特征空间内监督它们。更高的D′维,记为P(x)。此外,DINO采用多作物培训增强计划。对于任何给定的图像x,它构造一个集合,五分区域,包括两个全球观点,xg和xg1 23. 分级级联变压器3.1. 概述和m本地视图。DINO最小化以下损失以鼓励“局部到全局”的L=1Σ−P(x)logP(x′),HCTransformers的核心是充分利用将transformers训练为强大的Meta迪诺MT G Sxg∈{xg,xg}x′∈V,x′Xg12特征提取器,用于少量学习。 受益于(一)现有的自监督学习技术[6,19],我们使用DINO [6]作为我们的基础学习框架和多作物策略[5]来进行知识蒸馏[22]。在少镜头学习的预训练阶段,我们可以访问图像标签。我们设计了一个潜在的属性替代学习方案补丁令牌和[CLS]令牌,以避免直接从标签学习。为了将语义层次结构纳入转换器,我们在两个ViT之间插入频谱令牌池层[13]。该方法利用输出的斑块相似性矩阵进行谱聚类,将斑块分割成不相交的区域。然后,在同一区域中的补丁的特征平均值被视为一个新的令牌功能,它捕获更高层次的语义信息。在图1中,我们示出了我们提出的方法的完整流水线。3.2. 初步与BYOL [19]类似,DINO [6]采用知识蒸馏框架进行自监督学习,具有两个同构网络:教师和学生,其中教师其中M是对编号2(m+1)。 Pt(xg),Ps(x′)分别是教师网络和学生网络的输出3.3. 属性替代与参数联合学习我们设计了一个潜在的监督传播方案,变压器,以避免监督参数学习,只有通过一个相当有限的一热标签。对于标签空间中的每个视觉概念y,我们的目标是学习a对它的语义属性surrog atez(y)∈R1×D′y→z(y),(2)其中D'是代理描述符维度。当存在C类时,替代描述符ZRC×D′将包含C个元素。在学习过程中,通过代理人来监督学生与此同时,这些代理人需要学习。假设学生的监督学习目标是Lsurr,那么学生及其相关代理的参数θs可以用以下等式基于ViT [ 13 ]架构基础的更新学生参数(θ s)的结果每个网络由Transformer编码器和分类头(即,一个多-θt+1=θt−γ1苏勒θt、(3)层感知器和一个全连接层)。给定一幅输入图像x∈RH×W×C,DINO首先重新构造一个新的图像,z(y)t+1=z(y)t−γ2苏勒、(四)将x成形为一系列扁平化的2D贴片标记tp∈z(y)tRN ×D。 t p然后与可学习的类令牌t cR1×D连接,以获得增广序列TR(N+1)×D。这里,H、W表示输入图像的空间分辨率,C表示图像通道号。 N = HW/P2是得到的补丁数量,其中P表示补丁大小。D表示编码特征尺寸。在通过Transformer编码器之后,序列通过自注意增强其表示。 我们将增强的补丁令牌记为fp(x)。RN×D。就像-明智地,增强的[cls]令牌表示为fc(x)R1×D。此外,令牌相似性矩阵AR(N+1)×(N+1)可以从自我注意过程中获得之后,仅编码的[cls]令牌用于最终预测。我们将这个[cls]标记传递给投影头,其中γ1和γ2是学习速率。在初始化过程中,θs和Z都用高斯噪声初始化按照DINO [6]中的设置,我们使用AdamW优化器[32]和动量更新θs和Z,线性比例法则[?这与中心损失[55]略有不同为了充分利用transformers,我们分别为patch和classtoken学习语义属性代理。监督班级令牌。 在DINO [6]和其他知识提取方法中,学生网络产生D′维上的概率。与传统的监督学习范式不同,D′被设置为一个相当大的9122编码器光谱代币池化类令牌(贴片令牌更新类令牌更新类令牌更新CE损失(CE损失(CE损失(CLS损耗类代孕(CLS损耗类代孕(CLS损耗类代孕编码器编码器编码器光谱代币光谱代币汇集汇集SS结束PTH损耗贴片替代品频谱令牌池编码器编码器2∈L=Σ∈Transformer第一教师Transformer第二任教师第三个老师Transformer视图1输入图像视图2克拉多atte注意力向量更新第一届学生Transformer第二届学生Transformer第三届学生Transformer图1.整体结构示意图HCTransformers包含三组级联的变压器网络,每组对应于一个师生知识蒸馏框架。在训练过程中,每个学员Transformer为每个类别构建并更新代理描述符。在第一阶段中,通过注意图集成的补丁令牌也用于生成补丁代理描述符。在每两个Transformer集合之间,频谱令牌池化层用于将补丁令牌号下采样1,信息聚合不考虑数据集的真实类编号。本文设D′=8192。 为了与DINO的师生知识提炼相一致,我们使用代理损失来监督每个班级的概率发现学习。则类y的代理描述符zc(y)R8192是8192维上的向量。我们使用Softmax操作对zc(y)进行归一化,以获得属性分布zc(y)。在Eq. 1,类令牌丢失变为:cls1Surr2Ps(xg)||zc(y)),(5)(a) 输入图像(b)ViT中的分区(c)之后的分区(d)之后的合并1合并2xg∈{xg,xg}图2.可视化的令牌池结果。在光谱到-12kens池化操作,具有相似语义的相邻标记其中y是输入图像x的标签,并且DKL是Kullback-Leibler散度注意,考虑到局部视图可能在更新类中心时由于信息丢失而引入负面影响。都聚集在一起(c)和(d)表明我们的聚类结果与图像的基本结构很好地一致对同一簇中的像素颜色进行平均。损失变为:监督修补程序令牌。在transformers中,由于缺乏补丁级的anno,补丁令牌很难被监督。pthsurr1= 2 xg∈{xg,xg}DKL(女p(x)||z p(y))、(7)站。 为了监督补丁令牌,我们首先聚合12通过应用注意力映射Ac(x)∈R1×N生成图像x的全局描述符:Fp(x)= Softmax(Ac(x))fp(x),(6)其中Ac(x)表示可以通过计算[cls]令牌和每个补丁令牌之间的相似度来获取的相似度矩阵Fp(x)R1×D是补丁令牌特征。与类标记中的情况类似,我们为每个类都有一个属性代理zp(y)补丁令牌其中z p(y)= Softmax z p(y)。只有全局视图被应用于与上述相同的考虑3.4. 频谱令牌池与Swin Trans- former [31]中的网格池化方案不同,这里我们利用不规则池化方法来更灵活地匹配图像结构。由于transformers将在token之间生成自注意矩阵,因此它为谱聚类算法提供了一个强先验,以便根据它们的语义和语义来分割token。L9123surr∈surrp--surr∈∈∈∈∈--∈surrsurr相似性和空间布局。因此,我们提出了一种基于频谱聚类的池化方法,称为频谱令牌池化。对于ViT中的N个补丁令牌,我们从A中检索补丁之间的注意力矩阵Ap∈RN×N。带分别池化层),我们不联合所有三个变压器端到端。培训分为两个阶段。在第一阶段,我们将前两个Transformer训练为与DINO [6]相同的设置,具有损耗函数bel-low,在空间一致性中,我们维护一个邻接矩阵L阶段1=LDINO+αLcls+βLpth.(九)HRN×N,以反映邻里关系。在在我们的设计中,只有8个连接的相邻令牌与中心令牌连接。我们使用以下公式来检索对称S矩阵。S= A pH + ATHT。(八)通过空间约束,可以查看S然后,我们冻结前两个Transformer的参数,并用等式中相同的损失函数联合训练随后的两组transformer10个。我们在第二阶段只对[cls]代币进行监管,由于由第一个Transformer产生的特征已经具有很强的鉴别能力,因此后续transformer的训练在几个时期内快速收敛。作为用于计算加速的稀疏矩阵。然后,我们对S的每一行执行Softmax运算,以获得最终的邻接权重矩阵S′。利用谱聚类算法[38,49,62]将补丁令牌划分为N′个聚类T=T1,T2,. TN′并使用算法1生成新的令牌。在后向阶段,标记聚类的gra-tone被复制到每个平均的Lstage2=LDINO+αLcls在这项工作中,权重α和β被设置为1和0.1。4. 实验4.1. 数据集(十)代币我们使用Py- Torch实现了频谱令牌池。图2可视化了两个连续频谱令牌池化的结果。算法1:频谱令牌池化算法输入:令牌TRN×D,邻接权重矩阵S′RN×N,要构建的聚类数N′。输出:To k ensT′RN′×D。1 从S′计算归一化拉普拉斯L;2计算前N个eige n向量µ1,µ2,.,L的µN′3构造一个矩阵URN×N′,以包含向量µ1,µ2,.,µN′为列;4对于i = l,…n,设v iRN ′为向量对应于U的第i行;5聚类点(vi)i=1,.,NRN′用K-means算法聚类T=T1,T2,...,TN′ ;6相同聚类中的标记的特征被平均生成n∈ w到k个T′∈RN′×D。3.5. HCTransformers的培训策略在我们的设计中,两个频谱令牌池层插入到三个不同的变压器。这意味着在执行池化操作之后,将先前变换器的输出发送到后续变换器。通过这种方式,标记 被 组 织 为 具 有 不 同 的 语 义 层 次 。 对 于 不 同 的transformer , 我 们 将 输 出 令 牌 数 分 别 设 置 为 784 、392、196。由于在频谱令牌池化中计算本征向量是耗时的(在两种情况下分别为21.3 im/sec和75.2 im/sec我们在四个流行的benck-mark数据集上进行了实验,用于少量分类,包括miniImageNet [53],分层ImageNet [46],CIFAR-FS [4],FC 100 [39]。miniImageNet[53]包含ImageNet [48] [4]中的100个类,随机分为64个基本类,16个验证类和20个新类,每个类包含600个图像。分层ImageNet[46]包含来自ImageNet的34个超类的608个那里总 共 有 779 , 165 张 图 片 。 CIFAR-FS[4] 包 含 来 自CIFAR 100 [27]的100个类,随机分为64个碱基,16个验证,20个新类,每个类包含600个图像。FC 100[39]包含CIFAR 100的36个超类中的100个类,其中36个超类被分为12个基础(包括60个类),4个验证(包括20个类)和4个新(包括20个类)超类,每个类包含600个图像。4.2. 实现细节所有实验均在ViT-S/8上进行(8是每个贴片的大小我们采用DINO的多裁剪策略,将一幅图像随机裁剪和调整为2幅分辨率为2242的全局图像和8幅分辨率为962的局部图像。教师网络包括两个全球视图,学生网络包括所有10个图像军团。在第一阶段,为了训练一个可靠的Meta特征提取器,我们将α和β分别设置为1和0.1,然后由LDINO,Lcls和Lpth产生的梯度处于相同的数量级其他特定参数继承自DINO。在频谱令牌池的第二阶段后一个池化变换器的[cls]令牌输入由前者的变换后的[ cls ]令牌初始化,9124迷你Imagenet分层 Imagenet1发5发1发5发DeepEMD [16]ResNet-1265.91± 0.82 82.41± 0.56 71.16± 0.87 86.03± 0.58IE [47]ResNet-1267.28± 0.80 84.78± 0.52 72.21± 0.90 87.08± 0.58DMF [61]ResNet-1267.76± 0.46 82.71± 0.31 71.89± 0.52 85.96± 0.35BML [73]ResNet-1267.04± 0.63 83.63± 0.29 68.99± 0.50 85.49± 0.34PAL [35]ResNet-1269.37± 0.6484.40± 0.44 72.25± 0.72 86.95± 0.47METAQDA [70]WRN 67.38± 0.55 84.27± 0.75 74.29± 0.6689.41± 0.77TPMN [58]ResNet-1267.64± 0.63 83.44± 0.43 72.24± 0.70 86.55± 0.63MN + MC [69]ResNet-1267.14± 0.80 83.82± 0.5174.58± 0.8886.73± 0.61DC [65]WRN-28-1068.57± 0.55 82.88± 0.4278.19± 0.25 89.90± 0.41MELR [14]ResNet-1267.40± 0.43 83.40± 0.28 72.14± 0.51 87.01± 0.35COSOC [34]ResNet-1269.28± 0.4985.16± 0.4273.57± 0.43 87.57± 0.10CSEI [30]ResNet-1268.94± 0.2885.07± 0.5073.76± 0.32 87.83± 0.59CNL [72]ResNet-1267.96± 0.98 83.36± 0.51 73.42± 0.95 87.72± 0.75基线-余弦ViT-S52.92± 0.17 65.04± 0.14 66.04± 0.20 78.05± 0.16Ours-CosineViT-S74.74± 0.1785.66± 0.1079.67± 0.2089.27± 0.13我们的分类器ViT-S74.62± 0.2089.19± 0.1379.57± 0.2091.72± 0.11表1.在miniImagenet和分层Imagenet上与最先进的5路1次和5路5次性能进行比较,置信区间为95%。ViT-S是我们的基线。前三名的结果根据其相对排名以红色、蓝色和绿色显示评价我们评估5路1杆和5路5杆分类实验。对于每个任务,我们随机选择5个类别。在每个类别中,我们使用1或5个标记的图像作为支持数据,另外599或595个相同类别的未标记图像作为新数据。所报告的结果是超过10,000个任务的平均分类准确率。在Meta测试期间,我们不融合三个学生变压器的特征。我们使用验证集来选择第二个学生Transformer的类标记特征,以生成最终的特征表示。对于模块消融,我们使用单个Transformer的类令牌特性我们使用S2M2 [36]中的简单余弦分类器和线性分类器来预测查询标签。4.3. 与最新结果的选项卡. 1显示了在迷你Imagenet [53]和分层Imagenet[46]上使用最新技术水平(SOTA)方法的1次拍摄和5次拍摄比较结果。我们用简单的分类器比以前的SOTA结 果 好 很 多 。 例 如 , 在 迷 你 Imagnet 上 ,HCTransformers超过SOTA 5.37%(1次)和4.03%(5次)。当我们转向分层Imagenet时,我们的方法在1次拍摄和5次拍摄上分别比最近的DC [65]高出1.48%和1.81%。与DC从基本训练集借用类统计数据相比,我们不需要这样做,我们的分类器是轻量级的。另一个证据是,我们的方法和第三最好的方法之间的差距是5.09%,这有助于验证我们的贡献。我们将这些令人印象深刻的结果归功于我们的网络结构,它可以学到很多东西并保持良好的泛化能力。选项卡. 2、Tab。3显示小分辨率数据集上的结果,即,CIFAR-FS和FC 100。 HCTransformers在这些低分辨率设置中显示出相当或更好的结果:1-shot(1。02%)和5杆(0. 在CIFAR-FS上,1次注射(0.51%)和5次注射(1.12%)在FC 100上。我们观察到,在小分辨率数据集上,我们没有超过以前的SOTA方法太多。我们把这归因于维生素T的修补机制当图像分辨率较小时,如322,它是很难检索有用的表示与有限数量的实际像素裁剪补丁。类似地,DeepEMD [68]还提到补丁裁剪将对小分辨率图像产生负面影响。然而,我们的方法仍然在这两个基准上实现了新的4.4. 消融研究隐性监督传播是否有益?为了证明我们提出的潜在的超视传播方案的有效性,我们进行了一系列的实验,在不同的设置上的迷你Imagenet在第一个训练阶段。选项卡中的结果。4表明,我们提出的方案大大提高了DINO基线的9.70%,1次拍摄设置和9.17%,5次拍摄设置。为了探索补丁和类代理损失是否带来好处,我们将它们替换为ViT中常用的交叉熵损失,以监督参数学习以及DINO损失。5路1射和5路5射性能分别下降4.46%和4.41%。它验证了我们的假设,即当有标签的数据很少时,超-方法主干91251发5发(a) DINO on training set(b)HCTransformers on training set(Ours)(c)DINO on val set(d)HCTransformers on val set(Ours)图3.通过t-SNE [52]在mini Imagenet上的训练集和验证集上可视化DINO和HTransformers的功能。具有相同颜色的点对应于相同的类别。(a)和(b)表明当配备语义代理时,与DINO基线相比,可以学习验证集上的特征分布模式(c)和(d))说明我们的方法可以很好地推广未知数据。方法主干CIFAR-FSDSN-MR[50]ResNet-1275.60 ±0.9086.20 ±0.60TPMN[58]ResNet-1275.50 ±0.9087.20 ±0.60IE[47]ResNet-1277.87 ±0.8589.74 ±0.57方法损失1-shot 5-shot恐龙-6157± 0。16 75.51 ±0.12DINO CE 66.81±0.17 80.27 ± 0.12DINO PTH 63.17±0.16 78.59 ± 0.12DINO CLS 68.95±0.17 82.83 ± 0.11PSST[10]WRN-28-1077.02 ±0.3888.45 ±0.35BML[73]ResNet-1273.45 ±0.4788.04 ±0.33我们的CLS+PTH71.27±0.17 84.68±0.10PAL[35]ResNet-1277.10 ± 0.7088.00 ±0.50MN +MC [69]ResNet-1274.63 ±0.9186.45 ±0.59RENet[25]ResNet-1274.51 ±0.4686.60 ±0.32METAQDA [70]WRN75.95± 0.5988.72 ±0.79ConstellationNet [63]ResNet-1275.40 ±0.2086.80 ±0.20基线-余弦ViT-S57.75 ±0.1672.15 ±0.12我们的余弦ViT-S78.89 ± 0.1887.73 ±0.11Ours-ClassifierViT-S78.88± 0.1890.50 ±0.09表2.在CIFAR-FS上与最先进的5路1次发射和5路5次发射性能进行比较,置信区间为95%。前三个结果以红色、蓝色和绿色显示.方法主干1-shotFC 1005-shot[68 ]第68话46.47 ±0.7863.22 ±0.71[47]第四十七话47.76 ±0.7765.30 ±0.76美国[73]45.00 ±0.4163.03 ±0.41ALFA+金属[3]ResNet-1244.54 ±0.5058.44 ±0.42MixtFSL[1]ResNet-1241.50 ±0.6758.39 ±0.62美国[35]47.20 ±0.6064.00 ±0.60[58]第五十八话46.93 ±0.7163.26 ±0.74[69 ]第69话46.40 ±0.8161.33 ±0.71[63]第63话43.80 ±0.2059.70 ±0.20基线-余弦ViT-S40.83 ±0.1550.93 ±0.15我们的余弦ViT-S48.27 ± 0.1561.49 ±0.15Ours-ClassifierViT-S48.15± 0.1666.42 ±0.16表3.与FC 100上最先进的5路1次发射和5路5次发射性能进行比较,置信区间为95%。前三个结果以红色、蓝色和绿色显示。具有独热向量的变换器将显示较差的泛化能力。CE:交叉熵损失,PTH:pth损失,CLS:cls损失。表4.结果的第一个学生Transformer训练与不同的监督迷你Imagenet。所有模型都基于DINO基线。”CE” stands for thecombination of a cross- entropy”CLS” stands for thecombination of the class surrogate loss and theβ1-shot 5-shot1 61.45±0.16 78.59 ± 0.120.1 71.27± 0.17 84.68± 0.100.01 70.40±0.16 84.07 ± 0.10表5.在miniImagenet上测试了第一个学生Transformer的贴片替代损耗的不同β值的选择我们还分别测试了类和补丁代理损失的影响。当我们去除Eq.9、5向1射和5向5射精度下降2.3%和1.85%。如果我们从等式中删除类令牌损失9时,性能下降到63.17%和78.59%,这表明类代理损失是获得良好性能的关键。实验结果表明,这两种谐波损耗对变压器的训练是有效的.我们尝试将不同的权重β分别设置为1,0.1,0.01,以用于补丁代理损失。选项卡. 5显示将β设置为0.1最适合当前设置。9126××× × ×××××分辨率/贴片1-shot 5-shot562/271.99±0.17 85.04±0.111122/472.80±0.17 85.93±0.112242/873.28± 0.16 86.49± 0.11表6.第一个学生Transformer的性能,它在CIFAR- FS上以不同的分辨率/补丁大小拍摄图像。培训模式stage1 stage2 stage3逐个71.27± 0.17 74.40±0.17 73.01 ± 0.18端到端71.27± 0.1774.74±0.1772.66 ± 0.18表8.以一个接一个或端到端的方式训练最后两组变压器的烧蚀。transformers学习更好的特性。型号8422242IE [47] 66.82±0.80 60.88 ± 0.81DeepEMD [68] 65.91±0.82 63.07 ± 0.81表7.图像分辨率对miniImagenet上两种最先进方法的影响,用于5路1次分类。输入分辨率如何影响结果?在我们的实现中,图像被调整为224 224,这高于传统的基于CNN的方法,如IE[36,47]。进行多个实验以证明这种分辨率产率适合ViT [13],而其他最先进的方法,包括IE [47]和Deep-EMD [68],未能利用高分辨率输入。为了测试我们的HCTransformers在拍摄不同分辨率图像时的性能,我们在CIFAR-FS上进行了实验[4]。 我们将图像大小调整为3232至54五十四岁112和224。补丁大小为2 2,44和88。不同设置的结果列在选项卡中。6,表明更高的分辨率导致更好的性能。我们认为更高的分辨率将使反式-前者在输入片中获得更多的信息并产生稳定的片表示。我 们 还 运 行 其 他 国 家 的 最 先 进 的 方 法 在 迷 你Imagenet 在5路1拍摄设置,将分辨率提高到224224,并列出实验结果在选项卡中。7 .第一次会议。它们在高分辨率下的性能比原来的要差。结果表明,更高的分辨率总是会导致性能的改善,在少数拍摄的学习任务。与我们类似,BML [73]也对具有高分辨率输入的DeepEMD进行了实验,但未能获得令人满意的结果。在第二个培训阶段是否需要进行端到端培训为了测试逐个训练最后两组变压器是否更好,我们训练第二组变压器,然后冻结它们的参数来训练第三组变压器。如Tab.所示。8、逐个训练最后两组变压器导致可比较但比端到端变压器稍低的性能。原因可能是端到端联合训练后两组变压器可能有助于第二组变压器。5. 限制HCTransformers在少数镜头分类中取得了良好的效果,但目前的设置要求图像具有相当大的分辨率,以平息补丁内可能出现的混乱,以构建稳定的补丁级表示。当输入图像的分辨率较低此外,频谱令牌池是耗时的。它将限制HCTransform- ers在许多实际应用中的使用6. 结论我们提出了分层级联变换器,可以提高数据效率,以解决少拍图像分类的任务。尽管视觉Transformer我们提出的方法引入了一个潜在的监督传播技术,隐式监督参数学习与属性代理,可以学习。我们提出了一个方案,以集成补丁令牌,可以在互补的[CLS]令牌。此外,频谱令牌池被提出来嵌入对象/场景布局和语义之间的关系,变换器。我们提出的HCTransformers不仅显著优于DINO基线,而且在迷你Imagenet,分层Imagenet数据集,CIFAR-FS和FC 100上的明显优势也超过了以前最先进的方法7. 确认本工作得到了国家重点科技攻关项目的资助 &(2020 AAA 0108301),国家自然科学基金上海市科学技术委员会科技创新行动计划(编号:62072112)(编号:20511103102),复旦大学-CIOMP联合基金(编号FC2019-005),双一流建设基金国家自然科学基金资助项目(No.62106051)、上海市浦江项目( No.21PJ1400600 ) 、 上 海 市 科 技 重 大 专 项(No.2021SHZDZX0103)。9127引用[1] ArmanAfrasiyabi,Jean-FrancoisLalonde,andChristianGagn e´. 基于混合特征空间学习的f-shot图像分类。在IEEE/CVF国际计算机视觉会议(ICCV)会议录中,第9041-9051页,2021年10月。7[2] Marcin Andrychowicz , Misha Denil , Sergio Gomez ,Matthew W Hoffman , David Pfau , Tom Schaul ,Brendan Shillingford,and Nando De Freitas.通过梯度下降来学习。神经信息处理系统的进展,第3981-3989页,2016年。2[3] Sungyong Baik,Janghoon Choi,Heewon Kim,DoheeCho,Jaesik Min,and Kyoung Mu Lee.具有任务自适应损失函数的元学习,用于少量学习。在IEEE/CVF计算机视觉国际会议论文集,第9465-9474页7[4] LucaBertinetto,Jo aoF. 菲利普·H·亨里克斯S. T或r,还有安德里亚·维达尔迪。元学习与可微封闭形式求解器。在第七届国际会议上学习表示,ICLR 2019,新奥尔 良 , 洛 杉 矶 , 美 国 , 2019 年 5 月 6 日 至 9 日 。OpenReview.net,2019年。二、五、八[5] Mathilde Caron , Ishan Misra , Julien Mairal , PriyaGoyal,Piotr Bojanowski,and Armand Joulin.无监督学习 视 觉 特 征 对 比 聚 类 分 配 。 arXiv 预 印 本 arXiv :2006.09882,2020。3[6] MathildeCaron , HugoTouvron , IshanMisra , Herve'Je'gou , Julien Mairal , Piotr Bojanowski , and ArmandJoulin.自我监督视觉转换器中的新兴特性。arXiv预印本arXiv:2104.14294,2021。三、五[7] Boyu Chen , Peixia Li , Baopu Li , Chuming Li , LeiBai , Chen Lin , Ming Sun , Junjie Yan , and WanliOuyang.Psvit:通过令牌池和注意力共享实现更好的视觉 Transformer 。 arXiv 预 印 本 arXiv : 2108.03428 ,2021。2[8] 陈天龙、程昱、甘哲、陆远、张磊、王张扬。在视觉转
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功