少样本学习中的微调增强：选择采样方法

78 浏览量更新于2023-12-01 收藏 973KB PDF 举报

少样本学习

深度网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文在少样本学习中增强微调：使用选择采样Ran Tao，Han Zhang，Yutong Zheng，Marios Savvides卡耐基梅隆大学taoran1@cmu.edu，Hanz3，yutongzh，marioss@andrew.cmu.edu摘要在最近的工作中，利用在Meta训练集上训练的深度网络作为少量学习的强大基线。在本文中，我们通过微调经过训练的深度网络来改进新类别特征。Finetuning旨在减少新类特征分布中的偏差，我们将其定义为两个方面：类不可知和类特定偏差。类无关偏差是指由领域差异引起的分布偏移，我们提出了分布校正模块（DCM）来减少这种偏移。DCM在优化过程中具有消除区域差异和快速特征自适应的优点类特异性偏差是指在新类中使用少量样本进行估计时产生的有偏估计，本文提出了选择抽样（SS）方法来消除这种偏差。在不推断实际类分布的情况下，SS是通过使用支持集样本周围的建议分布运行采样来设计的。通过使用DCM和SS进行微调，我们在Meta-Dataset上实现了最先进的结果，并在来自不同领域的十个数据集上实现了一致的性能提升我们相信我们简单而有效的方法证明了它的可能性，适用于实际的几个镜头的应用。介绍在最近的研究中（ Chenetal.2019;Tianetal.2020;Chenetal. 2020;Dhillon等人2019），在少量学习中利用良好的特征嵌入的重要性得到了很好的研究和解决。使用元训练集（基类）将特征嵌入预训练为对元测试集（新类别）进行微调（ Tian 等人， 2020年;Yang，Liu和Xu 2021年;Dhillon等人，2022年）。2019）被证明超越了大多数元学习方法。然而，只有微调元测试集上的分类器才能保持特征嵌入不变。预先训练的特征提取器足以在基类上具有定义良好的特征分布，而对于新类则不然。新类可能来自于与基类不同的各种域从全局上看，新类别的初始特征分布主要受领域差异的影响。局部地，特征没有被训练成在类内紧密地聚类并且在类之间很好地分离，这加剧了仅对少数样本的有偏估计。小说中的偏见Copyright © 2022 ， Association for the Advancement ofArtificial Intelligence（www.aaai.org）. All rights reserved.分布校准(a) 通过分布校准模块（DCM）减少类别不可知的偏差。对于来自不同领域的新类别，特征分布可能是偏斜的，我们提出的DCM是为了消除特征分布中的领域差异。(b) 通过选择性抽样减少类别特定偏倚。如左图所示，少量样本导致有偏均值估计。在右边，通过选择性地采样更多的特征，估计中的偏差大大减少。平均估计值向具有较高样本密度的区域校正图1：关于特征分布中的偏差的说明。类特征分布解决了细化新类特征的重要性在我们的工作中，我们通过仅使用少量样本对元测试集上的特征提取器进行微调来改进新颖类特征。我们专注于减少偏见的新类特征分布，将其定义为两个方面：类不可知和类特定的偏见。类无关偏差是指新类和基类之间的领域差异导致的特征分布偏移。由于域差异，来自新类别的未细化特征可能在某些主要方向上聚集，这导致如图1a所示的偏斜特征分布。换句话说，当直接使用预训练的特征提取器时，新类别的特征分布被域差异移动类特异性偏倚是指使用arXiv：2204.03749v2 [cs.CV] 2022年6+v：mala2255获取更多论文只有一个类中的几个样本有偏估计对于少次学习总是至关重要的。由于只知道几个样本，一个类内的特征分布的估计是有偏差的，如图1b所示。经验估计值与其真实值之间的偏差会随着样本数量的增加而减小。在每类分布下运行抽样是扩大支持集最直接的方法。然而，当每个类别分布未知时，这不适用在我们的工作中，我们提出了分布校准模块（DCM），以减少类不可知的偏见。DCM被设计为通过归一化新类的整体特征分布来消除域差异，并进一步重新成形特征流形以在微调期间快速适应对于类特异性偏差，我们提出了选择性抽样（SS）来增加更多的数据，以获得更好的估计。更具体地说，选定采样发生在以支持集的每个数据点为中心的建议分布链上。整个采样过程由一个验收标准指导，即只选择有利于优化的DCM通过分布校正消除了领域差异，提高了Meta- Dataset评价中10个不同领域数据集的一致性同时，我们从理论上分析了DCM是如何设计用于快速特征自适应的，并在图中展示了与直接微调相比四、此外，基于DCM的竞争性能，使用选择采样减少类特定的偏差可以进一步提高微调性能，超过10个数据集。在不推断实际特征分布的情况下，我们选择的样本可以有效地探索未知的特征空间并增加特征，以减少估计中的类特定我们的贡献：（1）我们理解当使用预先训练的特征提取器时，新类别特征分布中的偏差。通过提出通过DCM和SS来减少类无关和类特定的偏差，我们通过域无关的一致性能增益来增强微调。2）提出了一种有效的选择性抽样策略，用于指导样本特征以减少类间偏差。在不推断类别分布的情况下，选择性采样有效地扩大了特征空间上具有信息数据3）通过在元数据集上的综合实验，对该方法进行了我们实现了最先进的性能和来自不同领域的十个数据集的显着一致的性能改进我们希望这项工作也能有助于对面向分类任务的特征空间的理解。相关工作关于Few-Shot Problem小样本学习是近年来一个非常活跃的研究领域。元学习方法的分支（Finn，Abbeel和Levine2017;Rusu等人。2018;Vinyals 等人。 2016;Snell ， Swersky ， andZemel2017;Sunget al. 二〇一八年;Chen et al.2020;Simon et al.2020）设计用于直接反向传播测试集的损失，同时使用训练集提出分类假设。此外，方法并不只依附于Meta学习.有：通过对更多样本进行幻觉化的数据论证（ Hariharan 和Girshick2017;Wanget al.2018），使用岭回归或支持向量机进行优化（Bertinetto et al.2018;Lee et al.2019），使用图神经网络（ Garcia 和 Bruna2017;Kimetal.2019），自/半监督学习（Ren et al.2018;Gidaris et al.2019;Li et al. 2019 b;Wang et al. 2020），学习语义信息（李等。 2020 ），类权重泛化（ Gidaris 和Komodakis2018，2019;Guo和Cheung2020），专注于空间特征的模块（Li et al. 2019a;Hou et al. 2019;Doersch，Gupta 和 Zisserman2020 ），知识蒸馏（ Tian 等人2020）。最近（Triantafillou et al.2019）提出了一种更现实的少次学习评估方法，其中对来自不同领域的10个数据集进行了评估，其中大规模的元训练集来自ImageNet（Krizhe vsky，Sutskever和Hinton 2012）。元数据集的评价不仅要求算法在小样本学习上有良好的性能，而且对不同领域的泛化能力提出了更高的要求。分布校准（Yanget al. 2020;Yang，Liu和Xu2021）最近引起了人们对少拍学习的关注。在（Yang，Liu，and Xu2021）中，为了进行采样，基础类和新类之间的相似性度量可能限制其在跨域问题中的应用。与他们的方法不同，我们处理从粗到精的偏差减少的分布校准类不可知的偏见减少进行，以消除偏态显示在整体特征分布。此外，类特定的偏见是减少抽样使用的建议分布与支持集为中心我们的方法在特征空间上直接采样，而不推断每个类的实际特征分布近年来，在小样本学习中，已有一些关于特征变换的研究 .（Wang et al.2019）使用基类的平均估计来规范化新类特征，而不考虑新类和基类之间的域差异。（Liu etal.2020）提出了在归一化后对一次性学习的特征进行随机修剪，并且随机修剪有望找到适合新类域的特征嵌入的一部分。我们直接解决了特征分布中的域偏移问题，并且如稍后所示，这些类敏感特征在微调期间被Finetuning结果（Tri-antafillou et al.2019）是用元训练集对K-最近邻训练模型进行微调（然后对元测试集进行内环微调）;我们的方法的实验更精确地定义为（内环）微调，即在评估期间仅使用元测试集的一集内的支持集。（内循环）微调是一种尝试，以达到一个良好的分类，通过只有少数的训练样本。（Dhillonetal. 2019）提出了转换微调，其中也涉及查询集。+v：mala2255获取更多论文σ·|⟨·⟩Σ∗DCexpw，f（x）f<$（x）=θ is（6）C伊什θ∗σ我σσNsθ我θ我焦点f向wy方向靠近，其i=1y方法利用特征提取器解决少镜头问题我们首先用符号形式化少数镜头分类设置令（x，y）表示具有其地面真值标记的图像。在少次学习中，训练集和测试集分别被称为支持集和查询集，统称为C路K次集。我们称之为火车-ing （ support ） set asDs={ （ xi ， yi ） }Ns and test（query）setN注意，μ和σ是描述所有获得的新类的特征分布的对于在某些方向上倾斜的特征分布，所呈现的µ和σ可能远离正态分布。我们首先应用校准分布以接近零中心均值和单位标准差：fi−µ。这种通过特征归一化进行的差异校正有助于校正由大的域差异i=1设Dq={（xi，yi）}q，其中yi ∈C，|C|是数字且Ns等于C×N ×K。∗基本类和新类之间的区别同时，在精细操作期间启用快速特征自适应调音对于特征向量，存在位置编码对于监督学习，学习统计量θ=θ（Ds）类别敏感信息和位置编码通用通过交叉熵损失对Ds信息. 类敏感位置上的值预计会因类而异，以区分它们。相似值-θs = argθ1min Ns （x，y）∈Ds-log p θ（y|（x）（1）UE是从所有样本中的公共位置获得的，代表了一些域信息，但对分类贡献不大。通过这种标准化，这些位置其中pθ（x）是模型响应于输入x预测的C上的概率分布。更具体地说：与对公共信息进行编码的位置相比，对类别敏感的特征进行编码相对突出我们进一步在校准的特征嵌入中逐元素地乘以尺度向量p（y = k|x）=<$exp<$wk，f θ（x）<$j=1Jθ（二更）f（x）−µθ iσ是指具有类pro的特征之间的点积，原型广泛应用于（ Snell ， Swersky ， and Zemel2017;Qi，Brown，and Lowe2018;Chen et al. 2020），新的类原型wc，c∈C是来自支持集Ds的平均特征：是元素乘法。为了简单起见，我们使用fi= f θ（xi）来表示。尺度向量在微调期间是可学习的。逐元素乘法允许尺度向量上的每个位置可以独立地优化，并且因此，整个特征嵌入可以在1wc= Nsfθ（x）（3）x∈Ds新的类由这个规模向量。由于s与fi逐元素相乘，因此在下面的在我们的工作中，fθ（x）首先使用交叉熵损失使用元训练集进行预训练;并且在每个测试事件中，通过使用Ds微调fθ（x）来学习θ=θ（Ds）。给定一个测试数据x，其中（x，y）∈ Dq，y被预测：在讨论中，我们仅示出了特征向量上单个位置处的偏导数。在以平均特征作为类原型的1次拍摄情况下，我们有：Cy=argmaxp（c|（四）Li|x）− 1）fi −µ+p（j|x）fj −µ]在这个基本的微调框架下，我们提出了分布-j/=yi（七）bution校准模块和选定的采样，如下节所述。通过分布校准模块减少类别无关偏差我们提出了一个易于插入的分布校准模块（DCM），以减少由域差异引起的类无关偏差。减少类不可知偏差的第一步是校准偏斜的特征分布。预先训练的特征提取器f θ（x）可以提供初始特征空间，从大规模数据集中学习一般不变特征。 θ=θ（base）足以很好地分类那些基类，这使得它不足以很好地区分新的班新类别的总体特征分布可以在对fi和fj应用分布校准之后，类别敏感位置的s的梯度具有比普通位置相对更大的值特征之间的差异并且特征流形将快速适应于其中突出部分被放大的形状。通过选择性抽样降低类别特定偏倚类中的有偏估计不可避免地阻碍了特征的优化。在微调期间，（x，y）的特征f的梯度为：C由于它的属性域而倾斜。特征分布可以用统计学的方法描述：i=（p（y|x）−1）w+ p（j|x）w（8）Jjyµ=1µ1f（x），σ=n（f（x）−µ）2（5）布xi∈DsNs+v：mala2255获取更多论文xi∈Ds作为p（y|x）≤1，梯度下降的优化+v：mala2255获取更多论文布拉奇|−我|N|我Ns我y初始特征分布迭代10迭代20重叠初始特征分布迭代10迭代20重叠杂散点(a) 没有选定的采样。特征分布的优化被支持集中的一个偏离点所分散。(b) 选择采样。SS有助于减少由离群点带来的均值估计偏差。在优化过程中，偏离点逐渐向大多数聚集，而不是分散聚类。图2：在2d特征空间中对MNIST进行微调w/o选定采样。我们绘制了两个新类的所有测试样本的不同迭代，以可视化特征分布的变化。使用选择采样来减少均值估计中的偏差，在同一类中特征分布更加紧凑。两类之间的重叠要小得多，样本密度也更小。ground-truth类原型。对于c类，在计算预测概率时，使用支持集的平均特征作为类原型（Snell，Swersky和Zemel2017;Qi，Brown和Lowe 2018;Triantafillou等人。ing.如图2a所示，支持集中的点可能偏离类别分布中的大多数偏离点会扩大估计偏差，因此在优化过程中，特征分布的聚类会受到以下因素的干扰2019年）：w =1个x∈D fθ（x）. 这是一个经验主义的估计，偏见使用支持集的平均值。我们将类分布的真实平均值表示为mc。我们进一步定义经验估计与其真实值之间的偏差项δc为：δc=wc−mc（9）对于少样本学习，由于w是从少量数据中估计的，因此δc确实不可忽略。如Eq. 9，wy可以用δy+my代替。则特征f的梯度为：C增加更多数据是减少偏差的有效方法。如果更多的特征可以被采样并添加到一个类中计算类原型的序列中，那么由偏差引起的影响将大大减少。然而，每个类的特征分布是未知的，这使得不能从该分布直接采样。在不推断实际特征分布的情况下，我们提出了选择抽样，它指导了在一个建议分布下的Monte-Carlo抽样。通过利用支持集中的每个已知数据，i=（p（y|x）− 1）δ +（p（y|x）− 1）m + p（j|x）wyJ几个样本引导Monte-Carlo抽样的方向，我们直接将特征增加到支持集中。为j/=y（十）每个已知的数据点（xi，yi）中的对应向量f向其类原型wy的优化可分解为两部分：一部分（p（yx）1）δy由偏差和真均值my支配.理想情况下，特征应该紧密地聚集在m周围，精细特征分布。然而，（p（y|x）−1）δ yin the gra-特征空间表示为fi，建议分布Q（f′f）=（fi，f′）用于采样f′。p（yf）是确定性变量，作为给定特征f的分类器的预测logits。通过准则p（y i）查询采样点|f′）> p（y ′）|（i）在确定AC时-梯度通过将f移动到接近偏差来分散f的优化这不可避免地阻碍了少数学习的优化-容差如果接受，f'成为新的起始特征使用建议分布N（fi′，σ2）运行下一个采样步骤的点;如果被拒绝，则（xi，yi）的采样过程布S+v：mala2255获取更多论文N我I>Σ我Σ我⟨⟩j=1J 我图像转换为128x128（ResNet18）和224x224（ResNet34）N（f（0），n=2）中文（简体）（1）（2）中文（简体）F中文（简体）Accep t f（4）：P（y| f（3）） p（y ′）|fi）：不同领域的数据集。元数据集的跨域属性为了严格验证不同领域下的特征适应能力，我们使用ImageNet专用训练集对特征提取器进行预训练。实现细节骨干的预培训：网络和培训环境的选择。ILSVRC-2012（Russakovsky et al. 2015）在Meta中-数据集分为712个训练类，158个验证类和130个测试类。我们使用712个类的训练集来训练两个具有主干的特征提取器：ResNet18和ResNet34。对于ResNet 18，我们遵循 Meta-Baseline 中相同的协议（ Chen etal.2020），即：图像随机调整大小，裁剪为128 x128，水平翻转和归一化。对于 ResNet34 ，我们遵循（Doersch，Gupta和Zisserman2020）中相同的结构修改，其对最后一个残差块使用步幅1和扩张卷积，初始学习率被设置为0.1，权重衰减为0.0001，并且每30个epoch减少0.1倍，总共90个epoch。这两个模型都是使用批大小为256的SGD优化器训练的。expwk，f'经验值k，fi（十一）评估和微调的设置。总Cj=1 expwj，f'Cj=1 expwj，fi对元数据集的评估利用了灵活的事件采样（Triantafillouet al. 2019年，它允许最大-分子expwk，f'代表距离是-补间要素及其类原型和分母妈妈的500个图像在支持集在一集。在微调阶段，尺度向量s被初始化为值. 数据论证工作作为补充和中心裁剪Cexp一个包含所有类原型的特性。该准则表明，在高维特征空间中，采样点在更接近其类原型或远离其他类的情况下无论哪种方式，确保接受点提供有用的信息，避免随机游走采样的缺点。在特征空间上的这种选择的采样允许探索未知特征空间，同时仍然控制采样的质量以优化。如图2b，通过用选定的样本扩大支持集选择采样是每个迭代的持续过程，有助于增强特征分布聚类。实验验证在本节中，我们首先进行全面的烧蚀实验，以验证DCM和SS的有效性，并分析我们的方法如何在镜头分析下提高性能然后我们将我们的结果与其他最新降低标准化。我们遵循《古兰经》的教导。2019年），学习率为0.00005，Adam优化器和总共25个时期。用于采样的建议分布中的σ被设置为0。1.一、采用整批更新进行了微调实验。消融研究我们首先研究了在使用典型类原型（支持集的平均特征）进行微调时应用DCM的重要性，然后在应用DCM时，我们添加SS来重新定义类原型。所有消融结果见表。1.一、DCM支持竞争领域无关的快速功能调整，以进行微调。DCM有两个功能：特征归一化和尺度向量乘法.我们首先独立地评估特征归一化（FN）带来的仅仅微调骨干并不能保证+v：mala2255获取更多论文ILSVRCOmniglot飞机CU_鸟类DTDQuickdraw真菌Vgg_flower交通标志MSCOCO一点两点1.750.951.500.901.250.851.000.750.800.500.750.250.000 5 10 15 2025时代0 5 10 15 20 25时代(a) （b）损失图4：元数据集标准基准的收敛曲线对于每个数据集，我们绘制了微调期间每个时期600集的平均准确度和损失虚线表示微调骨架，实线表示用DCM微调骨架。对于所有10个数据集，使用DCM微调主干显示出更快的速度，以达到良好的训练精度和更低的损失值。BSFNSSILSVRCOmni阿克拉夫特鸟类DTDQDraw真菌花签署CocoC58.4758.6169.8077.1154.3569.8776.5175.2075.4776.8277.6885.8644.4744.3189.1091.3448.1870.5656.9356.96CC59.1077.6971.8478.8076.4886.0047.2892.3074.4357.94CCC59.9678.7072.3278.3076.9686.0447.5191.9576.3957.32CCCC60.9480.4572.9379.8577.7886.747.8592.4677.88五十八点八五表1：使用ResNet18对DCM和SS进行消融研究使用平均600次发作报告结果分别或组合使用骨干（B）、尺度向量（S）、特征归一化（FN）和选择采样（SS）的微调被验证。由于不同的域间隙，所有数据集的性能提高，特别是对于CU-鸟类和真菌，如表所示。1. 在这些数据集中，微调主干实际上并不起作用，提高3。10%的CU-鸟类和3。39%的真菌通过简单地添加特征归一化。通过添加尺度向量，10个数据集中有7个数据集的性能得到了进一步提高。这些结果表明DCM改善了对来自不同领域的数据集进行微调的一般化我们进一步绘制了图中微调迭代过程中的训练损失和准确性。4.曲线图显示，DCM微调拥有最高的收敛速度相比，直接微调。在收敛速度上的优势体现了DCM的快速特征自适应特性。选定采样可以持续提高所有数据集的性能。通过添加选定的采样，所有数据集的性能都从0. 34%对1。百分之七十五对于10个数据集中的6个，性能提高了大约1%。特别是对于ILSVRC、Birds和MSCOCO，与微调主干或在主干上添加DCM相比，SS带来的性能提升最为显著。这些数据集在以下方面各不相同对象，并涵盖一个类内的重大变化例如，CU-Birds对细粒度分类有很高的要求。性能增益强烈表明，使用选择的采样来纠正类原型，以及在不同的领域功能。DCM与SS在极少数情况下起着至关重要的作用。同时，我们进一步评估DCM+SS如何进行微调，特别是在极少数镜头下。如图所示。5，通过固定一集中的镜头数量，我们为每个数据集运行600集微调主干会导致性能下降，每个类只有一个或两个镜头，而DCM+SS可以大大弥补性能损失。同时，仅通过增加发射次数（比较FT-B在2次发射和3次发射上的性能），微调可以在相对较小的范围内得到改善。添加DCM+SS可以在2次拍摄情况下获得更多的性能增益。DCM+SS基本上提高了几个镜头的性能。总之，DCM+SS在极少数拍摄情况下显示出持续的显著性能提高。DCM与SS功率微调。从桌子。1、微调提高了7. 31%至ILSVRCOmniglot飞机CU_鸟类DTDQuickdraw真菌Vgg_flower交通标志MSCOCO精度损失+v：mala2255获取更多论文方法骨干ILSVRCOmni阿克拉夫特鸟类DTDQDraw真菌花签署Cocofo-Proto-MAML（Triantafillou et al. 2019年度）-49.5359.9853.1068.7966.5648.9639.7185.2747.1241.00CNAPS（Requeima et al. 2 0 1 9 年度）-50.6045.2036.0060.767.542.330.170.753.345.2BOHB-Englance（Saikia，Brox和Schmid2020）-55.3977.4560.8573.5672.8661.1644.5490.6257.5351.86LR（Tian et al. 2020年）ResNet1860.1464.9263.1277.6978.5962.4847.1291.6077.5157.00元基线（Chen et al. 2020 年）ResNet1859.2069.1054.1077.3076.0057.3045.4089.6066.2055.70换能器微调（Dhillon et al. 20 1 9 年度）WRN-28-1060.5382.0772.4082.0580.4757.3647.7292.0164.3742.86CTX最佳（Doersch，Gupta和Zisserman，2020）ResNet3462.7682.2179.4980.6375.5772.6851.5895.3482.6559.90分类器-基线ResNet1858.4769.8054.3576.5175.4777.6844.4789.1048.1856.93DCM+SSResNet1860.9480.4572.9379.8577.7886.747.8592.4677.8858.85分类器-基线ResNet3460.3772.3861.1977.9375.9179.7642.7789.8048.5651.79DCM+SSResNet3464.5881.7779.6784.9477.8987.1449.3493.2488.6557.69表2：元数据集标准基准的结果。我们提供了600多个事件的统计结果。如上所示，与最近的工作相比，我们的方法在所有十个数据集上带来了一致的性能改进这表明我们提出的偏差减少方法可以有效地适用于不同的数据域。元数据集上的镜头分析12108642021发2发3发5发10发支持集。比较ResNet18和ResNet34的性能，我们首先观察到，具有较大输入图像大小的较大主干提供了更好的特征提取器质量。此外，我们的方法表明，当特征提取器本身更强大时，预训练的特征提取器对新数据域的适应能力甚至可以得到提高。通过一个简单的测试时微调，我们在几个数据集上实现了最先进的性能，并在ResNet18和ResNet34的所有数据集上获得了具有竞争力的结果。（Tian et al.2020）仅对测试集上的分类器进行微调，并且使用相同的主干ResNet18，我们的方法在大多数数据集上都以较大的幅度超过了其结果这解决了细化新类特征以更好地泛化的重要性对于（Doer-sch，Gupta和Zisserman2020），它超越了我们在四个数据集上的结果，除了预训练的特征提取器之外，还使用了七天的综合元训练过程图5：在不同拍摄次数下使用Finetuning w/o DCM+SS获得的性能增益性能平均超过600集，报告的性能增益平均超过元数据集中的不同数据集。15个。在几个数据集上为52%，但在鸟类和真菌上性能下降。DCM+SS与微调骨干显示一致的性能提升所有数据集从1。92%（mscoco）至29。7%（交通标志）。我们希望这一结果鼓励进一步探索减少偏见的特征分布。与最先进的性能进行比较我们报告我们的结果在不同的骨干模型，并提供了一个比较表中的其他流行的方法。2. 与直接使用预训练的特征提取器进行评估相比，使用DCM+SS对主干进行微调可以两种主链的结果一致。这证明了直接使用在他们的工作中报告的收敛也被利用。我们使用的ResNet34特征提取器仅通过使用训练集的监督分类损失进行训练。同时，我们的方法在计算上是高效的，因为我们几乎不涉及任何网络结构的变化（只有一个带有尺度向量的DCM层）。抽样以高效的整批方式进行。（Dhillon et al. 2019）在转换微调期间包含额外的查询集，这会在DTD上产生更好的而我们的微调只使用支持集。我们超越了其他九个数据集的结果，并在DTD上获得了一致的性能增益。结论我们在实验中表明，在没有任何元训练过程的情况下，快速特征自适应也可以通过更好地理解特征分布中的偏差来实现。我们希望我们的工作可以提供洞察的重要性，减少偏差的分布时，处理来自不同领域的数据集的少镜头学习。FT-BFT-B+DCM+SS业绩增长（%）+v：mala2255获取更多论文引用Bertinetto，L.;Henriques，J.F.地; Torr，P.H.的; 和维达尔迪，A. 2018.使用可微封闭形式求解器的元学习。arXiv预印本arXiv：1805.08136。陈文Y的;刘玉- C.的; Kira，Z.;王玉- C. F.地;和Huang，J.- B. 2019. 近距离观察少数镜头分类。 arXiv ：1904.04232。陈玉;王，X.;刘志;徐，H.; Darrell，T. 2020.一个新的元基线用于少量学习。arXiv预印本arXiv：2003.04390。Dhillon，G.S.的; Chaudhari，P.;Ravichandran，A.;而索阿托，S. 2019.一种用于少数镜头图像分类的基线。arXiv预印本arXiv：1909.02729。Doersch ， C.; 古普塔， A.; 和 Zisserman ， A. 2020.CrossTransformers：空间感知的少数镜头转移。arXiv预印本arXiv：2007.11498。Finn，C.; Abbeel，P.;和Levine，S. 2017.模型不可知元学习用于深度网络的快速适应。在第34届机器学习国际会议上，第70卷，1126-1135。JMLR。org.Garcia，V.;和Bruna，J.2017年。图神经网络的少样本学习arXiv预印本arXiv：1711.04043。Gidaris，S.;Burnard，A.;Komodakis，N.;Pe'rez，P.;和科德，M. 2019.用自我监督促进少数视觉学习。CoRR，绝对值/1906.05186。Gidaris，S.;和Komodakis，N.2018年动态少数镜头视觉学习而不会忘记。IEEE计算机视觉与模式识别会议论文集，4367Gidaris，S.;和Komodakis，N. 2019.用GNN去噪自编码器生成分类权值用于少拍学习.arXiv预印本arXiv：1905.01102。Guo，Y.;和Cheung，N.-M. 2020年。通过信息最大化进行少量学习的注意权重IEEE/CVF计算机视觉和模式识别会议论文集，13499Hariharan，B.;和Girshick，R. 2017.通过缩小和幻觉特征进行低镜头视觉识别。在IEEE计算机视觉国际会议上，3018Hou ， R.; Chang ， H.; Bingpeng ， M.; Shan ， S.; 和Chen，X. 2019.交叉注意力网络在少镜头分类中的应用神经信息处理系统的进展，4005Kim，J.; Kim，T.; Kim，S.;和Yoo，C. D. 2019.用于少样本学习的边缘标记图神经网络。IEEE计算机视觉与模式识别会议论文集，11Krizhevsky，A.; Sutskever，I.;和Hinton，G. E. 2012.使用深度卷积神经网络的Im-agenet分类。神经信息处理系统的进展，25：1097李，K.; Maji，S.; Ravichandran，A.;和Soatto，S. 2019.可微凸优化的元学习。IEEE计算机视觉与模式识别会议论文集，10657Li，A.;黄，W.;兰，X.;冯，J.; Li，Z.;和Wang，L. 2020.用自适应裕量损失增强少样本学习。IEEE/CVF计算机视觉和模式识别会议论文集，12576李，H.; Eigen，D.; Dodge，S.; Zeiler，M.;和Wang，X.2019年a。寻找任务相关的功能，为少数拍摄学习-ing类别训练。在IEEE计算机视觉和模式识别会议论文集，1李，X.;孙，Q.;刘玉;周，Q.; Zheng，S.; Chua，T.-S.的; Schiele，B. 2019年b.学习自我训练半监督少镜头分类。神经信息处理系统的进展，10276刘，C.; Xu，C.;王玉;张，L.; Fu，Y. 2020.这是一次性学习的一个非常简单的基线在IEEE/CVF计算机视觉和模式识别研讨会上，922Qi，H.;布朗，M.;和Lowe，D. G. 2018.低杆学习- ING与印记的重量。IEEE计算机视觉与模式识别会议论文集，5822-5830。Ren ， M.; Triantafillou ， E.; Ravi ， S.; Snell ， J.;Swersky ， K.; Tenenbaum ， J. B.; Larochelle ， H.; 和Zemel，R. S. 2018.半监督少镜头分类的元学习。arXiv预印本arXiv：1803.00676。Requeima，J.; Gordon，J.; Bronskill，J.; Nowozin，S.;和Turner，R.E. 2019年。使用条件神经自适应过程的快速灵活的多任务arXiv预印本arXiv：1906.07697。Russakovsky，O.;邓，J.;苏，H.; Krause，J.; Satheesh，S.;马，S.;黄志;Karpathy ，A.;Khosla，A.;Bernstein ，M.;Berg，A.C.的; 和Fei-Fei，L.2015年。ImageNet大规模视觉识别挑战。 International Journal of ComputerVision（IJCV），115（3）：211Rusu，A.一、饶，D。; Sygnowski，J.; Vinyals，O.;Pas- canu，R.;奥辛德罗，S.;和Hadsell，R. 2018.具有潜在嵌入优化的 Meta 学习 arXiv 预印本 arXiv ：1807.05960。Saikia，T.; Brox，T.;和Schmid，C. 2020.优化的通用特征学习，用于跨领域的少量分类。arXiv预印本arXiv：2001.07926。Simon，C.; Koniusz，P.; Nock，R.;和Harandi，M. 2020.自适应子空间的少镜头学习。IEEE/CVF计算机视觉和模式识别会议论文集，4136Snell，J.; Swersky，K.;和Zemel，R. 2017.用于少量学习的原型网络。神经信息处理系统进展，4077Sung ， F.; 杨 ; 张， L.; Xiang ， T.; 托， P.H.; 和Hospedales，T.M. 2018年学习比较：关系网络的少数镜头学习。IEEE计算机视觉与模式识别会议论文集，1199田，Y.;王玉; Krishnan，D.; Tenenbaum，J. B.; Isola，P.2020.重新思考少拍图像分类：一个好的嵌入是你所需要的一切？arXiv预印本arXiv：2003.11539。+v：mala2255获取更多论文Triantafillou，E.; Zhu，T.; Dumoulin，V.; Lamblin，P.;Evci ， U.; Xu ， K.; Goroshin ， R.; Gelada ， C.;Swersky，K.;曼-扎戈尔，P. -一、等，2019年。元数据集：一个数据集的数据集，用于学习从几个例子中学习。arXiv预印本arXiv：1903.03096。Vinyals，O.; Blundell，C.

下载后可阅读完整内容，剩余1页未读，立即下载