元学习正交低秩嵌入

172 浏览量更新于2023-10-16 收藏 1.11MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

5305Meta-OLE：元学习正交低秩嵌入Ze Wang<$，Yue LuXiu，and Qiang Qiu<$†电气和计算机工程，普渡大学哈佛大学工程与应用科学学院{zewang，qqiu}@ purdue.eduyuelu@seas.harvard.edu摘要我们介绍了Meta-OLE，一种新的几何正则化方法，用于快速适应新的任务，在少镜头图像分类。所提出的方法学习适应每个少数镜头分类任务的特征空间，同时类间正交性和类内低秩。具体地，通过在对应于给定任务内的不同类别的特征之间明确地施加正交低秩子空间为了适应具有不可见类别的新任务，我们进一步元学习轻量级转换以提高类间边缘。作为一个额外的好处，这种轻量级的转换使我们能够在没有任何辅助网络组件的情况下，利用查询数据进行从标记数据到未标记数据的标签传播。显式几何正则化的特征子空间允许以封闭形式推断新任务上的分类器，具有选择性地丢弃非歧视性维度的自适应子空间截断。我们在标准的少量图像分类任务上进行了实验，并观察到优于最先进的Meta学习方法的性能。1. 介绍Meta学习，也称为学习学习，旨在从任务分布中获取知识，并学习快速解决从相同或相似的底层任务分布中采样的新任务Meta学习是在少样本学习（FSL）的背景下被广泛研究的研究的主要驱动力是如何设计的自适应获取任务指定的模型有效和鲁棒。原型网络（ProtoNets）[38]通过简单地将每个类的原型计算为特征向量的平均值来适应新任务MAML [9]通过梯度下降的几次迭代来适应新任务，这种方法启发了许多后续方法[2，10，23，50]。的适配整个网络使得难以扩展到大型网络，并且许多最近的努力集中在仅适应最后的分类层[12，4]，同时假设跨所有任务共享的通用在本文中，我们试图攻击少镜头图像分类从一个新的角度的几何正则化的特征空间。正如在[18]中所观察到的，使用softmax和交叉熵损失训练深度网络不会同时执行类内相似性和类间边缘。另一方面，鼓励特征在每个类中的低秩子空间中以及跨类正交可以显着提高深度分类网络的鲁棒性。虽然这种显式正交低秩几何正则化在经典分类任务中已被证明是有效的[18，29，19]，但将这种几何正则化方法扩展到测试阶段涉及新类别的任务仍然非常重要。在少数拍摄图像分类，进一步的挑战来自于新的看不见的类的鲁棒泛化的需求。正如我们将在这项工作中展示的那样，显式几何正则化产生的大类边缘可能允许新知识由现有知识的组合来表示，并且可以减少跨类的干扰。图1中给出了一个说明。受最大间隔特征空间几何学的启发，我们引入元学习正交低秩嵌入（Meta-OLE），将基于原型的方法的简单性和基于参数自适应的方法的自适应性结合起来具体来说，我们鼓励正交低秩结构的特征空间跨类。因此，相同类别的特征向量驻留在具有强加的低秩的子空间中，而跨类别的子空间虽然已经研究了对可见类的特征空间进行几何正则化[18，19，48]，但诱导特征提取器不能保证很好地推广到训练期间不可见的新对象类。为了将正交低秩嵌入扩展到少量学习场景，我们引入了一个具有轻量级自适应正交低秩变换的5306--联系我们看到的类新颖类看到的类新颖类(a) 使用标准softmax和交叉熵损失训练的特征空间。虽然线性边界是针对所看到的类学习的，但缺乏强制类内相似性和类间分离，使得新类（紫色和黄色点）在特征空间中没有干扰地很好地表示的空间很小(b) 正交低秩嵌入鼓励跨类的特征折叠到正交子空间，每个子空间具有最小的维度。这种类内相似性和类间分离允许新的类（紫色和黄色的点）在特征空间中表示，并显着减少干扰。图1：显式正交低秩几何正则化的优势说明它能够有效地适应新的类，只需要很少的例子。然后，我们表明，给定强加的低秩正交几何，查询样本的最终分类可以通过子空间投影来执行，其中投影矩阵直接从封闭形式的几个标记示例中推断。我们表明，自适应调整的特征子空间的紧凑性的基础上的投影的维数，分类器的鲁棒性离群的例子可以进一步提高。类标签的封闭形式推断允许未标记的样本容易地参与用于标签传播的自适应正交低秩变换的学习，并且在没有任何辅助参数分量来推断伪标签的情况下观察到改进的性能。尽管是简单的和几何动机，所提出的方法实现了对公共FSL数据集的性能优于国家的最先进的方法，往往涉及更复杂的组件。概括而言，我们的贡献如下：• 我们建议在特征空间中采用低秩正交几何进行少量学习。• 我们引入元学习自适应正交低秩变换，以有效适应具有未知类的新任务。• 为了实现快速、鲁棒的分类推理，本文提出了一种基于子空间投影的自适应维数选择的几何驱动分类器• 提出的Meta-OLE的有效性进行了验证，日期与大量的实验上少拍图像分类。2. 方法在本节中，我们从FSL的基本公式开始，然后介绍提出了Meta-OLE框架。2.1. 初步标量、矢量和张量用小写、粗体小写和粗体大写字母表示，例如，n，x，X分别。例如，我们将图像表示为向量x，并使用X=[x1，x2，. . . 表示图像的集合。Xc表示X内的图像集合，标签C。具有情节训练的少镜头图像分类。少次学习（FSL）任务通常被定义为K路N次学习问题，其中N通常是一个小数字，例如，N=5。具有元学习的FSL通常被表示为一系列情景训练。通常，在每个片段中，通过首先从训练数据中采样K个类别来生成一个FSL任务，每个类别包含N个样本以形成支持集St=x1，. . .，xK×N.然后在St上执行对FSL模型的适配，通过，例如，计算原型[38]，或更新网络参数[9]。在适应之后，来自每个情节的相同类别的样本被称为查询集Qt=x′1，. . .，x′K M，被采样以评估向上-过时的模型，并且错误被传播回来以更新参数正交低秩嵌入学习线性变换以恢复数据中的正交低维内在结构的想法最初在[30]中提出。在[30]中，学习了线性变换来恢复来自相同子空间的数据的低秩结构，并且同时强制来自不同子空间的数据这个想法在[18]中进一步推广到深度学习，其中正交低秩嵌入（OLE）被引入作为深度分类网络训练的正则化项，用于5307Σ||·||||||≤||||||||…特征提取=自适应正交低秩变换'=T（自适应子空间投影projc（��'）='��图2：所提出的元学习正交低秩嵌入的图示支持集（蓝色、黄色和绿色框）和查询集（红色框）的输入图像都首先由通用特征提取器映射到特征向量然后，每个任务处的特征经历自适应正交低秩变换，其参数根据每个任务的样本进行自适应调整，并获得更高的类内相似性和类间正交性。最后，一个自适应子空间投影用于每一类，其中的投影矩阵直接推断在一个封闭的形式。改善性能。给定用于K路分类任务的Rd中的N个样本的集合，[30]被计算为将不同类别的特征推到最大余弦距离[18]。minT：Rd→RdK||∗ −||TX||（1）||∗,(1)c=12.2. 自适应正交低秩子空间投影在所提出的方法中，FSL任务中的样本是其中，T表示核范数并且用作运算符范数中单位球上的秩函数的凸下界，并且T是要学习的线性变换。具体地，（1）中的第一项鼓励K个类中的每个类内的（1）中的第二项促进了类间子空间的正交性。定理1[30] A，B<$A<$+B<$，等式成立当且仅当A和B的列空间正交。根据定理1，（1）的成本值总是非负的。此外，当且仅当不同的类在变换后变得正交时，它在零处达到最小值。参见[30]了解此公式的更多详细信息。基于（1），[18]介绍了对深度神经网络训练的推广，其中提出了正交低秩嵌入（OLE）损失作为正则化项，以促进具有交叉熵损失的典型图像分类网络的学习具体来说，OLE丢失定义为首先由通用特征提取器映射，在我们的设置中由深度CNN参数化，到特征空间，其中我们明确鼓励每个类别的低秩子空间以及不同类别之间的正交性为了在每个任务中自适应地促进更高的类内紧凑性和类间正交性，我们然后元学习一个轻量级的正交低秩变换，该变换在每个任务的样本上学习，并适应特定于任务的特征变换的参数在学习特定于任务的变换以获得更好的低秩正交嵌入后，通过自适应子空间投影实现对查询集中未标记样本的分类，投影矩阵直接从支持集的特征向量中以封闭形式推导出来我们进一步引入自适应子空间投影，通过选择投影的主维度，并截断非判别维度以提高鲁棒性。下面详细介绍所有组件通用特征提取器。遵循标准实践，我们训练了一个通用特征提取器Φ，它是典型的K KL OLE=||ZC||∗ − ||Z||= ||Φ（Xc）||∗ − ||Φ（X）||*cally是一个在任务间共享的CNN。具体而言，鉴于图像x，特征提取器将其映射到d维c=1c=1（二）特征向量z ∈ Rd = Φ（x）。不同于一般其中Φ表示与深度网络相关联的非线性变换。当Φ是一个以ReLU激活结束的网络时，使用OLE损失的训练会导致正交的类间子空间，这相当于显式在实践中，特征提取器Φ仅使用从任务处的错误传播回来的梯度来学习，我们明确鼓励在每个训练片段中跨类的正交低秩特征几何。这是通过……不5308×≥ ××i=1i=1OLE∈C∗∗监控具有OLE损失的Φ中的参数，如：K查询集合中的任何特征向量z都可以通过projc（z）=UcUcz投影到子空间跨度（Z c）上。在实践中-L=Σ||Φ（X）|| − ||Φ（X）||.（三）根据特征的等级，可以有非U中包含的判别维度（在最佳情况下，仅单个维度足以表示将相同的特征提取应用于支持集和查询集两者以获得相应的特征Z={zi}K×N，Z′={z′j}K×M.发送类的子空间）。给定奇异值εc=[s1，. . . ，sN]，非区别维度是Uc中对应于低奇异值的基。当i=1j=1奇异值按降序排列，我们元学习自适应转换。在有限的训练类上训练一个单一的特征提取器Φ，很难保证正交低秩特征几何能完美地推广到实际的新任务中为了充分利用支持集样本，我们因此提出元学习一个轻量级的自适应变换矩阵，由具有参数θ的微小网络参数化，以自适应地变换新任务的特征向量，以获得更紧凑的类内和正交的空间间子空间。在给定来自支持集的特征的情况下，迭代地使参数θ适应于新任务，并且在情景训练中学习初始化。具体地说，给定支持集Zt中的特征集合，我们执行P次参数更新到θ的迭代，以便将特征投影到空间更好地呈现低秩正交几何。在可以通过丢弃Uc中相关奇异值低于阈值的基来容易地截断非判别维数。在实践中，我们引入一个非负超参数τ<1. 0，并截断Uc奇异值小于τs1。形式上，我们得到突出部projc（z）=Uc[1：r]Uc[1：r]z，（6）其中sr τ s1，且sr+1<τ s1。理想情况下，每个查询样本将位于其类的子空间中，因此投影将主要保留特征向量的范数为对于每个zj，我们然后将zj到类c的子空间的投影向量的范数定义为样本xj属于类c的未归一化概率，即，（||项目（zj）||（二）每次迭代p，变换特征被计算为：y<$c（z<$j）=P（z<$j∈c）=<$KC（||proj′（zj）||（二）、（7）Z=（Z，θ），然后更新参数θc′=1cp p−1通过θp=θp−1−β<$θ（LOL E（Zp）），p=1，. . . ，P ，（4）其中，θ0=θ，其用作所有任务的通用参数初始化，并由情景训练中的任务进行优化。最后一个迭代中更新的参数-θP作为一个特定任务的最后一个参数返回，并转换支持集和查询集特征，Z={zi=（zi;θP）}K×N，Z′={z′i=（z′i;θP）}K×M。自适应子空间投影作为分类器。正交低秩子空间的强加的几何正则化自然导致充分利用所获得的特征几何的基于子空间投影的分类器。由于现在每个类的期望特征驻留在低秩子空间中，因此查询样本的类标签的推断可以通过将特征向量投影到类的每个子空间并观察投影向量的范数来有效地计算具体地说，在K-wayN-shot FSL中，给定一个类ZcRK × d的支持集特征向量集合，则子空间即. span（Zc），可以直接推导出一个封闭形式。令Zc=Uc<$cVc是Zc的奇异值分解，Uc=[b1，. . .，bN]构成Zc的正交基。然后然后使用标准交叉熵损失来计算和反向传播误差。在第3节中，通过真实世界的实验进一步验证了这些优势利用查询示例。在元学习自适应正交低秩变换的同时，我们可以进一步利用没有标签的查询样本。在每个更新θ的迭代中，我们可以通过为每个查询样本分配一个伪标签来增加数据。这可以通过将每个查询样本投影到如（6）中从支持集推断的每个子空间，并如（7）中找到标签最大概率来有效地实现。这在FSL中实现了转导学习，而无需向网络引入任何辅助组件我们引入一个非负超参数α <1。0作为来自具有伪标签的查询集的贡献的权重在这种转换设置中，θ在θ中的更新变为：θp= θp−1−β<$θ。LOLE（Zp）+αLOLE（[Zp，Z′p]）ε，（8）对于p = 1，. . . ，P，并且[Zp，Z′p]在这里表示变换后的支持和查询特征的级联。总之，所提出的方法包括用于将高维图像输入投影到特征向量的单维特征提取器Φ。对自适应正交低秩变换的迭代更新使c=1（五）5309- −→--L×·模型到手头的任务。最后的分类是由子空间投影在一个封闭的形式。表1：miniImageNet和分层ImageNet上的5向少镜头图像分类比较，具有95%的一致性x−Φ→z（·;θ）项目cz−→yc. 所有参数都是dence间隔。我们用两种浅的（Conv-4）和深度（ResNet-12）网络，并比较更新的损失L=Lsoftmax（y=，y）+λLOLE（[Z，Z′]），（9）其中y是从（7）推断的标签，y是真实标签。我们总结了所提出的元学习自适应正交低秩子空间变换的训练，算法1算法1元学习自适应正交低秩子空间变换。1：给定：将任务描述为每个类中具有M个查询样本的K-路S2：给定：β表示截断子空间维数，λ表示OLE损失的权重，α表示转换权重（如果适用）。3：在 θ 中初始化Φ和θ。4：重复用各种最先进的方法进行表演。†取消说明利用查询样本获得的性能miniImageNet分层 ImageNet1发5发1发5发Conv-4骨架ABML37.65 ±0.2256.08 ± 0.29MatchingNets[44]43.56±0.8455.31± 0.73MAML[9]48.70 ± 1.8463.11 ± 0.9251.67 ± 1.8170.30 ± 1.75爬行动物[23] 49.97±0.32 65.99±0.58ProtoNets[38]44.53 ± 0.7665.77 ± 0.6653.31 ± 0.8972.69 ± 0.74R2-D2[4]48.70 ±0.6065.50 ± 0.60--VERSA[12]53.31±1.8067.30± 0.91--网络[41]50.44 ± 0.8265.32 ± 0.7054.48 ± 0.9365.32 ± 0.70贝叶斯MAML [50]44.46±0.3062.60±0.25VSM[51]54.73 ± 1.6068.01 ± 0.9056.88 ± 1.7174.65 ± 0.81DKT[27]49.73 ±0.0764.00 ± 0.09--美国（公告牌成人另类歌曲榜）[39]50.02 ± 0.3564.58 ± 0.31--OVEPG GP（PL）[39]48.00 ±0.2467.14 ±0.23--Meta-OLEMeta-OLE†54.45 ±0.8071.23 ±0.7257.87±0.90 74.97±0.8556.82 ±0.8473.87 ±0.6758.82±0.88 75.85±0.87ResNet-12主干元网络[21]57.10±0.7070.04± 0.63--5：支持集S={xi}K×S的样本任务，蜗牛[20]55.71±0.9968.88± 0.92--查询集′K×M在每个任务中。i=1[38]第38话75.60 ± 0.4861.74 ± 0.7780.00 ± 0.55Q=xj j=16：提取S和Q两者的特征向量，Φ（xi），zj=Φ（xj）.7：对于内部迭代pdo8：计算自适应特征z=（z，θp）9：计算OLE损失OL E（z）.10：使用（4）更新感应设置的θ，或使用（8）更新对于具有由（6）推断的伪标签的转换设置11：结束12：获得支持样本和查询样本的最小化特征z=θ P（z;θP）。13：如在（6）中获得每个类别的自适应子空间投影14：如在（7）中计算查询样本的类概率。15：用（9）中的损失更新参数。16：直到收敛17：返回Φ，带参数θ的Φ。3. 实验数据集。我们在FSL基准上进行了实验，包括迷你ImageNet，分层ImageNet和Caltech-UCSD Birds数据集[47]（CUB）。在miniImageNet [45]中，ImageNet [8]的子集中有100个图像类，每个类有600个图像。我们遵循标准做法[9]，将训练集、验证集和测试集分别划分为64、16和20个类。分层ImageNet [32]是ImageNet的一个大子集，包含608个类，每个类中有1，300个样本。具体来说，在分层的ImageNet中，有来自20个类别的351个类，AdaResNet[22]56.88±0.6271.94± 0.57--TADAM[25]58.50±0.3076.70± 0.30--ConstellationNet[49]63.85±0.8181.57± 0.56--Meta-OLEMeta-OLE†65.28 ±0.6481.96 ±0.6267.72±0.72 84.20±0.5667.04 ±0.7282.23 ±0.6768.82±0.71 85.51±0.59培训类97个班，考核类8个班，考核类160个班。迷你ImageNet和分层ImageNet的样本都被随机裁剪并调整大小为84 84用于训练，并对测试图像执行标准中心裁剪CUB数据集中的200个类被分为100、50和50个类，分别用于训练、验证和按照标准做法，我们报告5路1次和5路5次的结果。注意，在5路1次学习的情况下，每个类projc（）的投影的推断被减少为仅使用单个支持样本的标准化特征向量，而没有基于类内相似性的自适应。实作详细数据。所有的实验都是在一台带有8块NvidiaRTX 3090显卡的服务器上进行的，每块显卡都有24GB的内存。我们报告的每个实验都可以在一张卡片上进行训练和测试。该机还配备了512GB内存和两颗AMDEPYC 7502 CPU。我们使用PyTorch [26]实现所有实验。我们使用Nesterov动量为0.9的随机梯度下降来训练网络，总共有80个时期，每个时期内有1000个随机采样任务。初始学习率被设置为0.025，其在时期50和时期60衰减0.1倍。按照惯例，我们使用随机调整大小的裁剪和随机水平翻转作为数据增强trans.xml。方法5310→阵对于超参数，我们将（9）中的OLE损失的权重设置为λ=0。1.一、我们使用P=10来适应自适应正交低秩变换10次迭代。将转导性OLE损失的权重设置为α=0。二十五自适应子空间投影τ的截断阈值被设置为0.9。所有超参数的选择将在后面的3.3节中讨论。按照通常的做法，两个网络结构包括在性能的讨论。Conv-4通过堆叠4个Conv-BN-ReLU池化块来构造，每层中具有64个通道，并且输出特征被平坦化为特征向量，该特征向量被馈送到自适应正交低秩变换。ResNet-10和ResNet- 12是10层和12层深度残差网络[16]，具有4个残差块，每个块分别具有64，128，256和512个通道。我们使用全局平均池将每个样本的3D特征图转换为512-dim特征向量。我们使用一个小规模的网络与3层全连接（FC）层作为自适应正交低秩变换矩阵。在每个FC层之后采用批量归一化允许在每个任务中调整所有参数，包括BN层中的参数。3.1. 少镜头图像分类按照通常的做法，我们首先报告所有三个数据集上的标准5路1次拍摄和5路5次拍摄实验。MiniImageNet和分层ImageNet的结果如表1所示。两个标准的骨干，Conv- 4和ResNet-12包括全面的比较。CUB的比较结果见表2。我们采用两个骨干，Conv-4和ResNet-10进行全面的比较后，共同的做法。所提出的方法在所有数据集上都比最先进的方法有了显着的改进。3.2. 跨域泛化所提出的正交低秩自适应允许模型快速有效地适应新的任务，即使在任务之间存在域转移。为了验证这一点，我们包含了加州理工学院-UCSD鸟类数据集[47]（CUB），并在mimiImageNet CUB上进行了跨域泛化实验。作为一个专门针对鸟类的数据集，CUB由于其弱的类内差异性，对少样本学习器提出了重大挑战。我们遵循标准实践[7]，并使用Conv-4主干以及5路1次和5路5次实验进行实验定量结果和比较见表2。我们的方法实现了高性能的跨域少镜头分类，这大大超过同行。3.3. 讨论在本节中，我们执行消融研究以验证超参数选择，并提供进一步的可视化以显示所提出的组件的有效性所有的实验都是在5路5镜头任务上进行的，使用CUB数据集和Conv-4作为特征提取器。与更深层次的特征提取器兼容。Meta-OLE作为一种在少镜头分类中引入特征几何的通用框架，对特征提取器具有不可知性，并能通过更强大的特征提取器提供更高的性能。我们在表3中展示了更深ResNet-18和宽ResNet（WRN-28-10）的进一步结果。特征提取器。在特征提取器中引入的唯一超参数是（9）中的OLE损失λ的权重。我们在表4中给出了不同λ的性能比较。在特征提取器中引入正交低秩几何，可以显著提高特征提取的泛化能力。较高的λ值始终提高训练类别的准确度，而测试准确度在λ = 0时达到饱和。1.一、这一观察结果与图1所示的直觉一致：强制执行正交低秩几何结构促进了对新的未看到的类的更好的泛化，因为改进的类内紧凑性保留了更多的“开放”空间，使得新的类可以被添加到特征空间，而不会对先前看到的类造成显著的干扰。元学习正交低秩变换。我们在图3中显示了在对θ进行特定任务适应时模型的准确性。我们执行10步内环自适应，并在第1步、第5步和第10步可视化移动精度。网络性能在w.r.t.内环自适应的步骤。我们在图4中进一步可视化了特征空间，显示了当θ被迭代更新时，任务中的特征是如何逐步细化为正交低秩几何的。这清楚地表明，这种任务特定的适应是至关重要的，当学习新的任务。自适应子空间投影自适应子空间投影通过调整τ允许额外的灵活性，τ是控制投影中的非判别维度的截断的阈值。我们在表5中显示了τ值如何影响结果。结果表明，高τ值，如τ=0。9导致在用于投影的奇异值分解之后截断除了第一基之外的几乎所有基。变换后的类内特征的紧凑性允许单个基很好地表示类的子空间，并通过去除所有可能包含噪声的其他维度来实现最佳性能。5311→方法表2：使用Conv-4主干的跨域少激发图像分类的结果，以及使用浅主干和深主干的CUB数据集上的5向少激发图像分类的结果。表示利用查询样本获得的性能。miniImageNet CUB CUB（Conv-4）CUB（ResNet-10）1发5发1发5发1发5发特征转移32.77 ± 0.3550.34 ± 0.2746.19 ± 0.6468.40 ± 0.7963.64 ± 0.9181.27 ± 0.57ABML29.35 ±0.2645.74 ±0.3349.57±0.42 68.94±0.16--基线++[7]39.19 ± 0.1257.31 ± 0.1161.75 ± 0.9578.51 ± 0.5969.55 ± 0.8985.17 ± 0.50[44] 2016年10月31日50.72 ± 0.3660.19 ± 1.0275.11 ± 0.3571.29 ± 0.8783.47 ± 0.58[38]第38话52.16 ± 0.1752.52 ± 1.9075.93 ± 0.4673.22 ± 0.9285.01 ± 0.52净利润[41]37.13 ± 0.2051.76 ± 1.4862.52 ± 0.3478.22 ± 0.0770.47 ± 0.9983.70 ± 0.55MAML[9]34.01 ± 1.2548.83 ± 0.6256.11 ± 0.6974.84 ± 0.6270.32 ± 0.9980.93 ± 0.71贝叶斯MAML [50]33.52±0.3651.35±0.1655.93±0.7172.87±0.26- -DKT[27]40.14 ± 0.1856.40 ± 1.3462.96 ± 0.6277.76 ± 0.6272.27 ± 0.3085.64 ± 0.29OVE（ML）[39]39.66 ±0.1855.71 ±0.3163.98±0.43 77.44±0.18--OVE（PL）[39]37.49 ±0.1157.23 ±0.3160.11±0.26 79.07±0.05--Meta-OLEMeta-OLE†40.66± 0.2158.23 ± 0.2668.75 ± 0.3184.74 ± 0.2179.76 ± 0.4088.82 ±0.3241.40± 0.2060.82 ± 0.2871.32 ± 0.3286.11 ± 0.2381.10 ± 0.4290.04 ±表3：具有更深特征提取器的结果。表6：不同α值的比较。表4：不同λ值的比较。λ=0.000.010.050.10.20.5培训85.1386.2486.5086.8987.2187.33测试82.2584.1085.4586.1186.1286.1180706050400 10000 20000 30000 40000 50000 60000 70000 80000迭代图3：当更新自适应正交低秩变换时，不同p下的准确度的移动平均值。表5：不同τ值的比较。我们提出了测试精度和截断后保留的平均维数。时间τ=00.10.30.50.70.9精度85.3385.4685.6285.8886.0786.11尺寸3.142.431.731.301.121.08利用未标记的样本。我们的Meta学习正交低秩变换框架允许unla-在不引入任何辅助网络组件的情况下容易地利用Beled查询样本。唯一引入的自适应超参数是α，它控制使用伪标记查询样本的内环学习我们进行了表6所示的其他实验。在内环自适应中利用未标记的样本能够提高性能。然而，强加一个接近1的大α值可能会降低最终的准确性，因为更高的α值可能会导致伪标签的错误分配因此，我们始终使用α=0。所有实验中均为25。4. 相关工作深度学习中的特征几何。明确施加类内相似性和类内分离的想法在度量学习中得到了广泛的研究[46，6，15，35，40，48，24]。在度量学习的最具代表性的损失函数中，成对损失[15]和三重损失[35]，度量学习的有效训练需要仔细采样样本，特别是最具信息性的训练的负样本。度量学习的基本假设是在相关任务之间共享公共度量空间。这种想法也被扩展到匹配网络[45]和ProtoNets [38]中的少量学习，其中网络仍然在所有任务中共享。关系网络[41]进一步扩展到可学习的度量，由跨任务训练的网络参数化。元学习。Meta学习，也称为学习学习[43]，训练模型以利用分布内任务之间的共享知识来解决新任务0.05 0.15 0.25 0.35 0.45 0.55精度84.8185.2586.1186.0285.4283.25精度提取器迷你ImageNetResNet-181-shotResNet-185-shotWRN-28-10单次拍摄WRN-28-105次射击DAE-GNN [11][52]第五十二话TIM-ADM [5]-72.11±0.1973.6-82.31±0.1485.062.96±0.1574.86±0.1977.578.85±0.1084.13±0.1487.2TIM-GD [5]73.985.077.887.4特设工作组[13]--63.12±0.0878.40±0.11元OLE71.46±0.3385.21±0.3475.22±0.3086.12±0.28步骤1步骤5步骤105312迭代1OLE：26.18访问率：78.0%迭代6次OLE：8.93访问率：87.6%迭代2OLE：18.17访问率：80.4%迭代7OLE：9.27访问率：90.4%迭代3OLE：13.82访问率：81.6%迭代8OLE：6.48访问率：91.2%迭代4OLE：12.20 Accc：83.2%迭代9OLE：5.60访问率：91.6%迭代5OLE：10.50 Accc：85.2%迭代10OLE：4.35访问率：92.0%图4：zp的特征空间的可视化，同时更新θin θ 10次迭代。在5路FSL任务中，来自三个类的特征向量嵌入PCA，并以三种颜色可视化。调整视角以获得更好的可视化效果。图中记录了每次迭代的OLE损失值和精度1、效率高，效率高[1，33，9，12，1，31，33]。近年来，元学习引起了越来越多的关注，并且最近的优势正在推动Meta学习向不同方向发展早期的努力集中在训练与某些度量兼容的特征提取器，在大量的训练片段中。ProtoNets [38]学习对欧几里得空间中的特征比较鲁棒的特征投影。DSN [37]允许考虑每个类的子空间的高阶统计。R2-D2 [4]学习特征提取器，该特征提取器很好地适应封闭形式的线性分类器。基于递归下降的方法[9，33，10，50]学习一个初始化，允许网络有效地适应来自几个样本的监督的新任务。基于参数预测的模型[12，28，11]生成任务相关的网络参数，通常是线性分类器，给定对新任务的观察。最近，在查询集中利用未标记的样本进一步提高了FSL的性能，其中查询样本的伪标签直接从比较特征[37]或通过标记网络[17]推断最后，除了在少量学习中的广泛应用外，Meta学习的思想也被证明在记忆[3]和强化学习[36，14，34]等各种任务中有效5. 结论在本文中，我们介绍了元学习正交低秩嵌入（元OLE）的有效推广，通过对特征空间进行几何正则化的元学习来实现新的少样本分类任务。我们在特征空间中引入正交低秩几何，以同时促进最大类内相似性和为了进一步有效地推广到具有不可见类别的小说任务，我们元学习了一种正交低秩变换，该变换可以充分利用标记的支持集和未标记的查询集来更新特定于任务的变换。这种显式的几何正则化使我们能够将最终的分类层制定为类投影，其中投影矩阵直接从封闭形式的特征向量中获得。根据每个类的类内相似性，进一步引入自适应维数截断，选择性地丢弃子空间投影中的非判别维数，以提高鲁棒性.正交低秩几何规则的思想是Meta-OLE中每个组件的核心思想。我们对最先进的方法和消融研究进行了比较，以充分验证每个拟议组件的有效性。6. 确认部分工作得到 DARPA TAMI 计划的支持。HR00112190038、NSF 1737744和NSF 1820827。5313引用[1] 放大图片作者：Marcin Andrychowicz，Misha Denil，Sergio Gomez，Matthew W. Hoffman，David Pfau，TomSchaul，Brendan Shillingford，and Nando de Freitas.通过梯度下降来学习。InNeurIPS，2016.[2] Antreas Antoniou，Harrison Edwards，Amos Storkey.如何训练你的妈妈。arXiv预印本arXiv：1810.09502，2018。[3] 谢尔盖·巴图诺夫，杰克·W·雷，西蒙·奥辛德罗，蒂莫·蒂·P·利利克拉普。元学习深度能量记忆模型。ICLR，2020年。[4] Luca Bertinetto 、 Joao F Henriques 、 Philip HS Torr 和Andrea Vedaldi。使用可微封闭形式求解器的元学习。2019年，在ICLR[5] 马利克·布迪亚夫，伊姆蒂亚兹·齐克，Je' ro meRony，Jose'Dolz，巴勃罗·皮安塔尼达和伊斯梅尔·本·艾耶德。少量学习的信息NeurIPS，33：2445[6] Weihua Chen ， Xiaotang Chen ， Jianguo Zhang ， andKaiqi Huang.除了三重态损失：一个深度的四元组网络用于人的重新识别。在CVPR，第403-412页[7] Wei-Yu Chen，Yen-Cheng Liu，Zsolt Kira，Yu-ChiangFrank Wang，and Jia-Bin Huang.更仔细地观察少数镜头分类。arXiv预印本arXiv：1904.04232，2019。[8] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在CVPR，第248-255页中。IEEE，2009年。[9] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。ICML，2017。[10] Chelsea Finn、Kelvin Xu和Sergey Levine。概率模型不可知元学习。arXiv预印本arXiv：1806.02817，2018。[11] 斯派罗·吉达里斯和尼科斯·科莫达基斯用gnn去噪自动编码器生成分类权重，用于少量学习。在CVPR，2019年。[12] Jonathan Gordon ， John Bronskill ， Matthias Bauer ，Sebastian Nowozin，and Richard E Turner.预测的元学习2019年，在ICLR[13] 郭一銮及张艺敏。通过信息最大化进行少量学习的注意权重生成。在CVPR中，第13499-13508页[14] Abhishek Gupta，Benjamin Eysenbach，Chelsea Finn，and Sergey Levine.用于强化学习的无监督元学习。arXiv预印本arXiv：1806.04640，2018。[15] Raia Hadsell，Sumit Chopra，and Yann LeCun.通过学习一个不变映射来降低维数.在CVPR，第2卷，第1735-1742页中。IEEE，2006年。[16] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。[17] Seong Min Kye、Hae Beom Lee、Hoirin Kim和Sung JuHwang。元学习的信心，少数拍摄学习。arXiv电子印刷品，第arXiv-2002页[18] Jose'Lezama，QiangQiu，PabloMuse'，andGuillermoSapiro. Ole：正交低秩嵌入-深度学习的即插即用几何损失。在CVPR中，第8109-8118页，2018年。5314[19] Jose 'Lezama，Qiang Qiu，and Guillermo Sapiro.不要害怕黑暗：基于互谱半透明化和低秩嵌入的近红外人脸识别。在CVPR中，第6628- 6637页[20] Nikhil Mishra ， Mostafa Rohaninejad ， Xi Chen ， andPieter Abbeel. 一个简单的神经专注元学习者。在ICLR，2018年。[21] Tsendsuren Munkhdalai和Hong Yu。Meta网络。在ICML，2017.[22] TsendsurenMunkhdalai ， XingdiYuan ， SoroushMehri，and Adam Trischler.有条件移位神经元的快速适应。国际机器学习，第 3664-3673 页。 PMLR ，2018。[23] Alex Ni

下载后可阅读完整内容，剩余1页未读，立即下载