基于任务特定适配器的跨领域少镜头学习

195 浏览量更新于2023-10-25 收藏 908KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7161基于任务特定适配器的跨领域少镜头学习Wei-Hong Li，Xialei Liu*，and Hakan Bilen英国爱丁堡大学VICO集团github.com/VICO-UoE/URL摘要在本文中，我们着眼于跨域少镜头分类的问题，其目的是从以前看不见的类和具有少量标记样本的域中最近的方法广泛地解决了这个问题，通过用任务不可知和任务特定的权重来参数化他们的少镜头分类器，其中前者通常是在大的训练集上学习的，而后者是通过以小的支持集为条件的辅助网络动态在这项工作中，我们专注于后者的估计，并建议从头开始学习特定于任务的权重直接在一个小的支持集，与动态估计它们。特别是，通过系统的分析，我们表明，任务特定的权重，通过参数适配器在马-马形式与剩余连接到多个中间一个/多个域+的(a) 任务无关网络+辅助网络(c)任务无关网络在元训练未知领域的少样本学习(b) 支持集上辅助网络估计适配器的任务自适应(d)通过从支持集学习的附加适配器进行适应元测试骨干网络的层显著提高了元数据集基准测试中最先进模型的性能，而额外成本很小。1. 介绍深度学习方法已经在各种领域取得了显着的进展，这些领域有大量的数据和然而，深度网络从小数据中学习新概念的能力仍然有限。少镜头分类[18，25]受到这种限制的启发，旨在学习一种模型，该模型可以有效地适应于从很少的样本中识别看不见的类别特别是，学习少样本分类器的标准设置涉及两个阶段：（i）学习模型，通常从大型训练集学习，（ii）调整该模型以从给定的小支持集学习新类这两个阶段分别称为元训练和元测试。最后，在查询集上评估适应模型，其中任务是将每个查询样本分配给支持集中的一个类。早期的方法[14，26，28，33，35，39]通过在相关任务的分布上训练深度网络，在学习到学习的公式中提出了少次分类问题，*刘夏蕾为通讯作者。图1. 跨域少拍学习（Cross-domain Few-shot Learning）考虑从一个或多个领域学习模型，以推广到具有少量样本的未知领域。先前的工作通常在元训练期间使用辅助网络学习任务不可知模型（a），并且由辅助网络生成一组适配器以进行适配在给定的支持集（b）上。在这项工作中，我们建议将适配器直接连接到预训练的任务不可知模型（c），可以在元测试期间从头开始估计（d）。我们还提出了不同的架构拓扑的适配器和它们的有效的近似。从训练集中采样，并转移该经验以提高其学习新类的性能具体地，Vinyals等人[39]学习特征编码器，该特征编码器以元训练中的支持集为条件，并且由于其非参数分类器而不需要元测试中的任何进一步训练Ravi和Larochelle [28]进一步采用了在元训练中学习特征编码器的想法，还通过LSTM学习更新规则，该LSTM在元测试中为分类器Finn等人[14]将任务设定为元学习问题，并在元训练中学习深度网络的参数，使得可以在新任务上有效地微调以所学习的参数我们参考[16，40]对早期作品的全面支持集查询集...7162尽管取得了重大进展，但早期方法的范围仅限于限制性设置，其中训练和测试样本来自单个域（或数据分布），如 Omniglot [19] ， miniImageNet [39] 和tieredImageNet [31]。它们在更具挑战性的跨域少拍任务中表现不佳，其中测试数据是从未知或以前看不见的域中采样的[38]。这种设置提出了额外的学习挑战，不仅需要利用来自小支持集的有限信息来学习目标任务，而且需要选择性地将相关知识从先前看到的领域转移到目标任务。广泛地说，最近的方法通过用大的任务不可知的权重集合和小的任务特定的权重集合来参数化深度网络来解决这个挑战，所述权重集合虽然任务不可知的权重是在多个任务上学习的，通常是从元训练中的大数据集学习的，但任务特定的权重是从给定的小支持集（例如，每个类别5张图像）[3，13，20在文献中，任务不可知的权重用于参数化单个网络，该网络在来自一个域[3，12，32]或多个域[21]的大数据上训练，或者分布在多个网络上，每个网络在不同的域[13，22，37]上训练。特定于任务的权重用于参数化线性分类器[20]、预分类器特征映射[21]和深度神经网络[1]的每一层的分类器集合最近，受[27]的启发，任务特定适配器[3，32]，应用于深度网络的多层的小容量转换，已成功用于将少数分类器引导到新的任务和域。它们的权重通常通过以支持集为条件的辅助网络动态估计[3，22，32，37]（见图1）。（a）（b）（a）（a）（b）（a）（b）（b）（a）（b）（b）（a）（b）（a）（b）（b）（a）（b）（b）（c）（b）（c）（c）（b）（c）（b）（c）（c）（b）（c）（c）（d）（b）（c）（c）（d）（c）（c）（d）（c）（d）（c）（c）（d）（c）（d）（e）（e）（由于辅助网络是在元训练中针对多个任务进行训练的，因此使用它来估计特定于任务的适配器权重的前提是基于迁移学习的原理，使得它可以从先前的任务中转移知识，以便更好地估计它们用于看不见的任务。然而，由于两个原因，学习精确的辅助网络是一项具有挑战性的任务。首先，它必须推广到以前看不见的任务，特别是显着不同的看不见的领域。其次，学习预测高维权重，其中每个权重对应于高度非线性特征空间的维度，这也是一个困难的学习问题。如图1所示，受此缺点的激励，我们提出采用一组轻量级任务特定适配器以及任务不可知权重，以使少数镜头分类器适应来自未知领域的任务不像1注意，与任务无关的权重也可以在目标任务上进行微调（例如，[7，11]）。在先前的工作中，我们从头开始学习这些适配器的权重，直接在一个小的支持集上优化它们（见图1）。（c，d））。此外，我们系统地研究了各种组合的几个设计选择的任务特定的适应，这还没有探索过，包括适配器连接类型（串行或剩余），参数化（矩阵及其分解的变化，channelwise操作）和估计的任务特定的参数。大量的实验表明，将矩阵形式的参数适配器附加到具有剩余连接的卷积层上，可以显著提高大多数领域的最新性能，特别是在Meta-Dataset上的未知领域中，性能更佳，计算量增加微不足道更多相关工作在这里，我们提供了最相关的工作更详细的讨论。CNAPS [32]和Simple CNAPS [3]都通过Film层（使用通道仿射变换并以串行方式连接到主干）使用特定于任务的适配器[27]来使其特征提取器适应目标任务并通过辅助网络对其进行估计相比之下，我们提出了直接在支持集上学习矩阵形式的残差适配器。SUR [13]和URT [22]分别从元训练中的多个特定领域模型中学习注意力机制来选择/融合特征。当我们建立在单个多域特征提取器上时，我们的方法不需要这样的关注，但是我们将特定于任务的适配器附加到特征提取器以使特征适应看不见的任务。URL [21]学习一个预分类器特征映射，以适应从多个领域学习的单个任务不可知模型的特征。虽然我们建立在他们的特征提取器和预分类器对齐的基础上，但预分类器对齐提供了非常有限的任务自适应能力，我们通过在多个层上使用适配器调整特征提取器来解决这个问题。FLUTE[37]遵循混合三步法，其首先学习域特定的薄膜层（所谓的模板）的参数，采用辅助网络通过组合模板来初始化新薄膜层的参数以用于不可见的任务，并在小支持集上微调它们。与FLUTE不同，我们的方法通过在元测试中学习残余适配器来在一个步骤中学习这种适配。也有一些方法（例如，[12，34]）不适合任务不可知和任务特定的参数化分组。BOHB [34]建议使用多域数据作为超参数优化的验证目标，以便在ImageNet上使用优化的超参数学习的特征可以很好地推广到多域。CTX [12]提出从ImageNet中学习空间对应关系，并对剩余的（看不见的）域进行评估。我们还将我们的方法与它们进行了比较，我们使用从ImageNet学习的标准单域学习网络，并通过残差适配器调整其表示。7163QSDQ{}|Q|SDDSD我--我 i=1BK k=1克鲁姆|DK|ψkΣϕK2. 方法少样本分类的目的是学习如何从少量样本中有效地对新类别的样本进行分类。每个少次学习任务由支持集S={（x，y）} |S|与|S|样本和标签对为每个域，并自适应地虽然这些方法是有效的，但它们需要通过多个特征提取器来计算每个图像的特征由于它的简单性和有效性，我们进行实验-[21]第21话，我的朋友和查询集=（xj）|jQ=|1与样本须分类为被证实了目标是学习一个分类器，准确预测的标签。注意，本文主要研究少镜头图像分类问题，即。x和y表示图像及其标签。如在[13，21，22]中，我们在两个步骤中解决了这个问题，包括i）表示学习，其中我们从大数据集b学习任务不可知的特征提取器f，ii）任务适应，其中我们通过各种任务特定的权重将任务不可知的表示适应目标任务（S，Q），通过取数据集的子集来构建S和Q，从另一个大数据集Dt采样。注意Db和Dt包含互斥的类。2.1. 任务不可知表征学习学习任务不可知或通用表示[5]是跨域泛化成功的关键。从ImageNet [10]等大型多样化数据集学习的表示可以被认为是通用的和成功的-完全转移到不同领域的任务中，只需进行微小的调整[13，22，29]。我们将这种设置称为单域学习（SDL）。可以获得更强大和更多样化的表征SDL 12.2. 特定任务权重学习一个好的与任务无关的特征提取器f被期望产生概括到许多以前看不见的任务和域的表示。然而，当训练集b和测试集t之间存在需要进一步适应目标任务的大的域间隙时，这变得更加困难。在这项工作中，我们建议将广告能力的任务不可知的特征提取器，通过添加特定于任务的权重，以适应表示的目标任务，通过使用支持集。具体来说，我们直接将特定于任务的权重附加到学习的任务不可知模型，并在给定支持集的情况下从头开始估计它们。我们将特定于任务的权重表示为k，将任务自适应分类器表示为p（k，k），它输出一个softmax概率向量，其维数等于支持集中的类别数。为了获得特定于任务的权重，我们冻结任务无关的权重，并最小化元测试w.r.t.中支持样本上的交叉熵损失特定于任务的权重[13，21，36]：通过在多个域上训练单个网络来实现设D={D}K由K个子数据集组成，每个子数据集采样1最小值（pϑ|（x，y）∈S|(x,y)∈S（，）（x）、（y）、（2）来自不同的领域。vanilla多领域学习(MDL)策略联合优化来自所有K个子数据集的图像上的网络参数：min1（gf（x），y），（1）k=1x，y∈Dk其中从测试集t中采样。大多数以前的工作冻结任务不可知的权重，但通过辅助网络（或任务编码器）估计任务特定的权重[3，21，32，37]，其中参数的不准确预测可能导致噪声自适应和错误预测。2.3. 特定于任务的适配器参数化（tasks）其中，f是交叉熵损失，f是将图像作为输入并输出D维特征的特征提取器。 f由K个域共享的k参数化。g是域k的分类器，并且由在元测试中被丢弃的k参数化我们将此设置表示为MDL。MDL中的挑战是允许跨域有效地共享知识，同时防止它们之间的负转移，并仔细平衡各个损失函数（[8]）。 URL [21]是MDL的一种变体，它首先离线训练各个特定领域的网络，然后将它们的知识提取到单个多域网络中，从而缓解了这些挑战。我们参考[21]了解更多细节。获得多域表示的另一种方式是采用多个特定于域的特征提取器，一个任务自适应技术可以大致分为两类，旨在使特征提取器或分类器适应给定的目标任务。我们使用α和β来分别表示用于适应特征提取器和分类器的特定于任务的权重，其中α=α，β。特征提取器自适应。一个简单的方法来适应f在支持集上微调其参数[7，11]。然而，这种策略往往遭受不适当的优化，即。从少量的支持样本更新非常高维的权重。在本文中，我们建议将特定于任务的适配器直接附加到现有的任务不可知模型中，例如。在图2（a）中，我们将适配器附加到ResNet主干的每个模块，并且可以从很少的样本中有效地学习/估计具体地，令fl表示特征的第l71643x33x3S×∈∗∈∈∈ ∈≪支持集支持集类特征质心预测Block1Block2区块4模块1模块2...模块1模块2cos模块1模块23x3BN ReLU查询特征查询设置模块1/2元测试中的任务适应的不同选项ReLUBN3x3串行适配器。残余适配器。矩阵矩阵适配器参数化图2.说明我们的跨域少数镜头学习的任务适应在元测试阶段（a），我们的方法首先将参数变换rα附加到每一层，其中α可以由（b）序列或（c）剩余拓扑构造。它们可以通过矩阵乘法（d）或通道尺度（e）来参数化。我们发现（c）是具有矩阵参数化的最佳配置，通过将线性变换Aβ附加到网络的末端我们通过在支持集中的一些标记图像上优化α和Aβ来调整网络以适应给定的任务，然后将查询图像映射到特定于任务的空间，并将它们分配到最近的类中心。提取器F（即，卷积层），其权重为1。给定一个支持集，由α参数化的特定于任务的适配器r α可以被合并到层fl的输出中，如下所示：f{\displaystylef}（h）=rα（f\displaystyle f}（h），h）（3）L我们的代码中有11个内核。和通道缩放（图中所示）。第2（e）段）：rα（h）=h<$α，其中α是Hadamard积，α∈RC.注意其中hRW×H×C是输入张量，f是卷积，f中的功能层。重要的是，任务的数量-特定适应参数α显著小于任务无关适应参数。适配器可以以不同的方式设计接下来，我们提出两种连接类型用于将rα合并到fαl：i）通过随后将其应用于层fαl（h）的输出的串行连接，f{l，α}（h）=rαfl（h）如图2（b）所示，以及ii）通过剩余加法进行并联，如[30]所示。f{l，α}（h）=rα（h）+fl（h）示于图第2段（c）分段。在我们的实验中，我们发现当在元测试期间在支持集上学习α时，并行设置表现最好（如图所示）2（c）我们在第二节中讨论。3 .第三章。对于rα的参数化，我们考虑两种选择。矩阵乘法（如图所2（d））与αRC×C：rα（h）=h<$α，其中，表示卷积，αRC×C，变换被实现为卷积运算，还可以在两种设置中使用附加偏置权重然而，这并没有在我们的实验中产生任何显著的收益。虽然矩阵乘法比缩放操作更强大，但它也需要估计或学习更多的参数。请注意，在深度神经网络中，输入Cin和输出的数量会发生变化。层的节点Cout可以不同。在这种情况下，仍然可以使用非方阵：RCout×Cin，但在并行设置中不可能使用标度算子。在我们的实验中，我们使用ResNet架构[15]，其中大多数输入和输出通道是相同的。当在支持集上学习其参数α时，与矩阵乘法形式并行连接的rα被称为残差适配器[30]，而通道串联连接的rα被称为FiLM[27]。在矩阵乘法的情况下，降低α维数的另一种方法是矩阵分解：α = V γ，其中VRC×B和γRC×B，BC.使用瓶颈，即。设置B

下载后可阅读完整内容，剩余1页未读，立即下载