通过信息最大化进行少样本学习的注意力权重生成

86 浏览量更新于2023-10-25 收藏 11.98MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1134990通过信息最大化进行少样本学习的注意力权重生成0新加坡科技与设计大学郭一鸾，张毅民0yiluan guo@mymail.sutd.edu.sg, ngaiman cheung@sutd.edu.sg0摘要0少样本图像分类旨在从有限的标记数据中学习分类器。由于其简单性和有效性，生成分类权重已经应用于许多少样本图像分类的元学习方法中。在这项工作中，我们提出了一种通过信息最大化进行少样本学习的注意力权重生成方法(AWGIM)，它引入了两个新的贡献：i)生成的权重与任务内的数据之间的互信息最大化；这使得生成的权重能够保留任务和特定查询样本的信息。ii)自注意力和交叉注意力路径来编码任务和个别查询的上下文。这两个贡献在广泛的实验中都显示出了非常有效的效果。总体而言，AWGIM与最先进的方法相媲美。代码可在https://github.com/Yiluan/AWGIM找到。01. 引言0尽管深度学习方法在计算机视觉[14]、自然语言处理[9]和强化学习[38]等领域取得了巨大成功，但它们对大量标记数据的需求限制了仅有少量数据可用于训练的应用场景。相比之下，人类能够从有限的数据中学习，这对于深度学习方法来说是可取的。因此，提出了少样本学习来使深度模型能够从非常少的样本中学习[10]。元学习是解决少样本问题的一种有前途的方法[43, 11, 39, 33,36]。在元学习方法中，模型提取不同任务之间的高层次知识，以便能够快速适应新任务[37,2]。对于少样本学习，有几种不同的元学习方法，如基于梯度的方法[11, 33]和基于度量的方法[39,41]。在这些不同的方法中，权重生成已经显示出了简单公式的有效性[31, 32, 12,13]。一般来说，权重生成方法学习生成用于不同任务的分类权重。0然而，在一个任务中，对于不同的查询样本，固定的分类权重可能是次优的。在这项工作中，我们提出了一种通过信息最大化进行少样本学习的注意力权重生成方法(AWGIM)来解决这个限制。AWGIM模型建模了在整个支持集和单个查询样本条件下的分类权重的概率分布。在我们的模型中，采用了由注意力块组成的两条路径来编码上下文和查询特定信息。然而，我们在实验中发现，查询样本和支持集之间的交叉注意力不足以生成适应多样查询数据的分类权重。特别地，在权重生成过程中，一些查询特定信息丢失了。为了解决这个问题，我们从InfoGAN[6]中得到了启发。具体而言，在训练GAN时，[6]提出通过最大化结构化潜在编码与生成器输出之间的互信息（MI）来学习解耦表示。互信息最大化有助于在生成器输出中保留结构化潜在编码的信息。在类似的思路下，我们应用互信息最大化来保留查询/支持样本在生成的权重中的信息。我们的贡献是：0•通过最大化生成的权重与支持/查询数据之间的互信息，我们解决了少样本分类中的权重生成问题。通过最大化互信息，权重生成器能够生成适应多样查询样本的分类权重。0•我们提出在两个独立路径中编码任务上下文和个别查询样本。注意力机制应用于两个路径中以捕捉上下文信息。0•我们进行了大量实验证明AWGIM与最先进的方法相比具有优势。我们还进行了详细的分析，验证了AWGIM中每个组件的贡献。由于少样本问题的特性，引入的计算开销很小。自适应分类权重生成也导致更快的收敛。135000引入的计算开销很小，因为少样本问题的特性。自适应分类权重生成也导致更快的收敛。02. 相关工作02.1. 少样本学习0最近，从少量标记的训练数据中进行学习引起了越来越多的关注。目前最成功的现有方法是应用元学习来解决这个问题，可以分为几个类别。在基于梯度的方法中，学习了适用于所有任务的最佳初始化[11]。[33]直接学习了一个元学习器LSTM来优化给定的少样本分类任务。[40]通过梯度学习了每层激活的变换，以更好地适应当前任务。在基于度量的方法中，学习了查询和支持样本之间的相似度度量。[19, 43, 39,41,23]。一些工作还考虑了空间信息或局部图像描述符，以计算更丰富的相似度[25, 24,45]。一些工作直接生成分类权重。[12]将分类权重生成为基类和新类权重的线性组合。类似地，[32]和[31]都是从训练好的特征提取器的激活中生成分类权重。图神经网络去噪自编码器在[13]中使用。[29]提出从每个任务的损失梯度中生成“快速权重”。所有这些方法都没有考虑为不同的查询示例生成不同的权重，也没有最大化MI。还有一些其他的少样本分类方法。生成模型用于在[50, 44,7]中生成更多的数据。[5]和[21]直接使用了闭式解。[26]在传导图上集成了标签传播来预测查询类别标签。02.2. 注意力0注意力机制在计算机视觉[46, 30]和自然语言处理[3,42]中取得了巨大的成功。它在建模查询和来自特定上下文的键值对之间的交互方面非常有效。基于键和查询是否指向相同的实体，人们将注意力称为自注意力或交叉注意力。在这项工作中，我们使用这两种类型的注意力来编码任务和查询-任务信息。最相似的工作是Attentive Neural Processes[17]，它也使用自注意力和交叉注意力。然而，我们通过最大化MI来使用注意力进行少样本图像分类。相比之下，[17]从随机过程的角度进行回归，并优化变分目标。有一些工作[47,16]使用空间注意力来增强特征，而我们不依赖空间线索，而是专注于使用自/交叉注意力建模交互作用。02.3. 互信息0给定两个随机变量x和y，互信息I(x;y)衡量了一个随机变量在另一个已知的情况下不确定性的减少。它被定义为联合分布p(x, y)和边缘分布p(x) �p(y)之间的Kullback-Leibler散度。0I(x; y) = DKL(p(x, y) ∥ p(x) � p(y))。0当x和y是独立的时候，p(x, y) = p(x) � p(y)，因此I(x, y) =0，表示知道x不会透露关于y的任何信息。当y是x的确定性函数时，I(x,y)达到最大值。MI已广泛应用于生成对抗网络[6]、自监督学习[15]、视觉问题生成[20]等领域。最近，MI被引入到少样本学习中作为记忆问题的正则化方法[48]。具体而言，最大化查询标签和支持数据之间的MI，或者最小化查询标签和元参数之间的MI。在[22]中，通过闭式解最大化学习的二进制编码和标签之间的MI。相反，我们通过生成具有MI变分下界的准确权重来直接解决少样本分类问题。03. 提出的方法0在本节中，我们提供问题的形式化描述。然后讨论最相关的工作并揭示其局限性。我们从第3.3节的理论分析中推导出我们的目标函数。整体模型在第3.4节中详细介绍。03.1. 问题形式化0与许多流行的少样本分类元学习方法一样，我们将问题建模为情节训练范式[43, 11]。从未知任务分布 P ( T )中采样一个 N-way K-shot 任务 T，包括支持集和查询集：0T = ( S , Q )，(2)0其中，S = { ( x k c n , y k c n ) | k = 1 , ..., K ; n = 1 , ...,N }，Q = { (ˆ x 1 , ..., ˆ x |Q| ) }。支持集 S 包含 NK个标记样本。查询集 Q 包括 ˆ x，我们需要基于 S 预测 ˆ x的标签 ˆ y。在接下来的讨论中，我们使用 ( x c n , y c n )和 (ˆ x , ˆ y ) 分别表示支持样本（来自类别 c n）和查询样本。在元测试期间，元学习方法的性能在 Q上进行评估，提供了标记的S。元训练和元测试中使用的类别是不相交的，因此元学习模型需要学习可在任务之间传递的高级知识，并快速适应新任务。我们提出的方法遵循生成分类权重的通用框架[31,32, 36, 12, 13]。135010SA 10SA 20CA0��0�� 10�� 0�� 0�� 0��0��0��0�� 20�� 0关注路径上下文路径0SA0自注意力0CA0交叉注意力信息最大化0图1. 我们提出的AWGIM的概述。输入任务是5-way1-shot，支持集为X，查询示例为ˆx。支持集中不同颜色的数据表示不同的类别。上下文路径中的编码过程产生了上下文感知的支持表示Xcp。类似地，关注路径使查询样本ˆx具备任务知识。两个路径都是通过注意机制实现的。ˆx ap 被重复连接到 Xcp。权重生成器g将这些连接表示作为输入，生成特定于ˆx的分类权重W，用斜杠表示的彩色矩阵。W可用于预测ˆx和X的类别标签。W还用于通过两个网络r1和r2重构生成器g的输入。通过这种方式，最大化互信息的下界，并且g被迫生成对不同查询样本敏感的分类权重。在元测试期间，r1和r2被丢弃。0在这个框架中，有一个特征提取器来输出图像特征嵌入。元学习器需要为不同的任务生成分类权重。03.2. 潜在嵌入优化0潜在嵌入优化（LEO）[36]是与我们的工作最相关的权重生成方法之一。在LEO中，潜在编码 z 是由 u 在 S上生成的，表示为 z = u ( S )。分类权重 w 可以从 z中解码得到，使用生成函数 v，w = v ( z)。在内循环中，使用 w来计算支持集上的损失（通常是交叉熵），然后更新 z：0z' = z - η�z L S ( w )，(3)0其中，L S 表示仅在 S 上评估损失。更新的潜在编码 z'用于解码新的分类权重 w'，其中 v 是生成函数。w'在查询集 Q 的外循环中被采用，LEO 的目标函数可以写成min θ L Q ( w' )，(4)0其中θ代表u和v的参数。LEO通过学习一个低维潜在空间来避免在内循环中更新高维的w，从中采样的z可以用来生成w。LEO和AWGIM之间有两个显著的区别。首先，LEO依赖于内部更新（方程3）来引导v生成适合输入任务的权重。相反，AWGIM是一个前馈网络，训练目标是最大化互信息，以适应不同的任务。其次，0AWGIM学习为每个查询样本生成最优的分类权重，而LEO生成的权重是固定的，条件是一个任务的支持集。03.3.权重生成的信息最大化0我们的目标是为具有少量标记训练数据的一个采样任务生成分类权重。换句话说，我们想要为一个任务T定义模型p(w|T)。需要注意的是，在LEO中生成的分类权重对于不同的查询样本并不敏感，这些查询样本也是任务T的一部分。为了解决这个问题，我们可以在生成权重的过程中编码查询特定的信息，并学习模型p(w|ˆx,S)。然而，在生成过程中可能会忽略关于ˆx的信息，这在实验中已经观察到。为了解决这个限制，我们提出最大化生成的权重w与查询数据和支持数据之间的互信息。不失一般性，我们在以下讨论中考虑类别ci的分类权重wi。目标函数可以描述为0max I((ˆx,ˆy);wi) + 10K I((xci,yci);wi). (5)0根据互信息的链式法则，我们有0I((ˆx,ˆy);wi) = I(ˆx;wi) + I(ˆy;wi|ˆx). (6)0方程6对5中的两个项都成立。因此，目标函数为1K(10)135020该方程可以写成0max I(ˆx;wi)+I(ˆy;wi|ˆx)+ 10K [I(xci;wi)+I(yci;wi|xci)].0(7)直接计算方程7中的互信息是不可行的，因为真实的后验分布如p(ˆy|ˆx,wi)，p(ˆx|wi)仍然未知。因此，我们使用变分信息最大化[4,6]来计算方程5的下界。我们使用pθ(ˆx|wi)来近似真实的后验分布，其中θ表示模型参数。因此，我们有0I(ˆx;wi) = H(ˆx) − H(ˆx|wi)0= H(ˆx) + Ewi�p(w)[Eˆx�p(ˆx|wi)[log p(ˆx|wi)]] =H(ˆx) + Ewi�p(w)[DKL(p(ˆx|wi)∥pθ(ˆx|wi))0+ Eˆx�p(ˆx|wi)[log pθ(ˆx|wi)]]0≥ H(ˆx) + Ewi�p(w)[Eˆx�p(ˆx|wi)[log pθ(ˆx|wi)]] =H(ˆx) + Ewi,ˆx�p(w,ˆx)[log pθ(ˆx|wi)]0= H(ˆx) + Eˆx�p(ˆx)[Ewi�p(w|ˆx)[log pθ(ˆx|wi)]] (8)0H(∙)是随机变量的熵。H(ˆx)是给定数据的常数值。我们可以将这个下界最大化作为真实互信息的代理。与I(ˆx;wi)类似，0I(ˆy;wi|ˆx) ≥ H(ˆy|ˆx)+0Eˆy�p(ˆy|ˆx)[Ewi�p(w|ˆy,ˆx)[log pθ(ˆy|ˆx,wi)]].(9)0我们可以对来自类别ci的支持数据（xci，yci）进行相同的推导。将下界放回方程7中。为了清晰起见，省略常数熵项和期望下标，我们将新的目标函数表示为0max θ E[log pθ(ˆy|ˆx,wi) + log pθ(ˆx|wi)+0K log pθ(yci|xci, wi) + log pθ(xci|wi)].0第一项和第三项分别最大化网络参数相对于生成的分类权重的标签的对数似然，即最小化预测和真实标签之间的交叉熵。此外，我们假设pθ(ˆx|wi)和pθ(xci|wi)是高斯分布。因此，最大化对数似然可以通过最小化L2重构损失来实现。总体而言，应用MI最大化，我们得到一个包含交叉熵损失和重构损失的目标函数，将在第3.5节讨论。03.4. 注意权重生成0我们提出的方法的框架如图1所示。假设我们有一个特征提取器，可以是一个简单的4层Convnet或更深的Resnet。采样的任务T中包含的所有图像都经过这个特征提取器处理，并在之后表示为d维向量，即x，ˆx∈Rd。有两条路径分别对任务上下文和单个查询样本进行编码，称为上下文路径和注意路径。两个路径的输出被连接在一起作为生成分类权重的生成器的输入。生成的分类权重不仅用于预测ˆx的标签，还用于最大化MI的下界。03.4.1 上下文路径和注意路径0我们使用多头注意力网络进行编码。注意机制的使用是为了建模任务内样本之间的相互作用/关系作为任务特定属性。以前的工作已经应用了关系网络来实现这个目的[36]。我们使用更先进的多头注意力，因为它在建模来自不同表示子空间的交互方面具有优势[42]。具有H个头的多头注意力可以描述为：0MultiHead(Q, K, V) = Concat(head1, ..., headH)WO,(11) headj(Qj, Kj, Vj) = Attention(Qj, Kj, Vj), (12)0Attention(Q, K, V) = softmax(QKT0√dkV)，(13)0Qj = QWjQ, Kj = KWjK, Vi = VWjV, (14)0其中Q、K、V是查询、键、值矩阵。WjQ、WjK、WjV是第j个头的权重矩阵。WO是输出的权重矩阵。dk是键的维度。原始的Q被添加到方程11的输出中，以实现残差学习来稳定训练。编码过程包括两个路径，即上下文路径和注意路径。上下文路径旨在仅为支持集学习表示，使用一个由θsa cp 1[42]参数化的多头自注意力网络fθsa cp，描述如下：0Xcp = fθsa cp(Q = X, K = X, V = X). (15)0上下文路径的输出Xcp∈RNK×dh，因此包含了关于任务的更丰富信息，可以在后续用于生成权重。dh

下载后可阅读完整内容，剩余1页未读，立即下载