自我注意信息传递的无监督少量学习方法及其在分类任务中的有效性

136 浏览量更新于2023-10-16 收藏 1.29MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5426对比少镜头学习中的自我注意信息传递Ojas Kishorkumar Shirekar1，2，Anuj Singh1，2，Hadi Jamali-Rad1，21代尔夫特理工大学（TU Delft），荷兰2壳牌全球解决方案国际有限公司，荷兰阿姆斯特丹{o.k.shirekar，a.r.singh}@ student.tudelft.nl，h. tudelft.nl摘要人类有一种独特的能力，可以在很少或没有监督的情况下，从少数几个例子中学习新的表示。然而，深度学习模型需要大量的数据和监督才能在satisfactory级别上执行。无监督的少量学习（U-FSL）是弥合机器和人类之间这一差距的追求。受图神经网络（GNNs）发现复杂样本间关系的能力的启发，我们提出了一种新的基于自注意力的消息传递对比学习方法（SAMP-SVM）用于U-FSL预训练。我们还提出了一种基于最优传输（OT）的微调策略（我们称之为OpT-Tune），以有效地将任务感知引入到我们新的端到端无监督少镜头分类框架（SAMPTransfer）中。我们广泛的实验结果证实了SAMPTransfer在各种下游少量分类场景中的有效性，为miniImageNet和tieredImageNet基准测试中的U-FSL设定了新的最先进水平，分别提供了高达 7%+ 和 5%+ 的我们的进一步调查还证实，SAMPTransfer仍然与miniImageNet上的一些监督基线相当，并且在具有挑战性的跨域场景中优于所有现有的U-FSL基线我们的代码可以在我们的GitHub仓库中找到：https://github.com/ojss/SAMPTransfer/。1. 介绍深度学习模型已经变得越来越大，并且需要大量数据才能保证可接受的下游性能。人类既不需要大量的数据样本，也不需要广泛的监督形式来理解它们的表面和其中的语义。小样本学习最近引起了人们的极大兴趣，因为它强调了人类自适应学习能力与需要数据的深度学习方法之间的根本差距。在这个领域中，少样本分类被转换为预测一组未标记的数据点（查询集）的类标签的任务，仅给出一小组标记的数据点（支持设置）。通常，查询和支持数据样本来自同一个分布。少样本分类方法通常由两个连续的阶段组成：（i）在大型基类数据集上进行预训练，无论该预训练是有监督的还是无监督的其次是（ii）对由新类组成的看不见的数据集进行微调。通常，预训练和微调中使用的类是相互排斥的。在本文中，我们专注于自监督设置（在文献中也可互换地称为我们解决无监督少数镜头学习（U-FSL）的动机是它提出了一个更现实的挑战，更接近人类围绕U-FSL的工作主体可以大致分为两种不同的方法。第一种方法依赖于元学习和情景预训练的使用，其涉及创建合成“任务”以模仿随后的第二种方法遵循迁移学习策略，其中网络被非偶发地训练以从大量未标记数据中学习预训练阶段的最佳更具体地说，首先对特征提取器进行预训练，以使用某种形式的表示学习来捕获未标记数据（存在于基类中）的结构[5，6，32，39]。接下来，预测层（按照惯例，是线性层）与预训练的特征提取器一起进行微调，以快速适应新的类别。特征提取器对未标记数据的分布建模得越好，预测器需要的训练样本就越少，并且它在微调和最终测试阶段就能更快地适应看不见的类。最近的一些研究[11，32，42]认为，迁移学习方法在标准的域内和跨域环境中优于元学习方法，其中基础类和新类来自完全不同的分布。在过道的另一边，遵循情景训练范式的监督FSL方法可能包括一定程度的任务意识。这种方法利用了5427在训练和测试阶段[9，54，57]中查询集中可用的信息，以减轻模型因此，该模型通过更好地对齐支持和查询样本的特征来学习生成特定于任务的嵌入，以其他一些监督方法并不完全依赖于卷积特征提取器。相反，他们使用图神经网络（GNN）来建模实例级和类级关系[26，37，55，58]。这是因为GNN然而，看看最近的文献，人们几乎看不到任何基于GNN的架构被用于无监督设置。最近的无监督方法在自我监督的预训练阶段使用了一种成功的对比学习形式[6]对比学习方法通常将批处理中的每个图像视为其自己的类。共享该类的唯一其他图像是所讨论图像的增强。这样的方法在图像和其增强的对（正对）之间强制表示的相似性，同时通过对比损失在所有其他图像对（负对）之间强制不相似性。尽管这些方法工作得很好，但它们忽略了在随机采样的一批图像中可能存在实际上属于同一类的几个图像（除了它们的增强）的可能性。通过应用对比损失，网络可能会无意中学习这些图像和类的不同表示。为了解决这个问题，最近的方法，如Simplified[6]在预训练阶段引入更大的批量，以最大化阴性样本的数量。然而，这种方法面临两个缺点：（i）批量越来越大，要求更昂贵的培训基础设施，(ii) 它仍然不会将类内依赖性嵌入网络。第（ii）点仍然适用于更近期的方法，如Protocols [32]。C3LR[39]中提出了一种简单而有效的解决方法，其中引入了中间聚类和重新排序步骤，并相应地调整对比损失以摄取一种阶级认知的表象。然而，这个问题可以从不同的角度来解决，网络探索每批数据样本的结构。我们提出了一种新的 U-FSL 方法（称为SAMPTransfer），该方法结合了GNN在预训练阶段学习全局数据结构更具体地说，通过SAMPTransfer，我们引入了一种新的自注意力消息传递对比学习（SAMP-BACK）方案，该方案使用一种形式的图形注意力，允许网络通过查看每批单个图像实例此外，所提出的基于OT的微调策略（我们称之为OpT-Tune）支持和查询样本的分布，以提高预训练编码器的下游适应性，而不需要任何附加参数。我们的贡献可概括为：1. 我们提出了SAMPTransfer，一种新的U-FSL方法，它引入了一种自注意消息传递对比学习（SAMP-PART）范式，用于非监督的少量预训练。2. 我们建议应用最佳运输（ OT）为基础的微调（OpT-Tune）策略，有效地诱导任务意识的微调和推理阶段。3. 我们为SAMPTransfer提供了理论基础，以及广泛的实验结果证实了SAMPTransfer的有效性，并在迷你ImageNet和分层ImageNet基准测试中设置了新的最先进的（据我们所知），我们还报告了具有挑战性的CDFSL基准测试的竞争性能[20]。2. 相关工作自我监督学习。自监督学习（SSL）是一个术语，用于从数据本身中获得监督信号的无监督方法的集合，通常通过利用数据中的底层结构自监督学习的一般技术是从任何观察到的部分预测输入的任何未观察到的（或属性）。SSL领域的一些最新进展已经通过使其完全监督的同行黯然失色而引起了轰动[19][我们的预训练方法 SAMP-Risk 受到 Simplified [6] ，ProtoTransfer [32]和C3 LR [39]的启发度量学习度量学习旨在学习一个将数据映射到嵌入空间的表示函数嵌入空间中对象之间的距离必须保持它们的相似性（或相异性）-相似的对象更近，而不相似的对象更远。例如，基于某种形式的对比度损失的无监督方法，如Simplified [6]或NNNN [15]，引导属于同一潜在类的对象映射到同一点，而来自不同类的对象映射到不同点。请注意，在无监督设置中，批次中的每个图像都是其自己的类。这个过程通常涉及对同一图像进行两次裁剪，并鼓励网络为这两个图像发出相同的表示，同时确保表示与给定批次中的所有其他图像保持不同度量学习方法已被证明在少量学习中工作得很好。 AAL-ProtoNets [1] ， ProtoTransfer [32]，UMTRA [25]和某些GNN方法[37]是使用度量学习进行少量学习的优秀例子。5428i=1D∈Ai=1--Dff=fθf图1：SAMP-ESTA示意图和预训练程序。在图中，xi，a是从增广集合A中采样的图像。p消息传递步骤细化使用CNN编码器提取的特征。图2：从预训练的CNN中提取的特征用于构建图。首先使用预训练的SAMP层来细化特征。然后，OpT-Tune将支持功能与查询功能对齐。FSL的图形神经网络。自从在[37]中首次将图用于FSL以来，在将图用于监督FSL方面已经有了一些进展和持续的兴趣。在[37]中，每个节点对应于一个实例（标记或未标记），并表示为特征嵌入和标签嵌入的级联。他们模型的最后一层是线性分类器层，直接输出每个未标记节点的预测分数使用转导的方法也有所增加TPN [31]是使用图来传播标签的方法之一[52]从标记样本到未标记样本。尽管EGNN [26]等方法利用了边和节点特征，但早期的方法仅关注使用节点特征。图是有吸引力的，因为它们可以对批内关系进行建模，并且可以扩展用于转导，如[26，31]中所使用的。除了转换和关系建模，图作为任务适应模块是非常有效的。HGNN [58]是一个使用图来改进和适应特征嵌入的例子。必须指出的是，大多数基于图的方法已被应用于监督FSL设置。据我们所知，我们是第一个以任何形式将其用于U-FSL的公司。更具体地说，我们使用消息传递网络作为我们的网络架构和预训练方案的一部分。3. 拟定方法（SAM转移）在本节中，我们首先描述我们的问题公式化。然后，我们讨论所提出的方法的两个后续阶段：（i）自我监督预训练（SAMP-TORCH），以及（ii）基于最佳传输的情景监督微调（OpT-Tune）。这两个阶段共同构成了我们的总体方法，我们将其称为SAMPTransfer。所提出的预训练和微调过程的机制在图1A和1B中示出。1和2。3.1. 预赛让我们将大小为D的训练数据表示为tr=（xi，yi）D，其中（xi，yi）分别表示图像及其类别标签。在预训练阶段，我们从tr中采样L个随机图像，并通过随机采样增强函数来增强每个样本A次。），a[A]从集合中。这导致小批量的大小B=（A+ 1）L总样品。请注意，在非监督设置中，我们无法访问预训练阶段的数据标签接下来，我们在从大小为D'的测试数据集Dtst={（xi，yi）}D'中抽取的一组随机采样任务Ti上对我们的模型进行微调[47]。一个任务Ti5429QGG××∈|G|◦--我GΣ∈NGGIJQ我KJK我我i=1J j=1Vp+1λpWpVp，其中λij是注意力V=[Z，Z]，大小为B×d，连接源，qkqkj∈NiL∈∈由两部分组成：（i）支撑集S，其中λp= softmax（WpVp（WpVp）T/softmaxd），其中Wp和该模型学习（ii）在其上评估该模型的查询集Q构造了支撑集S={xs，ys}NKWp，都∈Rd×d，是对应于发送节点和接收节点。以允许通过从N个不同的样本中抽取K个标记的随机样本类，导致所谓的（N路，K拍摄）设置。查询集合Q={xq}NQ则包含NQ个未标记样本。按照惯例，我们用（N，K）表示Ti= Si <$Q i。3.2. 自我注意消息传递（SAMP）我们的网络架构由卷积（CNN）特征提取器fθ和消息传递网络消息传递神经网络学习不同的注意力分数集，我们在每个消息传递步骤中应用H标度点积为此，我们使用Wp，h，Wp，h和Wp，h，而不是使用单个权重矩阵Wp，Wp和Wp，对于每个注意力头，∈Rd/H×d，结果是：Vp+1=1Wp，1Vp，. . . ，λp，HWp，HVp，基于自我关注，F。CNN特征提取器fθ，i由θ参数化，用于提取特征V=fθ（X），其中V∈RB×d是每个尺寸为IJj∈Nijijj∈Nid和XRB×C×H×W 是一批大小为C H W.为了帮助细化特征并使用批次级关系，我们创建了一个图=Graph（V，e，γ），其中V被视为一组初始节点特征，e是基于给定距离度量的所有节点之间的成对距离，γ是e中的值的阈值，用于确定两个节点是否连接。注意=B，因为我们在批次中的B个样本上构建了图。我们使用一个自注意力信息过滤神经网络（我们称之为SAMP）f，参数化的，通过交换和合并所有对连接节点之间的从现在开始，可以看出，在图。在图1和图2中，我们将特征提取器fθ和SAMP模块fθ的组合称为fθ=fθ，其中fθ =θ，f θ是所有参数的集合。SAMP层f在图上操作。为了允许有效的信息交换来细化初始节点特征V，我们以与[46]中定义的标准图注意力略有不同的方式使用图注意力[46]中的图注意力使用单个权重矩阵W，它充当所有节点的共享线性相反，我们选择使用[38，45]中定义的缩放点积自我注意。这种设计选择的主要好处是它增强了网络的表现力，如[4，27]所示。值得注意的是，使用三个注意Vp+1仍然具有相同的维数Rd。3.3. 自我监督预训练（SAMP-PART）我们无法访问训练数据的真实类别标签，这一事实强调了使用自我监督预训练方案的必要性。正如第1节中简要讨论的那样，我们建立在采用对比原型迁移学习的想法基础上，并从[6，32，39]中得到一些启发。标准的对比学习强制增强图像的嵌入接近其源图像在表示空间中的嵌入SAMP-SVM的关键思想不仅是对源图像和增强图像嵌入执行对比学习（这就是“SAMP“模块的用武之地SAMP允许模型在小批量中的多个图像中提取更丰富的语义信息。具体来说，我们对SAMP细化特征（由fθ生成）和标准卷积特征（由fθ生成）应用对比让我们更详细地介绍整个过程。算法1开始于批生成：每个小批由来自Dtr的L个随机样本{xi}组成，单独的表示（查询、键和值），而不是其中xi被视为1i=1- 拍摄支持样品，我们仅用单个权重矩阵来线性变换数据是对数据点之间的关系建模的关键。我们应用类似于[38，46]的p个连续消息传递步骤。在每一步中，我们在连接的节点之间传递消息，并在Vp+1中获得更新的特征，在步骤P+ 1。这里，Vp+1的第i行由下式给出：创建A个随机扩增的版本xi，a作为查询样本（第2行到第3行），导致批量大小B =（A +1）L。然后嵌入ZRL×d和Z<$通过将源图像和增强图像通过特征提取网络fθ，re-fold，生成R LA × d（行4）。然后我们构造G=Graph（V，e，γ），其中我=IJJ节点i和j之间的得分，WpRd×d是最小值。在步骤P中，Sage通过权重矩阵，i表示节点i的相邻节点的集合。通过这种方式，λi，j允许我们的更新机制灵活地对每个样本进行加权这批样品中的每一个样品。我们使用缩放的点积自我注意力来计算注意力分数，导致-增广图像嵌入Z和Z'（第5-6行），e是中心移位/尺度不变余弦相似向量d′[. [5][44]，而γ是较早定义图形然后通过SAMP层f，从而产生具有细化的节点特征V’的更新的图’（第7行）。V′被拼接到更新的源和增强的图像中5430i=1i=1，a=1Σ-Σi=1+LLL⟨⟩L⟨⟩--L LL⟨··⟩我 Ji=1扩充样本：x<$i，a=a（xi）;aA。3πi，j←πi，j/4 求解方程jπi，j，i∈[NK]，j∈[NQ]1：LL+1：Bexp（−d[Z<$（a−1）L+i，Zk]）我我Ji=1J j=1i、jΣ12L2=1/LAL算法1：SAMP-SAMP要求：A，fθ，fθ，α，β，η，d[。]，d′[. ]不做就做算法2：OpT-调节要求：d[·]，Zs，Zq1 Mi，j=d[Zs，Zq]，ni∈[NK]，j∈[NQ]2π←求解方程（1）使用Sinkhorn-Knopp [10]2样本小批量{xi}L ∈ Dtr3⋆ ⋆Σ⋆[4] Z，Z<$←fθ。{xi}L fθ，{x<$i，a}L，A返回n：Zs5V=[Z，Z<$]，e={d′[Vi，Vj]，i，j∈[B]}6G ←Graph（V，e，γ）7G′←图（V′，e′，γ）=f（G）8Z′，Z<$′←V′，V′基于OT的特征对齐。我们在SAMPTransfer的背景下提供了OT的基本知识。让r∈RNK和c∈RNQ是两个概率单形SQ9（i，a）=−logexp（−d[Z<$（a−1）L+i，Zi]）定义在Zi，i∈[NK]和Zj，j∈[NQ]上，活泼地r表示支持嵌入的分布exp，−d<$Z<$（′a−1）L+i，Zi′<$，而c表示查询嵌入的分布10r（i，a）= logLk=1 exp，−d<$Z<$（′a−1）L+i，Zk′，设k（r，c）是一个NK×NQ双随机11L1=1/LA Li=113L=βL1+ L2一a=1Aa=1（i，a）r（i，a）矩阵，其中所有行的总和为r，所有列的总和为c，如下所示：n（r，c）=，π ∈ RNK×NQ|π1NQ= r，π1NK=c，.1415末端←Intuitment，RNG（r，c）是所有运输“计划”的集合计算每个支持嵌入中有多少被分配给每个查询嵌入，反之亦然。我们的目标是嵌入（Z′和Z′），分别为（第8行）。在第9至12行中，我们应用对比损失1（Z和Z'之间），2（在Z′和Z′之间）。在这里，1鼓励特征提取器将增强查询样本的嵌入Z'围绕其原型（即源嵌入）Z进行聚类，这反过来为SAMP投影模块提供了一组良好的初始嵌入以进行细化。L2从所有可能的传输计划中找到最优传输计划，该传输计划将NK个支持嵌入分配给NQ个查询嵌入，其中NQ个查询嵌入之间具有最大重叠。他们的分布。给定成本矩阵M，使用运输计划π将Zs映射到Zq的成本可以量化为π，MF，然后OT问题可以表述为，强制执行与1相同的约束，但对于嵌入gen，由SAMP层验证。这两个损失项都使用欧几里得ππ= argminπ，Mπ∈Π（r，c）F−εH（π），（1）嵌入空间中的距离度量，由d[. ]中。最后，总损失由=β1+2给出，它是用小批量随机梯度下降法对θ =θ，θ中的所有参数进行优化的，其中β是缩放因子，η是学习率。3.4. 监督微调（OpT-Tune）我们提出了一个两阶段的监督微调，包括（i）运输阶段，其次是（ii）一个原型微调和分类阶段。运输阶段涉及使用最优运输（OT）[10，34]。如Fig.2，OT有助于投影支撑集Zs=f<$（{xs}NK）∈RNK×d的嵌入，使得它们重叠其中π 表示最优运输方案，，F是Frobenius点积，ε是熵正则化子H上的权重。成本矩阵M通过测量每个支持和查询嵌入对之间的距离来量化两个分布之间的重叠：Mi ， j=d[Zs，Zq]。熵正则化促进了然后使用时间有效的Sinkhorn-Knopp算法[10，40]求解方程（1）注意ππ也被称为Wasserstein度量[10，34]。为了利用成本矩阵M使Zs适应Zq，我们通过下式计算Zs，gi v en作为Z s，g iven的投影映射：Zs=πZ q，更好地使用查询集嵌入，Zq=f<$（{xq}NQ）∈π<$（二）ΣΣ1Lk=1⋆5431S^RNQ×d运输。这增加了传播的Z在查询集的域中，这反过来又创建了πi，j=Ji，j，n∈i∈[NK]，j∈[NQ]，中的N个类中的每个类的代表性原型。我们在第6节中表明，这会显著提高下游分类性能。其中ππ是归一化的传输。投影的支持嵌入Zs是查询嵌入Zq所占据的区域中的Zs的估计。具体来说，它是一个π5432∈ C×..S×−∥∥×..支撑特征Zs的重心映射。算法2以简洁的方式展示了这个过程。原型分类。投影支撑嵌入式Z轴用于原型创建和分类，查询点的位置为此，在[32，43]之后，我们将f与单层最近均值分类器f连接起来（产生类似于ProtoNet [41]的架构），并且只微调最后一层。在这个阶段中，对于支持集中的每个类k，我们使用属于类k的投影支持嵌入Zs，k来计算类k的类原型c k：嵌入维数d= 512而不是d= 1600。网络使用SAMP-ANN在数据集的相应训练分割上进行预训练，初始学习率为η= 0。0005，由余弦调度器通过Adam优化器[28]和L= 128进行退火。涉及CDFSL基准测试的实验遵循[20，32，39]，其中我们使用Adam优化器和恒定学习率η = 0，在大小为224 224的迷你ImageNet图像上使用SAMP-ESTO预训练ResNet- 10编码器400个epoch。0001 与Conv4编码器类似，ResNet-10使用相同的SAMP配置。在第3.4节定义的验证和测试期间，我们1ck=Zs，k对于k∈C，初始化并微调fixed，进行15次迭代，在每次迭代中从S中提取样本的子集为了验证，z<$∈Z<$s，k在[32，43]之后，我们将权重设置为Wk= 2ck初始化分类层f 并将偏置设置为bk=ck2。为了对这一层进行微调，我们对支持度的一个子集进行采样，并使用标准的交叉熵损失来训练f。更多细节见第4节。4. 实验装置数据集。为了对我们的方法SAMPTransfer的性能进行基准测试，我们对两个最常用的少拍学习数据集进行了“域内”实验：Mini ImageNet [47]和分层ImageNet[36]。MiniImageNet包含100个类，每个类600个样本。这相当于总共60，000张图像，我们将其调整为84 84像素。在100个类中，我们使用64个类进行训练，16个用于验证， 20 个用于测试。 TieredImageNet 是ILSVRC-12的一个更大的子集[13]，有608个类，总共有779，165张大小为84 84的图像。在608个类中，我们使用351个用于训练，97个用于验证，8个用于测试增强策略遵循[2]中提出的策略。我们还将我们的方法与最近更具挑战性的“跨域”少数学习（CDFSL）基准进行了比较这个基准测试有四个数据集，与迷你ImageNet的相似性越来越大。按照这个顺序，我们有来自ChestX的灰度我们还使用了Caltech-UCSD Birds（CUB）数据集[48]以进一步分析跨域性能。CUB数据集由来自200种独特鸟类的11788张图像组成我们使用100个类进行训练，50个类用于验证和测试。培训战略。图1，作为特征提取器，我们使用标准的Conv4模型[25，32，47]。它是由一个单一的SAMP层与4个注意头跟随。请注意，我们还使用了Conv4网络的一个稍微修改过的版本，我们称之为Conv4b，其中我们将过滤器的数量从（64，64，64，64）增加到（96，128，256，512）[17]，并将最终的特征图平均化，返回一个较小的我们使用各个数据集的验证分割来创建15个（N路，K评价设想方案和基线。我们的测试方案使用600个测试集，每个类有15个查询镜头，使用OpT-Tune对预训练的编码器（SAMP-BLOG）进行微调并进行测试。我们所有的结果表明，95%的置信区间超过3次运行，每次600个测试事件。因此，根据3次运行计算标准偏差值，以提供更具体的比较措施对于我们的域内基准测试，我们测试（5路，1次）和（5路，5次）分类任务，而我们的跨域测试是使用（5路，5次）和（5路，20次）分类任务进行的[20]。我们将我们的性能与一套最近的非监督少数拍摄基线进行比较，例如U-MlSo[60]，C3 LR [39]，Meta-GMVAE [29]和Revisiting UML[56]。此外，我们还与一组监督方法（如MetaQDA [61]和TransductiveCNAPS [3]）进行了比较，其中最好的方法有望优于我们的方法和其他无监督方法。5. 绩效评价域内实验。表1总结了我们在迷你ImageNet数据集上针对N= 5和K= 1，5的（N路，K拍摄）场景的性能评估结果。顶部部分比较了所提出的方法（SAMPTransfer）与最近的无监督竞争对手的性能。在（5路，1次拍摄）和（5路，5次拍摄）设置中，我们的表现分别超过最接近的竞争对手约7%+和2%+。更有趣的是，我们的方法匹配或优于一些监督基线（表的底部部分），特别是SimpleCNAPS，它使用更强大的ResNet-18主干。显然，最先进的监督少次学习方法具有能够访问真实标签的优势当涉及到分层ImageNet时，我们的方法显示出比最近的竞争对手（如C3LR）有相当大的收益[39]在（5路，1次发射）设置中有3%+的改进，在（5路， 5 次发射）设置中有 5%+ 的因此，SAMPTransfer为这两个应用程序都设置了新的最先进的5433±±∼表1：准确度（%标准品）用于（N路，K次）分类任务。风格：最好和第二好。迷你ImageNetProtoNet [41] Conv4 46.44±0.7866.33±0.68MMC [36] Conv4 50.41±0.3164.39±0.24[57] 2016年10月25日SimpleShot [51]Conv4 49.69±0.1966.92±0.17简单CNAPS [3]ResNet-18 53.2±0.970.8±0.7Transductive CNAPS [3]ResNet-18 55.6±0.973.1±0.7MetaQuotes Software Corp.是一家软件开发公司，不提供任何形式的投资组合。预处理+线性[32]Conv4 43.87±0.6963.01±0.71表2：准确度（%标准品）用于（N路，K次）分类任务。风格：最好和第二好。分层ImageNetULDA-ProtoNet [35]Conv4 41.60±0.64 56.28±0.62ULDA-MetaOptNet [35]Conv4 41.77±0.6556.78±0.63U-SoSN+ArL[59]Conv443.68±0.9158.56±0.74U-MlSo [60] Conv4 43.01±0.9157.53±0.74SAMPTransfer（我们的）Conv445.25±0.8959.75±0.66SAMP转移费用（我们的）Conv4b49.10±0.9465.19±0.82分层ImageNet和迷你ImageNet数据集。跨域实验。我们专注于最近的CDFSL基准[20]，以研究SAMPTransfer在跨域场景中的性能。该结果总结见表3。在这里，我们在迷你ImageNet上进行预训练，并在ChestX [50]，ISIC 2018 [8]，EuroSAT [22]和CropDiseases [33] 上进行微调我们比较了 C3LR[39]，ProtoTransfer [32]及其使用UMTRA [25]（也在[32]中提出）的两个变体以及Con- FeSS [11]和ATA [49]的性能-这是两种最新的专用方法图3：应用OT之前（左）和之后（右）。原型（★）、支持（●）和查询（）。OT有助于更好地调整支持和查询样本的分布。解决跨域少次学习问题。请注意，我们还与[20]中的几个相关监督方法进行了比较，作为参考。我们的方法始终与ConFeSS [11]保持一致，但在5次和20次拍摄的作物疾病任务中得分分别高出 2%+ 和约 1% 除了EuroSAT ，我们的方法是一贯的竞争力（ 1% 的差异），在ChestX和ISIC的性能的ConFeSS在ISIC中，这是迷你ImageNet的第二个最不相似的数据集，我们的方法在（5路，20次拍摄）设置中优于1%以上请注意，SAMPTransfer在除了一个CDFSL基准设置之外的所有设置中都优于另一个最近的专用方法ATA [49]，除了EuroSAT（5路，5次）设置。6. 消融研究和稳健性分析表4研究了所提出的方法对重要超参数的各种选择的性能。我们使用（5路，5次）迷你ImageNet基准测试来分析我们方法的鲁棒性，并证明我们设计选择的重要性。OpT-Tune至关重要。为了说明使用OpT-tune对分类性能的影响，我们在禁用OpT-tune的情况下进行实验。为了进行公平的比较，我们在测试运行中使用相同的预训练模型，启用或禁用OpT-Tune性能最好的模型（a Conv4b）使用1个SAMP层，4个注意力头，批量大小为128，准确率为72。52%，启用OpT-Tune。同样的模型，在禁用OpT-Tune的情况下，会损失9%的精度。即使OpT-Tune禁用，我们的方法仍然具有竞争力的一些最新的方法在表1中。这一观察结果表明，3.4节中描述的过程是一种有效的技术，可以结合任务意识并提高原型的质量。这一点在图中得到了进一步证实。其中N= 2的任务用于展示OpT-Tune的效果。我们观察到，支持嵌入更均匀地分布在查询嵌入的分布上。这一点也得到了DBI分数的支持[12]，0级第1类原型支持查询0级第1类原型支持查询方法（N，K）骨干（5，1）（5，5）[23]第二十三话[23]第二十三话UMTRA [25]AAL-ProtoNet [1]AAL-MAML++[1]UFLST [24][35]第三十五话[35]第三十五话U-SoSN+ArL [59][60]第六十话ProtoTransfer [32]哥伦比亚[53][29]第二十九话[56]第五十六话CSSL-FSL_Mini64 [30]C3 LR [39]Conv4Conv4Conv4Conv4Conv4Conv4Conv4Conv4Conv4Conv4Conv4Conv439.90±0.7439.18±0.7139.9337.67±0.3934.57±0.7433.77±0.7040.63±0.6140.71±0.6241.13±0.8441.0945.67±0.7941.1242.8248.12±0.1948.53±1.2647.92±1.253.97±0.7053.36±0.7050.7340.29±0.6849.18±0.4745.03±0.7355.41±0.5754.49±0.5855.39±0.7955.3862.99±0.7554.5555.7365.33±0.1763.13±0.8764.81±1.15SAMPTransfer（我们的）Conv455.75±0.7768.33±0.66SAMP转移费用（我们的）Conv4b61.02±1.072.52±0.68监督方法46.81±0.7762.13±0.72方法（N，K）骨干（5，1）（5，5）C3 LR [39]Conv442.37±0.7761.77±0.255434L±方法（N，K）（5，5）（5，20）（5，5）（5，20）（5，5）（5，20）（5，5）（5，20）表3：准确度（%±标准）在CDFSL基准上的（N路，K射）分类。风格：最好和第二好。ChestXISICEuroSAT作物病害[32]第三十二话24.94±0.4325.00±0.4326.71±0.4626.00±0.4128.04±0.4430.41±0.4433.82±0.4833.39±0.4739.21±0.5338.47±0.5545.19±0.5645.93±0.5444.62±0.4951.60±0.5459.07±0.5559.95±0.5374.91±0.7268.11±0.7075.62±0.6780.32±0.6580.42±0.6681.56±0.5486.80±0.4288.09±0.4579.81±0.6582.67±0.6086.53±0.5687.90±0.5586.84±0.5092.04±0.4395.06±0.3295.38±0.31[32]第三十二话ProtoTransfer [32]C3 LR [39]SAMPTransfer（我们的）26.27±0.4434.15±0.5047.60±0.5961.28±0.5685.55±0.6088.52±0.5091.74±0.5596.36±0.28ConFeSS [11]（专用）27.0924.43±0.224.05±1.0126.31±0.4225.97±0.4133.57-28.21±1.1530.41±0.4631.32±0.4548.8545.83±0.339.57±0.5747.16±0.5448.11±0.6460.10-49.50±0.5556.40±0.5359.31±0.4884.6583.75±0.473.29±0.7182.21±0.4979.08±0.6190.40-82.27±0.5787.62±0.3487.64±0.4788.8890.59±0.379.72±0.6787.61±0.4789.25±0.5195.34-88.15±0.5193.87±0.6895.51±0.31[49]第四十九话：ProtoNet [20]（sup.）治疗前+平均值-百分。[20]（增刊）前级+线性[20]（sup.）表4：各种参数对准确度的消融研究主链p H L βOT准确度Conv4b 1 4 64 1.0 71.42±0.73Conv4b 1 4 64 0.7±0.71Conv4b 1 8 64 1.0±0.75Conv4b 1 8 64 0.7 69.87±0.72Conv4b 2 1 64 0.7 68.99±0.71Conv4b 2 4 64 0.7 67.01±0.69Conv4 1 4 64 0.7±0.71Conv4 1 4 64 1.0 67.60±0.62这归因于Conv4网络的最终特征图中的通道数量较低，其被限制为64。损耗比例因子β对1. 我们观察到，当β= 0时，基于Conv4的模型受到的影响最大，因为与β = 0相比，它损失了15%的准确度。7，这表明用对比损失训练CNN至关重要。然而，Conv4b模型并不受这种损失函数的强烈影响。无论如何，我们设置β= 0。两种型号均为7（Conv4和Conv4b）。Conv4 1 8 64 1.0 63.59±0.68Conv4b 1 4 128 0.7±0.72Conv4 1 4 128 0.7 68.33±0.71Conv4 1 4 128 0.0 52.81±0.66Conv4b 1 4 128 0.0 72.44±0.69Conv4b 1 4 64 0.7 64.29±0.63Conv4b 1 4 128 0.7±0.64Conv4 1 4 64 0.7 66.73±0.65表5：准确度（%标准品）在miniImageNet上进行（N路，K次）分类，并在CUB上进行预训练。培训测试（5，1）（5，5）ProtoTransfer[32]PrototuneC3 LR[39]Prototune35.37±0.6352.38±0.66SAMPTransfer（我们的）OptiT-Tune49.32±0.75 56.10±0.6039.61±1.1155.53±1.42从0. 583比0 754在应用OpT-Tune之后。SAMP层和注意头。在表4中，我们还研究了当SAMP层（p）和注意头（H）的数量变化时，我们的方法的鲁棒性。最好的性能是通过具有四个注意头的单个SAMP层实现的增加p导致性能显著下降;然而，增加H导致小的性能降级。值得注意的是，这里的观察结果与[38，46]中报道的一致。嵌入维度。我们衡量模型在两个常用（大多数现有基线）嵌入维度方面的性能：512和1600。从表4中可以看出，网络在嵌入维数为512（Conv4b）时表现最好。嵌入维数为1600（Conv4）时，性能明显较低。我们假设这种行为可能是跨域鲁棒性。为了完整起见，并进一步分析SAMPTransfer的跨域性能，除了表3之外，我们还在CUB上训练了Conv4模型，并在来自miniImageNet的任务上对其进行了测试。 CUB 由 200 个类组成，而miniImageNet由64个类组成，其中只有3个训练类是鸟类。因此，与迷你ImageNet相比，CUB的类多样性减少了。表5表明，当训练类受到多样性约束时，与仅报告此设置上的实验结果的另外两个竞争基线相比，我们的方法提供了更好的跨域传输精度。7. 总结发言我们介绍了SAMP-SAMP，这是一种用于无监督少镜头分类的新型对比预训练方法。由于内置的自注意消息传递（SAMP）模块

下载后可阅读完整内容，剩余1页未读，立即下载