层次聚集的树结构感知的少镜头图像分类

56 浏览量更新于2023-11-30 收藏 1.15MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

+v：mala2255获取更多论文基于层次聚集的树结构感知的少镜头图像分类张敏124黄思腾24李文斌3王东林24张1浙江大学2西湖大学3南京大学软件新技术国家重点实验室4西湖高等研究院先进技术研究所liwenbin@nju.edu.cn，{zhangmin，huangsteng，wangdonglin} @westlake.edu.cn抽象的。在本文中，我们主要关注的问题，如何学习额外的特征表示的少镜头图像分类通过借口任务（如。旋转或颜色置换等）。这种由借口任务生成的额外知识可以进一步提高少镜头学习（FSL）的性能，因为它不同于人类注释的监督（即，FSL任务的类标签）。针对这一问题，本文提出了一种插件式层次树结构感知（HTS）方法，该方法不仅能够学习FSL任务与预文本任务之间的关系，更重要的是能够自适应地选择和聚合由Prefect任务生成的特征表示，以最大化FSL任务的性能。引入层次树构造组件和门选择聚集组件来构造树结构，并找到更丰富的可传递知识，可以快速适应新的类别与少量的标记图像。大量的实验表明，我们的HTS可以显着增强多个少镜头的方法，以实现新的国家的最先进的性能在四个基准数据集。该代码可从以下网址获得：https://github.com/remiMZ/HTS-ECCV22。关键词：层次树结构，少镜头学习，前文本任务1介绍少镜头学习（FSL），特别是少镜头图像分类[19，40，2，24，47]，吸引了很多机器学习社区。FSL旨在通过在基础（可见）类上使用FSL任务集合训练模型，并通过访问极少数标记图像将表示推广到新（不可见）类来学习可转移特征表示[1，7，41，10，32，4]。然而，由于数据的稀缺性，学习的监督表示主要集中在基础类之间的差异，而忽略了新类别的图像内有价值的语义特征，削弱了模型的泛化能力。因此，应该从有限的可用图像中提取更多的特征表示，以提高FSL模型的泛化能力。提取更有用的特征表示的一种有效方法是使用托词任务，例如多角度旋转或颜色排列，通讯作者+v：mala2255获取更多论文（一）颜色排列GBR吉尔蒂旋转��我 90°1我2我��˜1我��˜2我吉吉吉吉我吉吉我吉吉吉吉1我吉吉1我��˜1 ��1我我1我��˜1我2我2��˜2 ��2��˜2(b)DA我（c）SSLi我(d)DA2i（e）SSLi2M. Zhang等人图1.一、使用以前和我们的作品之间的托词任务的少数镜头图像分类的学习过程中的差异。(a)显示了使用FSL图像生成增强图像的过程。(b)以及（c）显示在DA或SSL设置下对以前作品的学习过程，该设置不加区别地使用所有图像。(d)以及（e）示出了在DA或SSL设置下我们的工作的学习过程，其可以利用分层树结构来自适应地选择有用的特征表示。不同的渠道[11，18，37，26，5]。因为这些借口任务可以生成附加的增强图像，并且这些增强图像的语义表示是对正常的人类注释监督的良好补充（即，FSL图像的类标签），这有利于少镜头学习模型在新类上的推广。使用借口任务来辅助FSL的标准训练过程可以大致分为两种设置，即，数据增强（DA）和自监督学习（SSL），遵循现有的工作[11，37，28，26，40]。如图图1（a）示出了使用借口任务来生成多个增强图像（x1，x2），并且xi是FSL图像。（b）及我我(c) 是利用借口任务提高外语学习成绩的学习过程在以前的作品中，在DA或SSL设置下进行管理。然而，在DA设置中，所有增强图像和原始图像都被放置在相同的标签空间中（例如，、yi= y1= y2=狗）和经验风险最小化（ER M）（见等式（3）是我我用于优化模型，使模型无差别地使用所有图像。我们发现，当增强图像是通过使用不适当的借口任务，这种优化方法（即，平均考虑所有图像的信息）可能会破坏FSL任务的性能（参见图3）。这是因为增强图像带来了模糊的语义信息（例如，对称对象的旋转）[9，6，27]。虽然它可以使用专家经验来解决，为不同的数据集选择适当的借口任务，这是非常耗费劳动力的[28]。为此，我们认为，这是非常重要的，该模型可以自适应地选择增强图像的功能，以提高性能的FSL任务。在SSL设置（图。 1（c）），它保留FSL作为主任务，并使用借口任务作为附加的辅助任务（即，SSL任务）。从图 3.我们发现使用独立标签空间的 SSL （例如，，yi=狗，y1=9 0，y2=GBR）分别学习这些任务（见等式（4）可以缓解我我基于单个标签空间的DA训练所引起的问题，但它仅仅通过共享网络不足以完全学习隐藏在这些增强图像中的知识这是因为在相同的原始图像和不同的借口任务下生成的增强图像之间存在相似性，并且这些增强图像之间的关系应该被建模。+v：mala2255获取更多论文通过分层聚合的少镜头图像分类3为了有效地从增强图像中学习知识，我们提出了一种插件式的层次树结构感知（HTS）方法用于少镜头分类。该方法的核心是：（1）使用树结构来建模原始图像和增强图像之间的关系;（2）使用门聚合器来自适应地选择特征表示，以提高FSL任务的性能。接下来，我们概述了建议HTS方法的两个关键组成部分。通过构造组件的层次树对关系进行建模。该组件的目的是为每一幅原始图像构造一个树结构，这样我们就可以使用树的边缘来连接特征信息在不同的增强图像之间，并使用树的级别来学习来自不同借口任务的特征表示。此外，当借口任务或增强图像改变时（例如，，增加、删除或修改），它是我们的HTS方法非常灵活，可以更改级别或节点的数量通过门控选择聚合组件自适应学习功能。在本文中，我们使用基于树的长短期记忆（TreeL-STM）[39]作为门控聚合器，原因如下：（1）在上述树上，我们发现增强图像（即，，节点）可以进一步公式化为具有可变长度的序列，从底层到顶层(2)TreeLSTM为每个子节点生成一个遗忘门，用于过滤相应子节点的信息（图1（d）和（e）中显示了不同的颜色）。这表明，较低级别节点的表示可以顺序地聚合和合并，提高了上游节点的输出。最后，这些聚合的表示将用于培训和测试阶段。HTS的主要贡献是：1. 我们指出了使用借口任务来帮助少数镜头模型学习更丰富和可转移的特征表示的局限性。为了解决这些限制，我们提出了一个层次树结构感知的方法。2. 我们提出了一个层次树构造组件来建模增强图像和原始图像的关系，以及一个门控选择聚合组件来自适应学习和提高FSL任务的性能。3. 在四个基准数据集上的大量实验表明，所提出的HTS显着优于最先进的FSL方法。2相关工作2.1少数学习近年来，基于元学习的方法在少数几种学习方法中占主导地位。它们可以大致分为两类：（1）基于优化的方法主张从基类中学习模型参数的合适初始化，并将这些参数在几个梯度中转移到新的类中。进入步骤[33，48，3，10，29]。（2）基于度量的方法通过将所有图像嵌入到公共度量空间并使用设计良好的最近邻分类器来学习利用特征相似性[21，22，16，45]。在本文中，我们的HTS可以配备一个任意的基于元学习的方法，提高性能。+v：mala2255获取更多论文Σ4米Zhang等人2.2Pretext任务预文本任务通过关注图像更丰富的语义信息，成功地学习了有用的表示，显著提高了图像分类的性能在本文中，我们主要关注使用预文本任务来提高少镜头分类性能的工作[11，12，46，18，5]。然而，这些作品往往是肤浅的，例如。原始FSL训练管道是完整的，并且在每个图像上引入了额外的损失（自监督损失），导致学习过程不能完全利用增强的图像表示。与这些工作不同的是，我们引入了一个层次树结构（HTS）学习的借口任务。具体来说，每个图像的关系建模学习更多的语义知识。此外，HTS还能自适应地选择增广特征，以避免模糊信息的干扰.我们的实验结果表明，由于合理的学习借口任务，我们的HTS方法明显优于这些作品（见表1）。2）。3预赛3.1少镜头学习中的问题设置我们认为基于元学习的方法用于解决少镜头分类问题，因此遵循情景（或任务）训练范式。在元训练阶段，我们从基类集中随机抽取剧集Db来模仿元测试阶段从新的类集合Dn中采样的情节。请注意，Db包含大量带标签的图像和类，但具有一个不相交的标签空间与Dn（即Db<$Dn=<$）。每一个n路k-shot片段Te包含一个支持集Se和一个查询集Qe.具体地说，我们首先从Db中随机抽取一组n个类 Ce，然后生成 Se={（ xi ，yi） |yi∈Ce ，i=1，···，n×k}和Qe={（xi，yi）|yi∈Ce，i=1，···，n×q}，通过对Ce中的每个类的k个支持图像和q个查询图像进行采样，并且Se<$Qe=n。为了简单起见，我们表示lk=n×k和lq=n×q。在元测试阶段，使用支持集Se对训练的少次学习模型进行微调，并使用查询集Qe进行测试，其中这两个集是从新的类集Dn中采样的。3.2少样本学习分类器我们采用ProtoNet [36]作为少数学习（FSL）模型，用于我们HTS框架的主要演示，因为它的简单性和流行性。然而，我们还表明，任何基于元学习的FSL方法都可以与我们提出的HTS方法相结合（见表1中的结果）3）。 ProtoNet包含一个特征编码器E ，具有可学习的参数（例如，，CNN）和一个简单的非参数分类器。在每个事件Te={Se，Qe}中， ProtoNet 计算每个 ch 类 c∈Ce 的支持集的平均特征 e m ，作为prototypepepec：1pc=k（xi，yi∈Se）E（xi）·I（yi=c），（1）其中I是指示函数，如果输入为真，则其输出为1或者0。一旦从支持集获得类原型，ProtoNet计算每个查询+v：mala2255获取更多论文··{· ··−}G{|{\fnSimHei\bord1\shad1\pos（200，288）}FSL不ee|Qe|（xi，yi∈Qe）yieeeeeeeeDAJ+1r=0FSLeeSSLFSLeej=1J JΣ通过分层聚合的少镜头图像分类5设定图像和相应原型的图像。使用经验风险最小化（ERM）的每个事件的最终损失函数定义如下：L（S，Q）=1−log p，exp（−d（E（xi），py））（二更）保义 =c∈Ce我，exp（−d（E<$（xi），p<$c））其中d（i）表示距离函数（例如，，ProtoNet方法的平方欧几里德距离遵循原始论文[36]）。4方法4.1FSL中的Pretext任务辅助少量学习的预文本任务有两种设置：数据增强（DA）和自我监督学习（SSL）（见图1中的示意图）。我们首先定义一组预文本任务操作符 =gjj =1，，J，其中gj表示使用第j个借口任务的运算符，J是借口任务的总数。此外，我们还使用Mj来表示通过使用针对每个原始图像的第j个借口任务生成的增强图像的数量，并且该任务的伪标签集被定义为Yj j=0，，Mj1.一、例如，对于2D旋转算子，每个原始图像将以90直角的倍数旋转（例如，，90 °，180 °，270 °），其中增强图像是M 旋转=3，并且伪标签集合是Y旋转={0，1，2}。 Given arawepis odeTe={Se，Qe}，如第3.1中，我们依次利用G中的这些预文本任务算子来增强 T e中的每幅图像。这导致 J个增强片段的集合为Taug={ （ xi ， yi ， yi ， j ） |yi∈Ce ， yi∈Yj ， i=1 ， ··· ， Mj×lk ， Mj×（lk+1），···，Mj×（lk+ lq），j = 1，···，J}，其中第一图像Mj× lk来自扩充支持集Sj，其余图像Mj× lq来自扩充查询集Qj。数据扩充。对于DA设置，我们使用组合事件T={{Sr，Qr}|r = 0，···，J}，其中{S0，Q0}是原始片段，并且{{Sr，Qr}|R =1，···，J}是增强的片段。当r≥1时，除非另有说明，否则等于j。T中的每个图像（xi，yi）采用相同的类标签yi（来自人类注释）用于监督学习以提高FSL的性能。目标是最小化交叉熵损失：L= 1L（Sr，Qr）.（三）LDA使用基于相同标签空间的经验风险最小化（ERM）算法（例如，，yi）来学习原始和增强的特征表示。然而，如果增强的图像具有模糊的表示，这种优化方法可能会干扰FSL模型的语义学习。自我监督学习。对于SSL设置，Te中的每个原始图像（xi，yi）使用类标签yi用于支持学习，而aug中的每个增强图像（xi，yi）携带伪标签yi用于自支持学习。多任务学习损失（FSL主任务和SSL辅助任务）通常采用如下：L=L（S，Q）+δJ βL，+v：mala2255获取更多论文J我不eEMDEMD我--E（xi，y∈Te）eeeϕ我 →ϕ→··· →我ϕ我···→ϕGJ我6米。Zhang等人L=1mmj−logexp（[θj（E<$（xi））]y<$）J、（四）y′ exp（[θ（E（xi））]y′）其中E=Mj×（1k+1q），[θj（E（xi））]表示第j个借口任务评分向量，并且[. 是指取第y个元素。 LSSL在不同的标签空间中学习少量学习和多组借口任务的知识，但仅使用共享的特征编码器E_n来交换这些语义信息。4.2HTS中的Pretext任务在本文中，我们提出了一个层次树结构感知（HTS）的方法，使用树模型的关系，并自适应地选择不同的图像特征之间的知识HTS中有两个关键组件：层次树构造组件和门控选择聚集组件1。4.2.1层次树构造组件给定增广事件Taug={T j ={Sj，Qj}|j = 1，···，J}，如所描述的节中4.1，Taug中的每个增强情节对应于一个特定的借口任务的同一组图像从原始情节e.因此，我们认为，这些增强图像与不同的借口任务应该建模，以捕捉相关性，并进一步学习更多的语义特征表示。为此，我们为每个FSL图像及其相应的多组增强图像构建了一个树结构，这些增强图像是通过在每个情节中使用不同的借口任务生成的具体来说，（1）我们通过使用共享特征编码器E提取原始剧集和增强剧集的特征向量，并将特征集表示为Temd，其中Temd={E（xi）|（xi，yi，y∈i，r）∈Tr，r=0，···，J，i=1，· · ·，Mj×（lk+lq）}。（2）取原始片段T0作为根节点，并且每个原始图像具有其自己的树结构。（3）在法律上，利用第j个借口，任务被放置在树的第（j+1）层（4）我们取一个原始图像xi（即，树结构）及其多组增强图像Xj作为示例，以指示如何构造该树，并对其它原始图像重复该过程。g1g2gjj树的形式是{E（x）E（x1）E（x）E（xJ）}，其中，原始特征集E（xi）在第一层（根节点）中，并且aug（x i）在第二层（根节点）中。分割的特征集在共享相同的前提任务gj的第（j+1）级中。对于每一集，我们构造（lk+lq）个层次树结构，每一层有Mj个子节点，第j个任务是prefit任务.在这些树结构中，边缘信息用于对不同增强图像或原始图像的关系进行层次知识用于学习不同任务的表征节中4.2.2介绍如何更好地聚合图像特征。4.2.2门控选择聚合组件如上所述，我们为每个原始图像构建了一个树结构1注意，我们的方法主要关注如何自适应地学习借口任务的知识，并提高少镜头图像分类的性能伊吉+v：mala2255获取更多论文J我我{|{\fnSimHei\bord1\shad1\pos（200，288）}{|·····}}我我我∈{}M通过分层聚合的少镜头图像分类7图二. 门选聚集构件的学习过程。(a)示出了聚合器从底部到顶部顺序地和分层地聚合信息。（b）详细说明了TreeLSTM的内部聚合（例如，两个级别）。图中标记的下标表示子节点的数量，上标表示级别的数量，不同的颜色表示不同的LSTM单元。xi在每个随机采样的片段中。下面的问题是如何有效地使用这种树结构进行学习和推理。首先，我们的直觉是以保存树结构信息，因为它对图像之间的关系进行建模（例如，、FSL和增强）。其次，我们应该有选择地聚合所有子节点的特征，从底部到顶部的水平，因为信息聚合过程的目的是最大化的父节点的性能聚合后。第三，由于分层传播中的特征信息可以看作是按层次划分的顺序输入，但元学习不能直接处理顺序数据。最后，我们采用基于树的长短期记忆（TreeLSTM）作为我们的门控聚合器，将低级信息编码为上层输出。通过这种方式，我们可以从树结构中挖掘更丰富的特征（见图2 ）。接下来，我们将详细介绍TreeLSTM在这些树上的聚合和传播过程为了简单起见，我们以树结构为例，介绍如何使用TreeLSTM聚合器选择性地聚合信息，并对其他树结构重复该过程。基于原始图像特征E（xi）及其多个增强特征集合E（xi）i = 1，Mj，j = 1，J来构造（J + 1）级树结构。TreeLSTM从底层（即第（J +1）层）到顶层（即第（J + 1）层）逐步聚合信息。第一或根节点级别）。我们使用hrr = 0，，J来表示该树中除底层节点之外的每一层的聚合节点表示。因为bottomn ode没有childn o des，所以它的聚合信息本身就是{E（xJ）}。聚合过程可以形式化为：{h0aggh1agg阿格·H·RaggJi←−i←−··· ←−i···←−其中，agg表示使用TreeLSTM的聚合操作。每个级别的合计输出hr表示为：hr=TreeLSTM（si，{hm}），m∈Mi，（5）其中sihr 是树中的任何节点， i是树的子节点的集合i- 树的（r+1）层中的第i个节点由于TreeLSTM中的这种形式的child-sum将其分量限制在子隐藏状态h，m的和上，因此它是一个置换不变函数，并且非常适合于子树是无序的。但是我们发现利用孩子LSTMℎ0我��我ℎ我我 ℎ0ℎ1��中文（简体）吉吉I1ℎ1I2111i2LSTM LSTM��中文（简体）��ℎ2I1ℎ2I2ℎ2I3ℎ2I41 111i211I2LSTMLSTMLSTM LSTM（（⋯⋯⋯⋯+v：mala2255获取更多论文Σ我Σagg，Qagg我agg我agg，Qagg，Qagg，Q}agg{SDA，Qaggagg我aggSSLaggaggr=1R R（hr，y∈Try′）8米Zhang等人与原始论文[39]相比，mean在我们的实现中取代了child-sum，以实现更好的归一化。TreeLSTM的公式是：fm=σ（Wfsi+Ufhm+bf），赫梅 =m∈Mihm，u|Mi|=tanh（Wusi+Uu 赫梅+bu），（六）oi=σ（Wosi+Uohme+bo），ii=σ（Wisi+Uihme+bi），ci=ii 伊苏岛+m∈Mifm<$cm，hr=o|Mi|不丹（ci），其中，σ表示逐元素乘法，σ是S形函数，Wa，Ua，ba，a∈ {i，o，f，u}是可训练参数，ci，ck是记忆单元，hi，hm是隐藏状态，hme表示第（r+1）层中的子节点平均值。从等式（6）和图2，聚合器为每个孩子学习遗忘门，并使用它根据训练参数自适应地选择有利于其父节点的子特征最后，表示聚合的事件当Tagg={{Sr雷阿格}|r=0，· · ·，J}，其中={hr|i=1，···，M（k）}且Qr={hr|i=1，···，Mr=Mj，其中M0=1，当r ≥ 1时，Mr=Mj。4.3使用HTS的HTS的元训练模型使用以前的设置（DA或SSL），训练FSL模型。给定聚合事件Tagg={{Sr雷阿格 }|R =，J}，其中{S00agg}是使用其所有增强图像（即，，从树的第（J+1）个到第2个）和{Sr雷阿格Jr=1是通过使用聚合的每个借口任务的增强表示其它增强图像（例如，从树的第（J+ 1）到第r数据扩充。对于数据增强（DA）设置，我们仅使用聚合根节点（原始图像）{S00agg训练FSL模型。的交叉熵损失可以定义为：LHT S=LF SL（S0，Q0）的。（七）DAHTS使用具有更多知识的聚合表示来训练少镜头图像分类模型，不同于Eq.（三）、自我监督学习。对于SSL设置，聚合的根节点将FSL主任务和each聚合的augmentednode（hr，yi）在{Tr=雷阿格雷阿格 }|r = 1，···，J}训练SSL辅助任务。使用伪标签在树中的每个级别和每个级别的聚合特征，多任务学习损失是：LHT S=L（S0，Q0）+δJβ L，1ΣEexp（[θr（hr））]y）我agg）Yjexp（[θr（hr）]（八）Lr=−log我我，我 y′其中E和[θr（·）]y的意义与Eq相同。（四）、并且当r≥1时，θr=θj。为了便于介绍，我们在附录A.1中的算法1中总结了具有HTS的FSL的总体算法。值得注意的是，我们的HTS是一个轻量级的，QLFSL我我+v：mala2255获取更多论文我∈Q我我通过分层聚合的少镜头图像分类9方法，包括一个无参数树构造组件和一个简单的门控聚合器组件。因此，作为一种插件方法，HTS不会引入太多额外的计算开销2。一旦经过训练，使用学习的网络参数，我们就可以在测试集上进行测试。4.4使用HTS的在元测试阶段，我们发现对查询集和支持集都使用借口任务，然后基于训练的聚合器聚合特征可以进一步带来令人满意的性能，只有少数原始图像（见图4）。因此，xie的预测标签可以用公式计算：并且聚合的原始特征h0为：predexp（−d（h0，py））yi=argmaxexp（−d（h0，p<$））.（九）y∈Ce4.5与先前工程的连接c∈Ceic分层少枪学习。最近，已经提出了一些工作来解决使用分层结构的少镜头学习的问题。一个代表性的工作旨在通过基于模型参数水平对不同任务进行聚类来提高元学习的有效性[43]，而我们的方法是基于特征水平的，运行时间和计算量较少。另一项工作[25]通过分层建模来学习细粒度和粗粒度图像之间的关系，但它要求数据本身是分层的，而我们的方法可以适应任何数据集。长短期记忆的小样本学习。一些作品[41，44，23]使用基于链的长短期记忆（ChainLSTM）来学习图像的关系。然而，我们的工作使用基于树的长短期记忆（TreeLSTM）来学习结构化特征，同时保留树结构信息。5实验结果5.1实验装置研究问题。指导论文其余部分的研究问题如下：RQ1。FSL主任务和托词辅助任务的启发式组合的实际性能如何？RQ 2. 在单域和跨域设置中，所提出的用于FSL图像分类任务的HTS框架的有效性如何？RQ 3.建议的HTS框架可以自适应地选择增强功能，以更好地提高性能的FSL的主要任务？RQ4. 建议的HTS方法如何工作（消融研究）？基准数据集。所有的实验都是在四个FSL基准数据集上进行的，即。，miniImageNet [41]，分层ImageNet [31]，CUB-200-2011 [42]和2在训练过程中，对于5路1-/5拍摄设置，一个事件时间为0.45/0.54 s（基线为0.39/0.50 s），在500个随机采样事件中有75个查询图像。+v：mala2255获取更多论文准确度××10米Zhang等人Rotation4 Color_perm670706560迷你幼崽CIFAR分层6560迷你幼崽CIFAR分层+DA ProtoNet +SSL图三 . 在 mini ImageNet （ MINI ）、 CUB-200-2011 （ CUB ）、 CIFAR-FS（CIFAR）和分层ImageNet（TIERED）上使用两个借口任务进行激励的结果（5次）。CIFAR-FS 迷你ImageNet和分层ImageNet是ILSVRC-12数据集的子集[8]。CUB-200-2011最初设计用于细粒度分类。三个数据集中的所有图像的分辨率被调整为84 84。CIFAR-FS是CIFAR-100的子集，每个图像的大小调整为32 32。有关四个少量基准数据集的更多详细信息，请参见附录A.3实施细节。我们采用5路1次和5次拍摄设置下的情景训练程序[41]。在每集中，15个未标记的查询图像用于训练和测试阶段。我们应用Conv4（过滤器：64）和ResNet12（过滤器：[64，160，320，640]）作为编码器。我们的模型是从头开始训练的，使用Adam优化器，初始学习率为10 −3。超参数βj= 0。1、所有实验每个小批量包含四个事件，我们使用验证集来选择最佳训练模型。对于所有方法，我们训练60，000集用于1次拍摄，40，000集用于5次拍摄。射击[4]。我们使用PyTorch和一个NVIDIA Tesla V100GPU来实现所有实验，并在10，000个随机采样的测试事件中报告平均准确度（%），置信区间为95%。对于我们提出的HTS框架，除非另有说明，否则我们认为ProtoNet是我们的FSL模型，但请注意，我们的框架广泛适用于其他基于元学习的FSL模型。附录A.3中给出了更多的实施细节。Pretext Tasks. 在[18]之后，由于训练期间的整个输入图像对于图像分类很重要，因此我们选择了两个相同的任务：旋转和颜色排列。为了满足实验的需要，我们还给出了这两个任务的子集。旋转任务有旋转1（90度）、旋转2（90度，180度）、旋转3（90度，180度，270度）和旋转4（0度，90度，180度，270度）。颜色置换任务具有颜色perm1（GBR）、颜色perm2（GBR，BRG）、颜色perm3（RGB，GBR，BRG）和颜色perm6（RGB，GBR，BRG，GBR，GRB，BRG，BGR）。请注意，我们的方法可以使用任意的借口任务，因为它自适应地学习有效的功能，并提高FSL任务的性能5.2RQ 1. FSL中Pretext任务的执行实验结果见图10。3说明本文的主要动机并回答RQ1.直觉上，当我们使用借口任务来生成多组增强图像时，它可以学习更多的知识并提高FSL模型的性能，就像[28]一样。然而，我们发现，非任意借口任务在下游数据集上具有良好的性能，我们需要找到合适的任务准确度+v：mala2255获取更多论文通过分层聚合的少镜头图像分类11训练→测试方法1-shot 5-shotminiImagenet→CUB-200-2011分层ImageNet→CUB-200-2011分层ImageNet→迷你ImageNetProtoNet32.18 ± 0.2555.95 ± 0.21+高温超导39.57 ± 0.1760.56 ± 0.18ProtoNet39.47 ± 0.2256.58 ± 0.25+高温超导42.24± 0.2060.71 ± 0.18ProtoNet47.01 ± 0.2666.82 ± 0.25+高温超导55.29± 0.2072.67 ± 0.16表1. 分类准确度（%）结果与95%置信区间的比较，用于旋转的跨域评估3。更多结果见附录A.4。miniImageNet CUB-200-2011 CIFAR-FS分层 ImageNet方法主干技巧1发5发1发5发1发5发1发5发MAML [10]Conv 4 -32微调48.70± 1.84 55.31± 0.73 55.92± 0.95 72.09± 0.76 58.90± 1.90 71.50± 1.00 51.67± 1.81 70.30± 1.75PN [11]Conv4-64 Train-SSL 53.63± 0.43 71.70± 0.36--64.69± 0.3280.82±0.24--CC [11]Conv4-64 Train-SSL 54.83± 0.43 71.86± 0.33--63.45± 0.31 79.79± 0.24--Closer [4]Conv4-64 Train-DA 48.24± 0.7566.43± 0.63 60.53± 0.83 79.34± 0.61CSS [1]Conv4-64 Train-SSL 50.85± 0.8468.08± 0.7366.01± 0.9081.84±0.59 56.49± 0.93 74.59± 0.72SLA [18]Conv4-64 Train-SSL 44.95± 0.7963.32± 0.6848.43± 0.8271.30± 0.72 45.94± 0.87 68.62± 0.75--PSST [5]Conv4-64 Train-SSL 57.04± 0.51 73.17± 0.48--64.37± 0.33 80.42± 0.32--CAN [13]Conv4-64 Train-DA 52.04± 0.00 65.54± 0.00----52.45± 0.00 66.81± 0.00HTS（我们的）Conv 4 -64列车测试-SSL58.96±0.18 75.17±0.14 67.32±0.2478.09± 0.1564.71±0.21 76.45± 0.1753.20±0.22 72.38±0.19Shot-Free [30]ResNet12 Train-DA 59.04± 0.43 77.64± 0.39--69.20± 0.4084.70± 0.4066.87± 0.43 82.64± 0.39MetaOpt [20]ResNet12 Train-DA 62.64± 0.61 78.63± 0.46--72.00± 0.7084.20± 0.5065.81± 0.74 82.64± 0.39蒸馏[40]ResNet 12列车测试-DA KD 64.82± 0.60 82.14± 0.43----71.52±0.6986.03± 0.49HTS（我们的）ResNet12列车测试-SSL64.95±0.18 83.89±0.15 72.88±0.22 85.32±0.13 73.95±0.22 85.36±0.1468.38± 0.2386.34±0.18表2. 旋转时的准确度（%）3。最佳结果以粗体显示。训练/测试SSL/DA意味着在训练/测试期间使用数据增强和自我监督学习KD意为知识的升华，意为不同的数据集。ProtoNet+DA的结果显著低于基线（ProtoNet），这证明了我们的担忧，即经验风险最小化（ERM）平等对待所有样本是不合理的（见公式10）。（三））。对于ProtoNet+SSL，结果在大多数情况下略高于基线，这表明仅使用共享编码器是不够的（参见公式10）。（4））。5.3RQ 2. HTS中的Pretext任务的执行为了回答RQ2，我们在单域和跨域上进行了实验，并使用基准数据集与少数学习方法进行了单域性能。选项卡. 2表示平均分类精度。为了公平起见，我们使用相同的骨干网络来与最先进的基于元学习的FSL方法进行比较。从Tab2、我们有以下发现：（1）HTS在大多数情况下提高了ProtoNet的性能，达到了新的艺术水平。这是因为我们的框架具有建模这些图像之间的关系的优势，并通过门控选择聚合组件自适应地学习增强功能。这一观察结果证明了我们的动机和我们的框架的有效性。（2）值得强调的一个观察结果是，HTS不仅优于传统的基于元学习的方法，而且优于在DA或SSL设置下使用借口任务的方法(3)与[40]相比，结果进一步表明，在测试阶段增加查询集可以带来更多好处。跨域性能在Tab。1、我们在测试中展示了测试结果使用在训练域上训练的模型对域进行训练。由于训练和测试数据集之间的域差距，该设置具有挑战性。结果清楚地表明：（1）HTS在所有跨域集合中都具有显著的性能+v：mala2255获取更多论文12米。Zhang等人miniImageNet CUB-200-2011 CIFAR-FS分层ImageNet方法5路1发以下5次射击单次拍摄5次射击单次拍摄5次射击单次拍摄5次射击44.4264.2451.3170.7751.9069.9549.3567.28ProtoNet+ HTS DA57.39[36]+HTS SSL58.96（+14.54）74.2575.17（+10.93）66.88 77.3767.32（+16.01）78.09（+7.32）65.01（+13.11）75.2364.7176.45（+6.50）52.9253.20（+3.85）70.1872.38（+5.10）49.3166.3062.4576.1155.0069.3054.4871.32太阳能+高温超导DA 52.78[38]+HTS SSL53.24（+3.93）73.2273.57（+7.27）65.6367.38（+4.93）80.67（+4.56）79.0057.68 73.0958.60（+3.60）73.15（+3.85）55.4456.09（+0.61）72.88（+1.56）71.7849.0263.5051.8363.6945.5965.6243.5655.31GNN[三十四]+HTS DA60. biggestgame59.0652（+11.50）72.8074.63（+11.13）61.6962.85（+11.02）73.4677.58（+13.89）52.3558.31（+12.72）71.6673.24（+7.62）55.3255.73（+12.17）69.4870.42（+15.11）表3. 通过将HTS（两级树）结合到每个旋转3和Conv 4 -64方法中的准确度（%）。最佳结果以黑体显示，性能改进以红色文本显示。附录A.2显示了这些方法的公式(a) ProtoNet(b)骨干(c)TreeLSTM图四、（a）-（c）表示五个类别特征的t-SNE。（b）和（c）是我们的方法。并获得持续的改进。（2）当选择CUB-200-2011作为测试域时，不同训练域的迁移性能差异较大。它是由畴隙的大小引起的。从最后两行中，我们发现从分层ImageNet到迷你ImageNet的所有方法与CUB-200-2011相比都有很大的改进，因为这两个数据集来自同一个数据库（ILSVRC-12），导致域差距很小。与其他基于元学习的方法的性能为了进一步验证HTS的有效性，我们将其嵌入到四种基于元学习的方法中：ProtoNet [36]，MatchingNet [38]，MatchingNet [41]和GNN [34]。选项卡. 3报告的准确性，我们有以下发现：（1）我们的HTS是灵活的，可以与任何元学习方法相结合，使这些方法的性能显着提高在所有数据集。(2)就我们的方法而言，在大多数情况下，HTS SSL的性能优于HTS DA，这表明单个标签空间并不适合学习这些借口任务所携带的知识T-SNE可视化。对于定性分析，我们还应用t-SNE [17]来可视化在ProtoNet中配备HTS之前和之后获得的嵌入分布。如图4所示，（b）和（c）表示在不使用和使用TreeLSTM聚合器的情况下获得的特征。结果表明：（1）我们的HTS可以学习更紧凑和分离的聚类，这表明学习的表示更具区分性。（2）考虑到我们的方法，(c)比（b）好，这再次证明了聚合器的有效性5.4RQ 3.自适应选择聚合我们的框架的最重要的属性之一是，学习的增强功能是不同的借口任务或子节点。因此，在本小节中，我们研究所提出的框架是否可以为不同的子节点自适应地学习不同的遗忘门，其目的是回答RQ 3。48.1463.4861.1672.8653.0060.2354.0270.11MatchingNet+HTS DA53.64（+5.50）63.67[41]+HTS SSL 52.2964.36（+0.88）63.2963.54（+4.93）73.1774.76（+1.90）55.57（+2.57）62.5855.1863.87（+3.64）56.3957.16（+3.14）72.0172.60（+2.49）+v：mala2255获取更多论文通过分层聚合的少镜头图像分类13(a) 遗忘门32100123450.5000.4510.4020.35340.30(b)相关性012341.00.90.80.70.6(c)五通一拍706050400 1 2 3 4(d)五通五射807570650 1 2 3 4miniImageNetCUB-200-

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

层次聚集的树结构感知的少镜头图像分类

基于层次语义的图像分类方法

传统图像分类与深度学习图像分类的区别

图像的霍夫曼编码树结构

分割树是如何应用到优化图像分类结果的

基于决策树的鸢尾花图像分类

matlab中决策树与随机森林图像分类代码

决策树对图像分类的原理

如何通过线段树优化图像分类结果

基于Bayes、决策树和SVM的图像分类

confluence页面树结构创建

图像分类常用算法和模型

遥感图像分类方法有哪些类型？它们的划分依据各是什么？

树结构属于非线性结构树结构中的结点具有一对多的逻辑关系是正确的吗

学习笔记(01):深度学习图像处理之垃圾分类-图像处理及图像分类的基础知识

matlab医学图像分类

遥感图像分类国内外研究现状

opencv2.4 图像分类

基于gui界面图像分类的matlab

sql Server树结构

集简云平台树结构组件

最新资源