基于综合特征的混合子空间少镜头类增量学习

81 浏览量更新于2023-10-14 收藏 1.26MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8661基于综合特征的混合子空间少Ali Cheraghian*，1，2，Shafin Rahman*，3，Sameera Ramasinghe1，2，Pengfei Fang1，2，Christian Simon1，2 Lars Petersson1，2，Mehrtash Harandi2，41澳大利亚国立大学，2Data 61-CSIRO，澳大利亚3孟加拉国达卡南北大学4澳大利亚莫纳什大学{Ali.Cheraghian，Sameera.Ramasinghe，Pengfei.Fang，Christian.Simon} @ anu.edu.au，shafin.northsouth.edu，Lars. data61.csiro.au，mehrtash. monash.edu摘要少镜头类增量学习（FSCIL）的目的是在多个训练会话中将新类集合增量地添加到训练良好的基础模型中，限制是每个类只有少数新实例可用。在学习新类的同时，FSCIL方法逐渐忘记基础（旧）类训练并过度拟合到一些新类样本。现有的方法已经通过从视觉或语义词向量域计算类原型来解决这个问题在本文中，我们建议使用混合的子空间来解决这个问题。子空间定义了视觉域的聚类结构，并有助于考虑数据的整体分布来描述视觉和语义域。此外，我们建议采用变分自动编码器（VAE）生成合成的视觉样本，以增强伪特征，同时学习新的类递增。子空间的混合和合成特征的组合效果减少了FSCIL的遗忘和过拟合问题在三个图像分类数据集上的广泛实验表明，我们提出的方法相比，国家的最先进的方法取得了有竞争力的1. 介绍在许多实际应用中，模型对新对象进行分类是至关重要的，即，在训练过程中只有几个实例可用的对象。例如，当测试数据的分布偏离训练时所经历的分布时，或者如果模型面对来自在训练期间提供了显著更少数据的类的新对象，则可能发生这种情况。虽然前者在某种程度上可以通过各种技术来解决，例如域适配器。*表示相等贡献。子空间1混合Sabspace第1第2第3子空间2子空间合并子空间3真实要素合成特征图1：我们将训练样本聚类为多个聚类，在本例中为三个。然后，我们生成三个相应的子空间，这是从这三个集群构建。然后，这些子空间用于将视觉特征和语义向量投影到。投影的视觉特征和投影的语义向量之间的距离在每个子空间中的训练期间根据损失函数被最小化除了项目- ING真正的样本功能，我们还项目合成功能的混合物的子空间。子空间和合成特征的混合的组合效果有助于网络不会过度拟合新类的少量数据并忘记基类知识。因此，解决后者通常是在少镜头学习（FSL）范式下研究的[33，10]。通常，在FSL框架中然而，问题的一些变体以广义的方式将基本类实例和新类实例分类在一起。在更现实的场景中，所有新的类实例可能一次都不可它创建了问题的另一个分支，少镜头类增量学习（FSCIL），其中新类随着时间的推移逐渐添加到模型中，并且在每个增量步骤中，基于基础和新类实例对模型进行测试。由于这种限制，FSCIL是FSL问题的最复杂形式。在文献[35，20，4，8]中已经提出了关于FSCIL的初步结果我们确定在这个问题上的两个关键挑战（a）灾难性地遗忘基类：最近的作品观察了一个迷人的性能使用的话8662向量在学习过程中（除了知识蒸馏技术），以解决遗忘问题[25，8，49]。一般动机是共享属性（例如，形状，颜色）在基底（例如，马、虎）和新类（例如，zebra）使用几个示例帮助更好地理解新颖的类，并且不要忘记基类。考虑到这种关系在密切相关的类和远离相关的类之间的微妙变化，[8]提出对嵌入空间的语义向量应用聚类。然而，在嘈杂的无监督文本上训练时，词向量总是仅估计任何类名的粗略刻板印象，而不是真正反映基础对象和新对象之间的数据集特定的视觉在本文中，我们认为，视觉和语义向量的关系必须计算的嵌入空间，它具有整个数据集的知识（b）对新类的过拟合：为了解决这个问题，传统方法使用类原型[11，27]和基类实例的一些内存[8]然而，由于可用于增量训练新类的数据较少，因此不容易摆脱这个问题。此外，如果任何中间增量步骤面临这个问题，影响会在未来的增量试验中传播在本文中，我们认为，包括新的类的合成功能，可以减少这个问题。我们努力设计一种FSCIL方法，该方法提高了分类性能，同时不遭受上面段落中提到的方法的缺点。在这里，我们还在网络管道中使用语义词向量。我们在图像特征空间而不是词嵌入空间中应用聚类，同时涉及一个新的类的相似和不相似的基类基于每个簇，我们创建一组子空间。子空间以这样的方式构造，以最好地表示由视觉上相似的样本形成的特征的个体聚类。奇异值分解（SVD）用于此目的，并通过选择一组具有最大特征值的基向量，我们确保在每个视觉特征集群中的信号特征聚类的不太突出的部分更可能是噪声而不是信号，并且因此将不会在子空间中被很好地表示从经验上讲，我们观察到，捕获有关数据如何投影到这样的子空间的信息，导致较少忘记基类，更好地对齐类的特征和语义。接下来，在每个增量步骤中，我们利用变分自动编码器（VAE）产生高质量的synn- thesized功能，代表丰富的先验知识的新类。生成模型仅使用可用的类实例进行训练，能够在每个增量会话期间使用几个示例生成和增强新的类特征。注意，在这种特征生成过程中，我们使用采样特征来生成更多特征，而不是传统地使用语义词向量[15，29，39，43，14]考虑到混合物同时将基类和新类相关联并在每个增量会话中增加合成特征减少了新类训练期间的灾难性遗忘和过拟合问题。在MiniImageNet，CUB200和CIFAR100云基准数据集上进行评估，我们始终优于许多当前最先进的方法。总之，这项工作的贡献是：（1）新颖的FSCIL框架，其通过使用子空间的混合来优雅地解决基类的灾难性遗忘问题和通过使用合成特征来解决新颖类的过拟合问题。（2）提出了一种基于图像特征空间聚类的子空间计算策略，更准确地将基本类和新类联系起来，以解决 FS-CIL 问题。（ 3 ）在 MiniImageNet 、CUB200和CIFAR100云基准数据集上的最新性能。2. 相关工作增量学习：增量学习方法分为三组，任务增量学习[3，28，24]，域增量学习[48，31]和类增量学习[48，31]。增量学习[26，2，13，40]。我们只关注类增量学习问题。Rebuffi等人[26]保持对事件的此外，它们递增地适应新任务的最近邻分类器。Castro等人[2]使用知识蒸馏损失来存储关于先前看到的概念的知识，并且应用分类损失来学习新概念。Hou等人[13]提出了一种用于增量学习统一分类器的创新方法，该方法通过余弦相似性来减少新旧类之间的不平衡Wu等[40]借助线性模型调整模型输出中的偏差在本文中，同样，拉里，我们提出了一个类增量学习方法，工作在低数据制度。少量类增量学习：FSCIL由Tao等介绍。[35]第一次。他们使用一个神经气体（NG）网络，以减少灾难性的学习和维护的拓扑结构的特征所产生的不同的类。Mazumder等人[20]选择一些模型参数来学习每一个新的类集，而不是训练完整的模型，这有助于防止过拟合。此外，通过保持模型中的基本参数不变，它们最大限度地减少了灾难性遗忘。Chen等人[4]提出了一种深嵌入空间的非参数方法它们将学习任务的信息压缩在少量量化的参考向量内。它们包括类内变化、较少遗忘正则化和参考向量的校准以减轻灾难性遗忘。Cheraghian等人[8]利用词向量和蒸馏方法来减少灾难性遗忘的影响。此外，他们使用注意力机制来减少新类上的过拟合问题，其中只有8663我我QQ∈Q∈{Q Q}P我我我 i=1我∈{∈L∈EQ{}EL Q L∩LQ {Q Q}在训练过程中可以使用一些训练样本[32]每个类生成一个子空间，其中每个子空间是特定类的唯一代表。我们的方法基于整个训练数据集的聚类结构创建多个子空间，并在所有类之间共享。[45]使用多个随机初始化的嵌入。为了使这些嵌入不同，他们使用了未标记的测试数据。相反，我们根据训练数据分布生成多个子空间。每个子空间是基于训练分布的一部分创建的。因此，每个子空间是唯一的。使用词向量学习而不会忘记：词向量在各种计算机视觉任务上显示出有希望的成功，例如零镜头学习，少镜头学习，图像/视频字幕和视觉问题回答[15，29，39，43，9，46，47，6，5，7]。最近，一些工作[25，8，49]已经表明词向量同样可以有益于学习而不会忘记。Rahman等人[25]在任意镜头对象检测问题中使用了语义词向量，以便同时检测看不见的和很少镜头的对象。词向量有助于减少在微调过程中对所见类的遗忘Cher- Aghian等。[8]在他们提出的流水线中使用词向量来解决FSCIL问题，以减少灾难性的遗忘。他们使用蒸馏方法来解决遗忘问题，并在训练阶段使用语义词向量。Zhu等[49]使用词向量用于少数镜头对象检测问题。他们介绍了一种从视觉信息和语义关系中学习新对象的方法值得注意的是，它们形成了使用单词嵌入的语义空间，其中检测器被训练为将对象从视觉域投影到语义域。本文同时使用视觉和语义类信息，在定义在基类实例上的混合子空间上形成类原型。合成特征的生成模型：合成特征以提高深度分类网络的性能已经是在最近的几项工作中实践的有趣方法。在数据有限或没有可用数据的挑战性场景中，生成人工特征有助于模型应对训练数据中的极端不平衡。例如， Xian 等人。 [42] 采用了一种生成对抗网络（GAN）来使用类级语义信息合成特征。他们在零射击学习设置中利用这些特征，并确认生成的特征包含足够的判别属性，用于训练softmax分类器或任何多模态嵌入方法。相比之下，Schonfeld等人 [30]使用VAE用于相同目的。然而，与[42]相反，他们强制VAE学习图像特征和类嵌入的共享潜在空间，使VAE对模态敏感。之后，学习的潜在特征用于训练softmax分类器。类似地，Xian et al.[44]解决任意拍摄学习设置，即，零拍摄和少数拍摄，在一个统一的特征生成框架，操作在归纳和转换学习设置。他们引入了一种条件生成模型，融合了VAE和GAN的能力，其中该模型通过无条件鉴别器学习未标记图像的边缘特征分布与上述模型相比，我们不利用语义嵌入来生成视觉特征，并且仅使用可用的（有限的）视觉特征来训练生成模型。3. 方法3.1. 问题公式化给定任务序列=1，. . . ，T，其中t是任务t中的类的集合，并且i，j=i，i，j，1，. . .，T，其中ij。此外，针对所有任务的每个类标签的d维语义类嵌入的集合被定义为t。我们定义一个任务集t = （xt，l t，ett）Nt，其中xt是第i个带有标签l t t的样本，ett t是其对应的语义类嵌入，N t是样本的数量。在FSCIL设置中，有许多训练实例可用于第一任务，即，基本任务1.相比之下，只有少数训练实例（每类5次）可用于其他任务，即，小说任务2，.. . 、T.关键的是要提到，在该任务的训练期间，模型仅观察到第t个任务的训练实例期间因此，根据推理，当前任务Qt上的训练模型应该预测属于Qt和所有先前任务{Q1，.. . ，Qt-1}。3.2. 模型概述我们提出的架构如图所示二、视觉和语义域的类信息在每个子空间内对齐，使得可以预测所有任务实例的标签。图像X1被馈送到CNN（例如，CNN）中。，ResNet-18 [12]），其仅在第一任务1上训练。CNN主干输出（在最后一层之前）用于提取视觉特征表示yiRm。对于下面的任务t，其中t> 1，骨干保持不变。类似于主干，VAE块生成用于新任务的图像xi的视觉特征y’iRm。随后，ek、yi和y'i被馈送到每个子空间块中（参见图2）。 2（a）），其中它们被投影到子空间j上，该子空间使用视觉嵌入空间中的基类特征来构造（参见图2（a））。3）使得视觉特征和语义特征之间的欧几里德距离最小化。然后，第j个子空间块分别输出语义和视觉特征的新投影表示ekj，yij。关于子空间和VAE块的进一步细节分别在第3.3节和第3.4节中给出。所提出的体系结构可以通过改变所述结构来操作。8664121PMQ--K∋·KKi=1N K{}子空间块（一）（b）第（1）款图2：建议的架构。（a）视觉特征提取块，其是预训练的CNN模型，取输入图像xi并输出特征向量yi。此外，我们还有一个VAE模块，可以为新任务生成视觉特征单个子空间块j，其将ek和yi作为输入并生成新的特征表示e-kj和y-ij。 g（ek;Wj）是e k的投影，并且yi被投影到子空间Pj上。（b）总体架构，其中所有子空间块的输出被级联以便生成更丰富的表示e~k和y~i。对于给定的视觉特征yi，我们将基本类和n个类的语义向量分别写入多个子空间P1、P2。. . 生成更丰富的视觉和语义表示。最后，一个关系网络比较每个视觉-语义对估计最终预测得分。子空间的数量，其中最佳数量通过交叉验证找到。一旦从子空间的混合中提取了y（ij）和e（k）j的集合，它们就被重排并连接成一对表示y~i和e~k（参见图11）。第2段（b）分段）。根据[8]中的思想，对于每个训练会话（基础和增量），我们存储一个原型y（M），它是存储器中每个类的所有可用视觉特征表示的平均值。对于新任务，我们将与基础任务和新任务相关联的所有语义嵌入转发到对应视觉特征（真实和合成大小的特征yi，y′i）的子空间块。最后，我们将y~i和e~k放入关系网络[34]，该网络最终通过比较视觉和语义对齐来预测输入的标签（见图2（b））。3.3. 子空间投影通过投影到子空间上对数据进行建模已经广泛用于许多计算机视觉和机器学习应用[22，1，17，16，32，23]。我们的模型在低维空间中学习邻域嵌入，使得视觉和语义特征可以投影到子空间上，同时保持局部关系。子空间的基向量在训练期间保持固定。该策略减少了在有限数据范围内的过拟合学习。此外，嵌入空间的结构被保留用于第一任务，其中存在每个类别的许多训练实例。子空间生成过程：基于第一任务1的视觉特征实例生成子空间。视觉特征yi是从在第一任务的样本上训练的预训练的骨干提取的我们使用k-均值聚类方法基于特征之间的相似性将视觉特征划分为b组（例如，余弦距离）。具体来说，第j个集群com-图3：CUB数据集上的子空间生成过程的玩具示例[37]。在CUB数据集中，第一个任务base由100个类组成（左侧显示的红点）。首先，我们应用k-均值聚类来形成两个聚类。1和2（中间以青色和红色显示）。然后，应用SVD来生成子空间P1和P2。j个样本的位置被定义为j=yiNj。在从集群内的样本创建子空间时，我们根据经验观察到奇异值分解（SVD）在我们的设置中表现得相当好。我们将由聚类内的样本组成的矩阵分解为j=UDV。然后，n个前导左奇异向量U形成第j个子空间的正交基，我们用Pj表示，即， Rm×nPj=[p1，…，pn]; PjPj= In.作为一个例子，我们采用子空间方法对CUB数据集[37]（见图（3）第三章。子空间块：子空间块的输入是语义和视觉特征，并且输出是在子空间上的投影语义和视觉特征嵌入，如图1B所示。第2段（a）分段。由轻量级全连接网络组成的网络g（）被训练，使得投影向量之间的欧几里得距离最小化，如图4所示。在训练块之后，语义和视觉域的新表示分别生成为ekj=Pjg（ek，Wj）和yij=Pjyi。子空间块中的详细步骤在算法1中解释。骨干VAE基地任务关系得分关系网络小说任务SVD11K-means28665Q.ΣK--KKPi=1K{}||≈|我i=1我i=1y~i=CP1yi，。其中C（·）是级联.g（ei; Wj）算法1所提出的子空间块生成方法输入：1输出：b子空间块一曰： {y}N1 ←从预训练网络给定{x1}N1子空间生成2：K={y}Nj，j=l，...，b←构造b簇jii=1图4：在子空间块中使用的损失的几何解释。学习语义空间的变换，使得投影的视觉特征和投影的语义向量之间的欧几里得距离最小化。子空间特征嵌入：为了获得更有表现力的表示语义和视觉线索，我们利用b子空间块。然后，将e_k和y_i映射到用于语义特征e~k =e_k 和y_i两者的新特征嵌入中。CPTg（ek;W1），…，PTg（ek;Wb）和视觉特征使用具有视觉特征数据y的3 ： Pi=[pi ， … ， j = l ， … 通过使用 j=yiNj ， j=l，… ， b，其中 j= UDV 是j的SVD。然后，j的n个前导左奇异向量由下式捕获：U的前n列形成第j个子空间的正交基，我们用Pj子空间块初始化4：初始化b个子空间块j，j=l，…b，其中子空间Pj，j = 1，…B返回b子空间块1BT T操作符.应当注意，e~k和y~i表示来自子空间的混合的响应，其中每个子空间描述相似视觉实例的集群（可能指示超类）。假设超类'vehicle'可以表示子类，如果“apple”的视觉实例作为输入出现，则与“food”超类的子空间相比，所计算的e ~ k和y ~ i将从“vehicle”超类的子空间得到更低的响应。这种直觉与之前的工作[41]不同，在之前的工作中，他们考虑了多个可学习的嵌入，但没有表示视觉结构的嵌入（即、超类）。与[41]中的工作相比，我们的子空间在语义上更有意义。此外，相同的子空间（Pj），持有有意义的集群信息，被用于在每个训练会话，以隐式地防止忘记以前学习的任务和过拟合的一些例子时，适应新的类。以这种方式，视觉和语义向量都从子空间的混合物中找到考虑正和负超类信息的丰富表示投影到子空间以改进泛化：在我们的方法中使用子空间的目的是提高模型的泛化能力。实现泛化的假设是基本任务的概念共享一些相似性，并允许转移到新任务的概念。从概念上讲，一组视觉特征占据了空间的一小部分，这一特征激发了我们的方法，通过构建多个子空间作为低维和共享空间来实现。多个子空间上的summations诱导学习新任务的正则化在FSCIL prob- lem，最大限度地提高了相似的概念上的一些子空间的功能的相似性，防止模型for-get以前学习的概念，并同时减少过度拟合时，从一些样本的新类学习此外，在我们的算法中，多模态是类似的投影到子空间的功能。具体地，通用视觉特征提取器（例如，ResNet [12]）与共享子空间上的语义特征对齐。作为视觉和语义线索之间的联合空间的结果，该模型在模态和新概念之间变得更加通用。3.4. 综合特征生成在本节中，我们将讨论我们的合成特征生成过程。我们首先简要介绍VAE，然后讨论它对我们的管道的适应VAE是生成模型的流行类别，其可以利用基于梯度的优化技术进行端到端优化。VAE包括从简单先验开始对复杂分布进行建模的能力，并且在各种现代应用中普遍使用在其普通形式中，VAE由编码器和解码器组成，其通常使用神经网络来建模。编码器的目标是对近似后验分布q（z y）p（z y）进行建模，其中y和z分别是特征分布和潜在分布。VAE中使用的关键假设是p（zy）是高斯分布。因此，编码器输出每个特征y的参数-均值和标准差，然后使用该参数yiPTg（ei;Wj）J||P T g（e ; W）− P Ty||J我JJ我PTyiJPJ新的任务。在本质上，我们推测结合me...8666Q {Q Q}Sc∈←·||·∪ ∪M∈L--Q M LL||联系我们SS Y ∪M我我我i=1我i=1CCCpBKJ我J我J2{i}不Qi=1i=1对于所有先前的任务，我们为每个类存储一个原型ycMc，其是所有可用视觉特征表示的平均值。1=−MKΣ1ΣΣ2Σ构造近似后验q（z|y）。类似地，解码器旨在对分布p（y|z），给定输入z q（z|y）。VAE的培训目标是算法2所提出的FSCIL输入： =1，...，不输出：一个训练好的模型，找到所有xc的l*，其中最大化数据可能性，logp（y）= ELBO + KL[q（z）]|y）||p（z|y）]、⑴不t=11：M←{}2：{y1}N1Lt←从预训练的图像中提取视觉特征哪里是定义为的证据下限网络给定{x1}N1ELBO=Ezq（z|y）[logp（y|z）]−KL[q（z）|y）||p（z）]，（2）3：b子空间块应用算法14：对于t=l至T，do将军使用VAE模块合成的特征y′而KL（）是KL散度。注意，KL散度始终为非负，因此，最大化ELBO5：重复6：对于 Iin y y′do7：向前视觉特征yt和语义相当于最大化数据可能性。实际上我们最小化负ELBO，损失函数为-表示我ek∈ Et来了LVAE= −Ezq（z|y）[log p（y|z）]+ KL[q（z）]|y）||p（z）]，⑶其中p（z）是标准正态分布。考虑针对任务t的小的特征集合y_c，其从每个类c_t的预训练网络中提取。我们的目标是学习一个VAE，它可以模拟每个类C的真实特征分布。为此，我们在训练期间通过利用等式2中的损失来最大化log（p（y））的ELBO3 .第三章。在推理时，我们随机输入一个特征yyc从每个班级到编码器以获得近似后验q（z，y）。然后从q（z，y）中采样潜码并将其馈送到解码器以获得属于相应类别c的合成特征。我们使用所描述的VAE模型在每个增量会话生成新类的合成功能我们8：使用等式89：反向传播和更新Wj和θ10：直到收敛11：M ←更新记忆（Qt，M，Lt）十二：函数UPDATEMEMORY（t，，t）13：对于c=l至t，do14：通过对来自每个类别的所有训练样本求平均来计算每个类别的原型yMc15：M ← M∪（yM，lt）16：返回M用于优化子空间块被定义为，BL =¨Py−Pg（e;W）¨，（4）j=1yi∈S训练我们提出的FSCIL模型，通过增加几个可用的新类实例的生成特征。它平衡用于训练每个任务的实例数。因此，训练不会偏向于任何会话的类，即，减少过拟合，特别是对新类。重要的是要注意，VAE不包含整个数据集的知识换句话说，VAE仅访问当前任务的训练样本以生成合成特征。此外，VAE不会因新任务而冻结，即，we fine-tune微调it for novel新classes类.3.5. 训练和推理为了训练任务t的模型，我们将所有训练样本xN当前任务t的当前任务t哪里其中K是训练样本的数量。上述损失函数迫使模型学习应用于语义向量的必要变换即，该损失函数使投影特征和语义向量之间的欧几里德距离最小化。更进一步地，从子空间块的集合获得的语义e~k和视觉y~i特征的新嵌入被级联并馈送到关系模块[ 34 ]中，关系模块[34]产生范围[0，1]中的分数，指示y~i和e~k之间的相似性水平。我们为当前任务和前一个任务中的每个类生成这个分数任务，定义为，Rik=r（C（y~i，e~k）;θ），k∈Lt l，（5）其中Lt l= StLi.最后，我们应用二元交叉i=1提取一组视觉表示Y={yi}Nt. 还有，熵损失来训练模型，.LCLS1（lt==k）log（Rik）每个类的句子，在一个小内存M。在所提出的架构中，两个损失函数用于模型的端到端训练损失函数k∈Ltlyi∈S+。1−1（lt==k）Σlog（1−Rik）Elbo8667Σ，（6）8668iCaRL鳗鱼NCMMML[6]我们准确度（%）准确度（%）C×个∈L其中M是真实特征中的类别数，表示为，tl的总损失706050CIFAR100MiniImageNet706050Lr= LCLS+L p.（7）4040三十三十此外，我们有一个单独的损失函数的合成特征Ls，类似于方程。4和方程式六、最后，我们将真实特征和合成特征的损失函数组合为，20101、2、3个四五六七八九任务20101、2、3个四五六七八九任务Lt=αLr+（1−α）Ls，（8）其中α是根据经验选择的超参数。在推断时，给定训练的子空间、关系模块和未标记的样本xc，ctl，通过下式确定标记的预测：l*=argmaxr（（y~c，e~k）;θ）。（九）k∈Ltl在算法2中描述了整个训练过程。4. 实验数据集：在本文中，我们利用了三个数据集，CUB200[38]，MiniImageNet [36]和CIFAR100 [19]。来评估我们提出的方法CUB200由200个类，分为6000训练和6000测试instances，其中图像大小为224 224。MiniImageNet由100个类组成，包括500个训练实例和100个测试实例。同样，CIFAR100包括100个类，其中每个类包括500个训练样本和100个测试样本。在这项工作中，我们使用[35]中介绍的设置。在CUB200数据集中，选择100个类作为基类，其余100个类被分成10个会话，其中考虑10路5次射击设置。对于CIFAR100和MiniImageNet，选择60个类作为基础，并且将40个类视为新集合，其中它们被分成八个新会话。语义特征：我们采用无监督的词向量，从无注释的文本语料库中获得的类语义嵌入。对于 CUB200 ，MiniImageNet和CIFAR100，我们使用了400，1000和300维word2vec [21]，分别。评估：在所有实验中，我们使用top-1准确度来评估方法，其中将预测的标签与地面真实标签进行比较，作为成功预测。超参数：为了找到超参数，我们进行了网格搜索。我们将训练集分成两个集：一个基本集，由60%的训练类组成，另一个验证集，由其余的增量添加的类组成对于CUB 200，超参数b、n和α被设置为3、256和0.6;对于CIFAR 100，超参数b、n和α被设置为5、2565和256，MiniImageNet为0.55。实现细节1：为了获得视觉特征，我们使用ResNet-18 [12]，其中提取视觉特征1代码可在：https://git.io/JRb81图5：CIFAR100（左）和 MiniImageNet（右）上的结果使用ResNet-18架构在5路5拍FSCIL上。从最后一个池化层开始，具有512个维度。背骨在基础任务上进行训练，并为即将到来的任务保持冷冻状态。对于子空间块，我们使用分别具有1200和2048个隐藏单元的两个全连接层，其中ReLU作为非线性函数，由图2中的g表示。对于关系模块，我们使用了三个全连接层，分别有2048、1024和1个隐藏单元，其中前两层有一个ReLU函数，最后一层有一个Sigmoid函数。为了训练上述网络，我们使用Adam优化器[18]，其中学习率和批量大小分别设置为0.0001和64。此外，我们实现了解码器和编码器的VAE作为完全连接的神经网络。每个网络由三层256个隐藏单元组成，隐码的维数为16。我们使用ReLu 作为解码器中除了最后一层之外的所有层的激活函数。为了训练VAE，我们使用Adam优化器，学习率为0。01，批量大小为4。所有的值都是根据经验选择的。4.1. 主要结果在这里，我们在三个众所周知的数据集上将我们提出的方法与最先进的方法[26，2，13，35，8]进行CUB200 [38]，MiniImageNet [36]和CIFAR100 [19]。CUB200结果：我们在表1中报告了CUB200数据集的性能。可以看出，我们提出的方法在最后一个任务中以较大幅度（>10%）优于最先进的方法CIFAR100结果：我们在图5（左）中示出了我们的方法在CIFAR100数据集上的准确性。然而，虽然我们在第一个任务上的准确度比其他方法低近2%，但我们仍然比最先进的方法获得了更好的性能。MiniImageNet 结果：与其他数据集类似，在图 5（右）中，我们在MiniImageNet上的所有增量任务中击败了最先进的方法。与其他方法不同的是，我们在不使用传统的知识蒸馏技术的情况下实现了最佳性能。FSCIL的知识蒸馏方法的使用可能面临[35]中讨论的几个问题。例如，平衡交叉熵（CE）和KD损失之间的贡献导致不令人满意的性能iCaRLEELNCMMML[6]我们L8669准确度（%）联系我们方法任务/会话表1：基于10路5次激发设置的ResNet18的CUB200结果。四二七○四一六○45w/o合成要素w合成要素40四十五十391二个三个四个五个六个七个八个九个10 11 12 13 14 15子空间数401 2 3 4 5 6 7十个十一点三十五分任务(a)(b)（c）第（1）款图6：在我们提出的方法中使用（a）不同数量的子空间，（b）合成特征和（c）损失函数的影响。权衡此外，学习新的少镜头类需要更高的学习率以最小化CE。它可能导致输出logit的不稳定性，这使得难以最小化KD。我们的方法的一致性能的结果，从利用的子空间混合物和合成功能的新的类。子空间混合存储旧的知识，使得网络不会灾难性地忘记过去的训练，并且合成的特征不会过拟合到新的类。4.2. 消融研究子空间的影响：在这里，我们评估子空间块在我们提出的方法图中的效果。第6（a）段。我们通过使用不同的k值来改变子空间的数量1、2、. . . 15，同时应用k-means聚类。k=1意味着使用单个全局子空间b=1，而不捕获驻留在数据集中的视觉相似性和相异性的超类结构。k >1意味着使用多个子空间b >1的混合，其捕获超类簇结构。我们使用b=5使用MiniImageNet数据集实现了最佳结果，其中全局和局部结构都达到了完美的平衡。如果b低或高，则全局或局部信息分别占主导地位，使得系统不平衡。合成特征的影响：图6（b）示出了在CUB200数据集上使用合成特征的效果。人们可以注意到，在几乎所有的增量训练中，当考虑合成大小的特征时，结果得到改善。它告诉我们，合成特征的增强为新类带来了额外的知识，并有助于不过度适应一些真实的例子。不同损失函数的影响：图6（c）示出了在CUB数据集上使用分类损失L cls和子空间学习损失L p的效果。我们注意到使用两种损失，即，Lcls+Lp比仅使用Lcls效果更好。原因是Lp对齐视觉特征和以特定子空间为条件的语义词向量。视觉语义的对齐版本比非对齐版本更好地支持后期的关系网络学习。请注意，在这两种情况下，我们都考虑在每个增量会话期间合成的功能。我们不单独使用Lp，因为在没有分类损失Lcls的情况下无法学习关系网络。5. 结论本文提出了一种基于子空间的混合方法，该方法适用于真实和合成的视觉特征，以解决FSCIL任务。传统的FSCIL方法在灾难性地忘记基类和过度适应新的类示例中挣扎。我们所提出的方法最大限度地减少了这些问题，通过构建一个混合的子空间和合成特征生成的VAE模型。不同的子空间捕获视觉集群结构的各个方面之后，各个子空间的混合物表示特征和语义，使得无论基础和新特征作为输入，我们的方法都可以在所有增量会话中产生平衡的预测，这有助于FSCIL任务。此外，VAE模型增加了合成特征，同时学习新的类与少数镜头的例子，主要有助于适应增量知识。我们已经在三个二维图像数据集上进行了实验，并报告了令人满意的结果来证明我们的贡献。准确度（%）准确度（%）123四五六七八九十十一iCaRL [26]68.6852.6548.6144.1636.6229.5227.8326.2624.0123.8921.16EEIL [2]68.6853.6347.9144.2036.3027.4625.9324.7023.9524.1322.11NCM [13]68.6857.1244.2128.7826.7125.6624.6221.5220.1220.0619.87AL-MML [35]68.6862.4954.8149.9945.2541.4038.3535.3632.2228.3126.28Cheraghianet.al68.2360.4555.7050.4545.7242.9040.8938.7736.5134.8732.96我们68.7859.3759.3254.9652.5849.8148.0946.3244.3343.4343.238670引用[1] Ronen Basri和David W Jacobs。朗伯反射率和线性子空间。 IEEE Transactions on Pattern Analysis MachineIntelligence，（2）：218[2] 弗朗西斯科·M 卡斯特罗、曼努埃尔·J·马林-吉梅内斯、尼科·拉·吉尔、科迪莉亚·施密德和卡尔蒂克·阿拉哈里。端到端的智力学习。在Vittorio Ferrari，Martial Hebert，Cris-tian Sminchisescu和Yair Weiss，编辑，ECCV 2018-欧洲计算机视觉会议，德国慕尼黑，9月9日2018年。[3] Arslan Chaudhry ， Puneet K.Dokania ， ThalaiyasingamAjan-than，and Philip H.S.乇递增学习的黎曼步行：理解遗忘和固执。在欧洲计算机视觉会议（ECCV）的会议记录中，2018年9月。[4] Kuilin Chen和Chi-Guhn Lee。在深度嵌入空间中通过矢量量化进行增量少拍2021年国际学习表征会议[5] Ali Cheraghian、Shafin Rahman、Dylan Campbell和LarsPetersson。减轻3d物体零拍学习的中心问题。在英国机器视觉会议（BMVC[6] Ali Cheraghian、Shafin Rahman、Dylan Campbell和LarsPetersson。用于三维点云分类的直推零次学习2020年IEEE计算机视觉应用冬季会议（WACV），第912-922页[7] AliCheraghian 、 ShafinnRahman 、 TownimFChowdhury、Dylan Campbell和Lars Petersson。 3d点云对象及其他对象的零射击学习。arXiv预印本arXiv：2104.04980，2021。[8] Ali Cheraghian ， Shafin Rahman ， Pengfei Fang ，Soumava Kumar Roy ， Lars Petersson ， and MehrtashHarandi.语义感知的知识蒸馏为少数拍摄类增量学习。在IEEE/CVF计算机视觉和模式识别会议（CVPR）上，2021年6月。[9] J. Dong，X. Li和C. G. M.斯诺克从文本预测视觉特征用于图像和视频字幕检索。 IEEE Transactions onMultimedia，20（12）：3377[10] Pengfei Fang，Mehrtash Harandi，and Lars Petersson.双曲空间中的核方法。国际计算机视觉会议论文集，2021年。[11] S. Gidaris和N.小木动态少镜头视觉学习没有忘记。2018年IEEE/CVF计算机视觉和模式识别会议，第4367-4375页[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR）上，2016年6月。[13] Saihui Hou ， Xinyu Pan ， Chen Change Loy ， ZileiWang，and Dahua Lin.通过重新平衡增量学习统一分类器。在IEEE/CVF计算机视觉和模式识别会议（CVPR）上，2019年6月。[14] 胡鹤翔，赵伟伦，沙飞。学习视觉问答的答案嵌入。法律程序IEEE计算机视觉和模式识别会议，第5428-5436页，2018年。[15] 黄贺，王长虎，Philip S. Yu，and Chang-Dong Wang.广义零射击学习的生成对偶对抗网络。在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月。[16] 潘骥，马蒂厄·萨尔茨曼，李洪东。高效的稠密子空间聚类。 2019 年 IEEE 计算机视觉应用冬季会议（WACV），2014年3月。[17] 潘骥，马蒂厄·萨尔茨曼，李洪东。形状交互作用矩阵重新审视和鲁棒化：具有损坏和不完整数据的有效子空间聚

下载后可阅读完整内容，剩余1页未读，立即下载