超细粒度少样本类增量学习的SSFE-Net模型对超细粒度视觉分类问题提出了一种自监督特征增强的少镜头增量学习方法，并通过实验证明其有效性

41 浏览量更新于2023-10-16 收藏 1.36MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

6275SSFE-Net：用于超细粒度少样本类增量学习潘子成，余晓涵，张妙华，高永胜工程与建筑环境格里菲斯大学，昆士兰州，4111，澳大利亚潘晓涵;于晓涵; lena.zhang; yongsheng.gao}@ griffith.edu.au摘要超细粒度视觉分类（ultra-FGVC）已成为一个流行的问题，由于其巨大的现实世界的潜力，分类相同或密切相关的物种非常相似的布局。然而，现有的超FGVC方法面临着许多挑战，首先，现有的超FGVC数据集中总是没有足够的样本，基于这些样本的模型很容易得到过拟合。其次，在实践中，我们很可能会发现以前从未见过的新物种，并需要将它们添加到现有模型中，这就是所谓的增量学习。现有的方法通过少镜头类增量学习（ Few-Shot Class IncrementalLearning，FSCIL）来解决这些问题，但FSCIL模型在超FGVC任务中面临的主要挑战在于其鉴别检测能力较差，因为它们通常使用低容量的网络来提取特征，这导致从超细粒度图像中提取的鉴别细节不足。本文提出了一种自监督特征增强的少镜头增量学习具体而言，自监督学习（SSL）和知识蒸馏（KD）框架的开发，以提高超FGVC少数镜头类增量学习任务的低容量骨干网络的特征此外，我们首次在两个公开的超FGVC数据集和三个正常的细粒度数据集上为FSCIL任务创建了一系列基准测试在公开的ultra-FGVC数据集和其他最先进的基准测试数据集上的大量实验结果一致地证明了所提出的方法的有效性。1. 介绍Ultra-FGVC任务近年来开始受到人们与Class-正常细粒度分类超细粒度分类图1：正常分类任务（绿框）与超FGVC任务（粉红框）.同一方框中的图像代表相同的物种（栽培品种）。蓝色箭头表示相似度高的图像。SIC分类数据集通常被设计用于区分不同类型的对象，例如（例如，），鸟类[29]，汽车[18]和飞机[20]，ultra-FGVC主要专注于识别来自相同或密切相关物种的具有大类内和小类间差异的对象，如不同种类的棉花叶。如图所示。1. 很尽管不同类别之间的相似性很高，但ultra-FGVC的另一个挑战在于训练样本的限制在现有的ultra-FGVC数据集中，通常只有少量的注释图像可用，这与现实世界的场景更好地匹配，特别是在科学领域。例如，在ultra-FGVC数据集CottonCulti-var [35]中，每个类别只有六个图像。另一方面，随着对深入特征提取的需求的增加以及自然界中发现的新的目标种类越来越多，人们发现有必要在不损失现有超FGVC模型的前提下对其进行扩展N1级N2级M1级M2级6276更多的性能，这被称为类增量学习。现有的方法通过近年来受到极大关注的少样本类增量学习[26，11，21，37，36，43，7]来然而，FSCIL从未被应用于ultra-FGVC问题，该问题由Yu等人[35]于2021年首次提出，具有一系列ultra-FGVC数据集和基准。此外，我们发现现有的FSCIL方法只关注灾难性遗忘问题，而忽略了其低容量骨干的低特征提取能力。学习辨别性表征对于广泛的视觉任务至关重要[40 ， 39] 。例如，大多数 FSCIL 方法采用ResNet18[26，21，7，43]作为其骨干网络，导致从超细粒度图像中提取的区分细节不足。他们使用低容量网络的原因是在复杂模型上训练不充分的数据样本会导致过拟合。为了解决这些问题，我们提出了一种新的SSFE-Net架构，它结合了自监督学习（SSL）和知识蒸馏（KD）。通过这种设计，我们可以利用更深层次的神经网络结构（例如，ResNet50[15]）在数据有限的情况下学习更丰富的判别特征。此外，从自监督学习模块中学习的特征增强了网络对同一样本的区分检测能力，这在ultra-FGVC数据集中至关重要此外，该模型通过应用类均值增量自适应模块，利用了超FGVC数据集为了验证SSFE-Net的有效性，我们在两个超FGVC数据集和三个常用的细粒度数据集上进行了实验。由于这是第一次在超细粒度数据集上应用少量类增量学习，因此我们使用不同的基准测试方法在这些数据集上创建基准测试，这将有助于超FGVC社区的发展结果表明，我们的模型与其他基准相比有显着的改善，并达到最先进的性能。我们工作的贡献可以概括如下：• 提出了一种新的自监督特征增强网络（SSFE-Net），以提高超细粒度FSCIL中低容量骨干的特征提取能力图2显示了所提出的SSFE- Net的概述。• 自监督学习（SSL）模块具有鲁棒的自监督特征增强能力，可以在不产生过拟合的情况下提取更多的高维特征表示。此外，构造了知识提取模块（KD），用于传输SSL提取的高质量特征，并对低容量的FSCIL网络进行扩充。• 首次基于两个不同的超FGVC数据集创建了一系列FSCIL基准，这将促进超FGVC社区的发展。2. 相关作品2.1. 超细粒度视觉分类超细粒度视觉分类（ultra-FGVC）近年来受到了广泛关注[35，19，22，25，33 、 34 、 32 、 31] 。与普通的细粒度视觉分类（FGVC）任务相比，由于对大规模数据集进行标注需要耗费大量人力，因此超细粒度视觉分类任务中每个类中的标注样本数量要少得多，因而更加复杂另一个挑战是，超FGVC数据集具有小的类间相似性，即使是人类专家也可能无法区分不同的物种。因此，研究超功能气体发生器具有巨大的发展前景和实用价值。近年来，人们对超FGVC任务进行了大量的研究，并取得了显著的进展。第一个 ultra-FGVC 任务由Lareseet.al[19]基于大豆叶数据集提出。他们的工作主要集中在使用传统的机器学习技术对不同的大豆叶片进行分类，这展示了一种通过有区别的脉区域来识别叶片的有效方法。然而，他们只利用了叶子的静脉细节，这不能有效地提取和利用叶子的其他信息部分，例如，叶子的轮廓、颜色等。此外，他们的大豆叶片数据集只包含三个品种，这降低了任务和模型的复杂性。为了更好地预测ultra-FGVC任务，Yuet.al[35]首先提出了几个ultra-FGVC数据集和一系列用于开发ultra-FGVC社区的基准。这些数据集涉及到精细农业领域，具有很大的多样性和复杂性.作者进一步研究了这些数据集和超FGVC挑战[33]，并设计了MaskCOV网络架构以更好地解决这些问题。MaskCOV是一种将原始图像分割成若干等份的特征论证方法。这些补丁级协方差特征将被屏蔽或随机组合以形成新特征。有了这些修改后的图像，模型不仅可以专注于对象的一般布局，而且可以更好地捕捉有区别的区域进行预测。基于他们的研究，我们知道ultra-FGVC的共同挑战来自于过拟合问题，这是由于数据样本的限制以及其较低的特征提取能力。因此，先进的功能，6277X（n）1X（n）2基础模型编码器ε编码器εSSL编码器ε Base编码器F…预测因子P停车坡度╳KD…C（x）L相似性1包含N个类和每个类K个训练样本，在FSCIL中表示为N路K受[6]采用SSL来训练双状态范例的大型嵌入式网络的启发，我们使用SSL来预训练FSCIL任务中的基础学习部分，以获得深入的特征。SSL模型将使用Sim-Siam架构进行训练，并使用对比学习技术来提取语义信息以简化。建议的网络对SSL方法没有限制，因此其他SSL技术也可以工作。在FSCIL基础训练阶段，ResNet18提取的特征图和特征向量将通过KD与SSL互信息相结合，以提供更具鉴别力的特征。在增量学习阶段，由于FSCIL在ultra-FGVC任务中的主要限制来自于在基础训练模型上缺乏对不同对象的深度区分区域的能力，因此在这个初始阶段提高在下文中，我们将介绍所提出的自监督学习模块和少量类增量学习。3.2. 自我监督学习（SSL）模块许多研究表明，SSL可以很好地初始化模型[6，27，2]。我们使用SSL来最大限度地提高互信息，并为样本图像提供多个视图SSL模型只使用数据集的基础部分进行预训练，新会话中的所有数据在此阶段都不会涉及。我们使用的SSL模型应用了对比学习概念，如图2的自监督学习模块所示。网络随机地将图像xn增强为两个不同的视图xn和xn。这两个视图将被进一步处理，特征提取编码器网络（x）和预测头（x）。（x）可以在训练期间在两个视图和预测头（x）之间共享权重，预测头（x）负责将一个视图特征转移以及匹配到另一个视图特征。不同视图的输出简化为p1=（x1）和z2=（（x2））。然后，两个输出之间的余弦相似度由下式定义：SSL模块通过研究具有自身方差的图像，增强了模型的表示学习能力，并提供了更多有区别的区域的细节，而不会出现过拟合问题。3.3. 知识蒸馏（KD）模块在预训练SSL模块中获得的互信息将被进一步处理，并在图2中的知识补充阶段与标准少量增量训练相结合。与普通的FSCIL设置一样，所提出的框架中的增量学习可以分为基础训练和多个新类训练会话。受[38]的启发，学生网络将在教师网络的特征对齐蒸馏和特征相似性蒸馏的指导由于不需要像[38]中那样识别图像上的界标位置，因此我们提出了特征向量对齐蒸馏，而不是特征图来确定蒸馏损失。矢量化的蒸馏损失可以通过利用Kullback Leibler（KL）发散损失来定义在基础训练阶段，FSCIL主干基础生成没有分类头的特征向量base=base（1）同时，SSL网络还处理要素地图并调整嵌入到匹配 FSCIL输出ssl=Conv（ssl（1）.该模型将利用两个特征嵌入并比较它们的相似性。该损失是通过对模型的交叉熵损失Lce进行预测和KL发散损失LKL：Ltotal=Lce（βVbase+γVssl）+αLKL（Vbase，Vssl），其中参数β、γ和α表示Lce和LKL的权重分布超参数。3.4. 增量学习在增量阶段，我们使用具有分类器策略的解耦骨干来更新分类器，而不修改骨干参数，类似于持续进化的分类器[36]。该方法使用每个类特征表示的平均值，并且由于对象都是相似的，因此在超FGVC增量任务中具有很大的优势，（三）226279MJ××W {}×J⟨··⟩××××1 2 3 4nMJJ第224章在训练中我们使用100个类别进行基础训练，其余100个类别进行增量训练。学习表示的平均值可以容易地转移到新的类，而不需要大量的训练。对于单个会话n，分类器wn通过用来自相同类别的图像的特征表示的平均值替换原始预测原型分类器来生成，wj=1<$F（Dn），（4）m=1随机选择100个图像，将其调整为256 256，并从每个类中将其裁剪为224 224用于训练。在基础训练会话中有23个类，其余15个类进一步平均分成3个新会话。加州理工大学-加州大学圣地亚哥分校鸟类-200-2011（CUB 200）[29]. 公司简介由来自200种不同鸟类的11788张图片组成每张图像的大小调整为256×256，然后裁剪为×其中M是类别j的图像的数量。新的增量分类器wn将与先前会话中的分类器连接以形成演进的分类器n=w1，w2，.，wn.在进行预测时，网络通过内积计算将原始表示投影到新的样本空间来计算归一化样本和分类器之间的余弦相似度在[26]中设置[28]第二十八话它是 Im ag eNet -1 k 数据集的一个子集，包含10 0 个类别， 60 0 个样本，84 84彩色图像每类。与[26]相同，前60节课用于基础训练，其余的平均分为8节课。表1：使用10路5次设置的Cultural Local数据集的基准结果。P=Nnorm（Dn），norm（Wn），（5）其中，表示用于找到相似性的内积计算。每个新的会话，我们用新的训练样本表示的平均值更新分类器，并将其与原始分类器合并以测试所有可见的类。4. 实验为了验证所提出的方法的有效性，我们会议（%）表2：使用5向5射设置的CottonCultivar数据集的基准结果对两种公开的超细晶和三个正常的细粒度数据集。每个数据集的一些示例图像如图3所示。该算法进行了测试，并与三个最近出版的方法进行了比较。此外，在不同的实验设置下进行烧蚀研究，以进一步验证所提出的方法的有效性。4.1. 数据集[35]第三十五话. CottonCultivar数据集首次在[35]中提出，用于基于不同棉花叶片品种的ultra-FGVC任务。总共有80个类，40个用于基础训练，其余40个类被分成8个增量会话，每个类在FSCIL阶段有5个图像用于训练，1个图像用于测试。在训练阶段，图像被调整大小为 512 512 ，并被裁剪为 448 448[35] 第三十五话CultivarLocal是一个更大的超FGVC叶数据集，专注于大豆品种。它有200个类，每个类有6个图像。我们使用与CottonCultivar相同的训练和测试分割，以及与CUB200相同的基础新分割。在训练期间，每个图像被调整大小为512 512，然后被裁剪为448 448[17]第十七话 PlantVillage最初是为植物病害检测系统设计的公共数据集。它由38种不同的叶病和种类组成。由于图像数量在不同类别之间不平衡，我们方法会议（%）1 2 3 4 5 6 7 8 9SPPR[43]12.50 6.986.526.125.775.455.174.924.69通过[42]12.00 3.646,677.697.148.005.00CEC[36]17.50 15.55 14.00 12.734.6913.02 9.23 7.81SSFE-净25.00 17.78 18.00 14.55 15.00 13.85 15.71 14.67 13.75表3：使用5路5次设置的PlantVillage数据集的基准结果FSCIL参数显示在FSCIL阶段不同方法方法FSCIL参数会话（%）SPPR[43] 12.31 M 91.13 71.16 57.71 46.62通过[42]11.35M86.8575.7564.30 53.79CEC[36] 12.33M 95.8188.0178.90 71.24SSFE-Net11.46百万97.3189.2879.04 72.904.2. 实现细节所有实验都是在PyTorch框架下进行的如公式3所示，在计算损失时，有三个权衡超参数β、γ和α，它们分别被设置为8e−1、2e−1和9e−1在SSL预训练阶段采用ResNet50提取更多的细节特征，学习率每20个epoch衰减 0.1 。我们为 CUB 200 、 Mini-ImageNet 和PlantVillage使用了一个常见的5路5次拍摄设置，方法1 2 3 4 5 6 7 8 9 10 11SPPR[43]6.007.27 4.62 5.00 4.67 5.00 4.12 4.12 3.33 2.11 3.00通过[42]8.0011.81 10.00 6.92 5.71 5.33 4.38 4.12 2.78 3.16 2.50CEC[36]26.00 24.56 23.3336.33 19.66 20.42 19.14 20.85 21.91 20.20 18.07SSFE-Net28.73 27.27 27.5026.1525.71 24.00 23.75 21.76 22.22 21.05 20.006280CUB200 Mini-ImageNetPlantVillageCottonCultivar CottonCultivarLocal图3：我们研究中使用的五个数据集的样本图像每个图像表示对象的一个隔离类表4：使用不同方法在CUB200数据集上的实验结果方法会议（%）工作[2]。由于CottonCultivar和CottonCultivarLocal数据集中每个类的训练样本有限，因此将5路3次训练设置应用于所有涉及的比较方法。在FSCIL阶段，采用常用的ResNet18结构作为主干。我们对Mini-ImageNet和Cultural Local数据集使用10路5次拍摄设置，而对其余数据集使用5路5次拍摄，这与工作中的设置类似[26]。为了公平比较，我们在ultra-FGVC数据集上进行的所有实验都没有使用ImageNet预训练ResNet 18的主干。我们还使用所提出的模型和CEC基准对ImageNet预训练的骨干进行了消融研究。有关超参数设置和调整过程的更多详细信息，请参见补充材料A部分。4.3. 与最先进的方法进行为了验证我们所提出的方法的有效性，我们将我们的模型与其他有竞争力的最先进的方法进行比较。对于CottonCultivarLocal、CottonCultivar和PlantVillage数据集，表1-3展示了不同方法在这些基准数据集上的性能，最好准确性以粗体突出显示。由于只有少数现有模型完全发布其源代码，因此我们仅使用SPPR[43]， PASS[42]以及CEC[36]进行超FGVC基准比较。我们在新的数据集分裂下为所有基准模型应用最佳微调设置这些表中的实验结果一致地验证了所提出的方法在所有ultra-FGVC数据集上具有优异的性能由于SSL模型在FSCIL阶段不会更新，SSFE-Net在FSCIL阶段具有与表3中所示的其他基准我们还在常用的细粒度数据集 CUB 200和 Mini-ImageNet上进行了实验，以进一步验证所提出的SSFE-Net的泛化能力。比较的方法有iCaRL[23]、 EEIL[5]、NCM[16]、 TOPIC[26]、SPPR[43]、 SDC[30]、 GP树[1]、去耦合余弦(DC)[28]，FSLL+SS [21]，CEC [36]。表4和5给出了在CUB 200和Mini-ImageNet上的测试结果。很1234567891011iCaRL[23]68.6852.6548.6144.1636.6229.5227.8326.2624.0123.8921.16EEIL[5]68.6853.6347.9144.2036.3027.4625.9324.7023.9524.1322.11NCM[16]68.6857.1244.2128.7826.7125.6624.6221.5220.1220.0619.87主题[26]68.6862.4954.8149.9945.2541.4038.3535.3632.2228.3126.28SPPR[43]68.6861.8557.4352.6850.1946.8844.6543.0740.1739.6337.33SDC[30]72.2968.2261.9461.3259.8357.3055.4854.2049.9948.8542.58GP-树[1]72.8467.0062.9858.1954.8451.7749.4047.5745.4744.0542.72华盛顿特区[28]75.5270.9566.4661.2060.8656.8855.4053.4951.9450.9349.31[21]第二十一话 75.6371.8168.1664.3262.6160.1058.8258.7056.4556.4155.82CEC[36]75.8571.9468.5063.5062.4358.2757.7355.8154.8353.5252.28SSFE-Net76.3872.1168.8264.7763.5960.5659.8458.9357.3356.2354.286281在正常FSCIL数据集上的竞争性能。表5：使用不同方法在Mini-ImageNet数据集上的实验结果方法会议（%）1 2 3 4 5 6 7 8 9iCaRL[23]61.31 46.32 42.94 37.63 30.49 24.00 20.89 18.80 17.21EEIL[5]61.31 46.58 44.00 37.29 33.14 27.12 24.10 21.57 19.58NCM[16]61.31 47.80 39.31 31.91 25.68 21.35 18.67 17.24 14.17主题[26]61.31 50.09 45.17 41.16 37.48 35.52 32.19 29.46 24.42SPPR[43]61.45 63.80 59.53 55.53 52.50 49.60 46.69 43.79 41.92SDC[30]64.62 59.63 55.39 50.92 48.30 45.28 42.97 42.51 41.24GP-树[1]62.32 57.10 52.90 49.36 46.28 43.55 41.13 38.97 37.02华盛顿特区[28]70.37 65.45 61.41 58.00 54.81 51.89 49.10 47.27 45.63[21]第二十一话68.85 63.14 59.24 55.23 52.24 49.65 47.74 45.23 43.92CEC[36]72.00 66.83 62.97 59.43 56.70 53.73 51.19 49.24 47.63SSFE-Net72.06 66.17 62.25 59.74 56.36 53.85 51.96 49.55 47.735. 消融研究第一个消融研究的重点是比较SSL模型和KD对FSCIL任务改善的贡献。我们采用了不同的SSL主干，有/没有KD和ImageNet预训练的主干的存在，以分析SSFE-Net中不同组件的有效性。另一方面，我们用其他常用的增量类分裂比例测试了ultra-FGVC数据集，并验证了数据集分裂对模型性能没有很大的影响5.1. SSL嵌入和KD的贡献为了验证SSL特征增强网络和KD嵌入融合是否对FSCIL 任务有很大的改进，我们在 CUB200 、CultureCultureLocal和PlantVillage数据集上进行了大量的实验，以分析不同SSL骨干组件和KD的贡献基础训练会话（会话1）中不同组件组合下的性能比较如表6所示，这清楚地表明自特征增强模块（SSL）和KD在FSCIL任务上有很大的改进具有ResNet50主干的SSL模块在其他主干中具有最大的改进，因为与ResNet34相比，它可以生成更高维的特征，并且比ResNet101更不容易除了5路5-shot/3-shot设置的SSL训练外，还进行了5路1-shot（5 w1 s）SSL设置下的消融实验以进一步研究模型性能。结果一致地验证了在5w1s设置下的性能仍然受益于SSL模块，并且KD组件能够正确地将SSL特性融合到FSCIL中。通过在NVIDIA A5000 GPU上运行150个epoch的实验，对模型的运行时间进行了评估。此外，我们还看到了非-mal FSCIL方法和SSFE-Net通过类激活映射（CAM）[41]。请参考补充资料进行比较。很5.2. ImageNet预训练FSCIL通过从头开始训练 FSCIL 的 ResNet 18 ，在 ultra-FGVC数据集上进行实验。为了进一步探索模型的潜力，我们采用ImageNet预训练参数SSFE-Net以及最佳基准模型CEC。其余设置保持不变。比较结果如表7和表8所示，从中我们可以看出，在上述设置下，两种方法的整体性能都得到了显著增强，并且所提出的SSFE-Net仍然保持了其优于CEC的优势。5.3. FSCIL中的数据集分割比例由于在PlantVillage和Cotton- Cultivar数据集上对该方法进行了进一步的测试对于PlantVillage，20个班级用于基础培训，其余18个班级进一步分为6个课程，用于3路5次设置后的增量学习。对于CottonCultivar，选择60个班级进行基础训练，其余20个班级在5路5杆设置后分成4个增量课程。在PlantVillage和CottonCultivar上具有不同分裂的CEC和SSFE-Net的性能报告在表9和10中，从中我们可以看出，所提出的方法仍然实现了最先进的性能。6. 讨论第4-5节的实验结果清楚地表明，所提出的SSFE-Net在超细粒度的少量增量学习任务上具有优异的性能。通过对样本的CAM图形可视化分析（详见补充资料），可以看出所提出的模型具有较好的定位和聚焦能力与其他方法相比，图像的区分区域。在CottonCultivar数据集上的实验进一步证明了该算法强大的特征增强能力。第二好的方法CEC在表2和表10中经历了分类性能的急剧下降，因为它没有处理超细粒度数据的机制。来自同一类的叶子样本来自棉花植株的不同部位，所以它们看起来非常不同。CEC缺乏细节捕捉能力，当新的类别出现时，无法识别不同的物种。由于类间相似度小，类内相似度6282表6：关于在CUB200、CultivarLocal和PlantVillage数据集上呈现不同SSL主链和KD的基础模型训练消融研究。模型组件CUB200栽培本地植物村SSL主干KD FSCIL会话1Acc.（%）培训时间（s）会话1Acc.（%）培训时间（s）会话1Acc.（%）培训时间（s）✗✗ ✓73.88114519.88 81895.381839ResNet34✗ ✓73.13126420.92 105396.132012ResNet50✗ ✓73.43138222.26 127196.242178ResNet101✗ ✓73.67205523.83 148595.392342ResNet34✓ ✓74.92127926.48 105596.812018ResNet101✓ ✓74.18207925.66 147695.572367ResNet50（5w1s）✓ ✓76.05138527.98120697.272190ResNet50✓ ✓76.58137928.73121997.312197表7：使用ImageNet预训练的FSCIL模型对CulturalLocal数据集进行基准测试的结果。方法会议（%）1 2 3 4 5 6 7 8 9 10 11CEC[36]31.00 27.27 28.33 13.67 13.67 19.71 20.31 20.8322.11 21.37 19.44SSFE-Net37.24 29.27 29.10 23.85 22.86 21.67 21.00 21.1720.33 20.37表8：使用ImageNet预训练的FSCIL模型对CottonCultivar数据集进行基准测试的结果。会议（%）一个类到另一个类，这也提高了模型的泛化能力，有利于新的会话训练。然而，与现有技术的FSCIL方法相比，SSFE-Net需要预训练的SSL模型和稍微更多的时间来从图像中提取详细信息，因为它需要为同一图像生成两组特征嵌入。此外，由于SSL模型只在基本会话期间增强功能，因此新的增量式原型可能会遭受细节不足和缺乏与不同类原型的可识别性的问题。例如，建议的SSFE-Net方法1 2 3 4 5 6 7 8 9方法精度略低于CEC方法，[36]52.50 42.22 36.00 32.77 28.33 30.77 28.57 28.00 27.50社会保障基金净额60.00 53.33 46.00 40.00 36.67 36.92 35.71 30.67 28.74表9：在3路5次拍摄设置下，不同方法对PlantVillage数据集进行不同数据分割的实验结果。会议（%）1 2 3 4 5 6 7[36]第36话90.9681.9678.5073.24 66.86SSFE-Net96.4592.2781.7778.9572.5668.13 63.98表10：来自CottonCultivar数据集上的不同方法的实验结果，具有5路5次射击设置和用于基础会话的60个类。方法会议（%）SSFE-Net利用ultra-FGVC数据集的方差特性，利用强大的SSL特征嵌入，可以更好地定位区分区域，这有利于减缓新会话中的性能下降。该方法的细节捕捉能力可以通过补充材料中的CAM图来验证。此外，SSL模型有助于模型容易地传递相似的特征分布和从学习到的知识，第3和第5节，如表9所示。更详细的故障示例见补充材料第C节。未来的工作将集中在增强新场景中特征原型的区分性表示，并使其与基本特征空间相适应，以进一步减少灾难性遗忘问题。7. 结论本文提出了一种新的SSFE-Net结构，以提高超细粒度少次增量学习中低容量骨干网络的特征提取能力具体来说，一个自我监督的特征增强机制，开发从图像中提取细粒度该网络利用深度自监督学习网络从样本中获取更多的特征，克服了常规FSCIL网络容量低带来的瓶颈问题。然后，SSL的高维特征通过知识蒸馏来增强FSCIL网络。此外，SSFE-Net利用了超FGVC任务中不同对象的高相似性属性，将学习特征从旧类转移到新类，减少了增量学习过程中的遗忘问题。在该模型的基础上，首次基于两个不同的ultra-FGVC数据集进行了一系列FSCIL基准测试，以促进ultra-FGVC社区的发展。方法12345CEC[36]18.3313.3310.009.336.25SSFE-Net27.5018.4620.0017.3316.256283引用[1] Idan Achituve ， Aviv Navon ， Yochai Yemini ， GalAlzhehik和Ethan Fetaya。Gp-tree：一个用于少量增量学习的高斯过程分类器。在国际机器学习会议（ICML），第54-65页[2] 安月轩，薛慧，赵星宇，张璐。用于少量分类的自监督学习。在第三十届国际人工智能联合会议（IJCAI），第2140-2146页[3] Philip Bachman ， R Devon Hjelm ， and WilliamBuchwalter.通过最大化跨视图的互信息来学习表示神经信息处理系统进展（NeurIPS），32，2019。[4] Mathilde Caron ， Ishan Misra ， Julien Mairal ， PriyaGoyal，Piotr Bojanowski，and Armand Joulin.无监督学习视觉特征对比聚类分配。神经信息处理系统（NeurIPS）的进展，33：9912[5] Francisc oMCastro ， ManuelJMa rın-Jime'nez ， Nicola'sGuil，Cordelia Schmid和Karteek Alahari。端到端的增量学习。在欧洲计算机视觉会议（ECCV）中，第233-248页[6] Da Chen，Yuefeng Chen，Yuhong Li，Feng Mao，YuanHe，and Hui Xue.自监督学习用于少镜头图像分类。在IEEE国际声学、语音和信号处理会议（ICASSP）中，第1745- 1749页[7] Kuilin Chen和Chi-Guhn Lee。在深度嵌入空间中通过矢量量化进行增量少拍国际学习表征会议（ICLR），2020年。[8] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架在国际机器学习会议，第1597-1607页[9] Xinlei Chen，Kaiming He.探索简单的连体表征学习。在IEEE/CVF计算机视觉和模式识别会议（CVPR），第15750[10] Zhengyu Chen，Jixie Ge，Heshen Zhan，Siteng Huang，and Donglin Wang. Pareto自我监督训练用于少量学习。在IEEE/CVF计算机视觉和模式识别会议（CVPR），第13663-13672页[11] Ali Cheraghian ， Shafin Rahman ， Pengfei Fang ，Soumava Kumar Roy ， Lars Petersson ， and MehrtashHarandi.语义感知的知识蒸馏为少数拍摄类增量学习。在IEEE/CVF计算机视觉和模式识别会议（CVPR），第2534[12] Spyros Gidaris ， Andrei Bursuc ， Nikos Komodakis ，Patrick P e'rez，andMatt

下载后可阅读完整内容，剩余1页未读，立即下载