没有合适的资源?快使用搜索试试~ 我知道了~
7071727374757677787980392771.0571.6074.8177.0776.2377.1373.6372.4475.7478.2178.4077.3371.9572.9173.1074.024091610知识蒸馏作为高效预训练:更快的收敛性,更高的数据效率和更好的可转移性0Ruifei He 1 � , Shuyang Sun 2 † , Jihan Yang 1 † , Song Bai 3 ‡ , Xiaojuan Qi 1 ‡01 香港大学 2 牛津大学 3 字节跳动0{ruifeihe, jhyang, xjqi}@eee.hku.hk, kevinsun@robots.ox.ac.uk, songbai.site@gmail.com0摘要0大规模预训练已被证明对于各种计算机视觉任务至关重要。然而,随着预训练数据量的增加,模型架构数量的增加以及私有/无法访问的数据,对所有模型架构进行大规模数据集上的预训练变得不太高效或不可能。在这项工作中,我们研究了一种替代的预训练策略,即知识蒸馏作为高效预训练(KDEP),旨在将现有预训练模型学到的特征表示有效地转移到新的学生模型中,以用于未来的下游任务。我们观察到,现有的知识蒸馏(KD)方法不适合预训练,因为它们通常蒸馏的是在传输到下游任务时将被丢弃的logits。为了解决这个问题,我们提出了一种基于特征的KD方法,具有非参数特征维度对齐。值得注意的是,我们的方法在3个下游任务和9个下游数据集上与监督预训练对应物性能相当,只需要10倍的数据和5倍的预训练时间。代码可在https://github.com/CVMI-Lab/KDEP上找到。01. 引言0随着大规模数据集[16, 37, 45,0[55,59],在过去的十年中,许多计算机视觉任务受益匪浅。事实上,首先在像ImageNet[16]这样的数据集上进行预训练,然后在下游任务上进行微调[8, 24, 54, 66,73]已成为一种事实上的策略,特别是当下游任务的数据稀缺时。然而,预训练数据规模的增加和私有数据的不可访问性[59]使得在大型数据集上预训练所有架构变得不高效或不可能。由于训练有素的深度神经网络本质上是连续的0� 本工作的一部分是在字节跳动AI实验室实习期间完成的。†平等贡献。‡ 通讯作者。0迁移学习结果(准确率%)0训练小时数 规0SP 10% SP 100%0Logits KD 10% 1x1 conv 10%0KDEP 10% KDEP 100%05倍更快0��� �0图1.转移性能(四个图像分类任务的平均top-1准确率(详见第4节))与监督预训练(SP),传统KD方法(logitsKD,1×1卷积)和KDEP(SVD+PTS)在不同数据量(10%或100% ImageNet-1K数据)和训练计划下的比较。0在数据集的密集内存库[3,20]中,我们想知道是否可以利用预训练模型中编码的压缩数据知识,以仅使用相对较小的预训练数据集来高效地预训练新的架构?在这项工作中,我们提出了知识蒸馏作为高效预训练(KDEP)的方法,将从大规模数据中获得的教师模型的特征提取能力转移到学生模型中,以解决未来的下游任务。请注意,KDEP与传统的知识蒸馏(KD)非常不同,传统的知识蒸馏只针对将给定特定任务的知识蒸馏到学生模型。现有的针对KDEP的知识蒸馏方法的研究。我们的实证研究表明,现有的知识蒸馏方法,如logits KD[29](即蒸馏任务特定的输出logits)和特征级别的KD[27]导致性能较差(见图1:“logitsKD”和“1×1卷积”),这表明现有的针对不同任务的知识蒸馏方法可能无法充分利用教师模型中压缩的知识,当使用有限的数据和计算预训练新模型时。经过进一步调查,我们得出一个潜在的问题𝐹!𝐹"𝐹!𝐹"91620� #0参数化0对齐0� ! � " ∈ � ! (0� # � " ∈ � #0� # � " ∈ � !0监督0� #0非0参数化0对齐0� ! � " ∈ � !0� ! � " ∈ � #0� # � " ∈ � #0监督0图2.框架和可视化。这里我们用(a):参数化对齐和(b):非参数化对齐来说明基于特征的KD的KDEP框架。符号参见第3.1节。请注意,只有学到的F s要传输到下游任务。此外,我们可视化了(c):原始教师的特征表示,(d):通过(a)进行1×1卷积对齐蒸馏的学生,以及(e):通过(b)进行SVD+PTS对齐蒸馏的学生。为了可视化,我们在ImageNet-1K中随机选择了10个类别,并使用每个类别的100个样本。使用T-SNE[62]进行降维。0“间接特征学习”的监督,其中蒸馏的监督并不直接应用于将要转移的特征提取器上,而是应用于在其之后添加的新的可学习模块,并与之共同优化,这将特征表示学习转变为一种间接过程。具体来说,“logitsKD”将监督应用于分类器的输出,其中分类器的可学习参数与特征提取器一起学习。尽管特征级别的KD对特征进行了监督,但大多数特征级别的KD方法采用参数化模块来对齐教师和学生的特征维度,通常是一个1×1卷积层(“1×1conv”)[2, 27, 28,56],这在特征提取器之后再次添加了可学习参数,并形成了一种间接过程。如图2d所示,我们可视化了使用1×1卷积对齐的基于特征的KD的学习特征表示:学习的特征表示未能跟随教师的特征表示(图2c)。因此,预训练模型只能提供次优的迁移学习性能。我们的方法。在识别出潜在问题的基础上,我们的KDEP研究了非参数化方法来对齐特征维度,以避免间接特征学习。经验证明,奇异值分解(SVD)通过最小化信息损失来有效地压缩特征。然而,经过SVD处理的特征将触发分量主导效应[13],即特征方差01在我们的研究中,我们关注教师具有较大维度的设置,因为在实际应用中更常见。基础模型往往具有较大的特征维度,而部署模型通常具有较小的维度。0通道之间存在很大的幅度差异,并且与普通的DCNNs有很大的不同。这干扰了网络的优化。为了进一步提升特征学习,我们设计了一种功率温度缩放(PTS)函数,以减小方差差异,同时保持原始的相对幅度,为DCNNs定制来自SVD的特征。如图2e所示,通过我们的SVD+PTS对齐方法,蒸馏的学生获得了与原始教师相似的特征表示(图2c),同时匹配特征维度。值得注意的是,我们的方法不添加可学习参数,不依赖于任务损失或logits损失[29],只使用来自教师的倒数第二个特征(全局平均池化之后),这对于特征表示学习更加通用,并允许更多潜在的预训练教师。结果。我们在KDEP中的主要发现总结如图1所示:1)更快的收敛。我们的方法在整个ImageNet-1K数据集上只需10%或20%的训练时间,就能实现与有监督预训练(SP)相当或更好的迁移学习结果。2)更高的数据效率。只使用ImageNet-1K无标签数据的10%(丢弃标签)和一个可用的预训练教师模型,我们的蒸馏学生获得比使用100%的ImageNet-1K数据的SP更好的迁移学习结果。3)更好的可迁移性。在与SP相同的计算预算和数据量的情况下,我们的方法实现了更高的迁移学习性能。通过提出的KDEP方法,我们可以实现一次预训练并将其蒸馏给所有其他学生模型。02. 相关工作迁移学习(TL)通常通过将预训练模型微调到带标签数据的下游任务中,已成为机器学习问题和应用中的常见做法。为了更好地理解TL,可以将其分为两个步骤:预训练和迁移。近年来,关于预训练的成功工作不断增加,包括监督预训练[32, 34, 39, 45, 59],自监督预训练[5, 9, 11, 22, 23, 68,72]和半监督预训练[10, 53,64]。在获得预训练模型之后,下一步是将学到的表示迁移到目标任务中。除了广泛使用的微调方法[1,70]之外,还有其他方法用于更好地利用预训练中吸收的知识,例如L2-SP [65],DELTA [40],BSS [12]和Co-Tuning[71]。尽管大规模预训练可以获得更好的表示和下游性能,但预训练的成本也在迅速增加。因此,我们希望提出一种正交的预训练策略,将预训练模型蒸馏为不同的学生模型。知识蒸馏(KD)已经发展成为一种有效的模型压缩和加速方法,主要有三个研究流派:基于响应的方法,基于特征的方法和基于关系的方法。3. KDEP1NuNu̸91630模型压缩和加速的有效方法,主要有三个研究方向:基于响应的方法[4, 29, 75],基于特征的方法[6, 27, 28, 30, 31,33, 35, 49, 56],以及基于关系的方法[7, 38, 43, 48, 50, 52,60, 61,69]。基于响应的方法通常将最终输出的logits作为监督,并使用温度因子来调整平滑度[29]。尽管logits引入了“暗知识”并显示了改进的结果,基于响应的知识蒸馏方法忽略了中间特征的大量信息,而这些特征对于表示学习至关重要[56]。基于特征的知识蒸馏首次由Fitnets[56]引入,使用中间特征图作为提示来提高知识蒸馏的性能。在Fitnets之后,还提出了注意力图[35]、神经元选择性模式[30]、释义器[33]、路径约束[31]和激活边界[28]等方法,以更好地利用特征级别的知识。Heo等人[27]研究了基于特征的知识蒸馏的不同设计方面,并提出了边界ReLU、Pre-ReLU蒸馏位置和部分L2损失函数。Chen等人[6]使用注意力机制为每个学生层自适应分配适当的教师层。基于关系的方法通过利用不同层之间或数据样本之间的关系进一步提高结果。FSP[69]使用两个层之间的特征内积作为解决过程的流动,但它限制了教师和学生之间的特征图大小相同。Lee等人[38]还利用特征图之间的相关性,使用径向基函数,并对教师和学生的特征图在空间维度上进行奇异值分解,以避免空间分辨率不匹配。然而,他们仍然需要教师和学生的特征图维度相等。相比之下,我们的方法可以适应具有不同特征图分辨率和维度的教师和学生对。关于基于关系的方法的另一条线是利用数据样本之间的关系,已经提出了不同的机制,包括实例关系图[43]、相似性矩阵[61]、相似性概率分布[50]等。然而,传统的知识蒸馏方法只关注单一任务并转移任务特定的知识,而我们的知识蒸馏与大多数先前的知识蒸馏方法不同,专注于蒸馏学生的可转移性。据我们所知,只有Li等人[41]尝试利用知识蒸馏来提高学生的可转移性。他们表明传统的知识蒸馏会损害学生的可转移性,并提出了一种多头、多任务蒸馏方法,使用未标记的代理数据集和通用教师来提高蒸馏学生的下游性能。然而,他们的方法需要使用ImageNet预训练权重初始化学生模型,并在与下游任务相关的领域上对多个教师进行微调。0流域和多头多任务训练过程,这违反了我们的高效预训练设置。相反,我们的方法从头开始优化学生,只需要一个通用的教师模型、一个无标签数据集和一个简单而高效的训练流程,就能够达到与监督预训练相当的迁移学习性能。03.1. 概述0我们将KDEP设置定义如下:给定一个在大规模数据集 D上预训练的教师模型 F t 和一组无标签样本 D u = { x u i }N u i =1 ( N u是无标签图像的数量),我们的目标是预训练一个学生模型F s ,以在各种下游任务上具有良好的泛化能力。注意,D u的数据集规模可能比 D 小得多,并且在学生训练期间只有D u可用。由于我们关注的是特征表示学习而不是将模型定制到特定任务,因此 F t 和 F s都产生特征表示而不是任务特定的逻辑。我们将 F t ( x u i )和 F s ( x u i ) 的形状表示为 D t 和 D s。KDEP方法的训练目标是0i =1 L ( F t ( x u i ) , F s ( x u i )) , (1)0其中 L 是 L2损失。为了满足我们提出的KDEP的需求,需要解决几个未被充分探索的障碍。第一个是特征维度不匹配(即 D t ≠ Ds)的已知问题,这是基于特征的KD的一个问题。在我们的研究中,我们发现常用的策略是添加一个类似于1×1卷积的参数模块,对于我们的KDEP设置来说,这是次优的。相反,我们证明了非参数方法(例如SVD)比1×1卷积更有效地对齐维度。分析和细节将在第3.2节中展开。第二个是我们非参数特征维度对齐方法的副产品:对齐后的特征统计与普通DCNNs不同。因此,我们研究了几种用于校正特征统计的机制,并将其归结为一个转换模块。我们将在第3.3节中进一步阐述设计选择。第三个问题即使在我们的探索之后仍然是一个悬而未决的问题:什么是KDEP的好老师?我们的实证研究表明,更强大的模型不一定是更好的老师,我们发现老师的特征分布的紧凑性是一个关键指标(参见第3.4节)。我们希望能够在这个主题上激发更多的未来工作。03.2. 对齐特征维度0受间接特征学习问题的启发,我们提出了几种非参数特征维度对齐方法。具体而言,以前的参数化方法𝑓PTS(𝑓)PTS 𝑓 = 𝑠𝑖𝑔𝑛 𝑓 | !" |!"𝜕𝑦𝜕𝑥 = 1=1√−t22σ2 (t2 + σ2s)dt = σ2 + σ2sTherefore, we propose to reduce the Std Ratio after SVDto normal ranges of DCNNs by a transformation module.A simple method of Scale Normalization (SN) has beenused in previous works [13,38], which divides each featurechannel by its corresponding Std to ensure each channel hassimilar scales. Similarly, we also experiment with a variantof SN: rather than dividing the corresponding Std to obtainsimilar scales, we scale each channel’s Std to match the top-Ds Std of features before SVD (target Std), which we nameas Std Matching (SM). However, both SN and SM are lo-cal transformations that transform channel-wisely, and thusmay fail to preserve the original relative magnitude betweendifferent feature channels (example in Appendix).To match statistics without hurting the original rela-tive magnitude, we propose to use a global non-decreasingtransformation function that can reduce the Std Ratio whilemaintaining the relative magnitude. Concretely, we controlthe value ranges by a temperature parameter T similar tologits KD [29], and then apply a power operation while pre-serving the signs. We refer to the function as Power Tem-perature Scaling (PTS), which is as follows:91640扩大0压缩0图3.我们提出了PTS函数,用于降低标准比率,同时保持原始的相对大小。图中显示了不同T和n值的曲线。0方法向 D s 添加一个参数模块,以将 D s 对齐到 D t的监督(参见图2a)。相反,如图2b所示,我们应用非参数方法将 D t 投影到 D s,这样可以直接作为监督。我们研究了三种非参数对齐方法的变体:通道选择、插值和SVD。在这方面,SVD凭借其有效压缩特征级知识并尽可能保留更多信息的能力脱颖而出。详细的实验结果将在第4节中包含。在以前的基于特征的KD中,已经使用了预ReLU蒸馏特征位置,并显示出改进的结果。在我们的方法中,我们在ReLU激活函数之前蒸馏特征,还有一个考虑因素是SVD的输出包含负值和正值。03.3. 变换模块0尽管奇异值分解(SVD)可以有效地压缩特征并几乎不损失信息,但它也带来了优化的困难。在SVD对齐之后,不同通道的特征方差存在数量级差异,而正常的深度卷积神经网络(DCNNs)的特征方差通常在相同数量级内。具体而言,我们将标准差比率定义为次最后特征中所有训练数据样本的所有特征通道中最大标准差(Std)与最小标准差之间的比率。根据我们的研究,我们发现SVD之后的特征的标准差比率通常比正常的DCNNs大10倍以上。因此,L2损失往往由具有最大方差的特征通道主导,导致较小的特征通道欠拟合,我们在下面提供了理论分析。我们将教师的每个特征通道的值视为随机变量(T),在SVD之后,它的均值为零。此外,由于学生是从随机初始化中优化的[25],我们将学生的每个特征通道也视为均值为零的随机变量(S)。根据定理1和证明1,我们陈述并证明了F(σ)=E[(T−S)2]单调递增(σ>0)。证明1(详细证明见附录)0该定理表明,每个特征通道的L2损失的数学期望随着教师特征通道的标准差单调递增,这解释了从标准差较大的教师学习的困难。定理1:给定两个独立的服从正态分布的随机变量T�N(0,σ2)和S�N(0,σ2s),则0−∞0F ( σ ) = 无穷大0无穷大02 πσ0−∞ e0无穷大0d F (σ )0d σ = 2 σ > 0 � 单调递增0T | 1 n , (2)其中n是指数的参数,f是输入值。如图3所示,PTS函数可以放大小值并压缩大值,同时保持全局非递减,从而实现了匹配正常统计数据和保持相对大小的目标。03.4. 教师选择0在本节中,我们进一步探讨如何为KDEP选择一个好的教师。自然地,我们会考虑利用更强大的模型作为教师,我们研究并比较了几种潜在更强大模型的范例:0•标准SP:最常见的在ImageNet-1K上进行预训练的有监督预训练策略;我们使用ResNet50(R50)[26]的架构作为教师模型进行这项研究;91650•使用更多数据的SP:我们尝试了一个可用的Microsoft(MS)Vision R502,它使用四个数据集(超过4000万数据)进行预训练:ImageNet-22K、COCO和两个网络监督数据集[67]。提供的权重只包含特征提0•使用无标签数据进行预训练:我们探索了一种半弱监督预训练的R50(SWSL)0• 蒸馏模型:我们使用在ImageNet-1K上通过蒸馏训练的MEALV2 R50。0• 先进的架构:我们尝试了一种最先进的架构SwinTransformer[44],并使用在ImageNet-22K上预训练的Swin-B,在ImageNet-1K上进行微调。我们凭经验发现,更强大的模型(即在ImageNet-1K基准上性能更高)不一定能够获得更好的KDEP性能(即在KDEP设置下的蒸馏学生的可传递性),这与KD中的先前发现[46,47]相一致,即更准确的教师可能会蒸馏得更差。为了调查原因,我们可视化了不同教师的特征表示(参见图4),令人惊讶的是发现KDEP性能与教师的特征紧凑性(紧凑性指的是相同类别的数据样本在特征空间中紧密分布,而不同类别的数据样本相距较远)有很强的相关性。详细的分析和结果见第4.3节。04. 实验04.1. 实验设置0数据集和下游任务。对于提出的KDEP设置,我们使用ImageNet-1K[16]数据集作为无标签数据,放弃标签,并在不同的设置中使用10%或100%的数据集。为了评估模型的迁移学习性能,我们在三个常用的下游任务上进行评估:图像分类、语义分割和目标检测。对于图像分类,我们选择了四个不同的数据集来研究迁移性:CIFAR-100 [36]、CUB-200-2011[63]、DTD [14]和Caltech-256[21]。对于语义分割,我们使用了三个广泛使用的数据集:Cityscapes [15]、PASCAL VOC2012(VOC12)[18]和ADE20K[74]。对于目标检测,我们在两个基准上评估了迁移性能:PASCAL VOC [19]和COCO [42]。0教师-学生(T-S)对。我们尝试了两个不同的教师-学生对,R50 → ResNet18(R18)和R50 →MobileNetV2(MNV2)[58],分别代表相似和不相似网络之间的知识转移。对于教师模型,我们使用标准SPR50和MS R50进行主要实验。02 https://pypi.org/project/microsoftvision/0比较方法。我们主要将KDEP与有监督预训练(SP)进行比较。我们将使用全部ImageNet-1K数据进行90个epoch的学生有监督预训练表示为SP oracle(SP.o.),使用较少的数据或较短的训练计划表示为SPbaseline(SP. b.)。实现细节。我们使用PyTorch[51]实现我们的方法,并使用四个32G V100GPU进行所有实验。对于研究KDEP,我们探索不同的数据量和训练计划设置。对于10%的ImageNet-1K数据设置,我们将训练epoch设置为90或180;当使用100%的ImageNet-1K数据时,我们将训练9或18个epoch以验证快速收敛,并且将训练90个epoch以进一步提高性能,其中使用全部ImageNet-1K数据的90个epoch是标准的有监督预训练计划[57]。对于所有下游任务,我们使用相同的计划和评估协议进行公平比较。附录中给出了更详细的实现细节。评估。我们报告top-1准确率,平均交并比(mIoU)以及分类、分割和检测的AP、AP 50、AP75。所有结果都是至少三次试验的平均值。时间指的是在四个32G V100 GPU上进行SP或KDEP的预训练时间。04.2. 主要结果0在本节中,我们将我们最好的KDEP方法(SVD+PTS)与不同数据量和训练计划下的监督预训练进行比较。我们评估了在涵盖图像分类、语义分割和目标检测的9个迁移学习任务上的可迁移性。通过我们广泛的实验结果(例如表1),我们证明了知识蒸馏可以作为一种有效的预训练方法,通过更少的训练数据和更短的训练计划优于标准的监督预训练。接下来,我们分别探索了KDEP在不同设置下的可迁移性、数据效率和收敛速度。请注意,在本节中,所有的KDEP方法都使用MSR50作为教师。更多教师的结果在我们的消融研究中。此外,由于长度限制,我们在论文中展示了以R18为学生的结果,在附录中以MNV2为学生的结果也取得了类似的结果。在只有10%的数据和短期计划下探索可迁移性。在这个设置中,我们只使用10%的ImageNet-1K数据,总共随机抽样自原始的128k张图像。我们使用KDEP或SP进行90个或180个epoch的预训练。如表1所示,KDEP在不同设置下明显优于其SP对应方法。我们以分类中的迁移性能为例来说明和分析这个设置和以下设置,除非另有说明,否则都是如此。当只使用10%的数据进行预训练时,SP模型的性能显著下降。91660(77.13 →71.05)。即使将训练计划增加到180个epoch(71.05 →71.60)或900个epoch(71.05 →72.44),也无法消除这种性能下降。相比之下,仅使用90个epoch,KDEP(75.74)在监督预训练基线和理想结果之间架起了巨大的鸿沟。将计划增加到180个epoch进一步缩小了差距,使其变得微不可见(77.07 vs.77.13),同时只使用10%的数据和约20%的训练时间。类似的结果也观察到了分割和检测结果以及R50 →MNV2对(见附录)。在与标准SP相同的数据量和计划下探索可迁移性。我们进一步探索了在与标准SP相同的数据量和训练计划下的KDEP性能。如表1所示,使用100%的数据和90个训练epoch,KDEP的迁移性能(78.40)比标准SP(77.13)更强,同时只增加了微小的计算成本。探索数据效率。在这里,我们再次只使用10%的数据,但将训练计划延长到900个epoch,与标准的监督预训练设置相一致。如表1所示,KDEP在只有10%的ImageNet-1K数据的情况下,始终能够在所有9个任务上优于监督预训练的理想结果,这验证了我们最初的想法,即在大规模数据上预训练的模型可以将压缩的数据知识传递给其他架构,即使不使用完整的预训练数据。探索收敛速度。为了进一步探索收敛速度,我们比较了KDEP和SP在不同数据量(即10%和100%的ImageNet-1K数据)下随着训练时间的增加的迁移性能。如图1所示,SP的迁移性能几乎随着训练时间的增加而均匀增加,而KDEP在两种数据量下都表现出快速收敛的特点。值得注意的是,KDEP在只有5倍的训练时间下产生了与标准SP相媲美或更好的迁移性能。04.3. 消融研究0对于我们的KDEP设置,我们注意到在第4.2节中不同任务的迁移学习结果之间存在着很强的相关性。因此,我们使用四个图像分类任务来评估我们在消融研究中的迁移性能。所有消融研究中的结果都是四个分类任务的平均top-1准确率。特征维度对齐方法的消融研究。在这个消融研究中,我们旨在研究各种特征维度对齐方法对KDEP的有效性。首先,我们在10%的数据和90个epoch的短期计划设置下,使用三个教师-学生(T-S)对比较了参数化方法和非参数化方法。对于参数化方法,我们尝试了三种1×1卷积变体:Post-ReLU、Pre-ReLU和[27]中的变体(详见附录)。对于非参数化方法,我们探索了通道选择(CS.var、CS.rand)、插值等方法。0方法 数据 Epoch 时间(/小时) 分类(准确率 %) Caltech DTD CUBCIFAR 平均0rand. init. - - - 55.27 45.16 55.89 77.34 58.420SP. b. 10% 90 3.9 68.83 66.17 69.93 79.29 71.050KDEP 10% 90 4.0 75.33 71.80 74.20 81.61 75.74 SP. b. 100% 9 3.971.27 68.14 71.97 80.27 72.910KDEP 100% 9 4.0 75.42 72.15 75.11 82.22 76.230SP. b. 10% 180 7.8 70.09 66.14 70.84 79.34 71.600KDEP 10% 180 8.0 77.15 72.67 75.99 82.23 77.07 SP. b. 100% 187.8 74.01 69.18 74.63 81.43 74.810KDEP 100% 18 8.0 77.29 73.07 76.50 82.47 77.330SP. b. 10% 900 39 71.10 67.02 72.16 79.49 72.440KDEP 10% 900 40 79.00 74.28 76.89 82.64 78.210SP. o. 100% 90 39 77.18 71.81 77.44 82.08 77.130KDEP 100% 90 40 79.08 74.34 77.29 82.89 78.400方法 数据 Epoch 时间(/小时) 分割(mIoU %) Cityscapes VOC12ADE20K 平均0rand. init. - - - 57.87 49.46 31.37 46.230SP. b. 10% 90 3.9 69.56 68.30 34.39 57.410KDEP 10% 90 4.0 70.41 72.34 36.09 59.61 SP. b. 100% 9 3.9 67.9270.05 35.27 57.750KDEP 100% 9 4.0 69.73 72.43 36.17 59.440SP. b. 10% 180 7.8 69.89 69.79 35.03 58.240KDEP 10% 180 8.0 70.27 72.82 36.60 59.90 SP. b. 100% 18 7.870.19 71.02 35.19 58.800KDEP 100% 18 8.0 70.90 73.82 36.73 60.480SP. b. 10% 900 39 69.85 69.55 35.52 58.310KDEP 10% 900 40 71.93 74.28 37.30 61.170SP. o. 100% 90 39 71.01 73.13 36.02 60.050KDEP 100% 90 40 71.39 73.75 36.97 60.700方法 数据 Epoch时间(/小时)0检测 VOC0712 COCO AP AP 50 AP 75 AP AP 50AP 750rand. init. - - - 26.7 52.5 23.1 25.2 41.9 26.30SP. b. 10% 90 3.9 39.8 69.7 39.1 27.6 45.3 28.80KDEP 10% 90 4.0 41.9 72.4 41.7 28.6 46.5 29.9 SP. b. 100% 9 3.940.4 70.5 40.2 27.5 45.3 28.60KDEP 100% 9 4.0 42.5 73.3 43.3 28.8 46.9 30.10SP. b. 10% 180 7.8 39.4 69.6 38.7 28.2 45.9 29.40KDEP 10% 180 8.0 43.4 73.8 43.8 29.2 47.4 30.6 SP. b. 100% 18 7.841.2 71.5 40.7 28.1 46.1 29.30KDEP 100% 18 8.0 43.3 73.6 44.2 29.3 47.5 30.80SP. b. 10% 900 39 39.3 69.9 38.8 28.5 47.0 29.90KDEP 10% 900 40 42.8 73.5 43.4 29.9 48.4 31.70SP. o. 100% 90 39 41.8 72.6 41.6 29.0 47.3 30.40KDEP 100% 90 40 42.8 73.9 43.4 29.7 48.2 31.30表1.KDEP与SP,R50→R18,在各种任务上进行微调。KDEP指的是我们的SVD+PTS方法。请注意,COCO用于教师的预训练,而不用于学生的预训练。0在附录中,我们使用了三种1×1卷积方法的变体,其中采用Pre-ReLU特征蒸馏位置的两种方法表现更好。有趣的是,非参数化方法在所有1×1卷积方法的变体中始终表现出色。此外,SVD在各种T-S对中产生了最佳性能。此外,我们研究了在各种KDEP设置下参数化方法的数据效率和收敛速度,结果如表3所示。对于数据效率,即使在使用10%的数据进行900个epochs的训练时,参数化方法也表现出低数据效率。用于验证的设置为1×1 conv (Post-ReLU)71.3772.4371.121×1 conv (Pre-ReLU)71.0173.1073.721 1 conv ( [27])71.3572.9873.62SP. b.10%903.971.05KDEP (1×1 conv, Pre-ReLU)10%904.073.10KDEP (1×1 conv, [27])10%904.072.98KDEP (SVD, PTS)10%904.075.74SP. b.100%93.972.91KDEP (1×1 conv, Pre-ReLU)100%94.073.24KDEP (1×1 conv, [27])100%94.073.15KDEP (SVD+PTS)100%94.076.23SP. b.10%1807.871.60KDEP (1×1 conv, Pre-ReLU)10%1808.074.02KDEP (1×1 conv, [27])10%1808.073.90KDEP (SVD, PTS)10%1808.077.07SP. b.100%187.874.81KDEP (1×1 conv, Pre-ReLU)100%188.074.32KDEP (1×1 conv, [27])100%188.073.78KDEP (SVD+PTS)100%188.077.33SP. b.10%9003972.44KDEP (1×1 conv, Pre-ReLU)10%9004075.29KDEP (1×1 conv, [27])10%9004075.33KDEP (SVD+PTS)10%9004078.21SP. o.100%903977.13T → SR50 → R18R50 → MNV2Epoch9018090180SVD75.0976.2875.0776.28SVD+SN75.3476.4575.4376.33SVD+SM75.8776.8975.2176.35SVD+PTS75.7477.0775.3776.53T0.010.030.060.10.30.50.70.9w.o.n23456w.o.SVD74.2975.09 73.7572.05370.33SVD+PTS74.7975.74 74.2772.25272.4191670(c)SWSL0(b)标准SP0(a)MS0(e)MEAL V2(d)Swin-B0图4. 特征分布的可视化(与图2相同)。按紧凑性排序:多样(左)到紧凑(右)。0收敛速度(即100%数据使用9或18个epochs),参数化方法与监督预训练基线表现相似。高数据效率和快速收敛特性的缺失可能是由于添加的可学习模块阻碍了特征学习。0教师标准SP R50 MS R50 MS R50 学生 R18 R18MNV20CS.var 73.54 74.60 74.92 CS.rand 73.47 74.37 74.90插值 73.27 74.81 74.96 SVD 74.29 75.09 75.070表2. 特征维度对齐方法的消融研究。设置:10%的数据,90个epochs。CS:通道选择。0方法 数据 Epoch 时间 (/h) 准确率 (%)0表3. 1 × 1 conv方法的消融研究。T-S对:MS R50 →R18.转换模块的消融研究。我们探索了转换模块的三种机制的有效性,如3.3节所介绍。具体而言,我们在10%的数据和90或180个epochs的短期计划中尝试了两个T-S对。如表4所示,PTS在不同设置下都是一种有竞争力的方法,而尺度归一化(SN)和标准匹配(SM)也是如此。0在SVD方法上取得性能提升,这表明在保持原始相对大小的同时匹配统计数据的重要性。此外,我们进行超参数分析,研究PTS函数中超参数的敏感性。从表5中可以看出,T和n都有相对较大的范围,可以在SVD上带来性能提升(表中的“w.o”),这说明PTS函数的鲁棒性。0表4.转换模块的消融研究。设置:10%的数据,90或180个epochs。R50:MS。SN:尺度归一化。SM:标准匹配。加粗:最佳。下划线:次佳。0准确率 75.12 75.36 75.53 75.74 75.51 75.21 75.29 75.07 75.090准确率 75.06 75.74 75.69 75.61 75.19 75.090表5.PTS函数的超参数分析。设置:10%的数据,90个epochs。T-S对:MS R50 → R18. 在变化T时,我
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功