没有合适的资源?快使用搜索试试~ 我知道了~
95590一种简单的情节线性探测方法改善野外视觉识别0梁元智*1,2,朱林超2,王晓晗3,杨毅301 百度研究 2 ReLER实验室,悉尼科技大学AAII 3 浙江大学liangyzh18@outlook.com linchao.zhu@uts.edu.auxiaohan.wang@zju.edu.cn yangyics@zju.edu.cn0摘要0理解网络的泛化和特征区分是视觉识别中一个开放的研究问题。已经进行了许多研究来评估特征表示的质量。其中一个简单的策略是利用线性探测分类器定量评估获得特征下的类别准确性。典型的线性探针仅在推理时作为代理使用,但在训练中很大程度上忽略了其在测量特征适用于线性分类方面的效果。在本文中,我们提出了一种情节线性探测(ELP)分类器,以在线方式反映视觉表示的泛化能力。ELP是使用网络中的分离特征进行训练并周期性重新初始化的。它展示了训练中视觉表示的可辨别性。然后,引入了适用于ELP的正则化项(ELP-SR),以反映ELP分类器和主分类器之间的概率分布之间的距离。ELP-SR利用重新缩放因子在训练中对每个样本进行正则化,自适应地调节损失函数并鼓励特征具有区分性和泛化性。我们观察到在三个真实世界的视觉识别任务中取得了显著的改进:细粒度视觉分类、长尾视觉识别和通用物体识别。性能提升表明我们的方法在改善网络的泛化和特征区分方面是有效的。01. 引言0深度神经网络在视觉识别方面取得了令人印象深刻的进展。在大规模视觉识别数据集上训练的神经网络,例如Ima-0*本工作在百度研究中完成。0geNet [30],OpenImages[27],展示了非凡的泛化能力。学习到的视觉表示具有紧凑性和强大的可辨别性。已经进行了许多工作来理论上解释深度网络泛化的原理[60],但这个问题仍然基本上没有解决,需要进一步研究。有一些分析工具可以探测深度神经网络的学习和泛化能力。早期的工作利用可视化工具来理解优化参数或者采用降维技术来可视化学习表示的质量[42, 51,59]。虽然有帮助,但是这样的可视化技术只能对深度网络进行定性检查[8]。一些工作开发了几何探针来分析物体流形的几何属性,并将物体类别流形的线性可分性与底层几何属性联系起来[46]。这些方法揭示了深度网络中不同层的记忆结构,但只在推理时探测层容量,如图1(a)所示。另一种简单的策略是进行线性探测。可以使用线性探针定量评估特征的质量。由于线性分类器的区分能力较低,线性分类器严重依赖于输入表示的质量以获得良好的分类准确性[3]。Alain等人使用线性探针来检查中间层的动态。线性探针是一个线性分类器,将层激活作为输入,测量网络的可辨别性。这个线性探针不会影响模型的训练过程。最近,线性探针[3]已经被用于评估自监督视觉表示学习中的特征泛化。在预训练表示的假设任务[3]上进行表示预训练后,保持学习到的特征提取器不变。线性探针分类器在预训练的特征表示之上进行训练。虽然在概念上很直观,但线性探针是有效的,并且已经被广泛使用𝒙95600分类器 � 主干0主分类器0情节性线性探测分类器0带梯度 不带梯度0主干0线性探测交叉熵损失 � 固定0主干0情节性重新初始化0测量0立即适用性0(a)典型的线性探测在测试时间测试特征可分性。0(b)我们的情节性线性探测分类器在训练时提供测量。01)训练阶段02)测试阶段0图1.典型的线性探测在测试中(a)和我们的ELP在训练中(b)。我们的ELP在每个时期进行情节性重新初始化,以保持简单性。它以在线方式有效地测量视觉表示的判别能力。0在衡量视觉表示的可区分性时,值得注意的是,线性探测分类器仅在测试中使用。一个自然的问题是:我们能否在训练过程中利用线性探测来规范化模型训练并将信号从线性探测传递出来?在本文中,我们引入了一种简单的策略,以使网络立即适用于一个情节性线性探测分类器。我们的简单框架(图10(b))由主分类器、情节性线性探测分类器和正则化项组成。正则化项考虑了主分类器和情节性线性探测分类器之间的关系,有效地惩罚那些对情节性线性探测不立即适用的示例。首先,我们提出了一种情节性线性探测(ELP)分类器,以在线方式估计视觉表示的判别能力。类似于现有的线性探测[1],ELP应用于深度网络的最后一层之上。ELP分类器被训练为将分离的特征分类到与常规分类器相同的标签空间。与[1]不同,ELP应用于模型训练过程中。它在每个时期进行情节性重新初始化。这保持了它的简单性,避免了分类器过拟合,并防止分类器记忆特征。ELP隐含地反映了特征的可区分性和可分离性[40,41]。如果ELP分类器能够快速分类特征点,这表明给定的特征容易分离并且可能更具有泛化能力。其次,我们引入了一种对于情节性线性探测不太适用的示例的惩罚。直观地说,对于一个训练示例,如果情节性线性探测和主分类器相互矛盾,例如,情节性线性探测接收到低预测分数而主分类器接收到高预测分数,这表明该示例不适合情节性线性探测。我们的正则化项有效地惩罚了这些示例。0当sifier产生高预测分数时,这表明主网络在给定实例上表现出过拟合,应该对适当的正则化进行更大的惩罚。因此,我们设计了一种适用于ELP的正则化项(ELP-SR),以减轻固有的模型偏差并改善学习特征的线性可分性。ELP-SR为每个实例设置了一个重新缩放因子,并自适应地调节交叉熵损失,以避免过拟合。重新缩放因子考虑了示例的预测分数与主分类器和ELP分类器之间的偏差,这在一定程度上评估了示例的线性分类适用性。我们的方法没有花哨的东西,在野外的视觉识别任务中取得了显著的改进,为细粒度、长尾和通用的视觉识别提供了一致的增益。细粒度视觉识别数据集通常包含高度相似的类间相似性。长尾视觉识别数据集展示了长尾数据分布,这在现实世界的识别问题中是现实的。我们在六个标准数据集上广泛评估了泛化性能。结果表明,我们的策略增强了各种深度网络的判别能力并减轻了模型偏差。02. 相关工作0已经提出了各种基于深度学习的学习视觉表示的方法。在野外的各种识别任务中,深度神经网络具有学习和表示高维特征的强大能力。通过高质量的特征,一些简单的分类器[29,56]成为识别样本的组成部分。此外,特征的质量受到许多因素的影响。我们将这些因素大致分为三个方面:数据处理、网络设计和训练方式。虽然表示学习的确切效果[60]仍有待研究,但许多研究人员不断探索并提出许多有价值的解决方案。对于数据处理,大规模数据集提供了大量的网络样本,是改善表示的最直接方法。受益于网络的强大能力,将大规模数据集作为输入使网络能够学习各种样本并记忆大量用于区分的属性。在有限的数据规模下,一些多样化和困难的示例可能很难处理[2,35]。从更大规模的数据集的角度来看,网络总是有可能挖掘特定的模式。除了直接收集真实数据外,预处理[11,64]或生成数据[63]也是等效的。各种增强[43,50]强迫网络解决更高要求的问题,并促使网络在不同条件下具有泛化能力。此外,精心设计的网络结构也极大地提升了表示,并成为最热门的方向。95610近年来,不断涌现出各种不同的方法,如跳跃连接[19,22]、通道融合[48]、注意力策略[4,37]、架构搜索[5]、变换器[52,54]等。这些方法在相同的输入下,探索不同的方向来提升网络的能力。同时,几乎所有类型的视觉任务[30,33]都随着更好的网络而进一步发展。此外,除了数据处理和网络设计,训练方式对于视觉表示也至关重要。它包含各种方面,如优化器[20, 39]、正则化[31, 32]、学习方式[25,44]等。在这个方向上,正则化起着重要的作用。它可以体现在损失函数[9,32]、训练策略[18]等方面,并且适用于各种网络和数据集。适当的正则化可以使网络学习更好的视觉表示,例如避免过拟合[32]、明确关注目标[9]、更好的多样性[14]等。Vikash等人[41]提出了一个有趣的边界来描述特征的可分性。与关注分类器的准确性不同,特征的质量可以通过即时适应性来反映。分类器更加重视具有区分性的特征。在我们的工作中,进一步考虑到即时适应性,我们提出了一种叫做“情节性线性探测”(ELP)的分类器,以在线反映视觉表示的泛化能力。ELP可以作为一种新颖的正则化方法,鼓励网络产生更具区分性的特征。与根据样本的易用性进行重新加权[25]或使用迭代学习的元集合[44]不同,我们设计了一种适用于ELP的正则化方法(ELP-SR),并将ELP-SR应用于正则化损失函数。实验结果表明,ELP-SR通常可以提高网络在三个不同基准测试中的性能。03. 方法0在这项工作中,我们引入了一个辅助的情节性线性探测分类器,为更好的表示学习提供额外的正则化。如图2所示,我们的框架由三个组件组成,即深度神经网络、主线性分类器和情节性线性探测分类器。我们在第3.1节中介绍了情节性线性探测分类器的详细信息。ELP适用的正则化的细节在第3.2节中介绍。在第3.3节中,我们描述了模型的训练和推理策略。03.1.情节性线性探测分类器03.1.1 典型线性探测的回顾0训练特征提取器。给定一个训练样本x,神经网络(F)提取其特征h。线性分类器(Cls)将特征投影到概率分布p。交叉熵(CE)损失计算交叉熵0SR因子�0主分类器0情节性线性探测分类器0�0�0� CE损失0CE损失0ELP-SR损失0CE损失0图2.我们框架的训练流程。黑线表示梯度可以反向传播,而蓝色虚线表示梯度反向传播被停止。0p = Cls(h),(2)0h = F(x),(1)0C �0ℓ ce(p,y)= -0j = 1 y j log(p j),(3)0其中C是类别的数量。如果j是真实标签,则y j =1。否则,y j = 0。pj是类别j的预测得分。特征提取器和分类器通过反向传播进行端到端的联合优化。测试时的线性探测。通常在神经网络经过充分训练后,会构建线性探测来评估深度表示的质量[1]。这相当于在预训练特征之上训练一个辅助线性分类器。线性探测的参数是随机初始化的,而原始分类器层被忽略。预训练的骨干网络被冻结,不在线性探测期间进行训练。由于辅助分类器的复杂性不足以提供额外的区分度,分类性能严重依赖于特征表示的质量。因此,辅助线性分类器的预测得分可以探测输入特征的区分度。在实现过程中,线性探测可以扩展为多层感知器(MLP)探测,其中线性层被MLP所取代[21]。现有的探测主要在推理时使用,既可以对预训练特征进行定量评估,也可以解释中间层[15]。这促使我们在训练中加入一个线性探测,并借用线性探测的简单性质进行网络正则化。03.1.2 情节性线性探测分类器0受测试时线性探测评估表示质量的有效性的启发,我们的目标是设计一个在线性探测分类器中进行训练,以衡量一个95620神经网络并进一步利用探测信号来增强表示学习。我们引入了一种情节性线性探测(ELP)分类器,并讨论了其在训练中的权重更新方案。训练中的分离线性探测分类器。在训练中加入线性探测分类器时,我们需要保持其与主分类器的独立性。在保持主分类器和骨干网络不变的同时,我们在特征提取器之上构建一个新的情节性线性探测分类器。我们停止线性探测分类器的梯度反向传播到骨干网络。这有助于线性探测不受主分类器的偏见,并产生对特征表示的区分的中立评估。形式上,情节性线性探测分类器被训练用于将特征分类为C个类别,使用与主分类器分配的相同标签。0p = Cls main(h),(4)0q = Cls elp(停止梯度(h)),(5)0ℓ main ( x , y ) = ℓ ce ( p , y ) , (6)0ℓ elp ( x , y ) = ℓ ce ( q , y ) . (7)0Cls main 是主分类器,它产生概率预测 p 。Cls elp是线性探测分类器,它生成概率预测 q 。Cls elp在在线方式下进行训练,但其优化与主分支分离。“stop-grad”表示特征 h 被分离以训练 Cls elp。ELP分类器的梯度对主干网络和主分类器不可用,反之亦然。分离的线性分类器和测试时的线性探测的主要区别在于分离的线性分类器的特征会被网络自适应地改变,而测试时的线性分类器的特征始终保持不变。通过情节性权重重新初始化来克服过拟合。如果将分离的线性分类器与主分类器具有相同的训练轮数进行训练,那么分离的线性分类器会过拟合特征。这种过拟合应该避免,因为简单的线性探测应该反映出特征的区分度。如果ELP分类器记住了所有样本,它将无法有效评估特征。为了防止ELP分类器过拟合训练数据,我们每隔 I 轮重新初始化其参数,其中 I表示情节性重新初始化间隔。具体地,给定一个由 W 和 b参数化的线性分类器,其中 W 是投影矩阵,b 是偏置,W和 b 在每隔 I轮进行随机重新初始化。情节性线性探测使我们能够在训练过程中测量和理解特征的可分性。较大的 I值使ELP分类器得到更好的训练,但也使ELP分类器更容易过拟合。0如果 I 太大,ELP分类器会过拟合。相反,如果 I太小,ELP分类器会欠拟合。欠拟合的ELP分类器可能无法很好地描述特征的泛化能力。在实践中,我们将 I设置为一个超参数。经验上,I = 2在不同数据集上都能取得一致良好的探测性能。03.2. ELP-Suitable Regularization0通过损失调节的ELP-SuitableRegularization。ELP以在线方式评估特征的可分性。独立的ELP与主干网络分离,不影响主网络。在本文中,我们旨在利用辅助ELP分类器的预测有效地提高主分支的可分性。然而,这种正则化的设计并不直观。考虑到ELP分类器的情节性特点,ELP的预测是周期性的,且不像主分类器那样自信。如果正则化没有很好地构建,主分支的性能将严重受损。在本文中,我们引入了一个简单的公式,用自适应因子 ϕ调节交叉熵损失。0L ELP - SR =0B。0i = 1 stop-grad ( ϕ i ) * ℓ ce ( p i , y i) , (8)0其中,p i 是主分类器的预测概率,B是批处理大小。标量因子 ϕ i被分配给每个实例,以自适应地调节其交叉熵损失。ϕ衡量主网络对ELP分类器的适用性。如果一个实例不适合ELP分类器,例如实例可能不具有区分性,或者是一个超出分布范围的数据点,ϕ施加一个相对较大的值,以便网络更加关注这个实例。我们的ELP-Suitable Regularization(ELP-SR)有效地减轻了内在的模型偏差,并使网络朝着更好的线性可分性进行正则化。我们从 ϕ中分离梯度,使得该因子仅影响损失梯度的大小,而不改变梯度的方向。这使得优化过程相对容易和稳定。这种策略在实践中表现出色。ELP-SR因子的实例化。如前所述,ϕ的目的是衡量主网络对ELP分类器的适用性。给定一个带有标签 c 的实例 x,我们通过考虑主分类器的预测分数 (p c )和ELP分类器的预测 (q c )来实例化ELP-SR因子。在构建正则化因子 ϕ时,我们利用两个元素。首先,应关注ELP分类器的预测与主分类器的预测之间的距离度量(D)。这个距离应该反映主分类器相对于ELP分类器的置信度差距。ϕ = (DR )γ = (2|pc − qc|pc + qc )γ,(9)L =B�i=1ℓmain(pi, yi) + ℓelp(qi, yi) + ϕi ∗ ℓce(pi, yi)(10)95630如果距离最小化,主分类器将被推动成为一个训练程度较低的线性分类器。相对地,如果一个训练程度较低的分类器已经足够进行识别,特征将会非常有区分度。因此,这个度量指标鼓励主分类器变得更简单,促进特征更具有区分度。我们通过简单地计算p c 和 q c之间的ℓ 1 距离来实例化D,即 D = | p c − q c |。其次,我们引入一个归一化度量(R)来揭示ELP分类器和主分类器的区分能力。距离度量(D)衡量了相对置信度差距,但我们还应该考虑置信度分数的绝对值。如果p c 和 q c之间的距离很小,但两个绝对分数都很低,那么网络还没有很好地优化来对实例进行分类。因此,我们应该用一个归一化度量来规范化距离。为了简单起见,我们将R设置为p c的平均值。0和 q c ,即 R = ( p c + q c ) / 2。我们将ELP-SR因子ϕ定义为:0其中γ平滑地调整D和R之间的比率。我们在实验部分对其他ELP-SR因子变体进行了实证研究。03.3. 训练和推理0在训练阶段,我们对主分类器和ELP分类器都计算softmax交叉熵损失。我们的ELP-SR损失与这些损失相加。总体的训练目标如下所示:0在测试阶段,我们移除辅助的ELP分类器,只保留主分类器。最终的预测结果仅来自主分类器。我们的框架在测试过程中不引入任何额外的开销。04. 实验0在野外图像中的多样对象挑战中,我们的方法在泛化方面显示出显著优势。我们评估了三个分类任务,即细粒度视觉识别、长尾识别和通用目标识别。首先,由于细粒度识别中的类别相似,即使对人类来说,样本也很难被识别出来,细粒度识别任务给学习区分特征带来了额外的挑战。其次,长尾识别涉及到数据样本极度不平衡的分布。这要求我们的方法具备对样本有限的尾部类别进行识别的能力。0我们的方法具有泛化能力,能够识别具有有限样本的尾部类别。这些任务的评估结果显示了我们的方法在改进视觉表示方面的优势。我们进一步在ImageNet-1K上评估我们的方法,以研究ELP-SR的泛化能力。除了分类准确率指标外,我们还报告了测试集上k最近邻(KNN)分类器的结果。这进一步证明了我们的方法在提高特征表示的区分度方面的有效性。此外,我们进行了消融研究,比较了不同γ、I和ELP-SR因子的公式。为了进一步展示ELP分类器的能力,我们对线性分类器的准确率进行了比较。结果表明,具有ELP-SR的网络产生了更具区分度和泛化性的特征。值得注意的是,对于所有任务,在推理时我们没有引入任何额外的注释,也没有在推理时引入额外的参数。在测试过程中,只使用主干网络来产生预测结果。04.1. 细粒度视觉识别0细粒度识别中的类别相似。即使对于人类来说,它们也很难区分。同时,每个类别中的样本是多样的[2]。对象可能以不同的角度、光照、遮挡、背景等方式呈现。这导致细粒度类别显示出大的类内差异和小的类间差异[2]。细粒度分类中的样本很难被泛化和区分,这给网络学习区分特征带来了困难。数据集和实现细节。为了展示有效性,我们在三个标准基准数据集上进行了性能比较:CUB-200-2011(CUB)[53],斯坦福汽车(CAR)[28]和FGVC-Aircarft(AIR)[36]。我们采用与[10]相同的训练过程,将在ImageNet[30]上预训练的ResNet-50[19]作为骨干模型。作为该任务中的常规增强[10,16,65],我们应用了调整大小、随机裁剪、旋转和水平翻转。经过这些标准变换,最终的输入变为448×448的分辨率。与ResNet50基线[10,65]类似,我们将我们的方法训练240个时期,并通过SGD优化损失函数。在我们的方法中,我们报告了在三个数据集上γ = 3的结果,其中D = p c − q c,R =(p c + q c) / 2。对于CUB,CAR和AIR,我们分别设置I =2,2和1。这些是参数的最佳设置,并将在消融部分4.4中讨论。实验结果。如表1所示,我们的方法在ResNet50基线的基础上取得了显著的改进。在没有花哨的技巧的情况下,我们的结果与许多最近的方法相比具有竞争力甚至超过了许多具有复杂网络设计[24]、额外增强[10,16]或95640方法 数据集0CUB CAR AIR0B-CNN [34] 84.1 91.3 84.10HIHCA [6] 85.3 91.7 88.30RA-CNN [17] 85.3 92.5 88.20OPAM [38] 85.8 92.2 -0Kernel-Pooling [13] 84.7 91.1 85.70MA-CNN [62] 86.5 92.8 89.90MAMC [47] 86.5 93.0 -0HBP [58] 87.1 93.7 90.30DFL-CNN [55] 87.4 93.1 91.70NTS-Net [57] 87.5 93.9 91.40DCL [10] 87.8 94.5 93.00PMG [16] 88.9 95.0 92.80ACNet [24] 88.1 94.6 92.50LIO [65] 88.0 94.5 92.70ResNet50 基线 85.5 92.7 90.30ResNet50 基线 + ELP-SR 88.8 94.2 92.70表1.细粒度分类的三个基准的比较。在没有额外的增强或网络设计的情况下,我们的方法取得了显著的改进。0多尺度特征[16,65]。仅仅在训练中使用ELP-SR的简单骨干网络在三个数据集中分别提升了3.3%,1.5%和2.4%,这是这个任务中的显著改进。这个任务中的提升表明我们的方法有效地改善了网络对样本的判别和泛化能力。为了进一步展示我们方法的优越性,将在4.4中提出更多的讨论。04.2. 长尾视觉识别0在长尾识别中,不同类别的数据分布显示出极端的不平衡。作为长尾分布,少数“头部”类别包含大量样本,但大量“尾部”类别只包含有限样本。网络对“头部”类别有偏见,而“尾部”类别的样本很难被泛化。在本节中,我们还评估了我们的方法在具有挑战性的长尾分布下的性能。数据集和实现细节。实验基于长尾CIFAR-10和CIFAR-100数据集[29]进行。我们首先根据[7]在不同的不平衡比例下生成几个版本的长尾数据集,这些比例表示类别中样本数量的最大和最小值之间的比例。我们分别报告了三种不平衡比例(100、50和10)下的结果。为了进行公平比较,我们基于[7]中的ResNet-32基线评估我们的方法。实验结果。如表2所示,ELP-SR在所有设置和数据集中都显著提高了基线方法的性能。0方法 CIFAR-10 CIFAR-1000不平衡比例 100 50 10 100 50 100Focal Loss [32] 70.4 76.7 86.7 38.3 43.9 55.70CB Focal [12] 74.6 79.3 87.1 39.6 45.2 58.00Meta-weight [44] 75.2 80.0 87.8 42.0 46.7 58.40CDB-CE [45] - - - 42.5 46.7 58.70Mixup [61] 73.1 77.8 88.3 39.6 45.0 58.20ERM [7] 70.4 74.8 86.4 38.3 43.9 55.70ERM [7] + ELP-SR 77.4 81.2 87.9 39.1 44.7 57.90ERM [7] + ELP-SR (τ = 1) 77.5 81.5 88.4 42.4 48.3 58.90ERM [7] + ELP-SR (τ�) 78.0 81.5 88.7 42.4 48.3 59.10LDAM [7] 77.0 81.0 88.2 42.0 46.6 58.70LDAM [7] + ELP-SR 78.2 82.3 88.1 43.9 48.2 59.10表2.不平衡CIFAR-10和CIFAR-100数据集上不同方法的top-1验证准确率的比较。所有结果都是基于ResNet-32实现的。τ =1表示应用τ归一化[26],其中τ = 1。τ�表示具有最佳设置的结果。0在CIFAR-10的不平衡比例为100和50的情况下,甚至比LDAM[7]更大。此外,在从[26]进行归一化后,我们的方法的结果在这个任务中显示出更强的竞争力。在不同设置下,所有结果都优于LDAM。此外,我们还基于LDAM[7]进一步研究了我们的方法。通过最小化基于边界的边界考虑泛化[7],LDAM被设计为适用于长尾识别,并显著提高了性能。同时,我们的方法可以在LDAM的基础上实现更高的性能。尽管没有针对长尾分布进行特定考虑,ELP-SR对这个任务提供了一般性的改进。这些结果表明我们的方法有助于网络在具有挑战性的分布中进行泛化并产生有区分性的特征。04.3.在ImageNet上的通用视觉识别0为了揭示ELP-SR的泛化性,我们进一步研究了我们的方法在标准视觉表示基准上的通用对象识别。数据集和实现细节。我们在ImageNet-1K[30]上评估ELP-SR,其中包含1000个类别的128万张图像。为了展示有效性和泛化性,我们将ELP-SR应用于不同的骨干网络,包括ResNet-50 [19],ResNet-101[19],ResNet-152 [19],BN-Inception [23],Inception-V3[49]和Inception-ResNet-V2[48]。根据这些作品的标准实现,我们采用动量为0.9的SGD作为优化器。所有网络都使用随机裁剪和水平翻转进行训练。对于ResNet-50、ResNet-101、ResNet-152和BN-Inception,我们首先将图像调整为256×256的分辨率,然后随机裁剪为224×224。对于Inception-V3和Inception-ResNet-V2,我们调整为320×320,然后随机裁剪为299×299,与它们的作品中的相应实现一致[48,49]。如表3所示,我们分别报告了top-1和top-5的准确率,并将所有骨干网络与ELP-SR进行比较。实验结果。如表3所示,使用ELP-SR,所有骨干网络都取得了性能提升。结果表明,我们的方法对各种骨干模型都有价值,并且通常改善了网络的表示。几乎所有的骨干网络的top-1准确率都提高了约0.5%。此外,为了验证我们的方法引入的一般改进,我们探索了我们的方法与SE-block[22]的性能。如表3所示,尽管SE-block已经提升了性能,但我们的方法在SE-block[22]的基础上进一步提升了性能。k最近邻准确率。为了揭示我们方法的有效性,我们使用KNN分类器[56]进行了额外的评估。对于特征向量h,我们通过权重exp(h∙h'/t)选择与标签对应的前k个最近邻,其中h'表示来自训练集的特征,t是一个温度项。我们在实验中应用t=0.1。如表4所示,显示了20个和200个最近邻的结果。使用KNN分类器,我们的方法优于骨干网络。这反映出经过ELP-SR训练后的特征更具有区分性。总之,所有骨干网络、方法和任务的一般改进表明,ELP-SR对特定网络、设计或视觉挑战不敏感。它为视觉表示学习提供了有价值的正则化。ResNet5076.1376.8292.8693.32ResNet10177.3777.8693.5494.06ResNet15278.3178.7794.0494.42BN-Inception73.52†74.0591.56†91.74Inception-V377.4578.1293.5694.04Inception-ResNet-V279.63†80.2294.79†95.24SE-ResNet5077.0577.4593.4893.88SE-ResNet10177.6277.9493.9394.38SE-ResNet15278.4378.6194.2794.53ResNet5075.0473.21ResNet50 + ELP-SR75.4873.8895650骨干 准确率Top-1 准确率Top-50基准ELP-SR 基准ELP-SR0表3.在ImageNet-1K验证集上的单裁剪准确率(%)比较。不同的骨干网络与我们的方法相比显示出显著的改进。为了进行公平比较,†表示我们实现和重新训练的结果。0随机裁剪为299×299,与它们的作品中的相应实现一致[48,49]。如表3所示,我们分别报告了top-1和top-5的准确率,并将所有骨干网络与ELP-SR进行比较。实验结果。如表3所示,使用ELP-SR,所有骨干网络都取得了性能提升。结果表明,我们的方法对各种骨干模型都有价值,并且通常改善了网络的表示。几乎所有的骨干网络的top-1准确率都提高了约0.5%。此外,为了验证我们的方法引入的一般改进,我们探索了我们的方法与SE-block[22]的性能。如表3所示,尽管SE-block已经提升了性能,但我们的方法在SE-block[22]的基础上进一步提升了性能。k最近邻准确率。为了揭示我们方法的有效性,我们使用KNN分类器[56]进行了额外的评估。对于特征向量h,我们通过权重exp(h∙h'/t)选择与标签对应的前k个最近邻,其中h'表示来自训练集的特征,t是一个温度项。我们在实验中应用t=0.1。如表4所示,显示了20个和200个最近邻的结果。使用KNN分类器,我们的方法优于骨干网络。这反映出经过ELP-SR训练后的特征更具有区分性。总之,所有骨干网络、方法和任务的一般改进表明,ELP-SR对特定网络、设计或视觉挑战不敏感。它为视觉表示学习提供了有价值的正则化。04.4.消融研究04.4.1超参数消融0周期间隔 I .通过周期间隔的数量来防止ELP过度拟合特征。我们进行了实验-0方法 20 2000表4.ImageNet-1K上的KNN准确率。给出了20个和200个最近邻的准确率结果。0在CUB数据集上使用不同的I值进行实验。如表5所示,性能受到I的影响。较大的I会导致性能下降。经过大量的训练迭代,ELP分类器倾向于过拟合,无法有效衡量泛化能力。此外,我们还在ImageNet数据集上进行了比较。当I分别等于1、2和3时,模型的准确率分别为76.13、76.82和76.30。适当的I可以更好地发挥ELP的优势。较小的I可能不足以构建ELP。较大的I可能会降低ELP分类器指示特征区分能力的能力。因此,我们在实验中应用了I=2,因为这个条件通常在几个数据集中都显示出改进。SR因子中的γ。参数γ负责调整正则化的强度。由于D0R始终小于1,较大的γ会对输入进行较小的正则化。如表5所示,我们比较了细粒度分类中γ的多种条件。γ的变化轻微地影响性能。适当的γ可以带来更好的性能,但对于细粒度分类来说并不是确定性的。此外,我们在ImangeNet-1K上评估了不同γ值下的结果,当γ分别设置为1、2和3时,识别准确率分别为76.23、76.82和76.30。SR因子的变化。我们进一步研究了ELP-SR在不同形式下的表现,如表6所示。首先,对于正则化,ELP分类器的置信度反映了特征的可辨识性。由于主分类器倾向于过拟合,p c相对较高且接近1。因此,1-q c 和 p c -q c也可能产生类似的效果。如表6所示,这两种公式都能够使网络正则化以获得更好的性能,而使用 p c -q c 的模型0提供了更高的结果。这是因为p c -q c提供了对主分类器和ELP分类器之间偏差的更精确的测量。其次,为了制定归一化项,我们要求ELP分类器和主分类器的置信度都变得更高。主分类器的置信度越高,表示样本可以被正确识别。这是更好地表示特征的主要要求。如果即使对于主分类器来说,特征也很难识别,这可能表明视觉表示质量相对较低。至少应该提供可识别的特征是一个主要标准。如表6所示,性能更高To demonstrate the efficacy of our ELP, we present a visual-ization for the testing accuracy of our ELP based on CUB.In detail, we train the baseline method, take the featuresfrom the backbone to train ELP, but do not leverage ELP-SR for network training. Meanwhile, we take our methodtraining with ELP-SR as the comparison. This is similar toapplying linear probing for every epoch. Since ELP is re-initialized every two epochs for CUB, to better reveal thecapacity of ELP under different conditions, we plot the ac-curacy every two epochs. As shown in Fig. 3, unseen fea-tures in the testing set are remarkably more recognizable.This indicates that the network with ELP-SR is more gener-alized and produces more discriminative features. Even forthe simple classifier, the unseen samples represented by thenetwork are easier to be classified.0.70.730.760.790.820.850.88161116212631364146515661667176818691961011061111161211261311361411461511561611661711761 60 120 180 24095660应用归一化项后显示。p c + q c 和 p c � q c都可以有效地归一化我们的ELP-SR。第三,只有更高的 q c的正则化也可以提升性能。没有归一化项,ELP-SR的影响也引导网络更加泛化。然而,缺乏归一化,改进相对较低。此外,简单的归一化也是有价值的。由于20p c � q c也期望更高的ELP置信度,类似的影响也可能通过仅利用归一化项来发生。这些结果表明,正则化和归一化在ELP-SR中是有价值的。同时,两侧的组合进一步提高了性能。最后,我们还对两个分类器的概率进行了消融实验。L1和L2回归的两种情况在表6中都显示出显著的下降。网络不应该直接优化以解决特征的可辨识性。蒸馏可以使主分类器的性能与ELP分类器类似,但并不鼓励网络更加泛化。如果主分类器根据ELP分类器是最优的,网络可以“假装”实现有区别的特征。然而,在测试中,这种“作弊”是无用的。此外,我们用一个记忆库替换ELP分类器,并通过基于动量的移动平均更新记忆。当动量为0.9和0.1时,结果分别为86.1%和86.5%。结果表明,移动平均操作有助于细粒度识别,但其提供的正则化弱于以剧集方式初始化的ELP分类器。04.4.2 可视化05. 结论0在本文中,我们提出了一种称为ELP的情节线性探测方法,用于在线估计特征的泛化能力和可辨别性。通过ELP,我们提出了一种适用于ELP的正则化项(ELP-SR)来对模型进行正则化。我们的见解有两个方面。1)由于主分类器可能会过拟合,其置信度可能无法表示特征的区分能力,ELP分类器为更具辨别力的特征提供了额外的正则化。2)即时适应性对于衡量特征的区分能力是有效的。一个直观的假设是,如果特征具有很高的区分能力,它们应该可以被一个容易学习的线性分类器识别出来。我们的ELP是周期性重新初始化的,有效地减轻了过拟合,并使网络向更好的线性可分性进行正则化。0参数I = 1 I = 2 I = 3 I = 4 I = 50γ = 1 88.0 88.2 88.2 88.0 87.80γ = 2 88.0 88.5 88.2 88.0 87.80γ = 3 87.6 88.8 88.0 88.0 87.60γ = 4 87.5 88.0 87.8 87.8 87.50表5.CUB上不同I和γ值的结果。I防止ELP过拟合,γ调整正则化的强度。0公式D R Top-1准确率0DR0p c − q c p c + q c 76.820p c − q c p c � q c 76.7501
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功