基于权重平衡的长尾识别

123 浏览量更新于2023-10-26 收藏 926KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

16897基于权重平衡的长尾识别Shaden Alshammari王玉雄qDeva Ramanan，<$Shu KongArgo AI CMUshaden@mit.eduyxw@illinois.edu{deva，shuk}@https://github.com/ShadeAlsha/LTR-weight-balancingandrew.cmu.edu(a) 每类分类准确度与CIFAR 100-LT上的类基数（均衡因子100）(b) 学习的分类器与类基数的图1.长尾识别（LTR）需要在长尾类分布数据上进行训练（（a）中的黑色曲线）。（a）在这些数据上训练的网络在更高的准确性方面偏向于常见类别（橙色条）。（b）-left绘制了朴素分类器中每个类权重的L2范数。显然，普通类的分类器比稀有类的分类器具有“人为”更大的规范，因为它们是用更多的数据训练的。这可能会导致对常见类的过度预测，或者对罕见类的预测不足。这个观察激励我们通过参数正则化来平衡规范。为此，我们探索了简单的权重平衡技术，包括L2归一化，权重衰减和MaxNorm约束。我们发现，应用后两种方法会使类权重更加平衡（（b）-右），从而使稀有类在与常见类竞争时有我们的模型将整体准确率提高到53.35%（（a）中的蓝色条），显著高于朴素模型（38.38%）和现有技术，例如，RIDE（49.1%）[73]、ACE（49.6%）[10]和PaCo（52.0%）[17]。结果来自CIFAR 100-LT的实验（表1），不平衡因子为100 [12]。摘要在真正的开放世界中，数据往往遵循长尾类分布，激发了深入研究的长尾识别（LTR）问题。朴素训练产生的模型在更高的准确性方面偏向于常见类。解决LTR的关键是平衡各种方面，包括数据分布、训练损失和学习梯度。我们探索了一个正交方向，权重平衡，其动机是经验观察，即天真训练的分类器在普通类的范数中具有“人为”更大的权重（因为存在丰富的数据来训练它们，不像罕见的类）。我们研究了三种平衡权重的技术，L2归一化，权重衰减和MaxNorm。我们首先指出，L2-normalization阻止班级学习更好的分类器。相比之下，权重衰减会更严重地惩罚较大的权重，因此会学习较小的平衡权重; MaxNorm约束鼓励在范数球内增加较小的权重，但会通过半径限制所有权重。我们的广泛研究表明，这两种方法都有助于学习平衡权重，并大大提高LTR的准确性。令人惊讶的是，重量衰减，虽然在LTR中没有深入研究，但比以前的工作有了显着的改善因此，我们采用两阶段训练范式，并提出了一种简单的LTR方法：（1）通过调整权重衰减使用交叉熵损失来学习特征，以及（2）通过调整权重衰减和MaxNorm使用类平衡损失来学习分类器。我们的方法在五个标准基准上达到了最先进的准确性，作为长尾识别的未来基线。168981. 介绍在真实的开放世界中，数据往往遵循长尾分布[8，60，84，85]。从分类的角度来看，这意味着每类数据的数量或类基数严重不平衡[27，72]。大量的应用强调稀有类。例如，自动驾驶汽车不仅应该识别汽车和行人等常见物体，还应该识别婴儿车和动物等罕见物体，以确保驾驶安全[41]。生物图像分析系统应该识别常见和罕见的物种，用于生态研究[63，72]。这激发了长尾识别（LTR）的研究问题，该问题在类别不平衡的数据上进行训练，旨在实现所有类别的平均高准确度[84]。LTR吸引了越来越多的关注，特别是使用深度神经网络[12，38，78]。现状。由于常见类比罕见类具有更多的训练数据，因此它们主导了训练损失，贡献了大部分梯度，并获得了高精度[84]。因此，一个经过简单训练的模型在它们上表现良好，但在稀有类上表现明显更差（图1a）。解决LTR的关键是平衡各个方面。许多方法建议在训练期间通过对稀有类进行上采样或对常见类进行下采样来平衡每个类的数据分布[14，22，23]。其他一些人在训练期间平衡损失或梯度[12，19，40，71]。一些方法采用迁移学习，学习常见类的特征，并使用这些特征来学习稀有类分类器[37，49，74，87]。它表明，解耦特征学习和分类器学习比联合训练它们的模型有显著的改进[38]。从基准测试结果来看，通过集成专家模型[10，23，26，73，76]或采用具有积极数据增强技术的自我监督预训练[17]来实现最先进的准确性。动机我们观察到，一个在长尾类分布数据上训练的模型对于普通类具有以前的工作也注意到了这一点[38]。直观地说，这是因为普通类有更多的训练数据，这会显着增加分类器的权重（图1）。2a）。这促使我们的工作平衡网络权重跨类长尾识别。与现有的方法（在最近的调查论文[84]中进行了详尽的回顾）相比，我们的工作探索了一种重量平衡的正交方向。贡献为了在范数中平衡网络权重，我们研究了三种简单的技术。我们首先指出，L2- normalization完美地平衡了分类器权重，使其具有单位范数（图2b）。然而，L2-normalization可能过于严格，无法学习更好分类器的灵活参数。然后我们研究权重衰减[29，44]和MaxNorm约束[35，66]。权重衰减对较大权重的惩罚更重，因此学习较小的平衡权重（图1）。2c）;MaxNorm鼓励在一个标准球内增加小的权重，并通过半径来限制所有的权重（图1）。 2d）。我们发现两者都有效地学习了平衡权重并提高了LTR性能，尽管这些著名的正则化器在LTR文献中尚未得到充分研究请参阅图1，了解我们工作的概要。关键发现。我们展示了简单的正则化器如何提高LTR性能。在没有发明新的损失或采用积极的增强技术或设计新的网络模块的情况下，我们遵循简单的两阶段训练范式[38]并推导出一种与最先进的方法相媲美或优于最先进方法的简单方法：（1）通过适当调整权重衰减使用标准交叉熵损失训练骨干，以及（2）通过调整权重衰减和MaxNorm使用类平衡损失训练分类器。重要的是要注意我们的简单方法如何挑战日益复杂的LTR模型，因此可以作为LTR的强大未来基线。2. 相关工作长尾识别（Long-Tailed Recognition，LTR）现实世界的数据往往遵循长尾类分布，即，一些类通常比许多不常见/很少见到的类具有更多的数据。因此，在这些数据上训练的模型在罕见类上的表现明显比常见类差。LTR需要对这些数据进行训练，以实现所有类别的高平均精度[12，38，78]。对于LTR，许多方法强调稀有类的准确性。数据重新平衡技术对训练数据进行重新采样，以实现跨类的更平衡的数据分布[53，67]，例如过采样稀有类[14，28]和欠采样常见类[21]。类平衡的损失重新加权为类[12，19，36，39，40，83]甚至训练示例[39，47，62，68]分配权重，旨在修改它们的梯度，使类不平衡的数据适当地有助于训练。迁移学习方法将在常见类上学习的特征表示转移到稀有类[48，79]。最近的工作研究了训练过程，并发现LTR可以通过解耦特征学习和分类器学习来更好地解决，而不是联合训练它们[38，88]。研究发现，SGD动量导致LTR出现问题，阻碍进一步改进[71]。其他复杂的方法利用具有更积极的数据增强技术的自我监督预训练[17]，或在不同数据体系上训练的集成专家模型[10，73]。对于LTR文献的全面回顾，我们建议读者参考最近的调查论文[84]。与现有的所有方法不同，我们探索了一个正交方向的参数正则化，导致一个更简单的方法来LTR。参数正则化增加了额外的信息来解决不适定问题，提高了泛化能力，16899联系我们Ni=12KKΣ|D|Θmin在训练过程中，每个班级的体重标准是如何演变的（x轴）？类按w.r.t.排序。基数（y轴）。(a) 原始（b）L2-标准化（c）WD（d） MaxNorm（e） WD+MaxNorm图2. （a）在朴素模型中，所有权重在训练过程中都在正常增长，而普通类的权重增长得更快。（b）由于L2-归一化将权重约束为单位范数，因此权重范数在训练期间保持不变。（c）权重衰减（WD）将所有权重调整为较小，同时仍允许它们增长。（d）MaxNorm限制（常见类的）大权重，同时允许小权重增长。（e）组合权重衰减和MaxNorm导致范数中的小且平衡的权重所有图共享相同的颜色图。[2019 - 07 - 17][2019-07- 17][2019 -07 - 17]正则化在深度学习中起着至关重要的作用[43]。一个众所周知的正则化是权重衰减，它通常对网络权重应用L2范数惩罚[29，44，52]。还有更多的正则化[24，45]，例如权重归一化[1，64]，MaxNorm约束[25，35，66]，数据增强[82]和dropout [35]。在这项工作中，我们特别研究了LTR文献中众所周知但尚未深入研究的正则化器：L2-归一化，权重衰减和MaxNorm约束[25，35，66]。阶段式训练在训练深度网络中变得有效[31，50，80，86]。这可以追溯到逐阶段的层预训练[4，34]。最近，Kang等人令人信服地证明了阶段性训练的重要性[38]第38话具体地，Kang et al. 建议取消-测试了k类的例子。LTR专注于学习由Θ=θl，j参数化的K路分类网络f（;Θ），其中θ l，j是第l层的第j个滤波器权重。在卷积层中，θ l，j是卷积输入（激活）的3D内核。为了简洁起见，我们将θ k表示为对应于类的分类器过滤器K. 给定一个数据示例 xi ，网络预测标签 yi′=f（xi;Θ）。我们使用成本函数l（yi′，yi）来测量yi′和地面实况yi 之间的预测误差，例如，交叉熵（CE）损失[7，56]或类平衡损失（CB）[19]。为了训练网络f（·;Θ），我们通过在整个训练集D上最小化l（yi′，yi）来优化Θ：Θe=argminF（Θ;D）εl。f（xi;Θ），yi∈ θ.（一）i=1将特征学习和分类器学习分为两个独立的学习过程，未决阶段[38]：（1）使用标准交叉熵损失的特征学习，以及（2）使用类平衡损失对学习的特征进行虽然他们没有解释为什么带有类平衡损失的单阶段训练表现不佳，但直观地说，这是因为类平衡损失人为地扩大了从稀有类训练数据计算的梯度，这损害了特征表示学习，从而损害了最终的LTR性能。后续工作间接证明了这种直觉，通过在训练期间稳定梯度来改善性能[61，71]。在我们的论文中，我们采用了这种两阶段的训练过程，但重点是如何平衡LTR的网络权重。3. 长尾学习的权重平衡准备工作。长尾识别（Long-tailed recognition，LTR）简单地求解（1）会产生一个分类器（即，最后一层），对于普通类，它具有很大的范数权重（图1b-左，图2a）。因此，我们有动机通过正则化分类器权重来学习平衡分类器，表示为θ k，k=1，.，K.中间层也有不平衡的过滤器重量（图。 3）即使一个过滤器倾向于在多个类上开火[2，81]。一般来说，也可以在中间层平衡权重，我们的研究表明，这样做可以提高性能。尽管如此，为了简化下面的演示，我们专注于分类器权重θ k的3.1. 重量平衡技术我们研究以下三种技术来平衡权重与规范。L2标准化。平衡分类器权重θ k的一种在训练集D={（xi，yi）}N上训练，其中数据ex.样本xi被标记为yi ∈[1，...，K]。对于k类，Dk是Θθ= arg min F（Θ; D），s.t.<$θ k<$2=1，<$k.（二）所有训练样本的集合，|DK|是它的基数。不平衡系数IF =maxk| DK|，衡量如何不平衡-K K长尾训练集是什么？对于LTR，IF1.一、LTR强调类的平均分类精度，即，准确度=1acc k，其中acc k是准确度com-训练时期分类ID（常见到罕见）16900Θ由于L2-归一化迫使权重为单位长度，因此分类器权重在训练期间将具有单位范数常数（图2b）。受[38]的启发，我们还对训练后的分类器进行了事后L2归一化，即， θ ′k =θ k/θ k<$2。我们发现169012ΘΘD2Θγ≥02事后L2规范化通常会提高LTR性能，有利于稀有类，但牺牲了常见类的准确性。但它也会显著降低整体性能，例如，iNaturalist在表3中。事后L2归一化类似于τ归一化[38]，它允许改变每个类的权重范数（而不是强迫它们相同），并实现更好的LTR性能。这表明L2规范化过于严格，无法打击长尾分布类之间的平衡。重要的是，我们的探索发现，虽然在分类器上使用L2归一化约束的训练优于朴素训练，但它的表现不如下面描述的其他两个正则化器。权重衰减是一种经过充分研究的技术[44，55]，用于通过限制网络权重的增长来约束网络它降低了网络的复杂性，有效地减轻了过拟合并提高了泛化能力。权重衰减通常对网络权重应用L2范数惩罚（我们现在关注分类器θ kΘk=arg minF（Θ;D）+λmaxθ k=2，（3）K其中λ是控制权重衰减影响的超参数（3）中的权重衰减项对大权重的惩罚更重，防止它们变得太大（图2c）[44，55]。也就是说，权重衰减鼓励学习小的平衡权重，如图2所示。有些令人惊讶的是，在长尾识别的文献中，权重衰减的研究不足。据我们所知，现有的方法没有适当地调整权重衰减 [19 ， 71] （参见。#21018;的技术创新。这使得不清楚它们的改进的LTR性能是否是由于这些方法中固有的更好的正则化重要的是，我们的探索表明，通过简单地调整权重衰减，我们在长尾基准测试中的表现超过了大多数最先进的方法（表2和表3）！最大范数约束。我们探索的第三个正则化器是MaxNorm约束[25，35，66]。MaxNorm限制半径为δ的L2范数球内的权重范数：Θe=argminF（Θ;D）， s.t. <$θ k<$2 ≤δ2，<$k，（4）其中超参数δ是范数球的半径。求解（4）可以通过投影梯度下降（PGD）有效地完成，它将L2范数球之外的大权重投影到约束集[66]上。它简单地在每批向上之后应用重正化步骤约会具体来说，在每次迭代中，PGD首先计算更新的θ k，然后将其投影到范数球上：θ k←min.1，δ/θ k<$2θ k。（五）过滤器ID按范数从高到低图3.权重衰减有助于学习隐藏层的平衡权重。我们比较了朴素模型（橙色）和用权重衰减训练的模型（蓝色）的每一层（有512个滤波器）的范数分布。对于模型的每一层，我们将每一层的滤波器权重从高到低排序，计算它们的均值（中心线）和方差（阴影）。虽然隐藏层中的各个过滤器在设计上不是特定于类的，但最近的工作表明某些过滤器倾向于在某些类上触发[2，81];我们仍然发现它们在朴素模型的规范中是“不平衡的”。重量衰减鼓励学习小而平衡的过滤器，参见。它位于中心线上，方差很小。不同于严格设置范数值为1，MaxNorm放宽了此约束，允许权重在范数范围内移动球在训练中，如图所示。2天。3.2. 进一步讨论为了更好地理解上述正则化器如何以及为什么适用于长尾识别，我们讨论以下方面。重量衰减和MaxNorm。这两个正则化器在训练过程中动态地平衡权重规范，而不是L2-normalization，它只是迫使每个过滤器的权重在规范中是单位长度。权重衰减鼓励学习小权重，MaxNorm鼓励权重在标准球内增长，但当它们的规范超过半径时，它们会被限制。权重衰减将所有权重拉到原点。结果，当λ在（3）中增加时，权重延迟惩罚占优势F（Θ;），使训练不稳定[6]（图4）. 相比之下，MaxNorm不拉重量-但只是限制了权范数，因此具有更好的数值稳定性。虽然权重衰减和MaxNorm看起来很不同，但它们是相关的，权重衰减可以被认为是求解MaxNorm时的直接步骤。让Θk=arg min maxF（Θ;D）+θγ（θ k<$2−δ），（6）K其中γ是Karush-Kuhn-Tucker（KKT）乘数。假设我们可以使用坐标下降法求解（6），即，迭代优化Θ和γ[75]。当固定γ时，我们有与（3）相同的损失，L2范数16902→∞图4.调整权重衰减大大提高了长尾识别性能。我们不使用任何类平衡技术，而是简单地使用CE损失和调整权重衰减λ来调节所有网络权重。例如，调整λ得到46。CIFAR100-LT（IF=100）的准确率为1%，优于许多最先进的方法，如DiVE（45.4%）[32]和SSD（46.0%）[46]。通过检查公开可用的代码，我们发现现有的方法不会调整权重衰减，例如，[12，19]设置λ= 2 e-4（根据他们的代码[11，18]），导致精度差38.32%。受权重衰减的约束，并且γ成为控制权重衰减的超参数λ。也就是说，求解权重衰减约束问题（3）是求解MaxNorm（4）的步骤。有趣的是，我们发现联合应用权重衰减和MaxNorm比单独使用它们产生更好的性能这可能是因为它们的互补优势：（1）小权重上的权重衰减仍然提高了它们的泛化能力，减少了过度拟合，（2）MaxNorm防止了大权重在训练中占主导地位。一些极端的案例。当δ在MaxNorm中时，（4）归结为朴素训练（1）。另一方面，一个足够小的δ鼓励所有的权重接近范数球的表面。这仍然不同于L2归一化，L2归一化严格要求权重在表面上。与L2归一化（图2b）相比，MaxNorm在范数球内提供自由空间，让权重增长（图 2d ）。这直观地解释了为什么MaxNorm比L2归一化性能更好。权重衰减可以轻松平衡所有网络权重。我们指出，权重衰减正则化了分类器权重，而不需要分离每个类的过滤器。这为训练提供了便利，不同于MaxNorm，MaxNorm必须将每个滤波器分开并根据其范数对其进行缩放。由于这种便利性，权重衰减可以很容易地用于平衡所有网络权重（图3）。原则上，MaxNorm也可以应用于所有层，但我们发现这样做并不简单，因为这似乎需要在（4）中设置每层阈值（调整是耗时的）。虽然权重衰减被广泛用于网络训练，但我们发现适当调整它可以大大提高长尾识别的准确性（表1）。3.3. 训练管道由于上述重量平衡技术并不相互排斥，原则上，1000 8142class ID's sorted by class cardinality class ID's sorted by class cardinality图5.五个基准的类基数的频率分布。左：我们通过对每个类别的示例进行下采样来修改CIFAR100，其中不同的不平衡因子（IF）从10到100不等右：我们使用两个大规模数据集：ImageNet- LT [49]从ImageNet [20]中对每个类的图像进行下采样，iNaturalist [72]是IF=500的真实世界数据集。可以使用一种技术或多种技术一起使用。回想一下，我们在工作中遵循两阶段训练范式[38]，首先训练网络进行特征表示，然后在学习的特征上训练分类器。这就提出了一个如何有效地应用重量平衡技术的问题。在广泛的探索中，我们发现在（3）中为权重衰减调整λ足以学习可推广的特征表示作为第一阶段训练。相比之下，应用MaxNorm是不平凡的，因为我们发现它需要在（4）中设置每层阈值。这个调优过程非常耗时。在第二阶段训练中（即，训练分类器），我们发现调整权重衰减和MaxNorm显着提高了LTR的准确性。由于分类器训练只涉及一层（或者两层，如果我们将前两层视为非线性分类器），调整正则化器的超参数是非常有效的。为了调整它们，可以使用随机搜索[5]或贝叶斯优化[58，69]。我们在这项工作中使用后者。总之，我们的简单培训管道包括以下两个阶段：1. 特征学习：利用交叉熵损失和权值衰减来训练网络.2. 分类器学习：使用类平衡损失（class-balancedloss ） [19] 、权重衰减（ weight decay ）和MaxNorm训练分类器。4. 实验我们进行了大量的实验，以证明平衡网络权重如何提高长尾识别性能。首先，我们按照第3.3节的建议，消除管道中的设计选择。然后，我们在五个已建立的长尾数据集上对我们的方法进行了基准测试，表明它们可以与现有的LTR方法竞争或优于我们从实验设置开始。4.1. 实验装置数据集。我们使用五个长尾基准。接下来[13]，我们通过使用一些前样本对每类训练样本进行下采样来修改CIFAR100数据集[42图片数量图片数量16903∈∼图6.分类器中的每类权重范数（顶行）和边际似然（底行）与按类基数按递减顺序排列。这些图是在CIFAR 100-LT（IF 100）val-set上绘制的，该val-set具有类别平衡数据。根据[61]，理想的边际似然应该遵循均匀分布。有趣的是，“完美”平衡权重规范的L2-归一化并不产生“均匀”的边际可能性。权重衰减（WD）稍微减轻了范数不平衡和边际似然不平衡，但MaxNorm显着帮助两者。最终模型结合了MaxNorm，权重衰减和类平衡损失，产生了近乎ponential衰减函数，导致长尾版本，命名为CIFAR 100-LT。CIFAR 100-LT仍然有100个类和一个用于评估的平衡验证集。通过改变不平衡因子（IF）[100，50，10] ，我们创建了三个长尾训练集（图 5- 左）。ImageNet-LT 在 [48] 中通过人为地截断平衡版本ImageNet [20]而引入。ImageNet-LT有1,000个类，每个类的训练数据数量从5到1280不等。iNat-uralist 2018[72]是一个真实世界的数据集，有8，142个自然长尾类。图5总结了这些数据集的类别频率分布。ImageNet和iNat-uralist 2018可公开用于非商业研究和教育目的;CIFAR 100在MIT许可下发布我们注意到ImageNet和CIFAR100都有一个这是一个涉及公平和隐私的问题。因此，我们谨慎地进行研究，并在MIT许可证下发布我们的代码，而不重新分发数据。网络架构。为了与现有技术进行公平比较，我们遵循[19，37，38，49，78]在每个数据集上使用特定的网络架构。我们在CIFAR 100-LT上使用ResNet 32[31] ，在 ImageNet-LT 上使用 ResNeXt 50 [77] ，在iNaturalist 2018上使用ResNet 50 [31评估方案。在每个数据集上，我们在长尾类不平衡训练集上进行训练，并在其（平衡）验证/测试集上进行评估在ImageNet-LT上，我们调整超参数并在其val-set上选择模型，并在测试集上报告性能。在CIFAR100-LT和iNat- uralist上，它们只有训练值集，我们遵循文献[49]，使用值集进行调优和基准测试。继[49]之后，我们进一步报告了具有不同数量训练数据的三种分类的准确性：（>100）、中等（20 × 100）和很少（20）。<实施.我们使用PyTorch工具箱[59]在GeForce GTX2080Ti GPU上训练模型。的总时间花在这项工作是2 GPU年相对于这种GPU类型。我们训练每个模型 200个 epoch，批量大小为 64 （对于CIFAR 和 ImageNet-LT ） / 512 （对于 iNaturalist ），SGD优化器的动量为0.9，余弦学习率调度器[51]将学习率从0.01逐渐衰减到0。我们还使用随机的左右缩放和裁剪作为我们的训练增强。4.2. 消融研究我们研究了（1）LTR中权重衰减的影响，（2）如何正则化分类器学习，（3）分类器权重范数和边际似然分布，以及（4）训练过程中权重范数的演变。本研究使用CIFAR 100-LT（IF=100）（除非另有说明）。体重下降。我们为所有网络参数设置单个常数λ，并仅关注第一阶段训练，即，我们使用标准的交叉熵损失来训练一个用于分类的单一网络。图4在三个基准的验证集上绘制了作为λ的函数的top-1准确度。显然，调整λ提高了准确度，甚至超过了许多最先进的方法（参见图1）。表2和表3）！此外，最佳λ对于不同的数据集是不同的-如何规范课堂学习。为了研究如何在分类器的第二阶段学习中应用平衡技术，我们还包括τ-归一化[38]，因为它是一种有效的非学习技术，可以事后缩放在第一阶段学习的分类器。我们根据图6中的结果提出了突出的结论（更多信息见补充资料）。首先，通过改进的主干（由于在第一阶段适当调整了权重衰减），τ-norm从42.00%提高到51.31%！这证明了学习具有平衡权重的主干的重要性（图3）。第二，使用类平衡（CB）16904[19]学而优则仕，学而优则仕。然而，单独使用CB损失而不使用正则化器只能稍微提高（从46.08%提高到47.09%）;一旦使用权重衰减正则化，它就会提高到52.42%。第三，同时应用MaxNorm和权重衰减可以进一步提高（53.35%），学习更多的层（作为非线性MLP分类器）可以提高到53.55%。分类器受[61]的启发，我们基于（平衡）测试集上的预测来检查边际似然，在该测试集上，理想的边际似然遵循均匀分布[61]。我们在图6中绘制了边际似然，以及不同模型的范数分布。有趣的是，“完美”平衡分类器权重的L2归一化并不产生平衡的边际似然。相比之下，MaxNorm显著有助于学习平衡权重和平衡边际似然。结合MaxNorm，权重衰减和CB损失，该模型使几乎训练期间的体重标准演变。图2描述了在不同模型的训练过程中，分类器的权重规范如何演变。简单地说，在没有正则化的情况下，朴素模型中的权重在范数中快速增长。相比之下，权重衰减可防止权重变得过大，MaxNorm可快速限制法线球曲面上的权重，并允许球内的小权重增长。4.3. 基准测试结果比较方法。考虑到LTR领域的快速发展[84]，我们与大多数相关方法进行了比较我们选择最近发表的代表不同类型的方法，例如Focal [47]用于损失重新加权，PaCo [17]用于自我监督预训练和积极的数据增强，RIDE [73]用于集成专家模型，SSD [46]和DiVE[32]用于转移学习等为了比较，我们报告了我们的方法，包括朴素模型，经过适当调整的权重衰减训练的模型表2 和表3分别列出了 CIFAR 100-LT 数据集、ImageNet-LT和iNaturalist的基准测试结果结果在没有花哨的情况下，在第一阶段训练中简单地调整权重衰减（WD）可以显著提高LTR的性能，超过天真的训练，并优于许多先前的方法。例如，在表2中的CIFAR 100- LT（IF 100）上，我们的WD模型达到了46.08%，优于朴素模型（38.38%）和大多数比较方法，包括SSD（46.00%）[46]和DiVE（45.35%）[32]。在第二阶段（分类器学习）中，简单地事后修改（不学习）分类器（在第一阶段学习），将per-perception从46.09%显著提高到49.60%（通过L2标准化）表1. CIFAR 100-LT（IF=100）的消融研究，具有最高-1精度（ % ）。 “CE” ：交叉熵损失 ;“CB” ：类平衡损失[ 19 ];“WD”：权重衰减;“Max”：MaxNorm约束;“τ - norm”：τ-归一化[ 38 ];“+"：微调最后一层作为第二阶段训练。以下是一些突出的结论。(1)使用适当调整的WD学习将性能从38.38%提高到46.08%，增加了8%。(2)用CB和WD重新训练最后一层，又提高了6%，达到52.42%。（3）基于以上所述，应用额外MaxNorm产生轻微改善+1%（53. 35%）;微调最后两层达到53. 55%。(4)微调更多层的性能更差（参见补充），大概是因为CB诱导了影响特征学习的修改梯度，从而损害了最终的LTR性能。模型许多介质几所有在最后一层（分类器）WD=0（w/CE）64.0535.8011.4338.38+τ-范数59.5438.2325.9342.00WD调谐（w/CE）76.9444.2812.1746.08+τ-范数73.1147.6930.1051.31+ L2范数76.0947.7420.8749.60+ CE L2标准76.3748.1121.0049.87+ CE WD76.9745.9414.0047.22+ CB77.0045.8913.6047.09+ CB L2norm76.4348.2021.6050.10+ CB WD72.7749.7431.8052.42+ CB Max76.4949.2320.6750.20+ CB WD最大值72.6051.8632.63 53.35最后两层+ CB WD最大值71.37 51.1735.53 53.55τ-归一化法为51.31%。通过学习使用MaxNorm和/或权重衰减正则化的类过滤器，我们达到了最先进的水平（53.35%）。这一结论适用于所有基准。然而，在表3中的两个大规模数据集ImageNet-LT和iNaturalists上，我们的方法与现有技术相媲美，但表现不佳的是两种具有“花里胡哨”的方法5. 结论长尾识别（LTR）是现实世界数据的关键挑战，往往是不平衡的。我们的工作是基于经验观察，即在长尾数据上训练的模型我们建议通过参数正则化来学习平衡权重，包括权重衰减和MaxNorm正则化器。我们广泛的研究表明，适当地应用这些正则化器可以大大提高LTR的性能。我们介绍了一种简单的方法，该方法在五个长尾基准上优于现有技术因为这些注册-16905/表2.CIFAR-100-LT上的基准测试，具有不同的不平衡因子[100，50，10]，相对于top-1准确度（%）。缩写请参见表1的标题;WD对LTR网络的训练产生了重大影响。通过适当的正则化来微调分类器可以进一步改进。这清楚地表明了参数调节在LTR平衡配重中的重要性。令人惊讶的是，在两阶段训练范式中适当调整权重衰减在这三个数据集上的表现优于所有现有方法。不均衡因数1005010[19]第十九话38.3243.8555.71CE+CB [19]39.6045.3257.99[33]第三十三话40.3645.4959.22LDAM-DRW [12]42.0446.6258.71BBN [88]42.5647.0259.12[54]第五十四话42.0147.0357.74[78]第78话43.4347.1158.91Focal [47]38.4144.3255.78Focal+CB [19]39.6045.1757.99[71]第七十一话44.1050.3059.60τ-范数[38]47.7352.5363.80SSD [46]46.0050.5062.30潜水[32]45.3551.1362.00DRO-LT [65]47.3157.5763.41帕科[17]52.0056.0064.20[10]第十届中国国际音乐节49.6051.90-3个月落地签证收50美元[73]49.10--天真38.3843.9957.31WD46.0852.7166.03+ L2范数49.6056.3367.16+τ-范数51.3157.6567.79+ WD52.4257.4767.96+ Max50.2456.0667.10+ WD Max53.3557.7168.67由于参数正则化在长尾文献中的探索不足，我们希望我们的研究引起从业者的注意，即在解决与长尾分布相关的现实问题时，参数正则化应该是第一个考虑的方法。局限性。虽然我们专注于参数正则化的正交方向来解决LTR，但我们还没有研究我们的方法如何补充现有技术。例如，如何在训练每个专家模型时平衡权重，或者如何在复杂的数据增强和自我监督预训练的同时平衡权重。我们还指出，其他正则化技术可能在平衡权重方面更好，例如使用L p-范数权重衰减，其中p= 2 [3]。我们把它们留给未来的工作。社会影响。由于现实世界的数据往往遵循长尾分布，我们的工作具有多重积极的社会影响。例如，解决长尾表3. 在ImageNet-LT和iNaturalists上进行基准测试，准确率最高（%）。方法名称和主要结论请参见表2。我们列出了各自论文中报道的比较方法的数量总的来说，我们的简单方法实现了与现有方法竞争的结果，特别是当它们训练“单个（专家）”模型时，尽管表现不佳最近的一些最先进的方法，这些方法训练和集成专家模型（RIDE[73]和ACE[10]），或采用自我监督预训练（例如，PaCo [17]和SSD [46]）与积极的数据增强技术[16，30]。ImageNet-LT iNaturalist多数医学少数全部多数医学少数全部CE [38]65.9 37.5 7.7四十四点四72.2 63.0 57.2 61.7CE+CB [19]39.6 32.7 16.8 33.253.4 54.8 53.2 54.0[33]第三十三话58.8 26.6 3.4三十五点八72.6 63.8 57.4 62.2Focal [19]36.4 29.9 16.0 30.5--- 61.1OLTR [49]43.2 35.1 18.5 35.659.0 64.1 64.9 63.9LFME [76]47.1 35.0 17.5 37.2--- - -一种BBN [88]--- - -一种49.4 70.8 65.3 66.3cRT [38]61.8 46.2 27.3 49.669.0 66.0 63.2 65.2τ-范数[38]59.1 46.9 30.7 49.465.6 65.3 65.5 65.6[71]第七十一话62.7 48.8 31.6 51.8--- - -一种潜水[32]64.1 50.4 31.5 53.170.6 70.0 67.6 69.1DRO-LT [65]64.0 49.8 33.1 53.5--- 六十九点七[83]第八十三话61.3 52.2 31.4 52.969.0 71.1 70.2 70.6+ L2范数61.248.942.652.811.2 47.4 66.9 51.3+τ-范数64.049.0 36.3 53.171.3 69.8 68.9 69.6+ WD62.049.7 41.053.371.0 70.3 69.4 70.0+ Max62.250.1 37.5 53.071.4 68.9 69.1 69.2+ WD最大值62.5 50.441.553.971.2 70.469.770.2SOTA与数据增强和自我监督的预训练游乐设备[73] 67.9 52.3 36.0 56.1 66.5 72.1 71.5 71.3 ACE[10]-56.6 - 72.9SSD [46] 66.8 53.135.4 56.0 - 71.5[17]第十七话 51.6 39.2 54.469.5 72.3 73.1 72.3证明了一个重要的方向，研究偏见和公平的承认[15]。然而，任何能够更容易地在长尾类上训练公平分类器的系统，也使得恶意代理有可能训练一个系统，该系统自动区分只有很少训练数据可用的特定子组这可能会产生负面的社会影响。谢谢。这项工作得到了CMU Argo AI自动驾驶汽车研究中心的支持。SA得到了KAUST天才学生计划（KGSP）和CMU机器人研究所暑期学者计划的部分支持。 YXW 部分得到了 NSF Grant 2106825 和 JumpArches捐赠的支持。我们的方法（重量平衡）我们的方法（重量平衡）天真55.331.4 12.5 38.054.7 46.0 43.9 46.1WD68.542.4 14.2 48.674.5 66.5 61.5 65.416906引用[1] Jimmy Lei Ba，Jamie Ryan Kiros，Geoffrey E Hinton.层归一化。arXiv：1607.06450，2019年。3[2] David Bau，Bolei Zhou，Aditya Khosla，Aude Oliva，and Antonio Torralba.网络解剖：量化深层视觉表征的可解释性。在CVPR，2017年。三、四[3] 艾格尼丝·贝内德克和拉斐尔·潘佐内具有混合范数的空间lp。Duke Mathematical Journal，28（3）：301-324，1961. 8[4] Yo

下载后可阅读完整内容，剩余1页未读，立即下载