长尾识别问题中基于蒸馏虚拟样本的改进方法

6 浏览量更新于2023-10-15 收藏 12.42MB PDF 举报

知识蒸馏

大规模数据集

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Yin-Yin He1, Jianxin Wu1*, Xiu-Shen Wei2,1heyy@lamda.nju.edu.cn, {wujx2001, weixs.gm}@gmail.com2350为长尾识别蒸馏虚拟样本01中国南京大学新软件技术国家重点实验室02中国南京理工大学计算机科学与工程学院0摘要0我们从知识蒸馏的角度解决长尾视觉识别问题，提出了一种蒸馏虚拟样本（DiVE）方法。具体而言，通过将教师模型的预测视为虚拟样本，我们证明从这些虚拟样本中蒸馏等同于在一定约束下进行标签分布学习。我们表明，当虚拟样本分布比原始输入分布更平坦时，被低表示的尾部类别将获得显著的改进，这在长尾识别中至关重要。所提出的DiVE方法可以明确调整虚拟样本分布以变得平坦。对包括大规模iNaturalist数据集在内的三个基准数据集进行了大量实验证明，所提出的DiVE方法可以显著优于现有的方法。此外，额外的分析和实验证实了虚拟样本解释，并证明了DiVE在长尾问题中的有效性。01. 引言0深度卷积神经网络在计算机视觉的各个领域取得了显著的成功，其中一部分应归功于丰富和代表性的数据集。手工构建的数据集通常设计良好且大致平衡，每个类别都有足够的样本，例如ImageNet ILSVRC 2012[22]。然而，在现实世界中，图像数据往往具有固有的长尾性。少数类别（“头部”类别）包含大多数训练图像，而大多数类别（“尾部”类别）只有很少的样本。一些最近发布的数据集开始引起我们对这种实际情况的关注，例如iNaturalist [4]和LVIS [8]。这些数据集展示了自然的长尾分布。0* J.Wu是通讯作者，受到中国国家自然科学基金（编号61772256和61921006）的支持。X.-S.Wei受到中央高校基本科研业务费（编号30920041111）和CAAI-HuaweiMindSpore开放基金（CAAIXSJLJJ-2020-022A）的支持。0长尾类别识别中，模型训练往往对头部类别有偏差，而尾部类别的准确率往往比头部类别低得多。这种偏差当然不被研究人员或从业者所欢迎。已经有许多尝试来处理长尾识别问题[16, 3, 1, 34, 15,14]。特别是，重新采样通过对头部类别进行欠采样[10,5]或对尾部类别进行过采样[2, 9,23]来实现更平衡的分布。另一种方法是在新的损失函数中为尾部类别分配更高的成本[3, 25, 16]。最近的方法[34,15]还将骨干网络的训练和分类器部分的训练分离开来。然而，这些方法从来没有跨越类别边界。也就是说，重新采样、重新加权和解耦都是在每个类别内独立进行的，不同类别之间没有交互。一个简单但有趣的实验激发了我们利用跨类别交互来进行长尾识别。完整的CIFAR-100数据集是平衡的，而高度不平衡的子集（即CIFAR-100-LT）是长尾识别的广泛使用的基准[34]。我们使用整个CIFAR-100训练集来训练一个（教师）网络，然后使用知识蒸馏[12]在具有不平衡因子100的长尾CIFAR-100-LT上蒸馏一个学生网络。学生的测试准确率为61.58%，比现有的长尾识别方法（参见表1）高出10个百分点以上！那么，除了教师使用整个训练集进行训练（在学生的长尾设置中不可用），是什么使得其准确率如此之高？我们对这个问题的回答有两个方面：虚拟样本和知识蒸馏，或者简称为蒸馏虚拟样本。在狗与猫的二元识别问题中，如果对于一张狗的图像的预测是（0.7，0.3），我们将这个预测解释为两个虚拟样本：0.7个狗的虚拟样本，加上0.3个猫的虚拟样本。这种解释自然地扩展到多类情况。如果狗是头部类别，猫是尾部类别，0.3个猫的虚拟样本将有助于识别猫，即使输入图像实际上是一只狗。0501001502002502360INPUT CE BSCE FULL 方法0（虚拟）示例的平均数量0许多中等很少0图1. 不同模型的（虚拟）示例分布。0给定一个训练集和一个CNN模型，我们可以通过将所有训练示例对所有类别的贡献求和来计算模型在训练集上的虚拟示例分布。请注意，通过虚拟示例，不同的类别在每个训练示例中自然地相互作用！经验上，我们经常根据类别中的训练图像数量将长尾问题的类别分为三个子集：许多（或头部）、中等和很少（或尾部）。图1显示了这些4种不同情况下的示例和虚拟示例的平均数量。第一个（“INPUT”）是CIFAR-100-LT中原始输入图像的分布。其余的是3个模型的虚拟示例分布：交叉熵（“CE”，即没有任何长尾特定学习的常规CNN训练）、“BSCE”[21]（一种长尾识别方法）和“FULL”（使用CIFAR-100进行训练，如上所述）。使用这3个模型（即它们在图1中的虚拟示例分布）作为教师，三个学生在CIFAR-100-LT上的准确率分别为39.20％、43.25％和53.71％。也就是说，教师的虚拟示例分布越平衡，学生的准确率就越高。这些观察结果启发我们提出了一种DiVE（蒸馏虚拟示例）方法，具有以下特性和贡献：•虚拟示例解释的有效性。在第3.1节和3.2节中，我们展示了虚拟示例解释的有效性，从而允许我们利用直接和明确的跨类别交互。0•平衡虚拟示例分布的必要性。将INPUT与CE进行比较，CE的虚拟示例分布几乎与原始示例分布INPUT相同。然而，我们在第3.3节中证明，只要我们想要消除对尾部类别的偏见，虚拟示例分布必须更加平坦。比较CE、BSCE和FULL，我们确实观察到0图1和这些实验中使用的温度τ = 1。将τ =3设置为更平衡的虚拟示例分布，对于“FULL”而言准确率为61.58％。有关温度和蒸馏的更多详细信息将在第3.1节中提供。0实验证明，教师的虚拟示例分布越平坦，学生的准确性就越高。0•平衡和蒸馏虚拟示例分布（DiVE）。注意，即使在图1中的FULL仍然是长尾的，我们提出了方法使虚拟示例分布平衡，然后从中蒸馏，直接和明确地从平衡的虚拟示例分布中学习。通过实验证实，所提出的DiVE方法在各种长尾识别数据集中比现有的长尾识别方法表现更好。02. 相关工作0最近，长尾识别引起了很多关注[1, 34, 3, 15,26]，包括在识别和检测[16,25]中。我们将简要回顾先前关于长尾识别和知识蒸馏的方法。重新采样/重新加权：处理长尾分布的一种经典方法是数据重新采样。其思想是使类别分布更加平衡。它包括对少数类别进行过采样[2, 9, 23]和对多数类别进行欠采样[10,5]或学习采样[21]。然而，重新采样可能会在深度学习中引发问题[2,3]，例如，过采样可能导致过拟合，而欠采样则限制了神经网络的泛化能力。另一种常用的方法是对损失函数进行加权[18]。这一系列方法将少数类别实例分配更高的成本，这些实例总是被错误分类或不自信[13, 3, 1,16]。平衡的softmax[21]被提出来替代标准的softmax变换。然而，所有这些方法都牺牲了头部的准确性来弥补尾部的准确性。解耦训练：最近的研究表明，解耦表示和分类器学习可以显著提高长尾数据集上的性能[15,34]。然而，它们没有考虑到尾部类别的低表示特征，这限制了它们的改进仅限于分类器。知识迁移：将知识从头部类别转移到尾部类别是另一类方法[28, 17, 35,29]。具体而言，[28]设计了一个模块，通过元学习使用头部类别来学习尾部类别的参数。[17,35]通过复杂的记忆库将知识从头部转移到尾部。[34, 29,27]集成了多个专家的知识。一些方法探索了自监督和半监督学习[31]，但需要更长的训练时间或额外的训练数据。它们通常很复杂，难以在不同任务上推广。简而言之，现有方法要么缺乏让头部和尾部类别相互作用的机制，要么过于复杂，难以很好地推广和利用。相反，所提出的DiVE方法是一个简单的流程，利用知识蒸馏从虚拟示例中蒸馏。LKD = (1 − α)LCE(y, s) + αLKL(t, s) .(2)LCE(y, s) = −yk log sk .(3)LKL(t, s) =tk log tksk.(4)̸2370在这个过程中，来自不同类别的示例自然地相互作用（即，头部帮助尾部）。知识蒸馏：知识蒸馏（KD）是一种在不同模型之间传递知识的技术[ 12]，在模型压缩中最受欢迎。自从在[ 12]中提出以来，知识蒸馏引起了很多关注[ 31 , 32]。最近，[ 29 , 19 ]将知识蒸馏引入了长尾问题。然而，在DiVE中，关键区别在于我们通过使教师的虚拟示例分布变得平坦来有了一个不同的起点。一些研究试图解释知识蒸馏背后的机制。具体而言，[ 33]将知识蒸馏视为可学习的标签平滑器，而我们提供了另一种解释。我们认为，知识蒸馏通过虚拟示例在不同类别之间共享知识，这与深度标签分布学习（DLDL）[ 6 ]非常相似。03. 蒸馏虚拟示例0我们将提出的方法称为 DiVE（Di stilling VirtualExamples），其具有相对简单的流程：首先使用任何现有方法为长尾任务训练教师模型，然后使用知识蒸馏将知识从教师（虚拟示例）传递给学生模型。蒸馏后的学生模型是DiVE 的输出。由于所提出的 DiVE方法依赖于蒸馏虚拟示例，我们首先建立知识蒸馏和深度标签分布学习（Sec. 3.1）之间的等价关系，然后详细解释标签分布解释如何导致虚拟示例（Sec. 3.2），然后解释虚拟示例分布必须是平坦的原因（Sec. 3.3），最后介绍如何生成平衡的虚拟示例分布以蒸馏长尾任务（Sec. 3.4 ）。03.1. KD ≈ DLDL0在一个 C 类分类问题中，假设训练集有 n 个样本 D = { ( x1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) } ，其中 x i 是第 i个训练实例，y i ∈ { 1 , 2 , . . . , C }是其真实标签。使用独热编码可以将 y i 转换为等价的向量y i = ( y i, 1 , y i, 2 , . . . , y i,C ) ∈ R C ，其中 y i 的第 k个分量定义为 y i,k = 1 if k = y i ，否则 y i,k = 0。稍微滥用一下符号，我们从现在开始将 y k 表示为 y 的第k 个分量。对于给定的训练样本 x 及其相应的独热标签 y，假设一个教师CNN模型对其预测为 t = ( t 1 , t 2 , . . . , tC ) ∈ R C ，通过将 logits z ∈ R C 通过 softmax函数进行转换得到，如下所示0t i = exp( z i ) / C k =1 exp( z k ) . (1)0知识蒸馏（KD）[ 12 ] 然后利用 t中的知识来帮助训练一个学生网络（通常比教师网络容量更小）。0我们可以类似地将学生网络的预测表示为 s = ( s 1 , s 2 , . .. , s C ) 。然后，学生的损失函数为0第一项是真实标签和学生预测之间的常规交叉熵（CE）损失：0C∑0第二项通过最小化它们的Kullback-Leibler（KL）散度来鼓励学生预测模仿教师的预测，0C∑0注意，知识蒸馏中经常使用温度参数 τ 。当 τ ≠ 1时，我们需要计算 t τ ，如下所示0t τ i = exp( z i /τ ) / C k =1 exp( z k /τ ), (5)0类似地，将 s 改为 s τ ，第二个损失项变为 τ 2 L KL ( t τ ,s τ ) 。超参数 α ∈ [0 , 1]平衡这两个损失项，取值范围在0和1之间。暂时假设 τ = 1。注意，y、t和s都是离散分布，我们用 H ( ∙ )表示熵。让我们定义0˜t = (1 - α) y + αt (6)0并且利用已知事实L CE (x, y) = L KL (x, y) +H(x)，然后很容易推导出0L KD = (1 - α) L CE (y, s) + αL KL (t, s) (7)0= L CE (1 - α) y + αt, s - αH(t) (9)0= L CE (˜t, s) - αH(t) (10)0= L KL (˜t, s) + H(˜t) - αH(t) . (11)0一方面，因为y、t（因此˜t）对于学生模型的参数没有梯度，我们立即注意到L KL (˜t, s)（或L CE (˜t,s)）是训练学生模型的等效损失函数。另一方面，正如我们将在下一小节中讨论的那样，L KL (˜t,s)恰好是DLDL[6]模型的损失函数。因此，我们证明了当温度τ=1时，知识蒸馏等价于DLDL。̸1000001000001000001000001��1 = 0.7,��2 = 0.02,��3 = 0.07,��4 = 0.01,��5 = 0.2,��1 = 0.7��2 = 0.02��3 = 0.07��4 = 0.01��5 = 0.2929394959697989910023803.2. 从标签分布到虚拟样本0标签分布学习（LDL）[7]处理的是标签不确定的任务。例如，基于面部图像估计表观年龄是困难的——两个注释者可能对同一张图片给出不同的答案，比如25岁和27岁。因此，当真实标签为25时，LDL不使用one-hot编码来表示25，而是生成一个“标签分布”y作为其标签，其中y25是最大的，其他接近25的标签也有非零值。例如，将0到100视为C=101个分类标签，LDL的标签可能是：y25=0.7，y24=y26=0.1，y23=y27=0.05，而对于k<23或k>27的情况下yk=0。注意，LDL的标签y是一个有效的分布：�0k y k = 1且y k ≥0。DLDL（深度LDL）方法[6]将LDL与深度学习范式相结合，使用基于KL的损失L KL (y,t)来计算训练样本的损失，当其预测为t时。因此，当τ=1时，知识蒸馏等价于DLDL，其中地面实况标签分布为˜t。在知识蒸馏中，虽然假设地面实况标签是确定的，但教师模型的预测可能是错误的。例如，地面实况标签是7，但arg max kt k ≠ 7可能成立。知识蒸馏可以通过L CE项来纠正这种错误，因为它强制预测与地面实况标签匹配。在DLDL中，通过˜t来强制，现在˜t7 = (1 - α) ∙ 1 +αt7，只要α ≤ 0.5，我们可以确定arg max k ˜t k =7，因为˜t7 ≥0.5。DLDL认为，年龄为24的面部图像实际上对于分类25岁的面部是有用的，因为年龄“相邻”的面部必须具有相似的视觉特征。虽然“相邻”概念不适用于更一般和长尾识别问题，但我们现在展示教师模型的预测实际上创建了对长尾识别有帮助的虚拟样本，如图2所示。在这个说明性的例子中，有很多狗的图像，但很少有猫的图像，因此这是一个长尾问题。由于softmax的属性，教师模型对所有类别的预测分数都不为零。因此，原始输入图像被虚拟样本替换为5个类别中的虚拟样本：0.7只狗，0.02辆车，0.07只兔子，0.01艘船和0.2只猫。由于狗图像的预测对于猫有非零的质量（0.2），这意味着这些类别之间存在相似性，即使是狗图像也将对学习猫类别有用。注意，蒸馏损失是L CE (˜t,s)（公式10），它等于-∑ C k=1 ˜t k log sk。对于类别k，有˜tk个虚拟样本，如果我们从所有类别收集虚拟样本并进行正常的交叉熵训练，虚拟样本的损失是- log sk。因此，将所有虚拟样本的损失相加，我们得到-∑ C k=1˜t k log s k，或等价于蒸馏损失L CE (˜t,s)。因此，虚拟样本解释是有效的。对于一个类别，如果我们对虚拟样本的计数求和0狗兔子猫汽车船0图2.虚拟样本的示意图。一个输入的狗样本在教师模型中得到预测，从而在所有5个类别中创建虚拟样本：0.7个狗样本，0.02个汽车样本，0.07个兔子样本，0.01个船样本和0.2个猫样本。00.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 虚拟样本比例0准确率（%）0全部头部尾部0图3.二元分类示例中的准确率（均值和标准差）。当两个类别之间的虚拟样本比例增加时（即虚拟样本分布变得更平坦），准确率变得更高。'All'是'head'和'tail'的并集。0所有训练样本对该类别贡献的虚拟样本数量，我们得到该类别的虚拟样本数。值得注意的是，我们的公式（6）和（11）与[33]中的公式相同。然而，它们的含义和目标是不同的。[33]是受标签平滑[24]的启发，假设有高温τ使得每个示例的t接近均匀分布。然而，在长尾问题中，我们只希望所有虚拟样本的分布变得更平坦，但每个t仍然必须携带有用的信息以区分不同的类别并传递给s。实际上，我们主要使用较小的温度（例如τ=1或τ=3）。03.3. 虚拟样本分布必须是平坦的0现在我们进一步展示虚拟样本分布必须是平坦的（或至少比原始输入图像分布更平坦）。1002003004005006000501001502002390我们回到狗与猫的二元识别问题。如果数据集不平衡怎么办？假设狗有n个头样本，猫有n个尾样本，且n头远大于n尾。我们使用标签平滑来从狗中生成虚拟样本用于猫。每个狗样本被转换为ϵ个虚拟猫样本和1-ϵ个狗样本（ϵ<0.5）。猫和狗的虚拟样本数量分别为n尾+n头×ϵ和n头-n头×ϵ。我们使用猫和狗之间的虚拟样本比例来衡量虚拟样本分布的平坦程度。这个简单的实验是在CIFAR-10中随机选择的两个类别上进行的，一个类别有5000个训练样本，另一个类别有500个。我们将“飞机”作为头类别，“汽车”作为尾类别，结果如图3所示。随着虚拟样本分布越来越平坦，尾部的准确率显著提高，而头部几乎不变。原始的标签分布学习需要不同标签之间的相关性。但是，在长尾识别中，图3显示，来自头类别的虚拟样本将有助于识别来自尾类别的样本，即使这些类别之间并不相关。更多示例，请参考我们的补充材料。因此，我们很容易得出以下结论：为了获得长尾任务的平衡模型，虚拟样本分布必须比输入分布要平坦得多。尾部类别必须有比其输入图像数量更多得多的虚拟样本，而头部类别则相反。否则，尾部类别的准确率将很低。图1清楚地证实了这个结论，在“CE”中是一个失败的案例，而在“BSCE”和尤其是“FULL”中，我们观察到更好的虚拟样本分布。然而，仍然存在两个困难。首先，像BSCE这样的现有方法通常会为不同的类别分配不同的权重，但这种策略对虚拟样本分布的影响有限，因为它们只能以间接的方式影响虚拟样本分布。图4显示了两个这样的例子（BSCE [21]和LWS[15]）。例如，BSCE [21]使用以下函数来替换计算软标签sBSCE中的softmax函数：0sBSCEi = ni exp(zi) / C k=1 nk exp(zk),(12)0其中ni是类别i的训练示例数。但是，它的虚拟示例分布仍然类似于原始输入的分布（参见图1）。我们需要一种直接明确的方法来获得更平坦的虚拟示例分布。其次，我们仍然不知道对于长尾识别来说什么样的“平坦度”水平是有益的。03.4. 调整和蒸馏虚拟示例0我们解决这两个困难的答案非常直接：蒸馏虚拟示例（DiVE）。在00 200 400 600 800 1000 类别id（排序）0虚拟示例的数量0CEBSCELWS0图4.在ImageNet-LT（ImageNet的长尾版本）上，不同教师的平滑虚拟示例分布，温度τ =2。根据每个类别的示例数量进行排序，从头到尾。BSCE[21]和LWS[15]都生成比基线交叉熵方法更平坦的分布。01 3 6 20 温度0虚拟示例的平均数量0许多中等很少0图5.当温度τ增加时，虚拟示例分布变得更加平坦，以CIFAR-100-LT为例，不平衡因子为100。模型使用BSCE[21]进行训练。根据我们的经验法则，τ = 6是一个合适的温度。0在知识蒸馏中，教师的虚拟示例分布t是一个明确的监督信号，而我们有各种手段可以直接调整这个分布以使其更平坦。我们还提供了一个经验法则来确定平坦度的水平。实际上，为了使虚拟示例分布更平衡，温度已经是知识蒸馏中的内置武器。方程（5）清楚地告诉我们，当温度τ增加时，教师信号tτ将变得越来越平衡。正如[33]所提到的，当τ→∞时，tτ将变成均匀分布。图5说明了当τ增加时的这种趋势。非常大的温度（例如，图5中τ =20的最后一个温度）在知识蒸馏中并不有用，因为监督信号tτ将近似均匀且包含很少的信息。因此，我们采用经典技巧（功率归一化）进一步调整虚拟示例分布，而不会增加τ到不合理的范围。2400增加τ到不合理的范围。功率归一化[20]简单地将非负实数x转换为其幂xp。为了简单起见，我们在实验中始终将p设置为0.5。也就是说，为了使教师的虚拟示例分布更平衡，我们执行以下转换：0tτk ←− �0tτ k, � 1 ≤ k ≤ C, (13)0tτi ←− tτi0k tτ k � 1 ≤ i ≤ C. (14)0很容易发现，应用功率归一化与p相当于乘以10对于教师的监督信号tτ，将温度τ提高p倍（p =0.5表示将τ加倍）。然而，学生sτ的温度保持不变。接下来，我们介绍一个经验法则来选择温度τ。我们希望虚拟示例分布更加平衡。但我们也希望保持它相对较小（例如，τ <10）。因此，在训练完教师模型后，我们将计算在整个训练集上使用不同τ（从1到10）以及是否进行功率归一化的情况下，tτ的虚拟示例分布。我们更喜欢那些平坦的分布，具体来说，尾部每个类别的平均示例数略高于头部。例如，根据这个经验法则，在图5中我们将选择τ =6，那么如果对教师tτ使用功率归一化（p =0.5），学生sτ的温度应该是3。请注意，计算虚拟示例分布不涉及任何微调或网络训练，因此非常高效——我们只需要使用不同的τ值转换向量tτ，然后对它们进行归一化。最后需要注意的一点是，在长尾设置中，使用˜t最多是次优的，因为方程（6）中的y呈长尾分布，我们无法利用温度τ的调整能力。因此，在知识蒸馏中，我们使用BSCE损失LCE(y,sBSCE)。整体的DiVE损失函数如下：0L DiVE(y, s BSCE)0= (1 - α) L CE(y, s BSCE) + ατ^2 L KL(tτ, sτ)。0第一项是BSCE损失，其中学生的软标签sBSCE不涉及温度。第二项是知识蒸馏项，其中tτ使用温度τ，可能后面跟着功率归一化（p =0.5），而sτ只使用温度τ，但不应用功率归一化。具备所有必要组件后，简单的DiVE流程总结如算法1所示。请注意，我们选择BSCE作为教师模型，因为它对于虚拟示例分布有一个良好的起点（参见图4），同时在实现上也比较简单。但是教师模型可以通过任何其他方法进行训练。0算法1：DiVE流程0输入：一个长尾训练集D。01 使用BSCE在D上训练教师模型；02 使用经验法则确定τ，并确定是否使用功率归一化；03 将教师的软标签转换为tτ；04 通过最小化公式（15）训练DiVE模型。0方法。在我们的实验中，如果没有特殊说明，教师和学生使用相同的模型架构。04. 实验结果0我们现在在各种长尾数据集上验证DiVE，其中包括第4.1节中的经验设置和实现细节，第4.2节中的评估设置，以及第4.3节中的主要结果。第4.4节分析了DiVE的各个方面。04.1. 数据集和实现0我们在三个主要基准上进行实验，以评估我们提出的DiVE的有效性。CIFAR-100-LT。这些长尾版本的CIFAR-100[3]在不同类别的样本大小上遵循指数衰减，具有不同的不平衡因子β。我们在实验中使用β = 10, 50, 100。ResNet-32[11]被用作骨干网络。我们使用与[34]相同的训练方法和标准的CIFAR数据增强。ImageNet-LT。它们是ImageNet[17]的长尾版本。我们在所有实验中都使用ResNeXt-50[30]作为骨干网络。对于训练策略，我们遵循[15]的方法。iNaturalist2018。iNaturalist2018[4]是一个具有严重长尾问题的大规模真实世界数据集。我们选择ResNet-50[11]作为骨干网络，并使用与ImageNet-LT相似的训练策略。报告了90和200个epoch的结果。有关数据集和实现的更多细节，请参阅我们的补充材料。04.2. 评估设置和比较方法0在进行长尾训练后，我们在相应的平衡验证/测试数据集上评估模型，并报告所有类别的常用top-1准确率，表示为“All”。我们还报告iNaturalist2018上的top-5准确率，以评估方法的鲁棒性。为了更好地了解方法在具有不同示例数量的类别上的能力，我们按照[15,17]的方法将类别分为三个子集，并报告这三个子集中的平均准确率：大样本（>100张图像），中样本（20�100张图像）和小样本（<20张图像），也称为头部、中部和尾部类别。我们将DiVE与两组方法进行比较：0DiVE45.3551.1362.00• Baseline methods.Networks trained with the stan-dard cross-entropy loss and the focal loss [16] are usedas baselines in this group.Also, the balanced soft-max method proposed in [21] (which also trains all ourteacher networks) is compared in all experiments.• State-of-the-art methods. We also compare our DiVEmethod with recently proposed state-of-the-art meth-ods, like De-confund-TDE [26] (“TDE” in short) andRIDE [27]. We further apply our DiVE to RIDE andget RIDE-DiVE.4.3. Main resultsWe show our experimental results on the three datasetsone by one, and ﬁnally RIDE-DiVE. For more experiments,please refer to our supplementary materials.Results on CIFAR-100-LT. Table 1 shows the experi-mental results on long-tailed CIFAR-100 with various im-balance factors ranging from 10 to 100.The proposedDiVE method consistently achieves the best results underall imbalance factors, and it outperforms the state-of-the-artmethod De-confund-TDE [26] by a large margin.Although knowledge distillation is also used in theLFME method [29], DiVE utilizes the abundant head-classsamples to produce virtual examples for tail classes, thusenjoys the beneﬁt of information from the entire dataset.Table 1 clearly shows that DiVE outperforms LFME by alarge margin (1.55 percentage points).Results on ImageNet-LT. We further evaluate DiVE onthe ImageNet-LT dataset, with results in Table 2. We alsoreport the average accuracy details of each category subsets.DiVE almost obtains consistently higher accuracy ratesthan all compared methods in all comparisons (Many,Medium, Few, and “All”).DiVE also beats the teacher model BSCE in all three sub-sets, and its accuracy loss in the Many subset is less than1%. On the contrary, the compared methods often lose ac-curacy in one of the subsets, and their accuracy loss in theMany subset is both consistent and signiﬁcant.Table 2. Comparison with state-of-the-art methods on ImageNet-LT. A “†” symbol denotes results copied from [15], and a “*” sym-bol denotes results obtained by running author-provided code.MethodsManyMediumFewAllCE65.0237.078.0743.89BSCE60.9247.9729.7950.48OLTR† [17]---46.30τ-norm [15]59.1046.9030.7049.40LWS [15]60.2047.2030.3049.90TDE [26]62.7048.8031.6051.80TDE∗62.5647.8329.9151.06DiVE64.0650.4131.4653.10Table 3. Results on the large-scale long-tailed iNaturalist2018dataset. We present results when trained for 90 & 200 epochs, ex-cept for BBN [34] (which were trained 90 & 180 epochs). BBN’stop-5 accuracy is from the author-released checkpoint. A “†” sym-bol denotes results copied directly from [1].Methods90 epochs200 epochstop-1top-5top-1top-5CE62.6083.44--CB-Focal† [3]61.1281.03--BSCE65.3583.3667.8485.45LDAM-DRW† [1]68.0085.18--BBN [34]66.2985.5769.6587.64Meta-learning [14]67.5586.17--LWS [15]65.90-69.50-cRT+SSP [31]68.10---DiVE69.1386.8571.7188.39Results on iNaturalist2018. To verify the performanceof DiVE in real world long-tailed circumstances, we con-duct experiments on the iNaturalist2018 dataset. Table 3shows the overall accuracy results computed using all cat-egories. Following [15], besides 90 epochs, we train formore epochs (200 epochs) to get further improvement. Wegain 2.58% and 1.54% on top-1/top-5 accuracy from that.In terms of top-1 accuracy, DiVE is at least 1 percentagepoint higher than all compared methods in both settings.We further break the accuracy statistics into three groups,and the results are in Table 4. BBN hurts the Many-shot sub-set a lot to enhance the Medium-shot and Few-shot, whileLWS has very similar accuracy with the BSCE baseline inall subsets. On the contrary, DiVE outperforms BSCE con-sistently and signiﬁcantly in all three subsets. DiVE’s accu-racy drop in the Many subset from the baseline CE methodis also much smaller than other methods.Results of RIDE-DiVE. Our DiVE can be easily de-ployed on any existing method. Following [27], we ﬁrst useRIDE with 6 experts to generate the virtual examples, thendistill to a 4 experts student model. Results are in Table 5.It is worth noting that our teacher networks (using BSCE) ismuch inferior to the RIDE teacher in two datasets, but ourstudent networks surpass both the teacher and RIDE, setting2410表1.CIFAR-100-LT上的top-1准确率（%）。符号“†”表示直接从[34]复制的结果。0方法不平衡因子0CE 38.35 42.41 56.51 Focal † [16] 38.41 44.3255.78 BSCE 42.39 47.60 58.380LFME [ 29 ] 43.80 - - LDAM-DRW [ 1 ] 42.0446.62 58.71 BBN [ 34 ] 42.56 47.02 59.12 元学习[ 14 ] 44.70 50.08 59.59 LDAM-DRW+SSP [ 31 ]43.43 47.11 58.91 TDE [ 26 ] 44.10 50.30 59.60CE73.0863.7458.4162.60BSCE65.2065.3865.3865.35BBN [34]49.4970.8765.3166.43LWS [15]65.0066.3065.5065.90DiV

下载后可阅读完整内容，剩余1页未读，立即下载