没有合适的资源?快使用搜索试试~ 我知道了~
1基于有效样本数的类平衡损失尹翠1,2贾梦林1林宗义3杨松4塞尔日贝隆吉1,21康奈尔大学2康奈尔科技3谷歌大脑4Alphabet Inc.摘要随着大规模、真实世界数据集的快速增长,解决长尾数据分布(即,少数类占大部分数据,而大多数类代表不足)。实例解决方案通常采用类重新平衡策略,例如基于每个类的观测值的数量重新采样和重新加权在这项工作中,我们认为,随着样本数量的增加,新增加的数据点的额外好处将减少。 我们引入了一种新的理论框架来测量数据重叠与每个样本相关联的一个小的相邻区域,而不是一个单一的点。有效样本数定义为样本的体积,可以计算通过一个简单的公式(1−βn)/(1−β),其中n是样本数,β∈[0,1)是一个超参数。我们设计了一个重新加权方案,使用的有效数目的sam-每一个等级都要求重新平衡损失,从而产生等级平衡的 损 失 。 在 人 工 诱 导 的 长 尾 CIFAR 数 据 集 和ImageNet、iNatural ist等大规模数据集上进行了综合实验我们的研究结果表明,当使用建议的类平衡损失进行训练时,网络能够在长尾数据集上实现显着的性能增益。1. 介绍最近深度卷积神经网络(CNN)在视觉识别方面的成功[26,37,38,16]在很大程度上归功于大规模真实世界注释数据集的可用性[7,28,49,41]。与通常使用的视觉识别数据集(例如,CIFAR [25,40],Ima-geNet ILSVRC 2012 [7 , 34] 和 CUB-200 Birds[43])表现出类标签的大致均匀分布,真实世界的数据集具有倾斜的[21]分布,具有长尾:少数主导类声称大多数示例,而大多数其他类由相对较少的示例表示在这些数据上训练的模型对于弱代表类表现不佳[19,15,42,4]。这项工作是在Yin Cui和Yang Song在Google(Alphabet Inc.的子公司)工作时完成的。图1.两个类,一个来自长尾数据集的头部,另一个来自长尾数据集的尾部(本例中为iNaturalist 2017 [41]),具有完全不同的样本数量。在这些样本上训练的模型偏向于优势类(黑色实线)。通过逆类频率重新加权损失通常会在具有高类不平衡的真实世界数据上产生较差的性能(红色虚线)。我们提出了一个理论框架,以量化的有效样本数,考虑到数据重叠。设计了类平衡项,通过有效样本数的倒数对损失进行我们在实验中表明,当使用所提出的类平衡损失(蓝色虚线)进行训练时,模型的性能可以得到改善。最近的一些研究旨在减轻长尾训练数据的挑战[3,32,17,42,44,12,48,45]。一般来说,有两种策略:重新采样和成本敏感的重新加权。在重采样中,通过对次要类进行过采样(添加重复数据)或对主要类进行欠采样(重新移动数据)或两者来直接调整示例的数量。在成本敏感的重加权中,我们通过分配9268103102头长尾101010002000300040005000分类索引重新加权有效样本数有效数量重新加权反类频率无需重新加权训练样本数量9269相对较高的成本来自次要类别的例子。在使用CNN的深度特征表示学习的上下文中,重新采样可能会引入大量重复的样本,这会减慢训练速度并使模型在过采样时容易过拟合,或者在欠采样时丢弃对特征学习由于将重新采样应用于CNN训练的这些缺点,本工作集中在重新加权方法上,即如何设计更好的类平衡损失。通常,我们分配样本权重或重新采样数据与类别频率成反比这种简单的启发式已被广泛采用[17,44]。然而,最近对大规模,真实世界,长尾数据集的训练工作[31,29]显示,使用这种策略时性能较差。相反,他们建议使用一个这些观察提出了一个有趣的问题:我们如何设计一个更好的类平衡的损失,适用于一个不同的数组的数据集有显着不同的规模和不平衡?我们的目的是从样本量的角度来回答这个问题。如图1所示,我们考虑训练一个模型来区分长尾数据集中的主要类和次要类。由于数据高度不平衡,直接训练模型或通过样本的倒数来重新加权损失不能产生令人满意的性能。直观地说,数据越多越好。然而,由于数据之间存在信息重叠,因此随着样本数量的增加,模型可以从数据中提取的边际效益会减少。鉴于此,我们提出了一种新的理论框架来表征数据重叠,并以模型和损失不可知的方式计算有效样本数。与有效样本数成反比的类平衡重加权项被添加到损失函数。广泛的实验结果表明,这个类平衡项显著提高了用于在长尾数据集上训练CNN的常用损失函数的性能我们的主要贡献可以概括如下:(1)我们提供了一个理论框架来研究有效样本数,并展示了如何设计一个类平衡项来处理长尾训练数据。(2)在已有的常用损失函数softmax交叉熵、sigmoid交叉熵和focal loss中加入类平衡项,可以显著提高性能。此外,我们还证明了我们的类平衡损失可以作为视觉识别的通用损失,在ILSVRC 2012上表现优于常用的我们相信,我们的研究量化的有效样本数和类平衡损失可以提供有用的指导工作在领域的长尾类分布。2. 相关工作以前对长尾不平衡数据的大多数努力可以分为两种机制:重新采样[36,12,4,51](包括过采样和欠采样)和成本敏感学习[39,50,17,23,35]。重新取样。过采样会添加来自次要类的重复样本,这可能导致模型过拟合。为了解决这个问题,新的样本可以从相邻样本[5]插值或合成[14,51],小班然而,由于新样本中的噪声,该模型仍然容易出错有人认为,即使过度采样会带来删除重要样本的风险,但采样不足仍优于过度采样[9]。成本敏感的学习。成本敏感学习可以追溯到统计学中的一种经典方法,称为重要性抽样[20],其中将权重分配给样本以匹配给定的数据分布。埃尔坎和al. [10]研究了在二元分类的情况下如何分配权重来调整对于不平衡的数据集,通常采用逆类频率[17,44]或类频率的平方根倒数[31,29]的平滑版本进行加权。作为平滑加权的一个理论基础框架的推广,我们专注于(a)如何量化样本的有效数量和(b)使用它来重新加权损失。另一项重要的工作旨在研究损失方面的样本难度,并为困难的例子分配更高的权重[11,30,8,27]。来自次要类别的样本往往比来自主要类别的样本具有更高的损失,因为在次要类别中学习的特征通常较差。然而,样本的难度和样本的数量之间没有直接的联系为困难示例分配更高权重的副作用是关注有害样本(例如,噪声数据或错误标记的数据)[24,33]。在我们的工作中,我们不对样本难度和数据分布做任何假设。通过在实验中使用我们的类平衡项来改善焦点损失[27],我们表明我们的方法与基于样本难度的重新加权是互补的值得一提的是,在处理数据不平衡方面的其他努力,包括将从主要类别学到的知识转移到次要类别[3,32,44,6,45],并通过度量学习[17,48,46]或贝叶斯不确定性估计[22]设计更好的训练目标。覆盖和有效样本量。 我们的理论框架受到随机覆盖问题[18]的启发,其中目标是通过一个序列覆盖一个大集合I.I.D.的顺序随机小集合。我们通过合理的假设简化了第3节中的本文提出的有效样本数与统计学中有效样本容量的概念当样本相关时,有效样本大小用于计算方差。92703. 有效样本我们制定的数据采样过程作为一个简化版本的随机覆盖。关键思想是将每个样本与一个小的相邻区域而不是单个点相关联。我们提出了我们的理论框架和公式计算有效样本数。3.1. 随机覆盖数据采样给定一个类,将该类特征空间中所有可能数据的集合表示为S。我们假设S的体积是N并且N≥1。将每个样本表示为S的子集,其具有单位体积1并且可以与其他样本重叠。 将数据采样过程视为随机覆盖问题,其中每个子集从S中随机抽样以覆盖整个S集。采样的数据越多,S的覆盖率就越好。预期的采样数据总量随着样本数量的增加而增加,并以N为界。因此,我们定义:定义1(有效数量)。有效样本数是预期样本体积。样本的预期体积的计算是一个非常困难的问题,取决于样本的形状和特征空间的维数[18]。为了使问题易于驯服,我们通过不考虑部分重叠的情况来简化问题。也就是说,我们假设新采样的数据点只能以两种方式与先前采样的数据交互:或者完全在先前采样的数据集内,p或完全在外面,概率为1−p,如图2所示。作为采样数据点的数量重叠(p)所有可能的数据(N)先前采样的数据新采样数据(1)图2.给定所有可能数据的集合和先前采样数据的集合,具有体积1的新样本具有p与先前数据重叠的概率和1-p不重叠的概率提案1(有效编号)。 En=(1−βn)/(1−β),其中β =(N − 1)/N。证据我们用归纳法证明了这个命题。很明显,E1=1,因为没有重叠。 所以E1=(1−β1)/(1−β)=1成立。现在让通常情况下,我们之前已经采样了n-1个示例,即将采样第n个示例。现在,先前采样的数据量为En−1,新采样的数据点与先前采样重叠的概率为p=En−1/N因此,第n个示例采样后的预期体积为:N−1En=pEn−1+ ( 1−p ) ( En−1+1 ) =1+NEn−1。(一)如果概率p增大,概率p也会增大。在我们深入研究数学公式之前,我们假设En−1 =(1−βn−1)/(1−β)成立,则讨论我们定义的有效样本数和真实世界的视觉数据之间的联系。我们的想法是通过使用一个类的更多数据点来由于内在的相似性,En= 1+β 1 −βn−1 =1 −β1−β+β−βn=1 −β1−βn.( 二)1 −β真实世界的数据,随着样本数量的增长,新添加的样本很可能是现有样本的近似重复。此外,CNN使用大量数据增强进行训练,其中将对输入数据应用随机裁剪,重新缩放和水平翻转等简单变换。在这种情况下,所有增强的示例也被认为与原始示例相同据推测,数据增强越强,N将越小。样本的小相邻区域是捕获可以通过数据增强获得的所有近似重复和实例的方式对于一个类,N可以被看作是唯一原型的数量。上述命题表明有效样本数是n的指数函数。超参数β∈[0,1)控制En随n增加而增长的速度。另一种解释的有效数En是:Σn−1En=(1 − βn)/(1 − β)=βj。(三)j=1这意味着第j个样本对有效数的贡献为βj−1。然后,该类中所有可能数据的预期总体积N可以计算为:3.2. 数学公式表示SAM的有效数量(预期体积)-N=limn→∞Σnj=1βj−1 =1/(1 − β)。(四)其中n∈Z>0是样本数。这与我们在命题中对β的定义是一致的9271我我Σ蕴涵1(渐近性质)。如果β=0,则En=1(N=1)。当β→1(N→ ∞)时,n → n.证据 如果β = 0,则En=(1 − 0n)/(1 − 0)=1。在β→1的情况下,记f(β)=1−βn和g(β)=1−β。100101102自从lim β→1 f(β)=limβ→1g(β)= 0,g′(β)=−1/= 0且limβ→1f′(β)/g′(β)=limβ→1(−nβn−1)/(−1)=n存在,使用L'Ho′103104100101102103104limEn= limf(β)= lim f(β)′=n.(五)地面实况类β→1β→1g(β)β→1g(β)图3.提出的类平衡项(1−β)/(1−βny)的可视化,其中ny是地面真值类中的样本数。两个轴均为对数刻度。对于长尾数据集,En的渐近性质表明,当N较大时,有效样本数等于样本数n。 在这种情况下,我们认为唯一原型的数量N很大,因此没有数据重叠,并且每个样本都是唯一的。在另一个极端,如果N=1,这意味着我们相信存在一个原型,这样这个类中的所有数据都可以通过数据扩充、转换等由这个原型表示。在主要类别比最小类别具有明显更多的样本的情况下,适当地设置β重新平衡了跨类别的相对损失,并且减少了由反向类别频率重新加权的剧烈不平衡。因 子( 1−β ) / ( 1−βni ) 到 损 失 函 数 , 超 参 数β∈[0,1)。类平衡(CB)损失可以写为:4. 类平衡损耗类别平衡损失旨在解决1CB(p,y)=ny1 −βL(p,y)=1−βnyL(p,y),(6)通过引入与有效样本数成反比的加权因子,从不平衡数据进行训练的问题。类平衡损耗项可以应用于广泛的深度网络和损耗函数。对于具有标签y ∈ {1,2,. . . ,C} 1,其中C是类的总数,假设模型的估计类概率为p = [p1,p2,. . .,pC]<$,其中pi∈ [0,1]<$i,我们将损失记为L(p,y)。假设类别i的样本数量为ni,基于等式,2、建议类的有效样本数nii是En=(1−β)/(1−βi),其中βi=(Ni−1)/Ni。如果没有每个类别的数据的进一步信息,很难凭经验找到一组好的超参数Ni对于所有班级。因此,在实践中,我们假设Ni仅依赖于数据集,并为数据集中的所有类设置Ni=N,βi=β=(N−1)/N为了平衡损失,我们引入了与类别i的有效样本数成反比的加权因子αi:αi1/Eni。大致算出总损失在相同的尺度下,当应用αi时,我们将αi归一化,其中,ny是地面实况类中的样本数y.我们将图3中的类平衡损失可视化为不同β的ny的函数。注意,β=0对应于没有重新加权,并且β-1对应于通过反类频率重新加权。提出的新概念的ef-有效的样本数使我们能够使用超参数β来在不重新加权和通过逆类频率重新加权之间平滑地调整类平衡项所提出的类平衡项是模型不可知和损失不可知的,在这个意义上,它是独立于损失函数L和预测类概率p的选择。为了证明所提出的类平衡损失是通用的,我们展示了如何将类平衡项应用于三种常见的使用的损失函数:softmax交叉熵损失、sigmoid交叉熵损失和焦点损失。4.1. 类平衡Softmax交叉熵损失假设所有类别的模型预测输出为z =[z1,z2,. . .其中C是类的总数。softmax函数将每个类的Ci=1 αi= C。为了简单起见,我们滥用作为互斥的,并计算概率分布,C1/Eni 以表示其余我们的纸。从形式上讲,给定一个I类样本,当pi=exp(zi)/j=1exp(zj),{1,2,. . .,C}。给定具有类别标签y的样本,该样本的软最大交叉熵(CE)损失被写为:总共收集了ni个样本,我们建议增加一个权重,1为了简单起见,我们通过假设恰好存在CE(z,y)=−log .exp(zy)Σ= 0.9= 0= 0.99= 0.999= 0.9999类平衡项E9272Σ.(七)一个样本的地面实况标签。softmaxCj=1 exp(zj)9273我我我我我我我假设类y有ny个训练样本,类平衡(CB)softmax交叉熵损失为:5004001 −β.Σexp(zy)300CBsoftmax(z,y)=−1−βnylogΣCj=1 exp(zj).(八)2004.2. 类平衡Sigmoid交叉熵损失与softmax不同,sigmoid函数计算的类概率当使用sigmoid函数时,我们重新-10000 10 20 30 40 50 60 70 80 90100CIFAR-100分类指数将多类视觉识别作为多个二进制分类任务,其中网络的每个输出节点执行一个对所有分类,以预测目标类相对于其余类的概率。与softmax相比,Sigmoid对于真实世界的数据集大概有两个优点:(1)Sigmoid(2)由于每个类都被认为是独立的,并且有自己的预测器,因此sigmoid将单标签分类与多标签预测统一起来。这是一个很好的属性,因为真实世界的数据通常有多个语义标签。使用与softmax交叉熵相同的符号,为了简单起见,我们将zt定义为:图4.在具有不同不平衡因子的人工创建的长尾CIFAR-100数据集中,数据集名称#类不平衡长尾CIFAR-101010.00 - 200.00长尾CIFAR-10010010.00 - 200.00iNaturalist 20175,089435.44iNaturalist 20188,142500.00ILSVRC 20121,0001.78表1.用于评估类平衡损失有效性的数据集。我们创建了CIFAR-10和CIFAR-100的5个长尾版本,不平衡因子分别为10、20、50、100和200。zt= .zi,如果i=y。(九)类平衡(CB)焦点损失为:i-zi,否则。CB焦点(z,y)=−1 −β ΣC (1 −pt)γlog(pt)。(十三)然后,S形交叉熵(CE)损失可以写为:1−βny我我i=1ΣCCEsigmoid(z,y)=−i=1ΣC=−i=1日志日志.ΣS形(zt).Σ11+ exp(−zt)。(十)原 始 的 焦 点 损 失 有 一 个 α 平 衡 的 变 体 。 当 αt=(1−β)/(1−βny)时,类平衡的焦点损失与α平衡的焦点损失相同。因此,类平衡项可以被视为基于有效样本数在焦点损失中设置αt的显式方式类平衡(CB)S形交叉熵损失为:5. 实验1 −βCBsigmoid(z,y)=−1−βnyΣCi=1日志.Σ11+ exp(−zt)。拟议的类平衡损失在人工创建的长尾CIFAR [25]数据集上进行评估,这些数据集具有可控制的数据不平衡程度和真实世界的长4.3.类平衡焦点损失(十一)尾数据集iNaturalist 2017 [41]和2018 [1]。到证明我们的损失是通用的视觉识别,我们还提出了实验上的ImageNet数据(ILSVRC最近提出的焦点损失(FL)[27]为S形交叉熵损失增加了一个调制因子,以减少分类良好的样本的相对损失,并专注于困难的样品。表示pt=sigmoid(zt)=1/(1+exp(−zt)),焦点损失可以写为:10.020.050.0100.0200.0每类图像数92742012 [34])。我们使用具有不同深度的深度残差网络(ResNet)[16],并从头开始训练所有网络。5.1. 数据集长尾CIFAR。去分析提议的课程-ΣCFL(z,y)=−(1 −pt)γlog(pt)。(十二)[25 ]第25话:一个人的幸福是什么?通过减少每个类的训练样本数量来实现我我i=1根据指数函数n=niµi,其中i9275数据集名称长尾CIFAR-10长尾CIFAR-100不平衡20010050201012001005020101Softmax34.3229.6425.1917.7713.616.6165.1661.6856.1548.8644.2929.07乙状34.5129.5523.8416.4012.976.3664.3961.2255.8548.5744.7328.39局灶性(γ= 0.第五章)36.0029.7723.2817.1113.196.7565.0061.3155.8848.9044.3028.55局灶性(γ= 1.0个)34.7129.6223.2917.2413.346.6064.3861.5955.6848.0544.2228.85局灶性(γ= 2.0个)35.1230.4123.4816.7713.686.6165.2561.6156.3048.9845.0028.52类平衡31.1125.4320.7315.6412.516.36米63.7760.4054.6847.4142.0128.39分损失类型SM焦焦SMSGMSGM焦焦SGM焦焦SGMβ0.99990.99990.99990.99990.9999-0.90.90.990.990.999-γ-1.02.0---1.01.0-0.50.5-表2.在长尾CIFAR-10和CIFAR-100上使用不同损失函数训练的ResNet-32的分类错误率。我们展示了通过交叉验证选择的最佳超参数(SM代表Softmax,SGM代表Sigmoid)的类平衡损失的最佳结果。类平衡损耗能够实现显著的性能增益。表示当每个类具有相同数量的样本,类平衡项总是1,因此它减少到原始损失函数。是类索引(0索引),ni是训练图像的原始数量,µ∈(0,1)。测试集保持不变。我们将数据集的不平衡因子定义为最大类中的训练样本数除以最小类。图4示出了在长尾CIFAR-100上每个类别的训练图像的数量,其中不平衡因子的范围从10到200。我们在长尾CIFAR-10和CIFAR-100上进行了实验.自然主义者。最近推出的iNaturalist物种分类和检测数据集[41]是一个真实世界的长尾数据集,在其2017年版本中包含来自5,089个类的579,184个训练图像,在其2018年版本中包含来自8,142个类的437,513个训练图像[1]。我们在实验中使用官方的训练和验证分割。ImageNet. 我们使用ILSVRC 2012 [34]分割,包含1,281,167个训练和50,000个验证图像。表1总结了我们实验中使用的所有数据集及其不平衡因子。5.2. 执行培训基于S形的损失。深度网络的常规训练方案初始化最后一个线性分类层,其中偏差b= 0。正如Linet al.[27],这可能导致使用sigmoid函数来获得类概率时训练的不稳定性。这是因为在最后一层使用b = 0和sigmoid函数会在训练开始时导致巨大的损失,因为每个类的输出概率接近于0。五、因此,对于具有S形交叉熵损失和焦点损失的训练,我们假设每个类的类先验是π=1/C,其中C是类的数量,并将最后一层的偏差初始化为b=−log((1−π)/π)。此外,我们去除了最后一层的偏置b的2-正则化(权重衰减)我们使用Tensorflow [2]通过带有动量的随机梯度下降来我们使用32层(ResNet-32)训练残差网络,在CIFAR上进行所有实验类似于Zagoruykoetal. [47],我们注意到在CIFAR上训练ResNets时的一个令人不安的影响,即在学习率下降后,损失和验证错误都逐渐我们发现,将学习率衰减设置为0。01而不是0。1解决了问题。CIFAR上的模型在单个NVIDIATitan X GPU上以128的批量大小训练了200个epoch。初始学习速率设置为0。1,然后衰减为0。01,并且再次在180个时期。我们还在前5个时期使用了学习率的线性预热[13]在iNat- uralist和ILSVRC 2012数据上,我们遵循了Goyal等人使用的相同训练策略。[13]并在单个Cloud TPU上训练批量为1024的残差网络。由于焦点损失的规模小于softmax和sigmoid交叉熵损失,因此在使用焦点损失进行训练时,我们分别在ILSVRC 2012和iNaturalist上使用了2倍和4倍代码、数据和预训练模型可从以下网址获得:https://github.com/richardaecn/class-balanced-loss.5.3. 长尾CIFAR我们对具有各种不平衡因素的长尾CIFAR数据集进行了广泛的研究。表2显示了ResNet-32在测试集上分类错误率方面的性能。我们给出了使用softmax交叉熵损失,sigmoid交叉熵损失,具有不同γ的焦点损失以及通过交叉验证选择的最佳超参数的对 于 损 失 类 型 , 超 参 数 的 搜 索 空 间 为 {softmax ,sigmoid,focal},β∈ {0}。九比零。99,0。999,0。9999}(第二节)4),且γ∈ {0. 五一0,2。[27 ]第27话:失去理智根据表2中的结果,我们有以下观察结果:结论:(1)在适当选择超参数的情况下,类平衡损失能够显著提高常用损失函数在长尾数据集上的性能.(2)Softmax交叉熵被过度地用作视觉识别任务的损失函数。怎么-9276CB局灶性(= 0.5)局灶性(= 0.5)CB乙状结肠乙状结肠CB Softmax错误率(%)长尾CIFAR-10(不平衡系数= 50)252423长尾CIFAR-100(不平衡系数= 50)5857225621200.9 0.99 0.9990.999550.9 0.99 0.999 0.999图5.在有和没有类平衡项的情况下训练时的分类错误率。在CIFAR-10上,类平衡损失在不同的β上产生一致的改善,β越大,改善越大。 在CIFAR-100上,β = 0。99或β = 0。999改善了原始损耗,而较大的β损害了性能。104长尾CIFAR-10(不平衡系数= 50)103长尾CIFAR-100(不平衡系数= 50)1031021021010 1 2 3 4 5 6 7 89CIFAR-10分类指数1010 10 20 30 40 50 60 70 80 90100CIFAR-100分类指数图6.长尾CIFAR-10和CIFAR-100上具有不同β的有效样本数,不平衡为50。这是一个半对数图,纵轴为对数刻度。当β→1时,有效样本数与样本数相同。当β较小时,有效样本数在所有类别中相似。然而,遵循5.2节中的训练策略,在大多数情况下,sigmoid交叉熵和焦点损失能够优于soft-max交叉熵。(3)最佳β为0。9999在CIFAR-10上一致通过。但在CIFAR-100上,具有不同不平衡因子的数据集倾向于具有不同且较小的最优β。为了理解β和类平衡损失更好的作用,我们使用不平衡因子为50的长尾数据集作为示例,以显示在图5中使用和不使用类平衡项训练时模型的错误率。有趣的是,对于CIFAR-10,类平衡项总是改善原始损失的性能,并且随着β的增大,可以获得更多的性能增益。然而,在CIFAR-100上,只有较小的β值可以提高性能,而较大的β值会降低性能。图6示出了不同β下的有效样本数。在CIFAR-10上,当基于β = 0重新加权时。9999,有效样本数接近样本数。这意味着CIFAR-10上的最佳重新加权策略类似于通过类频率。在CIFAR-100上,使用较大β的较差性能表明,通过反向类频率重新加权不是明智的选择。而是要使用更小的β,在类之间具有更平滑的权重这是合理的,因为β=(N−1)/N,所以较大的β意味着较大的N。正如第3节所讨论的,N可以解释为唯一原型的数量。 细粒度与粗粒度数据集相比,数据集应该具有较小的N例如,特定鸟类物种的独特原型的数量应该小于通用鸟类类别的独特原型的由于CIFAR-100中的类比CIFAR-10更细粒度,因此与CIFAR-10相比,CIFAR- 100应该具有更小的N这解释了我们对β效应的观察。5.4. 大规模数据集为了证明所提出的类平衡损失可以用于大规模的真实 世 界数 据 集 , 我 们在 iNaturalist 2017 , iNaturalist2018和ILSVRC 2012上展示了不同深度的ResNets的训练结果。CB局灶性(= 0.5)局灶性(= 0.5)CB乙状结肠乙状结肠CB Softmax数量的样本有效样本数(0.9999)有效样本数(0.999)有效样本数(0.99)有效样本数(0.9)错误率(%)数量的样本有效样本数(0.9999)有效样本数(0.999)有效样本数(0.99)有效样本数(0.9)有效样本数有效样本9277ResNet-50 SoftmaxResNet-50 CB焦点前1位误差(%)iNaturalist 2017iNaturalist 2018ILSVRC 2012网络损失βγ输入大小Top-1Top-5Top-1Top-5Top-1Top-5ResNet-50Softmax--224 ×22445.3822.6742.8621.3123.927.03ResNet-101Softmax--224 ×22442.5720.4239.4718.8622.656.47ResNet-152Softmax--224 ×22441.4219.4738.6118.0721.685.92ResNet-50CB焦点0.9990.5224 ×22441.9220.9238.8818.9722.716.72ResNet-101CB焦点0.9990.5224 ×22439.0618.9636.1217.1821.575.91ResNet-152CB焦点0.9990.5224 ×22438.0618.4235.2116.3420.875.61ResNet-50CB焦点0.9990.5320 ×32038.1618.2835.8416.8521.996.27ResNet-101CB焦点0.9990.5320 ×32034.9615.9032.0214.2720.255.34ResNet-152CB焦点0.9990.5320 ×32033.7314.9630.9513.5419.724.97表3.用不同损失函数训练的大规模数据集的分类错误率。所提出的类平衡项与焦点损失(CB Focal)相结合,能够大大优于softmax交叉熵。ILSVRC 2012605550451009080iNaturalist 201870403560305025200 10 20 30 40 50 60 70 8090历元400 10 20 30 40 50 60 70 80 90历元图7.ResNet-50在ILSVRC 2012(左)和iNaturalist 2018(右)上的训练曲线β = 0时的类平衡焦点损失。999和γ= 0。5在60个epochs后优于softmax交叉熵表3总结了所有数据集的验证集上的前1和前5错误率我们使用类平衡的焦点损失,因为它具有更大的灵活性,并发现β=0。999和γ=0。5在所有数据集上都有相当好的性能。从结果中我们可以看到,我们能够在ILSVRC 2012上超过值得注意的是,当使用类平衡焦点损失来代替softmax交叉熵损失时,ResNet-50能够实现与 iNaturalist 上的ResNet- 152和 ILSVRC 2012 上的ResNet-101 相 当 的 性 能 。 ILSVRC 2012 和 iNaturalist2018的训练曲线如图7所示。类平衡焦点丢失在60个训练周期6. 结论与讨论在这项工作中,我们提出了一个理论上健全的框架,以解决问题的长尾分布的训练数据。 其核心思想是将数据重叠考虑在内,以帮助量化有效数量的样本。在这个框架下,我们进一步提出了一个类平衡的损失,重新重量损失与每个类的有效样本数成人工诱导的长尾CIFAR数据集进行了广泛的研究,以了解和分析拟议的损失。类平衡损失的好处已经在CIFAR和大规模数据集(包括iNaturalist和ImageNet)上的实验中得到了验证我们提出的框架提供了一个非参数的手段量化数据重叠,因为我们这使得我们的损失一般适用于广泛的现有模型和损失函数。直觉上,如果我们知道数据的分布,就可以得到更好的有效样本数在未来,我们计划通过对数据分布的合理假设或设计基于学习的自适应方法来扩展我们谢谢。这项工作得到了谷歌重点研究奖的部分支持。前1位误差(%)ResNet-50 SoftmaxResNet-50 CB焦点9278引用[1] iNaturalist 2018 竞 赛 数 据 集 。 网 址 : http ://github.com/visipedia/inat_comp五、六[2] Mart´ın Abadi, Paul Barham , Jianmin Chen , ZhifengChen , Andy Davis , Jeffrey Dean , Matthieu Devin ,Sanjay Ghe-mawat,Geoffrey Irving,Michael Isard,etal. Tensorflow:一个大规模机器学习系统。在OSDI,2016。6[3] 萨米·本吉奥长尾计算机视觉问题的共享表示InICMI,2015. 一、二[4] Mateusz Buda、Atsuto Maki和Maciej A Mazurowski。卷积神经网络中类不平衡问题的系统研究神经网络,2018。一、二[5] Nitesh V Chawla,Kevin W Bowyer,Lawrence O Hall,and W Philip Kegelmeyer. Smote:合成少数过采样技术。JAIR,2002年。2[6] Yin Cui,Yang Song,Chen Sun,Andrew Howard,andSerge Belongie.大规模细粒度分类和特定领域迁移学习。在CVPR,2018年。2[7] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。CVPR,2009。1[8] 齐东,龚少刚,朱夏天。用于不平衡深度学习的类校正硬挖掘。InICCV,2017. 2[9] Chris Drummond,Robert C Holte,等. C4. 5、等级不平衡和成本敏感性:为什么欠采样胜过过采样。ICML研讨会,2003年。2[10] 查尔斯·埃尔坎成本敏感学习的基础在IJCAI,2001年。2[11] Yoav Freund和Robert E Schapire。在线学习的决策理论推广及其在boosting中的应用。计算机与系统科学杂志,1997。2[12] Yonatan Geifman和Ran El-Yaniv长尾上的深度主动学习。arXiv预印本arXiv:1711.00941,2017。一、二[13] PriyaGo yal , PiotrDolla´r , RossGirshick , PieterNoord-huis , Lukasz Wesolowski , Aapo Kyrola , AndrewTulloch,Yangqing Jia,and Kaiming He.准确、大的小批量sgd:1小时内训练imagenet arXiv预印本arXiv:1706.02677,2017。6[14] Haibo He,Yang Bai,Edwardo A Garcia,and Shutao Li.Adasyn:用于不平衡学习的自适应合成采样方法。IEEEInternational Joint Conference on Neural Networks,2008。2[15] 何海波和爱德华多·加西亚。从不平衡的数据中学习IEEE Transactions on Knowledge Data Engineering ,2008。1[16] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。一、五[17] Chen Huang,Yining Li,Chen Change Loy,and XiaoouTang.学习不平衡分类的深度表示。在CVPR,2016年。一、二[18] 斯万特·詹森 多个维度的随机覆盖物数学学报,1986年。二、三9279[19] 纳塔莉·雅普科维奇和莎朱·斯蒂芬。班级不平衡问题:一项系统研究。智能数据分析,2002年。1[20] 赫尔曼·卡恩和安迪·马歇尔。蒙特卡罗计算中减少样本量美国手术研究学会杂志,1953年。2[21] Maurice George Kendall等先进的静力学理论先进的统计学理论。,(第二版),1946年。1[22] Salman Khan , Munawar Hayat , Waqas Zamir ,Jianbing Shen,and Ling Shao.在不确定性中找到正确的平衡。在CVPR,2019年。2[23] SalmanHKhan , MunawarHayat , MohammedBennamoun,Ferdous A Sohel,and Roberto Togneri.从不平衡数据中对深度特征表示进行成本敏感的IEEEtransactions on neural networks and learning systems ,2018。2[24] Pang Wei Koh和Percy Liang。通过影响函数理解黑盒预测。ICML,2017。2[25] 亚历克斯·克列日夫斯基和杰弗里·辛顿从微小的图像中学习多层特征。技术报告,Cite- seer,2009年。一、五[26] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。在神经信息处理系统,2012年。1[27] Tsung-YiLin ,P
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功