没有合适的资源?快使用搜索试试~ 我知道了~
5017不平衡数据分类王毅如,甘伟豪,杨杰,吴伟,严俊杰商汤科技集团有限公司{wangyiru,ganweihao,yangjie,wuwei,yanjunjie}@ sensetime.com摘要人体属性分析是计算机视觉领域中一项具有挑战性的课题。其中一个重大的困难是来自大部分不平衡分布的数据。传统的技术,如重新采样和成本敏感的学习需要先验知识来训练系统。针对这一问题,本文提出了动态课程学习(Dynamic Curriculum Learning,DCL)的统一框架,自适应地调整抽样策略,并在每一批中进行权重损失,从而提高了泛化能力和区分能力。受课程学习的启发,DCL由两级课程安排器组成:(1)抽样方案,对数据分布进行了由不平衡到平衡、由易到难的管理;(2)损失调度器,其控制分类和度量学习损失之间的学习重要性。有了这两个调度器,我们在广泛使用的人脸属性数据集CelebA和行人属性数据集RAP上实现了最先进的性能。1. 介绍包括面部特征和服装类别在内的人体属性分析在然而,与ImageNet挑战[28]等一般图像分类问题不同,人类属性分析自然涉及很大程度上不平衡的数据分布。例如,当收集属性为“秃头”的人脸数据时,大多数会被标记为“无秃头”,并且其与“秃头”类别的对不同类别中的样本训练具有同等重要性的分类模型可能导致对数据的多数类别的偏差和对少数类别的较差准确性因此,处理不平衡数据学习问题,特别是在人的属性分析中具有重要意义在过去的几年里,对于一般的不平衡数据学习,取得了令人印象深刻的结果一个直观的动机-*同等缴款。vation是resolution [2,9,13,16,36,15],它要么对少数类数据进行过采样,要么对主要类数据进行下采样,以平衡数据分布。然而,过采样容易导致过拟合问题,因为重复访问少数样本,而下采样可能会丢弃大多数样本中的许多有用信息另一种称为成本敏感学习的方法也被用来处理不平衡的数据学习问题,这直接对错误分类的少数类施加了更大的成本[48,50,55,57]。然而,要确定不同分布下不同样本的精确成本是很困难的. Hand等人[14]提出了一种分批方法,该方法选择多数样本的一部分,并增加少数样本的权重,以匹配预定义的目标分布。除了标准的交叉熵分类损失,Dong et al.[7,8]建议增加另一个类纠正损失(CRL),以避免多数类的支配效应。通过上述方法,提出了一种针对非平衡数据集的度量方法对于一般的分类问题,类偏差精度被定义为正确预测的样本数除以整个测试数据的数量。而对于不平衡数据分类,类平衡准确率定义为每一类准确率的平均值。我们提出的动态课程学习(DCL)的方法是出于以下两个考虑。(1) 采样是一个可以接受的策略的问题,但保持在一个平衡的分布在整个过程中的目标将损害泛化能力,特别是对于一个很大程度上不平衡的任务。例如,在具有均衡目标分布的学习的早期阶段,系统丢弃大量多数样本而过多地强调少数样本,倾向于学习少数类的有效表示而学习多数类的差/不稳定表示。然而,我们期望的是使系统首先学习目标属性上的两个类的适当的一般表示,然后将样本分类到正确的标签中,这导致类偏差准确度和类平衡准确度之间的有利平衡。(2)交叉熵损失和度量学习损失相结合是合理的5018(ML)因为适当的特征表示可能有助于分类。然而,我们认为这两个组成部分的侧重点不同在训练过程中平等对待它们并不能充分利用深度CNN的辨别力具体来说,CE通过分配特定的标签来更关注分类任务,而ML更关注学习软特征嵌入以在特征空间中分离不同的样本而不分配标签。与前一点类似,我们希望系统首先学习适当的特征表示,然后将样本分类为正确的标签。在课程学习的精神[1],我们提出了动态课程学习(DCL)框架的非平衡数据学习。具体来说,我们设计了两个层次的课程设置:(1)采样调度器:它的目标是在一批样本中找到最有意义的样本进行训练模型动态地由不平衡到平衡、由易到难;(2)损失计划:它控制分类损失和度量学习损失之间的学习权重。这两个分量可以由反映模型学习状态的sched-scheder函数来定义。总结我们的贡献:• 本文首次将课程学习的思想引入非平衡数据学习问题。基于在所设计的调度器功能上,提出了动态采样操作和损耗反向传播两种课程调度器。• 所提出的DCL框架是一个统一的表示,它可以推广到几个现有的国家,具有相应设置的最先进的方法。• 我们在常用的人脸属性数据集CelebA [35]和行人属性数据集RAP [31]上实现了新的最先进性能。2. 相关工作不平衡的数据学习 有几组方法试图解决文献中的不平衡学习问题。(1)数据级别:考虑到数据的不平衡分布,一种直观的方法是将数据[2,9,13,16,36,38,17,10]重新分配到平衡分布中,这可以对少数类数据进行过采样,并对多数类数据进行下采样。一种称为SMOTE [2,3]的高级采样方法增加了通过插值相邻数据点创建的人工示例。有人提出了这种技术的一些扩展[13,36]。然而,过采样由于重复访问少数样本而容易引起过拟合问题.而下采样通常会丢弃大多数样本中的许多有用信息。(2)企业级:成本敏感学习旨在通过直接对未成年人错误分类施加更高的成本来避免上述问题,[48,50,55,57,53,49]。然而,如何在不同的问题设置或环境中确定成本表示仍然是一个悬而未决的问题。除了成本敏感学习之外,另一种选择是在测试期间改变决策阈值,这被称为阈值调整技术[5,54,57]。(3)混合:这是一种结合了上述一种或两种类别的多种技术的方法。广泛使用的例子是集成思想。EasyEntrance和BalanceCascade是在欠采样子集上训练分类器委员会的方法[34]。另一方面,SMOTEBoost是 增强和SMOTE过采样的组合[4]。一些方法如[37,26,44,51,56,39]也注意到不平衡数据集中的噪声样本。深度不平衡学习最近,已经提出了几种用于不平衡数据学习的深度方法[7,8,14,19,20,22,24,25,45,57,42,6]。一个主要方向-目的是将采样思想和成本学习集成到一个高效的端到端深度学习框架中。Jeatrakul等人[22]将互补神经网络视为欠采样技术,并将其与基于SMOTE的过采样相结合,以重新平衡数据。Zhou等人[57]研究了用于训练成本敏感神经网络的数据恢复。在[24,6]中,成本敏感的深度特征和成本参数被联合优化。Oquab等人[38]重新采样前景和背景图像块的数量,用于学习卷积神经网络(CNN)进行对象分类。Hand等人。[14]提出了一种选择性学习(SL)方法,用于将一批样本另一个最近的方向的问题涉及到度量学习系统。Dong等人。[7,8]提出了一种类校正损失(CRL)正则化算法,通过发现少数类的稀疏采样边界来避免多数类的主导效应最近,提出了LMLE/CLMLE [19,20],以通过在类内和类间聚类之间强制执行大的余量来保留局部类结构。课程学习。课程学习的思想最初在[1]中提出,它表明从易到难的学习策略显著提高了深层模型的泛化能力。到目前为止,通过课程学习所做的工作主要集中在视觉类别发现[29,41],对象跟踪[47],半/弱-监督学习[11,12,23,40]等[40]提出了一种方法,该方法按顺序处理多个任务,在后续任务之间共享,而不是通过找到要学习的任务的最佳顺序来联合解决所有任务很少有著作探讨学习不平衡问题。Guo等人[12]通过在弱监督框架中进行课程学习,开发了一种有原则的学习策略,目标是从不平衡的数据中有效学习。5019D3. 方法针对不平衡数据分类问题,提出了一个动态课程学习(DCL)框架,该框架由两级课程学习器组成。第一个是一个采样调度器,其核心思想是在一批样本中找出最显著的样本,动态地训练模型,使数据分布从不平衡到平衡,从易到难。该调度器确定所提出的动态选择性学习(DSL)损失函数的采样策略。第二个是损失调度器,它控制两个损失之间的学习重要性:DSL损失和度量学习损失(三重损失)。因此,在训练过程的前期,系统更多地关注于软特征空间的嵌入,而在后期,系统更多地关注于分类任务。3.1. 功能设计传统的课程学习方法大多是手工定义不同的培训策略。而在我们提出的不平衡数据学习的DCL框架中,我们用不同的函数组来表达课程安排的关键思想,我们称之为“函数”。我们展示了这些功能的语义解释。调度器函数SF(l)是返回值的函数,该值随着输入变量l从1单调递减到0,输入变量l表示当前训练时期。它图1.设计了四种类型的调度器功能。3.2. 取样管采样是处理不平衡数据学习最常用的技术之一。在本节中,我们将介绍基于采样调度器的动态选择性学习(DSL)组件。采样调度器在训练过程中动态地将批中的目标分布从不平衡调整为平衡。解释性地,对于每个属性,我们将数据分布D的第j个元素定义为第j个类样本的数量除以少数样本(最少一个)的数量按升序排列,我们有:D= 1:#C1:#C2:. :#CK−1(5)反映模型学习状况,衡量课程,#Cmin#Cmin#Cminlum学习速度。我们探索几个函数类,如下所示(如图1所示):• 凸函数:表示学习速度由慢到快。举例来说其中K是类别的数量,#C i是类别i中的样本数量。每个属性都有其训练分布Dtrain,这是一个全局统计量。采样调度器确定目标数据分布,L(1)A = 0(π (1)每个批次中的属性最初,目标分布-cosL2一个属性D的分配目标 (0) 设置为D火车• 线性函数:表示恒定的学习速度。举例来说L这是不平衡的分布。在培训过程中cess,它逐渐转移到具有以下函数的平衡分布(每个元素由g(l)供电):SFlinear(l)= 1 −L(2)三维靶(l)=D火车g(l)(6)• 凹函数:表示学习速度从快到慢。举例来说SFexp(l)=λl(3)• 复合功能:表示学习速度从慢到快,然后再慢。举例来说1升1其中,l是指当前训练时期,g(l)是采样调度器函数,其可以是第二章中的任何选择第3.1节。根据目标分布Dtarget(1),动态选取多数类样本,并在不同时期对少数类样本进行重新加权,以确定一批中不同的目标分布。因此,DSL损耗被定义为:SF复合(1)=2cos(Lπ)+2(4)其中L是指预期的总训练时期,λ是独立的超参数,在(0,1)的范围内。1ΣMLDSL= −NNjwjlog(p(yi,j=y<$i,j|(7)不同类别的SF(l)表示不同的curricu。lum学习风格。 根据上述计划,j=1i=1.D(l)(l)基于这些功能,我们提出了动态课程学习wj=目标,jD电流,j如果目标,j≥1当前,j(八)不平衡数据分类框架。0/1,如果D目标,j(l)1<当前,jD5020DD其中N是批量大小,N j是当前批量中第j个类的样本数,M是类数,y<$i,j是基础真值标签。 wj是类J. D类目标,j(l)是当前时刻l的第j类目标分布. D电流,j为采样前当前批次的第j类分布. 如果D目标,j(l)<1,我们采样当前,jD目标,j(l)第j类数据占原始权重的百分比当前,j1和0的双引号。如果不是,则第j类是最小类,并且较大的权重被分配给样本。使用不同的采样调度器函数(前一节中的四种类型),批次目标分布从训练集有偏分布变为平衡分布。在起始时期,g(0)= 1,目标分布D等于训练集分布;换句话说,就是真实世界的分布。在最后一个时期,g(l)接近于0,因此目标分布D中的所有元素都接近于1(0的幂)。换句话说,这是一种均衡的分配。学习率通常被设置为符合衰减函数。在训练过程的早期阶段,具有大的学习率和有偏分布,课程调度器管理模型以在整个训练数据上学习更多通常,系统在这个阶段学习许多简单的样本。随着训练过程的深入,目标分布逐渐趋于均衡.通过选择多数样本和重新加权的少数样本,该系统更关注困难的情况。3.3. 使用Easy Correlator进行度量学习除了损失函数L_DSL之外,我们还引入了一个度量学习损失,以学习更好的特征嵌入,用于不平衡数据分类。度量学习损失的一个典型选择是三元组损失,这是由CRL[8]引入的硬挖掘。将错误类上具有高预测分数的样本然后,我们从锚点和一些硬阳性和阴性样本中构建三联体对。的图2.该图可视化了CRL中的三重丢失情况[8],其中选择硬阳性样本作为锚点。假设最小类为正类,图中所示的三元组对试图将正样本和负样本两者它会导致正样本的特征更加混乱。图3.该图可视化了我们提出的三重损失的情况,仅使用简单的阳性样本作为锚点。由于易正样本我们提出的方法可以避免图2中的情况。就像把容易的阳性样本拉到阴性侧一样。示例如图2所示。我们提出了一种方法来改善三重损失的采样操作与简单的参数LTEA,定义如下:CRL中的损失函数定义如下:.LTEA=ΣΣTmax.Σ0,mj+d(xeasy,j,x+,j)−d(xeasy,j,x−,j)|T|Lcrl=ΣTmax0,mj+d(xall,j,x+,j|T|)−d(xall,j,x−,j)(九)(十)其中,xeasy,j是指类别j中的容易少数样本,其他类似于等式9。定义了简单锚点其中,m , j是指三重损失中的类j的裕度,并且d( ·)表示两个样本之间的特征距离。在当前批次中,xall,j表示类别j中的所有样本,x+,j和x-,j表示多个ive样本,neg表示ive sam。请分别。 T是指三联体对的数量。在CRL[8]中,所有少数类样本都被选为候选。我们将简单样本定义为正确预测的样本。选择所有少数样本作为锚对于模型学习来说是不稳定的,因为它可能会导致诸如作为高置信度正确预测的少数样本。的要选择的硬阳性、硬阴性和易锚的数量由超参数k确定。在LTEA损失下,只选择少数类中的易样本作为锚点,从而拉取硬正样本更接近并进一步推动硬阴性样品。如图3所示。与CRL选择所有少数样本作为锚点对特征空间进行校正不同,该方法根据分类器的分类结果选择容易的锚点,将所有样本拉到较好的特征空间,5021阿斯塔纳i机密的一面此外,我们采用硬样本挖掘那些选定的容易锚建立三重损失。3.4. 损失为了更好地训练模型,我们分析了两种损失的不同特征。一般来说,三元组损失的目标是学习一个软特征嵌入,在特征空间中分离不同的样本,而不分配标签,而交叉熵损失的目标是通过分配特定的标签分类特别是对于不平衡数据学习,我们想要的是系统首先学习适当的特征表示,然后有利于分类。因此,为了充分利用这两个属性,我们设计了一个损失课程调度器f(l)来管理这两个损失。即使我们可以选择任何一个时间表在3.1节中,我们使用复合函数(等式4)作为示例。模型使用以下调度器学习:LDCL=LDSL+f(1)=LTEA(11). 1cos(lπ)+1+πifl pL方法g(x)f(x)交叉熵10选择性学习[14]0/10CRL-I[7]1ǫDCL(我们的)采样调度程序损失调度程序表1.将所提出的动态课程学习方法推广到具有相应设置的其他非聚类不平衡学习方法。重新采样操作,并且仅使用固定权重进行度量学习。4. 实验4.1. 数据集CelebA[35]是一个人类面部属性数据集,具有40个二元分类的注释。CelebA是一个不平衡的数据集,特别是在某些属性上,其中样本不平衡水平(多数类率-50%)可能高达48。该数据集包含来自10,177个不同人的202,599张图像。RAP[31]是一个针对行人的注释丰富的数据集,f(l)= 2L2(12)如果l≥pL,其中l是指当前训练时期,L是指预期的总训练时期。小的修改包括超参数p在[0,1]范围内,这被定义为先进的自学习点。此外,λ是自学习比率。我们在这里有一个非零的参数的原因是,即使在自学习阶段,模型仍然需要保持在前面的阶段中学习的特征结构。在训练的早期阶段,大的权重被初始化为用于学习软特征嵌入的三元组损失LTEA,并且相对于调度器函数随时间减小在后期阶段,调度器分配小的影响在LTEA和系统的研究中,更多地强调了动态选择性丢失LDSL来学习分类。最后,当它达到自学点,没有'老师'的调度员是必须的。该模型自动微调在真实的监控场景中的致敬识别。它包含来自26个室内摄像机的41,585张图像,具有72种不同的属性。RAP是一个高度不平衡的数据集,不平衡比率(少数样本对多数样本)高达1:1800。CIFAR-100[27]是一个32×32像素的自然图像分类数据集。它包含50,000张用于训练的图像和10,000张用于测试的图像。 这是一个平衡的数据集,100节课。每个类包含相同数量的图像。4.2. 评估指标对于CelebA数据集和RAP数据集,遵循标准配置文件,我们对每个任务应用类平衡准确度(二进制分类),然后计算所有任务的平均准确度作为总体度量。其公式如下:参数直到收敛。3.5. DCL框架mAi= 1(TPi2Pi+TNiNi )(13)为了解决数据学习不平衡的问题,我们提出了动态课程学习框架。Revis-|C|mA=i=1|C|(十四)在整个系统中,DCL由两级课程管理器组成一个是采样g(l),另一个是损失学习f(l)。我们可以发现,几个国家的最先进的不平衡学习方法可以概括从框架与不同的设置为用户。核心-反应列于表1。选择性学习[14]不包含度量学习,只使用固定的目标分布。 CRL-I[7]不包含重新加权或其中,mAi表示第i个任务,TPi和Pi表示第i个任务的预测真阳性样本和基础事实中的阳性样本的计数,而TNi和Ni表示相反的计数 |C|是任务的数量。对于CIFAR-100数据集,由于每个类拥有相同数量的实例,因此类平衡精度等于类偏差精度。5022表2. CelebA数据集上每个属性的每个类别(%)和类别不平衡水平(大多数类别率-50%)的类别平衡平均准确度(mA)。第一名/第二名的最佳结果以红色/蓝色突出显示。吸引力张着嘴微笑涂口红高颧骨男性浓妆卷发瓜子脸尖鼻子拱形的眉毛黑发大嘴唇大鼻子年轻直发棕色头发眼袋戴耳环没有胡子刘海不平衡级别122358111822222326262728293030313335美国(公告牌百强单曲榜)[46]788989928494887363667783627376657974758891超采样[9]778990928495877063677984617375668273768890下采样[9]788790918090897058637080617680617671708888价格敏感型[16]788990918593897564657885617475678474768890选择性学习[14]819192938697907866707987667783728479809394CRL-I [7]839593948996847966738090688084738680839495LMLE [19]889699999299988368727992608087738773839698CLMLE [20]909799989499988772788695668590808982869899DCL(我们的)839393958898928170738289698086768682859596金发浓密的眉毛戴项链狭眸5发际线戴领带眼镜桃面山羊胡子胖乎乎鬓角模糊戴帽子双下巴苍白的皮肤白发胡子光头平均不平衡级别35363838394243444444444445454546464648美国(公告牌百强单曲榜)[46]9078706485818392869081897490838190889381.17超采样[9]9080716585827991908983907689848290909281.48下采样[9]8575666182798085828578806890807888607977.45价格敏感型[16]8979716584818291928682907690848090889381.60选择性学习[14]9385737489879297909487948696899294929585.93CRL-I [7]9584747290878896889687928598899295949786.60LMLE [19]9982595982769098789579885999748091739083.83CLMLE [20]9988697191829699869885947299879496829588.78DCL(我们的)9587767993909599929793979399949699979989.054.3. 在CelebA人脸数据集4.3.1实现细节网络架构我们使用DeepID2[46]作为CelebA实验的骨干,以进行公平的比较。DeepID2[46]是4个卷积层的CNN。表2中列出的所有实验都将DeepID 2 [46]设置为主干。基线是用一个简单的交叉熵损失训练的。由于CelebA是一个多任务数据集,我们为每个任务分支设置了一个独立的64D特征层和一个最终输出层对于每个分支,它考虑其自身的当前和目标分布,并生成单个属性损失(等式12)。然后我们总结它们,以联合学习的方式进行反向传播。我们以0.003的学习率训练DCL,批量大小为512,训练时间为300,权重衰减为0.0005。水平翻转在训练中应用具体地,我们将采样调度器设置为等式1中的凸函数,将损耗调度器设置为等式12中的复合函数,其中高级自学习点p为0.3,并且L_TEA(等式10)中的k为25。保证金设置为0.2。时间性能我们使用TITAN XPGPU。与需要20小时训练的基线DeepID 2相比,DCL训练框架在相同的300个epoch下花费20.5小时收敛(仅多0.5小时用于采样和损失计算)。4.3.2整体性能我们将我们提出的方法DCL与DeepID2 [46],[9]中的过采样和下采样,成本敏感[16],选择性学习(SL)[14],CRL[7],LMLE[19]和CLMLE[20]进行了比较。表2显示了CelebA的总体结果。我们评估的基线是具有标准交叉熵损失的通用人脸分类框架DeepID 2[46],其中我们实现了约8%的性能改进。与最近的先进 方 法 相 比 , 我 们 的 方 法 优 于 选 择 性 学 习 [14]的3.12% , CRL-I[7] 的 2.45% , LMLE[19] 的 5.22% 和CLMLE[20]的0.27%分别具体地,LMLE/CLMLE方法是基于样本聚类的方法。然而,一个样本通常与多个不同的属性捆绑在一起。处理不同属性5023图4. DCL、CRL和CLMLE相对于DeepID2的性能增益在不平衡率方面的比较。方法SSTLLS性能1:基线(DeepID2)00081.172:1 + SS10086.583:2 + TL11087.554:3 + LS11189.05表3.每个组件的消融研究:SS-采样计划,TL-三重损失与容易锚,LS-损失补偿。方法性能1:DeepID281.172:DeepID2 + Convex86.583:DeepID2 +线性86.364:DeepID2+凹面(λ = 0. 99)85.905:DeepID2 +复合86.07* :DeepID2 +线性递减不平衡85.11表4.不同调度函数选择之间的性能比较。该表中的方法2对应于表3中的方法2。在构建五元组(四个样本)。在我们提出的DCL方法中,它根据不同属性的分布分别对待不同的属性,并且在属性级定义了三元组损失此外,我们的方法是计算效率与最小的额外时间成本的交叉熵损失。在LMLE/CLMLE中,每轮深度模型学习都需要计算昂贵的数据预处理(包括要为每个数据样本创建一个五元组,需要四个聚类和类级搜索。4.3.3数据不平衡级别在 这 一 部 分 中 , 我 们 展 示 了 与 图 4 中 的 基 线 方 法DeepID 2相比,每个属性在数据不平衡水平方面的性能提升。图中红色、蓝色、绿色曲线分别表示DCL、CRL、CLMLE。横轴表示不平衡水平纵轴是每种方法相对于基线的性能增益。我们可以观察到,我们提出的DCL方法稳定地提高了所有属性的性能,而其他属性的性能则有所下降。具体来说,CRL在属性“浓妆”(-4%:11级)上较差当数据分布由不平衡向平衡过渡时,该方法比其他两种方法在学习的后期,该模型更多地关注少数类,同时仍然保持对多数类的适当记忆。改进最显著的属性是考虑到这三种方法都采用相同的骨干,结果显示了DCL训练框架的优势。4.3.4消融研究在DCL框架中有几个重要的部分,包括采样调度器,三重丢失与容易锚和丢失调度器的设计我们在表3中提供了消融研究,以说明每个组件的优势。采样调度器(SS)旨在动态管理目标数据从不平衡到平衡(从易到难)的分布以及每个样本的权重在LDSL中(等式7)。具有容易锚的三重态损失(TL)修 改 了 三 重 态 对 的 锚 选 择 以 用 于 更 好 的 学 习(LTEA)。丢失调度器(LS)控制LDSL丢失和LTEA丢失之间的学习重要性。从表中我们可以看到,我们的两个重要的课程设置者,对整个系统的性能增益贡献很大4.3.5功能选择由于我们设计了几个具有不同属性的调度器函数,因此我们还对它们进行了分析实验设置为只包含采样调度器的选择变量,禁用易锚和丢失调度器的度量学习以避免相互影响。在表4中,请记住,方法(2-5)的目标分布是通过幂运算(等式4)进行非线性调整的6)调度器函数值。对于方法(*),分布是简单的线性下降到1在训练结束时。我们可以观察到方法(*)比其他方法差得多同时,凸函数也是采样调度器的一种较好选择。根据表示学习速度的调度函数的定义,说明系统在训练开始时先缓慢学习不平衡数据,然后再加速学习平衡数据。5024方法[30]第三十话[21]第二十一话[33]第三十三话JRL[52]VeSPA[43]LG-网[32]DCL(我们的)马73.875.476.177.877.778.783.7表5.与RAP[31]数据集上最先进的方法进行比较第一名/第二名的最佳结果以红色/蓝色突出显示交叉熵CRL[7]DCL(我们的)精度68.169.3(+1.2)71.5(+3.4)表6.不同组不平衡比的平均平衡平均准确度(mA)Baseline是一个使用交叉熵损失训练的ResNet-50模型。4.4. RAP行人数据集实验研究表7.CIFAR100数据集的结果(相对于基线改善)。基线是一个使用交叉熵损失训练的ResNet-50模型。从表6中,我们可以观察到,对于具有at-当不平衡率从1 ∶ 25时,我们的方法比基线方法高出3.8% 当数据更加不平衡时4.4.1实现细节网络架构我们使用ResNet-50[18]作为我们提出的方法的骨干。对于每个属性,我们设置了一个额外的64维特征层和一个最终输出层。表6中的基线是在多任务学习框架中使用交叉熵损失训练的ResNet-50模型。我们训练DCL,批量大小为512,学习率为0.003,衰减为0.0005,历元为300. 水平翻转在训练中应用具体地,我们将采样调度器设置为等式1中的凸函数,将损耗调度器设置为等式12中的复合函数,其中高级自学习点p为0.3,并且L_TEA(等式10)中的k为25。4.4.2总体评价对于总体评估,我们包括在此数据集中评估的几种最先进的方法,包括Deep-Mar [30],Inception-v2 [21],HP-net [33],JRL [52],VeSPA [43]和LG-Net [32]。表5显示了RAP数据集中每种方法的平均类平衡平均准确度(mA)。第一/第二最佳结果分别以红色/蓝色突出显示。我们可以看到,我们提出的DCL方法优于以前的 最 佳 方 法 ( LG-Net ) , 具 有 很 大 的 性 能 增 益(5%)。在计算复杂度方面,像LG-网和HP-网这样的方法将类注意力应用于它们的模型,因此它们的方法在训练和推理中占用更多的资源。我们提出的方法是一个端到端的框架,具有很小的额外成本。4.4.3数据不平衡比率的影响不 同 于 CelebA 中 不 平 衡 水 平 的 定 义 ( 多 数 类 率 -50%),RAP中的不平衡比率(1:x)是少数样本与多数样本的比率。如前所述,该数据集中有70个属性,不平衡率高达1:1800。因此,为了显示我们的方法对不平衡数据学习的优势,我们将属性分为三类,并将平均mA与基线方法进行比较。的DCL分布在第2组(比值为25 × 50)和第3组(比值>50)中,分别达到15.0%和17.5增益,分别。 这一结果表明,我们的亲-提出的DCL方法确实有效地适用于极不平衡的数据学习。4.5. 在CIFAR 100数据集上的实验为了验证我们的方法的泛化能力,我们使用我们的学习框架在平衡数据集CIFAR-100上进行了实验。在这种平衡的情况下,表2中的方法[9,16,14]与具有交叉熵损失的基线方法相同。此外,没有性能报告的LMLE/CLMLE的泛化检查。因此,我们在表7中将结果与基线和CRL[7]进行了比较。从结果中,我们可以看到我们的DCL方法优于基线和CRL +3。4%和+2。2%,分别。与CRL相比,我们提出的三重丢失与简单锚定稳定了训练过程。结合损失学习调度器,DCL对特征空间进行了更好的校正,为一般分类提供了更好的表示。5. 结论在这项工作中,不平衡的数据学习,称为动态课程学习(DCL)的统一框架提出。我们首次将课程学习的思想引入到系统中,设计了两个用于抽样和损失反向传播的课程学习器。与教师类似,这两个学习者动态地管理模型,从不平衡到平衡,从容易到困难。此外,一个度量学习三元组损失与容易锚被设计为更好的特征嵌入。我们在两个广泛使用的属性分析数据集(CelebA和RAP)上评估了我们的方法,并实现了新的最先进的性能,这证明了我们模型的泛化能力和区分能力。特别是,DCL表现出很强的分类能力时,数据很大程度上是不平衡比(1:x)1∼2525∼50大于50基线79.368.968.0DCL83.183.985.55025引用[1] YoshuaBengio , Je´ ro meLouradour, RonanCollobert ,andJa-son Weston.课程学习。第26届机器学习国际年会论文集,第41-48页ACM,2009年。2[2] Nitesh V Chawla,Kevin W Bowyer,Lawrence O Hall,and W Philip Kegelmeyer. Smote:合成少数过采样技术。人工智能研究杂志,16:321-357,2002。一、二[3] Nitesh V Chawla ,Nathalie Japkowicz,and AleksanderKotcz.关于从不平衡数据集学习的特刊。ACM Sigkdd Explorations Newsletter , 6 ( 1 ) : 1-6 ,2004. 2[4] Nitesh V Chawla , Aleksandar Lazarevic , Lawrence OHall,and Kevin W Bowyer. Smoteboost:提高少数类在boosting中的预测。数据挖掘和知识发现原理欧洲会议,第107-119页。施普林格,2003年。2[5] JJ Chen,C-A Tsai,H Moon,H Ahn,JJ Young和C-HChen。类别预测中的决策阈值调整。环境研究中的SAR和QSAR,17(3):3372[6] Yin Cui,Menglin Jia,Tsung-Yi Lin,Yang Song,andSerge Belongie.基于有效样本数的类平衡损耗。arXiv预印本arXiv:1901.05555,2019。2[7] 齐东,龚少刚,朱夏天。针对不平衡深度学习的类纠正硬挖掘。2017. 一、二、五、六、八[8] 齐东,龚少刚,朱夏天。通过少数类增量纠正不平衡的深度 学习 。IEEE Transactions on Pattern Analysis andMachine Inteligence,2018。一、二、四[9] Chris Drummond,Robert C Holte,等. C4. 5、阶级不平衡和成本敏感性:为什么欠采样比过采样好在从不平衡数据集学习的研讨会II,第11卷,第1-8页。Citeseer,2003. 一、二、六、八[10] 安德鲁·埃斯塔布鲁克,泰霍·乔,和娜塔莉·贾科维茨。一种从不平衡数据集学习的多重搜索方法。计算智能,20(1):18-36,2004年。2[11] Chen Gong, Dacheng Tao , Stephen J Maybank ,WeiLiu,Guoliang Kang,and Jie Yang.半监督图像分类的多模 态 课 程 学 习 。 IEEE Transactions on ImageProcessing,25(7):32492[12] Sheng Guo , Weilin Huang , Haozhi Zhang , ChenfanZhuang,Dengke Dong,Matthew R Scott,and DinglongHuang.Cur- riculumnet:大规模网络图像的弱监督学习。arXiv预印本arXiv:1808.01097,2018。2[13] Han Hui,Wen-Yuan Wang,and Bing-Huan Mao.边缘打击:一种新的非平衡数据集学习的过采样方法。在智能计算国际会议上,第878-887页。Springer,2005年。一、二[14] Emily M Hand,Carlos D Castillo和Rama Chellappa。尽我们所能做到最好:用于属性预测的多标签平衡与选择性学习。在AAAI,2018。一、二、五、六、八[15] Haibo He,Yang Bai,Edwardo A Garcia,and Shutao Li.Adasyn:自适应综合采样方法先 进 的 学 习 在 2008 年 IEEE国 际 神 经 网 络 联 合 会 议(IEEE世界计算智能大会,第1322-1328页。IEEE,2008年。1[16] 何海波和爱德华多·加西亚。从不平衡的数据中学习IEEE Transactions on Knowledge Data Engineering ,(9):1263-1284,2008。一、二、六、八[17] 何海波,马云倩。学习不平衡:基础、算法和应用。John Wiley Sons,2013年。2[18] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页,2016中。8[19] Chen Huang,Yining Li,Chen Change Loy,and XiaoouTang.学习不平衡分类的深度表示。在IEEE计算机视觉和模式识别会议论文集,第5375-5384页二、六[20] Chen Huang,Yining Li,Chen Change Loy,and XiaoouTang.用于人脸识别和属性预测的深度不平衡学习。arXiv预印本arXiv:1806.00194,2018。二、六[21] Sergey Ioffe和Christian Szegedy。批次标准化:通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv:1502.03167,2015。8[22] Piyasak Jeatrakul、Kok Wai Wong和Chun Che Fung。复杂神经网络与smote算法相结合的不平衡数据分类在神经信息处理国际会议上,第152-159页。施普林格,2010年。2[23] Lu Jiang,Deyu Meng,Qian Zhao,Shiguang Shan,andAlexander G Hauptmann.自定进度的课程学习。在AAAI,第2卷,第6页,2015中。2[24] Salman
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功