收稿日期:20200217;修回日期:20200414
作者简介:姚佳奇(1992),男,山西侯马人,博士研究生,主要研究方向为自然语言处理、机器学习;徐正国(1985),男(通信作者),湖北荆州
人,工程师,博士,主要研究方向为网络协议分析、数据挖掘(xuzhg08@163.com);燕继坤(1973),男,陕西周至人,高级工程师,博导,博士,主要研
究方向为智能信息处理;王科人(1986),男,工程师,博士,主要研究方向为数据挖掘.
WPLoss:面向类别不平衡数据的加权成对损失
姚佳奇,徐正国
,燕继坤,王科人
(盲信号处理重点实验室,成都 610041)
摘 要:类别不平衡数据是指不同类别的样本数目差异很大,AUC(areaundertheROCcurve)是衡量不平衡数
据分类器性能的一个重要指标,由于 AUC不可微,研究者提出了众多替代成对损失函数优化 AUC。成对损失的
样本对数目为正负样本数目的乘积,大量成对损失较小的正负样本对影响了分类器的性能。针对这一问题,提
出了一种加权的成对损失函数 WPLoss,通过赋予成对损失较大的正负样本对更高的损失权重,减少大量成对损
失较小的正负样本对的影响,进而提升分类器的性能。在 20newsgroup和 Reuters21578数据集上的实验结果验
证了 WPLoss的有效性,表明 WPLoss能够提升面向不平衡数据的分类器性能。
关键词:不平衡分类;加权成对损失;AUC优化
中图分类号:TP391 文献标志码:A 文章编号:10013695(2021)03011070203
doi:10.19734/j.issn.10013695.2020.02.0041
WPLoss:weightedpairwiselossforclassimbalanceddatasets
YaoJiaqi,XuZhengguo
,YanJikun,WangKeren
(NationalKeyLaboratoryofScience&TechnologyonBlindSignalProcessing,Chengdu610041,China)
Abstract:Classimbalanceddatareferstothelargedifferenceinthenumberofsamplesindifferentclasses.AUCisanimpor
tantmetrictomeasuretheperformanceofclassifiersontheimbalanceddatasets.SinceAUCisnotdifferentiable,researchers
haveproposedmanysurrogatepairwiselossfunctionstooptimizeAUC.Thenumberofpairwiselossesistheproductofthenum
berofpositiveandnegativesamples.Manypositiveandnegativepairswithsmallpairlossaffecttheperformanceofclassifiers.
Tosolvethisproblem
,thispaperproposedaweightedpairwiselossfunctionWPLoss.Byassigninghigherlossweightstothe
positiveandnegativesampleswithhigherpairwiselosses
,WPLossreducedtheimpactofpositiveandnegativesamplepairs
withsmallerpairwiselosses.Theexperimentalresultson20newsgroupandReuters21578datasetsverifythevalidityof
WPLoss,indicatingthatWPLosscanimprovetheperformanceoftheclassifierforclassimbalanceddata.
Keywords:classimbalancedclassification;weightedpairwiseloss;AUCoptimization
类别不平衡数据是指不同类别的样本数目差异较大,如图
1所示,由(x
1
,x
2
)构成二维样本集,其中黑色表示少数样本的
类别,灰色表示多数样本的类别。类别样本数目的不平衡导致
以优化 01替代损失函数为目标的分类器失灵,因为分类器倾
向于将所有样本预测为样本数目较多的类别
[1]
。而在实际应
用中,通常样本数目较少的类别是用户感兴趣的类别,如在信
用卡欺诈检测应用中,需要从大量账号中挑选出哪些账号可能
存在欺诈行为,而有欺诈行为的账号属于少数,但是对银行却
至关重要
[2]
;再如从海量文本数据中挑选出用户感兴趣或者
认为重要的 文本
[3]
;以及目 标检测任 务中前景 和背景的 分
类
[4]
等。类别不平衡分类的处理方法大体上可以分为数据层
面的处理方法和算法层面的处理方法两大类,如图 2所示。
!"#
$%&
!'(
)*+,
-./(
' ( + ,
-./(
012'(
312'(
!"45/(
6789'(
!"#
:;'(
图 1 不平衡数据分布示意图
Fig.1 Distributiondiagramof
unbalanceddata
图 2 类别不平衡分类的
处理方法分类
Fig.2 Taxonomyofmethodsfor
classimbalancedclassification
数据层面的处理方法通过样本的重采样处理类别不平衡
的问题,包括降采样算法、升采样算法和类别重组方法。降采
样算法是指通过减少多数类别的样本实现类别平衡的算法,最
简单的处理方法是随机降采样多数类别样本,它减少了训练样
本的数目,从而提升了算法训练速度,但是损失了未被采样到
的多数类别样本的信息。针对降采样算法导致的样本信息损
失的问题,
Liu等人
[5]
提出了随机降采样多个多数类别的样本
集,训练多个分类器然后集成,另一些研究者研究了基于多数
类别样本聚类的降采样算法
[6,7]
。与降采样算法相反,升采样
算法则通过增加少数类别的样本实现类别平衡的算法,最简单
的处理方法是随机升采样少数类别的样本,随机升采样少数类
别样本由于噪声样本的存在,导致分类器容易产生过拟合。
Chawla等人
[8]
提出了通过邻近样本合成产生新的少数类别样
本的
SMOTE算法。随着生成对抗网络(generativeadversarial
network,GAN)的提出,研究者提出了一系列基于 GAN生成少
数类别样本的方法
[9,10]
。Yang
[11]
提出了一种在场景分类任务
中的类别重组方法(labelshuffling),首先按照最多数类别的样
本数生成一个随机列表,其他类别则通过取其对应样本数的余
数选取样本。算法层面处理方法则通过改变分类算法处理类
别不平衡的问题,主要包括代价敏感类算法和 AUC优化类算
法。代价敏感类算法通过赋予不同类别不同的损失权重来提
升分类器在处理不平衡数据的分类性能
[12]
,损失权重通常由
不同类别的样本数目或者混淆矩阵确定。
Lin等人
[13]
在代价
敏感的基础上提出了
focalloss损失函数,通过增加难以分类
第 38卷第 3期
2021年 3月
计 算 机 应 用 研 究
ApplicationResearchofComputers
Vol38No3
Mar.2021