WPLoss：解决类别不平衡数据的加权成对损失提升分类性能

需积分: 12 12 浏览量更新于2024-08-13 1 收藏 1.09MB PDF 举报

类别不平衡数据在现实世界中的许多机器学习和数据挖掘任务中是一个普遍存在的挑战，特别是在文本分类、图像识别等场景中，各类别的样本数量差异可能导致模型偏向于数量较多的类别，从而降低整体性能。AUC（Area Under the ROC Curve，接收者操作特征曲线下的面积）作为评估不平衡数据分类器性能的重要指标，其优化对于解决这个问题至关重要。然而，由于AUC是非凸函数且不可微分，传统的优化方法可能面临困难。传统的成对损失函数在优化AUC时，其样本对的数量是正负样本数量的乘积，这意味着大量的成对损失较小的样本对可能分散了优化过程的注意力。这可能导致模型过于关注易于区分的样本对，而忽视了那些真正具有挑战性的正负样本匹配。WPLoss（Weighted Pairwise Loss）作为一种创新的解决方案，针对这个难题提出了加权策略。它通过赋予成对损失中较大正负样本对更高的权重，减少了这些容易区分对的贡献，而将更多资源集中在那些难以区分的样本对上，从而提高了分类器对不平衡数据的敏感性和准确度。在实验中，研究者在20newsgroups和Reuters-21578这两个经典的数据集上展示了WPLoss的有效性。结果显示，相比于传统的成对损失函数，WPLoss显著提升了分类器在处理类别不平衡数据时的表现，证实了其在优化AUC方面的优势。WPLoss的关键在于它的加权机制，它可以根据样本的难易程度动态调整损失函数，使得模型更加专注于学习那些对性能提升有更大贡献的样本对。总结来说，WPLoss是一种针对类别不平衡数据设计的加权成对损失函数，它通过调整样本对的权重，有效地优化了AUC，从而提高了不平衡数据分类器的整体性能。这种技术在实际应用中具有广泛潜力，尤其是在需要处理类别分布严重不均的情况下，例如文档分类、欺诈检测等领域。在未来的研究中，可能会进一步探讨如何自适应地确定权重，以及如何将其扩展到更复杂的深度学习模型中。

收稿日期：２０２００２１７；修回日期：２０２００４１４

作者简介：姚佳奇（１９９２），男，山西侯马人，博士研究生，主要研究方向为自然语言处理、机器学习；徐正国（１９８５），男（通信作者），湖北荆州

人，工程师，博士，主要研究方向为网络协议分析、数据挖掘（ｘｕｚｈｇ０８＠１６３．ｃｏｍ）；燕继坤（１９７３），男，陕西周至人，高级工程师，博导，博士，主要研

究方向为智能信息处理；王科人（１９８６），男，工程师，博士，主要研究方向为数据挖掘．

ＷＰＬｏｓｓ：面向类别不平衡数据的加权成对损失

姚佳奇，徐正国



，燕继坤，王科人

（盲信号处理重点实验室，成都６１００４１）

摘　要：类别不平衡数据是指不同类别的样本数目差异很大，ＡＵＣ（ａｒｅａｕｎｄｅｒｔｈｅＲＯＣｃｕｒｖｅ）是衡量不平衡数

据分类器性能的一个重要指标，由于ＡＵＣ不可微，研究者提出了众多替代成对损失函数优化ＡＵＣ。成对损失的

样本对数目为正负样本数目的乘积，大量成对损失较小的正负样本对影响了分类器的性能。针对这一问题，提

出了一种加权的成对损失函数ＷＰＬｏｓｓ，通过赋予成对损失较大的正负样本对更高的损失权重，减少大量成对损

失较小的正负样本对的影响，进而提升分类器的性能。在２０ｎｅｗｓｇｒｏｕｐ和Ｒｅｕｔｅｒｓ２１５７８数据集上的实验结果验

证了ＷＰＬｏｓｓ的有效性，表明ＷＰＬｏｓｓ能够提升面向不平衡数据的分类器性能。

关键词：不平衡分类；加权成对损失；ＡＵＣ优化

中图分类号：ＴＰ３９１　　　文献标志码：Ａ　　　文章编号：１００１３６９５（２０２１）０３０１１０７０２０３

ｄｏｉ：１０．１９７３４／ｊ．ｉｓｓｎ．１００１３６９５．２０２０．０２．００４１

ＷＰＬｏｓｓ：ｗｅｉｇｈｔｅｄｐａｉｒｗｉｓｅｌｏｓｓｆｏｒｃｌａｓｓｉｍｂａｌａｎｃｅｄｄａｔａｓｅｔｓ

ＹａｏＪｉａｑｉ，ＸｕＺｈｅｎｇｇｕｏ



，ＹａｎＪｉｋｕｎ，ＷａｎｇＫｅｒｅｎ

（ＮａｔｉｏｎａｌＫｅｙＬａｂｏｒａｔｏｒｙｏｆＳｃｉｅｎｃｅ＆ＴｅｃｈｎｏｌｏｇｙｏｎＢｌｉｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，Ｃｈｅｎｇｄｕ６１００４１，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｃｌａｓｓｉｍｂａｌａｎｃｅｄｄａｔａｒｅｆｅｒｓｔｏｔｈｅｌａｒｇｅｄｉｆｆｅｒｅｎｃｅｉｎｔｈｅｎｕｍｂｅｒｏｆｓａｍｐｌｅｓｉｎｄｉｆｆｅｒｅｎｔｃｌａｓｓｅｓ．ＡＵＣｉｓａｎｉｍｐｏｒ

ｔａｎｔｍｅｔｒｉｃｔｏｍｅａｓｕｒｅｔｈｅｐｅｒｆｏｒｍａｎｃｅｏｆｃｌａｓｓｉｆｉｅｒｓｏｎｔｈｅｉｍｂａｌａｎｃｅｄｄａｔａｓｅｔｓ．ＳｉｎｃｅＡＵＣｉｓｎｏｔｄｉｆｆｅｒｅｎｔｉａｂｌｅ，ｒｅｓｅａｒｃｈｅｒｓ

ｈａｖｅｐｒｏｐｏｓｅｄｍａｎｙｓｕｒｒｏｇａｔｅｐａｉｒｗｉｓｅｌｏｓｓｆｕｎｃｔｉｏｎｓｔｏｏｐｔｉｍｉｚｅＡＵＣ．Ｔｈｅｎｕｍｂｅｒｏｆｐａｉｒｗｉｓｅｌｏｓｓｅｓｉｓｔｈｅｐｒｏｄｕｃｔｏｆｔｈｅｎｕｍ

ｂｅｒｏｆｐｏｓｉｔｉｖｅａｎｄｎｅｇａｔｉｖｅｓａｍｐｌｅｓ．Ｍａｎｙｐｏｓｉｔｉｖｅａｎｄｎｅｇａｔｉｖｅｐａｉｒｓｗｉｔｈｓｍａｌｌｐａｉｒｌｏｓｓａｆｆｅｃｔｔｈｅｐｅｒｆｏｒｍａｎｃｅｏｆｃｌａｓｓｉｆｉｅｒｓ．

Ｔｏｓｏｌｖｅｔｈｉｓｐｒｏｂｌｅｍ

，ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｄａｗｅｉｇｈｔｅｄｐａｉｒｗｉｓｅｌｏｓｓｆｕｎｃｔｉｏｎＷＰＬｏｓｓ．Ｂｙａｓｓｉｇｎｉｎｇｈｉｇｈｅｒｌｏｓｓｗｅｉｇｈｔｓｔｏｔｈｅ

ｐｏｓｉｔｉｖｅａｎｄｎｅｇａｔｉｖｅｓａｍｐｌｅｓｗｉｔｈｈｉｇｈｅｒｐａｉｒｗｉｓｅｌｏｓｓｅｓ

，ＷＰＬｏｓｓｒｅｄｕｃｅｄｔｈｅｉｍｐａｃｔｏｆｐｏｓｉｔｉｖｅａｎｄｎｅｇａｔｉｖｅｓａｍｐｌｅｐａｉｒｓ

ｗｉｔｈｓｍａｌｌｅｒｐａｉｒｗｉｓｅｌｏｓｓｅｓ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｏｎ２０ｎｅｗｓｇｒｏｕｐａｎｄＲｅｕｔｅｒｓ２１５７８ｄａｔａｓｅｔｓｖｅｒｉｆｙｔｈｅｖａｌｉｄｉｔｙｏｆ

ＷＰＬｏｓｓ，ｉｎｄｉｃａｔｉｎｇｔｈａｔＷＰＬｏｓｓｃａｎｉｍｐｒｏｖｅｔｈｅｐｅｒｆｏｒｍａｎｃｅｏｆｔｈｅｃｌａｓｓｉｆｉｅｒｆｏｒｃｌａｓｓｉｍｂａｌａｎｃｅｄｄａｔａ．

Ｋｅｙｗｏｒｄｓ：ｃｌａｓｓｉｍｂａｌａｎｃｅｄｃｌａｓｓｉｆｉｃａｔｉｏｎ；ｗｅｉｇｈｔｅｄｐａｉｒｗｉｓｅｌｏｓｓ；ＡＵＣｏｐｔｉｍｉｚａｔｉｏｎ

　　类别不平衡数据是指不同类别的样本数目差异较大，如图

１所示，由（ｘ

１

，ｘ

２

）构成二维样本集，其中黑色表示少数样本的

类别，灰色表示多数样本的类别。类别样本数目的不平衡导致

以优化０１替代损失函数为目标的分类器失灵，因为分类器倾

向于将所有样本预测为样本数目较多的类别

［１］

。而在实际应

用中，通常样本数目较少的类别是用户感兴趣的类别，如在信

用卡欺诈检测应用中，需要从大量账号中挑选出哪些账号可能

存在欺诈行为，而有欺诈行为的账号属于少数，但是对银行却

至关重要

［２］

；再如从海量文本数据中挑选出用户感兴趣或者

认为重要的文本

［３］

；以及目标检测任务中前景和背景的分

类

［４］

等。类别不平衡分类的处理方法大体上可以分为数据层

面的处理方法和算法层面的处理方法两大类，如图２所示。

!"#

$%&

!'(

)*+,

-./(

' ( + ,

-./(

012'(

312'(

!"45/(

6789'(

!"#

:;'(

图１　不平衡数据分布示意图

Ｆｉｇ．１　Ｄｉｓｔｒｉｂｕｔｉｏｎｄｉａｇｒａｍｏｆ

ｕｎｂａｌａｎｃｅｄｄａｔａ

图２　类别不平衡分类的

处理方法分类

Ｆｉｇ．２　Ｔａｘｏｎｏｍｙｏｆｍｅｔｈｏｄｓｆｏｒ

ｃｌａｓｓｉｍｂａｌａｎｃｅｄｃｌａｓｓｉｆｉｃａｔｉｏｎ

　　数据层面的处理方法通过样本的重采样处理类别不平衡

的问题，包括降采样算法、升采样算法和类别重组方法。降采

样算法是指通过减少多数类别的样本实现类别平衡的算法，最

简单的处理方法是随机降采样多数类别样本，它减少了训练样

本的数目，从而提升了算法训练速度，但是损失了未被采样到

的多数类别样本的信息。针对降采样算法导致的样本信息损

失的问题，

Ｌｉｕ等人

［５］

提出了随机降采样多个多数类别的样本

集，训练多个分类器然后集成，另一些研究者研究了基于多数

类别样本聚类的降采样算法

［６，７］

。与降采样算法相反，升采样

算法则通过增加少数类别的样本实现类别平衡的算法，最简单

的处理方法是随机升采样少数类别的样本，随机升采样少数类

别样本由于噪声样本的存在，导致分类器容易产生过拟合。

Ｃｈａｗｌａ等人

［８］

提出了通过邻近样本合成产生新的少数类别样

本的

ＳＭＯＴＥ算法。随着生成对抗网络（ｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌ

ｎｅｔｗｏｒｋ，ＧＡＮ）的提出，研究者提出了一系列基于ＧＡＮ生成少

数类别样本的方法

［９，１０］

。Ｙａｎｇ

［１１］

提出了一种在场景分类任务

中的类别重组方法（ｌａｂｅｌｓｈｕｆｆｌｉｎｇ），首先按照最多数类别的样

本数生成一个随机列表，其他类别则通过取其对应样本数的余

数选取样本。算法层面处理方法则通过改变分类算法处理类

别不平衡的问题，主要包括代价敏感类算法和ＡＵＣ优化类算

法。代价敏感类算法通过赋予不同类别不同的损失权重来提

升分类器在处理不平衡数据的分类性能

［１２］

，损失权重通常由

不同类别的样本数目或者混淆矩阵确定。

Ｌｉｎ等人

［１３］

在代价

敏感的基础上提出了

ｆｏｃａｌｌｏｓｓ损失函数，通过增加难以分类

第３８卷第３期

２０２１年３月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ３８Ｎｏ３

Ｍａｒ．２０２１

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38674992

粉丝: 7
资源: 963

WPLoss：解决类别不平衡数据的加权成对损失提升分类性能

类平衡损失：基于有效样本数的类平衡损失。 CVPR 2019

面向不平衡数据的电子病历自动分类研究.docx

POLYFIT3新功能：零系数强制与数据加权的多项式拟合

加权聚类质心SVM分类：解决不平衡数据问题

过山车排名：数据可视化与属性加权分析

加权邻域超网络：解决不平衡数据分类的新方法

ENFSA: 高效面向聚类的加权特征选择算法提升数据聚类效果

加权Fisher线性判别：应对非平衡数据集的新方法

IRFCM：Android恶意软件检测的加权随机森林模型

雷达测角技术：Matlab实现与差波束加权分析

最新资源