OVO分解策略：解决多分类不平衡问题的创新方法

需积分: 42 113 浏览量更新于2024-08-13 1 收藏 1.24MB PDF 举报

本文主要探讨了基于分解策略处理多分类不均衡问题的新方法。在多分类问题中，数据通常会出现类别间的不平衡，即某些类别的样本数量远超过其他类别，这可能导致模型偏向于预测数量较多的类别，从而影响预测的准确性。针对这一问题，作者提出了一个独到的解决方案。首先，该方法采用一对一（One-Versus-One, OVO）分解策略，将原本的多分类问题拆分成多个二值分类子问题。OVO策略是将每个类别与其他所有类别进行一对对决，这样就将复杂的问题分解为了更易于处理的小规模问题。这种分解有助于平衡不同类别的影响力，使得算法能够更关注那些相对较少的类别。接着，作者利用专门设计的处理不均衡二值分类问题的算法来构建每个二值分类器。这些算法可能包括但不限于过采样技术，如SMOTE（Synthetic Minority Over-sampling Technique），它通过生成合成的少数类样本来增加少数类别在训练集中的代表，从而减少类别不平衡带来的影响。然后，对原始数据集应用SMOTE过抽样技术，确保在训练过程中各类别样本数量得到适当的提升。这有助于提高模型在少数类别上的性能，避免因为样本量不足导致的欠拟合。在建立分类器的过程中，作者还采用了基于距离相对竞争力加权的方法来处理冗余分类器。这种方法考虑了各个分类器之间的相似性或差异性，通过赋予它们不同的权重，提高了整体分类的精度和鲁棒性。最后，通过加权投票法整合所有分类器的结果，形成最终的输出。加权投票法根据每个分类器的性能和稳定性给予不同的权重，确保了决策的可靠性。作者们在KEEL不均衡数据集上进行了大量的实验验证，结果显示，与传统方法相比，他们提出的算法在处理多分类不均衡问题上表现出了显著的优势。这种新颖的分解策略结合了过采样、权重分配和集成学习的优势，不仅提升了模型的性能，还为解决实际中的多分类不平衡问题提供了一个有效且实用的解决方案。这篇文章深入探讨了如何通过分解策略有效地应对多分类问题中的不平衡现象，并展示了其在实际数据集上的优越性能。这对于数据科学家和机器学习工程师来说，是一个重要的参考和实践指导。

　　收稿日期：２０１８１２０５；修回日期：２０１９０２１９　　基金项目：国家自然科学基金资助项目（７１８０１０６５，７１７７１０７０）

　　作者简介：徐作宁（１９７６），男，浙江金华人，讲师，博士，主要研究方向为信息系统与数据分析；雒兴刚（１９７１），男，新疆奇台人，教授，博导，博

士，主要研究方向为产品开发与质量管理；张忠良（１９８６），男（通信作者），浙江嘉兴人，副研究员，硕导，博士，主要研究方向为机器学习、数据挖掘

等（ｚｌｚｈａｎｇ＠ｈｄｕ．ｅｄｕ．ｃｎ）．

基于分解策略处理多分类不均衡问题的方法



徐作宁，雒兴刚，张忠良



（杭州电子科技大学管理学院，杭州３１００１８）

摘　要：针对多分类不均衡问题，提出了一种新的基于一对一（ｏｎｅｖｅｒｓｕｓｏｎｅ，ＯＶＯ）分解策略的方法。首先基

于ＯＶＯ分解策略将多分类不均衡问题分解成多个二值分类问题；再利用处理不均衡二值分类问题的算法建立

二值分类器；接着利用

ＳＭＯＴＥ过抽样技术处理原始数据集；然后采用基于距离相对竞争力加权方法处理冗余分

类器；最后通过加权投票法获得输出结果。在

ＫＥＥＬ不均衡数据集上的大量实验结果表明，所提算法比其他经

典方法具有显著的优势。

关键词：多分类问题；不均衡数据集；分解策略；人工样本；集成学习；动态加权

中图分类号：ＴＰ３１１　　　文献标志码：Ａ　　　文章编号：１００１３６９５（２０２０）０８０３４２４０４０５

ｄｏｉ：１０．１９７３４／ｊ．ｉｓｓｎ．１００１３６９５．２０１８．１２．０９６０

Ｍｅｔｈｏｄｂａｓｅｄｏｎｄｅｃｏｍｐｏｓｉｔｉｏｎｓｔｒａｔｅｇｙｆｏｒｈａｎｄｌｉｎｇｍｕｌｔｉｃｌａｓｓｉｍｂａｌａｎｃｅｐｒｏｂｌｅｍｓ

ＸｕＺｕｏｎｉｎｇ，ＬｕｏＸｉｎｇｇａｎｇ，ＺｈａｎｇＺｈｏｎｇｌｉａｎｇ



（ＳｃｈｏｏｌｏｆＭａｎａｇｅｍｅｎｔ，ＨａｎｇｚｈｏｕＤｉａｎｚｉＵｎｉｖｅｒｓｉｔｙ，Ｈａｎｇｚｈｏｕ３１００１８，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｄａｎｅｗａｐｐｒｏａｃｈｂａｓｅｄｏｎｄｅｃｏｍｐｏｓｉｔｉｏｎｓｔｒａｔｅｇｙｔｏｄｅａｌｗｉｔｈｍｕｌｔｉｃｌａｓｓｉｍｂａｌａｎｃｅｃｌａｓｓｉｆｉｃａ

ｔｉｏｎｐｒｏｂｌｅｍｓ．Ｔｈｅｍｅｔｈｏｄｆｉｒｓｔｄｉｖｉｄｅｄｔｈｅｏｒｉｇｉｎａｌｍｕｌｔｉｃｌａｓｓｃｌａｓｓｉｆｉｃａｔｉｏｎｐｒｏｂｌｅｍｉｎｔｏｓｅｖｅｒａｌｂｉｎａｒｙｃｌａｓｓｓｕｂｐｒｏｂｌｅｍｓｂｙ

ｕｓｉｎｇｏｎｅｖｅｒｓｕｓｓｃｈｅｍｅ．Ｎｅｘｔ

，ｉｔｂｕｉｌｔｂｉｎａｒｙｃｌａｓｓｉｆｉｅｒｓｂｙｅｍｐｌｏｙｉｎｇｔｈｅｃｌａｓｓｉｆｉｃａｔｉｏｎａｌｇｏｒｉｔｈｍｓｆｏｒｂｉｎａｒｙｃｌａｓｓｉｍｂａｌａｎｃｅ

ｐｒｏｂｌｅｍｓ．Ｔｈｅｎ，ｉｔｕｓｅｄｔｈｅＳＭＯＴＥａｌｇｏｒｉｔｈｍｔｏｄｅａｌｗｉｔｈｔｈｅｏｒｉｇｉｎａｌｄａｔａｓｅｔａｎｄｃｏｎｓｉｄｅｒｅｄｄｉｓｔａｎｃｅｂａｓｅｄｒｅｌａｔｉｖｅｃｏｍｐｅ

ｔｅｎｃｅｗｅｉｇｈｔｉｎｇｍｅｔｈｏｄｔｏｍａｎａｇｅｔｈｅｎｏｎｃｏｍｐｅｔｅｎｔｃｌａｓｓｉｆｉｅｒｓ．Ｆｉｎａｌｌｙ，ｉｔｅｍｐｌｏｙｅｄｔｈｅｗｅｉｇｈｔｅｄｖｏｔｉｎｇｔｏｏｂｔａｉｎｔｈｅｏｕｔ

ｐｕｔｓ．ＥｘｐｅｒｉｍｅｎｔｓｏｎｓｅｖｅｒａｌｉｍｂａｌａｎｃｅｄｄａｔａｓｅｔｓｓｅｌｅｃｔｅｄｆｒｏｍｔｈｅＫＥＥＬｄａｔａｓｅｔｒｅｐｏｓｉｔｏｒｙｉｎｄｉｃａｔｅｔｈａｔｔｈｅｐｅｒｆｏｒｍａｎｃｅｏｆ

ｔｈｅｐｒｏｐｏｓｅｄｍｅｔｈｏｄｉｓｂｅｔｔｅｒｔｈａｎｏｔｈｅｒｓｔａｔｅｏｆｔｈｅａｒｔｍｅｔｈｏｄｓ．

Ｋｅｙｗｏｒｄｓ：ｍｕｌｔｉｃｌａｓｓｐｒｏｂｌｅｍｓ；ｉｍｂａｌａｎｃｅｄｄａｔａｓｅｔｓ；ｄｅｃｏｍｐｏｓｉｔｉｏｎｓｔｒａｔｅｇｙ；ｓｙｎｔｈｅｔｉｃｓａｍｐｌｅｓ；ｅｎｓｅｍｂｌｅｌｅａｒｎｉｎｇ；ｄｙ

ｎａｍｉｃｗｅｉｇｈｔｉｎｇ

０　引言

分类问题是机器学习和数据挖掘领域内重点研究的内容

之一，已有研究对分类算法进行了丰富的探讨，提出了包括支

持向量机

［１］

、最近邻

［２］

、神经网络

［３］

、决策树

［４］

、朴素贝叶斯

［５］

等一系列分类算法。然而，传统的分类算法都是假设训练数据

集的类别分布是均衡的，当训练集样本中的类别分布不均衡

时，往往不能获得期望的分类效果

［６］

。类别分布不均衡是指

训练数据集中代表某个或者某些类别的样本数远远少于其他

类别，其中，具有较少样本数的类别被称为少数类（或正类），

反之则称为多数类（或负类）。利用类别分布不均衡数据集训

练分类器被称为不均衡学习问题。在不均衡学习问题中，往往

更关注于少数类样本的分类效果，因为该类样本一般具有较大

的错分代价。例如，在医疗诊断中，患者属于少数类，将患者误

诊为健康人的代价将远远大于反之的情况，因为这将耽误患者

宝贵的治疗时间

［７］

。另外，在软件缺陷预测

［８，９］

、文本分

类

［１０］

、癌症诊断

［１１］

等领域，类别分布不均衡问题也广泛存在。

目前，处理类别分布不均衡分类问题的方法大致可以分为

四类

［１２］

：ａ）基于数据层面，该类方法通过基于数据预处理方法

使得训练样本类别分布达到均衡状态，然后采用传统的分类算

法在处理后的数据集上训练分类器；ｂ）从算法层面出发，该类

方法使得分类器的分类决策函数偏向于少数类；ｃ）基于成本

敏感技术，将少数类的样本赋予更大的错分代价；

ｄ）基于集成

学习的方式，该类方法通过将集成学习技术和以上方法相结合

来提升集成分类器处理类别分布不均衡数据集的能力。

然而，传统处理类别分布不均衡数据集的方法一般都是针

对二值分类问题，将这些方法直接应用于多分类不均衡问题中

往往会降低算法的性能，甚至有些方法不能直接应用于多分类

不均衡问题中。因此，将多分类不均衡问题分解成多个二值分

类问题分别进行处理是解决多分类不均衡问题切实可行的途

径。基于此，本文首先采用一对一（

ＯＶＯ）分解策略将多分类

问题分解成多个二值分类子问题，再采用基于处理二值分类不

均衡问题的算法建立二值子分类器，接着利用合成少数类过抽

样技术（

ｓｙｎｔｈｅｔｉｃｍｉｎｏｒｉｔｙｏｖｅｒｓａｍｐｌｉｎｇｔｅｃｈｎｉｑｕｅ，ＳＭＯＴＥ）对原

始数据集进行过抽样处理，然后采用基于距离相对竞争力加权

的ＯＶＯ策略（ｄｉｓｔａｎｃｅｂａｓｅｄｒｅｌａｔｉｖｅｃｏｍｐｅｔｅｎｃｅｗｅｉｇｈｔｉｎｇｆｏｒ

ＯＶＯｓｔｒａｔｅｇｙ，ＤＲＣＷＯＶＯ）管理冗余分类器，最后根据加权投

票的方式获得最终的输出结果。大量的实验结果表明，本文基

于人工合成样本和距离相对竞争力加权（

ｄｉｓｔａｎｃｅｂａｓｅｄｒｅｌａ

ｔｉｖｅｃｏｍｐｅｔｅｎｃｅｗｅｉｇｈｔｉｎｇｗｉｔｈｓｙｎｔｈｅｔｉｃｅｘａｍｐｌｅｓｇｅｎｅｒａｔｉｏｎ，

ＤＲＣＷＳＥＧ）的ＯＶＯ策略比传统方法在处理多分类不均衡问

题时具有显著的优势。

１　相关工作

１１　分解策略处理多分类问题

针对多分类学习任务，一般有将二值分类方法扩展到多分

第３７卷第８期

２０２０年８月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ．３７Ｎｏ．８

Ａｕｇ．２０２０

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38628647

粉丝: 3

OVO分解策略：解决多分类不平衡问题的创新方法

多分类和数据不均衡问题

smote_variants:具有多类过采样和模型选择功能的用于不平衡学习的85种少数群体过采样技术（SMOTE）的集合

基于综合学习策略的多目标分解粒子群算法.pdf

一种基于任务分解的时间均衡调度算法 (2013年)

基于月竞价空间滚动均衡化的年中标电量分解

行业分类-设备装置-基于Linux并行计算平台的动态负载均衡方法.zip

基于概率LS-SVM的多标签非均衡样本分类算法.pdf

一种基于风险感知策略的多节点任务调度方法.docx

行业分类-设备装置-基于全监督非负矩阵分解的人脸识别方法.zip

行业分类-设备装置-基于并行分解型进化的无线传感器网络布局方法及其系统.zip

最新资源