模糊关联分类法提升多类不平衡数据集性能

133 浏览量更新于2024-08-29 收藏 234KB PDF 举报

本文主要探讨了一种创新的模糊关联分类方法，针对多类不平衡数据集的特性设计。在当前许多实际场景中，数据集中的各类别可能存在显著的不平衡性，即少数类别样本数量远少于多数类别，这会导致传统分类算法在处理这类问题时性能下降。为了克服这一挑战，研究者提出了将遗传算法与AdaBoost.M1W集成学习相结合的方法。 AdaBoost.M1W是一种经典的集成学习算法，它通过迭代地训练弱分类器，并对每个弱分类器进行加权，以形成一个强分类器，特别适用于处理小型数据集和噪声数据。然而，当面临多类不平衡情况时，传统的AdaBoost.M1W可能更倾向于学习多数类别，而忽视少数类别。模糊关联分类则是基于模糊逻辑和关联规则挖掘的一种分类技术，它能够处理不确定性，适合处理数据的模糊性和不完整性。作者将模糊关联分类规则的数量和规则中模糊项的数量作为遗传优化的目标，目的是在保持模型复杂度可控的同时，优化分类性能。通过将这两者结合起来，提出的这种方法能够在训练过程中同时关注加权错误率的最小化和规则精简，从而更好地平衡类别间的差异，减少过拟合风险。这种方法的优势在于，它不仅考虑了单个分类器的性能，还考虑了整个集成学习过程中的全局优化。实验部分，研究者选择了五个多类不平衡的UCI标准数据集进行对比测试，这些数据集广泛应用于机器学习评估，包含了各种类型的问题。实验结果显示，相比于现有的数据预处理方法，该模糊关联分类方法在多类不平衡情况下显著提高了分类准确性和稳定性，证明了其在解决此类问题上的有效性。这项研究为处理多类不平衡数据集提供了一个有效的工具，特别是在模糊关联分类领域，它展示了如何通过集成学习和遗传优化策略来提升模型在不平衡情况下的性能。这对于实际应用中的大数据分析和决策支持系统具有重要的理论和实践价值。

第 27 卷第 12 期

Vol. 27 No. 12

控制与决策

Control and Decision

2012 年 12 月

Dec. 2012

一种适用于多类不平衡数据集的模糊关联分类方法

文章编号: 1001-0920 (2012) 12-1833-06

霍纬纲, 高小霞

(中国民航大学计算机科学与技术学院, 天津 300300)

摘要: 提出一种适用于多类不平衡分布情形下的模糊关联分类方法, 该方法以最小化 AdaBoost.M1W 集成学习迭

代过程中训练样本的加权分类错误率和子分类器中模糊关联分类规则数目及规则中所含模糊项的数目为遗传优化

目标, 实现了 AdaBoost.M1W 和模糊关联分类建模过程的较好融合. 通过 5 个多类不平衡 UCI 标准数据集和现有的

针对不平衡分类问题的数据预处理方法实验对比结果, 表明了所提出的方法能显著提高多类不平衡情形下的模糊关

联分类模型的分类性能.

关键词: 模糊关联分类；多类不平衡分类；遗传算法；集成学习；数据挖掘

中图分类号: TP18 文献标志码: A

A fuzzy associative classiﬁcation method for multi-class imbalanced

datasets

HUO Wei-gang, GAO Xiao-xia

(College of Computer Science and Technology，Civil Aviation University of China，Tianjin 300300，China.

Correspondent：HUO Wei-gang，E-mail：wghuo@cauc.edu.cn)

Abstract: A fuzzy associative classiﬁcation method for multi-class imbalanced datasets is presented. The method

implements a better combination of AdaBoost.M1W and the process of building fuzzy associative classiﬁcation by the genetic

optimization objective, which is minimization weighted error rate in the process of ensemble iterative learning and the number

of fuzzy association rule and total fuzzy items in the weak fuzzy associative classiﬁer. The experiments of comparing with

existing data preprocessing approaches aiming at the imbalanced classiﬁcation problem show that the proposed method can

dramatically improve the classiﬁcation performance of the fuzzy associative classiﬁer for multi-class imbalanced datasets by

ﬁve UCI multi-class imbalanced benchmark datasets.

Key words: fuzzy associative classiﬁcation；multi-class imbalanced classiﬁcation；genetic algorithm；ensemble

learning；data mining

1 引引引言言言

模糊关联分类是数据挖掘研究领域中重要的分

类方法之一. 该方法所得的分类模型贴近人类的思维

方式, 容易被人理解, 但其分类准确率容易受到模糊

关联规则挖掘过程中的模糊支持度阈值的影响, 尤其

在数据集类别分布不平衡情形下, 若模糊支持度阈

值过高, 则针对出现频率较少类别的样本产生的规

则较少, 进而降低了分类性能; 若模糊支持度阈值过

低

则会产生大量无用的规则使得分类模型对训练样

本过拟合, 而且影响其可理解性. 对此, 文献 [1] 根据

不同类别的样本在训练集中出现的频率采用不同的

支持度阈值生成相应的分类规则, 但该方法中的基准

支持度仍需主观指定. 文献 [2] 结合数据预处理的方

法解决稀有样本产生的模糊规则少的问题, 并分析了

数量属性划分模糊区间个数, 以及不同的模糊规则权

重、模糊推理策略、𝑡 模算子对基于模糊规则的分类

系统在两类不平衡分布情形下的分类性能的影响. 文

献 [3] 在此基础上应用参数化的 𝑡 模算子进行模糊分

类推理, 并通过遗传进化搜索 𝑡 模算子中参数的较优

值来提高不平衡分布下的模糊规则分类器的性能. 文

收稿日期: 2011-07-26; 修回日期: 2011-09-28.

基金项目: 国家自然科学基金委员会与中国民用航空局联合基金项目(61079007, U1233113)；中国民航局科技计划项

目(MHRD201005)；国家自然科学基金青年科学基金项目(61201414)；中央高校基本科研业务费专项资金

项目(ZXH2012N001).

作者简介: 霍纬纲(1978−), 男, 讲师, 博士, 从事模糊关联规则挖掘、模糊分类等研究; 高小霞(1980−), 女, 硕士, 从事模

糊分类的研究.

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38504417

粉丝: 5
资源: 937

模糊关联分类法提升多类不平衡数据集性能

KEEL类别不平衡数据集.rar

UCI数据集

UCI经典分类二分类数据集

基于直觉模糊集多属性决策的灰色关联分析法

多传感器数据关联.pptx

模糊聚类与数据挖掘在数据分析中的应用.pdf

pgsql查询优化之模糊查询实例详解

模糊聚类分析1PPT学习教案.pptx

基于灰理论的灰关联排序---matlab程序

数据挖掘方法在商业领域的应用研究综述.pdf

最新资源