模糊不平衡数据分类：类权重与隶属度优化

需积分: 9 169 浏览量更新于2024-08-11 收藏 333KB PDF 举报

"这篇论文是2008年发表的，属于工程技术领域的研究，主要探讨了不平衡数据分类问题。文章作者提出了一种基于类权重的模糊不平衡数据分类方法，旨在解决传统分类算法在处理不平衡数据集时可能出现的偏向性，即正类样本（通常更重要）的分类效果不如负类样本。该方法利用超球面最大化类别之间的分离率，并结合类权重因子和样本模糊隶属度，以考虑类别重要性和样本贡献差异，从而提升正类样本的分类与预测性能以及整体模型的泛化能力。通过人造数据和UCI真实数据集的实验验证了这种方法的有效性。关键词包括不平衡数据、类权重、模糊隶属度和分类算法。" 正文: 在机器学习和数据挖掘领域，不平衡数据集是一个常见的挑战。不平衡数据指的是数据集中某一类别的样本数量远多于另一类别，这可能导致分类算法偏向于数量较多的类别，从而影响到模型对少数类别的识别能力。例如，在医学诊断中，疾病样本可能远少于健康样本，但疾病检测的准确性至关重要。论文提出的基于类权重的模糊不平衡数据分类方法，是为了解决这种不平衡问题。方法的核心是通过一个超球面来分割两类数据，目标是最大化两类样本之间的分离比率，以期提高分类的准确性。超球面是一种数学概念，用于构建决策边界，能有效地区分不同类别的数据点。引入类权重因子是为了平衡不同类别的重要性。在不平衡数据集中，正类样本（通常是更关注的类别）往往需要更高的分类精度。类权重因子可以动态调整各类别的权重，使得分类器更加重视较少的正类样本。同时，论文还引入了样本模糊隶属度的概念。模糊隶属度允许样本不属于某一类别的情况具有一定的不确定性，即样本可能同时模糊地属于多个类别。这样可以考虑每个样本对所属类别的不同贡献程度，尤其是在样本量不均衡的情况下，有助于提升分类器的泛化性能。通过在人造数据和UCI真实数据集上的实验，该方法展示了其在提高正类样本分类和预测性能方面的优势，同时也证明了整体模型在面对新的、未见过的数据时的推广能力。这些实验结果证实了基于类权重的模糊不平衡数据分类方法的有效性和实用性，对于处理不平衡数据集的分类问题提供了新的思路。这篇论文对机器学习社区具有重要的贡献，它提供了一种对抗不平衡数据问题的策略，通过类权重和模糊隶属度的结合，优化了分类算法的性能，尤其是对于那些在实际应用中至关重要的少数类别的识别。这对于医学、金融、安全等领域具有广泛的应用前景，因为这些领域常常面临数据不平衡的问题。

•

计算机科学

2008Vo

35NQ.

•

于类权

的模糊不平衡数据分类方法铃)

薛贞睡1，

张素玲

刘三阳

(西安电子科技大学应用数学系

西安

71007

(河南科技大学数学系

洛阳

471003)2

(焦作大学基础部

焦作

454003)3

摘要

针对现有分类算法通常对不平衡数据挖掘表现出有偏性，即豆类样本(通常是更重要的一类)的分类和预测

性能差于负类样本的分类和预测性能，提出一种不平衡数据分类方法。该方法通过一个超球面将两类数据以最大分

离比率分离，并且引入类权重因子和样本模糊隶属度，同时考虑了不同类的重要性和不同样本对该类的不同贡献，刻、

而提高了不平衡数据中正类的分类和预测的性能以及整体的推广能力。分别在人造数据和

UCI

真实数据上进行了

实验，结果验证了该方法的有效性。

关键词

不平衡数据，类加权，模糊隶属度，分类算法

Weighted-class

Based

Fuzzy

Classification

Method

for

Class-imbalanced

Data

XUE

Zhen-xia1.2

ZHANG

Su-linft

LIU

n-yang

(De

partment

Applied Mathematics.

Xidian

University. Xi'an 710071.China)1

(De

partment

Mathematics. Henan

ience

and

Technology University. Luoyang 471003.China)2

(De

partment

Basic

urse.Jiaozuo University.Jiaozuo 454003.China)3

Abstract

Using

data

sets

that

contain very few instances

the

positive class usually produces biased classifiers and

has a lower predictive accuracy over

the

positive class

(usually

the

important class)

than

over

the

negative class.

Proposed

a classification method for imbalance proble

This

approach obtains maximum separation ratio to separate

two

class instances

with

a single sphere. Moreover,

this

method

applies a fuzzy membership to each input point

such

that

different

input

points can make different contributions to

the

learning of decision surface, as well as imposes dis-

tinct weight factors

each class. By

this

way

the

method can improve

the

predictive accuracy over

the

positive class,

and has more generalization ability

entireness. Experiment

results

artificial

data

sets

and

UCI

data

sets

show

the

method'

s effectiveness.

Keywords 1mbalanced

data

set

, Weighted-class, Fuzzy membership, Classification algorithm

引言

在机器学习和数据挖掘研究中，非平衡数据通常是指两

类问题中的负类样本个数远大于正类样本个数，并且正类样

本往往是分类问题的关注所在。在不平衡的情况下，训练出

的分类器性能下降，甚至很差。因此，对不平衡数据的学习已

成为机器学习目前面临的一个挑战。由

Vapnik

等人创立的

支持向量机

[1.2J

(SVM)

已经被证实是一种很有效的学习机，

已得到广泛的应用

叭但是

SVM

对噪点非常敏感。由

Tax

等人在

SVM

的基础上提出了支持向量域描述

飞币

D)[61

，主

要思想是通过计算包含一组数据的最小超球形边界来对该组

数据进行描述，它可以对一类数据进行描述和剔除噪点或奇

异点。文献

[7J

提出将

SVM

和

SvnD

的优点结合起来，通过

求取一个超球面将两类数据以最大分离比率分离，本文称这

种方法为

P<.二该方法将剔除噪点和分类同时进行，而且得

到的支持向量实际上是每一个类别中边界上的点，分类性能

得到了很大提高，因此本文研究它在非平衡数据集上的分类

性能。基于

SSPC

和模糊支持向量机的思想时，提出一种针

对不平衡数据分类的方法一

-W-FSSPC

(Wighted

Fuzzy

SSPC)

。该方法在

SSPC

中引人类权重因子和样本模糊隶属

度，既考虑不周类的重要性，又考虑不同样本点对该类的不同

贡献，从而在减少噪点影响的情况下提高不平衡数据的分类

性能。

本文第

节对

SSPC

进行简单介绍;第

节介绍

W

FSSPC;~

节给出分类器性能评价的标准以及

SSPC

和

FSSPC

方法的对比实验结果和分析，最后在分析的基础上得

出结论。

SSPC

简介

SSpc[7J

是结合

SVM

和

飞①

的优点，通过求取两个同

心的超球面(里面的超球丽对一类数据进行描述，外面的超球

面对另一类数据进行描述，但是它是将该组数据排除在该超

球面外面，当然两个超球面都可以剔除噪点)的最大间隔将两

类数据分离。这种方法将剔除噪点和分类同时进行，分类性

能确实得到了提高。下面介绍

SSPC

算法。

设给定样本集

(X;

, y;

)

εRd+l

，其中

ε~

，

ξ{

-1

1}为相应的类标

，

i=1

，

…

，

SSPC

就是找一个球，设该球

为

S(a

，

如，其中

和

分别是球心和半径，该球将几乎全部

祷)国家自然科学基金

(60574075)

，国家自然科学基金项目

(60703118)

。薛贞霞

博士研究生，从事机器学习、模式识别和最优化理论方法及应

用的研究。

•

170

•

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38640242

粉丝: 4
资源: 970

模糊不平衡数据分类：类权重与隶属度优化

基于深度学习的不均衡网络数据分类技术研究.pdf

基于层次特征词权重的文本分类方法

C#源码桃源相册管理系统C#源码桃源相册管理系统

2023年第九届中国国际互联网+大学生创新创业大赛解读.ppt

dijkstra算法原理及Matlab实现.docx

20241011-0909

四旋翼无人机uav，轨迹跟踪pd控制器，matlab-simulink仿真学习资料，附参考文献

毕业设计 基于深度学习YOLOX+DeepSORT的多目标跟踪系统源码+运行教程.zip

【微信小程序毕业设计期末大作业】化妆品商城-小程序项目源码.zip

组织结构.xls

最新资源

毕业设计基于深度学习YOLOX+DeepSORT的多目标跟踪系统源码+运行教程.zip