K-means聚类与遗传算法在不均衡数据采样中的应用

需积分: 16 158 浏览量更新于2024-09-18 收藏 297KB PDF 举报

"该研究探讨了一种基于K-means聚类和遗传算法的少数类样本采样方法，旨在提升不均衡数据集中的少数类分类性能。这种方法首先利用K-means算法对少数类样本进行聚类，然后在每个聚类内部应用遗传算法生成新样本，并进行有效性验证。最终，通过KNN和SVM分类器的仿真实验，证明了该方法的有效性。文章指出，不均衡数据集在很多实际应用如信用卡欺诈检测、医疗诊断等领域普遍存在，且错分少数类的代价往往更高。传统的分类器对多数类有高识别率，但对少数类识别不足，因此提高少数类的分类性能是机器学习领域的重要课题。文章还简述了不均衡数据集分类问题的研究现状和评价准则。" 本文的研究主要集中在解决机器学习领域的不均衡数据集问题，尤其是在二类分类任务中提高少数类的识别效率。不均衡数据集指的是某一类样本数量远超其他类别的数据集，这导致传统分类算法偏向于识别样本数量较多的类，而忽视或误分类少数类。在这种情况下，提高少数类的分类性能至关重要。文章提出的解决方案结合了K-means聚类算法和遗传算法。K-means是一种常用的无监督学习算法，用于将数据集中的样本划分到不同的簇中。在这个过程中，K-means能帮助识别少数类样本的内在结构，将其分成多个子群。随后，遗传算法被引入到每个聚类内部，这是一种模拟自然选择和遗传的优化方法，用于生成新的少数类样本，以增加其代表性并改善分类性能。遗传算法通过迭代过程，选择、交叉和变异操作，找到最优解，从而生成更有代表性的少数类样本。实验部分，采用KNN（K近邻）和SVM（支持向量机）这两种常见的分类器，对采用新采样方法处理后的数据集进行分类，以验证方法的有效性。KNN依赖于样本的邻居关系进行分类，而SVM则通过构建最大边界来分离不同类别，两者都是评估新方法性能的理想工具。评价不均衡数据集分类性能时，通常不使用传统的准确率指标，而是关注如精确率、召回率、F1分数以及查准率和查全率等，这些指标能更全面地反映对少数类的识别情况。此外，ROC曲线和AUC（曲线下面积）也是衡量不均衡数据集分类性能的重要工具。该研究为解决不均衡数据集问题提供了一种创新的采样策略，通过K-means聚类和遗传算法的组合，增强了少数类样本的分类效果。这一方法对提高分类器在实际应用中的性能具有重要意义，特别是在那些错误分类少数类代价高昂的场景下。

第 10卷　第 10期　2010年 4月

167121815

(

2010

)

1022334205

科　学　技　术　与　工　程

Science Technology and Engineering

Vol110　No110　Ap r12010

Ζ 　2010　Sci1Tech1Engng1

基于 K2means聚类和遗传算法的

少数类样本采样方法研究

杨　永　王莉利

(

大庆石油学院计算机与信息技术学院 ,大庆 163318

)

摘　要　传统的分类器对不均衡数据集的分类严重倾向于多数类。为了有效地提高不均衡数据集中少数类的分类性能 ,针对此

问题提出了一种基于 K2means聚类和遗传算法的少数类样本采样方法。通过 K2means算法将少数类样本聚类分组 ,在每个聚类

内使用遗传算法获取新样本并进行有效性验证 ,最后通过使用 KNN和 SVM分类器 ,在仿真实验中证明了方法的有效性。

关键词　K2means算法　　聚类　　遗传算法　　不均衡数据集

中图法分类号　TP391. 3; 　　　　文献标志码　A

2010年 1月 8日收到黑龙江省教育厅科学技术研究项目

(

11531013

)

资助

第一作者简介 :杨　永

(

1976—

)

男 ,黑龙江省齐齐哈尔市人 ,副教

授 ,硕士 ;研究方向 :计算机图像处理与人工智能。

　　不均衡数据集的分类问题是机器学习领域中

新的研究热点 ,解决它对于完善机器学习体系、提

出新的机器学习思想具有很高的理论和应用价值。

不均衡数据集是指 ,数据集中某些类的样本比其他

类多很多 ,样本多的类为多数类 ,样本少的类为少

数类

[ 1 ]

。许多实际的应用领域中都存在不均衡数

据集 ,例如 ,欺骗信用卡检测、医疗诊断、信息检索、

文本分类等。其中 ,少数类的识别率更为重要。对

于不均衡数据集的错分代价 ,往往是少数类被错分

为多数类的代价更大。传统的分类方法倾向于对

多数类有较高的识别率 ,对于少数类的识别率却很

低。因此 ,人们更加关心的是不均衡数据集中的少

数类样本 ,如何有效地提高少数类的分类性能成为

机器学习和模式识别领域亟待解决的课题。

1　不均衡数据集分类问题的研究现状

1. 1　评价准则

多类问题可以简化为两类问题来解决 ,因此不

均衡数据集分类问题的研究重点是提高两类问题

中少数类的分类性能。表 1是两类数据集的混合矩

阵。少数类和多数类的真实类标号分别为 positive

和 negative。T

和 T

分别是正确分类的少数类和多

数类的样本数量 , F

和 F

分别是误分类的少数类和

多数类的样本数量。下面是常用分类的几个标准。

表 1　两类数据集的混合矩阵

Classified Positive Classified Negative

Positive

Negative

1. 1. 1　精确度

A ccu racy =

(

+ T

)

(

+ T

+ F

)

(

)

　　精确度

(

Accuracy

)

是分类方法中常用的评价准

则 ,但是它不能合理地评价不均衡数据集的分类结

果。这是因为 ,多数类样本比少数类样本多得多 ,

若把所有的样本都分类为多数类 ,精确度仍然很

高 ,少数类的识别率却为 0。

1. 1. 2　几何均值

G2mean =

+ F

(

)

　　几何均值

(

G2mean

)

是不均衡数据集学习中常

用的评价准则 ,它是少数类的精确度 T

(

+ F

)

与多数类的精确度 T

(

+ F

)

的乘积的平方根 ,

二者的值都大时 ,几何均值才会大 ,因此几何均值

能合理地评价不均衡数据集的总体分类性能。

下载后可阅读完整内容，剩余4页未读，立即下载

leven_come

粉丝: 0
资源: 11

K-means聚类与遗传算法在不均衡数据采样中的应用

专门处理不平衡数据集的算法，使用21种采样的算法，包括SMOTE,集成算法+采样算法，基于聚类的过采样算法。对每一个算法原理，实验结果，评价标准都给了注释。

matlab源码集锦-k均值聚类的欠采样

K-Means欠采样处理不平衡样本python实现

基于K_means聚类的室内三维定位算法

C# OpenCV图像处理：图像分割大揭秘：K-Means聚类和分水岭算法

基于k-means聚类分析，XGBoost模型，熵权法的隐形资助模型.zip

C++环境下的k-means聚类算法，实现图像分割

基于matlab的表情识别代码-data-mining:数据挖掘算法的应用：KNN，K-means聚类和多标签学习

基于采样的改进K-means算法：提升聚类效率与稳定性

URL聚类快速网页可访问性评估采样方法

最新资源