加权聚类质心优化的SVM不平衡分类技术

5星 · 超过95%的资源 需积分: 0 1 下载量 12 浏览量 更新于2024-08-05 收藏 349KB PDF 举报
"这篇论文是关于使用加权聚类质心改进的支持向量机(SVM)在处理不平衡数据集上的分类方法。作者胡小生和钟勇来自佛山科学技术学院电子与信息工程学院。该研究主要关注的是在机器学习中不平衡数据分类的问题,传统算法在面对类别分布不均衡的数据时往往表现不佳。他们提出了一种新的策略,通过在正负类样本上分别进行聚类,并用聚类质心和权重因子来代表样本分布和数量,以增强SVM模型的训练样本代表性,从而提高分类性能。实验结果显示,该方法相比其他采样方法能提升分类效果。文章发表于《智能系统学报》第8卷第3期,2013年6月,被赋予了中图分类号TP181,文献标志码A,并给出了详细的中文和英文引用格式。" 详细说明: 在机器学习领域,不平衡数据分类是一个常见的挑战,指的是数据集中某个类别的样本数量远多于其他类别,这可能导致分类器偏向于多数类别,忽视少数类别。传统的分类算法如朴素贝叶斯、决策树等,假设各类别间的样本分布是均衡的,或者错误分类的代价是相同的,但在实际应用中,这样的假设并不总是成立。 针对这个问题,论文提出了一种基于加权聚类质心的SVM分类方法。首先,对正类和负类样本分别进行聚类,目的是为了更好地理解样本的内在结构和分布。聚类后的每个簇用其质心来代表,质心能够反映出簇内样本的平均特性。此外,引入权重因子来反映每个簇内样本的数量,这有助于处理类别数量不均等的情况。在SVM模型训练过程中,不同簇的质心和对应的权重因子会参与进来,使得模型能够更全面地捕获各类样本的特征。 通过这种方法,SVM模型的训练样本更加具有代表性,尤其是在处理那些数量较少但重要的类别时。实验结果证明了该方法的有效性,它能够提高分类性能,相比于其他常见的不平衡数据处理技术(如过采样、欠采样、SMOTE等)有更优的表现。 这项工作提供了一种创新的策略来应对机器学习中的不平衡数据问题,通过结合聚类和加权机制改进SVM,提高了对少数类别的识别能力,对于实际应用中的分类任务具有很高的实用价值。