不平衡数据文本分类:聚类遗传算法生成少数类样本提升效果

需积分: 50 2 下载量 165 浏览量 更新于2024-09-08 1 收藏 705KB PDF 举报
该篇论文主要探讨了在不均衡数据集的文本分类任务中,如何有效地解决少数类样本过少导致的分类性能下降问题。传统分类算法往往在面对类别分布不均的数据时,倾向于对多数类做出更准确的预测,而对少数类的识别能力较弱。为此,研究者提出了一个结合聚类和遗传算法的样本生成方法。 首先,通过K-means聚类算法将少数类样本分成多个小群体,这样可以使得每个群体内部的样本具有相似性,有助于更好地理解这些样本的特征模式。聚类步骤有助于发现少数类样本之间的潜在结构和联系。 接着,遗传算法在每个聚类内部被应用,通过遗传交叉和变异操作来生成新的样本。遗传算法模拟自然选择过程,通过优化个体的适应度函数(如分类准确率或信息增益等),产生新的样本,以提高少数类的代表性。这种方法有助于扩大少数类的样本量,增强模型对这些类别的学习能力。 有效性验证是研究的关键环节,通过对比使用原数据集和包含新生成样本的数据集,训练K近邻(KNN)和支持向量机(SVM)这两种常用的分类器,评估新样本生成方法对提升少数类分类精度的实际效果。实验结果显示,这种策略显著提高了分类器对少数类样本的识别能力,从而整体提升了文本分类的性能。 这篇论文的研究成果对于处理现实世界中常见的不均衡数据集问题具有重要的理论和实际价值,特别是在文本分类任务中,能够帮助改进算法的公平性和鲁棒性,减少由于样本不平衡带来的偏见。同时,它也为其他领域,如图像分类、生物信息学中的类别不平衡问题提供了有益的借鉴和解决方案。