S-SMO-Boost: 提升非均衡数据集少数类识别的新型算法

55 浏览量更新于2024-09-01 收藏 504KB PDF 举报

在当前的IT领域中，针对非均衡数据集分类的问题，一种名为S-SMO-Boost的方法引起了广泛关注。非均衡数据集的特点在于各类别的样本分布严重失衡，这会导致在分类过程中多数类样本占据主导地位，从而使得少数类的识别精度相对较低。为了解决这个问题，研究人员提出了一种创新性的算法策略。 S-SMO-Boost方法的核心是结合了Adaboost提升算法和空间插值技术。Adaboost是一种集成学习算法，其基本思想是通过迭代的方式不断调整样本权重，着重关注那些难以分类的样本。在S-SMO-Boost中，当Adaboost算法在迭代过程中误分类少数类样本时，会将其视为需要重点训练的对象。为了加强这些易错分样本的训练，方法引入了空间插值方法。空间插值法通过在误分类的少数类样本周围构建一个超几何体，然后在这个区域内进行随机空间插值，生成虚拟样本。这种策略避免了简单过抽样可能导致的过拟合问题，同时保持了数据的多样性，有助于提高对少数类的泛化能力。相比于SMOTE方法，S-SMO-Boost在生成虚拟样本时更具有灵活性和适应性。在实际的数据集测试中，S-SMO-Boost方法展现出了显著的优势，提升了非均衡数据集的分类性能。它不仅解决了传统分类算法在处理类别不平衡时面临的挑战，而且有效地增加了少数类样本的有效训练样本量，从而提高了整体分类的准确性。总结来说，S-SMO-Boost方法作为一种有效的少数类样本识别策略，通过结合Adaboost和空间插值技术，成功地应对了非均衡数据集分类中的难题，对于提高在实际应用中的识别率和性能具有重要意义。未来，随着深度学习和大数据技术的发展，这类针对性解决不平衡问题的方法将有望在更多领域得到广泛应用。

一种改进的少数类样本识别方法一种改进的少数类样本识别方法

非均衡数据集的分类过程中，产生了向多数类偏斜、少数类识别率较低的问题。为了提高少数类的分类精度，

提出了一种S-SMO-Boost方法。该方法基于Adaboost提升算法迭代过程中错分少数类样本，构造虚拟样本，以

加强对易错分样本的训练；其中构造样本利用空间插值方法，即在错分少数类样本周围构造超几何体，在该超

几何体内部空间随机插值产生有效虚拟样本。在实际数据集上进行实验验证，结果表明，S-SMO-Boost方法提

高了非均衡数据集的分类性能。

摘摘要：要：

关键词：关键词：非均衡数据集；超几何体；

非均衡数据集的分类问题是模式识别和机器学习的研究热点。所谓非均衡数据集是指数据集合中，某些类的数据样本较

多，而其他类数据样本较少[1]。样本较少的为少数类，样本较多的为多数类。非均衡数据集分类问题可应用于风险管理、网

络入侵检测、银行预测、医疗诊断等领域。例如，医生疾病诊断中错将癌症病人诊断为正常人，损失会很大。这种情况下少数

类样本却是人们更加关注的。针对该特点，传统的分类算法不再适用，有必要寻求好的分类方法使其在类别不均衡条件下，提

高对少数类的识别率。

目前，解决非均衡数据集分类问题主要通过两种途径：算法层面方法和数据层面方法。算法层面方法主要是对已有分类算

法进行改进或提出新的算法，如李亚军等[2]提出的改进的Adaboost算法与SVM的组合分类器。数据层面的解决办法有欠抽样

方法，随机去掉部分多数类样本使不同类别样本数量均衡，此方法缺点是丢失了多数类的一些重要信息，造成分类性能降低。

改进的欠抽样方法有托梅克联系对（Tomek Link）[3]方法、压缩最近邻法（CNN）[4]。简单的过抽样方法随机复制少数类样

本的缺点是易导致过学习。Chawla 等[5]提出了SMOTE（Synthetic Minority Over-sampling Technique）方法，人工合成少数

类样本，但是生成样本范围受到极大限制。本文提出了S-SMO-Boost方法，利用Adaboost提升算法，每次迭代不仅仅增大错

分样本权值，还从迭代过程中抽取错分少数类样本，并对该部分样本进行过抽样，过抽样过程采用SMOTE的改进方法——空

间插值法，增强对错分少数类样本的训练，以训练出一个强分类器，提高分类性能。

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38734037

粉丝: 5
资源: 902

S-SMO-Boost: 提升非均衡数据集少数类识别的新型算法

基于K_means聚类和遗传算法的少数类样本采样方法研究

一种基于样本学习复杂度的不平衡数据过采样方法.pdf

一种基于压缩感知的单样本人脸识别方法.pdf

基于循环编码生成对抗网络的小样本辨识方法.docx

不平衡数据文本分类：聚类遗传算法生成少数类样本提升效果

基于改进Inception-ResNet_v2的低资源少数民族语音识别.docx

基于样本对的稀疏表示分类用于人脸识别

元学习解决行人属性识别的增量少数样本学习

稀疏表示在多类融合样本识别中的应用

基于Siamese网络的猫狗品种小样本分类方法

最新资源