HB_SMOTE：一种改进的非平衡数据SVM训练方法

PDF格式 | 393KB | 更新于2024-09-02 | 58 浏览量 | 举报

"基于混合重采样的非平衡数据SVM训练方法通过改进传统SVM算法，解决了非平衡数据集分类中的问题。HB_SMOTE方法结合分类超平面和SMOTE过采样，首先利用WSVM找到超平面，再剔除特定负类样本，提升正负类样本的分类准确率。实验表明，与RU_SMOTE等比较，HB_SMOTE有更高的分类性能。" 本文主要探讨了在非平衡数据集上支持向量机（SVM）分类效果不佳的挑战，并提出了一种名为HB_SMOTE的新型训练方法。支持向量机是一种广泛应用的机器学习算法，以其强大的泛化能力和理论基础受到青睐。然而，在现实世界的数据集中，正负样本比例不均等的情况非常普遍，这导致传统SVM在处理这些问题时，可能会偏向多数类，从而影响少数类的分类准确率。为了解决这个问题，研究者们已经尝试了多种策略，包括代价敏感性方法和数据重采样技术。代价敏感性方法通过调整不同类别错误的成本来优化模型，但可能牺牲整体分类效果。而数据重采样，如过采样和欠采样，旨在平衡样本数量。过采样技术如SMOTE虽能保持原始信息，但可能导致过拟合和计算复杂度增加；欠采样则可能丢失重要信息，影响分类准确性。 HB_SMOTE方法则结合了过采样和分类超平面的概念，首先使用加权SVM（WSVM）确定分类边界，然后依据特定标准剔除负类中的一部分样本，如被错误分类的、靠近超平面的和远离超平面的样本。这种策略旨在保留更有区分力的样本，减少噪声和过拟合的风险。实验结果显示，HB_SMOTE在UCI数据集上与RU_SMOTE等其他重采样方法对比，表现出对正类和负类样本更高的分类准确率。这表明混合重采样与分类超平面相结合的方法可能更为有效，尤其是在处理非平衡数据集时。此外，文献指出，位于分类边界附近的样本对于分类至关重要，而远离边界的样本和噪声样本对分类信息的贡献较小。因此，HB_SMOTE通过精心设计的采样策略，专注于关键样本，提高了模型的泛化性能。 HB_SMOTE方法为非平衡数据集的SVM分类提供了一种新的思路，它通过智能的样本筛选和重采样，提升了模型的分类效果，有望在实际应用中解决非平衡数据集的挑战，特别是在入侵检测、文本分类、医疗诊断等领域。未来的研究可能进一步优化这一方法，以适应更多类型和规模的非平衡数据集。

基于混合重采样的非平衡数据基于混合重采样的非平衡数据SVM训练方法训练方法

针对传统的SVM算法在非平衡数据分类中分类效果不理想的问题，提出一种基于分类超平面和SMOTE过采样方

法(HB_SMOTE)。该方法首先对原始训练样本集使用WSVM算法找到分类超平面，然后按一定标准剔除负类中

被错分的样本、靠近分类超平面的样本以及远离分类超平面的样本。在UCI数据集上的实验结果表明：与

RU_SMOTE等重采样方法相比，HB_SMOTE方法对正类样本和负类样本都具有较高的分类准确率。

　　郭亚伟,白治江

　　(上海海事大学信息工程学院,上海 201306)

　　摘要　　摘要：针对传统的

　　关键词　关键词：

0引言引言

　　支持向量机(SVM)［1］因其能够有效地避免维数灾难，实现全局最优，具有严谨的理论基础和良好的泛化能力，现已成

为机器学习领域的热点问题。传统的SVM方法需要其各类样本集的规模相同。然而在现实生活中，往往会遇到一些非平衡数

据分类问题，如入侵检测、文本分类、医疗诊断等。使用这些数据对SVM方法进行训练建模时，分类决策面会向少数类偏

移，导致少数类的分类准确率降低。国内外学者针对此类问题进行了深入的研究，提出了许多不同的处理方案。

　　目前，针对非平衡数据下SVM分类问题的研究主要集中在算法层面和数据重采样两个方面。算法层面主要是代价敏感性

方法。这种方法虽然增加了少数(正)类的分类准确率，但却牺牲了多数(负)类的分类准确率，总的分类效果也受到了极大的影

响［2］。数据重采样技术主要是过采样和欠采样。过采样主要包括随机过采样、SMOTE［2］算法、

BorderlineSMOTE［3］技术等。这些过采样方法虽然可以确保原始分类信息的完整性，但是由于新合成的正类样本不能准确

表达原始样本集的信息，从而导致过拟合，同时也会增加计算复杂度。欠采样主要包括随机欠采样、基于聚类欠采样的极端学

习机［4］等。单一的欠采样技术虽然可以降低计算复杂度，但是在删除样本时通常会导致负类样本中部分信息缺失，影响分

类准确性。

　　参考文献［5］表明相较于单一的采样方法，混合重采样方法往往能够得到更好的分类效果。参考文献［6］表明对于分

类来说最重要的数据是位于边界的样本，噪声样本和距离分类边界较远的样本对数据信息的贡献不大。据此，本文提出了一种

基于混合重采样和分类超平面的分类方法并在UCI数据集上进行建模训练，验证算法的有效性。

1基本的分类方法基本的分类方法

　　　　1.1SMOTE算法算法

　　SMOTE算法［2］是由CHAWLA N V等人提出的一种过采样方法。该算法步骤如下。

　　（1)对正类中的每一个样本x，计算它到该类中其他每个样本的欧氏距离，获取其k个最近邻样本，并记录近邻下标。

　　（2)按照两类数据集不均衡的比率设置正类的采样倍率N,对所有正类样本x，从k个最近邻中随机选取xi(i=1，…，N)。

　　（3)对每一个近邻xi，分别与原始样本x按照xnew=x+rand(0,1)×(xi－x)合成新样本。

　　（4)把合成的新样本与原始训练样本集并为新的训练集，并在该样本集上学习。

　　1.2SVM与与WSVM

　　SVM是在统计学习理论中结构风险最小化原则基础上提出的机器学习方法［1］。其原理是寻找一个最优分类超平面，使

得该超平面在保证分类精度的同时，能够使超平面两侧的空白区域最大化。此外，它还能通过核函数将低维空间中的线性不可

分问题转化为高维空间中的线性可分问题。设训练样本集为(xi,yi),i=1,2,…,l,x∈Rn,y∈{±1}，超平面记作(w·φ(x))+b=0，其中

φ(x)为x从输入空间Rn到特征空间H的变换。将构造最优超平面问题转化为求解二次凸规划问题，即：

　　为解决由于样本集失衡导致的分类决策面偏移问题，引入了基于代价敏感的WSVM，主要思想是对错分的正类和负类样

本分别赋予不同的惩罚系数C+和C-，约束表达式变为：

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38623919

粉丝: 6

HB_SMOTE：一种改进的非平衡数据SVM训练方法

基于混合采样的非平衡数据集分类研究_古平_欧阳源遊

基于高斯混合模型的非平衡数据对称翻转算法.docx

重采样在机器学习中的优化：探索数据增强超参数的最佳设置

数据不平衡到平衡：7种实用技巧优化你的机器学习训练集

【不平衡数据处理】：特征缩放在样本权重调整中的关键作用

【PSO-SVM算法调优】：专家分享，提升算法效率与稳定性的秘诀

模型验证中的数据不平衡问题：三大解决方案

训练集大小对性能的影响：模型评估的10大策略

预训练模型适应性调整：特定领域应用的三个核心步骤

【地址数据清洗艺术】：深度学习模糊匹配的基石

最新资源