证据理论与偏SVM结合的不平衡数据半监督分类

需积分: 14 1 下载量 107 浏览量 更新于2024-09-07 收藏 996KB PDF 举报
"这篇论文提出了一种基于证据理论和biased-SVM的不平衡数据半监督分类方法,用于处理标记样本少的不平衡数据集。通过随机子空间方法获取不同视角,使用initial标记样本集训练biased-SVM模型,然后对未标记样本进行分类预测,最后通过证据理论融合信息以增强分类稳定性。实验表明,该方法在各种标记样本率下具有高G-mean值和小类F-value值,且表现出良好的稳定性。" 本文的核心知识点包括: 1. **半监督分类**:这是一种机器学习方法,其中部分数据被标记,而大部分数据则未标记。模型利用少量的标记数据来推断大量未标记数据的类别。在这种情况下,提出的算法旨在利用有限的标记样本有效地分类不平衡数据。 2. **不平衡数据**:不平衡数据是指类别的分布不均匀,其中一类(通常是少数类)样本数量远少于另一类(多数类)。这种不平衡可能导致分类器偏向多数类,忽视少数类,从而降低分类性能。 3. **证据理论**:也称为Dempster-Shafer理论,是一种处理不确定性和不完整信息的概率框架。它允许合并来自不同源或不同视角的信息,以得出更准确的决策或分类。 4. **biased-SVM(偏置支持向量机)**:在传统的支持向量机(SVM)基础上,biased-SVM对少数类给予更高的权重,以应对不平衡数据问题。这样可以使得模型更加关注识别和分类少数类样本。 5. **随机子空间方法**:这是一种降维技术,通过随机选择特征子集来创建多个数据视图。这种方法可以帮助发现数据的不同方面,有助于提高分类的鲁棒性和准确性。 6. **G-mean** 和 **F-value**:在评估分类性能时,G-mean是平衡准确率,尤其适用于不平衡数据集,它考虑了所有类别的精确度。F-value则衡量了分类器在处理两类时的精度和召回率的调和平均值,特别是对于小类的识别性能。 7. **实验与比较**:论文通过在多个公共数据集上进行实验,证明了所提方法相较于其他方法在不同标记样本率下的优势,显示了更高的G-mean值和小类F-value值,以及较高的分类稳定性。 8. **应用领域**:这种方法可能适用于生物信息学、医学诊断、金融风险评估等领域的数据分类,特别是在样本标记成本高或不平衡情况严重的情况下。 9. **研究背景**:论文提到的基金项目和作者简介揭示了其研究背景,即智能信息处理领域,由西南交通大学和河南大学的研究人员共同完成。 该研究提供了一种创新的半监督分类策略,结合证据理论和biased-SVM,以解决不平衡数据集的分类挑战。其在实际应用中可能对提高数据分类的准确性和稳定性有显著贡献。