证据理论与偏SVM结合的不平衡数据半监督分类
需积分: 14 107 浏览量
更新于2024-09-07
收藏 996KB PDF 举报
"这篇论文提出了一种基于证据理论和biased-SVM的不平衡数据半监督分类方法,用于处理标记样本少的不平衡数据集。通过随机子空间方法获取不同视角,使用initial标记样本集训练biased-SVM模型,然后对未标记样本进行分类预测,最后通过证据理论融合信息以增强分类稳定性。实验表明,该方法在各种标记样本率下具有高G-mean值和小类F-value值,且表现出良好的稳定性。"
本文的核心知识点包括:
1. **半监督分类**:这是一种机器学习方法,其中部分数据被标记,而大部分数据则未标记。模型利用少量的标记数据来推断大量未标记数据的类别。在这种情况下,提出的算法旨在利用有限的标记样本有效地分类不平衡数据。
2. **不平衡数据**:不平衡数据是指类别的分布不均匀,其中一类(通常是少数类)样本数量远少于另一类(多数类)。这种不平衡可能导致分类器偏向多数类,忽视少数类,从而降低分类性能。
3. **证据理论**:也称为Dempster-Shafer理论,是一种处理不确定性和不完整信息的概率框架。它允许合并来自不同源或不同视角的信息,以得出更准确的决策或分类。
4. **biased-SVM(偏置支持向量机)**:在传统的支持向量机(SVM)基础上,biased-SVM对少数类给予更高的权重,以应对不平衡数据问题。这样可以使得模型更加关注识别和分类少数类样本。
5. **随机子空间方法**:这是一种降维技术,通过随机选择特征子集来创建多个数据视图。这种方法可以帮助发现数据的不同方面,有助于提高分类的鲁棒性和准确性。
6. **G-mean** 和 **F-value**:在评估分类性能时,G-mean是平衡准确率,尤其适用于不平衡数据集,它考虑了所有类别的精确度。F-value则衡量了分类器在处理两类时的精度和召回率的调和平均值,特别是对于小类的识别性能。
7. **实验与比较**:论文通过在多个公共数据集上进行实验,证明了所提方法相较于其他方法在不同标记样本率下的优势,显示了更高的G-mean值和小类F-value值,以及较高的分类稳定性。
8. **应用领域**:这种方法可能适用于生物信息学、医学诊断、金融风险评估等领域的数据分类,特别是在样本标记成本高或不平衡情况严重的情况下。
9. **研究背景**:论文提到的基金项目和作者简介揭示了其研究背景,即智能信息处理领域,由西南交通大学和河南大学的研究人员共同完成。
该研究提供了一种创新的半监督分类策略,结合证据理论和biased-SVM,以解决不平衡数据集的分类挑战。其在实际应用中可能对提高数据分类的准确性和稳定性有显著贡献。
2019-09-20 上传
2019-09-20 上传
2019-07-22 上传
2019-09-20 上传
2019-09-07 上传
2019-09-07 上传
2008-10-05 上传
2019-09-12 上传
2019-09-20 上传
weixin_39840588
- 粉丝: 451
- 资源: 1万+
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍