不确定性采样自训练代价敏感支持向量机
需积分: 9 47 浏览量
更新于2024-08-11
收藏 655KB PDF 举报
"这篇论文是2012年2月中南大学学报(自然科学版)发表的研究,由江彤、唐明珠和阳春华共同撰写,主题涉及机器学习中的类不平衡问题和样本标注成本问题。研究提出了基于不确定性采样的自训练代价敏感支持向量机(Self-training Cost-sensitive Support Vector Machine with Uncertainty-based Sampling, SCU),旨在降低平均期望误分类代价,并减少对样本集的标注需求。"
正文:
在机器学习领域,支持向量机(Support Vector Machines, SVM)是一种广泛使用的分类算法,尤其在处理小样本和高维数据时表现出色。然而,当面临类不平衡问题时,即某一类别的样本数量远多于另一类别,SVM可能会偏向于预测占多数的类别,从而对少数类别的识别效果不佳。此外,获取带有标签的训练样本通常需要专家知识,这在实际应用中往往是时间和成本高昂的。
论文提出的SCU算法结合了不确定性采样和自训练策略,以解决这两个问题。不确定性采样(Uncertainty Sampling)是一种主动学习(Active Learning)策略,它根据样本的不确定性程度来选择最有价值的未标注样本进行标注。在支持向量数据描述(Support Vector Data Description, SVDD)的基础上,算法评估未标注样本的不确定性,选取那些距离已知边界最近或最难以分类的样本优先进行人工标注。
自训练(Self-Training)则是一种半监督学习方法,它利用初始的有标签样本来训练模型,然后将模型用于预测未标注样本的标签,这些新标签的样本再加入到训练集中,迭代地更新模型。在SCU中,自训练与代价敏感学习相结合,代价敏感支持向量机(Cost-sensitive SVM)引入了代价参数,使得模型能够考虑不同错误分类的代价差异。通过调整核参数,算法可以适应不同的数据分布和任务需求。
实验结果显示,SCU算法在降低平均期望误分类代价方面表现出优越性,这意味着它在处理类不平衡问题时能够更准确地识别少数类别。同时,通过有效利用未标注样本,SCU减少了需要人工标注的样本数量,降低了标注成本,这对于大规模数据集的应用来说具有显著优势。
这篇论文提出了一种创新的方法,它结合了不确定性采样、自训练和代价敏感学习,有效地解决了类不平衡和标注成本高的问题,提高了支持向量机在实际应用中的性能。这种方法对于需要高效且精确分类的领域,如医疗诊断、金融风险评估和网络安全等领域具有重要的理论和实践意义。
2010-12-08 上传
2021-09-19 上传
2018-04-06 上传
2020-05-17 上传
2019-07-22 上传
2020-10-21 上传
2021-03-12 上传
2021-01-29 上传
2021-05-12 上传
weixin_38664989
- 粉丝: 4
- 资源: 906
最新资源
- 全国江河水系图层shp文件包下载
- 点云二值化测试数据集的详细解读
- JDiskCat:跨平台开源磁盘目录工具
- 加密FS模块:实现动态文件加密的Node.js包
- 宠物小精灵记忆配对游戏:强化你的命名记忆
- React入门教程:创建React应用与脚本使用指南
- Linux和Unix文件标记解决方案:贝岭的matlab代码
- Unity射击游戏UI套件:支持C#与多种屏幕布局
- MapboxGL Draw自定义模式:高效切割多边形方法
- C语言课程设计:计算机程序编辑语言的应用与优势
- 吴恩达课程手写实现Python优化器和网络模型
- PFT_2019项目:ft_printf测试器的新版测试规范
- MySQL数据库备份Shell脚本使用指南
- Ohbug扩展实现屏幕录像功能
- Ember CLI 插件:ember-cli-i18n-lazy-lookup 实现高效国际化
- Wireshark网络调试工具:中文支持的网口发包与分析