不确定性采样自训练代价敏感支持向量机

需积分: 9 47 浏览量更新于2024-08-11 收藏 655KB PDF 举报

"这篇论文是2012年2月中南大学学报(自然科学版)发表的研究，由江彤、唐明珠和阳春华共同撰写，主题涉及机器学习中的类不平衡问题和样本标注成本问题。研究提出了基于不确定性采样的自训练代价敏感支持向量机（Self-training Cost-sensitive Support Vector Machine with Uncertainty-based Sampling, SCU），旨在降低平均期望误分类代价，并减少对样本集的标注需求。" 正文: 在机器学习领域，支持向量机（Support Vector Machines, SVM）是一种广泛使用的分类算法，尤其在处理小样本和高维数据时表现出色。然而，当面临类不平衡问题时，即某一类别的样本数量远多于另一类别，SVM可能会偏向于预测占多数的类别，从而对少数类别的识别效果不佳。此外，获取带有标签的训练样本通常需要专家知识，这在实际应用中往往是时间和成本高昂的。论文提出的SCU算法结合了不确定性采样和自训练策略，以解决这两个问题。不确定性采样（Uncertainty Sampling）是一种主动学习（Active Learning）策略，它根据样本的不确定性程度来选择最有价值的未标注样本进行标注。在支持向量数据描述（Support Vector Data Description, SVDD）的基础上，算法评估未标注样本的不确定性，选取那些距离已知边界最近或最难以分类的样本优先进行人工标注。自训练（Self-Training）则是一种半监督学习方法，它利用初始的有标签样本来训练模型，然后将模型用于预测未标注样本的标签，这些新标签的样本再加入到训练集中，迭代地更新模型。在SCU中，自训练与代价敏感学习相结合，代价敏感支持向量机（Cost-sensitive SVM）引入了代价参数，使得模型能够考虑不同错误分类的代价差异。通过调整核参数，算法可以适应不同的数据分布和任务需求。实验结果显示，SCU算法在降低平均期望误分类代价方面表现出优越性，这意味着它在处理类不平衡问题时能够更准确地识别少数类别。同时，通过有效利用未标注样本，SCU减少了需要人工标注的样本数量，降低了标注成本，这对于大规模数据集的应用来说具有显著优势。这篇论文提出了一种创新的方法，它结合了不确定性采样、自训练和代价敏感学习，有效地解决了类不平衡和标注成本高的问题，提高了支持向量机在实际应用中的性能。这种方法对于需要高效且精确分类的领域，如医疗诊断、金融风险评估和网络安全等领域具有重要的理论和实践意义。

weixin_38664989

粉丝: 4
资源: 906

不确定性采样自训练代价敏感支持向量机

基于支持向量机的图像边缘检测

网络游戏-基于遗传算法过采样支持向量机的网络入侵检测方法.zip

基于支持向量机的P300脑电信号分类研究

基于支持向量机的矿用电机故障诊断

论文研究-基于支持向量机的NSCT域自适应图像水印算法.pdf

基于支持向量机的高频振荡回路性能评价

基于句子向量的情绪不平衡分类过采样方法

基于支持向量机的配电线路高阻接地故障检测方法

一种多率采样的在线支持向量回归及应用 (2010年)

采样序列最小优化算法在潜在支持向量机中的应用

最新资源