基于主动学习的半监督分类算法优化研究

需积分: 9 1 下载量 149 浏览量 更新于2024-09-08 收藏 1021KB PDF 举报
"这篇论文探讨了一种结合主动学习策略的半监督分类算法,旨在提升半监督分类的性能。通过改进基于投票熵的主动学习算法,考虑样本密度,减少了孤立点和冗余点的影响。论文提出两种算法,SSC_AL和SSC_IAL,其中SSC_IAL通过改进策略进一步提高了分类效率。这两种算法选择信息价值高的无标记样本进行自动标记,降低人工干预。实验在UCI数据集上进行,结果显示SSC-AL和SSC-IAL能显著减少问题规模,SSC-IAL的分类精度提升了1.41%,且算法具有良好的收敛性。该研究受到陕西省自然科学基础研究计划和商洛学院科研项目的资助。" 这篇论文深入研究了半监督学习领域,特别是如何通过主动学习策略来优化分类性能。半监督学习是一种在大量未标记数据和少量标记数据情况下进行学习的方法,而主动学习则是选择最有价值的样本请求其标签,以此来最大化模型的学习效果。论文中提到的SSC_AL算法是基于主动学习策略的,它通过计算样本密度来改进基于投票熵的主动学习方法,以避免选择到那些可能导致分类错误的孤立点和冗余点。 同时,SSC_IAL是SSC_AL的进一步改进,它采用更精细的策略来选择无标记样本,这有助于提升信息获取的效率。这两种算法都利用半监督学习算法对候选样本进行自动标记,减少了人工标注的负担。实验部分,研究者使用了UCI数据集,这是一个广泛用于机器学习算法评估的标准数据集。实验结果证明,SSC-AL和SSC-IAL成功地缩小了问题规模,SSC-IAL的性能尤为突出,分类准确率提高了1.41%,并且算法在迭代过程中表现出了稳定的收敛性。 这篇论文的研究工作对于理解和改进半监督分类算法具有重要意义,特别是在处理大规模无标记数据集时,可以有效地减少对人工标注的依赖,提高学习效率。同时,它也为未来在主动学习和半监督学习的融合方面提供了新的研究思路。通过这种方法,可以期待在实际应用中实现更高效、更精确的模型训练。