QBC主动学习策略优化垃圾邮件在线过滤

需积分: 9 1 下载量 40 浏览量 更新于2024-08-11 收藏 1.16MB PDF 举报
"这篇论文探讨了QBC(Query by Committee)主动采样学习在垃圾邮件在线过滤中的应用,旨在优化采样策略,降低样本标注成本,提高学习效率和过滤准确率。作者在委员会投票算法的基础上提出了动态提升采样门槛的方法,以阶梯式获取高信息量的训练样本。通过在Spambase数据集上的实验验证了这种方法的有效性。" 在垃圾邮件过滤领域,由于垃圾邮件的形式和内容不断变化,需要持续更新分类器以保持高识别率。传统的机器学习方法通常依赖大量已标注的样本,但在实际应用中,获取这些标注样本既耗时又昂贵。主动学习作为一种解决方案,允许分类器主动选择最具代表性和最有价值的无标签样本进行标注,从而减少所需样本量。 论文中提到的QBC(Query by Committee)主动采样策略,是一种基于不确定性的采样方法。它通过构建多个分类器(委员会),对无标签样本进行预测并分析它们之间的分歧。样本若在委员会中引起较大的分类不确定性,即被选为高信息量样本,优先进行标注。这种方式可以聚焦于那些最能提升分类器性能的样本。 Huang等人提出的QUIRE(Query by Uncertainty and Representation)方法是边界采样的扩展,考虑了样本分布信息,降低了噪声干扰。而版本空间缩减的采样策略则是通过逐步淘汰错误假设来收敛至最优模型,但论文主要关注的是QBC策略。 动态提升采样门槛的创新之处在于,它不是固定地在样本池中采样,而是随着学习过程的推进,逐渐提高采样标准,这样可以在保证识别精度的同时,减少需要标注的样本数量,进而节省时间成本。 在UCI的Spambase数据集上进行的仿真验证表明,这种动态提升采样门槛的QBC方法能够有效提高学习效率,降低计算量,同时保持高识别率,适用于实时的垃圾邮件在线过滤系统。这种方法对于处理大规模无标注数据集和降低运营成本具有显著的实际意义。