QBC主动学习策略优化垃圾邮件在线过滤
需积分: 9 40 浏览量
更新于2024-08-11
收藏 1.16MB PDF 举报
"这篇论文探讨了QBC(Query by Committee)主动采样学习在垃圾邮件在线过滤中的应用,旨在优化采样策略,降低样本标注成本,提高学习效率和过滤准确率。作者在委员会投票算法的基础上提出了动态提升采样门槛的方法,以阶梯式获取高信息量的训练样本。通过在Spambase数据集上的实验验证了这种方法的有效性。"
在垃圾邮件过滤领域,由于垃圾邮件的形式和内容不断变化,需要持续更新分类器以保持高识别率。传统的机器学习方法通常依赖大量已标注的样本,但在实际应用中,获取这些标注样本既耗时又昂贵。主动学习作为一种解决方案,允许分类器主动选择最具代表性和最有价值的无标签样本进行标注,从而减少所需样本量。
论文中提到的QBC(Query by Committee)主动采样策略,是一种基于不确定性的采样方法。它通过构建多个分类器(委员会),对无标签样本进行预测并分析它们之间的分歧。样本若在委员会中引起较大的分类不确定性,即被选为高信息量样本,优先进行标注。这种方式可以聚焦于那些最能提升分类器性能的样本。
Huang等人提出的QUIRE(Query by Uncertainty and Representation)方法是边界采样的扩展,考虑了样本分布信息,降低了噪声干扰。而版本空间缩减的采样策略则是通过逐步淘汰错误假设来收敛至最优模型,但论文主要关注的是QBC策略。
动态提升采样门槛的创新之处在于,它不是固定地在样本池中采样,而是随着学习过程的推进,逐渐提高采样标准,这样可以在保证识别精度的同时,减少需要标注的样本数量,进而节省时间成本。
在UCI的Spambase数据集上进行的仿真验证表明,这种动态提升采样门槛的QBC方法能够有效提高学习效率,降低计算量,同时保持高识别率,适用于实时的垃圾邮件在线过滤系统。这种方法对于处理大规模无标注数据集和降低运营成本具有显著的实际意义。
2023-09-24 上传
2013-10-21 上传
2021-05-25 上传
2016-09-24 上传
2015-05-22 上传
2011-11-10 上传
2013-10-31 上传
2009-01-05 上传
weixin_38555304
- 粉丝: 2
- 资源: 993
最新资源
- 正整数数组验证库:确保值符合正整数规则
- 系统移植工具集:镜像、工具链及其他必备软件包
- 掌握JavaScript加密技术:客户端加密核心要点
- AWS环境下Java应用的构建与优化指南
- Grav插件动态调整上传图像大小提高性能
- InversifyJS示例应用:演示OOP与依赖注入
- Laravel与Workerman构建PHP WebSocket即时通讯解决方案
- 前端开发利器:SPRjs快速粘合JavaScript文件脚本
- Windows平台RNNoise演示及编译方法说明
- GitHub Action实现站点自动化部署到网格环境
- Delphi实现磁盘容量检测与柱状图展示
- 亲测可用的简易微信抽奖小程序源码分享
- 如何利用JD抢单助手提升秒杀成功率
- 快速部署WordPress:使用Docker和generator-docker-wordpress
- 探索多功能计算器:日志记录与数据转换能力
- WearableSensing: 使用Java连接Zephyr Bioharness数据到服务器