QBC主动学习策略优化垃圾邮件在线过滤

需积分: 9 40 浏览量更新于2024-08-11 收藏 1.16MB PDF 举报

"这篇论文探讨了QBC（Query by Committee）主动采样学习在垃圾邮件在线过滤中的应用，旨在优化采样策略，降低样本标注成本，提高学习效率和过滤准确率。作者在委员会投票算法的基础上提出了动态提升采样门槛的方法，以阶梯式获取高信息量的训练样本。通过在Spambase数据集上的实验验证了这种方法的有效性。" 在垃圾邮件过滤领域，由于垃圾邮件的形式和内容不断变化，需要持续更新分类器以保持高识别率。传统的机器学习方法通常依赖大量已标注的样本，但在实际应用中，获取这些标注样本既耗时又昂贵。主动学习作为一种解决方案，允许分类器主动选择最具代表性和最有价值的无标签样本进行标注，从而减少所需样本量。论文中提到的QBC（Query by Committee）主动采样策略，是一种基于不确定性的采样方法。它通过构建多个分类器（委员会），对无标签样本进行预测并分析它们之间的分歧。样本若在委员会中引起较大的分类不确定性，即被选为高信息量样本，优先进行标注。这种方式可以聚焦于那些最能提升分类器性能的样本。 Huang等人提出的QUIRE（Query by Uncertainty and Representation）方法是边界采样的扩展，考虑了样本分布信息，降低了噪声干扰。而版本空间缩减的采样策略则是通过逐步淘汰错误假设来收敛至最优模型，但论文主要关注的是QBC策略。动态提升采样门槛的创新之处在于，它不是固定地在样本池中采样，而是随着学习过程的推进，逐渐提高采样标准，这样可以在保证识别精度的同时，减少需要标注的样本数量，进而节省时间成本。在UCI的Spambase数据集上进行的仿真验证表明，这种动态提升采样门槛的QBC方法能够有效提高学习效率，降低计算量，同时保持高识别率，适用于实时的垃圾邮件在线过滤系统。这种方法对于处理大规模无标注数据集和降低运营成本具有显著的实际意义。

C omputer Engineering and Applications计算机工程与应用2014，50（22）

垃圾邮件指的是通过群发方式，未经许可强行向用

户发送的电子邮件，其承载的信息多为商业广告，但也

充斥着相当数量的诈骗、色情信息，严重干扰了人们的

日常生活，甚至会造成一定的经济损失。提供邮件服务

的网站都有一些垃圾邮件在线过滤的方法，其实质都是

解决二值文本的在线分类问题

[1]

，但由于垃圾邮件本身

的格式、内容等都在不断地发生变化，因此分类器也需

要获取相应的样本进行更新。网络上存在着一些已被

标注的邮件样本，但更多的是未经用户标注的样本。当

前研究方向是：以较小的标注成本获取高价值的样本，

快速地建立训练集，使得垃圾邮件在线过滤既能满足低

计算量的要求，又能兼顾高识别率的期望。

主动学习是近年来机器学习研究的热点，它改变了

原先分类器被动接受训练样本的学习方式

[2]

，在已有带

标签样本数量不足，分类器充分训练得不到保证的条件

下，在无标签样本池中通过一定的采样策略主动选择样

本，经专家或用户标注类别后，加入训练集。现有的采

样策略主要分三种

[3]

：一是基于不确定性的采样策略，文

献[4]中提出的边界采样（Margin Sampling）是目前广泛

被使用的一种方法，它在 SVM 超平面附近采集类别归

属不确定性大的样本进行机器训练，并在各种实际应用

中取得很好分类效果。Huang 等人提出的最小—最大

视图方法

[5]

（QUIRE）由于充分考虑了样本的分布信息，

因此能很好地克服噪音带来的干扰，是该策略下采样效

果较好的方法。二是基于版本空间缩减的采样策略，它

将所有可能成为目标参数的模型假设集中在一起，构成

版本空间（Version Space），在某种算法思想下，逐步淘

汰错误的假设，使版本空间最终收敛于目标假设。委员

QBC 主动采样学习在垃圾邮件在线过滤中的应用

陈念

1，2

，唐振民

CHEN Nian

1，2

, TANG Zhenmin

1.池州学院数学与计算机科学系，安徽池州 247000

2.南京理工大学计算机科学与工程学院，南京 210094

1.Depa rtment of Mathematics and Computer Science, Chizhou College, Chizhou, Anhui 247000 , China

2.College of Computer Science and Engineering, Nanjing University of Science and Technology, Nanjing 210094, China

CHEN Nian, TANG Zhenmin. Method of spam filteri ng online based on QBC active sampling learning algorithm.

Computer Engineering and Applications, 2014, 50（22）：170-174.

Abstract：A method is put forward in the paper which can get informative samples from unlabeled-sample pool with

st epped way. The met hod which is based on query-by-committee algorithm increases the sampling threshold dynamically

and it is in order to solve the problem of spam filtering online. Through the new method, the number of samples which is

used for labeling and training is further reduced and the accuracy of clas sifier can remain stable . By experiments on Spam-

base datasets, t he effectiveness which can improve efficiency of machine learning is certificated.

Key words：spam filtering; version space; active learning; vote entropy; query-by-committee algorithm

摘要：针对垃圾邮件在线过滤的实际应用，在委员会投票算法采样学习的基础上，提出动态提升采样门槛，在无标

签样本池中阶梯式获取高信息量训练样本的方法。该方法能够在稳定识别精度的前提下，进一步降低用于标注和

学习的样本数量，压缩由此带来的时间成本。通过在 UCI的 Spambase数据集上仿真，证明了该方法在改善学习效率

方面的有效性。

关键词：垃圾邮件过滤；版本空间；主动学习；投票熵；委员会投票算法

文献标志码：A 中图分类号：TP393 doi：10.3778/j.issn.1002-8331.1211-0016

基金项目：安徽省教育厅自然重点项目（No.KJ 2012A211）。

作者简介：陈念（1978—），男，副教授，主研方向：机器学习与人工智能；唐振民，教授，博导。E-mail：njustchen nian@gmail.com

收稿日期：2 012-11-01 修回日期：2 013-01-2 3 文章编号：1 002-8331（2014）22-0170-05

CNKI网络优先出版：2013-02-28, http://www.cnki.net/kcms/det ail/11.2 127.TP.20130228.1148.012.html

170

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38555304

粉丝: 2
资源: 993

QBC主动学习策略优化垃圾邮件在线过滤

本科毕业论文—面向智能胎心监护的QBC主动学习算法设计研究+论文.pdf

QBC的各种查询

基于QBC主动学习方法建立电信客户信用风险等级评估模型 (2007年)

qbc表达式

Hibernate QBC分页

QBC QBE查询

java QBC常用方法

QBC_hibernate完整用法

QBC的使用全集大全

QBC的相关讲义和例题

最新资源