词共现与信息增益结合的垃圾邮件过滤特征选择研究

需积分: 9 105 浏览量更新于2024-08-12 收藏 213KB PDF 举报

“垃圾邮件过滤中特征选择方法研究 (2009年)” 垃圾邮件过滤是信息安全领域的一个重要课题，其目标是有效地识别并拦截不受欢迎的电子邮件，以保护用户的邮箱免受垃圾信息的侵扰。这篇2009年的论文深入探讨了在垃圾邮件过滤过程中的特征选择策略，这是提高过滤准确性和效率的关键步骤。作者王军、史科和王辉提出了一种创新的方法，将“词共现模型”与传统的信息增益特征选择技术相结合，以增强邮件的表示能力。词共现模型是一种统计方法，用于分析文本中词语之间出现的频率和顺序，从而揭示它们之间的潜在语义关系。在垃圾邮件过滤的上下文中，这种模型可以帮助捕捉到某些词语共同出现时可能暗示的垃圾邮件特征，例如，特定的促销词汇或欺诈性短语。通过考虑这些语义联系，模型可以更准确地理解邮件内容的含义，而不仅仅是基于单个词汇的出现频率。传统的信息增益特征选择方法是基于决策树学习的一种常见策略，它通过计算每个特征对分类结果的贡献来决定哪些特征最重要。在邮件过滤中，这通常意味着找出最能区分垃圾邮件和非垃圾邮件的词汇或短语。然而，这种方法可能忽视了词语之间的关联性，因此，结合词共现模型可以弥补这一不足。论文中还提到了神经网络的应用。神经网络是一种模仿人脑神经元结构的计算模型，擅长处理复杂的数据模式和分类任务。在这里，神经网络被用作分类器，接收经过特征选择后的邮件表示，并输出邮件是否为垃圾邮件的判断。通过训练神经网络，系统可以根据以往的邮件样本学习和改进其分类性能。实验结果显示，将词共现对和信息增益结合的特征选择方法显著提高了垃圾邮件过滤的精确度。这意味着更多的垃圾邮件被正确识别，同时误报（即误判为垃圾邮件的正常邮件）减少，这对于用户来说是非常关键的，因为它直接影响到邮箱的可用性和用户体验。这篇论文为垃圾邮件过滤提供了一个新的视角，强调了词语语义关系在特征选择中的重要性，并展示了这种方法在实际应用中的有效性。通过结合多种技术，该研究为未来的垃圾邮件过滤算法优化提供了有价值的参考。

第

卷第

期

2009

年

月

合月巴工业大学学报〈自然科学版)

JOURNAL OF HEFEI UNlVERSITY OF TECHNOLOGY

32 No. 12

2009

垃圾邮件过滤中特征选择方法研究

王军

，史科

，王辉

(1.合肥工业大学信息与网络中心，安徽合肥

230009

，

安徽大学计算机科学与技术学院，安徽合肥

230039)

摘

要:文章对垃圾邮件过滤中的特征选择问题进行了研究，弓|入"词共现模型"考虑词语之间的语义联系信

息，和传统的信息增益特征选择方法结合表示邮件，采用神经网络方法对邮件进行分类得到垃圾邮件过滤器.

实验表明，文章提出的将词共现对和信息增益结合的特征选择方法能够提高垃圾邮件过滤的精确度。

关键词:垃圾邮件过滤:信息增益

词共现模型

神经网络

交叉覆盖算法

中图分类号:

TP393.

文献标识码

文章编号:

1003-5060(

2009)

12-1863-04

Research on the feature selection method for spam filtering

WANGJun

SHI

WANG

Hue

(1.

Infonnation

Network

ntre.

Hefei

University

Technology

Hefei

230009.

阳，

∞.J

mputer

坠

lence

世

Technolo

盯，

hui

University

Hefei

230039

China)

Abstract:Feature

selection

for

spam

filtering

researched

this

paper.

The

word

co-occurrence

mod

introduced

analyze

the

semantic

relation

between

phrases.

Features

representing

emails

are

se-

lected

word

occurrence

and

information

gai

The

neural

network

used

classify

emails

and

construct

the

spam

filter.

The

experiments

show

that

the

precision

spam

filtering

increased

feature

selection

which

combines

word

ccγoccurrence

and

information

gain.

Key

words:

spam

filtering;

Înformation

gain;

word

occurrence

model;

neural

network;

crQSSQver

al-

gorithm

言!r

司

随着互联网技术的发展，大部分的互联网用

户都在使用电子邮件进行信息交换。电子邮件在

给用户带来极大便利的同时，垃圾邮件泛滥的问

题也随之而来。大量的垃圾邮件干扰了用户对有

用信息的关注，增加了邮件服务器的负担，给互联

网用户带来了很大困扰。垃圾邮件

(spam)

的基

本特征是"不请自来气而且大部分垃圾邮件都带

有商业或者其他宣传目的。同时，垃圾邮件的判

定和邮件的接收者有很大关系，不同用户对同一

邮件的判断结果可能会存在差异。

早期垃圾过滤技术常采用黑名单-白名单或

者手工制订规则的方法，黑名单自名单可以看成

手工制订规则方法的特例。黑名单给出了发送垃

收稿日期:

2008-12

-0

作者简介王军(1

966-)

.男，安徽无为人，合肥工业大学实验师.

圾邮件的邮件地址(或者是

地址范围、域名等

属性)列表，凡是属于黑名单发送来的邮件都被

判定为垃圾邮件。自名单收录了邮件接收者确信

的邮件地址信息，凡是属于自名单发送来的邮件

都被判定为合法邮件。手工建立规则的方法通过

用户建立一系列规则来判定垃圾邮件。显然，这

些方法的主观性会造成大量合法邮件的误判和垃

圾邮件的漏判。因此，目前的垃圾邮件工具逐渐

倾向于采用基于内容的机器学习班

别方法。

目前的用户桌面邮件工具如

Outlook

等，一般采用机器学习方法对邮件的内容进行分

析，判断其是否为垃圾邮件。机器学习中很多算

法都可以用到垃圾邮件过滤中，如基于规则的

Boo

sting

方法[1]、

Rippe

算法、决策树算法

[3]

和

Rough

t[4]

方法，基于统计的支持向量机[町、贝

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38637580

粉丝: 3
资源: 917

词共现与信息增益结合的垃圾邮件过滤特征选择研究

基于TF*IDF的垃圾邮件过滤特征选择改进算法* (2009年)

Cisco 2009年中安全报告

2009年GCT考试模拟试题 A.

数据过滤知识（垃圾邮件过滤、反垃圾邮件网关、有害信息识别及过滤方法等）

python垃圾邮件过滤

基于KNN的垃圾邮件过滤

使用逻辑回归进行垃圾邮件过滤

垃圾邮件过滤系统功能整体性描述

垃圾邮件过滤模型的意义

基于贝叶斯的垃圾邮件过滤的设计与实现

最新资源

基于TFIDF的垃圾邮件过滤特征选择改进算法 (2009年)