2013年AASRI并行和分布式计算系统中基于信誉的协同垃圾邮件过滤

47 浏览量更新于2023-12-05 收藏 713KB PDF 举报

在线获取

垃圾邮件过滤

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

© 2013由Elsevier B.V.发布由美国应用科学研究所负责选择和/或同行评审可在www.sciencedirect.com在线获取ScienceDirectAASRI Procedia 5（2013）220 - 2272013年AASRI并行和分布式计算系统一种基于信誉的协同垃圾邮件过滤石文轩a、谢茂强ba南开大学软件学院，天津300071b南开大学软件学院，天津300071摘要垃圾邮件和垃圾邮件过滤器是一个复杂的相互依赖的社会生态系统的对立组成部分。传统的垃圾邮件过滤技术或系统通常是单独设计和部署的，忽略了垃圾邮件的分布式和批量特性。提出了一种基于信誉的协同反垃圾邮件方法。该方法采用了指纹技术，评估了报告者© 2013作者。由Elsevier B. V.在CC BY-NC-ND许可下开放获取。由美国应用科学研究所负责选择和/或同行评审关键词：垃圾邮件过滤;信誉评估;协同;指纹1. 介绍网络上的人与数据之间存在着频繁而密切的相互关系，这种关系为不法分子提供了发送各种垃圾信息的潜在机会，包括垃圾邮件、垃圾海报、垃圾邀请函、垃圾广告等。根据垃圾信息的特点，实践中对垃圾信息的定义有多种，如未经请求的和不需要的电子邮件、直接或间接发送的不分青红皂白的批量电子邮件、垃圾邮件除了浪费收件人处理垃圾邮件的时间外，还占用了大量的网络带宽。此外，垃圾邮件占用了大量的计算和存储资源，它是深刻的困扰客户端和电子邮件服务提供商（ESP）。因此，许多反垃圾邮件的技术和系统，被称为垃圾邮件过滤器，已经出现与垃圾邮件的出现相关联。这种情况被称为垃圾邮件生态系统，垃圾邮件和垃圾邮件过滤器是一个复杂的社会和技术结构相互依赖的系统的反垃圾邮件技术2212-6716 © 2013作者由Elsevier B. V.在CC BY-NC-ND许可下开放获取。美国应用科学研究所负责的选择和/或同行评审doi：10.1016/j.aasri.2013.10.082Wenxuan Shi和Maoqiang Xie / AASRI Procedia 5（2013）220221可以分为两类：基于专家知识的反垃圾邮件技术和基于机器学习的反垃圾邮件技术。基于EK的反垃圾邮件技术包括基于规则的过滤，如白名单、黑名单、挑战-响应、增强协议等。基于EK的垃圾邮件过滤器已经有很多，如SPF（SPF）[1]、Sender-ID [2]和DKIM（DKIM）[3]等。基于ML的反垃圾邮件技术包括基于概率的过滤、线性分类器、Rocchio方法、最近邻方法、基于逻辑的方法、数据压缩模型等。目前大多数垃圾邮件系统都是针对不同的客户端和ESP单独设计和部署的垃圾邮件过滤器。考虑到垃圾邮件的分布性和群发性，更好的反垃圾邮件系统方案应该是多客户端或多ESP协同工作，并让个人共享他们对合法邮件和垃圾邮件的判断。本文提出了一种基于信誉的协同反垃圾邮件方法，采用指纹技术，评估报告者2. 相关工作在垃圾邮件生态系统中，垃圾邮件过滤器需要关注两个问题：一是如何保护接收者2.1. 指纹指纹和指纹识别是源于生物特征认证领域的概念。将它们应用于信息检索领域后，指纹被定义为大对象的短标记。指纹技术的优点是可以通过计算和匹配哈希值来识别相同或相似但局部变化很小的重复文档。在垃圾邮件生态系统中，垃圾邮件信息的大量存在，造成了网络资源和人们时间的巨大浪费，如大量数据在互联网上传输和服务器上的大量存储。另一方面，垃圾信息对网络信息安全和个人信息隐私产生了严重的危害。指纹方案是从传统的数据加密和数字签名研究领域中衍生出来的。该方案采用一定的加密散列算法，对较大的原始消息生成较短的内容序列，以代替原始信息的存储和传输。指纹函数可以被看作是高性能的散列函数，并且存在两种已知的算法：Rabin算法和密码散列函数[4]。2.2. 协同垃圾邮件过滤协同垃圾邮件过滤是一种更有效的内容过滤策略，而不是雇用某人或某些计算机来吸引和分析垃圾邮件，而不是让不同的用户训练自己的个人过滤器。整个协作社区通过共享垃圾邮件知识共同工作。因此，协同垃圾邮件过滤器需要一定的共享和有效的数据库，存储不同的用户判断哪些是垃圾邮件，哪些不是。目前已经有一些协同垃圾邮件过滤器在Web上，如DCC，Vipul的剃刀，Pyzor，Cloudmark等[5，6，7]。这些方法具有相似的使用共享知识的策略。DCC（分布式校验和交换所）系统通过计算垃圾邮件校验和并在校验和数据库中查询相同的校验和来检测垃圾邮件。Vipul的Razor系统通过维护垃圾邮件接收者反馈的签名目录服务器来过滤已知的垃圾邮件。Pyzor和Cloudmark有不同的垃圾邮件过滤协议，类似于Vipul的Razor。222Wenxuan Shi和Maoqiang Xie / AASRI Procedia 5（2013）2203. 信誉评价本文提出了一种基于权重指纹信誉评估和共享指纹数据库的协同垃圾邮件过滤方法，通过该方法，我们可以记录、查询、记录、报告和修改共享指纹，如图1所示。Fig. 1.基于加权指纹的3.1. 基于MIME分割多用途互联网邮件扩展（MIME）是一种互联网标准，它扩展了电子邮件的格式，支持多种格式的内容，如多字符集的文本、非文本附件和多部分的邮件正文等。然而，传统的垃圾邮件过滤技术通常只考虑电子邮件的纯文本内容，而忽略了MIME的特性，只考虑文本内容，以及一些公开发布的电子邮件语料库，其中仅包含从原始电子邮件主体提取的文本内容。在我们的工作中，反垃圾邮件系统处理垃圾邮件如下：1) 将每封收到的电子邮件分为五个子部分：电子邮件标题，电子邮件正文的文本/纯内容，电子邮件正文的文本/HTML内容，嵌入式资源和附件。2) 为不同的MIME子部分生成加权指纹。3) 为每个指纹集计算一个指标分数，以指示指纹集的垃圾程度。4) 根据单个指标得分计算复合加权得分。5) 通过将复合加权分数与某个预定义的阈值进行比较，来对传入的电子邮件做出垃圾邮件或非垃圾邮件的决定。将收到的邮件定义为一个符号，经过MIME分割处理后，将邮件转化为一个子部件集：并赋予权重向量。假设子部分可以表示为特征向量。假设生成的指纹集是.复合加权评分可以是计算如下：Wenxuan Shi和Maoqiang Xie / AASRI Procedia 5（2013）220223（一）其中，是指纹的指标得分，可以从一定的指纹数据库中训练、维护和查询。在指纹数据库中，我们将每个指纹信息保存为三元组，是通过指纹算法计算的全局唯一哈希值，是生命周期或生成的指纹。3.2. 信誉评价在我们的垃圾邮件过滤系统中，我们建立了一个权重指纹和共享指纹库的信誉评估方法。通过建立共享指纹数据库，我们可以记录新到达的指纹，查询存储的指纹，记录用户的操作，报告搜索结果和修改过时的指纹。对于协同垃圾邮件过滤系统的报告者，我们计算报告者（二）是由上一次信誉和当前反馈结果乘以加权因子计算出的报告者当前信誉值，是对某个email的报告者反馈结果-m，其可以计算如下：（三）是不同类型反馈辊的加权系数，以平衡报告者反馈结果：（四）哪里是针对由不同源类型定义的不同反馈辊的预定义调整参数的记者。3.3. 指标得分计算为了根据反馈判断哪些是垃圾邮件，哪些不是垃圾邮件，基于信誉的协同反垃圾邮件方法在MIME划分和权重分配之后为每个生成的指纹计算指标得分，如下所示：224Wenxuan Shi和Maoqiang Xie / AASRI Procedia 5（2013）220（五）哪里指纹的指标得分是第二要素三元组的值这是中存储指纹数据库是报告者的信誉值，其可以基于如上所定义的不同报告者卷随时间配置和调整（）。是概率计算的要素值反文档频率）。3.4. 垃圾邮件检测垃圾邮件发送者经常控制一些傀儡PC和从事服务器发送大量垃圾邮件。垃圾邮件过滤器的目的是识别这些机器和垃圾邮件。垃圾邮件过滤是根据指定的标准自动处理传入的电子邮件，以区分垃圾邮件和非垃圾邮件。在基于MIME划分的指纹识别步骤和基于信誉评估的指标得分计算步骤之后，我们可以生成垃圾邮件和非垃圾邮件的分流器，如图2所示。图二.垃圾邮件和非垃圾邮件Wenxuan Shi和Maoqiang Xie / AASRI Procedia 5（2013）220225为了预测传入电子邮件的标签，然后将其放入适当的电子邮件文件夹中，我们可以执行以下判断：（六）其中，t是预定义的合法电子邮件和垃圾邮件的判断阈值4. 实验为了检验本文提出的协同反垃圾邮件方案（Collaborative Anti-Spam Scheme，简称CAS 3）的性能，我们基于三个不同的语料库进行了三组实验。4.1. 实验评价方法我们基于三个不同的语料库（表1）进行了三组实验，其中Handwork语料库是通过我们之前的积累收集的，包含完整的电子邮件内容，如附件，嵌入式资源等。表1.对比实验语料库垃圾邮件非垃圾MIME[8]第十八话4812412主题，文本/纯文本垃圾邮件刺客[9]18974150五个子部分Handwork4059831五个子部分在每组实验中，我们将CAS3与两个已知的垃圾邮件过滤器进行比较：SpamAssassin和Vipul'sRazor。在对比实验中，我们绘制了一定的接收机工作特性曲线，以显示不同方法的滤波效果。4.2. 实验评价结果第一组实验基于Ling-Spam语料库进行模拟，比较结果如图3所示。Ling-Spam语料库错误分类的非垃圾邮件（共2412个）图三. Ling-Spam语料库错误分类的垃圾邮件（共226Wenxuan Shi和Maoqiang Xie / AASRI Procedia 5（2013）220第二组实验基于Spam-Assassin语料库进行模拟，比较结果如图4所示。垃圾邮件-刺客语料库错误分类的非垃圾邮件（共4150个）见图4。Spam-Assassin语料库第三组实验基于Handwork语料库进行模拟，对比结果如图5所示。手工语料库错误分类的非垃圾邮件（共831个）图五. Handwork语料库5. 结论本文提出了一种基于信誉的垃圾邮件协同过滤方法，该方法利用了邮件的MIME特征，并根据邮件的不同子部分采用了指纹模式。我们的方法取得了更好的性能和鲁棒性比目前流行的过滤方法在几个电子邮件语料库。通讯作者：石文轩，shiwx@nankai.edu.cn，086-13920561100引用[1] M. Wong和W.施利特2006年。电子商务中授权使用域名的策略框架（SPF）错误分类的垃圾邮件（1897年）错误分类的垃圾邮件（共4059个）Wenxuan Shi和Maoqiang Xie / AASRI Procedia 5（2013）220227电子邮件，RFC 4408卷。[2] J. Lyon和M.黄。2006. Sender-ID：Authenticating E-mail RFC 4406，Internet Engineering TaskForce.[3] B.丽芭和J·芬顿2007. DomainKeys identified email（DKIM）：使用数字签名进行域验证。CEAS2007：第三届电子邮件和反垃圾邮件会议。[4] wikipedia.org. 2012年。指纹（计算机）。http://en.wikipedia.org/wiki/Fingerprint_(computing).Andrew G. West，Avantika Agrawal等，2011年。纯协作环境中的自主链接垃圾邮件检测。WikiSym 2011：第七届维基与开放协作国际研讨会。网络安全，pp。15比17[5] 石文轩、谢茂强等2011.基于MIME指纹的协同垃圾邮件过滤技术。WCICA 2011：第九届世界智能控制与自动化大会。华盛顿特区，美国：IEEE计算机协会。2011年。[6] 石文轩、谢茂强等2011.基于多层代理的协同反垃圾邮件系统。2011年：第20届国际万维网大会。New York，USA：ACM. 2011. 415~420。[7] Stason.org. 2006.反垃圾邮件技术：协同内容过滤。http://stason.org/articles/technology/email/junk-mail/collaborative_content_filtering.html的网站。[8] I. Androutsopoulos，J. Kavaras，K.V. Kavarrinos，George Paliouras，and C.D.斯派罗普洛斯2000.朴素贝叶斯反垃圾邮件过滤的评估。在新信息时代机器学习研讨会论文集，第11届欧洲机器学习会议，巴塞罗那，西班牙，pp。9比17[9] Spamassassin.org. 2003.垃圾邮件杀手公共邮件语料库。http://spamassassin.apache.org/publiccorpus的网站。

下载后可阅读完整内容，剩余1页未读，立即下载