没有合适的资源?快使用搜索试试~ 我知道了~
Journalof King Saud University沙特国王大学沙特国王大学学报www.ksu.edu.sawww.sciencedirect.com垃圾邮件对阿拉伯语网站受欢迎程度的影响评估Mohammed N.伊扎特·卡比Alsmadib,*, Heider A.Wahshehca科学和信息技术学院,Zarqa大学,约旦b计算机科学系,博伊西州立大学,博伊西,ID 83725,美国c沙特阿拉伯阿布哈哈立德国王大学计算机科学学院计算机科学系接收日期:2013年7月23日;修订日期:2014年3月5日;接受日期:2014年2015年4月6日在线发布摘要网络及其信息在生活各个方面的扩展引起了人们对如何信任网络上发布的信息的关注,特别是在不知道发布者的情况下。网站努力变得更受欢迎,并使自己对搜索引擎可见,甚至对用户可见。网站的受欢迎程度可以用几个指标来衡量,如网络流量(e.g.网站:访问者数量和访问页数)。链接或页面流行度是指指向某个网页的超链接的总数。在这项研究中,几个排名靠前的阿拉伯语网站被选中评估可能的Web垃圾邮件行为。网站使用垃圾邮件技术来提高他们在搜索引擎结果页面(SERP)中的排名。这项研究的结果表明,这些流行的网站中的一些使用的技术被认为是垃圾邮件技术,根据搜索引擎优化准则。2015作者。制作和主办:Elsevier B.V.代表沙特国王大学 这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍网站努力成为流行的,使自己可见的网络搜索引擎。互联网可见性取决于网站*通讯作者。电 子 邮 件 地 址 : malkabi@zu.edu.jo ( M.N.Al-Kabi ) ,izzatalsmadi@boisestate.edu(I.M.Alsmadi),heiderwahsheh@yahoo. com(H.A. Wahsheh)。沙特国王大学负责同行审查制作和主办:Elsevierhttp://dx.doi.org/10.1016/j.jksuci.2014.04.005交通流量由特定网站的用户或访问者数量决定。搜索引擎是用户和网站之间的媒介。大多数Web用户根据自己的信息需求,使用搜索引擎作为导航工具,找到相关的Web文档。搜索引擎用户必须将表达其信息需求的查询公式化,并将这些查询提交给搜索引擎以检索搜索引擎结果页面(SERP)。有几种技术可以用来提高网站对搜索引擎的可见性。其中一些技术是合法的,并被搜索引擎推荐,称为搜索引擎优化(SEO)建议。其他被认为是非法的,并可能导致使用它们的网站被禁止从任何搜索引擎的列表时,发现这种垃圾邮件行为。为1319-1578年,作者。制作和主办:Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。关键词网络度量;网络垃圾;链接垃圾;阿拉伯文网页垃圾邮件;出链路垃圾邮件对阿拉伯语网站受欢迎程度的影响223例如,谷歌提出了一些有益的指导方针,说明网站管理员或管理员如何合法地提高其网页的排名。在Web或链接垃圾邮件中,网站或网页被注入不相关的内容,以虚假地提高其知名度。真正的网站人气应该来自访问网站的真实用户或指向或链接到其他相关网站的真实网站。非垃圾网站通常是指其他非垃圾网站,如果目标网站包含额外的有用信息或提供额外的服务,其访问者。在网页中使用垃圾邮件技术可能会暂时提高他们的排名。最终,用户和搜索引擎都发现垃圾网站误导了他们,最终可能会损害搜索引擎的信誉或声誉,除了损害这些垃圾网站的信誉。虚假流量基于不真实的人工流量,可以用来欺骗搜索引擎,这些搜索引擎将受欢迎程度视为其结果排名的重要参数之一。这种行为最终可能会损害这些网站的知名度和信誉。一般来说,定义垃圾邮件和垃圾邮件识别规则有助于Web搜索引擎识别垃圾邮件。例如,Google将以下做法定义为垃圾邮件技术(Gyongyi 和Garcia-Molina ,2005):隐藏的文本或链接。伪装或狡猾的重定向。自动查询搜索引擎。加载了不相关关键字的页面。多个页面、子域名或具有大量重复内容的域名。“门户”页面专门为搜索引擎创建。这些页面被设计为在搜索引擎上排名靠前。然后,它们被设置为将访问者重定向到实际网站。Web垃圾邮件技术研究中的主要挑战可以概括为Web搜索引擎识别垃圾网页的规则的模糊性。这是因为这些规则被搜索引擎视为其排名算法的一部分,因此它们被分类而不是公开的。还有其他相关的问题或挑战,如面对垃圾邮件技术和SEO优化准则之间的矛盾。此外,不同的Web搜索引擎识别垃圾网页所采用的垃圾规则也不尽相同,并不统一。因此,某个网页可能被某个搜索引擎认为是垃圾邮件,而它在另一个搜索引擎的前10名SERP中排名。术语在本文中,我们评估了大多数流行的阿拉伯语网站(根据Alexa.com网站流行度排名列出)中使用垃圾邮件技术的水平。根据Alexa.com顶级网站是根据几项针对垃圾邮件技术或行为的指导方针进行评估的。论文的其余部分如下:第二部分介绍了相关的Web垃圾邮件检测研究成果。第3节讨论了垃圾邮件技术的主要排名算法。第4节介绍了实验和结果。第五部分是本文的结论2. 相关工作该文献包括几个研究出版物有关的主题,Web垃圾邮件,这一主题是从不同的角度进行研究。本节介绍了一些与论文主题密切相关的研究:Web垃圾邮件检测,检测阿拉伯语和非阿拉伯语Web垃圾邮件,以及那些致力于评估垃圾邮件和流行度之间相关性的研究。有几个出版物涉及检测阿拉伯语的内容和基于链接的Web垃圾邮件进行了本文的作者。Wahsheh等人(2013年a)的研究使用了搜索引擎结果页面中排名前100位的阿拉伯语网站的数据集,这些网站是根据流行的阿拉伯语关键词收集的。通过提取Wahsheh等人研究的主要Web垃圾邮件特征(Wahsheh等人,2013年b)通过三个主要网站要素 ( 网 络 用 户 、 搜 索 引 擎 和 网 站 管 理 员 ) 。Wahsheh等人(2013 b)的研究提出了一种阿拉伯语内容/链接Web垃圾邮件检测系统,该系统提取了阿拉伯语Web垃圾邮件特征,并采用三种分类技术和机器学习算法来识别垃圾/非垃圾阿拉伯语网页。结果还表明,虽然所有语言中存在一些垃圾邮件的共同行为,但是,每种语言,特别是阿拉伯语,可能具有可被垃圾邮件发送者使用或滥用的独特规则(Wahsheh等人,2013年b)。还有其他一些研究与某些阿拉伯国家使用垃圾邮件有关,例如Al-Kadhi的研究(Al-Kadhi,2011年)。在他的研究中,他进行了一项全面的调查研究,以确定垃圾邮件的使用状况沙特阿拉伯王国(KSA)。他的研究包括所有与垃圾邮件相关的统计数据,并参考了专门公司对KSA中垃圾邮件行为百分比的测量。链接和内容Web垃圾邮件的主要目的之一是提高采用它们的Web页面的受欢迎程度。为了限制这些技术的影响,Schwarz和Morris(2011)的论文提出了使用额外的功能来增强搜索结果,以使结果更准确,从而减少垃圾邮件技术对SERP的影响。他们的研究旨在帮助用户和可视化技术来衡量网站的可信度。网站可信度衡量与用户对网站的信任程度相关的几个方面可信度和受欢迎度都衡量有多少用户访问主题网站以及有多少其他网站指向它。Bhushan和Kumar(2010)的研究还讨论了网站排名,可信度和一些可能对排名产生积极影响的因素。MoE(2011)和Li and Walejko(2008)的研究讨论了Weblog中的垃圾邮件问题及其产生偏见或产生不正确或不准确结果的能力。Goodstein和Vassilevska(2007)的研究提出了一种新的真实投票算法,用于通过2人游戏检测Web垃圾邮件,其中每个玩家必须将Web页面分类为相关,不相关或传递到特定查询。Castillo等人(2008)进行了另一项基于转换为查询日志的用户反馈的研究。为每个用户分配一个查询日志文件。研究人员在论文中采用了两种方法:Web垃圾邮件检测和查询垃圾邮件检测。●●●●●●224M.N. Al-Kabi等人我Shen等人(2006)的研究通过使用基于链接的时间信息来研究基于链接的Web垃圾邮件术语频率TF的公式如公式(2)所示:时间特征用于检测垃圾邮件行为。这些特征分为两组;第一组是TFi;j<$fi;jð2Þ称为内部链路增长率(IGR),其示出了TF权重的变化时的比率,如公式(3)所示:第二个是内部链接死亡率(IDR),TF¼ . 1美元f I:J巴尼耶夫I:J>000ð3Þ定义断开的内部链接数与i;j0否则网页中原始内部链接的数量。实验测试使用支持向量机(SVM)分类器来评估所提出的方法,并实现了相对较高的准确率(403. 垃圾邮件技术与排序算法垃圾邮件发送者使用各种垃圾邮件技术(即隐藏链接,伪装,链接农场和关键字填充)来欺骗搜索引擎并提高其网站排名。这些垃圾邮件技术在许多情况下成功地逆文档频率(IDF)的公式在公式(4)中给出:N以色列国防军i¼logn4其中,IDF是术语ki的i逆文档频率。最著名的项加权方案使用TFi,j和IDFi因子的组合权重。术语频率-逆文档频率(TF-IDF)公式在下面的公式(5)中示出:. 如果fi;j>0,则1logfi; j × log 2N欺骗不同搜索引擎采用的排名算法。成功的垃圾邮件技术欺骗一个wi;j¼ni0否则ð5Þ搜索引擎产生与查询不相关的结果,这损害了搜索引擎的声誉。本节介绍了三种重要的排名算法(词频-逆文档频率,PageRank和超链接诱导主题搜索),并展示了垃圾邮件发送者如何试图欺骗这三种算法,以获得SERP中垃圾网页的最佳排名。3.1. 术语频率-逆文档频率(TF-IDF)词频-逆文档频率(TF-IDF)是一种用于评估文档重要性的数值统计权重, 在某个文件或一组文件中的一个词。Baeza-Yates和Ribeiro-Neto(2010年)的研究提出了四个术语权重公式:Fi,TF,IDF和TF-IDF,如以下数学方程所示:令,ki是索引项而dj是文档。V ={k1,k2,.. . ,kt}是所有索引项的集合。(wi,jP0)是与(ki,dj)相关联的权重。权重wi,j是使用文档中的项的出现频率来计算的。fi,j是索引项ki在文档dj中出现的频率。因此,项ki在集合中的总出现频率Fi定义为公式(1):XN其中wi,j是文档dj中项ki的项权重它指的是(TF-IDF)加权方案;fi,j是索引项ki在文档dj中出现的频率(Baeza-Yatesand Ribeiro-Neto,2010)。垃圾邮件发送者试图在其基于垃圾邮件内容的网页中增加TF-IDF分数。他们使用了以下技术:3.1.1. 隐藏链接、文本和标签。这种技术的目的是欺骗搜索引擎引用正常用户不可见的URL。例如,这可以当文本隐藏在页面之外或使用与页面背 景 相 同 的 颜 色 时 , 搜 索 引 擎 会 认 为 它 是 垃 圾 邮 件(Gyongyi和Garcia-Molina,2005)。3.1.2. 关键字填充垃圾邮件发送者在HTML的标签中使用许多重复和不相关的单词,例如: tag,Anchor text,URL,Headers(.
. tags)、 tags和网页<标题>,以及许多重复和不相关的单词,以获得更高的 TF-IDF 分 数 ( Gyongyi 和 Garcia-Molina ,2005)。3.2. 基于超链接的主题搜索算法超链接诱导主题搜索(Hyperlink-Induced Topic Search,HITS)算法是Jon Kleinberg在1999年提出的一种链接分析算法,是一种用于发现中心和权威网页的著名方法。在用于对网页进行排名的PageRank算法(Selvan等人, 2012年)。HITS将网页分为两大类:Fi; j¼第1页fi;j一种称为集线器,它表示作为大目录工作的Web页面,这些页面实际上并不包含信息。其中N是集合中的文档数量Baeza-Yates和Ribeiro-Neto(2010)的研究提出了Luhn假设,该假设表明出现在文档dj中的索引项ki的权重wi,j与词频fi,j相关。这个假设意味着增加文档中的术语的出现次数,导致获得最高的权重。相反,它指向许多权威的网页,这些网页实际上保存着这些信息。因此,一个好的集线器表示一个指向许多其他Web页面的Web页面。第二种类型被称为权威网页,它保存着实际的信息,一个好的权威被表示为一个由几个中心指向的网页(Selvan等人,2012年; Jayanthi和Sasikala,2011年)。垃圾邮件对阿拉伯语网站受欢迎程度的影响225Xð Þð ÞðÞHITS为每个网页计算两个值:rpa×Xrq1-a×1ð8Þ值用于表示基于内容的网页,第二个值是针对中心的,其估计其到其他网页的链接的得分(Selvan等人, 2012年)。公式(6)表示权限更新规则:8p,我们计算A(p)为:n一个新的故事H ð i Þð6Þ1/1其中A p是p网页的权威; n是链接到p的网页的总数; I是链接到p的网页; H i是指向p的I网页的中心值(Selvan等人, 2012年)。公式(7)表示集线器更新规则,如下所示:8p,我们计算H(p)为:Xnq;p其中rp是网页p的PageRank值; wq是页面q上的前向链接数;rp是页面q的PageRank; N是Web中的网页总数; a是阻尼因子; q;p表示网页q指向网页p(Berlt等人, 2010年)。具有高PageRank分数的网页将出现在SEPR列表的顶部,作为对特定查询的响应。尽管使用PageRank作为排名算法的搜索引擎取得了成功,但垃圾邮件发送者和恶意网站管理员使用一些PageRank算法问题,通过使用违反SEO技巧的技术非法提升其网页的排名,以获得更多的网络冲浪者访问其网站。由于PageRank是基于Web的链接结构,因此了解如何添加或删除超链接是有用的。链接结构修改的成功程度是公司简介1/1A基于垃圾邮件发送者对网页的可访问性程度。在大多数情况下,网页不能被垃圾邮件发送者修改,其中H(p)是p个网页的中心;n是网页p连接到; I是p连接到的页面; A(i)是I页面的权威值(Selvan et al.,2012年)。如果一个网页指向许多好的权威网站,那么它就被归类为一个好的中心,如果一个网页被许多好的中心网站引用,那么它就被归类为一个好的权威网站。通过向信誉良好的Web页面添加垃圾邮件传出链接,可以通过链接垃圾邮件农场发送垃圾邮件。因此,垃圾邮件发送者试图增加中心值,并吸引来自垃圾邮件中心的几个传入链接指向目标垃圾邮件网页(Gyongyi和Garcia-Molina,2005年)。3.3. PageRank算法PageRank是由Google的创始人(Larry Page和Sergey Brin)提出并开发的,作为一种新型搜索引擎研究项目的一部分。它定义了一个数值分数,用于衡量网页与特定查询的相关程度。重要的是,由于PageRank的高得分值确定了相应查询的SEPR列表(Kerchove等人, 2008年)。PageRank可以被看作是用户行为的模型。它假设有一个随机的上网者,从随机的网页开始。网络冲浪者通常会继续点击转发链接,当时间流逝时,他们会感到无聊,并选择另一个随机的网页。因此,PageRank得分表示网络冲浪者随机访问网页的概率(Kang等人, 2011年)。PageRank算法被认为是Google成功的主要因素之一。因此,这个算法及其工作原理被认为是最高机密。最后一个来自Google的算法表明,PageRank算法是一种链接排名算法,它将内部链接的数量作为页面受欢迎程度的重要因素。PageRank为每个页面提供一个分数,以确定该页面的受欢迎程度。页面p的总得分由具有到该页面p的外链接的页面的重要性(PageRank得分)确定(Kang等人, 2011年)。在文献中出现的用于计算页面p的PageRank得分的通用公式在以下等式中示出:垃圾邮件发送者很难修改这些网页的链接结构。另一方面,一些网页部分可由垃圾邮件发送者访问,因此,垃圾邮件发送者可以在有限的方式在这些网页上发表评论,这些评论可能会携带从博客网站到垃圾邮件页面的外部链接(Gyongyi和Garcia-Molina,2005)。第三种垃圾邮件发送者可以完全访问的网页是垃圾邮件发送者拥有的网页。在这样的网页中,垃圾邮件发送者试图创建一个链接结构,作为垃圾邮件链接农场,这在Du et al.(2007)中被定义为一个高度连接的网页,故意创建的目的是欺骗基于链接的排名算法。在这种情况下,垃圾邮件发送者将创建一个链接结构,其中包括几个可以直接引用彼此和垃圾邮件页面的提升网页,以便通过搜索引擎排名算法获得一些优势。在Du et al.(2007)的研究中,垃圾邮件制造者可以为垃圾邮件农场构建不同的结构,并且这种农场结构可以根据内部和外部链接的数量定期改变,也就是说,当垃圾邮件过滤器删除垃圾邮件链接时,垃圾邮件制造者可以通过向垃圾邮件农场结构添加新链接图1显示了一个具有两种结构的Web图示例,左边的一个表示一组密集连接的Web页面(p),其中每个页面都有指向另一个页面的链接,以及指向垃圾页面的链接,垃圾页面是排名要提升的目标。它出现在图1a(左),其中有几个链接到网络的其余部分,它的目标是通过为它的提升邻居的网页提供太多的内部链接来提升垃圾网页的排名。另一方面,图1b(右)具有正常的结构,并且由一组与Web图的其余部分具有足够连接的Web页面组成。这两种结构之间的差异吸引了研究人员研究这两种结构的性质,并且结构的变化出现在左Web图中(Du等人, 2007年)。从前面的讨论中可以知道,垃圾邮件发送者可以部分访问一些在搜索引擎排名向量中可能具有良好排名分数的外部网页。因此,垃圾邮件发送者会发布指向这些网页的链接,因为在垃圾邮件页面上拥有大量的内部链接可能会提高其排名。226M.N. Al-Kabi等人1/4fg1/4fg1/4fg(a)垃圾链接农场结构(左)(b)正常链接结构(右)图1两个主要的Web图结构(Du et al., 2007年)。图2展示了Web图的示例,其中垃圾邮件发送者尝试提升垃圾邮件页面(S)的排名。图2中使用的链接结构是Gyongyi和Garcia-Molina(2005),Largillier和Peyronnet(2011)中使用的最佳链接垃圾农场的一个例子,作者证明了垃圾邮件发送者如何实现这种结构的好处。该结构由一个目标垃圾邮件网页(S)组成。垃圾邮件发送者使用一组网页X x1;x2;x3其中垃圾邮件发送者具有某种可访问性(即,发表评论,添加链接),垃圾邮件发送者也可以完全访问他们拥有和创建的网页。所以,垃圾邮件发送者也使用他们自己的网页集Yy1;y2.这组网页主要用于发布到目标页面S的链接,以提高它的等级。垃圾邮件发送者也会添加一些从页面S到Web页面的外部链接:Y<$fy1;y2g,但是除了指向目标页面S的链接外,不会在Web页面Y y1;y2上发布任何外部链接。页面S的总PageRank得分通过可访问的集合(x1. . x3)。使用公式(9)计算目标网页从增强网页获得的分数:被称为劫持链接(Du等人,2007年)。具有指向目标垃圾网页的链接(劫持链接)的流行网页的PageRank分数的总和称为泄漏。垃圾邮件发送者不知道被劫持链接所获得的泄漏;然而,他们的目标是尽可能多地劫持链接。如果目标页面指向垃圾邮件发送者创建和维护的所有网页(提升网页),则目标页面SPageRank得分也可以最大化,前提是这些网页除了来自S的链接之外没有内部链接。因此,搜索引擎将通过其中一个被劫持的链接到达垃圾邮件农场。然后可以通过外部链接从目标垃圾邮件页面抓取提升Web页面(Chung等人,2010年)。最后,如果所拥有的网页集合{y1,y2}仅具有到目标页面S的外部链接,则也可以最大化S排名分数。这不需要boosting Web页面之间的链接。它也不需要从外部世界劫持链接到提升网页(除了从S)。目标页面实际上需要指向所有提升的网页,以提高其PageRank得分,并使整个垃圾邮件农场中的每一个网页都可以被搜索引擎爬行器(Du等人, 2007年)。X3rpð9Þi¼1outxi其中r(p)是PageRank;Out(x)是可访问网页的数量(Zhou和Pei,2009)。链接到目标垃圾邮件页面的每个可访问网页都可能对其PageRank得分有一定的贡献这几个环节都4. 实验和结果以下三个主要步骤总结了本研究中进行的实验:图2最佳链接垃圾邮件农场结构(Gyongyi和Garcia-Molina,2005)。垃圾邮件对阿拉伯语网站受欢迎程度的影响2271. 根据Alexa.com流量和网站人气排名收集最受欢迎的阿拉伯语网站和页面。2. 使用Wahsheh等人先前描述的工具,从收集的网站中分析和提取主要的阿拉伯语内容/链接Web垃圾信息特征。(2013年b)。3. 对照列出的阿拉伯文内容/链接网络垃圾邮件特征,评估最受欢迎的阿拉伯文网页集合(表1)。在2012年第四季度,我们收集了本研究中使用的数据集。该数据集根据该时期Alexa.com然而,应该注意的是,这样的排名列表可能会频繁地改变和更新,这可能会改变所查看的页面的排名或者甚至部分地改变列表。作者先前的研究(Wahsheh等人,2013 b)提出了一个阿拉伯文内容/链接Web垃圾邮件检测系统,该系统由以下主要部分组成:1. 嵌入式Web爬虫,用于下载Web页面并解析所有Web页面元素(即图像、内容和链接)。2. 阿拉伯语Web垃圾数据集,包含23,000个阿拉伯语网页;其中18,000个用作训练数据集,其余的用作测试数据集。3. 阿拉伯语网页分析器:该工具提取并评估了Wahsheh等人提出的阿拉伯语Web垃圾邮件特征集。( 2013年b)。我们分析了阿拉伯语的Web垃圾邮件数据集使用的一组建议的Web垃圾邮件功能,如表1所示。我们在这项研究中的数据集是根据列出的阿拉伯语内容和链接Web垃圾邮件指南进行评估的,以确定阿拉伯语网站中垃圾邮件技术的可能用途。为了判断一个网站是否是垃圾网站,我们需要提取组成该网站的网页的所有特征网站(不仅仅是主页)。对于垃圾网站来说,他们的一些网页可以使用垃圾邮件技术,而其他网页则是正常的网页。因此,为了将一个网站识别为垃圾网站,我们必须确定给定网站中垃圾网页的百分比。在这项研究中,任何网站被认为是一个垃圾网站,如果该网站内的垃圾网页的百分比是70%或更多。对于24个被调查的网站,我们评估了100个网页。这意味着我们分析了24个阿拉伯顶级网站的2400个网页。应该提到的是,我们排除了所有阿拉伯语顶级网站与可信域(即,.edu和.gov域)。表2显示了一个由24个流行的网页组成的样本,在这项研究中进行了研究和评估。常见的非阿拉伯垃圾网页的特点是他们的长网址,所以垃圾邮件发送者通常会添加许多垃圾邮件的话,以垃圾邮件的网址(Gyongyi和加西亚-莫利纳,2005年)。然而,表2显示了常见垃圾网站的不同情况,它表明受测试的流行阿拉伯语网站的特点是其短URL。这24个阿拉伯垃圾网站被Alexa.com为流行网站,通过使用流行的阿拉伯语单词搜索表3是另一个流行的阿拉伯文网站的例子。这些网站被认为是可疑的垃圾网站,因为它们包含大量的外链接和许多用于吸引用户到垃圾网站的图像。需要注意的是,并非所有含有大量图片和外链的网页都是垃圾网页。然而,这种技术被大部分垃圾网页所使用。因此,具有大量图像和外链接的网页被认为是可疑的垃圾网页,而不是理所当然地被识别为垃圾网页。这些垃圾网页的内容通常与它们所拥有的图像内容不同。因此,决定这些网页作为一个垃圾邮件或不依赖于用户的反馈。外链是指从一个网页到其他网站或网页的链接。因此,垃圾邮件发送者通常使用外链来引用其他垃圾邮件网页。外链用于将不同的Web页面相互连接,但它们也被Web搜索引擎用于计算不同Web页面的受欢迎程度。然而,不相关的链接通常被认为是可疑的垃圾邮件。表4显示了垃圾网页或其头部中Meta词的数量。Meta词用于帮助Web表2一 个受欢迎的阿拉伯语网站的样本正在测试中。带有短URLgraaam.comrjaah.comdamasgate.comjiro7.comiraq3.comarabic.qiran.com12allchat.comarabchat.netiq29.comkuwait29.comnewmar.netsa-l.comct-7ob.comx333x.comksavip.comhesn-3.combnatksa.comdrdsh.comarabchat.comlo2l.netqcat.netnewcoool.comdardaasha.comsafara.com表1阿拉伯语Web垃圾邮件功能(Wahsheh等人,2 0 1 3年b)。阿拉伯文内容Web垃圾邮件特征1. 无意义的关键字(字/字符)stu ng(阿拉伯语/英语/符号)(在网页,Meta标签)2. 网页压缩率3. 数量的图像4. 网页内阿拉伯文/英文单词的平均长度5. URL长度6. 压缩比的大小(以字节为单位)7. 网页大小(以字节为单位)阿拉伯文链接1. 图像链接2. 内部链接3. 外部链接4. 重定向链接5. 空链接文本6. 空链接8. 最大阿拉伯语/英语字长9. 隐藏文本的大小(以字节为单位)10. 标题标签中的阿拉伯语/英语单词数7. 断开的链接(指空目的地)8. 链接总数(内部和外部)228M.N. Al-Kabi等人表3可疑垃圾网站及其外部链接和图片。表5可疑标题>元素词的大小。网页标题词网页标题词网页外链网页图像12allchat.com15Kuwait29.com8Damasgate.com142hesn-3.com74Iq29.com15X333x.com11hesn-3.com143jiro7.com94Ct-7ob.com9Iraq3.com11Arabchat.com130x333x.com165Hesn-3.com8Arabchat.com15jiro7.com96Rajah.com118Sa-l.com11Newmar.com23sa-l.com328iraq3.com122Drdsh.com8Ksavip.com38x333x.com159Newcoool.com193表4垃圾Meta元素单词的大小。网页Meta词网页Meta词Damasgate.com51Safara.com3312allchat.com46Rajah.com101hesn-3.com91iraq3.com62Arabchat.com193Arabchat.com105arabic.qiran.com31Ksavip.com139jiro7.com117lo2l.net37sa-l.com43Qcat.net47kuwait29.com51dardaasha.com36搜索引擎来确定网页的性质及其内容。在不同网页中使用Meta词的作用与在研究中使用关键词的作用完全相似。因此,这些Meta词应该有助于对不同的网页进行分类。Web垃圾邮件制造者可能会在他们的垃圾网页中填充许多流行的关键字,以使他们的网页与大多数查询相关图3显示了垃圾网站和非垃圾网站中元素增加title>元素中的单词数量将有助于网页获得更好的PageRank分数。因此,众所周知,title>元素中的大量单词可能会导致假设该网页是可疑的垃圾网页,因为垃圾邮件发送者知道并表现出这种类型的行为。这被称为关键词填充技术,用于title>中以获得SERP中的高排名。最低限度是原始或标准的三倍。如果超过三个,在可见度方面是下降的(Wahsheh等人,2013年b)。图3清楚地表明,在垃圾网页中title>元素内的阿拉伯语/英语单词平均数量<超过了非垃圾阿拉伯语网页中的平均数量。表5显示了Web页面标题中可能的垃圾邮件单词的数量。虽然结果显示,一些网页使用了所有类型的垃圾邮件技术,但我们可以看到,大多数流行或排名靠前的阿拉伯语网页使用一种或多种技术。本研究中使用的每一个流行的阿拉伯语网站都可以归类为娱乐或社交网络网页。这可以解释为什么这些网站的管理员和网站管理员没有充分意识到道德,并使用不道德的技术来提高其网站的可见性。有时网络搜索引擎认为使用垃圾邮件技术是无意的或不专业的。因此,有必要强制网站管理员和网络程序员获得搜索引擎优化(SEO)认证。一个网页是否是一个垃圾邮件网页或不进行评估是通过我们开发的垃圾邮件检测引擎。这个垃圾邮件检测引擎充满了规则,这些规则将检测是否有任何一个垃圾邮件行为规则应用于网页,如果是,它将被归类为垃圾邮件页面。在这项研究中,我们使用WEKA数据挖掘工具,以总结评估的垃圾邮件行为的顶级流行的阿拉伯网站(2400网页)对正常流行的网站,其中包含2400个正常的网页,可在数据集的Wahsheh等的正常行为。(2013年b)。垃圾邮件非垃圾邮98765个字的数量标题43210垃圾邮件非垃圾邮件图3垃圾网站和非垃圾网站中title>元素的内容大小垃圾邮件对阿拉伯语网站受欢迎程度的影响229表6使用朴素贝叶斯算法获得准确度信息结果。类真阳性假阳性精度召回F-测度受试者工作特征垃圾邮件0.9180.470.6620.9180.7690.908非垃圾邮件0.530.0820.8670.530.6580.908加权平均0.7240.2760.7640.7240.7240.908表6给出了使用朴素贝叶斯算法区分垃圾和非垃圾网站 的 摘 要 准 确 度 信 息 结 果 。Altwaijry 和 Algarny(2012)也使用该算法来检测不同的入侵。表6表明,朴素贝叶斯算法可以通过所使用的Web垃圾特征区分垃圾和非垃圾网站,其准确率为71.875%。5. 结论网站管理员和开发人员努力提高其网站本文根据Alexa.com网站2012年第四季度的排名,选取了中东地区最受欢迎的阿拉伯语网页。我们评估了这些流行的网站对可能使用的垃圾邮件技术。结果表明,这些网页中的大多数使用垃圾邮件技术,不同的水平和方法。我们还注意到,阿拉伯地区的大多数流行网页都被归类为娱乐或社交媒体网页。我们还关注这些网站,并排除可能受信任的域名的网站,例如:(.edu或.gov)。然而,这一假设,是否这样的可信网站,可能有较少的使用垃圾邮件应进一步调查。娱乐和社交网络网站的可见性非常重要。然后可以使用垃圾邮件技术来提高这种可见性。NB分类器用于将网页分类为垃圾邮件或非垃圾邮件。测量性能指标预测、召回率、F-测量和ROC曲线下面积,以显示预测分类的质量或准确性然而,我们认为,将网页分类为垃圾邮件和非垃圾邮件还不成熟,特别是对于阿拉伯语网站。有一些标准没有被广泛同意被认为是一个垃圾邮件行为或没有。事实上,搜索引擎进行的一些活动是禁止自己,如果由他人进行,因此被归类为垃圾邮件技术。引用Al-Kadhi,M.A.,2011.沙特阿拉伯王国垃圾邮件状况评估。沙特国王大学计算机信息科学23,45-58.Altwaijry,H.,Algarny,S.,2012.基于贝叶斯的入侵检测系统。J. 沙特国王大学Comput. INF. Sci. 24,1-6。巴埃萨-耶茨河,Ribeiro-Neto,B.,2010.现代信息检索:搜索背后的概念和技术。艾迪生-韦斯利专业,印第安纳波利斯,印第安纳州。Berlt,K.,Ella,E.,卡瓦略,A.,克里斯托,M.,Ziviani,N.,库托,T.,2010年。将Web建模为超图来计算页面信誉。Inf.Syst.35,530-543.Bhushan,B.,库马尔,N.,2010.从网上搜索最权威的&晦涩来源。IJCSNS Int. J. Comput. Sci.网络安全性10,149-153.卡斯蒂略角,科西角,Donato,D.,2008.用于垃圾邮件检测的查询日志挖掘。在:第四届国际研讨会上的网页对抗信息检索AIRWeb '08的会议记录。ACM,pp. 17比20Chung,Y.,Toyoda,M.,Kitsuregawa,M. 2010. 识别垃圾邮件链接生成器,以监控新兴的Web垃圾邮件。在:第四次信息可信度研讨会WICOW '10的会议记录,页。51比58杜,Y.,施,Y.,赵,X.,2007年使用垃圾邮件农场来提高PageRank。在:第三届国际研讨会上的对抗性信息检索网络AIRWeb '07的会议记录。ACM,pp. 29比36古德斯坦,M.,Vassilevska,V.,2007.一个两人游戏,以打击网络垃圾邮件。计算机科学学院,卡内基梅隆大学,匹兹堡,美国,页。 1- 22Gyongyi,Z.,Garcia-Molina,H. 2005. Web垃圾邮件分类,在:第一届国际研讨会上的对抗性信息检索的网络,千叶,日本,页。一比九Jayanthi,S.,Sasikala,S.,2011. DBLC_SPAMCLUST:通过聚类Web搜索引擎中的恶意攻击来检测垃圾索引。Int. J. 工程科学(IJEST)3,4572-4580。Kang , F. , 刘 , X. , Liu , W. 2011. A personalized rankingapproach via incorporating users' click link information intoPageRank algorithm , In : International conference on energysystems and electrical power(ESEP 2011),Vol.13,pp. 275-284。Kerchove,C.尼诺夫湖Dooren,P.,2008.通过外部链接最大化PageRank。线性代数及其应用429,1254- 1276。Largillier,T.,Peyronnet,S.,2011.使用随机冲浪者收集的信息检测Web垃圾邮件。Int. J. 组织集体智慧。IJOCI 2,1-17.Li , D. , Walejko , G. , 2008. Splogs and abandoned blog : theperilsofsampling bloggers and their blog. Inf. Commun. Soc.2 ,279-296.MoE,H.,Walejko,G.,2011.绘制挪威博客圈:互联网研究国际化的方法挑战。社会科学计算机评论,313-326。Schwarz,J.,莫里斯,M。2011.增强网页和搜索结果,以支持可信度评估,CHI 2011年,温哥华,不列颠哥伦比亚省,加拿大,页。1-10。Selvan,M.,Sekar,A.,Dharshini,A.,2012.网页排序算法综述。Int. J. Comput. Appl. 41,1-7。沈,G.,Gao,B.,Liu,T.,Feng,G.,Song,S.,Li,H.,2006年。利用时间信息检测垃圾链接。在:第六届国际会议的论文集数据挖掘网页ICDM '06. IEEE,pp. 1049-1053.Wahsheh,H.,阿尔斯马迪岛Al-Kabi,M. 2013年a。Evaluationof Web spam behavior on Arabic Websites popularity ,In :Proceedings of the 6th International Conference on InformationTechnology,ICIT1-7号。Wahsheh,H.A.,Al-Kabi,M.N.,Alsmadi,I. M.,2013年b。一个链接和内容混合的阿拉伯语网页垃圾邮件检测方法。Int. J.内特尔系统应用
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- GO婚礼设计创业计划:技术驱动的婚庆服务
- 微信行业发展现状及未来发展趋势分析
- 信息技术在教育中的融合与应用策略
- 微信小程序设计规范:友好、清晰的用户体验指南
- 联鼎医疗:三级甲等医院全面容灾备份方案设计
- 构建数据指标体系:电商、社区、金融APP案例分析
- 信息技术:六年级学生制作多媒体配乐古诗教程
- 六年级学生PowerPoint音乐动画实战:制作配乐古诗演示
- 信息技术教学设计:特点与策略
- Word中制作课程表:信息技术教学设计
- Word教学:制作课程表,掌握表格基础知识
- 信息技术教研活动年度总结与成果
- 香格里拉旅游网设计解读:机遇与挑战并存
- 助理电子商务师模拟试题:设计与技术详解
- 计算机网络技术专业教学资源库建设与深圳IT产业结合
- 微信小程序开发:网络与媒体API详解
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功