没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报网络钓鱼检测A.A. Orunsolua,A.S.Sodiyab,A.T.阿金瓦莱湾a尼日利亚Abeokuta Ojere Moshood Abiola理工学院计算机科学系b尼日利亚阿贝奥库塔,阿贝奥库塔,联邦农业大学计算机科学系阿提奇莱因福奥文章历史记录:收到2019年2019年11月12日修订2019年12月13日接受2019年12月24日在线发布关键词:反钓鱼网络攻击身份盗窃中间件欺骗网页威胁A B S T R A C T目前,许多反钓鱼系统正在开发中,以识别在线通信系统中的钓鱼内容。尽管有无数的反网络钓鱼系统,但由于对零日攻击的检测不足、多余的计算开销和高错误率,网络钓鱼仍然没有得到遏制。虽然机器学习方法已经取得了很好的准确率,但特征向量的选择和性能限制了它们的有效检测。在这项工作中,提出了一种增强的基于机器学习的预测模型,以提高反钓鱼方案的效率。该预测模型包括特征选择模块,用于构造有效的特征向量。这些特征是使用增量式基于组件的系统从URL、网页属性和网页行为中提取的,以将所得特征向量呈现给预测模型。该系统使用支持向量机和朴素贝叶斯,已在15维特征集上训练。实验基于由2541个钓鱼实例和2500个良性实例组成的数据集。使用10倍交叉验证,实验结果表明,SVM和NB预测模型的假阳性率为0.04%,准确率为99.96%。©2019作者(S)。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍网络钓鱼是一种在线欺诈行为,使用社会工程和技术托词欺骗互联网用户并获取他们的敏感数据或关键在线信息(Gowtham和Krishnamurthi,2014; Gupta等人, 2016年)。社会工程技术旨在通过使用欺骗性电子邮件,虚假网站,可疑的在线广告/促销活动,来自服务提供商或在线公司的虚假短信,鱼叉式网络钓鱼等来获取不知情用户例如,2017年的统计和趋势安全报告显示,2013年10月至2016年12月期间,全球有近50亿美元的损失,影响了全球24,000多名W-2类型的网络钓鱼受害者沙特国王大学负责同行审查制作和主办:Elsevier电子邮件地址:orunsolu. mapoly.edu.ng(A.A. Orunsolu)攻击据报道,W-2网络钓鱼电子邮件是最近最危险的网络钓鱼电子邮件诈骗,因为其目标是提交欺诈性纳税申报表并要求退款。另一方面,技术诡计通常涉及使用恶意软件或犯罪软件,这些恶意软件或犯罪软件通常安装在计算机或其相关设备上,而受害者不知道(Khonji等人,2013; Gupta等人,2016年)。一些技术中使用的诡计包括DNS中毒,键盘记录,会话劫持,主机文件中毒,内容注入等,在最近一段时间,网络钓鱼者已经开发了“CSO报告的这些基于勒索软件的钓鱼电子邮件的发生率显示,93%的钓鱼电子邮件现在是该报告指出,大多数受害者倾向于迅速付款,因为他们的资源敏感(CSO在线报告,2016年)。为了应对网络钓鱼威胁,开发了各种称为反网络钓鱼系统(APS)的对策。然而,网络钓鱼者继续采用不断发展的新的复杂模式来击败当前的防御系统。具体来说,大多数现有的APS都存在零日攻击的可能性,多余的计算开销,高误报率和误报率的问题(Chin,2018;Moghimi和Varjani,2016)。虽然一些现有的https://doi.org/10.1016/j.jksuci.2019.12.0051319-1578/©2019作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comA.A. Orunsolu等人/Journal of King Saud University233方 法 创 新 了 一 个 或 多 个 特 征 以 实 现 有 希 望 的 结 果 ( Moghimi 和Varjani,2016),其他方法提取了现有特征语料库的子集以实现相同的结果(Adebowale等,2018)。尽管如此,使用机器学习(ML)和数据挖掘技术的几种APS实现了有希望的准确率,峰值为99.62%(Hota等人,2018; Chin,2018; Sonowal和Kuppusamy,2017;Tan等人,2017),这些算法上特征向量的选择和性能限制了有效的检测系统(Qabajeh等人,2018年)。出于这一前提,在这项工作中,我们追求一个强大的反网络钓鱼计划,以克服目前面临的挑战,提出以下问题,现有的APS。a. 是否有可能通过选择或组合现有的特征语料库来实现更显著的检测精度结果?b. 提取的特征向量子集能否在多个ML技术上实现c. 必须不断提出新的功能,以打击网络钓鱼,尽管大型可用的网络钓鱼功能语料库,从视觉到文本为基础的?这些问题表明需要研究使用现有网络钓鱼特征语料库来构建具有显著效率的鲁棒反网络钓鱼方案的可能性。我们的重点是提出一个有效的网络钓鱼“指纹”,即特征向量,在多个ML算法中具有显著的检测精度。具体来说,我们选择支持向量机和朴素贝叶斯来评估我们的特征向量,因为大多数现有的APS在大多数现有文献中使用这些ML算法比其他算法更多地对他们的方法进行基准测试(Adebowale等人,2018; Tan等人,2017; Gowtham和Krishnamurthi,2014;Hota等人,2018; Mao等人,2019; Han等人,2012年)。虽然其他ML(如KNN)已被用于网络钓鱼问题,但由于其二进制分类属性和简单性,SVM和NB都被发现是最合适的(Anwar等人,2017; Isa等人,2008年;Dhanalakshmi和Chellappan,2013年)。该方案对反钓鱼研究有以下贡献:a. 本文提出了一种有效的选择一个子集的大型现有网络钓鱼的“指纹”称为特征向量。选择技术是建立使用的特征频率评估,芒的各种功能集。这些特征是从URL、网页的属性和网页的行为中选择的,这是由于它们的高排名偏好和有希望的区分属性(Gupta等人,2017;Aburrous等人,2010年)。据我们所知,这是第一篇论文,以检查这样的标准,在构建一个特征向量的反钓鱼系统。此方法的主要动机是确定如何将现有网络钓鱼特征向量充分集成到有效的对策。b. 该方法提出了一个增量的基于组件的系统,从系统内的每个过滤器(即URL,Web属性或Web行为)的结果特征向量,使用两种不同的ML算法,即SVM和NB的预测模型。这样做的目的是为管理拟议系统中的规模和复杂性提供实用的解决方案。这样做的主要动机是优先管理功能集。c. 实验结果表明,该方法在保证运行时间的前提下,具有较高的检测精度.这意味着有效的APS主要依赖于可以从现有特征向量中智能地提取而不需要创新新特征的判别特征,尽管这可能是不必要的。令人向往此外,由于网络钓鱼是一个已经存在了很长时间的问题,因此高效的APS需要在提出新的解决方案时不断地跟上历史本研究文章的其余部分如下:第2介绍了文献综述。我们提出的方法的系统架构的基础在第3节中讨论。在第4节中,所提出的方法的实施和评估。第五提出了结论和未来的工作。2. 文献综述1996年1月2日,“网络钓鱼”一词随着网络钓鱼攻击继续肆虐在线社区,各种研究工作已经研究了人们成为网络钓鱼攻击受害者的原因。在最早的作品之一中,Dhamija等人(2006年)确定了缺乏计算机系统知识、缺乏安全知识和安全指标、视觉欺骗和有限的注意力是人们陷入网络钓鱼的原因。同样,Mohammed et al.(2015)调查了为什么网络钓鱼仍然有效,尽管所有的努力都在减轻威胁。他们的报告显示,53%的人仍然容易受到攻击,即使他们已经准备好识别网络钓鱼攻击。关于安全提示消息的社会人口学感知,Orunsolu等人。(2018)确定性别、学历和用户的计算机知识是影响用户识别钓鱼消息的因素。鉴于这些弱点,已经引入了几种基于软件的方法来对抗网络钓鱼攻击。这些解决方案从简单的基于列表的方法到机器学习方法。例如,Han et al. (2012)开发了一个自动个人白名单(AIWL),其中保存了用户访问的知名良性网站的记录。AIWL维护用户界面信息,用户在其中输入他或她的详细信息,以防止机密信息向恶意网站的不健康披露。该方法提供了一个有效的防御机制,以防止欺骗和动态钓鱼攻击。然而,该方法依赖于用户如何训练他们的浏览器,即依赖于用户反馈。这个弱点仍然使用户,无论是经验丰富的和业余的,容易受到网络钓鱼,如果他们的浏览器培训水平在相关研究中,Jain和Gupta(2016)设计了一个自动更新的白名单系统,用于保护用户免受网络钓鱼攻击。该方法包括域IP地址匹配阶段和链路特征提取阶段,访问速度快,检测率高达86.02%。然而,1.48%的假阴性率是关键在线交易系统的限制因素。Mao et al.(2019)提出了一种基于网页布局聚合分析的反钓鱼方案,使用属性向量提取,属性向量生成,比较向量生成和机器学习分类器。该方法使用PhishTank的钓鱼标准数据集进行评估,准确率超过93%。类似地,Chiew等人(2015)研究了一种使用徽标图像检测钓鱼页面的方法,该方法由徽标提取和身份验证模块组成。在标识提取过程中,从网页的所有下载图像资源中检测并提取站点上的标识图像。这一阶段之后是谷歌图像搜索过程,其中所描绘234A.A. Orunsolu等人/Journal of King Saud University检索标志图像的身份最后,作者能够建立Goo-gle返回的查询和域名之间的关系使用网页链接信息,Gowtham等人(2017)提出了一种防御系统,其中在可疑网页上识别所有可能的目标域,而不太依赖搜索引擎。该方法的工作原理是访问可疑页面的链接到第二级,定义域计数值以识别生成目标域集合的技术,并且此后,基于目标域集合中的域与加载可疑网页之间存在的关系来制定成本矩阵然后考虑目标验证该系统进行了评估,由3675个活跃的钓鱼和合法网站的数据集,真阳性率为99.53%,假阳性率为0.45%。然而,这种方法的预测在很大程度上取决于目标域的预测,这在大规模部署中可能是不可行的此外,这种方法在用于网络钓鱼目标检测当部署缩短服务时。关于使用堆栈策略来提高数据挖掘技术的性能,Li等人,2019年提出了一种方法,其中提取了由URL特征和HTML特征组成的20个特征。这些特征使用由梯度提升决策树、XGBoost和LightGBM组成的堆叠模型进行训练该方法在一个大数据集上进行了实验然而,堆栈模型的平均运行时间缺失,因此,该方法的效率无法在系统的实际实现中确定。关于网络钓鱼工具包的使用,Orunsolu等人(2017)提出了一种用于安全交易的反网络钓鱼工具包方案。他们的方法使用了一种由分类器模块和签名检测模块组成的架构方法,为网络钓鱼攻击的扩散提供了一个有效的防御系统。使用几个网络克隆工具和Alexa和PhishTank的通用数据集对该方法进行了评估。实验结果表明,该方法能有效地抵御钓鱼攻击.基于化学方法,Hota et al. (2018)构建了一个基于集成机器学习的模型,通过使用删除-替换特征选择技术来检测电子邮件中的钓鱼攻击,该技术通过随机选择一个特征来减少原始特征空间中的特征,如果与该特征相关联的准确性不变,则删除这些特征。实验结果表明,只有11个功能的准确率为99.27%。在类似的方法中,Sonowal和Kuppusamy(2017)提出了一种称为PhiDMA的方法,该方法包含五个层,包括自动白名单层,URL特征层,词法签名层,字符串匹配层和可访问性评分比较层。他们的模型特别适合于有视觉障碍的人,其实证结果表明,准确率为92.72%。同样,Zouina和Outtaj(2017)研究了一种轻量级的URL钓鱼检测系统,该系统使用SVM和相似性指数对从网页的域地址中提取的六个特征进行检测。该系统达到了95.80%的准确率。关于模糊逻辑(FL)的使用,Aburrous等人(2008)提出了使用这种技术的最早作品之一。作者在模拟网络钓鱼实验中使用模糊逻辑,向约旦某银行的员工发送虚假电子邮件。他们的目的是发现影响用户判断网络钓鱼信息的特征。最后,作者建立了一个模糊逻辑分类模型的基础上,六个标准,分配值从Phishy,真正的怀疑。Barraclough和Sexton(2015)的一种新的FL方法使用了六个输入,包括用户行为概况、合法站点规则等来描述神经模糊方法。从六个输入类别中提取了总共300个特征来训练和评估FL推理系统。然而,使用仅基于文本的大型特征集是这种方法的一个为了改进这项工作,Adebowale等人在2018年开发了一种自适应神经模糊推理系统,该系统使用文本,图像和帧的集成35维特征进行网络钓鱼检测和保护。这些特征是使用卡方统计和信息增益技术来减少特征集的大小。该方法使用13,000个可用数据集进行了实验,并使用SVM,K-NN和ANFIS进行了评估该系统达到了98.3%的准确率。然而,该方法的平均运行时间仍然不可忽略,并且对一组全局接受的视觉特征(即, 它们对图像特征的使用)在大多数网站上可能仍然需要在该方法的实际实现中解决(Varshney等人,2016年a)。在使用基于搜索引擎的方法,邓洛普等人。(2010)开发了一种名为Goldphish的技术。该方法提取了网站的标志,并使用OCR技术将标志转换为文本,然后将文本用作Google的查询。该方法实现了98%的真阳性率。然而,将网页图像渲染成文本的延迟是该方法的实时实现的限制因素。类似地,(Varshney等人,2016 b)提出了一种优化的基于搜索引擎的技术,称为轻量级网络钓鱼检测器,它使用域名和标题的组合来检测网络钓鱼攻击。该方法使用来自PhishTank和Alexa数据集的500个URL进行了实验。该工作实现了99.5%的TPR。然而,该系统不能基于语言差异有效地过滤网页。为了改进这种方法,Jain和Gupta(2017)提出了一种技术,其中Web搜索查询方法与两级身份验证相结合。该方法包括域名和标题提取器、搜索查询信息、google web搜索查找、两级认证和网页预测。实验结果表明,该方法取得了98.05%的整体准确率。关于基于SMS的反钓鱼方案,Shabtai等人(2012)研究了一种用于检测移动电话上基于主机的恶意软件的轻量级方案。他们的方法考虑了移动终端操作中的各种特征和事件,然后采用机器学习将数据分类为网络钓鱼或其他类型。实验结果表明,该方法能够有效地检测移动设备上的钓鱼攻击。在类似的研究中,Bottazzi等人(2015)开发了一个名为MP-Shield的检测框架,用于检测移动软件中的恶意活动和Android应用程序中的隐私数据泄漏。该方法使用TCP/IP协议栈作为代理服务实现。该工具提供了一个高可用性的大规模android应用程序的有效评估。同样,Sonowal和Kuppusamy(2019)为有视觉障碍的人开发了一种基于音素的网络钓鱼验证模型,称为MMSPhiD。该模型包括基于机器学习的方法,基于typosquatting的方法和基于音素的方法,主要关注检测钓鱼URL和其他相关攻击。该模型的检测准确率达到99.03%,为视障人士提供了一种实用的反钓鱼解决方案。这项工作中提出的预测模型采用了垃圾邮件和网络钓鱼检测系统的特征选择排名(Toolan和Carthy,2010年; Gupta等人,2017;Aburrous等人, 2010)在选择我们的方法中使用的特征类别。最后,我们将URL属性、网页这是A.A. Orunsolu等人/Journal of King Saud University2351/4f···g2.¼n宽X2ð Þ¼¼ ðÞ···因为,在大多数现存的文献中,这些特征类别(即URL,网页的属性或网页的行为)已被单独用于实现轻量级和高效的网络钓鱼检测系统(Zouina和Outtaj,2017; Li等人,2019; Hota等人,2018年)。此外,这些特征类别在反网络钓鱼方案的设计中比其他类别(诸如视觉相似性、基于搜索引擎的方法等)具有更大的影响。Kuppusamy2019; Qabajeh等人, 2018年)。更重要的是这些因此,请求包含至少一个特征(例如,链接、HTML标签、脚本、SSL证书等)在其上可以查询或分类其状态的预测由于这些特征可以从简单到复杂,因此所提出的模型使用特征频率评估为特征向量组合物描绘通过X x1;x2:xn将标签y分配给每个fi w,使得标签y是二进制类,表示为:功能类别为常见的网络钓鱼相关攻击提供了反击策略,如打字错误,pharming攻击,勒索软件等(Sonowal和Kuppusamy,2019; Li等人,2019; Moghimi和Varjani,2016)。检测精度y1i:e:phishing钓鱼0,否则将被删除i:e:真正的页面表示为ð3Þ通过这些特征类别单独或共同实现的,也是有希望的。例如,MMSPhiD(2019)使用机器学习方法处理URL和网页属性,准确率达到99. 03%。因此,整合这些现有的特征类别的动机是为了实现更好的反钓鱼检测系统。我们的方法比大多数现有的APS更好,因为我们避免了可能增加系统运行时间的功能例如,Adebowale等人使用的图像特征方法,2018年通常会在计算网络状态之前进行复杂的图像提取过程(Jain和Gupta,2017)。此外,大多数现有的favicon和徽标的尺度依赖因此,这样做的目的是在我们的方法中实现计算效率(CE)。此外,由于我们的方法是基于现有的网络钓鱼特征语料库的集成,我们已经引入了基于组件的系统的增量构造,以管理系统开发中的因此,这给了我们鲁棒性的目标,即。尽管由于设计要求或外部影响,某些功能不可用,但仍能抵抗全部故障此外,由于系统构造的原子性和复合性,增量构造方法可以扩展到包含新特征或删除冗余特征而不影响整个系统结构因此,这为我们提供了易于升级(EU)的目标表1给出了我们的方法与其他现有文献关于这些设计目标的3. 所提出的系统网络钓鱼攻击的问题定义是二元分类问题的典型案例,因为在线通信(例如网站或电子邮件或电子聊天)是网络钓鱼或良性的。更具体地说,让w是需要分类的请求,即。!良性甲状腺肿然后X是的反钓鱼系统的拍摄特写,fi2w使得w<$Xfi n>0i:e:w是非空集2我表1与我们的方法的相关作品的比较。工作CE健壮性欧盟Sonowal和Kuppusamy,2017年是的没有没有Zouina和Outtaj2017是的没有没有Moghimi和Varjani,2016年是的没有没有Li等人2019是的没有没有Adebowale等人2018是的没有没有Hota等人,2018是的没有是的我们的方法是的是的是的x i:fw!2014年4月等 式 1 描 述 了 分 类 问 题 , 其 中 , 给 定 训 练 数 据 D , 其 包 含(w1;w2··· ;wn),并且每个w1包含一组特征f1;f2·· · ;fm··。此外,训练数据是一组类别CC1;C2代表网络钓鱼和合法的网站这样:CI<$fwi;fijwi2D;y<$d良性;i<$1· · ·mg≤5mgC2<$fwi;fijwi2d;y<$phishingg;i<$m1;· ··pg6因 此 , 每 个 情 况 wi2D 可 以 被 给 予 类 ci2C , 并 且 被 表 示 为 对(wi;ci),其中ci是来自与训练数据中的情况wi相关联的C的类 设H表示D的分类器集合! 其中,每个案例c i2 C被给定一个类,目标是找到一个分类器h i H,该分类器h i H最大化每个测试案例h ic的概率。在所提出的系统中,两个最常见的机器学习分类器,即朴素贝叶斯和支持向量机的网络钓鱼分类选择调查的性能。特征集/向量的管理,并最大限度地提高我们提出的方法的准确性。3.1. 特征选择模块特征提取过程包括识别特定数据集的某些特征例如垃圾邮件或网络钓鱼或良性等。这些特征通常被标记为类别的“指纹”,其中它们在已知集合之外发生的概率较小或没有发生的概率。在大多数情况下,这些特征通常与其他类互斥。过去的文献已经提取了许多特征,但最具代表性的特征的问题仍然是一个问题。在这种方法中,使用基于从研究数据集和现存文献收集的几个特征的频率分析的特征评估。这被定义为特征选择模块(FSM),其包括:i URL的特点ii Web文档属性iii网页在有限状态机中,这三个组件被看作是一个过滤器,每个过滤器被组织成一个系统的方法,使用基于组件的系统的增量构造。(2012年)。在此基础上,将这三个滤波器构建为单元滤波器和复合滤波器,以逐步实现有效的检测方法。如果单元过滤器由每个组件(计算单元)中定义的属性及其预测得分(调用连接器)组成,它们共同“激发”到下一个单元过滤器,则复合过滤器表示来自系统的所有单元过滤器的聚合,因此,复合滤波器在计算上将系统附加到分类算法。图 1介绍了236A.A. Orunsolu等人/Journal of King Saud UniversityFig. 1. 一个强大的网络钓鱼检测系统。提出的方法包括特征提取阶段、机器学习分类器构造和训练、评估阶段和钓鱼预测阶段。特征提取阶段将混合数据作为输入,从URL、Web文档属性和Web行为属性中提取特征对于URL特征,提取了5个特征在Web文档特征中,提取了另外5个特征Web行为属性还包括5个特征,这些特征被提取以增强多页面网络钓鱼检测。虽然在这些特征类别中仍然有一些其他特征可用,但我们特别选择这些特征,因为可以从所选择的特征中推断出省略的特征。例如,大多数网络钓鱼URL中的点的数量与细长的域名相关联然后,将目标标签分配给所提取的特征。机器学习分类器阶段使用提取的特征来训练所选择的ML算法(即,SVM和NB)。评估阶段是用来基准的性能,通过一些实验标准数据集上的建议系统最后,网络钓鱼预测阶段用于确定所提出的模型的准确性。3.2. URL功能(F1-过滤器)URL特征表示与网址相关联的特征,其中可以从因特网检索特定页面。网络钓鱼者通常以不同的方式操纵合法的URL来欺骗不知情的用户。通过分析DOM中的链接结构,提取绝对URL或相对URL的 URL特征对于URL身份提取,FSM考虑锚链接的“href“和"src”属性,特别是、link>、img>和script >标签,这些标签来自网页的DOM树,网址通常位于这些DOM树中。为了提取基于URL的特征,FSM使用下载的PhishTank数据库,该数据库由总计23,769个已确认的网络钓鱼URL组成。基于对该数据库的初步研究,FSM构建了一个关于从现有研究中选择的某些URL特征的查询(例如,Zouina和Quttaj,2017;Aburrous等人,2010 年 ; Sonowal 和 Kuppusamy , 2017 年 ; Gowtham 和Krishnamurthi,2014年),以确定他们在名单上的频率。此外,我们将FSM的查询扩展到由100万个确认合法URL组成的预编译下载Alexa数据语料库上的URL行为,以验证来自合法数据源的所选特征的正确性。因此,该系统是基于几个URL行为设计的,这些URL行为将恶意页面与合法页面区分开来(Moghimi和Varjani,2016)。例如,我们的查询使用在URL路径中的“@”符号返回不匹配合法的URL,即使它的出现次数与我们工作中使用的其他功能的一致性较低。尽管如此,FSM还是选择包括该符号,因为它对良性URL的出现是未知的。因此,该特征提供了钓鱼URL和良性URL之间的边缘距离的标记支持向量平面。基于两种数据源的频率特征评估方法,提出了算法1。给定一个初始特征列表F_URL_n,该算法只选择在两个数据源中找到的特征。然后,使用等式(7)确定所选特征的出现频率。如果该值超过排除限制,则该特征将包含在新特征列表S中。重复该过程,直到初始特征列表被耗尽。然后对新的特征列表S进行排名,并确定每个特征的性能。然后,选择由排名的最佳性能特征组成的维度m的最终新特征。在我们的方法中选择的URL特征使用频率信息(FI),其值介于1和0之间。该值描述了整个数据库中每个特征的统计权重。也就是说,FI¼Furl=XDB70Fi1ð 8 Þ其中,0表示未发现出现,1表示在所有出现中发现。表2说明了所选URL特征的频率,表3给出了算法1中使用的符号的含义。在对FI、FSM结构进行密切观察后,A.A. Orunsolu等人/Journal of King Saud University237URL我2←表2所选URL功能集的频率。表3符号及其含义的列表。符号描述n用于频率分析FurliURL功能的实例dph确认的网络钓鱼URL的数据库d是确认的合法URL的数据库h特征分析pMendeley桌面应用程序siF2 F3特征的HP高影响网络钓鱼功能CFS(s)相关性特征选择函数,用于% sf特定特征类别中特征的实例t相关系数,例如对称性不确定性或相关性皮尔逊计数器f(s)选定的高影响力特征v.多个“//"的URL:这涉及在URL的域名路径中使用多个”//”。对于此功能,在.csv excel for- mat中对100万个合法URL的Alexa数据库进行搜索查询将返回0。如果URL包含多省略了点和“-”的使用。这是因为我们观察到这些特征通常与URL的长 度 有 关也 就 是 说 , 点 的 数 量通 常 会 延 长 URL 的 长 度 例如 ,PhishTank在2018年1月报告的https://upgrade-identity.000webhostapp.com/recovery-checkpoint-login.html 延 长 了URL长度,点的数量超过三个。此外,我们没有包括在100万个Alexa数据库中出现约110,120次这一规模甚至超过了大多数反网络钓鱼文献中发现的大多数测试和训练数据语料库这是重要的,因为Alexa列表包含了网络上访问量最大的URL,这些URL大多数时候都是主要网络钓鱼活动的目标此外,破折号符号通常与拉长的URL相关联,正如我们在网络钓鱼数据语料库上运行的查询所观察到的那样。因此,据我们所知,我们对URL长度的选择足以容纳这些省略的功能。算法1:URL特征评估频率分析m(fs)为网络钓鱼检测选择的高影响力功能的子集输入:更新的网络钓鱼语料库,dph预定义阈值,h:,Alexa顶级URL,d是,每个现有URL特征的值,最后,在我们的方法中选择了以下URL特征,因为它们的FI超过了系统内定义的排除限制。一个简单的排除限制说明(即,阈值h)被给出为:1: 00FIphishing 0: 10; 0: 00FIbenign 0: 20网络钓鱼<<<<<<< h;然后例如,HTTP//mapoly.edu.ng @ gatewaypoly.edu.ng将引导将用户设置为Gatewaypoly而不是Mapoly。@符号通常带有较短的域名,不像其他符号,如因此,如果URL包含@符号,则网络钓鱼是合法的ii. 使用IP地址作为URL:这涉及使用IP地址来表示网站的域名。通常,这种做法是非常常见的隐藏域名的原始信息。因此,这样的IP地址通常表示网络钓鱼或可疑域。如果URL包含域路径作为IP地址,则为网络钓鱼,否则为合法iii. 带有十六进制字符代码的URL:网络钓鱼者通常通过使用十六进制代码来表示IP地址中的数字来每个十六进制代码通常以“%”符号开头例如,PhishTank在2018年1月报告的http://donefe.000web-hostapp.com/auto/auto%20ferify/mail.php使用了十六进制字符代码。如果URL包含十六进制字符,则为网络钓鱼,否则为合法iv. URL长度:这涉及到获取超过35个字符的URL长度。例如,在Alexa数据库中找到的HTTP//cess.com是合法的URL。对Alexa数据库的密切观察表明,任何超过35的长度都可能是网络钓鱼。如果URL长度大于35,则为网络钓鱼否则,合法将Furli附加到S9.否则,请输入URLi}10.接下来我继续11.RankFurli2S12.选择顶部Furli功能S13.获取S的性能度量14.将最佳性能度量确定为最佳功能15.Sm bestfeatures16.端3.3. Web文档属性(F2-过滤器)网页的Web文档属性是从文档标签中提取的,文档标签包括标题标签、Meta标签、标签的Alt属性、标签的标题属性、元描述等,其中定义了与网页的产品或服务相关联的关键字。因此,可以从其关键字的身份获取Web文档属性。该抽取过程基于词频-逆文档频率(TF-IDF)方法的概念。该方法用于从文档中提取一组关键字(即,在TF-IDF中,网页被视为文档),该文档是从网页的各个部分收集的。TF-IDF反映了特征与数据语料库中的文档的相关程度的数值统计。这个术语通常在信息检索/数据挖掘中作为加权因子使用。TF-IDF值与要素出现的次数成比例S/NURL特征频率速率1URL中的@符号0.232基于IP的URL0.503带有十六进制代码的0.454长URL长度0.685URL路径0.82238A.A. Orunsolu等人/Journal of King Saud University¼···在文档中,但被语料库中特征的频率所抵消(维基百科,2018)。因此,如果被定义为t的特定项在给定文档D中具有高项频率,则该特定项具有高TF-IDF权重,并且如果该项相对较低,则该特定项网页的关键字标识集与其内容无关(至少70%),则为网络钓鱼。否则是合法的在文件中不常见。给定文档d及其术语标识集t,FSM使用频率速率测量(即,频率评估分析)F210C 0: 7ωDn>0C 0: 7ωDnð11Þ以确定将特征包括在区别特征类中。通过使用Mendeley桌面应用程序库 作 为 特 征 存 储 库 , 从 先 前 的 工 作 ( 例 如 Aburrous 等 人 ,2010;Moghimi和Varjani,2016; Toolan和Carthy,2010; Zouina和Outtaj(2017); Hamid和Abawajy,2014)中收集的大量特征中标记频率最高的特征,生成区分特征类算法2给出了系统方法的流程,而表3描述了算法2中使用的符号列表及其含义。之所以选择这些作品,是因为它们的检测和评估率在真阳性(即80%至99%)上返回了有希望的结果,假阳性(1%)可以忽略不计。此外,由于命名-各种要素的真实表示可以不同表示“前ii. URL路径中的域名:一些网络钓鱼URL在URL的路径段中添加合法网站的域名,试图欺骗用户相信他们正在处理真实的网站。这意味着该功能同样可以检测钓鱼者在重塑可疑域名时使用的前缀或后缀,因为由于不适当的关键字身份设置,其可信度将很低。因此,如果URL路径中的域名包含未在其内容中指明的前缀或后缀(Dps),则为网络钓鱼。否则,它是合法的。以各种形式发送,需要确保有效的特征到特征的互相关。基于这一要求,本文提出了一种基于相关性的特征选择评价函数。F220Dps¼Durl>0Dpsð12Þ被引诱这种基于相关性的启发式评估表示为:k:aiii. 服务器表单检查(SFC)/弹出窗口:在正常的表单处理操作中,网页的域名与信息所在的活动表单字段地址相同pkk-1:bð10Þ信息被处理。但是,如果这两个地址或域名之间有任何差异,其中M是包含k个特征的特征子集的特征价值,a是平均特征-类相关性,b是平均特征-特征互相关性。分子1表示一组特征对类的预测性,分母表示特征之间存在多少冗余。这使得该方法在计算上是轻的,并且避免了特征选择方法中的过拟合(Sahrashekar和Sahin(2014))。因此,这对于确定特定特征的重要性非常重要。基于该数值评估,FSM考虑以下特征(FV2F1;F2F5.)其中值0表示非网络钓鱼状态,而>0表示可疑或网络钓鱼状态。虽然有几个特征满足大于零的条件,但我们选择出现率超过20%(阈值)的特征。表4给出了Web文档属性和Web行为属性的选定特征的频率分析。表单为空或丢失,则很可能是网络钓鱼。此外,网络钓鱼者可以激活一个弹出窗口来规避此属性。由于每个网络钓鱼网页的目标是访问用户的详细信息,他们通过将用户的表单字段发送到他们的服务器来实现这一虽然大多数现代浏览器允许窗口。open(即用于创建弹出窗口的命令之一)仅在用户交互调用时运行,网络钓鱼者可以触发直接附加到Web文档的鼠标单击事件侦听器,以实现其恶意意图。通过这种方式,可以劫持对鼠标单击事件的调用限制。因此,如果网页包含弹出窗口,并且在弹出窗口上设置的域名/关键字标识与前台URL无关,则属于网络钓鱼。否则,它是真实的。i. 域名检查:在大多数情况下,网站域名(Dn)与其内容F230Window:openURL目录Fore:URL目录FURL目录> 0Window:openURLð13Þ表4(C)描述该网页所提供的产品或服务的性质。此域名中的关键字通常是基本域URL的一部分,并应形成页面上大多数链接/锚因此如果iv. 异常URL缩短:网络钓鱼者使用URL缩短器,当请求不知情的用户通过链接登录其帐户时,尤其是在社交网站上,混淆网络钓鱼URL。如果链接缩短时间戳模式和编码器的数量不类似于真正的URL缩短服务(USS),例如Bitly、goo.gl、Owl.ly,所选Web功能的频率Deck.ly、Su.pr等,则很可能是网络钓鱼。否则,它是合法的。F2¼(0Linkt;encnUSSt;encnð14Þ4>0Linkt;encn-电子邮件v. 下载恶意代码:大多数钓鱼网站或电子邮件都包含下载某些文件的指令,这些文件用于实施基于犯罪软件的攻击。如果网页包含一个活动的下载链接,其中包含指定的扩展名,如.txt,.abc,.exx,.help_restore,.¼.¼(¼M¼S/NWeb要素频率速率1域名查询0.652URL路径中的域名0.313服务器表单检查/弹出0.284URL缩短0.245下载恶意代码0.736异常cookie域0.237域的年龄0.428端口号行为0.289SSL证书0.5810黑名单域名0.77A.A. Orunsolu等人/Journal of King Saud University239¼2¼2ð≤Þð ð ÞÞ¼þ6-7长度扩展的随机字符,那么它是钓鱼和可疑的。否则,它是合法的。F3¼。0Durl::ageWHOISAPIurl:ageð18ÞF251/4。0下载恶意链接恶意扩展ð15Þ> 0Durl::age – WHOISAPIurl:age>0下载链接恶意扩展算法2.特征评估频率分析输入:数据大小,p;原始特征集,n;阈值,h,类,C输出:尺寸m(fs)iii. 端口号行为:此功能将域名的端口号部分与URL的声明协议如果协议与端口号不匹配,则该页面是钓鱼网站。开始1.因为我从1到 n开始F330Durl:端口编号¼HTTPSurl:端口编号> 0Durl:端口编号- H T T P S ur l:端口编号ð19Þ2.对于j1到p,3.激活Mendeley应用程序4.a1/45.选择si HP6.计算CFS(s)使用{7.sfi;f2;···fn;c作为输入8.对
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功