《网络钓鱼检测技术研究综述及比较分析》

13 浏览量更新于2024-01-16 收藏 1.71MB PDF 举报

Elsevier

深度学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

制作和主办：Elsevier沙特国王大学学报审查钓鱼网站检测技术Asadullah Safia，Satwinder Singhb，a阿富汗高等教育部楠格哈尔大学b部印度旁遮普邦中央大学计算机科学技术系阿提奇莱因福奥文章历史记录：2022年6月23日收到2022年11月24日修订2023年1月3日接受2023年1月11日在线提供保留字：钓鱼网络钓鱼检测深度学习网络安全机器学习A B S T R A C T网络钓鱼是一种欺诈行为，攻击者充当受信任的个人或实体，从互联网用户那里获取敏感信息。在这个系统的文献调查（SLR），不同的网络钓鱼检测方法，即基于列表，视觉相似性，启发式，机器学习和基于深度学习的技术，进行了研究和比较。为此，几个算法，数据集和技术的钓鱼网站检测揭示了所提出的研究问题。对近5年来发表在学术期刊、学术会议、学术研讨会、研究者论文、书籍章节和高级网站上的80篇科技论文进行了系统的文献调查。本研究所做的工作是对以往系统性文献调查的更新，更加关注网络钓鱼检测技术的最新发展趋势。本研究加深了读者对不同类型的钓鱼网站检测技术、所用数据集以及所用算法的比较性能的理解。机器学习技术应用最多，即，根据SLR，57项研究此外，调查显示，在收集数据集时，研究人员主要访问两个来源：53项研究访问了PhishTank网站（53项用于钓鱼数据集），29项研究使用Alexa此外，根据文献调查，大多数研究使用机器学习技术; 31使用随机森林分类器。最后，根据不同的研究，卷积神经网络（CNN）在检测钓鱼网站方面达到了最高的准确率，99.98%版权所有2023作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。内容1.导言. 5912.相关工作背景3.方法5933.1.审查方法3.2.研究问题5933.3.搜索相关文件5933.3.1.评论来源3.4.研究的关键词5953.5.入选和排除标准5953.6.研究质量评估3.7.主题协会5953.8.数据提取596*通讯作者。电子邮件地址：www.example.comasad.nu.it @ gmail.com（A. Safi），satwinder. cup.edu.in（S. Singh）。沙特国王大学负责同行审查https://doi.org/10.1016/j.jksuci.2023.01.0041319-1578/©2023作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comA. Safi和S. 辛格沙特国王大学学报5914.钓鱼网站检测方法5984.1.启发式技术5984.2.基于视觉相似性的技术6024.3.基于列表的技术6024.4.机器学习技术6024.5.深度学习技术6025.讨论与讨论6045.1.根据所用方法5.2.研究问题6055.3.研究的意义5.4.对有效性的威胁6.结论608第608章利益冲突致谢608附录A.质量评估表1 608附录B.质量评估表2 609附录C.质量评估表3 609附录D.数据提取表4 609附录E.具有相关百分比的数据来源......................................................................................................................................................................................................................附录F. 缩略语6 609参考文献6091. 介绍网络钓鱼是一种社会工程攻击（Paliath等人，2020年;Nakamura和Dobashi，2019年; Zabihimayvan和Doran，2019年）被确定为网络犯罪分子用于访问互联网用户个人信息（如信用卡信息，用户名和密码）的最常见方法（Ramana例如，2021; Faris和Yazid，2021）。有时，攻击者执行网络钓鱼攻击以在网络中传播恶意软件（Gupta例如，2021年）。存在各种类型的网络钓鱼攻击，其中众所周知且不限于欺骗、基于恶意软件的网络钓鱼、基于DNS的网络钓鱼、数据盗窃、电子邮件/垃圾邮件、基于web的递送和电话网络钓鱼，如图1所示（Kathrine等人，2019年）。网络钓鱼攻击有多种形式，通常涉及各种通信渠道，例如电子邮件、即时消息、快速响应（QR）码（Geng等人，2018年，社交媒体。攻击者通常模仿知名银行、信用卡机构或知名电子商务网站，以恐吓或说服用户登录钓鱼网站，并提供他们可能会后悔的欺诈行为。例如，用户可以接收一条提示其银行账户Fig. 1.网络钓鱼攻击的类型。并被引导到与银行网站相同的网站。客户端毫不犹豫地将其凭据插入相关字段，落入攻击者的陷阱。犯罪分子跟踪这些数据并利用它来访问用户的合法帐户（Liu等人，2021年）。根据互联网犯罪投诉中心（IC3）2020年的报告，FBI收到了791，790起涉嫌互联网犯罪的投诉，比2019年的数据增加了30多万起投诉（FBI，在文献中，提出了各种技术来识别钓鱼网站，基于列表的、视觉相似性、启发式、机器学习（Somesha等人，2020; Nakamura和Dobashi，2019）和深度学习技术（Basit等人， 2020年）。基于列表：微软Edge、Firefox和GoogleChrome使用基于列表的方法来检测钓鱼网站。白名单和黑名单是两种基于列表的方法。白名单包含浏览器可以访问的有效URL的列表，这意味着如果URL在白名单中，则浏览器可以下载网页。同时，黑名单数据库包括网络钓鱼或欺诈网址，阻止浏览器下载网页。主要缺点是URL中的微小修改足以绕过基于列表的技术并防止新的钓鱼URL，这些列表必须频繁更新（Yang等人， 2021年）。视觉相似性：这种方法评估嫌疑人，基于各种视觉特征的真实网站。由于钓鱼网页看起来与其合法网页高度相似，这些工具比较相似性：这种方法使用CSS，文本布局，源代码，网站徽标，网页截图和其他视觉元素。由于这些技术将可疑网页与先前访问或保存的网页进行比较，因此无法检测到零时网络钓鱼攻击（Jain和Gupta，2018）。启发式：启发式方法使用来自钓鱼网站的特征。该策略基于几个属性，可以将钓鱼网站与真正的网站区分开来。这些方法从各种来源收集数据，例如URL、文本内容、DNS、数字证书和网站流量。特征集、训练样本和分类算法都影响该方法的成功。这种技术的优点之一是它可以检测零时网络钓鱼攻击（Jain和Gupta，2018）。机器学习：如今，机器学习是一种流行的用于检测网络钓鱼网站的方法（Sindhu等人，2020年）。收集URL信息、网站结构和JavaScript特征等常见属性来表示钓鱼URLA. Safi和S. 辛格沙特国王大学学报592及相关网站。然后，基于这些特征，获得网络钓鱼数据集。之后，机器学习分类器被训练以基于这些特征检测钓鱼网站（Zhu等人，2020年）。这种技术非常适合大数据集（具有高速度，多样性，数量，价值和准确性）。基于机器学习的分类器实现了超过99%的准确率，这被证明是最有效的方法（Alkawaz等人， 2021年）。深度学习：根据深度学习方法的最新发展，深度神经网络在检测钓鱼网站方面应该比传统的机器学习技术表现更好。用于网络钓鱼检测的一些众所周知的深度学习算法是深度神经网络、递归神经网络、前馈深度神经网络、有限玻尔兹曼机、卷积神经网络、深度信念网络和深度自动编码器（Basit等人， 2020年）。a. 动机这篇综述的动机来自于这样一个事实，即研究钓鱼网站检测技术需要详细的洞察力研究。对相关文献的检索并没有对这一领域的所有主要方法产生明确的概述。包括钓鱼网站检测中使用的技术、数据集和算法在内的协作工作没有以系统的格式提供。有必要对这一领域进行研究，并提供一个经过认可的概览。本研究的目的是评估和促进以下方面：1. 发现最好的钓鱼网站检测技术，以帮助安全管理人员轻松地为他们的安全系统选择反钓鱼方法中的顶级技术2. 需要一个好的综述论文，重点是在有关领域的学者所使用的技术，数据集和算法。本文的结构如下：共分六个部分.第2介绍了相关工作的背景信息;第3节介绍了研究方法;第4节回顾了80篇关于钓鱼网站检测技术的研究论文;第5介绍了80篇研究论文的结果和讨论;第6节给出了结论。2. 相关工作许多作者已经探索了钓鱼网站的检测然而，如下所述，只有少数国家对这一专题进行了系统的文献Qabajeh等人（Qabajeh等人，2018）最近致力于传统与自动钓鱼检测技术。传统的反网络钓鱼方法包括提高意识、教育用户、进行定期培训或研讨会以及从法律角度进行。计算机化或自动化的反钓鱼方法谈论基于列表和基于机器学习的技术。更重要的是，本文从用户和性能的角度比较了这些方法的相似之处，积极和消极的因素。根据这项研究，机器学习和规则归纳是适合打击钓鱼攻击。这项工作的局限性在于：该综述基于67项研究项目，并且该研究不包括用于钓鱼网站检测的深度学习技术。Alkasassbeh（Alkasaiq和Alkasassbeh，2019）对当前的网络钓鱼检测方法进行了全面的审查。该研究讨论了反网络钓鱼技术，如启发式，基于内容，和模糊规则为基础的方法。该研究表明，有更好的方法来识别钓鱼网站。这项工作的背景是基于研究之间进行的2013年和2018年。这项工作的缺点是它只分析了18项研究，并且没有包括用于钓鱼网站检测的机器学习，基于列表和深度学习方法。Kunju等人（Kunju等人， 2019）使用调查方法来检测网络钓鱼攻击。该研究提供了几种网络钓鱼攻击检测解决方案和方法。根据研究，许多提出的解决方案被发现不足以提供网络钓鱼攻击的解决方案这项工作中的文献仅包括2007年至2019年期间的14项研究该研究仅讨论用于钓鱼网站检测的机器学习技术。Benavides等人（Benavides等人，2020）进行了系统性的回顾，分析了其他研究人员通过应用深度学习算法检测网络钓鱼攻击的不同方法。总而言之，在深度学习算法用于钓鱼攻击检测方面仍然存在重大差距。这项工作中的文献仅包括2014年至2019年期间发表的19项研究。本文仅考虑与网络钓鱼和深度学习相关的Athulya Praveen（Athulya和Praveen，2020）解决了不同的网络钓鱼攻击，网络钓鱼者最新的网络钓鱼策略和反网络钓鱼策略。此外，本文旨在提高人们对网络钓鱼攻击和网络钓鱼检测策略的认识。根据这项研究，预防网络钓鱼攻击的最佳方法是教育用户了解不同类型的网络钓鱼攻击。用户可以选择最好的安全软件工具或应用程序来检测网络钓鱼攻击，如反网络钓鱼浏览器扩展。这项工作中的文献是基于九个研究项目。该研究不包括用于钓鱼网站检测的深度学习技术。Basit等人（Basit等人，2020）报告了一项关于基于人工智能的网络钓鱼检测技术的调查。作者使用统计网络钓鱼报告来检查网络钓鱼尝试的危害和本文将反钓鱼评估分为四类：机器学习、混合学习、基于场景和深度学习。研究表明，与其他方法相比，机器学习程序产生的结果最好。这项工作是基于过去十年发表的文献，只分析了21个研究项目。Kathrine等人（Kathrine等人，2019）提出了一个框架来检测和防止不同类型的网络钓鱼攻击。根据这项研究，基于机器学习的算法可以有效地检测出真正的阳性结果。本研究的局限性在于：本研究中的Korkmaz等人（Korkmaz，2020）提出了一项审查工作，用于选择可用于基于URL的网络钓鱼检测系统的功能。本研究旨在为从事网页分类或网络安全工作的科学家提供一个综合调查资源。本研究文献中只有五项研究Arshad等人（Arshad等人，2021）在他们的研究中提出了不同类型的网络钓鱼和反网络钓鱼技术。SLR评估认为，电话网络钓鱼、电子邮件欺骗、鱼叉式网络钓鱼和电子邮件操纵是常用的网络钓鱼技术。根据这项研究，最高的准确性是通过机器学习方法实现的。这项研究是有限的，因为它只基于20项研究。Catal等人（Catal等人， 2022）进行了系统的文献综述，回答了9个研究问题。该研究根据这项研究，监督ML算法应用于43项研究中的42项。最常用的算法是DNN，并且DNN和混合DL算法给出这项工作只讨论了深度学习相关的网络钓鱼检测研究。表1显示了在本研究中选择的五种有影响力的期刊中，在过去五年中发表的关于钓鱼网站检测技术的三个SLR。A. Safi和S. 辛格沙特国王大学学报593表1网络钓鱼检测系统综述论文摘要作者年份单反不单反分析的文章目的主要结论限制Qabajeh等人，2018没有67本文比较了传统的反网络钓鱼方法，包括提高认识，教育用户，定期进行培训或研讨会，并使用法律的角度。计算机反网络钓鱼技术浅谈机器学习和规则归纳适用于打击网络钓鱼，因为它们的检测率很高，更重要的是，结果易于理解。在工作中分析了67项研究，研究没有讨论深度学习技术。阿盖克和没有18基于列表和机器学习技术。本研究探讨了几种网络钓鱼研究表明，没有完美的这项工作只分析了18个Alkasassbeh，2019检测方法，包括启发式，基于内容的，和模糊规则为基础的方法。用于识别钓鱼网站的方法。研究，不包括机器学习，基于列表和深度学习方法。Kunju等人， 2019No14本文概述了许多机器学习算法用于识别钓鱼网站，包括kNN，朴素贝叶斯，决策树，SVM，神经网络和随机森林。Benavides等人， 2020是19本系统性文献综述旨在评估其他学者根据这项研究，钓鱼网站检测使用单一的方法是不够的。总而言之，在深度学习算法用于钓鱼攻击检测方面仍然存在重大差距。这项工作中的文献仅包括14项讨论机器学习技术的研究。这项工作包括19项研究，本研究仅考虑关于网络钓鱼和深度学习的Athulya和Praveen，2020年第9位：该研究针对网络钓鱼网络钓鱼攻击、网络钓鱼者最新的网络钓鱼策略和反网络钓鱼技术。此外，本文旨在提高人们对网络钓鱼攻击和网络钓鱼检测策略的根据这项研究，减轻网络钓鱼攻击的最佳方法是提高用户的意识，并选择最好的反网络钓鱼安全软件工具。这项工作中的文献基于九个研究项目，该研究不包括用于钓鱼网站检测的深度学习技术。Basit等人， 2020No21对于网络钓鱼检测，该研究研究人工智能方法，如机器学习，混合学习，基于场景和深度学习。Kathrine等人， 2019No11这项工作提出了不同的网络钓鱼用最新的预防方法进行攻击。本文提出了一种网络钓鱼攻击的检测和防范框架。Korkmaz，2020年第5号，提出了关于选择可以在基于URL的网络钓鱼检测系统中使用的功能。* 阿尔沙德等人， 2021是20在这项研究中，不同类型的提出了网络钓鱼和*Catal等人， 2022是43工作回答九项研究问题.主要目的是综合、评估和分析深度学习网络钓鱼检测技术。该研究证明，机器学习程序给出了最好的结果。根据这项研究，基于机器学习的算法可以有效地检测出真正的阳性结果。根据研究，基于URL的检测策略是首选，以提高检测速度。他们评估说，电话网络钓鱼、电子邮件欺骗、鱼叉式网络钓鱼和电子邮件操纵是最常用的网络钓鱼技术。该研究分析，机器学习方法具有最高的根据这项研究，43项研究中有42项研究应用了监督ML算法。最常用的算法是DNN，并且DNN和混合DL算法给出了最好的性能。这项工作只分析了21个研究项目。这项工作只讨论了11项研究，并且这项研究不包括用于减轻钓鱼网站的深度学习技术。这项研究这项工作仅基于20项研究。这项工作只讨论了深度学习相关的网络钓鱼检测研究。*论文被排除在纳入-排除标准之外3. 方法系统性文献综述是一个遵循一系列规则的研究过程。本文遵循Singh& Kaur （ Singh 和 Kaur ， 2018 ）、 Singh 等人（ Singh 和Beniwal，2021）、Kitchenham等人（Kitchenham等人，2010）和Brereton等人（Brereton等人，2007年）。审查方法包括构建研究问题，确定要探索的电子数据库列表，数据收集，数据分析，对结果的讨论，以及在应用所有排除标准后对最终选定的研究文章进行比较研究。本系统性文献综述旨在寻找最佳方法、数据和算法研究人员用于钓鱼网站检测。3.1. 审查方法如上文所述，研究将从设计研究问题开始，然后通过比较其他文献的发现来探索用于检测和分析的数据库，作为综述方法的一部分该程序包括搜索主要和次要数据库，实施A. Safi和S. 辛格沙特国王大学学报594图二. 系统性文献综述的阶段。图三. 检索排除标准。表2研究问题。RQ 1.钓鱼网站检测技术有哪些，哪些技术在大多数研究中使用？RQ 2.研究人员使用哪些不同的数据集来检测钓鱼网站，到目前为止，大多数研究都使用了哪些数据集？RQ 3.作者使用了哪些算法，研究人员主要使用了哪些算法？RQ 4.哪种算法在检测网络钓鱼攻击时具有最佳准确性？过程，如图所示。二、只有电子数据库的文献调查，其中包括最著名的期刊，会议记录，研究论文。在最初的检索中，发现了537篇论文，在应用纳入-排除标准后，仅选择了80个研究项目（见图11）。3）。3.2. 研究问题表2列出了在包括相关领域专家在内的四人小组讨论后设计的研究问题团队讨论的主要目的是揭示各种网络钓鱼方法、相关研究中使用的数据集、该领域使用的算法以及所实施算法实现的最高准确性。3.3. 搜索相关文件进行系统性综述需要全面的观点。因此，在开始审查之前，应确定适当的数据库选择，以快速提供基于关键词的相关结果。我们选择了以下5个数据库进行系统评价。(a) ACM数字图书馆（https://dl.acm.org）。(b) IEEE Explore（https://ieeexplore.ieee.org）.(c) 爱思唯尔（https://www.elsevier.com）。(d) Springer（https://link.springer.com）.(e) 其他文章（索引在Scopus期刊（scopus.com））。3.3.1. 审查来源(a) 评论文章。(b) 会议记录。A. Safi和S. 辛格沙特国王大学学报595(c) 已发布的技术报告。(d) 书籍章节。(e) 研究人员3.4. 研究的重要关键词该研究探索了给定关键词列表的所有主要和额外信息来源对2017年1月至2022年2月发表的论文使用以下关键词搜索每个来源中的研究项目：见图4。词云为所选研究项目的关键词。图五. 研究项目标题的词云。(a) 钓鱼(b) 网络钓鱼检测(c) 深度学习(d) 网络安全(e) 机器学习3.5. 入选和排除标准在三个水平上使用入选-排除标准。不相关的论文在每个阶段或级别后被删除主要检索包括计算机科学和工程学科的论文然而，由于“机器学习”一词只有用英文撰写的论文系统性综述包括2017年1月至2022年2月期间发表的研究出版物。来自多个图书馆的相同研究论文被丢弃。考虑由相同作者发表的具有微小变化的系列研究文章如果研究最初在会议上讨论，然后在期刊上发表，则两种来源都被考虑，最新版本包括在研究中。系统综述通过三个层次，以达到最终的研究论文集。如图3所示，共收集了537篇出版物。在执行排除规则后，120篇文章被纳入文献。随后，根据关键词和摘要阅读，从这些文章中选出100篇最后，在阅读出版物全文的基础上，在第三个层次上选择了80篇研究论文。3.6. 研究质量评价在最终确定了用于选择文章的纳入-排除标准并满足检索质量标准后，确定仅对已在科学层面获得批准且属于计算机科学领域的论文进行审查。选择了以下索引数据库和存储库：Elsevier，Scopus索引期刊，ACM，IEEE Explore和Springer门户。此外，设计了三份文件附录A-C，以确保通过入选-排除标准设定的质量参数。这些文件的目的是关注文献调查的标准。质量保证是在这三个附录的基础上由在网络安全领域具有专业知识的教授完成的评审过程从附录A开始，评审员在对附录A进行满意评价后移至附录B，然后与附录C类似。3.7. 主题关联词云技术显示了文章如何根据主题关联主题紧密相关。在大多数情况下，单词云用于总结文本文档。越大粗体字代表它在一个国家的频率和重要性。见图6。钓鱼网站检测技术。A. Safi和S. 辛格沙特国王大学学报表596596启发式技术的初步研究。Ref应用方法使用算法使用的数据集主要结论限制/挑战引文Kumar等人，2018Rao和Pais，2019年启发式机器学习启发式&随机森林多层感知器支持向量UCI ML Repository2949合法电子邮件1378封垃圾邮件11，000个URL实例30个特征PhishTank（2119使用随机森林分类器，该系统可以检测网络钓鱼和垃圾邮件，准确率分别为97.7%和89.2%。精度为一项研究只使用了两个分类器。相同的数据集用于训练和测试。挑战：对于网络钓鱼检测器，它在有限的88，73个实例中获得了很高的准确性。进行实验9161机器学习机器随机森林Logistic RegressionAdaBoostJ48采油树多层感知机顺序最小钓鱼网站），Alexa(1407合法网站）99.55%，随机森林算法优于其他算法。具有有限35，26个实例的数据集。Babagoli等人，启发式&优化支持向量UCI机器学习该研究声称，该方法在一个762019机器学习MachineHarmony搜索存储库11 055个网页30个特征Harmony搜索在训练和测试操作中的准确率分别为94.13%和92.80%。数据集数量有限，本工作中使用的数据集仅包含11 055个实例。这项工作只对两个人进行了算法Gupta等人，2021启发式机器学习支持向量机随机森林K-最近邻Logistic回归ISCXURL-201611 964例使用随机森林算法，该研究获得了99.57%的最高准确率。一项研究尚未使用不同的数据集进行训练和测试，以检查所提出的方法的鲁棒性。挑战：它已经达到了很高的水平精确度超过有限的9个URL功能。24Hr等人，2020Rao等人，2019启发式机器学习启发式&随机森林XGBoostPhishTank 11，055实例30个特征Common Crawl本研究达到99.36%的准确率在实时钓鱼网站检测。该模型实现了本工作中使用的数据集仅包含11，055个实例。这项工作只使用一种算法进行实验。该模型具有1345机器学习随机森林Logistic回归AlexaPhishTank准确率94.26%，随机森林。实现准确度评分Ding等人，2019视觉相似性，K-近邻支持向量机决策树Logistic回归PhishTank根据比其他的文学模式。该模型可能无法检测使用缩短URL和数据URL服务的钓鱼URL。本工作40启发式&机器学习雅虎URL黑名单实验系统包含多个域名实例. 工作Rao等人，2020视觉相似性，支持向量DMOZPhishTank百分之九十八点九Twin支持向量只尝试了一种算法这项工作中使用的数据集8启发式机器学习机Alexa11,000个实例。机器分类器（TWSVM）在实验中击败了其他版本，准确度98.05%。只有11,000个实例。阿尔梅达和韦斯特法尔，2020年启发式机器学习–PhishTank推荐的方法检测钓鱼网址的平均时间为30秒，准确率从73.3%到97.66%不等。它已经达到了97.66%的高精度和最低的73.3%，这是低的启发式机器学习方法的文献中的其他作品相比。4云字这里，词云可视化了图4所示的关键词中的词频率和图5所示的所选研究项目的标题的词云。网络钓鱼、机器学习、网络钓鱼检测、网络安全和深度学习是所选研究中最常用的关键词。在单词云中，这些是图4中显示的最重要和最大胆的单词。其他小字体的单词在关于钓鱼网站检测技术的文章中出现的频率较低，可能被认为是不太重要的关键字。网络钓鱼检测，机器学习，网络钓鱼网站，网络钓鱼，网络钓鱼攻击和深度学习是图中所示标题中最常用的词。五、话在一些特定的文章中发现体积较小的云被用作标题。但是，它们不是常用的。对于关键字和标题，高度关注的词是网络钓鱼，机器学习，网络钓鱼检测，深度学习和网络安全。3.8. 数据提取在最初的搜索中，发现了537篇研究论文在应用包含-排除标准后为此A. Safi和S. 辛格沙特国王大学学报597表4视觉相似性技术的初步研究。Ref应用方法使用算法使用的数据集主要结论限制/挑战引文Wang等人，2020Ramana等人，视觉相似性视觉相似性，–决策树PhishTank60个钓鱼网址UCI机器学习作者指出，所提出的OCR方法可以检测钓鱼网站，并克服了现有方法的缺点。实验研究该方法在极少数网络钓鱼URL上进行了测试。应用程序依赖于设备和语言。数据集1（D1）具有总计522021启发式&k近邻存储库准确度达到97.51%11，055例，范杜雷马尔机器学习视觉相似性&AdaBoost梯度增强Logistic回归随机森林XGBoostLogistic回归门德利21 055例OpenPhish使用来自UCI的数据集并使用Mendeley建议的系统提供数据集（D2）有10,000个实例。该方法使用第三方功能，这会减慢该过程。方法取决于3例如，2021机器学习PhishTank准确率为99.20%，基于搜索引擎的过滤，Hidayat等人，视觉相似性模糊软集PhishStats–目标识别和99.66%的钓鱼分类数据集上。实验显示，第三方组件;它可能会随着时间的推移为同一查询FSS有一个有前途的02021在准确性和召回率方面超过其他人的相似性指标，95.45%和99.77%，在这项研究中，网络钓鱼检测的方法，虽然它的响应时间类似于Li等人，2019视觉相似性，支持向量PhishTank分别所提议的办法功能第一个使用的数据集119启发式机器学习机器随机森林决策树K-最近邻XGBoost梯度提升Alexa2000个网页准确率达到98.60%这种方法只包含2000个网页（1000个钓鱼和1000个合法）。Rao和Pais，2019年视觉相似性LightGBM–PhishTank该系统具有准确性的性能57Alexa98.61%。所提出的方法受到搜索引擎提供的服务的影响。由于使用零作为相似性阈值，刘和傅，2020视觉相似性&无监督PhishTank和OpenPhish这项工作达到了精确度Jail-Phish可能会丢失一些钓鱼网站。托管在免费域名托管服务提供商上的合法网站被归类为网络钓鱼。接近达到精度5启发式特征学习算法(0.5万个恶意URL），Alexa和DMOZ(over95%）。(over 95%）、回忆（约（84%）Barlow等人，2020视觉相似性&神经网络（100万个合法URL）该数据集具有该系统使用了与其他文学作品相比，它的表现力是比较弱的。钓鱼网站数据6机器学习来自美国银行Phish，PayPal Phish，ABSAPhish，DHL TRACKING神经网络与二进制可视化的组合，实现了全面检测集合包含25个样本的混合物，这是非常有限的。该方法具有只使用了一种算法博兹基尔和艾多斯视觉相似性&支持向量网络钓鱼和Microsoft登录网络钓鱼。PhishTank准确率为94.16%。实验表明该方案具有282020机器学习有向映射的机器直方图（HOG）PhishTankOpenPhish系统的准确率为93.50%，召回率为77.94%，F1得分为百分之八十五点零二。由于HOG特征的半刚性表示而导致的一些限制。的方法使用了204个杰恩和古普塔视觉相似性–PhishTank所提出的方法快照，用于创建每个品牌的检测器。所提出的方法452018OpenPhishAlexa 2000URL性能进行了评估，并发现有98.05%的准确率。无法检测网页中附带的恶意软件。所提出的方法的性能取决于搜索结果和提取的超链接。如果攻击者重新设计，包含该方法的网页可能会错误地将钓鱼网页分类为合法网页。（接下页）A. Safi和S. 辛格沙特国王大学学报598表4（续）Ref应用方法使用算法使用的数据集主要结论限制/挑战引文Li等人，2020视觉相似性基于视觉的页面分割（VIPS）算法PhishTankAlexa20个网页实验表明，该系统具有较好的鲁棒性和准确性。作者只选择了8个合法网页，并选择了12个钓鱼网页作为数据集。使用最小数据集0Jain等人，2020视觉相似性词频-反向文档PhishTankOpenPhish该方法的准确度值为89.0%。该研究使用了最少数量的特征8频率（TF-IDF）Alexa200例（标签），即，在网页的body标签中只有五个。该方法在有限的数据集上进行了测试100个合法网站和100个钓鱼网站。这项研究本身声称，语料库Alsariera等人，2020视觉相似性LogitBoost-ExtraTree（LBET）RotationForest-Extra Tree（RoFBET）AdaBoost-ExtraTree（ABET）Bagging-Extra Tree（BET）UCI机器学习库Kaggle11 055例30个独立属性LBET模型实现了大于97.5%的检测精度。在这项工作中使用的钓鱼网站50表5基于列表技术的初步研究。Ref应用方法使用算法使用的数据集主要结论限制引文Barraclough等人，基于黑名单，适应性神经PhishTank最佳表现是由该方法具有0.6142021视觉相似性，启发式&模糊推理系统（ANFIS）米勒微笑雷尔班克斯零件，准确度在0.006秒。错误率，即相对较高。Maroofi等人，机器学习基于列表朴素贝叶斯部分J48 TreeJRip随机森林PhishTank该系统产生的准确度为该研究仅使用112020视觉相似性，启发式&机器学习Logistic回归OpenPhishAPWG乌尔豪斯97.00%使用随机森林分类器。两种机器学习算法它使用了第三-基于聚会的功能，Azeez等人，2021基于白名单–38个特征PhishTank（140）经过六次实验，平均减缓这个过程。该研究使用了12Nathezhtha等人，&视觉相似性DNS黑名单，–网络钓鱼），Alexa（60合法）PhishTank该系统的准确率为96.17%。建议的系统检测网络钓鱼200个网站的数据集，140个网络钓鱼网站和60个合法网站。该方法使用202019启发式&视觉相似性Alexa谷歌零日钓鱼攻击，准确率98.90%基于搜索功能，这需要时间Rao和Pais，2020年基于列表支持向量中国（4097）作者建议一个合奏减缓了这个过程本报告中使用的数据集22视觉相似性，启发式机器学习机器随机森林决策树AdaBoost实例）、Google（5438实例）一个结合了Extra-Tree、RandomForest和XGBoost的模型，以检查两者基于策略和基于黑名单工作有一个小数目的实例。总的来说，系统很高XGBoost过滤器作为一个单一的实体，准确率为98.72%。系统综述，考虑2017年1月至2022年2月发表的研究作品以下是整个数据提取过程的说明：b. 其中一名研究人员回顾了所有出版物，并从所有80篇主要论文中收集了数据。c. 收集的作品由网络安全领域最知名的教授之一（作为独立人士）进行验证，他根据数据提取和质量表格（附录A- D）中概述的各种标准对文章进行了评估d. 如果结果之间存在分歧，预定解决选择文章的问题。4. 钓鱼网站检测方法为了识别和防止网络钓鱼攻击，有各种反网络钓鱼方法可用。如图6所示，在这项工作中，它被分为五组。以下部分将讨论基于钓鱼网站检测技术的文献4.1. 启发式技术基于启发式的方法使用来自钓鱼网站的特征。这种方法将有助于区分网络钓鱼和真正的网站。启发式功能就像对A. Safi和S. 辛格沙特国王大学学报599表6机器学习技术的初步研究。Ref应用方法使用算法使用的数据集主要结论限制/挑战引文Shirazi等人，2018机器学习&视觉相似性支持向量机朴素贝叶斯K-最近邻梯度提升决策树PhishTank（1000URL）Alexa（1000URL）OpenPhish（2013URL）根据这项研究，具有97.00%准确率的梯度提升分类器产生了最好的结果。该研究仅使用了基于域名的有限功能，即，四个基于二进制和四个基于非二进制的特征。用于模型评估的训练和测试数据集较小且有偏差。67汉努斯和机器学习，支持向量PhishTank最佳准确度评分在这项研究中，一些基于内容的7Yahiouche，视觉相似性&机Alexa96.61%，使用运行时分析的功能包括2021启发式决策树逻辑回归随机森林朴素贝叶斯OpenPhishYandex搜索API 87功能混合特征和随机森林分类器。不合适除了手动选择87个特征外，未使用任何特征选择技术，这可能会产生偏倚在特征选择中。没有Rashid等人，2020机器学习支持向量Alexa所提出的方法给出了训练-测试数据集分割比的百分比研究非常肤浅，11机常用爬网归档(5000URL）分类钓鱼和法律网站，准确率为95.66%。仅使用一个分类器，即，支持向量机，和五个特征检测钓鱼网站。使用GNU收集了一个小数据集，Python脚本。而且只有Basit等人，2020机器学习随机森林UCI机器K-Nearest组合一个性能度量，即，准确度用于模型评价。该研究没有使用多个25K-近邻决策树人工神经网络网络学习存储库11，055个实例30个特征邻居和随机森林分类器检测钓鱼攻击的准确率为97.33%。数据集，以评估其整体模型。此外，UCI数据集是开源的，规范化的特征它不包含原始URL。这项研究也没有包括任何特征选择程序。该研究选择了开源数据集和现有的ML算法进行研究。它仍然需要包括校准Stobbs等人，2020机器学习，随机森林PhishTank准确率高达99.33%每个选择的ML方法的值。该研究使用了不同的ML3基于启发式列表线性回归神经网络支持向量机Alexa结果表明，采用PSO进行特征选择，TPE进行超参数优化的随机森林算法是最优组合.算法，但没有给出训练和测试的分割比例。所有的性能参数都可以得到更好的建议，两种不同Sahingoz等人，机器学习朴素贝叶斯Ebbu 2017：随机森林算法与其他相关工作进行比较。在建议的方法中，精度值可能更好。与其他现有方法相比，只有在多个数据集上进行测试，3472019&启发式随机森林K近邻AdaBoostK-starSMO决策树创建自己的数据集（73575 URL）仅采用基于NLP的功能，检测钓鱼网址的准确率为97.98%需要执行。该研究已收集了其脚本的数据集。此外，在短域的情况下，基于NLP的特征提取技术将不能检测这些短域。域.Wu等人，2019机器学习&启发式支持向量机决策树Logistic回归PhishTank（5000 URL），DMOZ目录（10，000URL）支持向量机的精度最高该研究使用了有限数量的ML技术。此外，没有关于配置的信息给出了ML算法超参数的定义。只有16个URL特征用于分析。的达到的准确度，即，89.3%，18远低于比较文学据报道，该研究无法检测到被模仿合法网站的图片。A. Safi和S. 辛格沙特国王大学学报600（接下页）A. Safi和S. 辛格沙特国王大学学报表6（续）601Ref应用方法使用算法使用的数据集主要结论限制/挑战引文Abedin等人，2020机器学习&启发式K-最近邻Logistic回归随机森林Kaggle11，504URL32个属性随机森林分类器的准确率为97.0%，召回率为99.0%，基于观察的F1得分为9

下载后可阅读完整内容，剩余1页未读，立即下载