网络钓鱼检测：多层次模型PhiDMA的原型实现及准确率分析

72 浏览量更新于2024-01-14 收藏 1.61MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报PhiDMA -一种Gunikhan Sonowal，K.S.库普萨米计算机科学系，工程与技术学院，本地治里大学，本地治里605014，印度阿提奇莱因福奥文章历史记录：2017年4月19日收到2017年7月3日修订2017年7月17日接受2017年7月23日在线发布保留字：网络钓鱼信息安全可访问性白名单混合网络钓鱼检测A B S T R A C T网络钓鱼仍然是网络空间的一个基本安全问题在网络钓鱼中，攻击者通过提供一个看起来像合法网站的视觉克隆的虚假网站来窃取受害者的敏感应使用各种方法处理网络钓鱼。它建立了单一的过滤方法将是不够的，cient检测不同类别的网络钓鱼企图。本文提出了一种多层次的网络钓鱼检测模型，称为PhiDMA（PhishingDetection using Multi-filter Approach）。PhiDMA模型包括五个层：自动升级白名单层、URL特征层、词法签名层、字符串匹配层和可访问性评分比较层。建议的PhiDMA模型的原型实现是建立一个无障碍的接口，使视力障碍的人应访问它没有任何障碍。实验结果表明，该模型能够检测到钓鱼网站的准确率为92.72%。©2017作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍随着互联网用户的指数增长，网络犯罪事件也相应地迅速扩大。个人和协会每天都在损失数百万美元（Hong，2012; Ragucci和Robila，2006;朴茨茅斯大学，2016）。网络钓鱼是网络犯罪的基本形式之一，目前正呈指数级增长.在网络钓鱼中，攻击者窃取受害者的凭据;例如信用卡号、密码，最终目标是他们自己的利益（Weider等人，2008年）。网络钓鱼被定义为假冒网站模仿合法对手的过程，其利用社会工程来误导受害者提供他们的个人信息（Mohammad等人，2015年b）。近年来，网络钓鱼在全球范围内肆虐，针对的是所有类别的互联网用户。有视觉障碍的人是这种威胁的软目标，因为他们完全依赖从屏幕阅读器接收的听觉输入。最近，根据FireEye的报告，数字罪犯制造了26家印度银行的网络钓鱼网站，这些银行试图将*通讯作者。电子邮件地址： gunikhan. gmail.com （G. Sonowal ），kskuppu@gmail. com（K.S. Kuppusamy）。沙特国王大学负责同行审查sitive客户信息（Thehindu，2016）。许多网络钓鱼者利用社会工程技巧和技术来说服个人公布他们的证书（Krombholz等人，2015年）。社会工程陷阱，以掩盖虚假的可怕的信息，诱饵消息和其他人。有时会发送一个指向网站的链接，这会将用户重定向到他们的虚假网站，并且该网站被概述为它们来自合法来源。反网络钓鱼工作组（APWG等，2016年）报告，从2015年10月到2016年9月（2016年12月21日报告）识别的独特网络钓鱼事件数量如图所示。1.一、已经开发了几种反网络钓鱼技术来抑制网络钓鱼站点。这些技术可以分为四类：列表，分类，混合和信息流方法（Chen等人，2015;Dunlop等人，2010; Mohammad等人，2015 b; Ma等人，2009;Han等人，2012年）。基于列表的技术包括两种列表：黑名单，即钓鱼URL的列表;白名单，即合法URL的列表。基于启发式的方法从网页的URL和内容中提取特征，并通过检查这些特征来识别钓鱼网站。混合方法结合了基于列表和基于启发式的方法（Xiang和Hong，2009）。信息流方法在钓鱼网站的原始凭证之前和之后插入随机伪造凭证。虽然研究人员已经开发出了可行的策略，目的是阻止网络钓鱼网站，但攻击者仍然能够绕过当前的工具，并能够到达受害者（Zeydan和Selamat，2014）。网络钓鱼是一个持续而复杂的问题，它不断改变其攻击受害者的方式（Mohammad等人，2 0 1 4 年b）。http://dx.doi.org/10.1016/j.jksuci.2017.07.0051319-1578/©2017作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.com100G. Sonowal，K.S.Kuppusamy/ Journal of King Saud UniversityFig. 1. APWG网络钓鱼报告2016年12月21日。单一的方法是缺乏识别所有类别的网络钓鱼企图，因为网络钓鱼是完全利用不同的攻击手段，他们的攻击过程也是独特的（Alnajim和Munro，2009）。我们工作的灵感驱动是使用多种方法的组合来识别钓鱼网站反网络钓鱼工具的可访问性是视力障碍者与这些工具互动的重大挑战之一。该模型本文的主要目的是开发一个反钓鱼模型的视障人士和建议的模型利用的URL和内容的网站页面中的功能。本文件的主要目标如下：开发一个名为PhiDMA的模型，该模型试图用五种不同的过滤器来处理网络钓鱼问题将网页的可访问性得分作为网络钓鱼指标。所提出的模型试图通过建立一个可访问性评分过滤器。开发一个基于浏览器插件的PhiDMA模型原型，在界面中具有可访问性功能对所提出的模型与现有的网络钓鱼检测方法在不同指标上本文的其余部分组织如下：相关工作在第2节中提供。第三部分阐述了模型的工作流程.模型的可访问浏览器插件实现将在第4节中探讨。第5节分析了模型的各种指标。第6节讨论了在模型实验期间观察到的几个问题。最后，第7节提供了结论和未来的工作方向。2. 相关工作近年来，一些研究已经解决了网络钓鱼的问题。这些研究中的每一项都以独特的方法处理网络钓鱼问题，表1提供了这些工作的简要总结。随后，每种技术的关键因素将在本节的其余部分作者（Jain和Gupta，2016）提出了一种使用合法网站的自动更新白名单的模型，并在白名单中的URL不可用它们基于两个组件来验证网页的合法性：1）域和IP地址匹配模块，2）从源代码中检查超链接的特征实验结果表明，该模型的真阳性率为86.02%，假阴性率为1.48%另一项研究（He et al.， 2011年）提出了一个启发式模型，从现有的合法和钓鱼网页中选择12个特征。在这12个特征中，9个特征来自异常方法，2个特征来自偷窃方法，1个特征来自CANTINA方法。随后，他们采用支持向量机（SVM）对具有这12个特征的钓鱼和合法网站进行分类。实验结果表明，该方法与现有方法相比具有互补性，可以将不同的方法结合起来，提高检测器的性能。作者（Pan和Ding，2006）研究了网页中的异常，特别是网站的身份，结构特征和HTTP事务之间的差异。该方法由两部分组成：1）标识提取器：标识是组织全名的缩写最后，作者利用支持向量机对279个钓鱼网页和100个官方网页进行了实验，得到了约13.00%的误报率。另一项研究（Islam和Abawajy，2013年）提出了一种基于消息内容和消息报头权重的钓鱼电子邮件过滤多层分类模型，并根据优先级排名选择特征。实验结果表明，该算法在降低复杂度的同时，大大减少了误报问题URL的特性，如传输层安全性、URL中顶级域的不可用性和URL路径部分中的关键字，已在另一项研究中得到利用（Jeeva和Rajsingh，2016）。除此之外，URL中的几个斜线，URL主机部分的点和URL的长度也是钓鱼URL的关键因素然后，他们使用关联规则挖掘生成规则。实验结果表明，Apriori算法检测到了93.00%的钓鱼网址。还尝试了一种基于半监督学习方法的钓鱼网页检测方法，该方法被称为传导支持向量机（TSVM）（Li et al.，2013年）。他们从网页图像和页面上的敏感信息中提取特征，并使用TSVM对钓鱼网站进行分类实验结果表明，该模型具有较好的预测性能，与支持向量机相比，预测精度提高了8.3%。使用术语频率生成的页面签名已被另一项研究采用（Roopak和Thomas，2014）。这个签名被输入到搜索引擎以识别真正的页面，●●●●G. Sonowal，K.S.Kuppusamy/ Journal of King Saud University101表1相关工作的简要说明。作者和年份简介Jain和Gupta（2016）它使用来自源代码.He等人（2011）它从Anomaly方法、Pilfer方法和Cantina方法中提取了九个特征。Pan and Ding（2006）它通过检查HTML内容来检测网页标识中的异常，并通过W3C DOM对象和HTTP事务进行分类Islam和Abawajy（2013）使用消息内容和消息头检测钓鱼网站，并根据优先级排名Jeeva和Rajsingh（2016）从URL中提取特征，并使用关联规则挖掘（即Apriori算法）生成规则Li等人（2013）从网页图片和页面中的敏感信息中提取特征，并使用TSVM对钓鱼网站进行分类Roopak和Thomas（2014）它通过匹配HTML标签和文本内容的余弦相似性来识别合法网站。Abraham和Raj（2014）它通过使用最长公共子序列（LCS）和黑名单中URL的编辑距离来检测钓鱼网站其TPR为86.02%，FNR为1.48%它通过结合不同的方法来提高检测器的性能。假阳性率约为13.00%它以较低的复杂度大大减少了误报问题。发现Apriori算法检测到93.00%的钓鱼URL。与支持向量机相比，该方法的准确率提高了8.3%与其他现有机制相比，它实现了低FPR和高检测率LCS的准确率为99.1%，编辑距离为99.5%。Garera等人（2007）它提取URL特征并使用逻辑回归过滤器。准确率达到97.3%。Le等（2011）它提供了一个名为PhishDef的模型，该模型提取了URL 的词汇特征，该方法实现了97%的准确率。Chang等人（2013）它提取网页的徽标，并使用谷歌图片搜索引擎。Tan等人（2017）它从网页中提取身份关键字，并在搜索引擎中搜索这些关键字以定位合法域名。Basnet和Doleck（2015）从基于词汇，基于关键字的搜索中基于引擎和基于信誉的功能。它有效地检测到钓鱼网站，并试图提供合法的链接。1000个数据的TP和TN的去除率分别达到99.20%和92.20假阳性率为0.2%，假阴性率为0.5%03The Dog（2016）它使用网页的听觉和视觉相似性来维护白名单。视觉障碍Lee等人（2015）它从谷歌的建议、页面排名、可疑URL模式和URL属性值中提取了特征，以及两个新颖的特征Dhinakaran等人（2010）它采用了多层次的方法;即，垃圾邮件技术，IP地址、源和内容过滤器、教育和培训用户。它以98.23%的准确率检测到网络钓鱼。它减少了网络中80%以上的误报和大约95%的网络钓鱼攻击使用标签比较和余弦相似性来比较所得到的页面。通过该方法得到的结果表明，在提出的机制是相对较低的误报率，因为它利用了谷歌网页排名信息和检测率以及与其他现有的机制相比，高。字符串匹配的方法也被用于检测钓鱼网页。在一项研究中（Abraham和Raj，2014）使用了两种字符串匹配算法，即最长公共子序列（LCS）和编辑距离来检测网络钓鱼攻击。将URL划分为不同数量的标记，并根据每个标记的出现次数计算分数在黑名单中。实验结果表明，LCS和编辑距离的准确率分别为99.1%和99.5%。在一项研究中使用了几个URL特征来检测网络钓鱼，如具有IP地址的主机、具有另一个域的主机、大主机名和未知或拼写错误的域（Garera等人，2007年）。他们使用逻辑回归滤波器进行实验，准确率达到97.3%。已经开发了一种名为PhishDef的模型来使用URL名称检测钓鱼网站（Le等人， 2011年）。分析了钓鱼网址识别的三个步骤：1）选择网址的词汇特征;2）比较自动和手动选择的词汇特征与附加特征的准确性; 3）在比较几种分类算法的基础上，提出了一种在线方法（AROW）。实验结果表明，所提取的词汇特征能够满足实际应用的需要，所提方法的准确率达到97%。另一项研究尝试了通过获取网页的特定区域的屏幕截图来进行网络钓鱼检测，该特定区域包括网页的徽标，然后他们将徽标馈送到Google图像搜索引擎以识别网页（Chang等人，2013年）。通过对真实身份的检索，区分了钓鱼网站和合法网站。实验显示了有希望的结果，他们的发现表明，它可以有效地通过设法确定网站的真实身份来检测网络钓鱼网站作者（Alkhoeland Batarfi，2011）提出了一个模型，他们根据W3C标准从网站中提取网络钓鱼特征。在比较了钓鱼网站和合法网站的页面后，他们得出结论，钓鱼网站的安全性低于合法网站。研究人员还开发了一种基于加权URL令牌系统的反网络钓鱼技术（Tan等人， 2017年）。他们从查询网页中提取身份关键字，并将这些身份关键字作为页面的签名，输入搜索引擎以确定目标域名。他们使用标准数据集进行了实验，其中达到了99.20%的真阳性和92.20%的真阴性。实验结果表明，该系统可以有效地检测钓鱼网页，而不使用传统的语言依赖的关键字提取算法。另一项研究（Basnet和Doleck，2015）收集了基于词汇，基于关键字，基于搜索引擎和基于声誉总共有138个特征被用来识别网络钓鱼网址。他们完成了对7种不同机器学习分类器的不同平均值的探索，发现随机森林分类器评估占主导地位，朴素贝叶斯评估最明显的执行情况。假阳性率为0.2%，假阴性率为0.5%。研究人员开发了另一个名为（Sonowal和Kuppusamy，2016）MAS- PHID的模型，该模型帮助屏幕阅读器用户利用听觉和视觉相似度来区分钓鱼网站。该模型维护知名银行的白名单，并验证白名单中的当前URL。如果当前URL不在白名单中，则截取当前网站的屏幕截图并提取当前URL的顶级域并馈送到搜索引擎。该模型从搜索引擎结果中选择第一个结果，并截取屏幕截图，然后使用均方根技术比较两个页面。如果102G. Sonowal，K.S.Kuppusamy/ Journal of King Saud University均方根误差法的得分小于阈值，则警告用户访问该网站。实验结果显示，听觉与视觉的结合是视障者侦测网路钓鱼网站的有效方法。然而，这一模式仅适用于视力障碍者。已经提出了使用统一资源定位符（URL）特征的基于启发式的网络钓鱼检测技术（Lee等人，2015年）。他们根据Google的建议、页面排名、可疑URL模式和URL属性值收集特征，并将两个新特征用于识别钓鱼URL。通过几种机器学习算法生成分类器，确定最佳分类器方法为随机森林方法。实验结果表明，该方法检测出钓鱼网站的准确率约为98.23%。虽然，作者提出了一个有用的技术，但他们的功能太多了另一项研究（Dhinakaran等人，2010）提出了一种使用多层方法来检测网络钓鱼攻击的方法，该方法是垃圾邮件技术的组合微调，阻止攻击者的IP地址，使用源和内容过滤器来标记网络钓鱼尝试，教育和培训用户，向服务提供商和目标机构报告。该方法可以处理其网络中约95%的钓鱼攻击所提出的PhiDMA模型采用了多滤波器方法。该模型采用滤波器级联的方式，利用不同维度的特征进行滤波。PhiDMA模型提出的可访问性特征是一种利用网页的可访问性得分来发现相似性的新尝试。3. PhiDMA模型3.1. 模型架构图2显示了该模型的整体结构，该模型采用多层方法，每个层由标签分配为A，B，C，D和E，并且所提出的模型具有通过和失败的两个布尔结果。传递的URL显示该URL未被识别为网络钓鱼。模型中的每一层都像管道一样工作，其中一层通过，然后下一层获得验证的机会。我们将在本节的其余部分解释如何完成模型的管道。1. 层A：这一层处理白名单过滤器，它处理当前URL与白名单URL的精确匹配最初，模型从用户那里接收URL作为输入，并在白名单中验证URL。如果当前URL在白名单中可用，则模型允许用户访问该站点，否则将URL转发到下一层进行进一步调查。2. B层：在这一层中，模型验证URL第3.3条。如果URL包含钓鱼特征，则模型停止进一步调查并警告用户关于钓鱼站点，否则转发到下一层。3. C层：在这一层中，模型使用搜索引擎结果列表验证URL为了用搜索引擎检测钓鱼URL，该模型从当前页面生成词汇签名，并在搜索引擎上馈送，这将在第3.4节中解释。如果搜索引擎未能返回任何链接，则模型停止验证并警告用户注意钓鱼网站。如果搜索引擎返回链接，则模型将链接转发到下一层进行进一步探测。4. 层D：在这一层中，模型使用两种字符串匹配算法测量当前URL与搜索引擎结果URL的相似性百分比：最长公共子序列和编辑距离，如第3.5节所述。如果任何URL的可比性的结果百分比高于阈值，则模型将URL转发到下一级别以进行进一步测试。否则，模型将停止并通知用户有关钓鱼网站的信息。5. E层：这是模型的最后一层这一层处理可访问性评分相似性，如第3.6节所述。使用可访问性分析工具评估当前页面和字符串匹配返回页面的可访问性得分。基于两个分数之间的相似性，检测潜在的钓鱼页面，并识别由钓鱼者冒充的合法页面如果一个URL通过了所有的过滤器，那么模型会用一个从String匹配过滤器返回的识别出的合法URL来升级白名单，以备将来使用。下一次，对于相同的该技术通过另一个滤波器减少了冗余分析，如第6节所述。3.2. 白名单过滤器白名单方法用于通过将当前URL与预定义的URL列表进行比较来区分钓鱼网站。在白名单中，只包含合法的URL。因此，当前URL在白名单中，则允许用户访问该网站。白名单的主要特征是名单的数量。研究人员利用白名单提供了不同的策略来区分钓鱼网站（Kang和Lee，2007年 ;Wang 等人， 2008; Afroz 和 Greenstadt ， 2011; Han 等人，2012;Cao等人，2008年）。虽然白名单在识别钓鱼网站方面做出了相当大的承诺，但这种方法的主要缺点是保持白名单更新。为了克服这个问题，所提出的模型更新URL，被模型有效地确认为合法。此外，该模型是为视力障碍者开发的，他们利用几个网站进行与金钱有关的交易等。因此，白名单是直接和适当的过滤器。模型创建自己的白名单，初始为空，图二. PhiDMA模型架构。G. Sonowal，K.S.Kuppusamy/ Journal of King Saud University103ðÞðÞðÞ随后，模型通过验证所有过滤器将URL升级到白名单。所有的URL都首先使用这个白名单过滤器进行过滤。3.3. URL功能过滤器网络钓鱼者利用不同的策略来攻击受害者。用户大多通过网址来识别网站，如果钓鱼网址看起来和感觉像真正的网址，那么用户毫不费力地成为钓鱼的猎物。许多研究人员提出了几种方法，可疑URL：大多数URL由URL的主机名识别。如果URL的主机名包含“@”符号，则服务器将丢弃左侧，仅将右侧视为用于检索页面的真实URL。大多数合法的URL在URL中不使用Dash（-）网络钓鱼者转而在域名中添加后缀或前缀（以“-”分隔如果主机名包含可疑符号，则模型分配权重1，否则分配0。基于上述特点，提出了一种算法，如算法1所示。通过分析URL来检测网络钓鱼网站（Fette等人，二○ ○七年;Mohammad 等人， 2015 a; Zhang 等人， 2007 a; Xiang 等人，2011;Abdelhamid 等人，2014; Mohammad等人， 2014 a; Chen等人，2015; Mohammad et al.，2012年）。从他们的调查中，提出的模型选择了五个特征，这将解释本节的其余部分。URL特征过滤器的整体架构如图所示。3 .第三章。URL字符串由三个部分组成：网络协议、主机名和文件名。对于示例http://www.example.com/in-dex.html，网络协议（http）、主机名（www.exam-ple.com）和文件名（index.html）。基于IP的URL：通常，合法的URL由域名确定，DNS服务器为互联网的每个部门提供唯一的域名。然而，网络钓鱼者利用IP地址而不是域名来攻击受害者。大多数受害者没有注意到页面的URL，他们深刻地观察到页面的内容。此外，在基于IP的URL方法中，钓鱼者不需要DNS服务器登记。如果URL包含IP地址，则模型分配权重1，否则分配0。域名的年龄：域名的年龄也是识别钓鱼网站的重要组成部分，因为钓鱼网站的寿命只有几天;大约2.25天（Aburrous等人，2010年）。以这种方式，他们完成了他们的差事，并从服务器上驱逐了他们的连接。该模型使用IPWhois搜索来实现此功能。该模型首先从域名中提取IP地址，然后测量年龄。如果域年龄小于阈值TDA，即一年，则模型分配权重1，否则分配0。URL长度：URL长度是识别钓鱼网站的一个重要特征。许多钓鱼者使用长URL来隐藏地址栏中的可疑部分。在地址栏的可见部分，钓鱼者添加合法内容，使用户觉得他们正在处理真正的网站。如果域长度大于阈值TDL，即53个字符，则模型分配权重1，否则分配0。Number of Dots：点的数量（“.”）在主机名的钓鱼网址是超过合法的网址。网络钓鱼者利用这一优势促使用户相信他们属于合法网站。假设我们有一个链接 http://www.pondiuni.edu.in/ 。顶级域（Domain）为该域名的实际名称是“pondiuni”。在那里-因此，我们检查合法URL的主机名有三个点。如果主机名中的点数高于阈值TND，即三个点，则模型分配权重1，否则分配0。3.4. 词法签名过滤器词汇签名层有三个阶段：1）文本挖掘，2）构建签名，3）输入搜索引擎。文本挖掘从网页中提取文本，用于编写词汇表。图三. URL功能过滤器体系结构。104G. Sonowal，K.S.Kuppusamy/ Journal of King Saud UniversityðÞð Þ 25ðÞ¼ ð Þ ¼ ðÞM.可将Δ θ计算为1-ω100¼40ðÞ← ðÞðÞ;;签名.执行以下步骤以从网页搜索签名：1. 把垃圾扔掉。2. 单词的标记化是使用whites-pace作为分隔符来分隔单词的。3. 删除停用词。4. 使用TF找出最重要的单词。1. 如果i = 0或j = 0，则LCS=Xi;Yj=2. LCS<$Xi;Yj<$$>LCS<$Xi-1;Yj-i<$1 ifxi<$yj3. LCSXi;YjMaxLCSXi;Yj-i;LCSXi-1;Yjifxi所提出的模型使用归一化的最长公共子序列距离得分，并且字符串之间的归一化的最长公共子序列距离得分如等式（1）所示计算（三）、TF代表术语频率。TF计算术语在文档中出现的频率（Calero，2008），TF的公式为评分L¼mω1003显示Eq. （一）.其中l←LCS=string1;string 2=和m←max=string1;string 2=，TF t dft;d是两个字符串之间的最大长度例如，consid-1（c）2d开奖结果其中，f t;dt是文档d中出现的单词，n d是文档中的单词数。Phelps等（Phelps和Wilensky，2000）提出了一种使用TF-IDF生成词汇签名的方法他们建议，至少五个术语足以确定一个网络资源实际上是独一无二的。假设URL是http://www.phishingsite.com，签名是t1;t2;t3;t4;t5，则页面的词汇签名如等式10所示。（二）、http：==www：phishingsite：com<$t1t2t3t4t52一旦站点页面的词汇签名完成，模型将签名馈送到搜索引擎中并选择顶部查询，因为搜索引擎页面排名依赖于返回顶部结果处的合法网页。词法签名过滤器的体系结构是示于图四、读取两个字符串这些字符串的max_ABCED ; ACEF_A的最大长度3.5.2. Damerau-Levenshtein编辑距离像LCS一样，Damerau-Levenshtein编辑距离（DLE）也测量两个或多个字符串之间的编辑距离。Damerau- Levenshtein（Damerau，1964; Levenshtein，1966）基于四种基本操作进行工作：删除、插入、替换和转座。考虑两个字符串x和y，Damerau-Levenshtein函数定义为Tx;y<$i;j<$i，其中i和j是x和y的前缀。Tx;y∈i;j∈定义为：1. 删除：Txyi;jTxyi-1;j 13.5. 串匹配过滤器字符串匹配算法是在两个字符串进行不同操作的前提下，衡量两个字符串之间的相似性。该模型将URL作为一个字符串，并采用两种著名的算法来评估两个字符串之间的相似性。许多分析师采用字符串匹配算法来检测钓鱼URL （ Wardman等人， 2009; Abraham and Raj ，2014;Mishra and Gupta，2014）。所提出的模型选择了两种字符串匹配算法，这将在本节的其余部分进行解释：3.5.1. 最长公共子序列最长公共子序列（LCS）（Paterson和Dancik，1994; Bergroth等人，2000）测量两个或多个字符串的相似性。假设，两个系列Xx1;x2.X m和Yy1;y2.. . y n.例如，S是字符串（ABCD）的序列，序列（AB）是S的前缀之一前缀SAB表示为序列的名称（S），后跟一个下标（AB），表示前缀包含的数字字符X的前缀是X1;2;. . m和Y是Y1;2;. . n则LC S<$Xi;Yj<$代表Xi和Y j的最长公共子序列的集合。2. 插入：Tx;yi;jTx;yi;j-113. 取代：Tx;y=i;j =1;Tx;y=i- 1;j- 1，其中i;j> 1，且xiyj-1和xi-1yj4. 转座：Tx;yi;jTx;yi-2;j-2转座 1字符串之间的标准化Damerau-Levenshtein EditDistance距离的计算方法如等式2所示（四）、分数¼。1-lω1004其中，l←DLE=string1;string 2，两个字符串之间的最大长度为m maxstring1;string 2。假设有两个字符串“ABCED”和“ACEF”; DLE ABCED ;ACEF是3. 这些字符串的最大长度max ABCED;ACEF为5，则这些字符串35字符串匹配过滤器的流程如图5所示。字符串匹配算法计算当前URL与从搜索引擎返回的URL的相似性得分。如果相似性分数高于阈值，则见图4。词法签名层架构。图五. 字符串匹配过滤器体系结构。G. Sonowal，K.S.Kuppusamy/ Journal of King Saud University105AccSimScore评分为u1;u2i¼;;ð ðÞÞ搜索引擎将被转移到下一个过滤器;否则，模型将其视为钓鱼URL。3.6. 可访问性评分过滤器网站页面的可访问性在日常生活中扮演着重要的角色。在推动任何合法网站之前，它通过许多测量来验证，就可访问性而言，最终目标是每个人都可以熟练地使用它。Web内容无障碍指南（WCAG）由万维网联盟（W3C）的Web无障碍倡议（WAI）发布。到目前为止，有两个版本的指南：第一个指南WCAG1.0（Chisholm等人，2001; Initiative等人，（ 1999）它从字符串匹配过滤器返回。随后，模型将分数与阈值进行比较。如果分数高于阈值（7.5），则模型通知用户关于钓鱼站点，否则，模型建议用户到被钓鱼者瞄准的合法站点当分析网页的可访问性时，可访问性工具返回三个值（已知，可能和潜在）。通过计算每个组件的标准偏差并取该评分的平均值，进行可访问性评分比较，如方程式所示。（五）、PN10： 5ωu1i-l2u2i-l2N1995年发布的第二指南WCGA 2.0（Consortium等，2008年，他被释放。可及性包含四个原则：可感知性、可操作性、可理解性和健壮性。可感知：用户可以感知呈现的内容。可操作性：用户可以对界面进行操作。可理解：用户可以理解信息以及用户界面的操作。● 强大：随着技术的进步，用户可以访问内容许多工具被用来分析网页的可访问性。Achecker（Achecker Accessedon（2016））是领先的无障碍评估工具之一（Baowaly和Bhuiyan，2012; Al-Khalifa等人，2011; Ismail和Kuppusamy，2016; Gay和Li，2010）。Achecker将网页的障碍分为三类：已知问题，可能的问题和潜在的问题。许多网络钓鱼网站都复制了真正网站的副本，并且这两个网站的可访问性得分是相同的，因为网络钓鱼者复制了合法网站的当前版本来浮动他们的网络钓鱼页面。可访问性过滤器的工作机制是基于这样一个事实，即两个相同的页面将具有相似的可访问性得分。如果前面的四个过滤器都通过了URL，那么只有它到达了可访问性过滤器。在可访问性过滤器中，模型评估当前页面和页面的可访问性得分由于模型比较两个页面，因此两个集合由u1和u2表示。由于无障碍评分中有三个组成部分，因此N值为3。在计算可访问性相似性得分AccSimScore u1;u2之后，使用Eq. （5）、模型将得分与阈值进行比较。如果分数高于阈值，则模型得出当前页面是钓鱼页面的结论，因为钓鱼者在金融站点的上下文中复制合法站点的当前版本。如果分数小于阈值，则它有两个选项，可能是钓鱼网站或合法网站，然而，该模型向用户建议从字符串匹配过滤器返回的合法网站，因为搜索引擎在大多数情况下返回合法网站。可访问性评分过滤器的架构如图所示。六、4. PhiDMA接口4.1. 无障碍接口架构在本文中，我们的目标是开发一个可访问的模型，因为理想的安排意味着检测，并应提供同等优先级的互动。在本节中，我们解释了无障碍反网络钓鱼工具所需的基本措施，以便视障人士使用该工具时，图六、可访问性得分过滤器架构。图7.第一次会议。视觉障碍人士的用户界面架构●●●ð5Þ106G. Sonowal，K.S.Kuppusamy/ Journal of King Saud University见图8。 PhiDMA图标见图9。合法站点见图10。钓鱼网站障碍物图7示出了可访问的反网络钓鱼工具的总体架构。我们根据各种标准为视障人士设计了界面。最重要的标准是：有视觉障碍的人可能更喜欢来自系统的较少交互。该模型只提供了一个与用户的交互，并且为了与模型交互，提供了快捷键板。在按下键盘快捷键时，模型接收输入并通过所有过滤器进行验证。最后，通过音频显示结果。该模型采用基于音频的指示器，正如我们在早期研究中对反钓鱼浏览器插件进行的分析一样，我们观察到大多数反钓鱼插件使用基于颜色的线索（主要是绿色表示合法，红色表示钓鱼）提供钓鱼警报。这种基于颜色的提示对于完全依赖于来自系统的听觉反馈的用户来说是完全不可访问的。因此，我们认为明确地提供听觉线索是合适的，这样用户体验会更好。4.2. 无障碍接口原型该模型是作为Chrome浏览器的扩展开发的。方式：无论是用鼠标点击它或使用键盘快捷键（Ctrl+Shift+U）。网络钓鱼检测代码用python脚本编写，浏览器扩展使用JavaScript1当用户访问图标时，然后模型接收当前URL作为输入，并将URL发送到Python代码，以检查在后台运行的是钓鱼还是合法的，最后，结果将显示为如图1和2所示。10和9。图图9表示SBI（印度国家银行）的合法网站，图10表示钓鱼网站。5. 性能分析5.1. 数据收集为了实现，我们收集了来自Phishload（Phishload，2016）的合法数据和来自phishtank（PhishTank，2016）的网络钓鱼数据。模型设计完成后，我们每天手动收集11月9日至11 月30日期间phishtank的最新钓鱼URL2016. 表2显示，我们收集了40.13%的钓鱼和59.87%的合法，这些数据有合法和钓鱼的平衡当用户安装扩展时，工具栏上会出现一个图标示于图8 .第八条。为了访问扩展，该模型提供了两个第1https://www.javascript.com/G. Sonowal，K.S.Kuppusamy/ Journal of King Saud University107¼¼¼-1/4¼ð8Þ表2TPR！网络钓鱼TPð6 Þ数据收集。数据钓鱼合法总数NphishTPFFN1662 667 995真阴性率（TNR）：它是被正确识别的合法URL的比率，TNR的公式如等式所示。（5）、5.2. 性能度量TNR！火腿TNð7ÞN火腿公司简介通过特定的最终目标来查看模型的性能，它利用了七个众所周知的指标（Zhang et al.，2014; He等人，2011; Wenyin等人，2010年）。假设，N火腿是误报率（FPR）：这是被归类为网络钓鱼的合法URL的比率。FPR的方程如Eq. （5）、合法URL的数量，Nphish是钓鱼URL的数量，用于计算度量的参数如下：FPR ¼ 嗯哼！phishFPNhamFPTN1. nphis h！phish¼TP：被正确分类为网络钓鱼的网络钓鱼URL的数量。误报率（FNR）：被归类为合法的网络钓鱼URL的数量FNR的公式如（9）所示。2. 嗯哼！ham¼TN：正确分类的合法URL的数量FNR¼nphis h！火腿FNð9Þ是合法的3. 嗯哼！phish¼FP：被分类的合法URL数量NphishFNFUNTP就像钓鱼4. nphis h！ham<$FN：被归类为合法的网络钓鱼URL的数量。● 准确度：准确度计算如方程式所示（5）、准确度TPTPTNFPFNð10 Þ这四个指标的计算方法如下：● 真阳性率（TPR）：这是钓鱼网址的比例，精密度：精密度定义为真阳性数（TP）除以真阳性数加上假阳性（FP）的值在等式中示出（5）、正确识别，TPR的方程如Eq.（5）、精密TP公司简介ð11 Þ表3确定URL功能层的阈值。回想一下：召回率被定义为真阳性（TP）的数量除以真阳性（TP）的数量加上假阴性（FN）的数量，在等式中给出。（5）、召回TPTPFFNð12 ÞF1-测量：f1-测量定义为精确度和召回率的调和平均值，在等式中给出（十三）F1测量2精确度×召回率查全率见图11。确定LCS的阈值。ð13 Þ●●●●●●度量阈值123真阳性率（TPR）638例（95.65%）456人（68.37%）205人（30.73%）真阴性率（TNR）869人（87.34%）993（99.79%）994（99.89%）假阳性率（FPR）126人（12.66%）2人（0.21%）1人（0.01%）108G. Sonowal，K.S.Kuppusamy/ Journal of King Saud University5.3. 阈值确定由于模型使用算法2中所示的四个阈值，并且为了确定正确的阈值，模型执行第5.2节中所解释的四个度量。在本节中，我们将简要讨论所有这些阈值的结果。5.3.1. 确定URL要素过滤器的阈值URL特征层的阈值基于真阳性、真阴性、假阳性和假阴性来测量根据URL，模型在使用第3.3节中解释的算法1计算分数后获得最终分数，然后将最终分数与不同的阈值进行比较，以评估正确的阈值。首先，阈值在获得最高假阴性的位置处从1开始，然后逐渐增加到阈值3，如图所示在表3中，因为它已经可视化在这一点上，真正的阳性率逐渐下降。表3表明阈值“2”保持真阳性率和真阴性率之间的平衡。此外，该模型深刻地集中于真阴性率，因为真阳性率将在接下来的过滤器中保持。虽然阈值3的真阴性率较好，但其真阳性率较低，不宜采用。因此，阈值二是组织进一步的实验。5.3.2. 确定字符串匹配过滤器的阈值为了评估

下载后可阅读完整内容，剩余1页未读，立即下载