基于DNS流量挖掘的僵尸网络检测机器学习系统

140 浏览量更新于2024-01-18 收藏 1.95MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报基于DNS流量挖掘Ahmed M.Manasraha，b， Chair Khdourc，Raeda FreehatbaComp. 阿联酋沙迦高等技术学院信息科学（CIS）部b约旦伊尔比德耶尔穆克大学计算机科学系c约旦Al-Balqa应用大学，阿卜杜拉·本·加齐王子信息和通信技术学院，计算机信息系统系。阿提奇莱因福奥文章历史记录：收到2021年2022年2月1日修订2022年3月1日接受2022年3月14日网上发售关键词：信誉系统DGA僵尸网络检测机器学习DNS词典特征A B S T R A C T僵尸网络是由受感染的工作站组成的网络，由BotMaster通过命令和控制（C C）服务器远程管理。僵尸网络对网络安全构成严重威胁，因为它们是各种恶意行为的来源，使用域生成算法（DGA）生成大量域名是用于隐藏C C服务器的身份的最流行的方法之一因此，现有的防御方法检测和击败这种基础设施的机会有限。在这项研究中，系统建议，采用机器学习技术来分类域名到恶意或合法的模仿域名。建议的方法是基于评估的语言质量的域名请求从不同的主机。从领域措辞中收集了15个相关的语言特征，以确定随机化程度，稀有性，打字难度和其他相关因素。建议的系统进行了测试，从各种来源和七个distinct DGA僵尸网络家族收集的DNS请求。结果表明，建议的技术可以检测DGA域与99.1%和0.6%的假阳性率。©2022作者（S）。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍僵尸网络是被黑客攻击的机器的网络（即，机器人）被远程链接和控制。这些机器可能是计算机、移动设备或在地理上分布并充斥有害代码的公共系统（即，Choi andLee（2012）.这种恶意软件迫使受感染的设备响应BotMaster通过命令和控制服务器（C C服务器）发送的命令（Sharifnya和Abadi 2013）。被称为僵尸的机器人主机或受感染的计算机被配置为执行非法任务（即，有害行为），例如窃取信息或充当攻击其他设备或网络的发射台。僵尸网络及其控制器可能由来自许多网络和地理位置的系统组成。因此，僵尸网络*通讯作者：Comp.信息科学（独联体）司，高等技术学院，沙迦，阿联酋。电子邮件地址：ahmad. yu.edu.joamanasrah@hct.ac.ae，www.example.com（A.M. Manasrah），t. bau.edu.jo（T.Khdour）。沙特国王大学负责同行审查被视为一种跨国威胁，需要全球协调努力来识别、消除和降级。如此大规模的机器人军队的影响可以被视为网络启示录，无论攻击是金融还是政治驱动的（Silva等人，2013年）的报告。僵尸网络C C服务器是僵尸网络最关键的组成部分，这些黑客不知疲倦地隐藏C C服务器的身份和位置，以便僵尸主机和他们的C C服务器之间的通信无法区分。在这种情况下，域名系统（DNS）在僵尸网络架构中至关重要，因为它用于隐藏&域名后面的C C服务器的身份，允许僵尸主机自由且快速地移动服务器的位置（Bilge等人， 2011年）。因此，监控DNS系统的流量是至关重要的，这可以帮助检测流氓域名（Li等人，2017年），特别是考虑到攻击者不断设计新的战术来逃避检测，例如动态改变C C服务器的IP地址&（Manasrah等人，2009，Vishwakarma 2017，Wang等人，2017年）。域生成算法是隐藏C-C服务器身份的常用方法.据报道，DGA算法被诸如Kraken、Srizbi、Mjuyh的僵尸网络使用（Yadav等人，Conficker-A/B，Conficker-C（Porras 2009），Murofet（Shevchenko）https://doi.org/10.1016/j.jksuci.2022.03.0011319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comA.M. Manasrah，T. Khdour和R. 弗里哈特沙特国王大学学报2046和Torpig（Stone-Gross等人，2009年）。这些DGA方法生成大量的域名，其中只有少数是注册的和活跃的（Zhou等人，2013年）的报告。Bot主机经常定期执行域生成算法（DGA）以生成潜在的C C域的列表，这些C C域根据随机种子（诸如流行搜索词、当前日期或时间）而在僵尸网络之间变化。例如，Kraken会取一个任意的短语，并将其与随机选择的后缀组合在一起，例如（Yadav等人，2012年）。Torpig使用当前的星期和年份，Conficker使用当前的协调世界时（UTC）（Stone-Gross等人， 2009年）。机器人被编程为与他们的C C服务器通信。因此，机器人发送DNS查询以尝试解析域名（即，DGA 产生的域），直到找到一个活域（Vishwakarma 2017）。基于DGA的僵尸网络具有很高的存活率，因为如果IP地址被禁止或被认为被监视，每个僵尸程序可以快速访问另一个实时C C服务器的IP地址。因此，Botmaster可以动态地移动他的CC，而不会影响他的bot主机。这种行为是最有害和最难发现的。因此，标准防御技术检测和击败此类基础设施的机会有限。即使基于DGA的僵尸网络由于使用多个域名而具有很高的生存概率，但它们仍然会留下一些痕迹，如果彻底检查，可能会提供有关其存在的信息。例如，感染了相同的基于DGA的机器人软件的恶意软件将生成一个连接的域名集合。因此，他们几乎可能会查询同一组域。然而，这些DNS查询的大部分将失败（即，NXDOMAIN消息），因为只有少数域链接到活动的C C（即，注册域名），其余的没有真正的IP地址。在本文中，我们描述了一种新的基于DGA的僵尸网络检测方法，可用于本地递归DNS（RDNS）服务器之前，从网络主机监控DNS查询数据包重要的是，所提出的方法只监视DNS查询，这使得它比监视DNS查询和响应流量的检测技术更有效。建议的方法完全依赖于DNS查询数据包来检测僵尸网络。所建议的方法是由以下事实激发的：相同的基于DGA的僵尸网络中的僵尸程序（1）采用相同的域生成算法，（2）查询相同的域列表，以及（3）这些域中的大多数不太可能被非恶意用户搜索。检测过程包括挖掘所观察到的主机这项工作的主要贡献可以说明如下：1. 在研究DNS请求词法特征的基础上，提出了一种基于动态遗传算法的僵尸网络检测方法。机器人主机和普通用户之间的DNS查询差异用于识别机器人主机。观察到的主机的DNS查询可用于检测基于DGA的bot主机。因此，该系统可扩展到大型网络，因为DNS查询流量的水平与整体网络流量相比被认为是合理的。2. 建议的方法包括在每个DNS查询中与域名的词汇特征相关的附加特征集因此，我们将检查创建的域名的词汇方面，以确定可以提高检测准确性的关键特征，并有助于区分机器生成的域名和人工域名。3. 所提出的计划这项研究证实了推荐的词汇特征识别基于DGA的僵尸网络，并可以帮助开发检测基于DGA的僵尸网络的替代策略。本文其余部分的结构如下。第2节审查了该领域的相关工作第3讨论了所提出的将DNS流量分类为真实或非法的方法的特性第4包含实验结果以及评论。第五部分提出了本文2. 相关工作僵尸网络被认为是最严重的互联网风险之一，因为它们继续适应并造成多种形式的破坏。僵尸网络由于其背后隐藏的经济学而迅速发展（Bisio等人，2017年）。研究人员已经提出了各种方法和策略来对抗僵尸网络的威胁（Alauthman等人，2020，Alieyan等人，2017年，Singh等人，2019年）。然而，这些方法很容易被Botmaster避免，激励他们发明新的策略来应对。由于C C服务器是任何僵尸网络的最重要的组成部分，因此僵尸主机会进行大量和持续的尝试来隐藏其身份和CC服务器的位置。Botmasters的因此，BotMasters越来越多地将域名合并到其基础设施中，以便通过使用诸如Fast-Flux和DGA的各种技术来掩盖其恶意服务器（Wang等人，2017年）。攻击者利用快速流量服务网络来开发和管理僵尸网络。僵尸网络开发者利用这种策略来加强其僵尸网络的持久性和匿名性（Futai等人，2013年）的报告。所用的一种方法避免僵尸网络暴露的方法是域迁移，它允许动态更改C C服务器IP。因此，域生成算法（DGA）被用于生成大量的域名以供机器人解析并映射到C C服务器。Conficker、Kraken、Cycbot和Murofet都是域迁移僵尸网络的示例（Bilge等人，2011年）。通过使用初始种子执行DGA算法，每个机器人将构建一个庞大的域名列表，并利用该列表通过DNS查询联系预期的C C服务器，直到域名被映射到C C服务器（Zhouet al. 2013）。DGA创建了一个庞大的域名列表，其中只有一小部分被解析为C C服务器。另一方面，类似的行为可能导致大量不成功的DNS请求，这可能被解释为僵尸网络感染的迹象（Sharifnya和Abadi 2013）。因此，引入了几种系统来实现使用被动DNS分析检测恶意域名的目标。在这方面，Bilge等人（2011年）开发了暴露系统，该系统使用大规模被动DNS分析方法来检测与有害活动相关的域名。从DNS流量中检索了14个属性，以表征DNS名称的各种质量及其请求方式。所提出的方法可以自动分类未知的有害域。（Tuan等人，2022）提出了两个学习模型，LA Bin07和LAMul07，以帮助检测和分类DGA僵尸网络家族。他们的方法不仅评估域名是恶意的还是良性的，而且还评估恶意域名的僵尸网络家族。虽然两个推荐模型的准确率很高，但需要在更大的数据集以及具有重要流量的真实网络上进行更多的试验，因为LA-Mul 07模型对几种类型的僵尸网络的准确率较低。Antonakakis等人（Antonakakis等人，（2010年）证明诺托斯，这可以动态奖励A.M. Manasrah，T. Khdour和R. 弗里哈特沙特国王大学学报2047在具有140万用户的模拟网络中，对未被标记为有害但具有高准确率的域名的信誉评级引入了Pleiades，这是一种独特的检测方法，通过分析失败的DNS 查询来检测僵尸网络（即， NXDo- main ）。Pleiades检测系统可以从已知的恶意软件组中识别出六个DGAs，以及六个新的DGAs，从而实现了高准确率。然而，建议的方法需要大量的处理时间。另一方面，已经开发了一种称为Phoenix的新技术，以基于域名语言学和IP地址属性来检测DGA创建的域（Schiavoni等人， 2014年）。在Phoenix中，生成良性域的语言模型，并且使用聚类技术将从语言模型中分离的任何域名检测为自主生成的域名高达94.8%，所提出的方法区分DGA和非DGA创建的域名。另一方面，Phoenix需要来自域注册商的信息，由于请求-应答性质，这可能需要更长的时间，导致对看不见的DGA的响应较少的检测。一些僵尸网络检测技术正在转变为基于分类算法的机器学习方法，可用于识别网络数据。（Stevanovic andPedersen 2014）。无监督机器学习（Bisio等人，2017年）通过将聚类方法与各种方法相结合用于某些研究。在这种情况下，Choi和Lee（2012）提出了BotGAD，这是一种使用无监督机器学习技术的僵尸网络检测策略，其核心是具有相同恶意软件的受感染主机将显示相同的DNS流量行为。另一方面，BotGAD由于网络流量巨大，处理成本很高。与以前提出的方法不同，本研究中建议的方法将侧重于分析词汇和语言的域名元素，而不是从一组主机IP头数据检索的特征因此，我们将研究生成的域名的词汇属性，以确定机器生成的域名和人类派生的域名之间的关键区别。3. 所提出的系统由于DGA僵尸主机必须查询DNS服务器才能连接到它们的C C服务器，僵尸主机可能会意外地在DNS流量中留下一些痕迹。因此，将从DNS请求中收集几个词汇特征并进行检查，以将DGA数据与典型的用户流量区分开来。因此，将开发一种基于DGA的僵尸网络解决方案，以区分有效和非法的DNS流量。建议的技术分为三个主要部分。第一阶段是网络流量捕获和预处理，其中收集DNS请求并过滤掉已知或白名单域名（即， microsoft.com ， yahoo.com ，Facebook.com.. . 等）。第二步是特征提取阶段，检索域名的各种词汇特征以帮助决策过程。之后，将机器学习阶段应用于各种特征集。将评估检索到的特征的效率，以创建一个特征矩阵，该矩阵将与机器学习模块结合使用，以识别DNS请求是真实的还是欺诈性的流量。将应用并比较四种最常见的机器学习算法的性能，以确定具有最佳检测精度的方法（Feizollah等人， 2013年，Firdausi等人，2010 年， Gandotra 等人， 2014 年）。这四种方法是 k- 最近邻（ KNN ），支持向量机（ SVM ），决策树和人工神经网络（ANN）。完整的系统概述如图所示。1 .一、3.1. 数据集为了评估建议的方法，我们创建了一个数据集（即，DNS 1）包括合法和非法的DNS流量。利用七种不同的算法和恶意域名词典来创建基于DGA的DNS查询。恶意域名的单词列表链接到DGA僵尸网络Cryp-tolocker ， Zeus ， Pushdo ， Rovnix ， Tinba ， Matsnu 和 Ramdo（Abakumov 2017）。上述技术被用于为每个基于DGA的僵尸网络创建30，000个唯一的域名。Alexa排名前100万的前30万个域名为了模拟真实世界的DNS查询流量，我们监控了14天的网络数据，以捕捉用户的典型日常使用情况。收集的数据集通过TCPreply工具提供的特殊应答主机注入测试网络，该应答主机将跟踪文件中继到网络，以均匀化网络行为。然后捕获额外的流量并将其合并到单个跟踪文件中。描述了所获得的最终样品，即样品1表1中为了评估所提出的系统的性能，我们将我们的系统的检测准确度与使用相同数据集的PsyBoG的检测准确度进行比较（Kwon等人， 2016年）。该数据集包含14个来自真实网络流量的Pcap文件。除了DGA僵尸网络之外，该数据集还包含722，975个真实域名和34，045个来自其他僵尸网络类别的非法域名The PsyBoG（Kwon等人， 2016）数据集汇总于表2中。3.2. 网络流量捕获和预处理网络流量通常是许多协议的混合。但是，为了减少处理负担，我们只对DNS查询如图2所示，网络流量捕获和过滤模块捕获并过滤DNS请求的网络流量。所提出的方法基于以下假设：相同僵尸网络的DGA僵尸主机将在相似或不同的时间间隔从事类似的恶意行为（Alieyan等人，2017年，Kwon等人，2016年，Manasrah等人，2009年，Manasrah等人，2012，Wang等人，2017，Zhou等人， 2013年）的报告。因此，可以通过监视网络流量来发现各种主机的可比较如果DGA机器人主机创建一组共享某些共同或相关质量的域名（即，特征）？然而，合法和非法主机都会创建一系列DNS查询来将域名映射到其匹配的IP地址。这种DNS混合阻碍了识别监控网络中的僵尸主机的过程因此，捕获和过滤模块将通过实现白名单（即，一个突出的域名列表）来自各种来源，如Alexa前100名网站（Alexa2018）。使用白名单的主要论点是，互联网上排名前100位的网站不太可能参与任何危险的操作。3.2.1. 特征提取模块这项工作的主要目标是分析恶意和良性域名的DNS请求，以确定将特定域名的恶意与正常区分开来的关键特征。特别是分析域名措辞的基于词典的方面（Freehat 2018）。因为相同的DGA算法感染多个主机，所以这些被感染的主机将输出具有一些共同特征的域名列表。因此，DGA域名词典将共享几个特征，诸如常见字母的频率、二合字母和三合字母、连字符的数量、数字标记的数量、域标记的平均长度等。A.M. Manasrah，T. Khdour和R. 弗里哈特沙特国王大学学报2048Fig. 1. 详细系统概述表11号传单的摘要域类型数量的样本域类型数量的样本合法300,123罗夫尼克斯30,000CryptoLocker30,000廷巴30,000宙斯30,000马茨努30,000普什多30,000拉姆多30,000表2PsyBoG数据集的摘要。域名类型样本数合法722，975非法34，045方面表3显示了域名集合的词汇特征列表。与人类生成的域名相比，机器生成的域名具有具有相同长度和相关令牌的趋势（Porras等人，2009年）。人工生成的域名比人工生成的域名更复杂，因为人类试图通过避免组合字母，数字和连字符来构建易于书写，阅读和记忆的域名。此外，人类避免使用不明确的术语。他们喜欢使用易于记忆和书写的有意义的术语，这样他们就不会与其他域名混淆（即，在外观或发音上部分相似）。机器生成的域名通常更长，包含字母、数字和连字符的混合。与人工生成的域名相比，机器生成的域名可能包含不常见的单词或无意义的随机单词。因此，我们相信，通过创建一个包含前面提到的属性的评分系统，我们将能够判断域名是真实域名还是机器生成的域名（即，基于DGA的域名）。域名通常由字母、数字和连字符组成，它们之间没有空格因此，确定域名特征的第一步即使域名之间没有空格，人类也可以通过大脑的理解能力来判断域名是否是一个有意义的短语为了完成人类能做的事情，计算机必须使用语言算法。出于上述目的，我们将使用（Norvig 2009）中的算法来确定域名单词是否构成有效短语。在这个意义上，我们采用了一种分割技术，该技术利用万亿单词数据集来生成大型术语词典（Brants和Franz 2006）。建议的方法是基于一个unigram和一个bigram从所利用的语料库，确定的可能性，在域名中有一个或两个字。一个segmentation函数被定义为接受一个没有空格的字符串作为输入，并返回一个可能的单词列表，这些单词反映了域名的最佳如果分割程序成功，我们将有一个域名注册术语列表。可以基于域名构造词来提取或计算额外的特征，诸如域名中的词的数量、域名词的稀有性、域名中的有意义的词的数量、域名词的键入难度、域名可读性指数、域名词的随机性、以及域名词的所有可能的拼写校正的列表。判断句子中有意义的词的数量是判断句子是由人还是计算机生成的关键步骤因为域名可以是非间隔词的句子，所以将域名中的术语与语言词典进行比较可以帮助区分人类生成的短语和机器生成的短语。如果在词典中找不到该术语，则可能是被置换、打乱或拼写错误.因此，将分析其他单词可能被篡改、混淆或拼写错误的可能性，并根据需要提供更正以验证拼写。此外，一个内置的字典将用于发现可能的域名单词的含义。内置字典是PyEnchant （Perkins ， 2014a ，b），由Python提供PyEnchant的好处是它能够处理多种语言。此外，PyEnchant可以使用来自许多流行Python拼写检查器包之一的拼写检查器，例如ispell、aspell和myspell（Alegria例如，2008年）。拼写检查器仅用于确定域名是由人还是机器形成的，这是基于机器生成的单词更有可能存在语法和/或语义问题的事实因此，指示将是域名中有意义的单词总数和拼写错误的单词总数总之，域名中的语法或语义问题越多，它就越有可能是由算法生成的。单词被分为不常见或经常使用取决于如何频繁他们是使用，要么可听地或以书面A.M. Manasrah，T. Khdour和R. 弗里哈特沙特国王大学学报2049图二. 流量捕获和预处理模块示意图。由于常用词易于记忆和发音，因此它们自然是人类选择域名的支柱。虽然人类选择的域名都是简单易记的，但自动生成的域名往往是由字母、数字和连字符组合而成，并加上后缀它是自动生成的（即，DGA）。因此，本研究将域名词分类为频繁词、稀有词和随机词，这可以通过定位语料库中每个单字组词的出现位置来完成，如算法1所示。或以随机创建的域名作为前缀事实表明，上述关于自动创建的域名的规定使生成的域名难以记住或发音，这可能会减少用户访问的机会，并因此从互联网上消失;这可能是理由。域名中的这种不可预测性或不寻常的词语使用可能会显示域名是否由人创建，或者表3建议的词汇特征列表。功能名称功能描述DomainLength域令牌数NoOfDomainWords域名中的单词数NoOfHyphen域名中的连字符数NoOfNumericToken领域中的数字标记数量RareRatio领域中的稀有词比例CommonRatio领域中的常用词比例有意义Ratio有意义MisspelledRatio域名中拼错单词的比例NoOfRandom域名中随机单词的Readable Reading easy IndexisDifficult打字难度指数域名类型常用字、有向字和三向字的出现频率CharFreq字符频率分布Entropy领域令牌算法1：域名词输入：words[]。输出：常见、罕见和随机单词的数量。对于数组中的每个字符串，在单字语料库中找到单词出现的百分比if UNIGRAMS.get（words[m]））==-1%如果在语料库中找不到单词并且没有意义randomWordCount+=1elseif UNIGRAMS.get（words [m]）10000rareWordCount+=1其他commonWordCount+=1返回randomWordCount，rareWordCount，commonWordCount一个单词的难打性和它的难记性之间存在高度相关性（Bock和Yager2020，Son等人，2020年）。这种相关性被认为是有效的，特别是在注册新域名时。域名的选择要容易记住，键入，并且部分或全部不匹配其他域名;避免在域名键入错误时被引导到不同的域名（Pinsky 2017）。值得注意的是，僵尸主机将在A.M. Manasrah，T. Khdour和R. 弗里哈特沙特国王大学学报2050ð Þ ¼ð Þ联系我们X总域长度总域长度总域长度随机字计数无需人工输入的背景因此，域名的复杂性并不重要，域名可以包含任意和无意义的字符串以及难以记忆和书写的高重复率和长单词因此，本文提出了一种计算每个域名词的打字难度指数的新方法，其工作原理如下：为QWERTY键盘上的每个字母分配一个权重值，该权重值与手指在字母键上的移动相关。例如，单词“ASDFGH”的权重值将小于术语“QWERTY”的权重值。因为它们位于初始手指放置线内，所以键"s”和“k”的权重值L x字符小于10个总域长度一个域名被认为是容易类型，如果它有三个连续的字母基于QWERTY键盘布局。因此，将分配负值（即，以降低最终的打字难度分数）。例如，“asdfg”有三个连续的字母键。等式（2）可用于计算权重。WXWX2最后，综合得分描述了输入域名的难度。图第四章具体描述了打字的困难。在算法2中描述了打字难度方法。算法2：打字难度键“q”和“p”的权重值，如图所示。3.第三章。将域名字母的权重值相加得到域名的总体难度分数，这将我们引向域叫打字困难指数作为表示“fol”之义低：W XW i，其中X是域字符串，W i是域字符串X中字符i的权重值。域名的总难度得分受以下因素影响：（1）域名中的位数（2）域名中连字符的数量，（3）域名中有二合字和三合字的数量，（4）域名中生僻字的数量，以及（5）域名的长度。为了保证准确地估计上述分量，将利用每个因子的比率而不是它们的计数值。考虑一个域名与一个罕见的字出四个字与一个域名的一个罕见的字出一个预先假定第二个例子与第一个例子具有相同的影响是不合理的然而，比率值确保更准确的评估，因为域名的稀有比率在第一个示例中为0.25，而在第二个如等式（1）所示，通过将特定特征的计数值除以域字母的总数来导出该比率Wuzhou其中，x是域名字符串，N x是数字的比率，其中，域中的数字数量为N ×N/4。Hx是连字符的比率，H_xHD x是有向图和三向图的比率，其中，公司简介有向图计数.其中，Rbx totalwordsinadomain：Lbxtotalwordsinadomain是长度比，其中，图3.第三章。QWERTY键盘手指的位置。输入：文本。输出：打字难度得分。%为QWERTY键盘布局中的每个键分配权重Assign keysWeight[];对于文本中的每个字母m，Weight+= keysWeight[m];textLength = len（text）; %文本总长度numberRatio = numberCount（text）/ textLength; %总数计数比率hyphenRatio = hyphenCount（text）/ textLength; %总连字符计数比率DigraphRatio = DigraphCount（text）/ textLength; %总的有向图和三向图比率Weight+= numberRatio + hyphenRatio + DigraphRatio + rareWordRatio + randomWordRatio;权重-=召唤字母（文本）;每3个连续字母的权重减少百分比返回配重“可读性指数”指的是读者理解书面材料的能力.我们可以通过查看文档的词汇和语法复杂性来确定文档在英语中的可理解性（Crossley等人，2017年）。与机器生成的域名相比，人类在选择域名时往往会选择可理解的简单语言。因此，在本发明中，如果域名是由计算机创建的，则域名可读性指数可能是理想的度量。可读性指数是基于域名中单词、音节和句子数量的线性回归因此，我们将使用Flesch Reading Ease公式（FRE），该公式基于Flesch-Kincaid可读性测试（Kincaid等人，1975年）。不同学科的研究人员开始使用（FRE）作为一种可靠的方法来改善语音交流。FRE见等式（3）。RES206： 835-201： 015×ASL100-204： 6×ASW100-300ASL是域名的平均长度（单词数除以句子数），ASW是音节的平均单词长度（音节数除以单词数）。FRE将生成一个可读性分数，这将表明域名是否容易阅读。互联网上有大量的顶级域名（TLD），其中一些是世界通用的顶级域名，如as.com、.net、.org、.edu和. gov。例如，（.com）用于商业目的，（.edu）用于教育服务，（.gov）用于政府服务。然而，一些TLD，例如as.bz and.net，因有害操作而臭名昭著;因此，借助于其他提取的属性，它将提供一个很好的信号来评估域名是合法的还是恶意的。●●●A.M. Manasrah，T. Khdour和R. 弗里哈特沙特国王大学学报2051ð ÞPcharFreq频率范围1/1我见图4。打字难度字算法工作流程。域排名前五的非法顶级域名是were.com、.org、.ru、.net和. biz，根据表3中所示的所获得的数据集，然而，有效域的TLD范围很广。以前发现的恶意域TLD也同样得到了验证。（Sood等人，2017年）。基于DGA的僵尸网络识别领域的各种出版物都是基于域名的字符分布。合法域名中的字符分布与典型英文文本中的英文字符分布其中nxi是字符xi在域名X中出现的频率。P xi是前一百万个Alexa域中字符xi的频率分布，如表4所示。通过对域名的特征分布指数进行量化如图13所示，这可以帮助我们确定特定域名是恶意的还是真实的。例如，假设有两个域名：google.com和1premryxqsm-mtk.net。语料库这不是字符分布的情况，DGA生成的域名（Vishwakarma 2017）。因此，所提出的方法使用Alexa前一百万个域列表中的字符的频率分布来考虑域名字符分布，所述字符具有小写字母、英文字符、数字和连字符。考虑域1premryxqsm-mtk.net，它由字母、数字和连字符组合这种方法基于Alexa排名前100万的字母的频率，其中包括字母，数字和连字符。表4可以基于重复字母或数字的机会来构建，其是重复字母的数量除以前一百万个Alexa结果中的字母总数。接下来，可以使用等式（4）计算域的特征分布指数（Kamesh和Sakthi Priya，2014）。PKnxωP<$xi<$‘‘charFreq” (google)= (2*2.36+2*10.08+1*3.90+1*7.89)/6=6.1‘‘charFreq” (1premryxqsm-mtk)=6.31+1.26+0.47+0.14+5.14+5.19+1.49+082）/15=3.7熵可以定义为比特串的不可预测性程度的度量（Kamesh和SakthiPriya，2014）。因此，我们可以使用域名随机性）在其特征分布中。测量域名字符的不可预测性级别可能表明该域名是否是恶意的。这是因为，与机器生成的域名相比，人类生成的域名由于它们遵循的令人难忘的模式而具有较低的随机性（William等人，2017年）。一个域名的熵值可以用当量（五）、K1/1nxi表4在Alexa中出现的字符的概率前100万。字符概率字符概率字符概率一7.07n5.0500.11B2.05O10.0810.16C7.06p2.4620.15D2.67Q0.1430.09e7.89R6.0440.10F1.32S5.1450.06G2.36不5.1960.05H2.01u2.9770.05我5.71v1.1180.06J0.41W0.9490.05K1.49X0.47–0.82L3.90y1.26M6.31z0.57ð4ÞA.M. Manasrah，T. Khdour和R. 弗里哈特沙特国王大学学报2052Xn熵-pxilogpxi51/1其中X是一个字符串，xi是字符串X中的第i个字符。p<$xi<$是xi在X中出现的概率。例如，考虑以下两个字符串。序号字符串熵1bcbcbcbcbcbcbcbcbcbcbcbcbcbcbcb 1.02xoent5d7ew7hlzpaqzm0estyvbq7jnxepomnew 4.3第一个字符串有两个字符（bc）的19次重复模式。第二个既缺乏明确的模式，也缺乏明确的含义。第二个字符串的熵大于第一个字符串的熵，这表明第二个字符串比第一个字符串具有更高的不可预测性。3.2.2. 机器学习模块在从每个IP地址的查询域的提取特征构建特征矩阵之后，我们将评估文献中最常用的机器学习算法，即k-最近邻（KNN）、支持向量机（SVM）、决策树和人工神经网络（ANN）（Feizollah等人，2013;Gandotra等人，2014; Firdausi等人，2010年）。最重要的方法是人工神经网络，它提供了一个高的检测率与可接受的速度和精度。机器学习评估过程分为四个步骤：（1）基于先验知识的数据集/流量标记（2）从主机DNS流量检索的各种特征（3）训练模型，其使用不同的机器学习算法来将与每个主机相关联的流量分类为僵尸网络通信或合法流量，以及最后（4）与来自文献的其他方法相比，对假阳性、真阳性、真阴性率、准确度和精确度4. 实验结果所提出的系统的性能测量使用几个指标，如准确率，精度，召回率，ROC曲线，真阳性率（TPR），和假阳性率（FPR）。因为预测是合法的或非法的，所以TPR和FPR用于评估分类准确性（即，二进制分类）。TPR是正确分类的阳性样品的百分比（即，真实的），而FPR是错误分类的阳性样品的百分比（即，不合法）。完美的检测将提供100%TPR和0%FPR，但这很难实现，因为检测过程容易由于错误分类而出错。所有研究均在2.5 GHz Intel Core i7上进行，GB 1600 MHzDDR3. Winpcap实用程序用于捕获观察到的网络流量并过滤掉DNS请求。这项工作的实现完全在Python中完成。Python包含大量内置库，使网络编程更容易。Orange3（Truong和Cheng 2016）是一个开源机器学习，数据挖掘和可视化平台，用于通过大型工具集实现交互式数据分析程序。Python用于通过导入Enchant字典来查找合适的域名短语。Enchant词典也可用于检查单词4.1. 特征重要性其他特征，例如域名中的频繁项，可以用于识别基于DGA的域名。图 5图五. 常见字比例在期刊1.描述了大量不包含常用术语的恶意域名，尽管大多数真正的域名由常用词组成。图6显示了pushdo DGA僵尸网络的域名如何这种形式的DGA因此可以使用共同的词特征来发现。域名中的频繁词是另一个重要的指标，可以帮助确定域名是由人还是计算机开发的。虽然非法域名使用常见和罕见的单词组成，但某些形式的DGA域名生成的域名与使用字典的合法域名相当。图6描述了DGA僵尸网络在值得注意的是，绝大多数DGA生成的域名不包含常用词。域名的随机性指数可以确保没有常用术语。因此，随机性指数是检测域名是由机器还是由人类生成的重要组成部分（随机词比率）。（Xie等人，2008年，Yadav等人， 2012年）。图7显示了合法域名和非法域名的随机性指数，非法域名中的高随机性指数表明存在随机词。另一方面，人类不喜欢使用随机字符串在他们的域名中，因此，在人工生成的域名中随机出现的单词并不多见。可以理解的是，人类喜欢包含有意义的短语的域名，这些短语易于输入和记忆。一些DGA家族，如matsnu，rovnix和pushdo，在他们的域名中不使用随机词，如图所示。8.第八条。图六、每个DGA系列中的常用词比率1。公比300000250000200000150000100000500000合法的伊列00.30.50.7 0.8个单位公比0.9 1域频率A.M. Manasrah，T. Khdour和R. 弗里哈特沙特国王大学学报2053见图7。随机字率在小册子1.图8.第八条。随机比率，每个DGA系列，在EQUET1中。由于与真实域名的相似性，这类DGA域名更难识别。然而，这种形式的DGA可以使用其他指标来检测，例如常用词比率和域名长度。根据图9，由rovnix和matsnu创建的大多数域名都包含有意义的术语，但pushdo DGA创建了一个有意义和无用词的混合体。因此，人们认为某些形式的 DGA 僵尸网络基于特定的字典生成域名。（Highnam等人，2020年，Matta等人， 2017年）。由于与人工生成的域名相似，使用字典以及无意义的术语可能会使识别更具挑战性因此，额外的标准，如常用词的使用，字符分布，以及其他因素，共同作用，以区分机器生成的域名和人类生成的域名，是必不可少的，以确保检测过程域名中具有含义的词的比率，以及其他相关指标，例如随机词比率、常见词比率和罕见词比率，可以提供域名恶意性图 10，表明绝大多数的非法域名在互联网1是毫无意义的。另一方面，大多数合法域名包含有意义的词语。域名长度是域名是否恶意的另一个标志，因为个人通常避免使用难以记住和书写的长域名（Renet al.，2020年）。当比较域名1中的合法和非法域名的长度时，发现非法域名具有15个令牌的平均长度。然而，这在有效域名中是不寻常的，因为人类倾向于开发长度短，平均跨度在8到12个字符之间的难忘和易于键入的域名，如图所示。十一岁黑客可能会有目的地修改域名单词的拼写或置换域名的单词，考虑到人们在输入网站的URL时可能犯的潜在错误Typosquatting）（Schwemer 2020，Toorn和Sperotto，2020）。因为正常打字的人不会注意到他的错别字（

下载后可阅读完整内容，剩余1页未读，立即下载