云计算下基于机器学习的网络安全攻击检测与特征选择方法研究

141 浏览量更新于2023-12-06 收藏 1.53MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

阵列15（2022）100229基于数据聚类法尔加纳河阿卜杜拉耶娃阿塞拜疆国家科学院信息技术研究所，9A，B。Vahabzade Street，AZ1141，Baku（巴库），阿塞拜疆A R T I C L EI N FO关键词：聚类特征选择DDoS攻击云安全网络安全机器学习A B S T R A C T云计算的主要安全问题之一是检测和预防网络入侵。网络中的漏洞直接影响云的安全性，因为它是云的基础。云中的攻击要么由云外部的网络受损节点发起，要么由云网络中的虚拟机（VM）发起。因此，监控云网络的外部和内部流量非常重要。本文提出了一种对网络数据进行精确聚类以检测DDoS攻击的机器学习方法。该方法采用特征选择技术来提高数据聚类的效率。为了提供特征选择，已经使用了PCA算法。对于在所选特征上形成的数据集，应用DBSCAN（具有噪声的应用程序的基于密度的空间聚类）、聚集聚类和k-means算法。在实验中，使用较少特征的方法的聚类结果在所有度量上都高于使用所有特征的方法的聚类结果向世界展示标准算法中，PCA+ DBSCAN、PCA+ Agglomerative和PCA+ k-means算法获得了较高的调整后的兰德指数指标的值，分别达到0.8989，0.9130，0.9094值。该方法的有效性也被评估的其他聚类指标，并取得了很高的结果。建议的系统可以安装在内部和外部云基础设施中。这允许检测外部云网络上的攻击，以及内部物理网络或虚拟机管理程序之间的虚拟网络中的攻击。1. 介绍电子政务是一种创新性的技术变革，国家可以利用这一系统通过向公民提供优质服务来改善公民与国家的关系。云计算是一种通过互联网提供服务的新方式。在云计算中，所有资源（硬件、软件、网络资源）都作为服务提供。基于云的电子政务被认为是电子政务领域分布式计算系统的主导范式。基于云的电子政务使用云服务作为一个基本元素，在构建智能网络的协作应用程序分布在国内或国外。数据定标;审计和记录;推出新实例、复制、迁移;灾难检测;性能和扩展;报告和智能;策略管理;系统集成和遗留程序;迁移到新技术;易于应用;节省成本;可扩展性;从任何位置访问;绿色计算系统是云计算对电子政务的好处。基于云的电子政务系统对于国家来说有很多优势。这些好处包括降低成本、分布式存储、可负担得起的资源访问尽管基于云的电子政务具有诸多优势，但这项技术仍面临着许多安全威胁。云安全策略由CIA的三重模型（配置性、完整性和可访问性）管理[1]。攻击者试图通过执行各种干预来违反云安全策略，利用应用协议中的漏洞。NIST（美国国家标准与技术研究所）将入侵定义为对安全策略（机密性、完整性和可访问性）的威胁或对计算机和网络安全机制的规避。CSA（云安全联盟）已经确定了几种类型的云威胁：拒绝服务（DoS），数据泄露，未经授权的访问，不安全的API，易受攻击的应用程序，帐户黑客，恶意内容，数据丢失和滥用服务[2]。对云造成严重损害并影响其有效性的最常见攻击类型之一是DoS。DoS是黑客用来破坏合法用户的服务和资源可用性的一种电子邮件地址：a_farqana@mail.ru。https://doi.org/10.1016/j.array.2022.100229接收日期：2021年12月22日;接收日期：2022年7月6日;接受日期：2022年2022年7月14日在线提供2590-0056/© 2022作者。爱思唯尔公司出版这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表阵列期刊主页：www.sciencedirect.com/journal/arrayF.J. 阿卜杜拉耶娃阵列15（2022）1002292分布式拒绝服务（DDoS）使用几个称为僵尸网络或僵尸的系统来攻击目标云网络[3]。拒绝服务攻击的特点是网络性能差，网站或应用程序响应非常缓慢，违反云服务的可用性，带宽消耗突然增加，服务器资源使用突然增加，网络连接不稳定，响应不正确，拒绝服务请求。由于DDoS攻击具有很强的适应性，因此可以根据目标对象的性质生成流量。由于这些特征，DDoS攻击不仅覆盖传统网络，而且还覆盖更高技术的网络。由于DDoS攻击可能发生在互联网的不同层，包括云，因此必须在不同的层中设计和使用对抗攻击的方法[4，35]。各层保护机构的工作原理不同。为此，提出了一种在网络层检测DDoS攻击的方法在Imperva于根据卡巴斯基的报告，在2019年第四季度，DDoS攻击的数量翻了一番[6]。该报告[7]指出，2018年对SaaS服务的攻击数量增加了两倍，从2017年的13%增加到2018年的41%这些年来，对数据中心和云服务的攻击也从11%上升到34%。DDoS攻击的规模正在逐渐扩大。在过去的十年中，DDoS攻击流量从70 Gbps增加到1.35 Tbps（每秒TB，Tbps）。攻击者使用云计算和物联网（IoT）来生成大量的攻击流量[9]。LOIC（Low Orbit Ion Canon ）、XOIC、DDoSIM、DAVOSET和PyLoris是攻击者用来执行各种DDoS攻击的工具HULK，R-U- Dead-Yet和GoldenEye HTTP DoS是用于创建针对云服务的各种DDoS攻击的工具。DDoS攻击通常通过将网络流量分类为真实和恶意类别来检测。这些方法分为基于签名的，基于异常的，和混合类别。[10]提出了一种基于C.4.5算法的机器学习方法来检测DDoS攻击。该方法基于签名检测DDoS攻击。[11]分析了现有的检测云中DDoS攻击的方法，并比较了它们的检测精度。[12]探讨了将云计算和SDN技术相结合以抵御DDoS攻击的可能性。提出了一种基于SDN的分布式拒绝服务攻击防御体系结构DaMask。DaMask模型由两个模块组成：基于异常的攻击检测模块DaMask-D和攻击预防模块DaMask-M。在DaMask-D模块中，基于图形概率推理模型检测异常。[13]提出了一种基于频率的低速率DDoS（LDDoS）攻击检测方法。该方法是基于功率谱密度（PSD）算法，并通过分析实时流量检测攻击。该方法在OpenStack真实云环境中得到了实验应用。这些方法非常依赖于数据的正确标记即攻击类别的区分。由于标记是自主完成的，因此该过程限制了算法的实时应用。本文采用数据聚类的方法来解决这一问题.聚类不需要用户标记数据，并显着减少了搜索空间。对于DDoS攻击的检测，所提出的方法使用的特征选择，以提供准确的聚类的网络数据。在本文中，PCA算法被用来选择的功能。DBSCAN、聚集聚类和k均值算法应用于基于所选特征形成的数据集。将原始数据或大量特征馈送到聚类算法的输入中不被认为是有效的。这里，特征选择的目的是去除冗余特征，从中选择最重要的特征，并减少搜索空间。此外，在现有的工作中，DDoS攻击检测使用网络流量参数，如IP地址，TCP标志等。单独[14 ]第10段。特定于Web流量的功能（如IP地址和TCP标志）包含的信息很少，无法检测此类攻击。只有使用这些功能才能隐藏软件包的真实状态[15]。例如，IP地址伪造或高频率更改可以使用各种方法（快速流感X）。在所提出的方法中，网络流量特征以矢量形式被馈送到算法的输入中。这允许在DDoS攻击的检测过程中不仅一个而且多个功能同时参与。这增加了准确检测DDoS攻击的可能性。所有这些问题都表明，云IDS（入侵检测系统）需要分析大量的网络流量，有效地检测新类型的攻击，并通过更少的错误来实现高检测精度。该论文的科学贡献如下：1. 针对DDoS攻击的检测问题，提出了一种结合主成分分析和聚类算法的混合模型。所提出的方法进行评估的聚类质量方面，对基线算法，如聚集-互动聚类，k-means，DBSCAN。在CSE-CIC-IDS2018、NSL-KDD和HTTP CSIC 2010数据集上进行了实验2. 通过使用特征选择，去除冗余特征，减少基线特征集本文的结构如下。第2节概述了相关工作。第三部分介绍了云网络的基础设施，介绍了云上的DDoS攻击场景，并给出了本文构建的DDoS攻击检测系统模型的框架。第4节描述了在所提出的混合模型中使用的机器学习方法。第5节给出了用于评估聚类质量的聚类度量。第6节介绍了所提出的系统在云网络中的应用场景。第7节提供了从CSE-CIC-IDS2018、NSL-KDD和HTTP CSIC 2010数据集上的实验中获得的结果。第八部分是研究结论。2. 相关工作传统安全系统和云安全系统之间的区别在于，云安全系统安装在云的单独组件上并在云的单独组件上启动。例如，安装在VM中的安全机制监视VM的安全状态。安装在管理程序中的安全机制监视管理程序的状况。安装在云网络节点上的安全机制监控云网络的安全性[21]。许多研究都是为了检测云中的DDoS攻击。有监督和无监督的机器学习算法被广泛应用于DDoS攻击的检测。监督方法的目标是对预标记的基准数据进行研究，而非监督方法的目标是通过根据相似性标准将数据引用到单独的空间来标记数据。最常见的无监督方法之一是聚类算法。可以使用标记的数据来标记数据点。在[16]中，提出了一种半监督机器学习方法。该方法首先采用无监督的方法将网络流量划分为所需数量的类，然后采用投票的方法将聚类后的数据划分为正常、DDoS和恶意流量类，最后采用有监督的方法对未知流量类进行检测.在所提出的方法的无监督学习阶段，将数据映射到低维空间，通过应用PCA方法进行特征提取。虽然这项工作解决了最近的DDoS向量，但该方法的性能仅通过熵进行评估[17]解决了检测内部人员进行的DDoS攻击的问题。传统的防御机制，如防火墙，不能F.J. 阿卜杜拉耶娃阵列15（2022）1002293检测内部人员发起的攻击。在这项研究中，已经提出了一种方法来检测在虚拟机管理程序级别的异常入侵，以防止虚拟机之间的DDoS攻击。一种方法使用进化神经网络。将粒子群算法与神经网络相结合，建立了进化神经网络模型，该模型的主要目的是对虚拟机之间的流量进行分类和检测。这种方法的缺点是计算量大。在[18]中，为了检测云中的DDoS攻击，提出了一种多级异常检测方法。针对云Web服务的DDoS攻击分为超大负载、强制解析和洪水攻击。在参考文献[10]中，为了检测DDoS攻击，提出了一种基于C.4.5算法的机器学习方法。在该方法中，DDoS攻击检测是基于特征的。这种方法的局限性是检测已知的攻击，攻击行为已经很明显。[19]提出了基于置信度的过滤方法（CBF）来检测云计算环境中的DDoS攻击。此方法使用两个概念：一个称为置信度，用于测量相关模式，另一个称为CBF（基于置信度的过滤）分数，用于判断分组的合法性。这种方法的缺点是基于分配一个阈值来检测DDoS攻击。[12]研究了将云计算和SDN技术可以防止DDoS攻击。在本研究中，在SDN上构建的DDoS攻击防御架构被称为DaMask。DaMask模型由两个模块组成：一个基于异常的攻击检测模块，称为DaMask-D，和一个攻击预防模块，称为DaMask-M。在DaMask-D模块中，异常是基于图形概率推理模型检测的。这种方法的缺点是它没有考虑到假阳性发生的可能性。在某些情况下，瞬间阻止所有可疑流量会导致实际用户服务中断[20]解决了基础设施云中的DDoS攻击检测问题。在基础设施云中，DDoS攻击通常针对服务器的核心资源，如CPU、内存、磁盘空间、带宽、TCP连接、打开的文件等，实验证明，与目标对象一起，云的利益相关者也会受到DDoS攻击。减轻云中DDoS后果的要求已经确定。[1]分析了云中DDoS攻击的检测方法。给出了云环境下DDoS攻击防范机制的分类和概念模型。在这里，目前的研究问题和未来的研究方向进行了调查。分析了针对云计算的常见DDoS攻击，并将其分为两类：应用层攻击和基础设施层攻击。[22]提出了一种虚拟机管理程序级别的分布式网络安全方法。所开发的系统在云计算的各个处理服务器上实现。为了检测入侵，每台服务器上的安全系统都会监控进出与相应虚拟机关联的虚拟网络、内部网络和外部网络的网络流量。从云网络流量中，使用二进制蝙蝠算法（BBA）获得特征。所获得的特征被馈送到随机森林算法的输入中，并且以这种方式，提供了对来自云网络流量的入侵的检测和警报生成。在UNSW-NB 15和CICIDS-2017数据集上评估了所提出方法的有效性。所提出的方法的一个缺点是，它产生高误报率，不能准确地定义一个正常的配置文件的基线[23] 提出了基于MLP的最优特征选择方法，检测DDoS攻击。由于采用了监督的方法，在这项研究中提出的方法不能检测未知的攻击。在[24]中，对于网络异常IDS，开发了一种基于深度神经网络的智能方法。 IGASAA 混合优化方法使用遗传算法和模拟退火算法（SAA）。IDS被称为MLIDS基于机器学习的入侵检测系统。在这里，遗传算法是通过应用并行处理和适应度比哈希策略。作为算法开发的结果，处理时间和解收敛时间被最小化，并且节省了计算能力。为了优化启发式搜索，SAA算法被应用到改进的遗传算法（IGA）。为了评估该方法的有效性，使用CloudSim4.0模拟器和CICIDS 2017，NSL-KDD（2015版）和CIDDS-001开放用于科学研究的数据集。建议的系统可以安装在内部和外部云基础设施中。这允许检测外部云网络以及内部物理网络或虚拟机管理程序之间创建的虚拟网络上的攻击。这种方法的一个局限性是它无法检测到系统中没有预定义的攻击。在[25]中，为了检测网络层中的DDoS攻击DBSCAN和基于PCA的分类方法。不同的是，在这项研究中，这里的聚类问题转化为分类问题，并评估方法的有效性的分类度量的基础上。分类问题被认为是一个静态的方法。这种方法被认为不适合动态系统，如云，其中用户可以立即访问和离开系统。此外，我们的研究中提出的方法，与现有的一个相比，可以检测未知的性质，由于聚类方法的新类型的攻击。降维技术在该方法中的应用使得检测方法能够快速有效地处理大量数据。在[26]中，提出了基于DBSCAN算法的网络流量聚类方法，用于检测DDoS攻击。所提出的方法包括三个阶段：分析阶段，聚类阶段和预防阶段。这项研究的缺点是未能提供选择的信息功能，显着提高聚类的效率。在[27]中，为了检测网络环境中的DDoS攻击，已经提出了基于田口和深度自动编码器方法的组合的混合方法。请注意，深度学习方法的训练需要大量的标记数据。然而，由于缺乏标记有攻击类别的大量数据的可用性，通过对少量数据进行深度学习来预测这些攻击会导致不正确的结果。与深度学习方法不同的机器学习方法也可以有效地使用少量数据。在[28]中，提出了一种检测应用层DDoS攻击的方法。首先，创建了一个包含九个特征的数据集，以确定用户对应用程序的请求类型。在本研究中，创建了潜在用户行为模式配置文件，并将偏离这些模式视为异常。各种机器学习方法已应用于创建的数据集以检测攻击。本研究的不同之处在于，使用了k-means、DBSCAN和PCA作为分类算法。本研究未考虑数据聚类问题。在[29]中，提出了一种基于人工神经网络的DDoS检测系统，称为投票极端学习机（V-ELM）。为了实现这一过程，在V-ELM分类器中同时使用多个EXtreme学习机。所有这些机器的结果都使用多数投票技术进行组合，以获得最终结果。威胁云计算IT服务的攻击之一是基于物联网的分布式拒绝服务攻击。目前，存在安全漏洞的物联网设备数量正在迅速增加机器人程序编写者控制这些类型的易受攻击的物联网设备，并对云系统发起大规模DDoS攻击。在参考文献[30]中，提出了一种基于手势验证的新方法来实现有效的DDoS攻击预防在这里，基于手势验证生成对客户的障碍。物联网设备没有能力绘制手势来克服障碍。这里的手势可以只是画一个圆或一条线。F.J. 阿卜杜拉耶娃阵列15（2022）1002294Fig. 1. 云网络基础设施。[31]提出了一个名为LSTM-CLOUD的系统，该系统基于长短期记忆（LSTM）方法，用于在开放的云网络环境中检测DDoS攻击。该方法基于特征检测DDoS攻击。LSTM-CLOUD模型由两个模块组成：检测和保护。在第一个模块中，通过应用LSTM来检测攻击，而在第二个模块中，如果检测到攻击，则激活防御机制来保护云系统。文献[32]提出了一种改进的自适应进化极端学习机方法（SaE-ELM）。该模型通过引入另外两个特征而得到改进。首先，它可以适应最适合的交叉算子。其次，它可以自动确定合适的隐层神经元数目。这些特征提高了模型的学习和分类能力。[33]提出了一种有效的DoS攻击检测系统，该系统使用了反对乌鸦搜索算法（OCSA），该算法集成了乌鸦搜索算法（CSA）和基于反对的学习（OBL）方法图二. 云网互动。来解决这类问题。该系统由两个阶段组成：使用OCSA的特征选择和使用递归神经网络（RNN）的分类。在该模型中，使用OCSA算法选择基本特征并将其馈送到RNN分类器的输入，并提供数据的分类。最近，针对云Web服务的应用层DDOS攻击数量有所增加[34]。这些袭击的目的是通过发送带有恶意XML内容的SOAP（简单对象访问协议）请求来获取对资源的访问。虽然这些请求看起来像真正的数据包，但在网络和传输层（TCP/IP）上无法检测到它们。[35]提出了一种智能、快速和自适应的方法，用于检测XML和HTTP类型的应用层DDoS攻击。智能系统通过提取几个特征并使用它们来构建典型请求的模型来工作。最后，使用离群值检测并提供恶意请求的检测[36] 提出了一种基于深度学习的DDoS攻击检测模型。所提出的模型有三个主要步骤。首先，数据被馈送到DNN输入层，然后进入第一个隐藏层。该层与该模型中的其他隐藏层一样，使用Rectified Linear Unit（ReLU）激活函数激活，并且将该层的输出传递到三个更密集的层中，所有这些层都使用ReLU单独激活。为了对抗过拟合，将dropout应用于三个层中，输出在级联层中级联，然后作为输入馈送到第四层和最后一层，然后进入使用sigmoid函数激活的输出层。[37] 分析了深度学习模型，包括用于DDoS攻击检测的受限玻尔兹曼机、深度信念网络和深度自动编码器。每个深度学习模型的性能都使用两个新的真实流量数据集进行了评估，即CSE-CIC-IDS 2018数据集和Bot-IoT数据集。提供了深度学习模型与机器学习模型的比较3. 云网络基础设施和DDoS攻击场景云计算的重要特征之一是网络虚拟化。在云计算中，网络虚拟化允许单独的虚拟网络在公共基础设施上工作。云网络基础设施由三个不同的网络组成（图1）：虚拟网络、内部网络和外部网络。虚拟网络在同一物理服务器上的VM之间创建通信。通过内部网络，云管理系统、存储系统、网络服务器等各种组件可以相互通信。外部网络充当云用户（前端）和F.J. 阿卜杜拉耶娃阵列15（2022）1002295×=（）×图三. 云计算中的DDoS攻击[1，40]图。四、 DDoS攻击检测系统。云服务提供商（后端）。所有这些网络都向用户提供云服务的可靠交付网络入侵是对云的主要威胁，通过网络入侵，服务可用性、云带宽、资源和应用程序的中断暴露于攻击影响[38]。在DDoS攻击中，几个僵尸网络通过向目标服务器发送大量请求来提供攻击真实用户和攻击者与云网络的交互场景如图所示。二、图 2、双方向云服务器发送请求建立连接。在云上的DDoS场景中，攻击者向称为处理程序的机器层发送命令以执行攻击（图3）。处理程序扫描互联网上易受攻击的服务器和主机，并控制这些易受攻击的机器安装恶意软件。被感染的机器被称为僵尸，整个网络被称为僵尸网络。僵尸网络是由攻击者操作的受损机器（计算机）组成的网络，用于进行分布式攻击[39]。僵尸网络中的僵尸被用来直接攻击目标，并创建拒绝服务。由于僵尸网络的分布式体系结构，其中包括大量的受损机器用于攻击目标对象，这种攻击被称为分布式拒绝服务攻击。在这里，受损节点由命令控制（C C）服务器管理，由攻击者控制。&僵尸还可以从目标对象收集信息，并将此信息传输回控制器，以在C C和攻击者之间创建反馈。DDoS攻击的一般操作如图所示。 3.在DDoS攻击期间，使用几个，有时是数千个IP地址来发起网络攻击。这使得很难防止DDoS攻击[41]。DDoS攻击针对OSI模型的特定层：应用层攻击（目标层7）和协议层攻击（目标层3和4）。在互联网上进行DDoS攻击有两种方法1) 网络/传输层攻击。通过消耗带宽、路由器性能或网络资源来中断合法用户的连接。攻击者使用网络和传输层（OSI第3层和第4层）中的协议来攻击目标主机。这种攻击的例子是TCP Syn flood、UDP flood和UDP flood攻击。2) 应用层攻击。通过消耗服务器资源（例如，插槽、CPU、内存、磁盘/数据库带宽和输入/输出（I/O）带宽）。攻击者利用系统和协议漏洞破坏云资源的可用性。应用层攻击的示例是HTTP攻击。除了上述攻击，基础设施攻击也可能发生在云中。这些攻击的目标是云计算等组件存储、网络带宽、CPU和TCP缓冲区，并使它们无法被真正的云用户访问。在基础设施层，DDoS攻击仅使用目标对象的IP地址在这里，不会利用任何脆弱性。在OSI模型中，HTTP建立在TCP之上。TCP用于在两台机器之间建立通信，HTTP使用此连接在服务器和客户端之间传输数据。HTTP不能在没有TCP的情况下运行。为了防止云受到DDoS攻击，提出了一种检测系统。建议的DDoS检测系统架构是基于PCA和聚类算法的合成，如图所示。四、首先，我们通过对数据应用PCA算法来提取最重要的特征。然后，通过将聚类算法应用于基于所选特征形成的数据集来检测DDoS攻击。DDoS攻击检测方法的工作流程包括以下步骤：步骤1. 输入X数据矩阵X;步骤2. 找到协方差矩阵XYYT，其中Y表示中心数据矩阵XYy1，y2，.yn，YT是Y的转置;步骤3. 选择p个变化最大的关键组件;步骤4. 创建由p个主成分组成的转换矩阵X步骤5. 找到简化的数据集D;步骤6. 使用聚类算法将数据集D划分为k个聚类。4. 机器学习方法主成分分析（PCA）。主成分分析是一种多变量方法，用于分析特定的数据矩阵，其中观测值由相关的因变量描述。该方法的主要目标是从数据矩阵中提取最重要的特征，并将其描述为一组称为主成分的新正交变量。这里，可以通过奇异值分解（SVD）或计算特征向量来获得主分量。X矩阵的奇异值分解x通过以下等式计算：X=PΔQT（ 1）其中P是IL维左奇异向量矩阵x，Q是L维右奇异向量矩阵x是对角矩阵X，奇异值。F.J. 阿卜杜拉耶娃阵列15（2022）1002296（）下一页}=={（）（）∑.）（）=j 1，.，k（）下一页=C样品==Idef=1-（、（i）（一）当β1时，它<调整后的兰德指数（ARI）是衡量4.1. K-means聚类K-means聚类算法的主要目标是将n将多个不同的观察结果分成k个聚类。的分配K，H C 是类C的熵。完整性评分。给定类的所有成员都被分配到同一个集群。完整性评分正式给出为：H（K|C）、k-means聚类算法的工作流程包括以下步骤：c=1-H（K）（5）步骤1. 随机选择k个聚类中心;步骤2. 使用欧几里德距离（d）将每个第i个数据点x i分配到最近的聚类中心。假设一个有限点集X x1，…硬聚类问题是将集合X的点分成给定数量k个非空的，成对的V-measure用于将聚类结果与数据点的真实类别标签或不同的聚类进行比较。它被确定为聚类的均匀性h和完整性c的调和平均值：赫塞尔茨不相交子集C j<$X，j = 1，.，k使得X =<$k C j。集合Cj是Vβ=（1+β）βh+c（6）叫做集群， …。群集Cj=1cm={1，，k}j由其中心标识，根据信息论，h和c可以用j∈R，j=1，.，k.nKM X，Cmind xi，cj（2）i=1=互信息和熵测度。当每个簇包含尽可能少的不同类的元素时，同质性h最大化。完整性（C）的目的是将每个类的所有元素放在一个集群β参数（β>0）可用于控制d p q√̅∑̅m̅̅̅̅̅̅̅p̅̅̅̅̅̅̅̅̅̅q̅̅̅̅2̅i=1（三）h和c在最后的测量中。如果β>1，则完整性具有更大的权重，并且其中xi是第i个数据点，cj是第j个聚类中心，p和q是n维特征空间中步骤3. 每个聚类中心以分配给该聚类的所有点的平均值的形式定期更新。步骤4.继续步骤2 -4，直到聚类中心稳定。在达到稳定后停止该过程4.2. DBSCAN两个数据聚类。从数学的角度来看，兰德指数与预测精度有关，但即使在不使用原始类别标签的情况下也适用。兰德指数是一个度量，计算两个聚类之间的相似率。对于此计算，rand索引考虑所有样本对，并对在预测和真实聚类中分配在相似或不同聚类中的样本对进行计数。之后，原始的兰德指数分数通过DBSCAN是一种基于密度的聚类技术。DBSCAN聚类算法的步骤如下：设X ={x1，x2，x3，...， x n}是数据集的样本。在调整RI（RI-预期RI）（max（RI）-ExpectedRI）RI是Rand指数，可以写为RI=（七）na+b ，其中a是2DBSCAN使用两个参数：ε（eps）和构建聚类所需的最小样本数（minPts）。ε是指在两个聚类中处于相同集合中的对的数量，b是在两个聚类中处于不同集合中的对的数量，Cn个样本是两点之间的最大距离可以说是在2数据集中可能对的数量相同的集群。步骤1. 从未访问的随机起点开始。步骤2. 使用ε选择该点的邻域。所有距离为ε的点都是邻域点。在实验中，eps和minPts分别为0.0375和50步骤3. 如果在该点周围存在足够的邻域，则聚类过程开始，并且该点被标记为已访问或该点被标记为噪声。然后，该点被认为是包括在聚类中的点。步骤4. 如果点被定义为簇的一部分，则其ε neigh-区也成为集群的一部分。对所有ε邻域点继续重复上述步骤。重复这个过程，直到定义了集群中的每个点步骤5. 选择一个新的未访问点，引导找到下一个聚类或噪声。步骤6. 继续上述步骤，直到所有点都被记录为已访问。5. 聚类度量为了评估聚类方法的有效性，同质性得分，完整性得分，V-措施，调整后的兰德指数，调整后的互信息，和剪影得分指标。同质性评分。每个簇只包含一个类的成员。均匀性评分正式给出为：调整后的相互信息。互信息是衡量两个赋值的一致性的度量，忽略排列。该度量有两种不同的归一化版本，归一化互信息（NMI）和调整互信息（AMI）。调整后的互信息可以使用与调整后的Rand指数类似的形式来计算：AMIMI-E[MI]（8）平均值（H（U），H（V））-E（MI）Silhouette score是一种评价聚类质量的方法。特别是，它提供了一种定量的方法来衡量每个点与其他聚类相比在其聚类中的位置。第i个数据点的轮廓值为：sbi-ai（9）max（ai，bi）其中ai是从第i个点到中的其他点的平均距离，相同的聚类zi，bi=mink=scinzibik，其中bik是从第i个点到第k个聚类中的点的平均距离注意，-1≤sj≤ 1，并且当第i个点正好位于其自己的簇内时，sj接近于1。值越大，表示聚类的分隔越好（点距离）。6. 建议系统在云网络中的应用场景hH（C|K）H（C）（四））=的F.J. 阿卜杜拉耶娃阵列15（2022）1002297开发系统的目标是通过监控网络流量来检测来自云环境其中H（C|K）是给定聚类的类C的条件熵同时保持机密性，可访问性，完整性，F.J. 阿卜杜拉耶娃阵列15（2022）1002298图五. DDoS检测系统在云环境中的应用。云资源和提供的服务的性能云基础设施的内部网络是一个虚拟环境。在虚拟环境中，同一台物理服务器上存在多个虚拟机。这些虚拟机通过虚拟交换机相互通信，而无需离开物理服务器。由于它们在物理服务器内交互，因此安装在本地网络上的安全系统无法看到此网络流量。如果这些虚拟机之间的流量没有通过安全机制，这种情况就会为所有类型的攻击创造一个缺口。在这里，攻击者承诺其中一个虚拟机，并使用它来获得对同一虚拟机管理程序中其他虚拟机的控制权。对攻击者的这种破坏操作的控制是不可能的。此外，虚拟环境面临各种威胁，主要集中在虚拟机管理程序中：Hyper jacking，VM逃逸，VM迁移，VM盗窃和VM间流量。的构造 DDoS 攻击检测系统在这研究是部署在云的内部和外部网络中（图 5）。所开发的系统在云的每个处理服务器上实现。为了检测DDoS攻击，安装在每个服务器上的安全系统监视来自与适当虚拟机相关的虚拟网络、内部网络和外部网络的网络流量。外部网络放置在云外部的DDoS检测系统检测由外部云网络的受损节点或连接到互联网的攻击者实施的网络攻击。这些攻击者的目标是通过绕过防火墙来访问内部云。在这里，DDoS检测系统作为防火墙之后的第二个保护层，以消除其漏洞。内部网络。在云内的虚拟服务器上部署DDoS攻击检测系统（传感器）允许检测在云的内部网络中发生的攻击。这里安装的DDoS检测系统监控虚拟流量和从虚拟服务器传输到物理服务器的流量。不建议在每个虚拟机上安装安全系统，因为这会产生额外的工作负载并使虚拟机的工作复杂化。此外，虚拟机的迁移、配置和取消配置是动态实现的，因此在每个虚拟机上安装单独的安全机制也带来了管理挑战。7. 实验DDoS攻击检测模型的测试过程在信息技术学院AzScienceNet数据中心图第六章CSE-CIC-IDS 2018数据集的类表示。F.J. 阿卜杜拉耶娃阵列15（2022）1002299+++表1CSE-CIC-IDS 2018数据集上的方法比较分析。同质性评分完整性得分V-测量调整后的兰德指数调整后的互信息轮廓分数集群估计数PCA+ DBSCAN 0.8801 0.8797 0.8799 0.87970.57983PCA+凝聚0.8994 0.9002 0.89980.9130主成分分析+k均值0.8864 0.8851 0.88580.90940.88510.58333k均值0.5696 0.5930 0.5811 0.5331 0.5696 0.4085 3附聚0.5426 0.5577 0.5501 0.5171 0.5425 0.4772 3电话：+86-021 - 8888888传真：+86-021 - 8888888图第七章CSE-CIC-IDS 2018数据集上的方法比较。阿塞拜疆国家科学院在虚拟机上使用Ubuntu 16.04.3 LTS AMD 64系统，331.2-GB 内存和 2933.437 MHz CPU 。该方法的实现在 Python 和Tensorflow上进行。为了在云环境中有效检测DDoS攻击，分类模型必须使用大量数据进行训练。加拿大网络安全研究所的CSE-CIC-IDS 2018数据集用于进行实验[42，43]。此数据集是根据基于HTTPS、HTTP、SMTP、POP3、IMAP、SSH和FTP协议的用户行为构建的。该数据集可在加拿大网络安全研究所网站上查阅。在此数据集中，数据在一周中的每一天单独记录在CSV文件中。每个文件中的数据类也是不同的。一般来说，数据集由一个真正的流量类别和几个最重要的流量类别组成。常见的网络攻击类。DoS、DDoS、Brute Force、XSS、SQL注入、渗透、Portscan和僵尸网络是CSE-CIC-IDS 2018数据集的攻击类别。在这项研究中，CSV文件包括三个攻击类，如0-良性，1- DDoS攻击，2-DoS攻击。该数据集的三个类别的数据点如图所示。第六章此文件的行数为1048574。该数据集是完全标记的，由80个网络流量特征组成。在将所提出的方法应用于CSE-CIC-IDS 2018数据集时，与现有方法相比，该方法在各种聚类指标上都取得了很高的值（表1）。在这里，调整后的兰德指数（ARI）确定聚类中包含的样本的相似度。因此，ARI指数越高，聚类模型被认为越好。在实验中，PCADBSCAN，PCA聚集，PCA k均值算法实现了高值的ARI指数，分别达到0.8989，0.9130，0.9094值。然而，传统的k-means、Agglomer- ative和DBSCAN算法在ARI指数上实现了较低的值，分别达到0.5331、0.5171和0.0227的值。注意，ARI获取的值在1和-1之间。将索引近似为0意味着将所有点放置在随机段中。放置点在随机段中不被认为是最好的情况。具有高Silhouette值的模型被认为是良好的聚类。所提出的方法在这个指标上也取得了很高的价值为了更好地展示表1 中的结果，图1. 7视觉说明了方法的比较。从图7中可以看出，与现有方法相比，所提出的方法展示了更好的结果。在算法实现过程中，该算法将CSE-CIC-IDS 2018数据集准确地划分为三类。每个算法的聚类结果的可视化图示如图所示。八、该方法中使用特征选择方法的目的是在学习过程中提供数据集中不存在零元素的特征，并在使用大的图八、所提出的方法的聚类结果。F.J. 阿卜杜拉耶娃阵列15（2022）10022910++++表2来自CSE-CIC-IDS 2018数据集的选定特征2.fl_dur流程持续时间12.流IAT每秒两个流数据因此，在实验中使用了来自CSE-CIC-IDS 2018数据集的约20个具有非零元素的特征。请注意，此数据集的特征总数为80。使用的功能如表2所示。针对攻击检测精度的评估问题，从准确率、精确率、召回率和F1-score四个方面对该方法进行了评估，并构建了它们的混淆矩阵.在CSE-CIC-IDS 2018数据集上执行的方法的实验结果包括在表3中。3.总转发包前向数据包总数13.平均流量IAT标准品标准差时间两个流从CSE-CIC-IDS 2018数据集的表3中可以看出，PCA DBSCAN模型已将良性类的数据点分类为4.总体重中的数据包总数14.流最大时间准确度为0.9903，DDoS类准确度为1.0000，DoSPkts5.总长度前向包前向数据包的总大小IAT Max15.流量IAT最小值两个流之间的最短时间类，精度为0.9421。该算法在其他指标上也表现出很高的结果。在这里，PCA DBSCAN模型已将数据点分类为良性，DDoS和DoS类，并具有精度得分6.总长度Bwd包7.前向包长度最大值8.前进包反向数据包的总大小前向数据包的最大大小最小尺寸16.前向IAT总计17.前向IAT平均值18.正向IAT两个数据包正向发送的总时间在前向发送的两个数据包之间的平均时间分别为0.9532、0.9822和1.0000，召回分数分别为0.9943、1.0000，和0.9432，并且F1得分分别为0.9721、0.9933和0.9701。当将简单的DBSCAN算法应用于CSE-CIC-IDS 2018数据集时，我们获得的结果较低。该算法无法识别属于DDoS类的任何点，并通过识别错误将其错误地分配给良性类这些点。该算法的准确性度量在连敏正向数据包标准偏差在前向发送的两个数据包之间的标准承认其他类。这里，良性识别的准确性度量为0.5723，DoS识别的准确性度量为0.4912。此外，在k-means的测试中，该算法能够从9.前进包LenMean10.流量字节/秒表3平均尺寸正向数据包流字节率，即每秒传输的数据包数19.正向IATMax20.正向IAT最小值最大时间在两个正向发送的数据包在前向发送的两个数据包之间的最短时间良性和DoS类的准确度分别为0.3002和0.0301。在识别理论中，准确率低于0.5的模型被认为是坏的。该算法在其他指标上的结果也较低当将PCA k-means算法应用于CSE-CIC-IDS 2018数据集时，k-means算法的结果得到了显著改善。因此，PCA k-means算法在以高精度识别来自Benign（0）、DDoS（1）和DoS（2）类的点的精度度量上分别获得这是一个非常好的结果，方法在CSE-CIC-IDS 2018数据集上的准确度、精确度、召回率、F1评分值。识别理论在CSE-CIC-IDS 2018

下载后可阅读完整内容，剩余1页未读，立即下载