AIMM：网络安全中的洪水DDoS攻击检测与解决方案

136 浏览量更新于2024-01-18 收藏 2.01MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

沙特国王大学学报AIMM：洪水DDoS攻击检测Antoni Jaszcz，Dawid Pozyap西里西亚理工大学应用数学系，波兰格利维采，Kaszubska 23，44-100阿提奇莱因福奥文章历史记录：接收日期：2022年2022年6月29日修订2022年7月23日接受2022年7月27日在线提供保留字：安全DDoS检测一种混合求解神经网络K-NNA B S T R A C TDDoS是当今网络上最常见的攻击之一。因此，快速检测系统可以实现自动阻止或通知攻击。在本文中，我们提出了一个框架称为AIMM（人工智能合并方法）。我们的解决方案基于三个模块：预处理传入服务器的数据、分类和决策。最后一个阶段是决策模块，它从所有实现的AI方法中获取概率，并分析/汇总它们，以做出关于攻击的最终决策该思想是基于对到达目标服务器的TCP/UDP信息的分析所描述的技术并不限于所选择的AI方法，并且只是为了测试，我们使用了两种不同的方法：神经网络和k-最近邻。在聚合求解中，采用了软集推理和平均、加权平均技术。该提案在一个名为BOUN DDoS Dataset的公开数据库上进行了性能测试（准确率达到99.5%）。并与现有技术进行了比较，讨论了其优缺点。版权所有©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY许可下的文章（http://creativecommons.org/licenses/by/4.0/）。1. 介绍物联网的快速增长得益于5G网络的引入。主要原因是传输速度提高了一千倍。这种可能性极大地影响了数据传输的发展，以及在数据库中记录或访问它们。通过使用人工智能方法来分析收集的数据，这一点尤其明显。目前，智能系统允许连接到数据库或云的应用程序进行控制。然而，这种机会往往取决于许多因素。第一个是到网络的连接，第二个是可用于服务用户请求的资源第二个问题特别有趣，因为目前深度神经网络训练是通过联邦学习思想实现的。它假设在*通讯作者。电子邮件地址： aj303181@student.polsl.pl （ A.Jaszcz ）， Dawid. polsl.pl（D.Poplaap）。沙特国王大学负责同行审查分布式系统每个用户生成他们用于训练的数据。在达到指定的迭代次数后，模型被发送到服务器，服务器聚合所有模型并将其转发给所有用户进行下一轮训练。然而，必须注意的是，联邦学习，使用应用程序来管理智能系统（例如智能家居）成为攻击的潜在目标。攻击的主要变体是分布式拒绝服务（DDoS），即通过发送许多请求对特定目标进行大规模攻击（见图1）。结果，它们占用了所有可用资源，甚至阻塞了队列。其后果往往是整个系统的中断甚至阻塞。如今，这种类型的攻击非常常见（Snehi和Bhandari，2021）。最新的DDoS攻击之一是2020年对亚马逊网络服务（AWS）的攻击。这是此类攻击中规模最大的一次，最高时达到2.3 Tbps。它持续了三天，但没有成功。关于DDoS检测和防御的复杂讨论在Zeebaree等人（2020）中进行了描述。主要的观察结果是，大多数研究人员基于网络中的单个控制器来建模解决方案。此外，他们还指出，机器学习解决方案可能是最有前途的方法，因为它可以检测到可能的未知攻击者，并实现全过程自动化。目前对DDoS攻击的研究可以分为两大类：攻击检测和防护。检测可能是一个困难的问题，因为攻击可能来自不同的https://doi.org/10.1016/j.jksuci.2022.07.0211319-1578/©2022作者。由Elsevier B.V.代表沙特国王大学出版。这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comA. Jaszcz和D. 波什纳普沙特国王大学学报8091Fig. 1. DDoS攻击的可视化。源在Jakakmakçi等人（2020）中，作者提出了一种方法，该方法每分钟提取四个基于熵的特征，并通过使用Mahalanobis距离将其用于检测。该提案侧重于分析可以表征攻击的特征。另一种方法是使用卷积神经网络来创建特征图并使用它们来检测攻击（Doriguzzi-Corin等人，2020年）。这些解决方案是基于交通流分析与预处理机制，创建交通观测。Haider等人（2020）也提出了类似的想法，其中卷积神经网络与特征缩放一起用作数据预处理机制。除了卷积网络之外，还有其他类型的网络用于讨论检测问题比如STELM，它是经典网络与ELM的组合（Ravi和Shalinie，2020）。不仅使用了神经网络，而且使用了支持向量机。一个这样的例子被描述为由核主成分分析（用于减少特征的维数）和遗传算法（用于找到最佳参数）组成的混合解决方案（Sahoo等人，2020年）。同样在Tuan等人（2020）中，不同机器学习算法的性能在优点和缺点方面进行了展示和讨论。在这项研究中，作者使用了神经网络，支持向量机，决策树，朴素贝叶斯等，结果表明，无监督学习是DDoS攻击检测的最佳工具之一。另一种方法被示出为多特征检测（Zhijun等人，2020年）。它基于一个因子化机器，从流规则中提取特征并将其用于检测。另一种方法是使用匹配追踪算法来检测资源枯竭（Erhan和Anarim，2020年）。侦查是一个研究课题，另一个是防御解决方案防御机制可以基于流量熵的分析（Mishra等人， 2021年）。关于流量变化的类似想法与机器学习解决方案一起使用，以检测、识别和分类DDoS攻击（Jia等人，2020年）。另一种方法是分析提取的特征，并使用卷积神经网络从数据分布中学习此特征。这样的神经模型被用作决策者来防御（Liu等人， 2020年）。防御DDoS攻击的一种流行技术是缓解，即使用一种机制将流量重定向到过滤流量的中心。Dahiya和Gupta（2021）提出了这种缓解机制，其想法是引入声誉评分政策和贝叶斯博弈论。机器学习方法也用于缓解机制这可以在佩雷斯-迪亚斯等人的著作中看到。（2020年）。他们建议使用多种深度学习技术来创建灵活的安全架构。另一个想法是在最终分类之前使用具有Netflow分类器的阈值确定器的特征选择器（Ko等人，2020年）。此外，提出了不同的框架来检测攻击。例如，Priyadarshini和Barik（2019）描述了一种针对DDoS攻击的雾网络保护解决方案为此，应用了LSTM模型其主要思想是分析和过滤进入服务器的合法数据包。此外，Patil等人提出了一种新的分布式架构。（2019 年）。这个建议很有趣，因为 Hadoop 集群中使用reducer的大型Alhijawi等人（2022）编写了关于当前DoS/DDoS方法的复杂调查。不同的已知解决方案被集中到几个组中，如机器学习、混合解决方案、架构等。这种方法证明了DDoS攻击可以非常快地被检测到，但需要经过训练的工具。作者还描述了未来的研究方向，如开发基于图的机器学习解决方案，或聚类方法，例如k-nn。同时指出，在参数分析和优化方法上应多加注意。特别是，最小化假阳性结果。检测机制的重要性非常重要，尤其是在物联网时代，不同的设备需要保护（Madan et al.， 2022年）。基于这些观察，机器学习解决方案是检测潜在DDoS攻击的最佳解决方案之一。在本文中，我们提出了一个安全系统检测DDoS攻击。我们的想法是使用一个混合的解决方案，结合k最近的邻居（k-nn）算法与人工神经网络（ANN）。混合算法是基于从每个分类器中收集攻击/不攻击的概率，然后使用推理模型来评估所有的概率。该方案非常灵活，即使在数据库中用于训练神经模型的样本数量很小时也可以使用。另一个优点是，由于其他不可训练的方法，如聚类方法，可以在没有早期训练的神经网络的情况下使用这种方法。本文的主要贡献可以描述为：一个称为AIMM的通用框架，可以很容易地扩展到基于三个阶段/模块的其他AI方法，该方法由于使用聚类方法而可以应用于新的系统或环境-这种动作允许训练机器学习模型并且同时通过其它不可训练的用于选择最佳分类器的软集合推理（并且作为聚合方法），三阶段方法，其灵活地实现额外的方法而不过度训练现有的方法，从AI方法获得的概率的不同聚合技术。本文共分为四个部分，首先对DDoS攻击进行了介绍和描述。接下来，在第2节中，描述了所提出的框架的主要数学模型。第3节专门介绍了在公共数据集上的实验结果，并讨论了所获得的结果。第4节总结了方法及其结果。2. 框架架构本节介绍我们的建议和在DDoS攻击期间获得的服务器信息。该命题基于三个阶段-该建议的基本可视化如图所示。二、●●●●●A. Jaszcz和D. 波什纳普沙特国王大学学报8092n.ΣKhiFG.X2ð·Þð·Þð·Þ ¼ð·ÞXX.Σ22.1. 预处理模块原始形式的原始数据很难评估和处理。因此，可以使用一些预处理技术来帮助进一步的分类器过程。为了更清晰地查看数据集，某些时间段，而不是单一的例子，被考虑。通过这样做，一个子-2.2.1. k-NNk-nn是基于所有样本之间的距离的计算和具有它们的最短距离的k之间的投票的概率估计器。在数学上，这可以被可视化为给定样本p到m类的后验隶属关系：p^mjp1XI.dp;pi6d.p;pkiyik;K形成了具有新特征的数据集，严重降低了quan，原始数据的完整性，而不会失去其质量。例如，通过计算元素的和/乘/平均值（以及1/1m¼ 1;.. . ;L;ð5Þ他们的关系）在一定的时间段，然后把它们用图形表示出来，人们可以区分数据的重要方面，从模糊的（见第二节）。 3.3）。这个过程可以在数学上描述为将集合U的时间序列元素改变为集合V的元素。集合U被标识为原始数据库，集合V被标识为经处理的数据库。初始数据库描述如下：U¼t;x1;x2;. ;xn：t2R;n2N1其中t变量是一个正数，表示某个时间点（例如秒），xi是第i个属性，n是所有属性的数量。然后，我们可以定义从U中选择的元素的子集为：sj½u1;u2;. . . ;um]：ui2U;i;j;m2N2其中pk是来自样本p的第K个值。得到这个会员资格，最终结果通过以下方式获得：d^KNNpargmaxp^kjp：62.2.2. 安ANN是一种神经架构（Chen等人，2020;El-Mahelawi例如，2020），其中基本单元称为神经元，神经元通过突触（它们之间的连接）从另一个神经元获得信息。这个突触有一个权重值，它是一个随机值，0; 1它是在培训过程。神经元可以连接到许多神经元并且它从它们接收值yi（i是神经元的数量，权重wi）。在得到由yi;wi组成的所有集合之后，最终结果被定义为：其中s是来自集合U的元素的第j个向量，其满足以下条件：y/fR1/4我爱我！;207ti2 htaj-1;taj;3其中，Tlui和Ta是常数值（由用户选择，用于定义用于分析的特定时间段，实例ta 1/40： 5）。那么我们的集合V可以描述为：V¼f½g1s;g2s;.. . ;gmsl]：l2Ng4其中，g是将给定序列an转换为单个变量的特定函数，并且l是所有向量的数量。在我们的例子中，我们在V集中定义了四个函数：唯一IP地址的数量，最大IP数量，所有包的大小，所有包的总和。2.2. AI模块我们的建议在添加更多AI算法方面是灵活的。唯一的要求是通过使用处理后的信息并返回攻击概率来实现该方法。作为测试和初始方法的一部分，我们建议使用其中r是发送数据的所有神经元的数量，f是一个激活功能的规模这价值，为例如ftanh。网络被称为一组排列在列（层）中的神经元。每一层的神经元从上一层的神经元获得信息，并被发送到下一层。在这样的结构中，两层神经元从每个人到每个人都连接在一起。此外，还介绍了各个层的术语。左边的层称为输入，因为它接受向量值并转发它们。右边是最后一层，被理解为输出，因为返回属于特定类的概率（这里是攻击，没有攻击）。它们之间的所有层都被称为隐藏层，处理数据。该结构的训练过程基于根据最小化损失函数的权重的损失函数被理解为分析训练集D的训练过程中的误差的平均值：1jDj-1o-1L¼y0-y;108公斤在这一节中，我们简要地描述了它们在所分析问题中的操作。2·jDjj<$0k<$0j;kj;k图二、建议解决方案的可视化一个加号被理解为一个决策模块与聚合方法获得的结果。A. Jaszcz和D. 波什纳普沙特国王大学学报80931-tbwtm^;13t其中O是类的数量（以及输出层中神经元的数量）。最常用的训练算法被称为ADAM（Kingma等人，2015年）和重量的修改是基于S T A -统计系数：平均值m和变化v（具有分布系数，ficients b1 和b2）计算如下：2.3. 决策模块让我们假设在分析的框架中，有n种不同的AI方法。因此，我们将有2n个概率值相等地分配给攻击和不攻击。它可以表示为mBM1bg9the形式：袭击是hpa;pa;.. . ;pai和没有攻击作为t¼1不2T-1型多功能车t-1-1吨;2吨i221 2Nv¼b v1-b1 2N在得到上述值之后，定义相关性：m^t¼mt;2011年1v攻击/不攻击的分类。有这么多不同的分类-将概率分解为单个类，我们提出了三种不同的方法来分析这种概率：经典平均，加权平均和软集推理。上面描述了这些方法中的每一个的细节，但是实现细节在下面描述。v^t¼不1-bt：1200显示在Alg。二、具有这种相关性，用于将当前迭代t中的权重改变到下一迭代t1的公式被公式化：算法2：提案框架的决策模块的伪代码。最大功率G-pv^ts其中s=0;g是学习率。2.2.3. AI模块所提出的框架是基于初始预处理阶段。传入的数据由不同的操作处理以提取特定的特征/信息。这些操作包括求和、求平均等（有关应用方法的更多信息，请参见第2节）。2.1.首先，输入的数据应该通过不同的AI方法进行分析。然而，建议必须训练每个分类器或加载权重（在选定分类器已经训练的情况下）。如果模型被训练或权重被加载，则分类器可以对给定样本进行分类。它的结果被保存为攻击和不攻击的概率。在Alg中提出了用于重新实现目的的算法。1.一、算法1：提案框架前两个模块的伪代码。2ps;ps;.. . ;ps .该模块的操作基于分析-不给定概率的集合解决方案计算A. Jaszcz和D. 波什纳普沙特国王大学学报8094npn1np>：p¼Xp·ki;我þ¼><¼pi·ki;3.1. 数据集2.3.1. 经典平均法这种方法假设所有分类器都是相等的，因此结果将计算为：>8a1Xai¼0nð14Þ3. 实验本节分为数据集描述、实验设置、进行的实验和讨论以及与最新技术的比较。>：ps1Xps;最终检测将根据：出手paps;无攻击如果psps：<2.3.2. 加权平均ð15Þ（Erhan和Anarim，2020），以及对数据收集过程和数据集本身的透彻解释。可访问的数据由两个独立的子数据集组成，分别具有TCP洪水和UDP洪水类型的攻击。在这两个数据集的情况下，数据包括正常的大学双向流量，混合模拟攻击，跨度约为8分钟。攻击数据包的IP地址是随机生成的，第二种方法假设所获得的概率将对分类器具有一定的权重依赖性。在先前聚合的情况下（参见第2.3.1节），权重自动设置为1。在这里，每个分类器将被评估，以确定他是否经过适当的训练。为此，对于每个分类器，从数据库D中随机选择25个样本，并通过计算准确度acc用于评估。然后，每个分类器i根据以下公式获得权重ki并且真实用户的那些被改变以保持他们的敌意。数据集中的样本包含以下信息：1. 时间：时间，2. Frame Number：数据集中数据包的增量计数，3. 帧长度：以字节为单位的数据包大小，4. 源IP：（欺骗的）源的IP地址5. 目的地IP：目的地的IP地址，ki¼8>>< 如果 acciP0：9然后0@-1X1A;ð16Þ6. Source Port：数据包的源TCP端口。如果不是TCP数据包，则此字段为空，7. 目的端口：数据包的目的TCP端口如果>：else0：j¼0^accjP0：9不是TCP数据包，此字段为空，8. SYN：在该版本中，每个具有高于0： 9的准确度的分类器都得到了为实现类似准确度水平的所有分类器正确计算的权重。权重的分配方式不以在至少一个分类器较弱时降低总体准确度。有了权重，平均概率计算如下：>8米Xai¼0nð17ÞSYN标志等于1，如果数据包是TCP数据包并且其SYN标志等于0，则它等于如果数据包不是TCP数据包，则此字段为空，9. ACK：如果数据包是TCP数据包并且其ACK标志等于1，则该值为“Set”，如果数据包是TCP数据包并且其ACK标志等于0，则该值等于如果数据包不是TCP数据包，则此字段为空，10. ：如果该数据包是TCP数据包并且它的TCP标志等于零，则它等于如果分组是Ss我1/4并且将使用Eq.（十五）、2.3.3. 软集合推理第三种类型的聚合基于软集合推理的思想（ Sirrasekhar 和Mathur，2016）。在这种方法中，只选择最好的分类器进行分类。但如果我们有两个ANN实例，然后我们建议对这些值取平均值。因此，使用软集合推理的选择基于计算ci的乘积之和，其被理解为乘以权重的特征集合。在这里，我们使用等式中（16），则推论将被定义为：最大值ci¼最大值1·acciia2·TP;最大值18其中TP表示真阳性，并且它是指示测试样本中的攻击的几个真分类样本。a1和a2 （a1a21）是所选特征的权重。该方法在所有使用的AI中指示最佳分类器，并将此概率作为结果。不是TCP数据包，此字段为空，11. TTL：数据包的生存时间值，12. TCP协议：如果数据包属于传输层IP协议，则该值可以是TCP或UDP。否则，该值可以具有不同的值。为了方便对数据库的研究，攻击遵循以下特征：1. 每80秒和最后20秒发起一次攻击（前80秒无攻击）。2. 只有一个目的地受到攻击，其IP为：“10.50.199.86”。此外，在每个攻击实例中，使用TCP目的端口803. 为了提供更多的多样性，在数据集中，攻击周期具有以下速率：1000、1500、2000和2500（包/秒），它们以该顺序随着每个攻击周期而增加。随着数据集的出现，出现了三个主要问题：1. 大量的数据（数百万行，占用大约2 GB的磁盘空间）使得计算几乎不可能在合理的时间内执行。（1/4在我们的实验中使用的所有数据都是由Bogaziçi大学收集和准备的，可以在下面的文章中访问A. Jaszcz和D. 波什纳普沙特国王大学学报80952. 虽然数据库包含大量信息，但其原始形式提供了相当少量的价值，我们可以在此基础上构建检测机制。3. 数据集不平衡，攻击期和宽限期之间的比例为1：5。3.2. 数据预处理为了解决这些问题，我们决定最好的方法是使用第2.1节中所示的预处理技术手动转换数据，并平衡数据集中良性样本的3.2.1. 特征提取在我们的实验中，我们决定从初始数据集中提取以下属性：1. 所选时间窗口中唯一目标IP的数量2. 所述IP在所选时间窗口中的最大迭代次数。3. 所选时间窗口中数据包大小的总和。4. 在所选时间窗口内发送的数据包数。在我们的实验中选择的时间窗口是0.5 s。选择这些功能背后的动机是DDoS攻击的唯一性质。由于DDoS攻击是在僵尸网络上进行的，因此许多新病毒的突然涌入是相当可疑的。当然，在日常生活中，这种情况可能是由普通用户引起的（例如在网上销售期间）。然而，这是一个很好的指标，表明互联网流量正在发生一些不寻常的事情，特别是如果发送的包的密度也相对较高。3.2.2. 平衡数据为了稳定数据集，可以在攻击之间的每个时段中从后处理数据集中移除足够量的随机选择的非攻击样本。在我们的实验中，我们对这两种情况进行了研究，以确定解决问题的最佳方法。对于平衡数据，测试了TCP-SYN和UDP洪水攻击检测，对于不平衡数据，仅测试了TCP-SYN洪水攻击类型检测在应用了第二节中描述的两种方法后，3.2.1和3.2.2，获得了平衡的TCP-SYN和UDP洪水类型数据集。这些后处理数据集的可视化显示在：3和4的TCP类型的攻击，以及图。5和6用于UDP-见图4。在TCP泛洪类型场景中，唯一地址的数量、这些地址的最大出现次数和平均数据包大小之间的关系。图五.在UDP泛洪类型方案中，唯一地址的数量与这些地址的最大出现次数之间的关系。型攻击。3.3. 设置在我们的实验中，我们使用从0.5-s-周期获得的对象，如上所述。结果，有960起攻击或宽限期事件。在数据平衡的过程中，多余的非攻击样本被丢弃，如3.2.2小节所述。结果，平衡后处理数据库的最终版本由320个元素组成，攻击和非攻击实例的数量相等然后将这些数据以4比1的比例分为训练组和验证组（因此，对于不平衡的数据集，训练组中有768个对象，验证组中有192个对象平衡的一个包含训练组中的256个对象和验证组中的64个对象）。图三.在TCP泛洪类型场景中，唯一地址的数量与这些地址的最大出现次数之间的关系。3.3.1. 不平衡数据的ANN模型：输入层输入层由单个整数组成，其信号然后被传递到隐藏层。在我们的实验中，A. Jaszcz和D. 波什纳普沙特国王大学学报80962fg2fg见图6。UDP泛洪类型场景中唯一地址的数量、这些地址出现的最大次数和平均数据包大小之间的代表了第3.2.1小节中提到的多个唯一IP，在所有配置中产生最佳结果。隐藏层在这个模型中，我们使用了一个dropout层（速率设置为0.5）和四个密集层（激活设置为Rectified Linear Function）。这些层的顺序和其中的神经元的数量是（密集层表1不平衡数据的计算指标（仅限TCP）。具有10个神经元和具有S形激活函数的输出层，仅产生[0，1]范围内的一个浮点输出）。3.3.2. 平衡数据的ANN模型输入层输入层由n个整数输入神经元组成，其中n是后处理数据集中提取的特征数量。在我们的实验中，n值适当地等于4，如所描述的在第3.2.1小节中。隐藏层在这个模型中，我们使用了一个数据规范化层和四个密集层（带有线性激活函数）。这些层的顺序和其中神经元的数量为（密集层-具有3.4. 进行了实验所进行的实验分为两个任务。首先分析了决策模块中集结方法的选择。然后采用最佳聚集方法进行性能测试。通过使用两个相同的ANN（通过100和200次迭代训练）和三个k-nn实例（k 1; 2; 3 .结果如图17所示。根据所获得的结果，最高的准确度达到了加权平均又是经典平均法中最糟糕的。值得注意的是，当至少一个分类器具有较低的准确性，那么平均结果也将取决于它。再次，添加权重导致，只有最好的分类器被选择，并且当数据库具有更多样本时，将来可能会使用最差的分类器。第三种是软集推理，其结果是中等精度。这是由真阳性样本分析引起的。在这种推理将根据最高效率进行选择的情况下，分类器，识别攻击的存在比攻击本身将被选择。因此，最好的决策方法将是加权平均。在我们的研究的这一步中，我们使用加权平均来检查所提出的框架。在这些测试中，ANN经过500次迭代训练在聚集之前和之后测试每个分类器所获得的结果显示在表中。1、Tab。2（对于平衡数据集）。对于不平衡的数据集，ANN在0.845的水平上达到最差的准确度，并且在n^3的情况下达到最好的k-nn然而，这两种解决方案的组合达到了表2平衡数据的计算指标。两种变体的最高准确度为0.995（n第2、 3段）。使用单一算法和所提出的技术之间的主要区别是召回值，分类器检测到阳性结果的比例是多少。为了更准确地分析所获得的结果，计算了混淆矩阵，并显示在图7、8和13a中。在图7和图13 a中，ANN和k-nn的结果表明，神经网络在检测真正的攻击方面更好，而另一种分类器的情况则相反。只有框架允许结合他们的最佳结果，可以看出在图. 8.第八条。在该矩阵中，分类几乎是完美的。正常的网络流量进行适当的分析，k-nn和杂交与人工神经网络允许它增加攻击的检测率。其余的计算结果也表明该框架具有更好的度量标准，可以用于实际应用。在图14中，绘制了ROC曲线。基于它们，该框架证明是一个更好的分类器，具有更少的适应方法（如k1）。精度召回f1得分精度k-nn，k = 11.000.720.840.953k-nn，k = 21.000.440.610.906k-nn，k = 31.000.880.930.979安0.520.970.670.845建议k = 11.000.720.840.953建议k = 21.000.970.980.995建议k = 31.000.970.980.995攻击类型精度召回f1得分精度k-nn，k = 1TCP0.96550.87500.90320.9063UDP1.00000.90630.95080.9531k-nn，k = 2TCP0.96000.75000.84210.8594UDP1.00000.81250.89660.9063k-nn，k = 3TCP0.96430.84380.90000.9063UDP1.00000.96880.98410.9844安TCP1.00000.96880.98410.9843UDP1.00000.96880.98410.9844建议k = 1TCP0.96550.87500.91800.9219UDP1.00000.90630.95080.9531建议k = 2TCP1.00000.93750.96770.9688UDP1.00001.00001.00001.0000建议k = 3TCP1.00001.00001.00001.0000UDP1.00001.00001.00001.0000A. Jaszcz和D. 波什纳普沙特国王大学学报8097¼在使用更好调整的分类器（例如k 2; 3）的情况下，它实现了几乎完美的结果，类似于最好的使用方法。在平衡数据集的情况下，结果（见表1）。二、TCP SYN洪水攻击的准确性，仅使用当使用k= 1或k= 3。人工神经网络能够达到98%的准确率，结果证明是一个更好的选择。这是一个非常好的结果的准确性，特别是在案件小型验证数据库（如这里），这证明了每个样本都被纠正和分类。然而，最好的结果与所提出的方法。使用三个邻居，该方法的准确度为100%（对于平衡数据集）。所有的攻击和他们的缺席都被正确分类。更见图7。具有不同参数k值的k-nn的混淆矩阵，用于不平衡数据（仅TCP-SYN洪水类型攻击）。见图8。对于不平衡数据（仅TCP-SYN洪水型攻击），在k-nn中具有不同参数k图9.第九条。具有不同参数k值的k-nn的混淆矩阵，用于具有TCP-SYN洪水类型攻击的平衡数据A. Jaszcz和D. 波什纳普沙特国王大学学报8098这些参数的精确结果在图 9 （ k-nn ）、图 10 （建议）和图 13b（ANN）中的混淆矩阵上给出。矩阵表明个别样品不正确。在k-nn的情况下（见图1）。9、预测误差主要发生在没有攻击时的结果对于神经网络，情况正好相反。因此，所提出的方法达到了最好的结果（参见图10）。在图15中的ROC曲线上也可以看到。当然，这些结果是针对TCP SYN洪水攻击的。在UDP的情况下，进行的结果表明，良好的结果的水平上的90%的每种方法。然而，k-nn和神经网络允许达到最大98.5%，当所提出的方法是一个理想的预测精度（见表1）。图2和图16。基于图1中计算的混淆矩阵。在图11-12 和13c中，结果显示了与TCP SYN的情况类似的情况分类器见图10。对于具有TCP-SYN洪水型攻击的平衡数据，在k-nn中具有不同参数k见图11。具有不同参数k值的k-nn的混淆矩阵，用于具有UDP洪水类型攻击的平衡数据。见图12。用于具有k-nn中的参数k的不同值的建议方法的混淆矩阵，用于具有UDP洪水类型攻击的平衡数据。A. Jaszcz和D. 波什纳普沙特国王大学学报8099图十三. 每个测试数据集的ANN模型的混淆矩阵。见图14。针对不平衡数据（仅TCP-SYN洪泛类型攻击），在k-nn中具有不同参数k表明当时没有袭击这种情况在真正实施的情况下是非常危险的。因此，我们的提议k = 2和k = 3是一个更好的情况。的原因它是攻击和不攻击的正确预测3.5. 与最新技术水平的在前一阶段，我们分析了各个分类器的操作，以及所提出的框架。该命题的结果在整个数据集（非平衡）上达到了0.995的精度水平，在平衡数据集（随机）上达到了1.0的精度水平图15.用于评估平衡TCP攻击类型数据的所有模型的ROC比较。选择样本以在两个类上获得相同的数字）。这是文献中报告的最高结果。与最新技术水平的比较见表3。所得结果比基于熵分析的模糊聚类方法的结果好0.12%左右。在目前的研究状态下，最常见的解决方案是基于机器学习，可以看出基于模糊逻辑（Ate s等人， 202 0），或集群化（Özçam等人，2021年）。在本文中，所提出的框架也是基于机器学习的方法，但重点是主要的方法来分析其概率。这些图16.用于评估平衡UDP攻击类型数据的所有模型的ROC比较。A. Jaszcz和D. 波什纳普沙特国王大学学报8100图17.通过使用选定的聚合方法对五种不同分类器进行准确性分析。在测试期间，准确度为：具有10次迭代的ANN-0.62，具有20次迭代的ANN- 0.85，k= 1-0.96的k-nn，k= 2-0.91的表3与最新技术水平的比较。方法准确度Isolation forest，Özçam et al. （2021年）0.971统计模型，Erhan（2019）0.975K-means clustering，Özçam et al. （2021年）0.982LDDM，Liu等. （2021年）0.950Clustering，Ate s，etal. （2019年）0.994模糊逻辑与熵分析，等。（2020年）0.994我们的主张我们的主张研究有助于提高基于测试数据库的DDoS攻击检测率的当前最高准确性此外，还应注意的是，所提出的解决方案是灵活的，分类器可以很容易地改变。如果神经网络已经被训练过，那么使用非学习算法将是多余的。然而，这样一个使用聚类方法（如k-nn）的解决方案允许系统即使在没有经过训练的网络的情况下也能实现（它可以并行训练）。4. 结论在本文中，我们提出了一个框架，称为AIMM（人工智能合并方法）的快速检测DDoS攻击。我们的建议是基于三个模块：预处理，分类，决策。服务器接收来自用户的信息，并由第一模块进行处理。这种处理意味着为分类器以更易访问的形式获得信息然后，这些数据由AI分类器处理它们中的每一个都返回由决策模块收集的攻击概率。基于所有聚集的概率，进行聚集并做出最终决策。我们的建议在分析的数据库上达到了99.5%的高准确度，并且优于最先进的独立方法。实现的比较表明，AIMM在实际应用中可以高效地实现.此外，所提出的架构允许通过将结果传输到下一个模块来使用附加AI模块进行简单扩展。作为本文的一部分，我们还指出了几种方法，选通结果来做决定根据研究测量，最简单的平均值被证明是最佳解决方案。然而，应注意，如果至少一个分类器的有效性低，则其将自动影响整个框架。因此，最好的方法是在训练的初始阶段使用权重聚合。只有在每个算法达到高性能阈值后，才值得对结果进行平均。作为研究的一部分，我们已经获得了一个框架，可以修改和实现效率很高。主要优点是添加其他类型的分类器并增加其数量的简单性。此外，将k-nn等聚类方法与深度学习相结合，可以在机器学习方法未经训练的情况下在系统中工作。在聚类分类过程中，可以并行训练另一个分类器。等待所提出的方法的挑战是它的扩展到其他攻击方法。在本文中，我们重点讨论了选定的，但还有许多其他的。此外，它也是值得关注的推广所提出的方法到多智能体系统。进行的实验也表明多个分类器的迭代操作的问题。它可以大大缩短系统响应时间。因此，在未来的研究中，我们计划将重点放在这些方法的杂交的可能性，甚至引入并行。CRediT作者贡献声明Antoni Jaszcz：概念化，方法论，软件，数据管理，验证，调查，可视化，写作概念化，验证，写作竞争利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作。确认这项工作得到了西里西亚理工大学的资助，资助号为09/010/RGJ22/0067和BKM-661/RMS 2/2022。引用Alhijawi，B.，Almajali，S.，Elgala，H.，Salameh，H.B.，Ayyash，M.，2022年。sdns中dos/ddos缓解技术综述：分类、比较、解决方案、测试工具和数据集。Comput.电动Eng. 99，107706。在2008年，Özdel，S.，Anarim，E.，2019年。利用封包标头间的关系进行分群式ddos攻击侦测。在：2019年智能系统和应用创新会议（ASYU），IEEE，pp。 1比6在2008年，Özdel，S.，Anarim ，E.，2020年。基于模糊逻辑的Ddos检测算法。在：2020年第28届信号处理和通信应用会议（SIU），IEEE，pp。一比四Zakmakçi，S.D.，Kemmerich，T.，Ahmed，T.，Baykal，N.，2020.基于马氏距离和核学习算法的在线ddos攻击检测。J. 网络计算申请168，102756。阿布拉塞卡，美国，Mathur，S.，2016.使用模糊软集推理系统进行决策。在：第三届大数据和云计算挑战国际研讨会（ISBCC-16 '），施普林格，pp。 445- 457陈淑仪，Mahmoodi，M.R.，施，Y.，Mahata角，袁，B.，梁湘，温，C.，Hui，F.，Akinwande，D.，Strukov，D. B.，例如，2020.人工神经网络用高密度忆阻交叉阵列中二维材料的晶圆级集成。Nat.Electron.3，638-645.Dahiya，A.，古普塔，B. B.，2021.基于信誉评分策略和博弈论的ddos攻击缓解和网络防御激励机制。未来一代Comput.系统117，193-204。Doriguzzi-Corin 河， Millar ， S. ， Scott-Hayward ， S. ，Martinez-del Rincon ， J. ，Siracusa，D.，2020. Lucid：一个实用的轻量级深度学习解决方案，用于DDoS攻击检测。IEEE Trans.网络Serv. 管理。17，876-889。A. Jaszcz和D. 波什纳普沙特国王大学学报8101El-Mahelawi，J.K.，Abu-Daqah，J.U.，Abu-Dagafa，R.I.，Abu-Nasser，B.S.，Abu-Naser，S.S.，2020年。使用人工神经网络进行肿瘤分类。 Int. J. Acad.工程资源四、尔汗，D.，ÖZDEL，S.，阿纳里姆，利用统计模型进行分布式拒绝服务检测。尔汗，D.，Anarim，E.，2020.基于匹配追踪算法的混合ddos检测框架。IEEE Access 8，118912-118923。尔汗，D.，Anarim，E.，2020.博加济奇大学分布式拒绝服务数据集。数据简报32，106187。doi：10.1016/j.dib.2020.106187。Haider ， S. ， Akhunzada ， A. ，穆斯塔法岛 Patel ， T.B. ，费尔南德斯， A. ，周，K.K.R.，Iqbal，J.，2020年。软件定义网络中用于有效ddos攻击检测的深度cnn集成框架。电话：853972 - 53983Jia， Y. ， Zhong ， F. ，中国农业科学院， Alrawais ， A. ，贡湾，加 - 地郑， X

下载后可阅读完整内容，剩余1页未读，立即下载