高级持续威胁的机器学习检测方法

66 浏览量更新于2023-12-09 收藏 1.2MB PDF 举报

网络安全

机器学习模型

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

埃及信息学杂志23（2022）45一种检测高级持续威胁Jaafer Al-SarairehAl-Ahad，Ala约旦苏马亚公主理工大学侯赛因国王计算机科学学院阿提奇莱因福奥文章历史记录：2022年3月21日收到2022年5月29日修订2022年6月22日接受2022年7月14日在线提供保留字：高级持续威胁机器学习极端梯度提升方差分析A B S T R A C T近年来，由于人类对新技术和系统的依赖，网络安全引起了人们的广泛关注。因此，保护这些系统免受网络攻击已成为当今的一项重要任务。高级持续性威胁是最复杂的网络攻击之一，其中恶意行为者未经授权访问网络，并且在很长一段时间内未被发现。记录的高级持续威胁攻击和对组织的威胁的数量正在增加。用于检测高级持续威胁攻击的一种方法是机器学习。然而，由于缺乏覆盖整个高级持续性威胁攻击生命周期的数据集，这种方法在以前的许多研究中都没有涉及。因此，本文旨在构建一个新的数据集，涵盖高级持续性威胁攻击的完整生命周期，以在正常、侦察、初始入侵、横向移动和数据泄露活动等不同阶段检测它们。新收集的数据集基于使用战术，技术，程序和妥协指标的高级持续威胁攻击然后，它被应用到一个建议的机器学习模型，采用极端的梯度提升和方差分析特征选择方法。该模型与其他传统分类器：随机森林，决策树和K-最近邻进行了比较。该模型仅使用12个特征就获得了99.89%的准确率，证明了它在检测高级持续性威胁攻击方面比其他分类器更强大和有效本研究中使用的数据集是基于高级持续性威胁攻击行为新构建的，这将有助于组织有效地检测高级持续性威胁攻击活动。实验结果表明，该方法能够有效地检测不同阶段的高级持续性威胁攻击©2022 The Bottoms.由Elsevier BV代表计算机和人工智能学院发布开罗大学法律系这是一篇CC BY-NC-ND许可证下的开放获取文章（http：//creative-commons.org/licenses/by-nc-nd/4.0/）上提供。1. 介绍保护数据已成为一个问题，吸引了全世界每一个人高级持续性威胁（APT）攻击由国家赞助的威胁行为者执行，黑客攻击和渗透全球不同系统的主要目标。这些攻击通常利用称为零日的未知漏洞。由于缺乏整个生命周期的数据，减轻此类攻击并检测它们可能是一项无休止且令人烦恼的任务。安全实体已经寻求通过以下方式来防止APT威胁：*通讯作者。电子邮件地址：j. psut.edu.jo（J. Al-Saraireh）。开罗大学计算机和信息系负责同行审查。在他们的早期阶段识别他们。以前的文献研究没有提供关于APT攻击的整个生命周期的可靠数据集，这可以加强检测和缓解它们的努力。此外，由于当前覆盖该主题的方法的限制，APT攻击仍然是当今安全实体面临的问题，其中自定义渗透测试（PT）和当前检测方法不能减轻这种攻击[1]。已经进行了大量的研究来使用人工智能（AI）检测和减轻APT攻击这些检测方法的成功在很大程度上依赖于所使用的数据集另一方面，APT一直在使用AI智能地创建新的和更复杂的攻击方法，使检测它们更具挑战性[2]。因此，应该实施一种新的方法来解决这些问题。网络威胁情报（CTI）对于收集有关APT行为的综合数据库CTI协助管理各种APT组的妥协、技术、战术和协议的指标。安全分析师可以使用这些信息来了解-https://doi.org/10.1016/j.eij.2022.06.0051110-8665/©2022 THE COURORS.由Elsevier BV代表开罗大学计算机和人工智能学院出版。这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表埃及信息学杂志杂志主页：www.sciencedirect.comJ. Al-Saraireh和Ala埃及信息学杂志23（2022）4546更好地抵御APT攻击。它还有助于确定应追查哪些防止APT团体，因为CTI提供的信息有助于弥补系统所需的差距和脆弱性。CTI可以来自安全组织内部、CTI源提供者或与世界各地的其他安全组织合作[1]。本研究论文中解决的问题陈述是，PT方法仅涵盖系统中的现有漏洞，而不考虑APT组利用的可能损害此类系统的任何新的潜在漏洞。此外，以前的文献研究没有提供关于APT攻击的完整生命周期的可靠数据集，这可以增强检测和减轻它们的努力。本文的动机来自于增强和提出一种有效的APT攻击检测方法，该方法使用基于APT攻击中使用的已知模式的为了了解他们的意图和可能的演习，有必要全面分析不同的APT这可以帮助减少此类攻击所利用的漏洞，并在成功之前及早检测攻击。本研究的主要目的是利用CTI生成数据集，以帮助开发PT方法和检测模型。此外，提出了一个模型，使用ML检测APT攻击，并实现了比较分析，以评估在这项研究工作中的方法，以验证所取得的成果这项研究工作的主要内容是提出一个模型来检测APT攻击的基础上使用ML利用一个新的数据集在这项研究中创建的行为本文的组织如下：第2节提供背景和回顾相关的工作;第3节详细介绍了拟议的模型框架和方法的大纲;第4节介绍了结果和讨论。第五部分讨论了结论和未来的研究方向。2. 背景和相关工作本节旨在提供背景材料，将这项研究纳入背景，并为这篇研究论文对知识的贡献设置场景2.1. 高级持续威胁（APT）APT的概念是在对美国军队的攻击之后出现的。他们受到各种黑客不同类型的攻击。由于他们请求文职专家协助阻止这类袭击，他们不想与这些平民讨论袭击的起源。但与此同时，他们希望民间专家这些袭击是严重的，毁灭性的美国国家标准与技术研究院（NIST）对APT的定义如下（NIST，2012）：‘‘An网络、物理和欺骗），以创造实现其目标的机会，这些目标通常是在组织的信息技术基础设施中建立和扩大其存在，以持续渗透信息，破坏或阻碍任务、计划或组织的关键方面，或使自己处于未来能够这样做的位置;此外，APT在很长一段时间内反复追求其目标，适应防御者APT攻击是精心策划的，需要几个步骤。APT组织可能有不同的特征，但他们的攻击阶段是相似的，唯一的区别可能是在战术和技术在每个阶段。APT攻击的阶段是[1，3]：阶段1侦察：APT威胁组不会随机攻击。他们经常根据雇主的需要选择目标。有些信息是通过社会工程或开源情报（OSINT）收集的。阶段2交付：它将漏洞利用交付给目标。该漏洞直接通过网络钓鱼或鱼叉式网络钓鱼电子邮件附件提供。另一种提供攻击的方法是在目标上找到错误配置漏洞。阶段3安装漏洞利用：攻击者必须找到一种方法在目标计算机上安装所提供的漏洞利用。这通常是使用社会工程来完成的，特别是如果通过电子邮件发送附件。他会试图说服用户下载附件或点击链接.一个漏洞或宏将在受害者的系统上执行。一旦成功利用漏洞，攻击者就会尝试使用安全端口（如端口443）连接到命令和控制（C C）服务器阶段4横向移动：攻击者将开始在网络中悄悄移动。攻击者不知道敏感信息的位置，所以他会一直移动，直到找到它。第5阶段数据渗出：这可能是一个繁琐的任务，因为如果数据大量泄漏，网络管理员可以发现它。攻击者可以使用目标网络上的合法工具来泄漏数据;这被称为生活在陆地上的技术。APT使用这种技术在受损网络上移动并执行未检测到的命令，使用的工具和软件与受损网络上的用户相同。阶段6清除痕迹和删除证据：攻击者将尝试清除他的痕迹并删除目标系统上的任何证据。2.2. 机器学习机器学习的主要目标是使计算机能够在不需要人类干预的情况下自主学习，并相应地调整其行为和判断。监督学习和非监督学习算法是最常用的[4]的文件。机器学习的过程包括两个阶段：训练和分类。在训练阶段，目标是构建能够预测或检测数据的隐藏特征和特性的模型。第二阶段，分类，是在训练期间控制的模型用于新数据样本以执行指定任务（例如，聚类）[5]。这篇研究论文涉及一个多类分类问题;最流行的ML分类器使用监督方法来解决这个问题，如随机森林（RF），决策树（DT），极端梯度提升（ XGB ）， K- 最近邻（ KNN ），朴素贝叶斯和支持向量机（SVM）。2.3. 相关作品近年来，许多研究已经实现了使用ML算法检测APT攻击。通过在NSL-KDD数据集上应用基于超图的遗传算法进行参数和特征选择，使用SVM进行入侵检测[6]该方法的准确率达96.7%。它优于其他SVM分类器，贝叶斯网络，RF。他们的研究评估是基于NSL-KDD数据集，其中存在一些问题，该数据集只解决了旧版本KDDCUP 99中的一些问题，这意味着仍然存在一些问题，这些问题会影响分类器的性能和评估此外，所取得的成果来自●●●●●●J. Al-Saraireh和Ala埃及信息学杂志23（2022）4547SVM，以在处理大量数据时不能给出非常准确的读数而闻名。通过部署深度神经网络实现了一个入侵检测系统[7]。KDD CUP99被用来评估模型测试过程是10%~ 90%的正常数据对90%~ 10%的攻击数据。他们记录了大约99%的准确率，超过99%的高检测率和0.08%的误报率作者使用了一个开源数据集，其中存在一些问题此数据集中有许多复制的数据，这可能会显著影响结果。[8]提出了使用图数据库和ML的异常检测。他们的方法是实施一种实用的解决方案，以快速分析实时数据并检测任何违规或恶意活动。使用异常检测的ML分类器是SVM。准确率在95%到98%之间。作者指出，在现实世界的情况下，将有更多的日志数据进行过滤;因此，本研究中使用的SVM由于性能而无法很好地处理大量数据此外，当数据具有大量噪声时，它的工作效果也不是很好，在这种情况下，当收集实时数据时，会有大量的噪声，这将阻碍检测过程。[9]提出了一种基于ML的新系统。他们声称，该系统可以可靠、快速地预测和检测APT事件该系统的三个主要阶段是报警、检测威胁和预测攻击。预测准确率为84.8%。该系统采用的最大似然算法有SVM、DT、KNN和Entrance。在这项研究中实现的准确性并不显着，因为他们正在处理APT;仍然有16%的机会，攻击可以成功，而无需检测，这可能是非常具有破坏性的APT攻击的性质及其后果。此外，SVM给出的结果最高，在处理大量数据时不会产生好的结果。[10]使用识别模式和ML的组合来抵抗和减轻任何攻击。一个数据集被用来分析和评估超过100万例PCAP病例。RF分类器实现了最高的准确度这项研究的局限性在于，它收集了一周以上的数据，在面临APT攻击时，这并不能得出非常明确的结论。APT攻击非常持久，需要很长时间才能执行攻击，因此一周收集的数据无法达到检测这些类型攻击的全部目的。[11]提出了一种在NSL-KDD数据集上使用XGBoost分类器的有效入侵检测系统。它基于以下几个指标实现最佳结果：准确度、精确度和混淆矩阵。它在模型中使用了数据集的所有41个特征。它将所提出的模型与几种ML分类器进行了比较，其准确率最高达到98.7%。他们的研究是在一个不包含任何APT攻击的数据集上实现的对于APT攻击的早期警告由[12]提出。他们使用NSL-KDD数据集。他们使用主成分分析方法来减少数据集的大小并提高检测精度。SVM的最高准确率达到97.2%通过依赖开源NSL-KDD数据集，作者可能会影响其分类器的性能。该数据集因其最终结果存在一些问题而闻名该数据集中还有41个特征，其中一些没有值。相反，作者表示他们在测试过程中使用了122个他们可能添加了自己的功能，可能会影响结果。[13]提出了一种新的深度学习堆栈模型来检测APT攻击。他们表示，他们必须在检测过程中使用原始它提出，必须确定攻击中最重要的因素，以帮助检测攻击，这是通信，当涉及到APT。此外，必须记录网络流以识别攻击他们的研究还没有任何结果，因为它仍然是一个正在进行的过程。这里的限制是当处理原始数据时，会有时间复杂度问题。该系统需要大量的时间来分析原始数据，这是安全分析师在处理APT攻击时无法做到的ML算法，即Naive Bayes，SVM和J 48，已被用于使用KDD-99检测和分类入侵[14]。他们根据获得的信息选择了他们的特征。使用Ada-Boost作为J 48的组合，它实现了97%的准确率。作者评估了他们对KDD99数据集的方法。该数据集有许多问题，可能会严重影响检测过程的性能[15]（Tavallaee et al. 2009年）。[16]提出了一种检测和预测APT攻击的入侵检测系统。他们的系统有两个阶段。在第一阶段，攻击被重建并与属于特定APT活动的警报相关联。另一方面，第二阶段是解释攻击。他们的系统在估计攻击顺序时，对两个观测值的准确率为91.8%，对两个以上观测值的序列的准确率为100%。他们的研究严重依赖于预测。最终目标是预测APT攻击或活动的下一步。然而，APT攻击有一个生命周期，但这个生命周期的阶段并不总是相同的，可能会有所不同，或者可能有APT攻击遵循的新方法。本研究通过对361个APT警报和2300个不相关警报的研究和测试，取得了100%的结果。当在战役的第四阶段防御APT时，攻击已经成功，检测过程可能有点太晚，无法产生任何好处。在[17]中，提出了一种用于检测APT的网络杀戮链方法;他们创建了一种数据驱动的方法，用于使用公共可用的APT数据集利用网络杀戮链检测APT阶段。朴素贝叶斯分类器产生了最好的性能结果的91.1%。在[18]中，强调了用于流量监控的ML分类器，以识别恶意活动，作为软件定义网络中网络入侵检测的一部分三个不同的传统和现代的基于树的ML分类器，RF，DT和XGB，被用来显示检测机制。关于训练和测试，采用NSL-KDD数据集;该数据集被视为许多最先进的入侵检测方法的基准。准确率达到95.9%。然而，他们在一个不涵盖任何APT攻击的数据集上实施了他们的研究[19]介绍了一种使用基于ML的网络流量进行高级持续威胁检测的多层方法。他们的研究采用了三个主要层来检测APT攻击：基于异常连接分析的APT攻击检测。基于Suri- cata日志分析的APT攻击检测.基于行为分析的APT攻击检测。他们声称，研究结果表明，基于分析和评估入侵者配置文件的APT攻击检测方法优于单独的检测方法。APT攻击是任何网络上最具破坏性的攻击之一。一些研究人员使用了免费源数据集或他们在短时间内开发的数据集。APT攻击可能在网络上持续169天未被发现，需要69天才能恢复。因此，为了使用ML构建有效的APT检测方法，必须长时间收集数据集。这种关联将集中在已知APT用于收集有价值日志的TTP和IOC上，这些日志可能会集成到ML算法中，以改进检测过程尽可能地有效，错误率低研究人员●●●J. Al-Saraireh和Ala埃及信息学杂志23（2022）4548租用的开源数据集总之，以前的研究没有引入完整的APT攻击生命周期数据集来检测和缓解APT攻击。因此，为了使用ML实现成功和有效的检测方法，必须在很长一段时间内收集所使用的数据集，以便将尽可能多的行为与APT.这种相关性将集中在世界各地已知APT用于收集有价值日志的TTP和IOC上，这些日志可以引入ML算法，以使检测过程非常有效，错误率尽可能低。研究人员近年来使用的开源数据集并没有覆盖整个APT生命周期，这使得检测过程不像它应该的那样可靠3. 概念框架和方法本节介绍了建议的APT检测模型架构方法、用于实现预期目标的方法及其主要阶段。所提出的检测方法有几个阶段。第一阶段是数据收集和预处理;第二阶段是数据集分类。最后，使用ML检测模型来测试数据集。APT检测机制和主要途径如下：- 收集数据。- 实现数据预处理。- 提取特征并实现特征选择。- 将数据分成训练和测试部分。- 建立一个模型，并评估它。ML技术专注于创建一个显式或隐含的模型，允许对原始数据中的变化进行分类。也许使用ML技术进行独立、混合或集成分类。分类模型在使用中可以分为三种操作类型：监督式、非监督式和半监督式. 总的来说，监督方法优于其他技术。ANN 、KNN 、NaiveBayes、Genetic Algorithm、SVM、Logistic Regression和DT是用于入侵检测系统的ML算法ML模型开发过程包括四个步骤：数据采集/收集、数据预处理、模型选择和训练以及模型评估。在预处理数据中可以执行的许多任务中，阶段是这项工作的两个基本原则，特征选择和归一化[20]。图1描绘了APT检测提出的模型设计。所提出的方法的目标将是一个多类分类问题，其中模型将接收标记为正常，侦察，初始妥协，横向移动和数据渗出的纯数据。目标是将正常流量分类为normal，其他标签将被视为攻击。攻击代表攻击者在他的攻击中所达到的阶段。例如，如果日志被认为是横向移动，则攻击者在攻击的第三阶段。3.1. 数据来源和收集技术在这项研究工作中实现的数据收集技术是基于数据包捕获。APT攻击使用其TTP和IOC来构建这样的数据集。练习APT组技术也将有助于研究人员分析和理解它们。这项研究花了四个月的时间收集真实世界的网络结构数据。并在收集阶段早期为用户提供用户/管理员凭据，以模拟常规/正常流量。在此期间，该公司作为往常例如，网络管理员可以重新排列数据，目录和用户或更新网站的数据之一网络上没有恶意流量，正常流量有一个基线。现在网络流量基线已经知道了，某些攻击就会被发起来收集它。单独的APT组攻击会在网络上发起。每次袭击都是在一段时间内单独进行的。每次攻击的目的都不一样。每次攻击的目的包括侦察、妥协、横向移动和数据泄露。图2描述了用于获取本研究数据的系统。在上图中，网络有几个数据收集系统。攻击者（测试者）在网络上进行APT攻击，每个系统记录每个攻击或策略。API网络通过Logstash聚合网络日志。它还连接不兼容的应用程序，使它们一起工作。使用了若干资源来获取数据。首先，使用CTI免费和商业来源。CTI提供了对最新APT攻击、IOC和TTP的出色洞察。其次，SIEM解决方案用于关联APT攻击数据和行为。此阶段使用ArcSight安全信息和事件管理（SIEM）和Moloch（Arkime）。SIEM和Moloch将从实际的APT攻击中收集数据。他们在威胁主导的APT PT方法阶段[1]执行了一些攻击，APT组织跟踪这些攻击。这些攻击使用了几种方法来获取有关APT威胁的数据。用于收集攻击流量的技术：CTI、ArcSight、Moloch（Arkime）、Wireshark、TCP转储和网络挖掘机。收集过程侧重于正常流量，以建立网络基线并了解正常流量的情况。然后发起，不同的APT攻击产生的网络流量相互关联.表1显示了本研究中使用的APT攻击向量。每次攻击将代表攻击者的任务阶段和每个阶段使用的技术：从攻击和正常操作中获得各种流量日志。总共获得了4.2万份流量日志，根据他们的正常或攻击场景进行标记3.2. 数据预处理首先，在将数据挖掘方法添加到数据集之前，将对整个数据集进行规范化，数据预处理包括删除重复项、缺失值和标准化数据。本研究采用完整个案分析法处理缺失值。在具有广泛数值范围的数据集中，归一化将值的范围缩小到一个共同的尺度。规范化数据平衡所有属性。对于采用神经网络或最近邻的分类技术，归一化加速了模型训练阶段。一些流行的规范化技术包括最小值-最大值和十进制缩放。为了对数据进行归一化，我们利用Min-Max归一化，使用下面的等式[20]将所有数字特征在0到1的范围内归一化。xscaled¼x-minx=maxx-minx3.3. 特征提取特征提取是指选择或整合元素以生成特征的方法，从而最大限度地减少应处理的数据量，同时正确和彻底地表征实际数据集。标记数据应在提取特征并生成CSV文件时完成。通过参考攻击场景时间轴、IP地址、源和目的地的端口以及使用的协议，为每个流的数据标记。数据集col-J. Al-Saraireh和Ala埃及信息学杂志23（2022）4549Fig. 1. APT攻击检测模型设计.图二. 数据收集系统。selected有42，000条记录，如图3所示。数据集包括多个阶段/类别，即正常、侦察、初始损害、横向移动和数据泄漏。提取的特征为83个网络流量特征。每个特性的名称和描述见表2。在进行特征选择通过可视化的方法，熟悉并总结主要特征。通过绘制整体特征重要性，采取了进一步的步骤以更好地理解和解释热图。特征重要性描述了一组用于对分类模型中的给定特征进行评级的策略，指示在生成J. Al-Saraireh和Ala埃及信息学杂志23（2022）4550表1APT攻击向量。阶段正常使用的攻击向量描述技术建立正常流量的基线。Ping，Get，Post，browse，downloads，curl，dig，uploading阶段0侦察侦察公共网络、目录结构，漏洞识别、身份验证/授权不良初始妥协通过不同的技术在网络中建立立足点，目录暴力攻击、SQL注入和下载恶意软件横向移动通过受损的内部网络发现系统和控制关键设备Nmap，Nessus，Burp Suite，Web Scarab，ipsweep，port sweep，sqlmap，Nikto，dirbuster键盘记录器，毒藤，猜测密码，发送邮件，扫描框，FTP写入密钥记录器，权限升级，缓冲区溢出，Metasploit，Nmap阶段1阶段2阶段3将数据从网络上的本地计算机移动到远程服务器位置用户FTP，电子邮件，SSH，SFTP，谷歌驱动器阶段4图三. 收集的数据集。表2提取的特征。#功能名称描述F1-F2 Fl.ID、Fl-dur、Flow ID、Flow DurationF3-F6（Src，Dst）IP，（Src，Dst）端口IP地址（源/目标），端口（源/目标）F7-F8时间戳、方案流程持续时间、记录事件的时间、使用的F9-F10 Tot-Fwd-Pkts、Tot-Bwd-Pkts前向/后向数据F11-F12TotLen-FwdPkts，TotLen-Bwd-Pkts前向/后向传输的数据包的总大小F13-F20 Fwd-Pkt-Len-Max、Fwd-Pkt-Len-MinFwd-Pkt-Len-Mean、Fwd-Pkt-Len-StdBwd-Pkt-Len-Max、Bwd-Pkt-Len-MinBwd-Pkt-Len-Mean、Bwd-Pkt-Len-Std（最大/最小/平均/标准差/平均值）（前向/后向）方向的F21-F22 Flow-Byts/sec，Flow-Pkts/sec每秒传输的数据包数量（流字节/数据包速率）F23-26 Flow-IAT-avg，Flow-IAT-StdFlow-IAT-Max，Flow-IAT-Min两个流之间的平均/标准差/最大-最小时间F27-F36 Fwd-IAT-Tot、Fwd-IAT-avgFwd-IAT-Std、Fwd-IAT-MaxFwd-IAT-Min、Bwd-IAT-TotBwd-IAT-avg、Bwd-IAT-StdBwd-IAT-Max、Bwd-IAT-Min发送的两个数据包之间的总/平均/标准差/最大/最小/时间（前向/后向）F37-F40 Fwd-PSH-Flags，Bwd-PSH-Flags Fwd-URG-Flags，Bwd-URG-Flags在（转发/推送）中（URG/推送）标志设置为1（UDP为0）的次数反向F41-F44 Fwd-Header-Len，Bwd-Header-LenFwd-Pkts/sec，Bwd-Pkts/sec用于头向前/向后方向的总字节数。每秒转发/反向分组。F45-F49 Pkt-Len-Min、Pkt-Len-MaxPkt-Len-Mean、Pkt-Len-StdPkt-Len-Var（最小值、最大值、平均值、标准差）流长度。数据包最小到达间隔时间F50-F57 FIN-Flag-Cnt、SYN-Flag-CntRST-Flag-Cnt、PSH-Flag-CntACK-Flag-Cnt、URG-Flag-CntCWE-Flag-Count、ECE-Flag-CntNumber包与(FIN/SYN/PUSH/ACK/Urg/CWE/ECE）标志。F58-F59 Down-Up-Ratio，Pkt-Size-Avg Download and upload ratio，Average size of packet.F60-F61 Fwd-Seg-Size-Average、Bwd-Seg-Size-Average观察到的正向/反向平均尺寸。F-62-F67前-字节-块-平均值、前-分组-块-平均值、前-字节-块-平均值、后-分组-块-平均值、后-块-速率-平均值向前/向后方向的平均字节数/数据包数/批量速率。F68-F71 Subflw-Fwd-Pkts，Subflw-Fwd-BytsSubflw-Bwd-Pkts，Subflw-Bwd-Byts前向/后向子流中的平均（数据包/字节）数方向F72-F73 Init-Fwd-Win-Byts，Init-Bwd-Win-Byts在初始窗口前向/后向发送的字节数。F74 Fwd-Act-Data-Pkts具有至少1字节TCP数据有效载荷的数据包数量F75 Fwd-Seg-Size-Min正向观察到的最小分段尺寸F76-F79有效-平均-平均、有效-标准有效-最大、有效-最小（平均值、标准差、最大值、最小值）时间在空闲之前激活。F80-F83 Idle-Mean-avg，Idle-Std Idle-Max，Idle-Min（平均值、标准差、最大值、最小值）流量在变为活动状态之前处于空闲状态的时间。J. Al-Saraireh和Ala埃及信息学杂志23（2022）4551×预后评级是有价值的，并且可以用于进一步解释数据，并在各种上下文中降低预测模型问题中的输入特征的数量3.4. 特征选择特征选择被认为是ML中的重要阶段之一，因为它可以显着影响ML模型的效率和性能[20]。然而，在实施任何特征选择技术之前，执行数据清理的另一个步骤。删除了四个特征：流ID、源IP、目的地IP和时间戳。这些特征可能会影响分类过程，使分类器偏向于他们和数据基数。在以前的一些研究中，目的地端口也从数据中删除。但由于这项研究涉及APT攻击和数据泄露，因此必须包含此功能此外，根据[21]，目的地端口可能有助于使用分类器。数据泄露技术可以使用需要监控并包含在检测模型中的特定端口号。除了被删除的四个特征之外，表3中描述的以下十四个特征（每个实例的值为零）也被删除一旦过滤掉所有不需要的特征，将新形成的特征总共减少到65个特征。在数据集中包含所有特征可能会导致维度问题。大的特征集会导致过度拟合和复杂性。为了降低本研究的维度，考虑到相关研究中报告的流行性、有效性和复杂性，选择了六种特征选择方法[22，23]。使用的方法包括ANOVA、卡方、前向特征选择（FFS）、递归特征选择（RFS）、XGB和Lasso。除了在其中一个实验中使用整个特征子集之外3.5. 分类方法在这项研究中，研究了四种机器学习分类器：RF，DT，XGB和KNN。所有的特征选择和分类方法都是使用python中的scikit-learn包实现的。一个交叉组合的方法被用来评估特征选择和分类效率。每种分类算法都与所有六种特征选择方法相结合。表3恒定特性。1. 第八章. Bwd-Pkts-blk-Avg2. 第9章. CWE标志计数3. 10.第一次约会 Bwd-Blk-Rate-Avg4. 第十一章. ECE-Flag-Cnt5. Bwd-URG-标志12，初始化-前向-Win-Byts6. 13. bwd-Byts-blk-Avg 前-字节-块-平均7. 第十四章. Fwd-Seg-Size-Min最后的结果是总共28个特征选择和分类技术组合被实施。3.6. 特征选择和分类方法使用80/20百分比的分割来测量特征选择和分类算法的检测有效性。我们测试了28种特征选择和分类方法。表4描述了每种方法的准确性结果和使用的特征数量本研究的目的是在减少特征的同时提高准确性。采用ANOVA特征选择方法的XGB分类器仅利用数据集中65个特征中的12个特征获得了最佳准确性。已知ANOVA特征选择方法用于从数据集中选择最佳特征子集。这可能是一个合适的标准，选择网络流量数据中的区别性特征如所提出的模型设计中所示，第一步是通过各种来源收集数据，以构建网络流量语料库。然后使用不同的技术，即ArcSight，Moloch（Arkime）和CICFlowmeter，实现数据预处理技术，进行数据分析和解释。一旦建立了数据集，下一步就是特征提取，其中使用CICflowmeter实用程序提取了83个特征。然后，经过进一步的数据清理，一些功能被删除，最终剩下65个功能。最后将这些特征应用于方差分析特征选择方法，得到12个特征的最佳子集表5显示了ANOVA选择的特征。下一步是将数据加载到基于XGB分类器的APT检测模型中。对于XGB分类器，在应用数据集之前调整参数或使用默认参数。[11]（Dhaliwal，Nahid和Abbas 2018）在这项研究工作中，应用了以下参数[24]：- 学习率，通常被称为eta参数，被设置为0.1.它用于防止过拟合。它缩小了步长，以及附加特征的权重，这可以很容易地提取。- max depth选项设置为10，用于指定树的深度：值越大，模型越复杂。- 模型中采用的循环或树的数量由n个估计量的参数指定，该参数- 种子参数设置为7。它是一个学习参数，也被称为随机状态。- 将n次分割或批量参数设置为10。它被用来将数据集分成几个k部分。百分比分割是一种分割数据的方法，并将其用于训练的百分比与用于测试的其余部分分离。为了进行更显著的区分并最大限度地减少数据集中的偏差，采用了80-20%的训练和测试技术比率。训练数据由（33611）个事件组成，测试由（8403）个事件组成。表4特征选择和分类方法比较。特征选择方法RFDTXGBKNNAcc.数量的特征Acc.数量的特征Acc.数量的特征Acc.数量的特征–99.66599.66599.8659965过滤方差分析99.81899.72099.81298.827卡方99.83199.63199.62798.930包装器FFS99.81899.82199.71899.228RFS99.81999.721––––嵌入式XGB99.22889.63199.7289130Lasso99.84799.74799.84798.647J. Al-Saraireh和Ala埃及信息学杂志23（2022）4552表5通过ANOVA选择的特征。1. src端口7。最大IAT流量2. SYN-Flag-Cnt 8. Fwd-Act-数据包3. Dst端口9。Fwd-IAT-Tot4. ACK-标志-Cnt 10. 最大怠速5. 第11章. Fwd-IAT-Max6. 12.第十二章空闲-最小4.结果和讨论在这项工作中，提出了一种使用ML的APT检测方法，利用新创建的数据集。为了评估所提出的模型和新数据集的有效性，与几种机器学习算法进行了比较。此外，构建的数据集应用于以前使用的方法来测试其有效性。首先，该模型进行了比较，三个著名的分类器，即RF，DT和KNN。为了公平比较，应用于每个分类器的特征数量将相同。当应用ANOVA特征选择方法时，XGB能够使用最少数量的特征12获得最佳结果。因此，对于该评估，将使用用于比较的每个其他分类器的12个特征。通过应用混淆矩阵、准确度、精确度、召回率和F-Measure来评估测量结果。其次，将创建的数据集应用于先前研究[11]中提出的模型。他们通过在NSL-KDD数据集上使用XGB分类器构建了一个模型在他们的模型中使用的参数是学习率设置为0.1，最大深度设置为3，n-估计值设置为100，种子或随机状态设置为7，批量大小设置为10.将包含所有65个特征的整个数据集应用于他们的模型。该评估的结果是准确率98.7%，精确率98.5%，召回率98.3%，F1测量98.5%。从这些结果可以清楚地看出，所创建的数据集是有效的，并且可以用于APT攻击检测。为了直观地了解所建议模型的主要问题，获得了重要的评估标准;为了比较所建议模型的性能，使用了准确度，精确度，召回率和F1度量[25]。准确度表示模型精度是分类器正确分类的实例。召回率是获得的相关实例相对于相关实例总数的百分比。F度量是用于确定测试准确度的度量。它所有指标、测量和评估标准均来自PyCM 3.1版。PyCM是用Python语言编写的，是一个多类混淆矩阵库[26]。通过应用混淆矩阵来评估测量，给出四种可能的结果：真阳性（TP）、假阳性（FP）、真阴性（TN）和假阴性（FN）。图 4是一个多类分类混淆矩阵的样本。ML，混淆矩阵是多类分类问题的预测结果的分解。它表示分类器在任何数据集上的输出值。它是确定模型准确性和效率的最直接和最明显的措施之一。它对角分量反映正确或有效的分类，而其他分量反映分类模型具有不正确分类的分类。因此，混淆矩阵的对角元素的值越大对于所提出的模型，进行了比较，以评估所有三种算法的效率。同样的数据集图四、多类分类混淆矩阵样本。使用了12个功能。所提出的模型的混淆矩阵如图所示。五、关于混淆矩阵，很明显，所提出的模型在将每个实例分类到适当的阶段方面表现良好，只有少数实例被误分类。表6总结了获得的多种分类算法分析结果。TP预测是在条件已经存在时检测条件的预测。每当获得TN测试结果时，当条件不存在时，未检测到条件。FP预测发生时，只要一个条件被检测到，即使它不存在。当模型未能检测到某个条件时，称为FN。这些指标可以计算真阳性率（TPR）、假阳性率（FPR）、真阴性率（TNR）和假阴性率（FNR）。由于该模型预测多类，表7列出了每个类/阶段的结果。对于一个好的分类器，TP和TNR应该接近100，而对于FP和FNR，当它们接近0时更好。从上表中可以看出，所提出的模型在预测每个类别/阶段时有多准确。所提出的模型的每阶段的检测准确率如图所示。第六章将对所实现的总体指标进行分析，以评估拟议模型的指标。由于分类实例的数量各不相同，仅凭准确性可能不一定能提供全貌。因此，所提出的模型的评估指标的结果将被绘制。图7比较了分类算法的准确度、召回率、精确度和F-度量。该模型在每个标准中的实现最高，其次是RF，然后DT，而KNN实现最低。在准确性方面，对于所提出的模型，最好的准确率为99.89%。相比之下，KNN的准确率最低，为96.59%。RF得分第二高，98.75% 。最后，DT 获得 97.65% ，Dhaliwal ，Nahod 和Abbas 方法（2018）获得98.7，91.1艾哈迈德，Asyhari和拉赫曼方法（2021）实现。通过所提出的模型，在召回率、准确率和f-测量结果方面获得了最高的结果，召回率为99.89%，准确率为99.89%，f-测量为99.89%。其次是RF记录的准确率为98.7%，F-测量和召回率为98.75%。考虑到召回率、精确度和f-度量都是相关的，需要对结果进行详细分析以证明模型的性能。重点是结果与其意义之间的关系。最后，导致这些问题的主要因素是什么？准确性表示实际正确预测的比率。然而，它没有给出关于其测试的详细信息。乍一看，达到高准确度似乎很重要，但另一种分类模型可能会达到相同或更好的准确度。J. Al-Saraireh和Ala埃及信息学杂志23（2022）4553图五.提出的模型混淆矩阵。活泼。换句话说，所提出的模型并不比一个预测能力较低的APT攻击流量从正常流量分类。为了给出一个更好的答案，我们需要了解召回率、精确度和f-测度。然而，一般来说，准确性会立即告诉我们模型是否得到了正确的训练，以及它通常的表现如何。该比率表明模型各组成部分的兼容性和适当性关于回忆和精确度。Recall告诉你正确预测了多少次。当假阴性的成本很高时，它也有帮助。精度表示当模型预测为正时，它正确的频率。当假阳性总数很高时，精确度会有所帮助F-Measure是预测准确度的累积计算，包含召回率和精确度。强F-Mea

下载后可阅读完整内容，剩余1页未读，立即下载