PCA-DNN模型检测网络异常行为

64 浏览量更新于2023-12-09 收藏 1.25MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

埃及信息学杂志23（2022）173全文使用PCA-DNN模型检测异常网络行为的Mohammad Al-Fawaa约旦耶尔穆克大学信息技术和计算机科学学院b约旦苏马亚公主技术大学侯赛因国王计算机科学学院c沙特阿拉伯Jouf大学计算机和信息科学学院d阿联酋阿治曼大学工程与信息技术学院人工智能研究中心（AIRC）阿提奇莱因福奥文章历史记录：收到2021年2021年10月8日修订2021年12月1日接受2021年12月29日网上发售保留字：AWS数据集异常检测大数据云计算CSECICIDS2018A B S T R A C T安全问题是与物联网（IoT），大数据和云计算相关的新技术面临的最关键挑战一个安全、高效的入侵检测系统（IDS）是检测安全威胁的关键已知现有IDS遭受许多问题，最显著的是高误报率、检测攻击所需的长时间以及无法检测零日攻击，这可能会毁了公司。IDS后端引擎的弱点花费了公司在调查过程中的时间本文通过两个过程提出并增强了IDS检测机制：使用具有新功能的深度神经网络（DNN）模型进行威胁检测，该模型基于与处理零日攻击相关的两个假设，具有较低的计算能力和资源，以及通过合并DNN模型和主成分分析（PCA）来提高安全性和性能的检测解决方案。所提出的检测机制结合了DNN，PCA，统计和基于知识的方法，以提供比现有IDS更高的效率，如分析和软件结果所示。模拟模型用于最新的Web攻击、分布式拒绝服务（DDoS）、拒绝服务（DoS）、暴力破解、内部渗透、僵尸网络和心脏出血攻击。分析了针对大型网络提出的检测技术，并通过减少DNN模型层的数量来避免设计的复杂性，从而最大限度地减少检测时间延迟和误报，同时提高对网络攻击的安全性。将所提出的DNN与PCA集成，这是一项创新性的贡献，引入了强大的IDS，以显着改善检测时间延迟和安全性能。所提出的模型显示了98%的准确率。据我们所知，基于大量攻击的最高准确率为97%，这使得我们的模型成为最先进的。©2022 The Bottoms.出版社：Elsevier B.V.代表计算机与信息学院开罗大学。这是一篇基于CC BY-NC-ND许可证的开放获取文章（http：//creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍自20世纪90年代以来，现代信通技术和互联网工具在全球范围内激增，现已牢牢嵌入到信息和通信技术的各个方面。*通讯作者。电子邮件地址： fawareh@yu.edu.jo （ M.Al-Fawa'reh ）， m.alfayoumi@psut.edu. jo （ M. Al-Fayoumi ）， shadi_nashwan@ju.edu.sa （ S.Nashwan），s. psut.edu.jo（S.Fraihat）。开罗大学计算机和信息系负责同行审查。制作和主办：Elsevier现代交通和经济，农业，文化，工业和政治领域。然而，传统技术并不适合当前的技术环境。在未来几年，将需要创新技术来满足新时代的要求物联网（IoT）是新的创新技术的一个由于物联网技术的快速普及，预计到2020年底，使用中的设备数量将超过250亿[1]。互联网用户（即，大多数人）越来越多地产生、存储和使用大量的数据和信息，这些数据和信息无疑是非常有价值的资源。现代数据存储和分析技术使交叉口具有全新的维度https://doi.org/10.1016/j.eij.2021.12.0011110-8665/©2022 THE COURORS. Elsevier B.V.代表开罗大学计算机和信息学院出版。这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表埃及信息学杂志杂志主页：www.sciencedirect.comM. Al-FawaAl-Fayoumi，S.Nashwan等人埃及信息学杂志23（2022）173174信息通信技术领域和与20世纪传统互联网格局无关的大量生活领域之间的联系计算机科学在这个节骨眼上面临的主要挑战是保护和保护数据免受风险，以及保护它（及其真正的用户）免受恶意攻击。深入的防御，如多因素身份验证和安全系统的建设，确实实现了保护，但它不能检测到一个公司是否是否正在经历零日攻击此外，除了避免攻击之外，系统还必须保护和收集数据作为证据，并且通常采用现有的解决方案，例如防火墙、加密和入侵检测系统。然而，现有解决方案存在两个基本问题它们无法检测和处理新的攻击（如零日攻击）;它们产生很高的假阳性警报率，从而增加了验证此类警报有效性所需的检查的时间和经济成本。因此，研究人员建议使用网络威胁情报来检测基于隐身的攻击。如今，威胁情报被认为是许多组织的重要资产，因为它有助于保护信息并保证用户的隐私。出于这些原因，提出了许多限制性办法。然而，他们中的大多数依赖于检测对手的行为，然后采取事后追溯行动。检测对手行为的最佳解决方案之一是使用IDS，它可以在攻击侵犯用户数据隐私并对用户系统造成损害之前识别攻击。在计算机安全中，黑客攻击或入侵的特征是试图破坏任何系统中数据的机密性，可用性或完整性等安全方面的活动安排。入侵检测（ID）是一个系统化的过程，用于检查和监控数据，以检测任何违规行为，并生成警报以保护受威胁的数据[2]。通常，IDS是执行ID筛选的软件或硬件资源或两者的集合[3，4]。IDS是根据数据源和检测机制的类型划分的。根据IDS的位置和数据的源位置，IDS可以分为许多类。本文主要研究入侵检测系统的检测机制。检测机制是将IDS分为三大类的另一个因素：误用检测（也称为签名），它依赖于预先存在的知识，如字节序列;基于行为的，它监视系统调用或网络[5，6，7]和混合方法。2. 相关工作机器学习的主要应用是检测网络异常-发现数据中的不规则特征，以发现随时间变化的异常[8，9，10，11]。该技术的有效性取决于其区分正常和异常网络设置的能力。基于机器学习的IDS技术可以识别现有的、新的和轻微的攻击，而不需要大量的训练或人工交互。它们被定义为一组用于识别数据模式和预测未来趋势的技术[12，13]。Gedam和Shikalpure[14]提出了一种使用支持向量机（SVM）在异常检测中实现高准确度和低阳性率的检测率然而，他们实际上并没有将他们的模型与其他模型进行比较，工作仅限于将模型与不同的数据集进行比较（ KDD cup 99 ， NSL-KDD 数据集和Kyoto2006）。Jalil等人。[15]基于不同的指标（检测率，误报率和准确性），使用称为KDD杯数据集的众所周知的数据集比较了不同AI方法（如神经网络（NN），SVM和DT-J 48实验表明，DT-J 48算法优于神经网络和支持向量机算法。Masduki等人。[16]提出了一种使用SVM通过分类方法检测攻击的新方法，该方法使用28个特征的组合，包括来自[17]中数据集的8个特征和来自[18]中数据集的24个特征（这两个来源之间有4个共同特征）。通过一系列实验，证明了有效载荷在检测远程到本地（R2L）攻击中的重要性，实验表明，28个特征的准确率为96.08%。然而，这项工作并没有涵盖四种关键的攻击类型：DoS，Probe，U2R和R2L。Sarvari和Keikha[19]专注于ML方法（树，1NN，2NN，3NN和SVM）的组合来检测异常行为。所提出的组合比其他方法（如MSSGBML [20]，ESCIDS [21]，多分类器[22]和PNrule [23]）实现了更好的准确性。他们证明，增加类的数量可以提高系统他们还证明了分类器的扩展有一个阈值，如果分类器的数量超过该阈值，则系统然而，作者使用了少量的数据来测试他们的模型。Mehmood和Rais[24]使用不同的监督算法（朴素贝叶斯，J.48和SVM）使用基于几个指标（阳性率，精度和假阳性率）的KDD数据集来检测网络中的非法活动实验表明，没有一种算法可以满足所有类别（正常，R2L，DoS）的高阳性率，但作者证明，J.48 DT比其他方法（朴素贝叶斯，SVM）产生更高的准确性和更多的误报。然而，这项工作没有考虑特征选择。我们还考虑了特征选择和所有特征的检测方法。Shukla[25]提出了三种新的ML方法，使用无监督学习（K-means聚类），监督IDS（DT）和混合方法（混合K-means和DT）来发现IOT环境中的虫洞攻击。实验结果表明，混合方法取得了更准确的结果比其他方法，但K-means算法只适用于数值数据。Hamid et.al[26]使用Weka工具和KDD Cup 1999数据集检查了几种方法（基于规则，基本规则，函数，懒惰学习器，树，Meta算法和输入映射分类器）比较分析基于几个指标（准确率、召回率、精确率、F-测量、TP率、TN率、ROC面积、Kappa统计量和平均绝对误差）。作者充分使用了这种方法，并减少了特征，证明了分类方法不需要所有特征，但本研究的主要限制是数据量有限。Haripriya和Jabbar[27]研究了各种机器学习算法（监督和无监督，强化学习等）。作者使用方法、数据集和指标来比较ML方法，但他们没有研究其他方法，如模糊逻辑、蚁群和深度学习。Tamimmirza[28]提出了具有VGG-19的IDS，以基于ISCX数据集检测异常活动，并且该模型实现了高准确性。该模型的主要局限性在于它获取特征并将其转换为黑白图像。Kanimozhi和Jacob[29]提出了一个强大的系统，使用具有超参数优化的ANN检测恶意流量，准确率达到99.97%。这项研究的主要局限性是它的重点是僵尸网络攻击，而不是研究网络●●M. Al-FawaAl-Fayoumi，S.Nashwan等人埃及信息学杂志23（2022）173175其他攻击行为第二个限制是它没有提到输入模型的特征数量，也没有确定连续或分类数据。此外，优化阶段没有给出优化函数等参数的详细信息，预处理是通过黑盒进行的。此外，作者没有说明数据是否标准化，他们如何处理缺失值和分类值，或者数据是否平衡。此外，该模型还存在过拟合问题。Zhou和Pezaros[30]评估了不同的分类器，如随机森林，高斯朴素，二次判别分析和K-最近邻。这项研究的主要局限性是，数据再处理是不明确的，他们删除了小数点后的数字。第二个限制是他们用合适的数字替换了缺失值，但他们没有说明方法。此外，他们没有缩放特征的值，这使得特征之间的比较不公平，并且他们没有说任何关于分类值或数据平衡的事情。所有这些缺点都在我们的论文提出的模型中得到了解决。据我们所知，2010年之前的所有研究都使用人工神经网络来研究入侵检测系统，并且他们使用了激活函数sigmoid，tanh。虽然该模型存在梯度消失问题，但与其他层相比，第一层的训练速度较慢除此之外，所有研究人员都使用带有Relu激活的ANN和少量记录（最多490万条记录）研究了IDS从2010年到2011年的所有研究都存在训练速度慢的问题，并且错过了损失函数的局部最小点，因为它们使用了梯度异议和单一学习率等优化函数据我们所知，从2011年到2014年的所有研究都错过了全局极小点和过拟合。2014年至2015年的研究错过了全球最低点。在2016年，有人指出，监督式深度学习算法通常可以使用大约5,000个标记的分类示例来执行在我们的数据集中，我们有超过1000万条正常流量数据。以前的大多数研究使用旧的数据集，其中大多数依赖于kdd-99和有限数量的类别（正常，R2 L，DoS等），而本文所研究的模型是针对一个真实的数据集，包含14种更新的攻击，如心脏出血攻击。本文提出了一种网络通过结合监督技术（DNN）、非过滤测量（PCA）和统计测量，提高检测隐形攻击的准确性。此外，加拿大网络安全研究所（CIC）提供了CSE-CICIDS 2018数据集，截至撰写本文时，只有少数研究人员使用[31]。该数据集用于流量级，并收集流量级特征的统计测量。所提出的方法提供了一个基本的解决方案，在DDoS，HTTP和洪水等攻击的情况下，3. CSE-CICIDS 2018数据集产生和捕获真实的网络流量被认为是比较不同IDS和验证创新方法的重要预处理阶段。特别是，异常检测方法需要广泛的和最新的网络信息，类似于一个真实的通信情况。应该以真实的方式产生具有完整和准确标签的合适数据集此外，数据集应该有一个良好的百分比年龄的无偏日常正常到异常流量[31]。尽管各种标准数据集广泛可用，但其中许多数据集包括攻击性的、不可修改的、过时的和不可再现的攻击场景[32]。为了解决这些短期问题并创建更现代的交通模式，CSE-CI-UNB数据集由[31]开发。正确标记的CSE-CI-IDS 2018数据集展示了真实的网络行为，包括各种入侵场景。此外，它被分布为一个完整的网络集与所有的内部路径，以评估负载的预包检查。调整后的数据集包括十天的正常和恶意网络活动。该数据集由两个文件产生，其中包含网络中事件和活动的抽象图像。例如，源和接收方主机之间的通信可以通过HTTP通过发送或接收的数据包和端点属性来可视化此成像创建一个配置文件。这些pro-files可以为FTP、POP3、IMAP、SMTP、SSH和HTTP等协议提供真实数据。代理或个人用户可以使用它们将不同的情况注入网络。为了通过更改这些配置文件来恢复高级应用程序的网络活动，还将个人文件与真实的学校数据集进行交换在CSE-CIC-IDS 2018数据集中，描述用于创建数据集，这些数据集包含入侵的详细系统描述以及应用程序、协议或较低级别网络实体的理论分布模型。CSE-CIC-IDS 2018数据库包含两个独立的网络行为模型以及CSEos-B和M配置文件。B配置文件使用不同的计算机建模和统计分析模式来评估客户端的对象行为;所涵盖的属性包括有效负载大小范围、每个列车的请求数量和特定的有效负载模型。测试环境中的模拟协议包括HTTPS、IMAP、HTTP、FTP、SMTP、POP3和SSH。根据初步结果，大部分流量是HTTP和M配置文件试图明确定义攻击场景。在最简单的情况下，人们可以阅读这些模式并最终实现它们。表1列出了总数据集的统计数据。除了两天的渗透攻击外，这种攻击和正常交通的情况只执行了10天。表1也给出了收集的信息的概要，encom传递了1600万个流.数据集标记良性和不安全的流量流。从表1中可以看出，第一天的数据表1CSE-CI-UNB 2018数据集描述。日（2018年）正常流量攻击攻击说明14-● 187，589●SSH-Brute force 22-● 79●野蛮力量-XSS● 34● SQL注入15● ●使用Slowloris● 139，890●慢HTTP测试23-● 151●蛮力-XSS● 53● SQL注入● 362●暴力网络16● ●使用-LOIC-HTTP的2820-● 686，012● DDoS使用-HOIC● 193，360● FTP-暴力破解0121-● ●使用GoldenEye的02数量的流19 141 630 714 290 *M. Al-FawaAl-Fayoumi，S.Nashwan等人埃及信息学杂志23（2022）173176镜像包含的攻击数量最多，约为100万个流。这个数据集包含了伴随的攻击类型和情况。3.1. 蛮力在这种类型的攻击中，攻击者试图通过使用某人的用户名和密码来绕过身份验证，但攻击者并不确切知道正确的凭据是什么，因此尝试数据集中可能的每个字符以获得访问权限。有几种工具可用于执行暴力破解和密码破解，包括Metasploit，Hydra，Ncrack，Nmap NSE应用程序和Medusa。然而，该数据集中的作者他们使用一个包含9000万个术语的大型字典作为一组密码。3.2. Heartbleed这种攻击相对较新，首次报告于2014年（根据CVE- 2014它针对使用OpenSSL库对数据进行加密的应用程序，因为这允许对手窃取在内存中解密的数据，并且可能包含敏感信息（用户名，密码，加密中使用的密钥此漏洞的主要领域是实施阶段，其中两个对等点使用信号来跟踪连接。此攻击中使用的工具是Heartleech，它包含重要功能，例如支持IPv6，Tor/Socks 5 n代理和STARTTLS。3.3. 僵尸网络在这次攻击中，大量被称为僵尸的受感染设备在一个CC帝国下相互连接。通常，这些主机会被恶意软件感染。当CC发布命令时，整个军队都会参与攻击;通常，这些机器人用于DDoS和加密货币挖掘和分布式处理[33]。3.4. DoS在这类攻击中，攻击者使用数据包分片等不同技术建立半开放连接，通过以普通用户身份发送恶意请求来发起攻击，因此服务器会为他们分配一些资源，如内存、磁盘空间、处理配额等。攻击者重复相同的过程，但来自不同的来源。最终，由于缺乏处理请求的资源，服务器不再能够处理这些请求。这些攻击的主要目标是阻碍CIA（可用性）。在这种情况下，数据集使用基于Slowloris Perl的设备来下载互联网浏览器。3.5. DDoS这种攻击采用与DoS相同的机制;唯一的区别是攻击者在短时间内从多个设备发起大量这个场景是使用开源工具（HOIC）使用四台不同的计算机生成的3.6. Web攻击许多类型的攻击都是这个帝国的一部分，Web攻击的共同点是服务器无法区分在命令（代码）和数据之间由于输入请求的差的有效性。Web攻击场景使用著名的Damn Vulnerable Web Application（DVWA）运行。该数据集中于下面列出的网络攻击类型3.7. SQL注入（SQLi）在这里，攻击者将发送一个附加恶意查询的正常查询，例如更新表或特定列[34]。这往往会出现如下：3.8. 跨站点脚本（XSS）这种攻击被[35]描述如下：“XSS使攻击者能够将客户端内容注入到不同客户端看到的网站页面中。等效源策略可以利用跨站点脚本无防御。在网站上完成的跨网页脚本通常占赛门铁克自2007年以来记录的XSS可以将受害者转移到危险的位置，例如[35]：object type =3.9. 包容性脆弱性由RFI和本地文件包含（LFI）创建的远程文件首字母缩写是编写不好的Web应用程序的常见弱点[36]。当用户通过Web应用程序向文件发送输入或将文件上传到服务器时，就会出现这些漏洞。RFI的弱点更简单，但不容易利用。黑客执行存储在计算机上的代码，而不是访问本地计算机上的文件。LFI允许受害者计算机上的黑客读取（有时执行）文件。这可能非常危险，因为如果应用程序服务器配置错误或另外以特权运行，攻击者就可以访问敏感信息。在这里，攻击者发送一个附加了系统命令的普通请求，例如（mog.faw@psut; cat/etc/passwd）。网络是从内部渗透进来的。这被认为是最危险的攻击类型之一，因为攻击者试图访问内部网络。攻击者使用不同的技术（如社会工程、客户端或服务器端攻击等）危害一台机器，然后在不同的网络上发起攻击;只有一个在这种情况下，可以利用易受攻击的应用程序（如Adobe Reader 9）图 1显示每个类的攻击次数。此外，我们看到数据集是不平衡的。网络试验台架构包括500台机器分为五个独立的局域网，用于建立一个现实的网络拓扑结构，即：研发部，管理部- ment部的技术人员，秘书和业务部，IT部，和数据库空间。在这个数据集中，作者为除IT部门之外的所有组织部署了不同的Microsoft操作系统列表，例如Windows8.1和10; IT部门的所有设备都是Linux操作系统。各种MS Windows服务器，如2012和2016，被用于服务器群[31]。尽管现实网络中存在各种黑客攻击场景，但该数据集仍存在一些限制。例如，由数据管理和网络监控操作生成的大部分IP数据包是未命名和匿名的。此外，当从数据集检索流记录时，发现一些流包含无穷大和NAN值。这可以用许多连接的特性来解释。一些攻击涉及多阶段过程，例如检查网络以获取有关受害者机器的信息为M. Al-FawaAl-Fayoumi，S.Nashwan等人埃及信息学杂志23（2022）173177Fig. 1. IDS 2018攻击-按类型划分的攻击数量。例如，攻击者使用地址解析协议（ARP）来获取攻击网络中的信息和一些设备;在这种情况下，使用ARP的L2连接仍然存在，因为请求不使用端口。因此，发送器和接收器端口号包含用于包含该交互协议的流的无穷大和NAN值对数据集进行了预处理和清除，以解决这些问题。所有初步处理步骤见以下章节。此Web攻击数据集中的另一个限制是与其他类别相比数量有限4. 概念框架和方法本节描述了建议的模型架构的方法。首先，概述了系统的工作流程，简要描述了系统的体系结构模型（即，PCA和DNN）启发了我们的多层架构。所提出的体系结构及其实现随后进行了描述。如前所述，本研究提出了一个异常检测系统，分析流级流量和捕获攻击。所提出的系统结合了四种众所周知的技术：知识经验;数据采集的统计模型和数据从包级到流级的传输降维的主成分分析。深度神经网络分类实验中使用的工作流程管道在图2中突出显示。该混合模型包括六个步骤：4.1. 数据收集网络流量信息通常以网络交换机或路由器中的初始数据包捕获（PCAP）的形式收集[5，35]。PCAP信息包括在特定网络计算机上发送或接收的完整TCP/IP数据包数据虽然在某些情况下，完整的数据包捕获信息可能是有用的，但这具有高存储成本。PCAP数据的一种替代（或补充）是NetFlow，用于根据顶级网络流来描述PCAP数据。NetFlow数据具有更宽和更小的磁盘空间需求的好处图二. 提出的模型。PCAP数据需要更大但更昂贵的磁盘空间[37]。通常，NetFlow日志由协议、字节数、源接口以及源目标IP和端口组成。它们可以从PCAP中提取许多字段，具体取决于用于将PCAP转换为NetFlow数据的软件配置。NetFlow记录被本工作中使用的ML算法用作注释。因此，如果存在任何PCAP条目数据，则必须首先将它们转换为NetFlow在实践中，最好运行一个将NetFlow作为输入的算法。思科创建了一个NetFlow协议，该协议通常用于许多网络服务器、路由器、交换机和防火墙的进一步分析，以将原始流量数据导出到数据流[38]。高级IETF规范称为IPFIX，是IP 流信息交换的缩写，类似于NetFlow标准[38]。不同之处在于，除了●●●M. Al-FawaAl-Fayoumi，S.Nashwan等人埃及信息学杂志23（2022）173178可变长度，允许数据收集，如有关HTTP主机，URL和电子邮件。更密集的流量日志简单地称为“流数据”，有多种工具可用于将原始PCAP数据转换为数据流，例如新不伦瑞克大学开发的CICFlowMeter工具[39]。YAF由计算机应急响应任务组（CERT）[40]开发，是网络停车识别安全（NetSA）[39]工具包的一部分，用于跟踪大型网络。PCAP数据包数据由YAF转换成双向流，随后将流输出到基于IPFIX的文件格式。YAF将PCAP包数据转换为双向流，然后将流导出为基于IPFIX的文件格式。作者将该数据集以PCAP和[31]计算的流量记录的形式纳入CSE-CIC-IDS 2018数据集中。FlowMeter是一个基于PCAP的原始网络流量生成器。它生成双向流，其中第一个建立了for-ward（源/目的地）和backward（目的地/源）路径[41]。CIC IDS 2018数据集与ISCX IDS 2012和CIC IDS 2017数据集之间的主要区别[42]是与ISCX IDS 2012和CIC IDS 2017数据集相比可用的类和网络流特征的数量。ISCX IDS 2012数据集共有14个特征，而标记为CIC IDS 2017的数据集和CSE CIC IDS 2018各有81个可用功能这些附加功能主要包括使用CICFlowMeter开源工具创建的每个流的综合流统计和数据包信息计算。CIC IDS 2017 [43]和CSE CIC IDS 2018 [31]之间的主要区别是数据量和发起攻击所需的天数（与使用的机器数量有关）。CIC IDS2018数据集的另一个主要区别是，它以基于标签的CSV文件提供，其中包含流记录形式的预处理数据包数据对于每个流文件，CIC-FlowMeter提供相应的协议号、IP地址、唯一的流ID、IP源/目的地、时间戳和标签。它还产生了77个统计特征，如大小，数量字节数和分组数，它们也分别在前向和反向上测量。在这篇关于资源限制（处理和存储）的论文中，我们删除了第四天（2018年2月20日）的数据。Net- work Aggregation CIC Flow Meter是一个用Java编写的网络流量生成器，它在选择要计算的属性时提供了更高的稳定性，引入了新的属性和更强的监控流超时长度的能力。产生了双向流动，第一束设置方向为- ward（源到目的地），反之亦然。总共有83个统计特征，如源IP、源端口号、数据包数量、持续时间等，分别在正向和反向计算[44]。CICFlowMeter-V3能够获得80多个功能，如表2所示。有关数据集的其他信息见[31]。4.2. 数据预处理阶段一旦数据是流数据的形式，则执行数据的进一步此步骤包括的任务包括确保数据不包含无效字符、删除具有空值的字段、删除或更改值（不是数字）以及删除重复列。预处理的主要原因是数据的格式不同，并且从不同的位置收集;它还确保了在此数据上训练的模型的准确性和有效性。在此阶段的一个常见做法是规范化或扩展所有属性之间的连续值范围，因此深度学习算法在同一作业空间中训练数据。规范化的两种基本形式被广泛使用：标准化（或Z度规范化）和最小-最大扩展。标准化导致具有标准正态分布值的可测量属性。特征的标准分数（也称为z分数）如等式（1）中计算，其中U是平均值，S是与平均值的Z¼X-U=S1表2功能描述。#功能名称描述功能类型F1-F2流ID，Flow_dur流记录标识符，流持续时间连续F3-F6（Src/Dst）IP，（Src/Dst）Pt（源/目标）IP地址，（源/目标）端口号分类F7-F8 Pt/TS协议，时间戳分类F9-F10 Tot_（fw/bw）_pk连续（前向/后向）数据包总数F11-F12 Tot_（l）_（fw/Bw_pkt）连续的（前向/后向）分组的总长度F13-F22 Tot_（l）_（fw/Bw_pkt）（最大值/最小值/平均值/标准值/平均值）（最大值/最小值/平均值/标准差/平均值）（前向/后向）方向的数据包大小连续F23-F26 Fl_iat_avg/std/max/min平均值/标准差/最大值/两个流之间的最小时间连续F27-F36（Fw/Bw）_iat_（tot/avg/std/max）（总/平均/最大/最小/标准差）发送的两个数据包之间的时间（向前/向后）方向连续F37-F40（Fw/bw）_（psh/urg）_flag（URG/Push）标志在（向前/向后）方向上设置为1的次数连续F41-F48（Psh/ftn/syn/rst/ack/cwe/ece/urg）_cnt具有（PUSH/FIN/SYN/REQ/ACK/CWE/ECE/Urg）标志的数据包数量连续F49-F52 Pkt_len_（min/max/avg/std）（最小值/最大值/平均值/标准差）流量长度连续F53-F54（Fw/bw）_pkt_s每秒（前向/后向）的包数连续F55-F58（Fw/bw）_（byt/pkt）_blk_avg（前向/后向）的平均（包/字节）批量速率连续F59-F62 Subfl_（fw/bw）_（pk/byt）子流在前向/后向的平均包/字节数连续F63-F67 Atv_（min/max/std/avg）（最小/最大/标准偏差/平均）时间，流量处于活动模式之前切换到空闲状态F68-F71 Idl_（min/max/std/avg）（最小/最大/标准偏差/平均）时间，流量之前处于空闲模式切换到活动模式连续连续F72上下比例上传下载比例连续F73 Pkt_size_avg数据包大小平均连续F74-F77（Fw/bw）_seg_（avg/min）（前/后）方向的（平均/最小）数据包大小连续F78-F79 Fl_（byt/pkt）_s每秒传输的（数据包/字节）数量连续F80-81（Fw/bw）hdr_len表头总字节（前/后）连续M. Al-FawaAl-Fayoumi，S.Nashwan等人埃及信息学杂志23（2022）173179ωω最这种测量方法的唯一问题是，较小的标准偏差将降低极值的有效性。等式（2）用于实现最X最小值1/4X-X最小值1/2 =X最大值1/2 X最小值2/2在这项研究中，数据标准化是通过从数据集中减去平均值，并将剩余的数据集除以单个值的平方根来进行的。如前面第4节所述，所有这些分类输出的潜在联合值的数量为14。因此，为了试验这些超维标签，必须将它们转换为浮点值，以便在神经网络中使用。要做到这一点，有一些基本的和更复杂的方法可用。已经描述了以下技术来处理这些高度重要的分类变量：一个热编码OHE，一个热分割技巧和实体包含。OHE是将分类输出变量转换为连续符号的常用技术。这个系统的工作原理是为每一个可能的唯一值创建一个原始分类标记的新变体。在神经网络中使用OHE有两个主要问题[41]：OHE忽略了分类属性之间的联系，并将它们彼此区别对待。不过，在我们的情况下，这不会影响编码（即，它只影响标签而不影响特征）。慢速汽车特性的OHE可能很慢，需要大量的计算，通过减少特征空间和噪声特征可以提高检测性能。PCA是从数据集中选择主要特征并消除干扰的较广泛使用的方法之一。本文评估了不同数量的关键组件，范围从2到78，当n = 12时得出最佳结果; n（特征数量）包括F2，F4，F9，F10，F11，F12，F13，F14，F15，F17，F18和F19，如表2所示。从安全的角度来看，上述统计特征可以检测到异常行为的任何变化，例如在交叉火力攻击中看到的变化。4.5. 深度神经网络DNN是最常用的机器学习方法。他们可以通过将更多的层和每层更多的单元合并到神经网络中来逆转越来越复杂的功能[41]。DNN可用于识别隐藏在大量结构化数据中的正常和恶意流量模式深度神经网络是进行网络入侵检测任务监督学习的有效工具，特别是在计算能力持续增长的背景的力量来完成。因为我们只有14个类别，计算不会花费太多时间。4.3. 数据分割将数据集划分为20%的数据放在测试数据集中，80%放在训练数据集中。由于该数据集是高度不平衡的，如图3所示，因此确保在训练和测试数据集中分别存在相同百分比的恶意流是很重要的。为了实现这一点，数据集以这样的方式划分，以确保在训练和测试数据集中良性和恶意流量的分布是平衡的。在训练重复期间使用交叉验证，其中K倍等于5[45]。4.4. 主成分分析众所周知的PCA技术是一种数学过程，其使用正交变换将可能的关联变量的一组观测值转换为一组非线性相关的变量值，称为主成分。PCA主要用于降维。它是一种非监督投影方法，可以以最小的信息损失从复杂的较大区域转换到较小的新区域[46]。如果原始数据矩阵被定义为Xd N，则PCA创建表示基中的变化的Wd k投影矩阵，其中d表示数据xi的原始维度向量，k是重新配置后的数据向量yi^WTxi的维度。降维，并且N是xj数据向量数。在所提出的方法中，选择PCA而不是t-SNE等替代方法，原因如下最终解的随机性PCA是确定性的; t-SNE不是;不完整的数据。t-SNE本身不处理不完整的数据。公平地说，PCA也不处理它们，但是PCA对不完整数据的许多扩展（例如，概率PCA）是可用的，并且包括在几乎所有的标准建模例程中。t-SNE目前无法处理不完整的数据。图三. 网络流量分布。见图4。 DNN架构。●●M. Al-FawaAl-Fayoumi，S.Nashwan等人埃及信息学杂志23（2022）173180ð Þ ¼输入公司简介eV输入电压图五. 批量大小对损失函数的影响。见图6。优化器函数对损失函数的影响。4.5.1. 模型定义在深度学习中，超参数是控制学习过程的参数。这些过多的参数基于从系统输出反馈导出的验证集进行校准，并且包括批量大小、历元、损失函数、激活函数、数据归一化技术、每层单元数、隐藏层数、学习率、正则化技术（L1，L2）和优化算法。这些超参数的值是经过多次实验当量（4）将sigmoid函数定义为所定义的逻辑函数的特殊情况。它在每个位置都有一个正导数，并且是有界的。sigmoid激活函数由于其非线性和其推导的计算简单性而成为神经网络的流行函数[48]。Sig-moid函数的输入被转换为0到1之间的值。大于1.0的输入将转换为1，小于0的值将转换为0。具有不同的值，如图5所示。可以看出，当模型使用小批量SGD = 16时，损失函数最小。Sigmoid x11-xð4Þ在DNN中，激活函数是确定每个神经元的输出值的函数。这对模型的整体性能非常重要。使用了不同的激活函数，如Sigmoid，ReLU，Tan，SoftMax和Elu作为激活函数，由Eq. （3）在将负值设置为零之后，计算所有加权输入的和，并输出范围Softmax激活函数主要用于神经网络模型的输出层，特别是分类任务。它将隐藏层提供的加权和值转换为加起来等于1的概率，这些概率对应于每个类。Softmax激活函数由以下等式定义：（5）[49]。000;001;001。SoftmaxVVinput5#类神经网络的各种类型，因为它是简单的训练和达到良好的性能[47]。图 6表明使用RMSProp时损失最小最佳化工具。图7示出了当学习率= 0.01时模型的准确度最高。ReLU是一个开源的平台。xifx>00：01xotherwiseð3Þ经过大量的实验，DNN由三个隐藏层组成，每层64个单元，如图所示。四、激活如果输入为正，ReLU激活函数直接输出它;否则，它输出零。该模型被广泛应用于M. Al-FawaAl-Fayoumi，S.Nashwan等人埃及信息学杂志23（2022）173181ð Þ ¼ð Þ ¼ð Þ ¼ð Þ ¼每个隐藏层中的函数是整流线性单元（ReLU），具有用于多分类和Sigmod foinr二进制分类中的输出层的Softmax激活函数。在对一组优化器函数（如Adam和SGD）进行测试后，发现RMSProp的性能更好，在训练和测试阶段都有更好的结果另一方面，均方误差（MSE）被用作优化算法的损失函数，以使预测值与期望值之间的误差最小化，并通过方程计算（六）、MSE度量是通过计算预测值和期望值之间的差异来评估机器学习性能的最流行的度量之一[50]。MSE¼1X预测值i-预期值200200600n特异性、ROC曲线和F1被广泛用作评价指标。此外，该模型使用更多的度量，例如假阳性（FP）、真阴性（TN）、真阳性（TP）和假阴性（FN）的准确性混淆矩阵是另一种比较实际类别标记与预期名称并显示TP、TN、FP和FN值的方法。本文确定了一些指标来测试深度学习方法的有效性[52]。首先，基本术语概述如下：TP-表示被可靠地预期为正的观测值的数量（例如，基础事实是“有害的”，因此预期也是“有害的TN-表示准确地我我预测是负面的（例如，地面现实是nign5. 实验和模型评估在本节中，将简要总结应用于CSECICIDS 2018数据集的具有和不具有降维（PCA）的DNN技术。实验在64位Windows 10 PC上进行，具有 16 GB RAM 和 2.60 GHz CPU ，使用 Python 3.7.3 和 Numpy1.16.2进行深度学习。5.1. 评估方法和指标FP-表示预测的不正确观测数是积极的，而在现实中，他们是消极的（例如，基本的真理是FN-被预测为负的不正确样本的数量（例如，基础事实是混淆矩阵可用于表示监督学习分类算法的输出。预测的观测度量可以定义如下（等式10）。（7，8，9，10））在网络入侵检测的背景下[51]。IDS评估是一项关键任务，因为

下载后可阅读完整内容，剩余1页未读，立即下载