基于人工智能的入侵检测系统在现实网络中的超参数优化调整

76 浏览量更新于2023-12-10 收藏 460KB PDF 举报

神经网络算法

超参数优化

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

⃝可在www.sciencedirect.com在线获取ScienceDirectICTExpress 5（2019）211www.elsevier.com/locate/icte基于人工智能的网络入侵检测，使用云计算对现实网络数据集CSE-CIC-IDS 2018进行超参数优化调整V.Kanimozhi，T. 普雷姆·雅各布印度金奈Sathyabama科学技术学院CSE系接收日期：2018年12月13日;接受日期：2019年在线发售2019年摘要最新的新兴技术之一是人工智能，它使机器模仿人类行为。用于检测网络攻击或恶意活动的最重要组件是入侵检测系统（IDS）。人工智能扮演着至关重要的角色被广泛认为是适应和建立入侵检测系统的较好方法。在现代，神经网络算法正在成为一种新的人工智能技术，可以应用于实时问题。拟议的系统是检测僵尸网络攻击的分类，构成了严重的威胁，金融部门和银行服务。该系统是通过将人工智能应用于现实的网络防御数据集（CSE-CIC-IDS 2018）创建的，该数据集是加拿大网络安全研究所（CIC）在AWS（亚马逊网络服务）上于2018年推出的最新IDS数据集。所提出的人工神经网络系统提供了一个突出的性能，准确率为99.97%，平均面积在ROC（Receiver Operator Characteristic）曲线下为0.999，平均假阳性率仅为0.03。所提出的系统基于人工智能的入侵检测对僵尸网络攻击的分类功能强大，更加准确和精确。该系统可应用于传统网络流量分析、c2019韩国通信与信息科学研究所（KICS）。出版社：Elsevier B.V.这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。关键词：人工智能; AWS; CSE-CIC-IDS 2018;超参数优化;真实网络流量网络数据集1. 介绍网络入侵检测的目的是识别和监控恶意行为。目前的大多数入侵检测系统可以分为两大类。它们分别是基于特征的入侵检测系统和基于异常的入侵检测系统。基于特征的入侵检测系统通过将已知的攻击与进入的网络流量进行比较来检测入侵，并将入侵作为特征存储在数据库中。IDS可以很好地检测到现有的攻击，但它往往无法检测到新的（看不见的）攻击。下一个类别称为基于异常的IDS。在训练阶段，IDS模型通过学习模式来模拟正常的流量。与这些习得模式的偏差∗通讯作者。电子邮件地址：kanimv@yahoo.co.in（V. Kanimozhi），premjac@yahoo.com（T.P.Jacob）。同行评审由韩国通信和信息科学研究所（KICS）负责https://doi.org/10.1016/j.icte.2019.03.003被标记为异常或入侵。由于网络流量行为的快速增长和计算资源（计算时间和内存）的有限性，基于实时异常的IDS的实现是一项艰巨的任务。由于入侵检测系统的高维特征空间和模型的复杂性，存在过拟合的风险基于人工智能的技术在入侵检测系统的发展中起着至关重要的作用，具有其他技术无法比拟的优势。没有合适的和定义良好的技术来解决异常检测问题。建议的系统将有助于更好地了解不同的方向，在该领域的研究已经做了IDS。它们对于那些对基于AI的技术在IDS及相关领域的应用感兴趣的人是有益的。在本文中，我们提出了一种在现实的新IDS网络数据集（cse-cic-ids 2018）上进行超参数优化的人工神经网络实验方法。2405-9595/2019韩国通信和信息科学研究所（KICS）。出版社：Elsevier B.V.这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。212V。Kanimozhi和T.P.Jacob/ICT Express 5（2019）211包括在大多数最新的攻击（PCAP）中，以及通过AWS服务上的云计算获得的80多个特征（CSV）的标记流，用于入侵检测，以提供更高的准确性。2. 背景和相关工作无论是基于主机的入侵检测（HIDS）还是基于网络的入侵检测（NIDS），以及人工智能等方面，人们都对网络入侵检测系统进行了大量的研究，但目前还没有一个全面可靠的、涵盖现代攻击的网络数据集。根据 AlexShenfield和他的合著者的说法，该研究采用了一种离线方法来检测数据中的shellcode模式[1]。由于现代攻击，网络日益脆弱。在这个拟议的系统中，我们利用现实的最新网络数据集，这既损害了现有的攻击和零日攻击通过云计算获得的加拿大网络安全。3. 方法3.1. 僵尸网络僵尸网络是一种攻击，它由两个词“机器人”和“网络”组成。它是一个可以由远程控制的计算机操作或命令的网络。此外，它只不过是一种恶意软件，使系统或服务器由操作员远程控制和命令网络启示录-这是另一个恶意软件，并构成了严重的威胁，网络产生的影响，军队的机器人。例如，机器人。Zeus、Ares等。僵尸计算机的僵尸网络会发起拒绝服务攻击，这些僵尸计算机可以通过Drive-by-downloads和垃圾邮件传播。它执行各种犯罪和恶意活动，如通过记录和抓取客户信息来窃取信息，特别是在银行和金融部门。它劫持机密信息，如用户名，密码和其他敏感信息。Crypto-Cryptocurransomware-这是一个豪华的软件，通过使用RSA-2048公钥加密用户系统中的所有文件来攻击Windows操作系统。为了解密文件，他们索要巨额赎金。令人震惊的是，病毒在一百天内赚了3000万美元。凭证填充是一种恶意活动，它通过利用僵尸网络中的僵尸网络窃取重要的凭证来访问在线服务，从而应对自动注入攻击。Akamai的研究人员报告称，2017年11月至2018年6月期间，来自美国、俄罗斯和越南的恶意登录尝试达到3003.2. 人工神经网络人工神经网络是一种机器学习框架，它试图模仿自然生物神经网络的学习模式。生物神经网络的工作原理是树突接收输入，据说这些输入存在于人脑的互连神经元中。基于这些输入，通过轴突到另一个神经元，它们产生输出信号。我们将尝试使用人工神经网络（ANN）来模拟这个过程，从现在开始我们只称为神经网络。神经网络是深度学习的基础。它是机器学习的一个子集，负责当今一些最令人兴奋的技术进步3.3. 超参数优化分类器模型感知器有以下几个部分：一个或多个输入、一个偏置、一个激活函数和一个输出。感知器获得输入，应用一些权重，并且由接收加权输入的激活单元产生输出。神经网络可以通过将感知器层添加在一起以形成人工神经网络的多层感知器来建模。您将有一个直接接受数据的输入层和一个将创建结果输出的输出层。中间的任何层都被称为隐藏层。这是因为它们不能直接我们将使用实现多层感知器算法的多层感知器（MLP）。通过具有多个隐藏层，可以指定层的数量以及每层的神经元数量。多层感知器对特征缩放敏感。因此，扩展您的数据应该是明智的。在超参数优化方面，采用了GridSearchCV优化技术。调整神经网络进行优化是一项艰巨的任务，这是一个漫长的过程。它是并行操作的，可以迭代，具有10重交叉验证。我们从两层开始对神经网络进行建模[1]。在此模型中，已选择解算器作为“lbfgs”。并尝试使用L2正则化来找到alpha参数。如果没有正则化技术，将无法产生更好的预测和准确性。在这个模型中，我们分类的入侵检测（最佳F1分数是：0.9991678456370812最佳参数为：{4. 执行4.1.CSE-CIC-IDS2018我们在AWS（Amazon Web Services）上的加拿大网络安全研究所（CIC）的真实网络防御数据集上构建了MLP分类器模型CIC和ISCX的数据集在世界各地用于安全测试和恶意软件预防。诉Kanimozhi和T.P. Jacob/ICT Express 5（2019）211-214213要访问存储在资源类型S3 Bucket中的数据集，必须具备AWS知识，Amazon资源名称（ARN）为arn：aws：s3：cse-cic-ids 2018 ，并且在许可证下也是 AWS 区域 Ca-central-1许可证：http：//www. 联合湾ca/cic/datasets/ids-2018. HTML它包括对入侵的详细描述，以及针对以下内容的抽象分布模型：应用程序、协议或较低级别的网络实体。最终的数据集包括七种不同的攻击场景：暴力攻击、心脏出血、僵尸网络、DoS、DDoS、Web攻击和从内部渗透网络。攻击基础设施包括50台机器。受害者组织有5个部门，包括420台机器和30台服务器。数据集包括捕获的网络流量和每台机器的系统日志以及使用CICFlowMeter-V3[2]从捕获的业务中提取的80个特征。4.2. 使用Anaconda、Answyter notebook和SciKit创建人工神经网络-learn为了构建这个人工神经网络，我们使用Anaconda3.0和最新的Scikit版本0.19.1和Pandas版本0.23.1在笔记本电脑中。它可以通过pip或Miniconda（Anaconda的包管理器）安装。4.3. 受试者工作特性曲线ROC（Receiver Operating Characteristics）曲线用于可视化多维分类数据的性能。它被认为是评估任何分类模型准确性的最重要的评估指标之一。它也被称为AUROC（接收器工作特性下的面积）。让我们对神经网络建模并进行预测。为了获得整个评估指标，我们创建了两个函数。calculate auc函数还生成ROC。创建一个数据框架，以便轻松总结性能指标，这已经由pandas完成5. 结果5.1. ROC曲线图中生成的曲线。当在各个阈值点处的真阳性对假阴性比率时，曲线表示二元分类器在两个不同类别之间的区分程度，即，不管是良性还是恶性。分类器模型运行具有80个特征的1048575个记录的样本，并使用10倍交叉验证对其进行优化，以产生图1中的ROC曲线。1 .一、5.2. AUC分数它是ROC曲线下面积，它总结了二元分类器的性能。分数越高，分类器模型的性能AUC评分：0.9991680Fig. 1. ROC曲线。图二、神经网络的混淆矩阵。5.3. 混淆矩阵它提供了对正面和负面预测数量的深入了解，并总结了该模型中正常和恶意攻击的计数，下图显示了如何100%识别正常和恶意僵尸网络攻击的示例。因此，总体混淆矩阵优于该模型的评估指标（见图1）。 2）。5.4. 神经网络模型(see表1）。神经网络模型训练精度：1.0神经网络模型测试精度：0.999755.5.默认MLP分类器模型比较如果模型未设置任何参数，则默认alpha为0.0001，隐藏层大小为100个神经元，214五Kanimozhi和T.P.Jacob/ICT Express 5（2019）211表1神经网络分类报告。培训数据性能指标准确度精确度召回F1AUC 0 1.0 1.0 1.0 1.0 1.0测试数据性能指标精度精度召回F1AUC0 1.01.01.01.01.0单层。默认模型是过拟合模型。这在神经网络中经常发生。您可以直观地看到准确性分数和可以实现的参数优化的能力。神经网络模型训练精度：0.99983神经网络模型测试精度：0.99956. 结论所提出的系统可以扩展到检测这个现实的数据集，其中包括所有的实时和现有的攻击的其余类的攻击。在这个人工智能Scikit学习框架优化中使用的框架是基于CPU（中央处理单元），而不是GPU（图形处理单元），优化可以通过其他这样的框架进行强大的调整，如Google的开源Tensor-Flow。当我们遇到pandas处理更大的数据（100GB到多TB）时，性能问题是一个常见的任务，但是Spark，一个用于大数据处理的开源Apache框架，可以处理大规模数据集的并行计算，范围从100 GB到多TB跨集群计算机。利益冲突作者声明，本文中不存在利益冲突。引用[1] Alex Shenfield ， David Day ， Aladdin Ayesh ， Intelligent intrusiondetection system using artificial neural networks，4（2）（2018）95-99.[2] 放大图片作者： Iman Sharafaldin ， ArashHabibiLashkari ， Ali A.Ghorbani ， Towardgeneratinganewintrusiondetectiondatasetandintrusion traffic characterization，in：4th International Conferenceon Information SystemsSecurityand Privacy （ICISSP ），Portugal ，2018.Kanimozhi已经担任助理教授（计算机科学）三年，并担任软件培训师（C，C++，Java，Python，Python库（Numpy，Scipy，Pandas），机器学习，Python实现编程笔记本。目前正在攻读博士学位。(CSE)在大规模网络安全的大数据分析中使用Python3，Anaconda 3.0 Spark在Sathyabama科学技术研究所实现，Chennai。T医生Prem Jacob于二零零四年获得印度NagercoilManonmaniam Sundaranar University C.S.I Institute ofTechnology的计算机科学与工程学士学位，于二零零六年获得印度Chennai Sathyabama University的计算机科学与工程硕士学位，并于二零零六年获得印度Chennai Sathyabama University的计算机科学与工程博士学位。印度金奈Sathyabama大学学位。他是Sathyabama科学技术学院的计算机科学与工程副教授。他参加并发表了许多研究论文，在国际和国家会议，推论他的兴趣领域包括软件工程、数据挖掘、数据仓库和云计算。

下载后可阅读完整内容，剩余1页未读，立即下载