没有合适的资源?快使用搜索试试~ 我知道了~
网络入侵检测中的人工智能超越其他分类器的研究
⃝可在www.sciencedirect.com上在线获取ScienceDirectICTExpress 7(2021)366www.elsevier.com/locate/icte在网络入侵检测系统中,人工智能在现实的网络数据集上超越了所有其他机器学习分类器CSE-CIC-IDS 2018使用云计算V. Kanimozhi,T.普雷姆·雅各布Sathyabama科学技术学院CSE系,印度钦奈接收日期:2020年1月8日;接收日期:2020年9月7日;接受日期:2020年12月9日2020年12月17日网上发售摘要我们的首要任务是检查和检测网络攻击,是一项艰巨的任务,因为各种攻击是每天存在的数量庞大。该计划使用最新的CSE-CIC-IDS 2018网络数据集检测僵尸网络攻击,加拿大网络安全机构(CIC)网络数据集可以在AWS(亚马逊网络服务)上访问。真实的网络数据集包括所有现代和现有的攻击,如暴力攻击和密码破解,心脏出血,僵尸网络,拒绝服务(拒绝)DDoS(也称为分布式拒绝服务),Web攻击(即易受攻击的Web应用程序攻击)以及从内部渗透网络。拟议的研究的目的是确定僵尸网络攻击的分类。僵尸网络攻击是一种特洛伊木马恶意软件攻击,对银行和金融部门构成严重的安全威胁。由于特定的分类器可能适用于此类数据集,关键是完成分类器的比较检查,以便在网络攻击的这种基本检测中实现最值得注意的执行。拟议的框架是将不同的分类器方法,如KNearset Neighbor分类器,朴素贝叶斯,Adaboost与决策树,支持向量机分类器,随机森林分类器和人工智能,以区分僵尸网络攻击的描述最近和现实的网络数据集CSE-CIC-IDS 2018。分类结果以精确精度表示对于特定的分类器。此外,所提出的框架使用校准曲线作为分析方法中的标准方法,该方法生成可靠性图以检查各种分类器的预测概率是否经过良好校准。最后,所显示的图形证明了人工智能技术优于所有其他分类器的程度,这些分类器生成可靠性图以检查各种分类器的预测概率是否经过良好校准c2020年韩国通信与信息科学研究所(KICS)。出版社:Elsevier B.V.这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。关键词:AWS;僵尸网络;校准曲线; CSE-CIC-IDS 2018;各种机器学习分类器1. 介绍IDS(入侵检测系统)可以定义为:一种编程应用程序或硬件,用于对系统或框架进行有害移动或违反政策。这样的移动通常被透露给主管或利用安全数据在中途收集。入侵检测系统(IDS)有几种类型;两种主要类型是主 机 入 侵 检 测 系 统 ( HIDS ) 和 网 络 入 侵 检 测 系 统(NIDS)[1]。∗ 通讯作者。电子邮件地址:kanimv@yahoo.co.in(V. Kanimozhi),premjac@yahoo.com(T.P.Jacob)。同行评审由韩国通信和信息科学研究所(KICS)负责https://doi.org/10.1016/j.icte.2020.12.004最著名的分类是NIDS(网络IDS)和HIDS(基于主机的IDS)。屏蔽重要OS(操作系统)文件的HIDS和屏蔽网络中传入网络流量的NIDS。另外还可以设想通过检测方法来重新布置IDS。它们是基于签名的检测方法(感知可怕的模式,例如恶意软件)和基于异常的检测方法(识别与良好模型流量的偏差,这通常取决于AI(人工智能)[2]。NIDS可以观察到拒绝服务攻击、扫描和网络流量等恶意活动。所有到达的包裹都由NIDS读取,并搜索任何可疑的包裹。一旦发现威胁区域单元,支持其严重性,系统将采取行动,如通知董事[3]。监视和分析网络流量,以保护系统免受2405-9595/2020韩国通信和信息科学研究所(KICS)。出版社:Elsevier B.V.这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。V. Kanimozhi和T.P. 雅各布ICT Express 7(2021)366367基于网络的威胁,NIDS已被采用。该系统旨在通过在CSE-CIC-IDS 2018上整合各种分类器模型来检测对金融部门构成严重威胁的僵尸网络攻击,并具有更好的预测能力[4]。2. CSE-CIC-IDS 2018在AWS这是加拿大网络安全机构(CIC)在2018年发布的最新和现实的网络数据集。对于入侵检测和恶意软件预测,CIC和ISCX的数据集已在全球范围内使用。这个数据集的主要目标是建立一个有序的方式来处理产生不同的和深远的基准数据集的入侵检测对客户端配置文件的形成,其中包含的理论描绘的场合和实践上看到的系统。该数据集包括七种不同的攻击情况:僵尸网络,心脏出血,暴力,拒绝服务和分布式拒绝服务,内部网络渗透和Web攻击。攻击框架包含50台机器,受害者协会有5个部门和30台服务器,包含420台机器。该数据集包含捕获量 , 组 织 每 台 机 器 的 流 量 和 框 架 日 志 , 以 及 利 用CICFlowMeter-V3从捕获的流量中删除的80个亮点。CICFlowMeter-V3,是一个用java编写的流量生成器,在网络中有很好的控制流量的功能以及时间流的持续时间。这里产生了这个特定的数据集作为CSV文档,具有标记为SourceIP,FlowID,DestinationIP,DestinationPort,SourcePort的六个重要功能和80个协议功能[5]。网站上数据集的可用性:http://www. 联合湾ca/cic/datasets/ids-2018. HTML3. 执行3.1. 用Anaconda、Scikit-learn和Anaconda Notebook制作人工神经网络为了构建这个人工神经网络,我们使用Ana-conda 3.0和最新的Scikit表单0.19.1和Pandas版本0.23.1。它通过pip或Miniconda(包管理器)管理得很好[6]。3.2. 整合各种机器学习分类器3.2.1. 通过清除噪声、不相关和缺失数据需要通过删除空值来清理数据集,缺失值由平均值填充,并且通常使用StandardScaler以标准格式缩放各种特征值范围。3.2.2. 将数据集拆分为训练和测试模型数据集被划分为两个子集• 训练数据集-训练模型子集• 测试数据集-用于评估的测试模型子集数据集应该是训练和测试分割的一部分。我们将数据集分配到训练集和测试集,并以803.2.3. 使训练模型学习并适应各种机器学习分类器创建训练模型并使其适合不同的分类器,以检查哪个分类器提供最佳准确度得分,以及哪些分类器精确地在校准标准曲线上排列,如朴素贝叶斯分类器,随机森林分类器,K最近邻model.fit3.2.4. 使用测试模型计算准确度得分预测是通过引入sklearn包和编码来确定的,如下所示:#predicted class= model.predict(training model)此外,通过部署来自sklearn的分类报告,在所有各种机器学习分类器模型的预测模型和测试模型之间确定准确度或精度得分。度量和编码如下:#print(准确度评分(测试模型,预测类别)#print(分类报告(测试模型,预测类别)4. 将机器学习分类器纳入CSE-CIC-IDS 2018分类是预测给定数据类别的方法。每种方法都包含一个学习计算,以识别最适合训练数据和测试数据之间关系的模型。随后,学习计算的一个关键目标是构建一个预测模型,精确地预见已经未知的记录的类标签。分类方法是处理来自输入数据的分组模型的深思熟虑的方式。例如,决策树分类器,基于规则的分类器,神经系统,支持向量机和朴素贝叶斯分类器是解决分类问题的不同策略。4.1. 朴素贝叶斯它是一种依赖于贝叶斯定理的分类模型简单地说,朴素(强)贝叶斯分类器接受类的特定特征与类的其他特征无关它是一种基于概率的算法,用于问题分类,快速、直观,但在许多情况下,V. Kanimozhi和T.P. 雅各布ICT Express 7(2021)366368出奇的好用于垃圾邮件过滤的电子邮件应用程序基于朴素贝叶斯,例如,当数据集很小时,它比更复杂的模型表现得更好。其他更复杂的模型在数据丰富时往往优于朴素贝叶斯4.2. 随机森林分类器随机森林分类器可以是一个基于树的图,它涉及构建许多树(决策树),然后组合它们的输出以增强模型的泛化能力。混合树的方法被理解为集成方法。然而,集成并不是弱学习器(单个树)的混合,以提供一个健壮的学习器。它既可用于分类问题中的分类数据,也可用于回归问题中的连续数据。4.3. K近邻分类器k近邻是监督分类模型,整个训练数据集被创建为KNN的模型,即,也称为基于实例的学习(数据行)。当需要对未知数据或新数据进行预测时,kNN算法将在模型(训练集)数据集中查找k个最匹配的数据或实例。最匹配的预测案例被报告并作为未知或新数据的预测返回,其中4.4. 支持向量机分类器支持向量机(Support Vector Machine),简称SVM分类器,既可以用于分类,也可以用于回归。SVM的目标是在多维空间中建立一个超平面,唯一地分类记录实例。超平面被认为是帮助对记录实例进行分类的决策障碍。落在超平面的两个方面上的顶点可以习惯于另一种类别。而且,超平面的维度依赖于特征的数量.如果维度是2,那么超平面看起来是一条线。如果维度是3,那么它就变成了一个二维超平面。很难想象当维度超过3时[7]。支持向量是一种统计因子,它更接近超平面,影响超平面的位置和方向。利用这些支持向量,可以对超平面的边缘进行分类。在SVM中,我们最大化统计因子和超平面之间的裕度,从而在我们提出的系统中构建SVM分类器。4.5. Adaboost与决策树分类器决策树是一种树状结构,节点表示我们选择属性并进行查询的位置;边表示对查询的适当响应,叶子表示输出或类名。决策树将数据集稳定地创建相关的决策树决策树点具有不少于两个分支,并且叶节点点处理动作过程或决策。树中最值得注意的决策节点,它指向最佳指针,称为根节点。决策树可以管理数值和分类数据。它是为分类而产生的卓有成效的助推计算。它可以用来改善与各种不同类型的学习计算相关的执行。其他学习计算(“弱学习者”)的输出被合并为加权总和,该加权总和显示为帮助分类器的最后输出。最适合Adaboost使用的模型是一级决策树由于这些树很短,只包含一个决策,对于分类,它们通常被称为决策树桩。4.6. 人工神经网络分类器人工智能是通过人工神经网络分类器实现的,即多层感知器。MLP神经系统的主要目标是建立一个模型,该模型可以从大量数据中处理复杂的计算问题神经网络由感知器的各种混合物组成,这些混合物共同建立了称为多层感知器的结构。基本多层感知器包括三层:1. 输入层-数据进入的地方2. 隐藏层-一个所有的活动;3. 输出层-活动的结果神经框架包含分层排列的单元(神经元),它们将数据输入转换为某些输出。每个单元获取一条信息,对其应用(尽可能多的非线性)能力,并在短时间内将输出传递到相应的层。一般来说,框架被描绘成前馈:一个单元加强了对伴随层上所有单元的尊重,但没有对过去层的反馈。权重与从一个单元到下一个单元的层相关联,这些权重在训练阶段产生,以调节神经框架来处理特定问题[8]。人工神经网络用于解决各种商业问题,例如预测销售,研究报告客户、数据验证和风险管理。例如,神经网络在Statsbot用于预测时间序列,数据异常检测和NLP(自然语言理解)(见表1)。5. 结果统计度量得分如下,并且得分值的范围从0到1。最差模型得分为0,最佳模型得分为1准确度:准确度分数显示了模型整体准确预测的程度,它是最精确的指标分数之一。它为人工神经网络提供了0.9997的高分,比其他所有◦V. Kanimozhi和T.P. 雅各布ICT Express 7(2021)366369表1CSE-CIC-IDS 2018上各种机器学习分类器的准确性和不同度量得分分类器模型精度精度召回F1AUC人工神经网络0.99970.99961.00000.99981.0000随机森林分类器0.99830.99920.99880.99920.9000KN近邻分类器0.99730.99800.99880.99840.9980SVM分类器0.99800.90000.99880.99940.9990ADA增强分类器0.99960.99960.99880.99920.9988朴素贝叶斯分类器0.99200.99290.99760.99530.9810Fig. 1. 校准曲线显示MLP分类器正好跨越虚线完美校准曲线。. (For对颜色的解释本图图例,读者可参考本文网络版分类器准确度分数不足以衡量模型的性能,为了更深入地了解模型,需要使用其他性能指标分数来评估模型,如Recall,precision,F1和AUC SCORE。◦ 回想一下:召回率可以是一个衡量标准,它告诉我们当所有实际值都为正值时,我们的模型有多棒,并且它在人工网络分类器上显示出非常高的分数。◦ 精度:它是所有预期实际值中公认的实际值,与所有其他分类器相比,人工神经网络◦ F1评分:它可以是一个度量,通过取其平均值,混合了召回率和精度,这对于人工网络分类器来说也是显著更大的。◦ AUC分数:如果AUC的分数为1,则分类器准备好正确区分所有实际值和假值,并且它显示通过人工网络分类器实现的人工智能的评分。6. 校准曲线这里是一个sklearn图,比较了一些著名算法的校准测量分类器对数据集的概率预测性能的最佳可能方法是使用校准曲线,该校准曲线也被称为标准化曲线。以下是创建的校准曲线。虚线显示了完美的校准曲线(标准化曲线)。我们已经测试了各种分类器,如人工神经网络(MLP分类器),朴素贝叶斯,KNeighbors,支持向量分类,随机森林和AdaBoostClassifier的模型,并倾向于在网络数据集上校准性能最佳的分类器模型。校准曲线可作为可靠性图。图中的图表。图1示出了六个不同分类器模型与完美校准曲线的偏差。大型结构化数据对于计算回归来说很难管理。我们使用虚线来显示完美校准的曲线,棕色线表示MLP分类器,它正好在校准曲线上延伸,并且非常接近校准 曲 线。 第 二 个 最 佳匹 配 的 曲 线是 具 有 有 限方 差 的Adaboost分类器,第三个最佳匹配的曲线是V. Kanimozhi和T.P. 雅各布ICT Express 7(2021)366370是朴素贝叶斯分类器。SVM和KNeighbors远离均匀曲线,具有最大偏差。虽然SVM在优化后产生精度1.0,但校准曲线产生不同分类器的精确输出。有一个明显的趋势,样本稍微遥不可及,一个随机的森林分类器从上到下跳。而且样本有明显的稍微超出范围的趋势,这也表明方差偏差更高。图形中的偏差更容易一目了然,因为人工智能的方法优于所有其他分类器。7. 结论由此证明,通过人工神经网络分类器执行的人工智能在统计度量得分以及通过复杂现实数据集的网络入侵检测系统中的校准曲线方面优于所有其他机器学习分类器。竞合利益作者声明,他们没有已知的可能影响本文所报告工作引用[1] Przemyslaw Kazienko,Dorosz,入侵检测系统IDS)第一部分-(网络入侵;攻击症状; IDS任务;和IDS体系结构)。[2] JChristina Ting,Richard Field,Andrew Fisher,Travis Bauer,用于网络通信中的分类和异常检测的压缩分析,IEEE Trans. INF. 法医安全(2018年)。[3] R.辛格,H. Kumar,R.K.辛格拉网络攻击和入侵检测系统:文献回顾,在线通知. 版本41(2)(2017)171 -184,Scopus GoogleScholar中的CrossRefView记录。[4] 莫 诺 瓦 尔 河 Dhruba K. Bhuyan Bhattacharyya , Jugal K. Kalita ,Network Traffic Anomaly Detection and Prevention,Springer Nature,2017。[5] 放 大 图 片 作 者 : Iman Sharafaldin , ArashHabibiLashkari , Ali A.Ghorbani,Toward Generating a New Intrusion Detection Dataset andIntrusion Traffic Characterization,第四届信息系统安全与隐私国际会议(ICISSP),葡萄牙,2018年1月[6] H.- J. Liao,C.- H.R.林,Y.- C. Lin,K.- Y.董,入侵检测系统:一个全面的审查,网络。Comput. 36(1)(2013)16-24,[在线]。可用https : //www. 我 不 知 道 。 Com/2016/10/bginnersguide-neural-networks-python-scikit-learn。HTML.[7] M.S. Pervez,D.M. Farid,采用SVM的NSL-KDD cup 99数据集中的特征选择和入侵分类,在第八届软件,知识,信息管理和应用国际会议(SKIMA 2014),2014年,第10 0 页。1比6[8] Alex Shenfield,David Day,Aladdin Ayesh,使用人工神经网络的智能入侵检测系统,4(2)(2018)95-99,6月。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功