没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报智能城市基础设施Yakub Kayode Saheeda,Ahmad,Oluwadamilare Harazeem Abdulganiyub,Taha Ait Tchakouchtba尼日利亚,尼日利亚美国大学信息技术和计算学院b摩洛哥非斯欧洲医学大学数字工程与人工智能学院阿提奇莱因福奥文章历史记录:2023年1月11日收到2023年3月16日修订2023年3月17日接受2023年4月15日网上发售保留字:入侵检测系统SCADA关键基础设施智能电网智慧城市灰太狼优化器学习BaggingAdaboost堆叠物联网A B S T R A C T关键控制结构(CI)使用监控和数据采集(SCADA)系统进行监控和远程控制。传感器网络正被整合到智慧城市基础设施的各个领域传感器网络数据流包含可用于对这些基础设施的活动进行建模和控制的信息然而,SCADA系统不断暴露于各种不同的入侵,使得传统的入侵检测系统(IDS)的检测非常困难。由于其独特的规格,传统的安全解决方案,如防病毒和防火墙软件,不适合正确保护SCADA系统。此外,工业传感器网络(ISN)中的异常检测因此,有效识别主要SCADA系统中的网络攻击对于增强其弹性,确保安全运行和避免昂贵的维护无疑是至关重要的我们开发了一种新的混合集成模型方法来解决这些问题。本文在本文中,我们提出了一个混合的包围学习模型(ELM)的入侵检测SCADA系统与ISN利用有形的数据收集的天然气管道系统由密西西比州立大学(MSU),供水系统,和高维新南威尔士大学-NB 2015(UNSW-NB 15)的数据,反映了一个典型的攻击在物联网(IoT)环境。采用单位归一化法对数据进行预处理,利用主成分分析法对高维数据集进行特征提取。使用Grey Wolf Optimizer(GWO)优化装袋、堆叠、Adaboost以及具有多数表决技术的分类器Naive Bayes和支持向量机的集合然后,我们利用所提出的方法建立在双射软集的方法,有效的ELM选择。实验分两个阶段进行:最初,没有PCA + GWO的ELM上的特征提取和选择,随后,与PCA + GWO的ELM上的特征提取和选择。PCA + GWO在NB + SVM分类器集成上提供了99%的准确率,100%的精度,100%的召回率和99.90%的检测率,超过了没有PCA特征提取和GWO优化方法的分类器集成。版权所有2023作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍近几十年来,传感器网络已经监测和控制了智慧城市关键基础设施的很大一部分。这些基础设施包括天然气管道、发电站、铁路、供水网络、空调设备和污水处理设施。在早期,这些系统中的大多数彼此独立地操作(Mandarin等人,2021年)。图1描绘了智慧城市环境中的典型关键基础设施。2019年*通讯作者。电子邮件地址:yakubu. aun.edu.ng(Y. Kayode Saheed)。美 国 政 府 题 为 “ 管 道 保 护 : 第 116 届 国 会 的 国 土 安 全 问 题 ”(Parfomak,2019)的报告近年来,这些系统已集成到网络中并连接到互联网。这些设施的联网提高了运营商的控制力,降低了管理公司的费用。这种互连性对智能子结构造成了几种安全威胁由这些基础设施部署的控制网络系统的远程管理是这些问题之一如果这些系统中的任何一个存在安全漏洞,攻击者将很容易访问子结构。这些攻击可能导致系统故障,并对人类生命构成威胁https://doi.org/10.1016/j.jksuci.2023.03.0101319-1578/©2023作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comY. Kayode Saheed,O.Harazeem Abdulganiyu和T.阿伊特·查古赫特沙特国王大学学报2Fig. 1. 智慧城市中的关键结构。因此,一个准确、全面的SCADA网络入侵检测系统(IDS)的概念和实现是一个至关重要的问题。由于部署在工业传感器网络中的物联网(IoT)设备和传感器的数量越来越多,工业控制系统(ICS)目前显示出大规模、异构、联合和智能的特征(Yang等人,2022年)。然而,现代物联网设备的巨大渗透将ICS转变为易受网络物理风险和攻击的网络物理系统(Yang et al.,2022年)。这些物联网设备容易受到黑客利用的rootkit的影响,从而发动毁灭性的攻击。物联网漏洞的增长率比网络漏洞的增长率高14.7%(Rizvi等人,2018年)。ICS的操作条件将受到 入 侵 者 行 为 的 影 响 , 传 感 器 数 据 与 ICS 的 操 作 状 态 相 关 联(Salvadori,2009)。因此,异常传感器数据的检测可能被视为对网络物理攻击的关键反击(Teh等人, 2021年)。近年来,传感器网络异常行为的识别已经成为网络网格和智慧城市安全性和可靠性的重要组成部分。ICN和物理环境之间存在着强相互作用,这些网络必须能够实时响应不规则事件。由于许多关键基础设施使用SCADA方案,因此对异常响应的任何延迟都可能导致重大费用并造成重大损害。因此,减少SCADA网络对关键事件的响应时间对于异常检测至关重要。SCADA系统包括许多一般独立的组件,因此,这些系统中的异常检测比常规计算机网络中的异常检测更具挑战性。由于ISN的部署环境和与传统IT网络的竞争目标存在很大差异,因此,正常的网络安全方法无法以原始形式对ISN实用。这是保护互联网服务供应商的一个基本问题。这对于通常是资源密集型的入侵检测方法尤其如此(Ramotsoela等人,2018年)。由于其多功能性和相对的资源效率,异常检测在ISN中是广泛的(Taormina等人,2017年)。偏离正常的现象是反常现象.可以通过评估感测到的数据或流量模式来识别操作环境异常,以识别异常系统活动。与传感器节点相比,数据处理在ISN中的整个数据传输中 消 耗 最 多 的 能 量 ( Lopez Perez 等 人 , 2018; Al 等 人 , 2019;Choubineh等人,2020; Wang等人,2022年)。低可用功率,这是一个常见的电池,是这些小工具的主要限制。在应用的这个实例中,异常检测算法应该尝试减少完成任务所需的用户参与量(Ling等人,2021年)。这是可行的,通过在网络中使用分布式计算此外,异常可能不一定意味着安全漏洞(Taormina等人, 2017年)。一个有缺陷的节点可能产生错误的后果,最终可能摧毁网络。在涉及重要基础设施的应用中,这些类型的不规则性与由黑客引起的不规则性一样不安全,因此所提出的技术应当被设计成识别它们(Ramotsoela等人,2018年)。几项异常检测调查(Tylman,2013; Zhou,2015)和(Hosic等人, 2016年,他发表了大量的文献。然而,这些研究没有考虑资源受限的ISN,它与传统的计算机网络竞争资源。此外,据我们所知,没有研究根据上述情况检查异常检测对关键基础设施(特别是天然气管道,水管系统和物联网环境威胁)应用在(Kang等人,2009年),作者提供了一个简洁的描述异常检测在典型的SCADA系统,但他们没有明确解决的ISN。由于这些破坏性的网络攻击,对SCADA网络的高性能IDS的研究和开发有所增加在传统的CSN(Garitano)中,ML已被用于检测正常和恶意数据包,具有惊人的效率。然而,机器学习算法无法检测到以前不存在于其数据库中的威胁。单ML模型的性能还必须在准确性、精确度、召回率、检测率和生成模型所需的时间方面得到改进。由于针对天然气管道的网络攻击不断增加近年来,线路、水务设施和物联网攻击(陶尔米纳例如,2017年),关键天然气管道,水系统基础设施和物联网攻击被选为关注的主要应用。保护这些系统至关重要,Y. Kayode Saheed,O.Harazeem Abdulganiyu和T.阿伊特·查古赫特沙特国王大学学报3本研究探讨的困难和限制,这样做的背景下,异常检测应用系统的ISNs和SCADA网络。这项研究的目的是:提高分 类器的有 效性,特 别是在识别 攻击的准 确性、检 测率(DR)、召回率和精确度方面。为了优化ELM模型的参数,评估GWO。提出一种称为双射软集的新技术,以选择最有效的ELM,用于智能城市基础设施的SCADA系统中的网络攻击检测。重点研究了数据预处理和特征降维,并提出了提高EL算法性能和效率的技术采用最小-最大法对数据进行归一化处理,采用主成分分析法(PCA)按相关性顺序用新的属性替换分析数据集中的原始属性每个阶段中的一个属性(最不重要的)被忽略,以确定其对算法性能的影响。比较研究结果,以发现PCA降维和GWO(PCA + GWO)在应用于水,天然气管道SCADA和UNSW-NB 15数据集时,在增强ELM算法的性能方面是否更有效。模型的入侵检测性能2. 相关工作在过去的几十年里,许多学者研究了SCADA和ISN中的异常识别。Lopez Perez等人,2018)提出了用于SCADA系统的基于ML的攻击检测算法。他们利用两种归一化策略对来自MSU的天然气管道数据进行数据预处理。对于入侵检测,SVM和随机森林(RF)的性能进行评估的精度,F1,准确率和召回。实验结果表明,RF可以成功地识别入侵,F1得分大于99%。研究人员(Al等人,2019年)应用ML算法构建了一个误用IDS,旨在发现对天然气管道基础设施SCADA系统网络的攻击。利用MSU输气管道的数据进行了实验研究。使用NB、基于规则和基于树的ML算法对攻击进行分类。仿真结果表明,随机森林分类器的性能一般是优越的。作者(Choubineh等人,2020)提出了SCADA入侵检测的元分类器模型。成本敏感学习(CSL)被用来解决使用Fisher判别分析(FDA)的类不平衡的问题。实验是使用来自MSU的SCADA数据进行的。结果表明,CSL可以提高所有分析的算法的性能,特别是他们的真阳性率(TPR)。相比之下,FDA技术只能以83.5%的准确度对HoeffdingTree 产 生积 极 影 响, 39.5%F-1 和 OneR 算 法的 准 确 度为81%,F1为54.2%。研究人员(Wang等人,2022)提出了一种堆栈深度学习(DL)方法来检测对SCADA系统的恶意攻击。使用两个实验室规模的SCADA系统的实际数据这项研究的结果表明,建议的堆叠DL方法的令人满意的性能。这项研究还表明,所提出的方法优于单独的深度学习(DL)模型和尖端算法。作者(Ling等人,2021)提出了一种检测ICS中入侵的方法。在本研究中,使用双向简单递归单元(BiSRU)方法。对于模拟实验,两个典型的工业数据集,MSU气体数据和水系统数据集,被利用。结果恶魔-结 果 表 明 , 所 提 出 的 BiSRU 模 型 具 有 更 高 的 性 能 , 准 确 率 为92.94%,精度为96%,优于六种互补技术。用于SCADA的网络入侵检测系统(NIDS)见(Tylman,2013)。这项研究提出了一个想法,坚持规则的异常检测。初步测试在网络环境模拟中进行。该解决方案的第一次测试表明,该系统能够检测使用Modbus RTU协议的设备之间的通信异常。作者(Zhou,2015)在对制造过程自动化中现场开关层的多领域专业知识进行全面分析后,提出了多种模型。为工业过程自动化,一个独特的多模型异常入侵检测系统的集成智能和鲁棒的协调。实验结果表明,该系统具有高精度、实时性好、检测准确率达99.82%等特点。作者(Hosic等人,2016)提出了一种从网络数据包捕获和网络流中提取十几个特征的方法。然后进行特征归一化。对于分类,使用模糊逻辑的决策树。在九个实验中的五个中,结果显示100%的准确性。作者(Brändle和Naedele,2008年)强调了安全性对ICS的重要性,列举了SCADA安全问题,并针对这些挑战提出了适合行业的解决方案。作者(Hong和Lee,2010年)探讨了SCADA和智能电网技术的安全漏洞。作者(Zhang等人,2015)创建了一个全面的案例研究和异常检测机制。作者将系统的典型行为描绘对真实供水系统数据的实验研究证实了所提出的策略的有效性,其显著优于基线技术。准确率为81.49%,召回率为89.1%,f-measure为85.13%。Kang等人(Kang等人,2009)报告了SCADA系统异常和发现异常的策略。SCADA系统异常和风险通常是以下之一:活门、清扫、授权违规、更改、浏览和炸弹。这些攻击的目的是访问SCADA服务器。许多IDS采用机器学习方法来发现能够定位恶意系统异常活动的趋势。由于SCADA活动的周期性,可以通过识别系统模式(Garitano)来描述正常的系统行为。作者(Pan等人,2015)提出了一种用于设计混合入侵检测系统的系统化和自动化的方法,该混合入侵检测系统为电力系统条件(包括中断、正常控制操作和网络攻击)开发基于时间状态的标准。实验结果表明,99.8%的准确度。最近已经提出了许多用于SCADA以及其他网络中的异常识别的技术。研究人员(Yang等人,2017)建立了一种入侵检测方法,该方法结合了SCADA网络的协议、行为和物理特征。在石油和天然气工业中,作者(Yang等人,2016)介绍了SCADA系统的模糊安全风险评估技术。Ponomarev等人(Ponomarev和Atkison,2016年)提出了一种方法,IDS框架可以通过评估工业控制网络中传输的数据来区分互联网上的攻击者。 作者(Samdarshi等人,2015)整合了全球入侵检测系统(IDS),并提出了一个三层集成模块。这包含一个基于“假设”模块的新层,用于预测命令信号的恶意目的。预计该组件还可预测即将发生的系统故障。试验结果表明,正确分类率为99.5%,错误分类率为0.04%。 作者(Maglaras等人, 2016年)提出了分布式●●●●Y. Kayode Saheed,O.Harazeem Abdulganiyu和T.阿伊特·查古赫特沙特国王大学学报4入侵检测系统能够提供正确的入侵来源和时间信息. Lin等人(Lin等人,2018)提出了一个框架,可以估计SCADA中的控制指令对易受控制相关攻击的智能电网的执行影响。该论文(Cruz,2016)提出了一种用于SCADA网络的分布式IDS,并提供了一个混合测试平台,用于评估智能电网环境中建议的系统。作者(Coutinho等人,2008)描述了一种独特的策略,用于通过采用异常检测技术来识别攻击和故障来增强电力系统关键基础设施(CI)的安全性。利用粗糙集分类算法,可以建立异常检测的标准。这可用于检测攻击和故障,以及增强状态估计。该论文(Cherdantseva,2016)评估了SCADA网络的各种类型的IDS , 并 提 供 了 一 个 用 于 分 类 安 全 风 险 评 估 的 模 型 。 研 究 人 员(Almalawi等人,2016年)开发了一种数据驱动的IDS方法,该方法使用SCADA过程参数识别控制网络的状态。作者在(Zhang等人,2015)提出了一种IDS技术,使用贝叶斯攻击图对SCADA系统漏洞进行建模。表1总结了ISNs和基于SCADA的特征和异常入侵检测系统分类方法。从上述研究中可以看出,大多数研究在所述文献中,没有注意到用于解决SCADA网络中的异常和识别攻击的混合他们主要集中在单个分类器上,用于SCADA中攻击的检测和分类此外,大多数研究还跳过了数据预处理和降维阶段,这是已知的入侵检测中最耗时的阶段此外,对文献中报告的大多数工作的实验分析是在单个数据集上进行的。在早期的工作相比,我们提出了一种新的混合技术的异常SCADA网络。对于数据准备,这些模型使用基于单位的最针对SCADA入侵检测中ELM的选择问题,提出了一种唯一的双射软集.此外,引入GWO优化ELM算法设置.最后,利用三个智慧城市关键基础设施数据集对所提出的模型进行仿真。2.1. 本研究的动机我们的目标是设计一个集成学习算法,用于具有以下三个特征的异常识别2.1.1. 实时检测由于传感器数据的重要性,来自大型传感器的单个异常读数可能引发灾难性的系统故障级联。因此,应及时发现异常情况,以减少潜在伤害的可能性。为此,需要一个实时检测异常的在线系统。尽快当获取传感器数据时,该技术必须能够识别SCADA网络中每个传感器标记的异常状态。2.1.2. 分布式解决方案无论是中央控制器或黄土传感装置可以识别异常。在大规模ISN和SCADA网络中,集中式系统需要将感测到的数据传输到集中式控制器,这可能导致数据丢失和检测选择的延迟。另一方面,分布式系统更加灵活,能够抵抗数据传输故障,最重要的是,能够扩展到更高的容量。表1基于ISNs和SCADA的IDS分类技术比较。作者算法签名-异常-检测预防仿真弱点基于基于(Lopez Perez等人, 2018)SVM和RFppp所提出的模型容易出现过拟合(Choubineh等人, 2020)HoeffdingTree,NB,随机树、贝叶斯网和OneRp p p出于分类的目的,没有考虑特征之间的相互依赖性,这降低了其准确性。(Al等人, 2019)NB、RF和PARTppp数据预处理阶段没有考虑并使模型容易产生偏差。(Wang等人, 2022)DLppp模型需要很高的训练时间(Ling等人, 2021年)BiSRUppp虽然,调查结果是令人鼓舞的,然而,该模型易于过拟合。(Tylman,2013)NBp p p所提出的模型具有鲁棒性不相关的特征(Zhou,2015)HMMp p p p所提出的模型忽略了重要的检测率和构建模型(杨,2014)如果-那么规则p(Hosic等人, 2016)遗传编程(Zohrevand等人, 2016年)(Pan等人, 2015年)FP-增长p(Samdarshi等人, 2015)RF,C4.5该模型是计算密集型。模型需要的数据信息更少它允许状态之间的转换概率的精确建模。这种模式既笨重又昂贵。该模型具有较慢的处理能力ppppppppppppppY. Kayode Saheed,O.Harazeem Abdulganiyu和T.阿伊特·查古赫特沙特国王大学学报52.1.3. 解决方案通用性对于各种SCADA和ISN,系统的行为和动态例如,天然气管道和智能电网中能源消耗的随机趋势可能与化学控制程序的随机趋势有很大不同。因此,非常需要一个包含众多ISN的综合解决方案。这种自调整方法消除了对关于特定工业设置的不正确假设或模型的需要。2.2. 天然气管道系统作者(Morris和Gao,2014)提供了油气异常检测方法和为异常识别开发的BML分类。利用线性回归模型,从时间序列数据中提取地质因素,预测天然气的资源和商业用途。时间序列数据的残差是可以使用分布函数进行分析的一组数据作者(Maji et al.,2003)总结了异常检测策略,从箱形图等图形工具到神经网络等更复杂的技术。异常检测方法是基于对具有若干分布的数据进行建模并分析所考虑的数据属于这些分布的概率的概念。该模型将分布函数和线性回归相结合用于天然气时间序列的异常检测,然后利用GMM对具有异常属性的训练子集进行建模2.3. 供水管道系统2000年3月,澳大利亚昆士兰州Maroochy的水过滤系统遭到一名沮丧的袭击者的袭击,该袭击者被工厂拒绝雇用(Gong等人,2010年)。黑客控制了150个泵站,并在发现入侵的三个月内将1.5亿升未经处理的污水排入附近的水道。系统有安全措施;但攻击者利用这些知识在安装系统升级时绕过它们。在此期间,系统开始出现异常行为,工程师们终于注意到了这一点,并找到了罪犯。但对方已经造成了很大的伤害。通过检查系统的故障以及异常检测如何减少损害,该案例将用于说明异常检测在关键基础设施应用中的优势。该系统在违规期间最明显的缺陷包括不明确的通知,增加的网络流量,有缺陷的泵,警报没有激活时,他们应该,和通信锁定。系统不规则性,如这些故障,可以通过检测技术进行分类。控制和业务网络构成SCADA系统(Brändle和Naedele,2008)。前者负责全面的系统监督,而后者更侧重于管理各个子系统。由于传感器网络被放置在控制网络中,因此我们的主题将仅限于该区域。为了确定控制级别的异常检测技术如何帮助早期检测安全漏洞,现在将检查每个关键系统缺陷。管理员无法对系统的一些警报作出反应。另一方面,异常检测方法在控制级别处理原始数据记录。这表明检测到的异常可能仅限于网络的特定区域,从而更容易识别问题的根本原因。管理员可能已经在传感器级别解决了这种情况下的问题,因为某些系统传感器根据历史数据显示不寻常的读数这些修复程序本来可以解决警报器在应该响的时候没有响的问题。在这种情况下,这将是有帮助的,但只有在问题被确定之后。行政上的改变本来可以阻止警报器响起,但异常情况会被发现和记录下来,大大有助于查明原因。最后三个缺陷是普遍存在的异常,任何系统都可以快速发现异常。然而,马鲁奇供水系统的攻击并不特别复杂,因此可以通过使用正确的技术迅速识别。为了证明更复杂的攻击也可以在水道中找到,(Tiwari)的作者例如,2017)不得不使用处理过的水的数据集。在这种情况下,系统针对几种欺骗技术进行了测试,这些技术可能会导致溢出和下溢问题。虽然后者可能会损坏水泵,但前者可能会导致洪水泛滥。这将帮助系统管理员恢复受损系统,因为他们将确切地知道故障的位置。对于所有测试的攻击,该算法都能够识别异常并将其与系统内的特定传感器联系起来。使用FACIES测试平台,(Khan等人,2019)将基于模型的故障检测(FD)与网络异常检测进行了比较。如图2所示,FACIES测试台模拟了虚构的HighLake Metropolis供水系统,该系统主要利用重力将水分配到城市的不同部分。该试验台由一个作为主要水源和水槽的蓄水池、五个代表假想城市各个区域的水箱等组成。蓄水池使用泵通过水箱1和2向居住区1供水。住宅街1将水泵送到工业区(通过水箱5),并将同样的水重力输送到住宅区2(通过水箱3和4)。该配置允许对一系列水分布情况,并且它允许传递许多预定义的故障模式以测试和评估应用领域中的算法。的作者(Khan等人,2019)利用该测试平台得出结论,故障检测(FD)是识别攻击的不充分技术,因为对系统操作有足够了解的攻击者可能会影响系统图二.试验台的面孔。Y. Kayode Saheed,O.Harazeem Abdulganiyu和T.阿伊特·查古赫特沙特国王大学学报6掩盖他们的活动。然而,他们发现,当攻击者使用隐蔽的攻击方法时,异常检测仍然有效。通过实施异常检测,可以区分物理缺陷和攻击。异常检测是涉及敏感水系统的应用程序的第二道防线然而,有必要根据两个基本因素来分析这些制度的实施情况在此应用程序和绝大多数涉及关键基础设施的其他当前应用程序中,过去的知识对评估物理缺陷没有显著影响3. 拟议研究Saheed等人,2022年)。标准化技术包括标准化方法、最小-最大标准化和z分数标准化(Saheed和Raji,2022; Jain等人,2018年)。我们选择了3.2.基于单位的归一化技术Min-Max方法(Georganos等人,2018)修改一个特征,使其所有值都位于区间[0; 1]内。当量(1)描述了Min-Max归一化的基本公式。在图3中,我们代表了研究的一般框架流程。我们执行我们提出的框架和算法的选择一个有效的集成学习(EL)算法和识别,Y新y-min y最大值-最小值ð1ÞISNs和SCADA系统网络数据中的异常和入侵。然而,基本机制详述如下:3.1. 正常化规格化是一种用于缩放属性的技术,其目标是使所有属性值处于同一比例(Kayode其中yi表示某个特征的值,ymin表示其最小值,ymax表示其最高值。归一化的选定特征可以理解为原始最大值和最小值之间的范围内原始值下降的程度,范围从0到100%(Pandey和Jain,2017)。因此,这些属性被归一化以将值范围缩小到0和1之间,然后使用PCA来提取特征。图三. 拟议制度的框架。¼Y. Kayode Saheed,O.Harazeem Abdulganiyu和T.阿伊特·查古赫特沙特国王大学学报7ð ÞnRÞ¼3n.我nð Þnð Þð ÞZ1 ¼。 Za-B1:Ea.3.3. 基于PCA降跟踪流量后,提取有效的特征属性。在特征提取之后,选择最有效的特征以获得最佳EL性能。PCA是最早的多变量统计方法,也是最流行的无监督特征选择策略。PCA用于通过仅保留最重要的属性信息来降低数据的维度。使用具有足够相异性的正交配对减少了变量的数量。PCA还选择数据集特征中最重要的子集进行分类。基于投影的方法是主成分分析的基本原理。在这里,具有m列的原始数据集Ye Zm可预测为子空间具有j或更小的大小Ye Zj,同时保持原始数据的完整性。算法实现如下:采用两种技术将特征的维数从m维降到j维:预处理和降维。在预处理阶段,从每个数据集(供水系统、UNSW-NB 15和天然气管道)中选择九(9)个新特征,并将其输入并传递给GWO。3.4. 集成学习模型(ELM)的灰狼优化GWO方法是一种元启发式算法,它复制了重要性的主动链,并采用了暗摆姿势的方法(Mirjalili等人,2014年)。在GWO的数值方法中,最佳配置由符号αa表示。beta()和deltad分别根据第二和第三最佳配置进行优化。据信,其余的应用程序设置被称为omega(x)。这三个申请人正在被b,d和x使用GWO战术和a作为狩猎向导追捕。为了让狼群追逐猎物,它们会立即包围猎物。(7)-数据的平均值和方差使用方程标准化。 (2)和(3)(以下步骤1至4)。在第二阶段(步骤5至!快去!Z我的天!B:!Eð7Þ8),协方差矩阵Covn、特征向量和特征值使用等式8构造。(4)和(5)。使用等式2,通过初始输入特征值的平均值和标准偏差(2)其中n是病例数!Zp是猎物的位置!Z是灰狼的位置,!B和!D是系数向量,r是迭代次数Eas如Eq. (八)、Y(i)是数据点。l¼1XYt1/2ð2Þ!E¼. !多:Z!D¼2b:t1好啊!你好ð8Þ用Y(i)-l取代Y(i)。使用等式(3)将每个向量Yk(i)变换为具有单位方差。!D¼2吨2吨10Þr2¼1XYki23我将每个Yk(i)替换为Yki。计算协方差矩阵Covn:Covn¼1XYiYiT4计算了Covn通过减少特征值来设置特征向量,并选择具有最大特征值的j个特征向量来产生S。使用S和Eq。(5)将数据转换为新的子空间。b在整个加重跨度中从2线性降低到0,而 t1、t2是区间[0,1]中的随机向量通常阿尔法带头追击此外,beta和delta可能会发生-对追逐感兴趣。为了科学地模拟灰狼的追逐行为,α(最佳候选解),β(第二好的竞争对手的解决方案),和δ(第三最好的乐观解决方案)被接受,以获得更多的信息,关于可能的猎物位置。最初的三个最佳应用程序配置已经达到了这个阶段,需要其他寻线操作员改变他们的情况,以匹配最佳追踪专家的情况。因此,狼的位置的补充由等式提供。(十一):Y¼S ×X5其中,Y是代表一个样本的1×e向量,y是连续的。!Z1!Z1!Z2!Z3ð11Þ在新的子空间中翻转j×1样本!. !! ! .(Johnstone and Lu,2005)。OF36!Z2¼。!Zb-!乙2:!EBJð13Þ在这项研究中,PCA被用来降低水系统网络,UNSW-NB 15,和天然气管道数据集的维数,通过压缩属性空间与九(9)个选定的功能。九(9)个排名靠前的特征被考虑用于每个!Z3¼!Zd-!乙3:!2014年1月1日在哪里!B1,!B2,!B3定义为Eq。(11)和!扎,!Zb,!Zd是假定迭代r中的前三个最佳解!B1,数据集。PCA的设计原理见表2。!B2,!B3是表示在等式(12)!Ea ,!Eb,!Ed是-b9阿吉什执行指定PCA的计算难度与表示每个点的属性F的数量成比例ð12ÞY. Kayode Saheed,O.Harazeem Abdulganiyu和T.阿伊特·查古赫特沙特国王大学学报8表2PCA的设计原则参数值表示为Eqs。(15)!Ea¼. !D1:!Z1-!Z.ð15Þ!Eb 1/4。!D2:!个zlb-我知道Z1 .一、ð16Þ参数排序真请选择9阈值0.5方差1.832Y. Kayode Saheed,O.Harazeem Abdulganiyu和T.阿伊特·查古赫特沙特国王大学学报9..¼ ¼!Ed¼!D3:!Zd-!Z1!D1 ,!D2 ,!D3是在Eq中给出的。(十)、ð17Þ首先计算所有基本学习器的输出,然后将结果传递给Meta分类器,元分类器产生结论。堆叠算法在表5中给出如下:最后一个观察关于GWO调解人是更新的参数,规范调查滥用权衡。狭窄在每个周期不断更新,范围从210、在Eq. (十八)、(Yan and Han,2018)。4.3. AdaBoostAdaBoost(Saheed等人, 2022)是使 用最多的 依赖b2r2最大迭代次数ð18Þ创建集合模型的策略当培训一个新的indu- cer,Adaboost的主要目标是专注于以前其中,MaxIter是允许的优化迭代的完整数量,r是优化迭代的数量。灰狼的狩猎和追捕位置需要更新二进制{1,0}。表3中描述了灰狼优化伪代码。在 我 们 的 研 究 中 , GWO 被 用 来 优 化 Adaboost , stacking ,bagging,NaiveBayes和C,r和c的SVM参数。4. 包围学习模式在这项研究中,我们使用了四个集成学习(EL)分类器,其中EL包括单模型和多模型集成,并利用著名的Scikit learn进行实验。使用10重交叉验证,所有选定的EL模型都在Jupiter笔记本应用程序上执行。尽管如此,下面详细描述了四个建议的EL分类器。4.1. 套袋Breiman的1994年装袋技术是一种ML集成方法,它提高了统计分类系统的准确性(Zounemat-Kermani等人,2020年)。 Bagging技术适用于小型训练数据集。这些子集群中的每一个充当训练集并生成分类器(Saheed等人,2022年)。这些分类器由统一分类器组合。因此,这种方法被称为装袋。如(Zararsiz)所述,例如, 2016),装袋算法在表4中给出。4.2. 堆叠众所周知的集成技术是堆叠,有时称为堆叠泛化(Saheed等人,2022年)。它是一种策略,其中Meta级(1级)模型结合分类器(0级)来预测基于基本0级算法的选择的适当类。Meta级训练数据通过使用与k折交叉验证相当的训练数据处理来创建。当一个新的实例需要被分类时,表3灰狼优化的伪代码。1初始化总体大小s、Maxitrcoefficient参数以及D和B向量的值。2在随机Zj(r)3使用f(zj)来评估每个搜索代理4Za、Zb和Zd来确定第一、第二和第三最优解的值5重复6对于(j = 1:j≤ s),7应用Eq. (18)恢复每个人口代理人8端9矢量已相应地更新为Za、Zb和Zd10设r = r +111一旦满足终止标准,直至(r ≥Maxitr)12最后求出最优解Za错误分类的例子。学习算法的总有效性随着时间的推移而增加,因为每个差分类器模型的权重重要性基于训练过程被修改(Saheed等人,2022年)。Adaboost算法如表6所示。4.4. 数据集对于实验的第一阶段(Morris等人,2011),利用来自水管线的SCADA系统的数据。水数据集的属性如表7所示。水管道数据具有与天然气数据集的异常分类相当的异常分类。4.5. UNSW-NB 15数据集新南威尔士大学堪培拉分校的研究人员(Moustafa和Slay,2015)生成了UNSW-NB 15数据集。研究人员利用IXIA完美风暴生成良性和恶意流量的混合,生成了一个由数据包捕获(PCAP)文件组成的100GB数据集。生成的数据用于入侵检测的实施和验证。不过,这些数据是通过模拟攻击发生的环境生成的。UNSW-NB 15数据集记录的分布情况见表8。4.6. 天然气网络数据集用于收集数据集的天然气管道基础设施由密西西比州立大学的SCADA实验室提供。该系统有三个主要组成部分:通信网络、监督控制以及传感器和执行器。图 4描述了iFIX HMI旁边的物理系统。两个执行器和一个压力传感器安装在气体管道的最低层。泵、螺线管和致动器用于管理系统的物理过程并维持由监督控制建立的压力。自动、手动和关闭是天然气管道的三种主要系统模式(Turnipseed,2015)。该数据集是使用一种新的模拟大纲,在天然气管道中的实际异常编译。数据集中有三组不同的属性:网络信息、有效负载数据和标签。表9显示了燃气管网数据的特征。该数据集包含七类攻击数据(Morris等人,2015年)。这七种类型又被细分为四个主要的组:拒绝服务、命令注入、侦察和反应注入。MSCI、MFCI和MPCI是命令注入的示例。CMRI和NMRI是响应注入攻击的例子。天然气管网数据集的异常类别如表10所示。Morris等人在2015年编制的天然气管道数据集(MSU存储库)(Morris等人,2015年)被选中进行这项分析有两个重要原因。首先,它是作者建立的数据集的升级版本(Morris和Gao,2014),其特征是无意的模式,导致对在implausi中检测到的常规记录的攻击。很好。此外,它还提供了大量的正常和妥协的例子。这个数据组总共包含214,580个Y. Kayode Saheed,O.Harazeem Abdulganiyu和T.阿伊特·查古赫特沙特国王大学学报10Pno¼1..ΣJ2千分之四我我1/1我F-1 X0;ifgm XJj;表4Bagging算法数据输入:训练数据集Ds={(x1,y1),(x2,y2),(xn,yn)};学习算法BA;迭代K对于k =1 K:从数据集中获得一个Bootstrap样本Dsk =(Bootstrap)Ds从数据集Tk =BA(Ds)训练学习算法端输出量:T(X)=argmaxy YPK1by<$Tkx表5Stacked泛化算法输入:样本数据集S=fx1;y1;x2;y2;· · ·· ·xn;yng;测试数据集T=fx1;x2;;xng··································输出:预测测试样本类标签fy01;y02;::;y0ng·····················对于k =1,2,3,4,N,● 新数据S● 在分类器C s的级别0(基础)中,训练并计算lkx1;x2;· ··::xn和lkx01;x02;···································· ;x0n。端● 生成SMeta¼。lxi;yn0和S0Meta1/4。lx0in0以数据SMeta为基础,采用分类建立一级一层模型M,通过M与S'元a,最后进行预测。我遇到了一个叫基于数据Sm表6Adaboost算法Adaboost算法(la/x)2输入:给定训练数据集<$Xj;yj<$yj2 f-1; 1g.jM,Xj2Nk和输出:gmX2 f-1; 1g和0m1;如果gm. Xj-其中f =损失函数(a) 当j=1M时,.......x=1(b) 对于m =1 M,则为了最小化目标函数,拟合弱分类器m。(c) 对于i从1到N,w(1)i = 1对于m = 1到M,表7水数据的特点。水数据的特点指挥部地址存储器命令答复地址存储器响应通信计数Crc_rate通信长度子功能HHCommand_read_funct测量响应_write_funcRes_count_c
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 十种常见电感线圈电感量计算公式详解
- 军用车辆:CAN总线的集成与优势
- CAN总线在汽车智能换档系统中的作用与实现
- CAN总线数据超载问题及解决策略
- 汽车车身系统CAN总线设计与应用
- SAP企业需求深度剖析:财务会计与供应链的关键流程与改进策略
- CAN总线在发动机电控系统中的通信设计实践
- Spring与iBATIS整合:快速开发与比较分析
- CAN总线驱动的整车管理系统硬件设计详解
- CAN总线通讯智能节点设计与实现
- DSP实现电动汽车CAN总线通讯技术
- CAN协议网关设计:自动位速率检测与互连
- Xcode免证书调试iPad程序开发指南
- 分布式数据库查询优化算法探讨
- Win7安装VC++6.0完全指南:解决兼容性与Office冲突
- MFC实现学生信息管理系统:登录与数据库操作
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功