物联网中的机器学习入侵检测系统的工程应用

50 浏览量更新于2023-12-10 1 收藏 1.37MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

智能系统与应用17（2023）200189机器学习在基于物联网的入侵检测系统中的工程应用德拉萨努诺·普拉泽雷斯罗热里奥·路易斯·德·CCostab，Lebanon，Leonel Santosa，b，Carlos Rabadãoa，ba技术和管理学院，莱里亚理工学院，莱里亚，2411-901，葡萄牙b计算机科学和通信研究中心（CIIC），莱里亚理工学院，莱里亚，2411-901，葡萄牙A R T I C L E I N F O A B S T R A C T保留字：入侵检测系统物联机器学习智慧城市网络安全物联网（IoT）设备现在被广泛使用，实现了智能服务，这些服务与5G和宽带互联网等新通信技术相结合，促进了智能城市环境的发展。尽管资源有限，物联网设备收集和共享大量数据并连接到互联网，成为恶意行为者的诱人目标。这项工作使用机器学习结合入侵检测系统（IDS）来检测可能的攻击。由于物联网设备和低延迟服务的限制，IDS必须具有专门的架构。此外，尽管基于机器学习的解决方案具有很高的潜力，但仍然存在与训练和泛化相关的挑战，这可能会对架构造成限制我们的建议是一个分布式架构的IDS，它依赖于雾计算来运行专门的模块，并使用深度神经网络来识别物联网数据流中的恶意交易。我们将我们的IoT流IDS与其他三种架构进行了比较。我们使用来自不同数据集的测试数据来评估模型泛化，并在召回率，精度和F1分数方面评估其性能。结果证实了基于网络流的异常检测的可行性以及网络流量分割和专用模型在基于AI的物联网入侵检测中的重要性。1. 介绍物联网（IoT）模式是新一代通信网络的驱动力之一，它结合了各种硬件和软件，为客户提供易于使用的体验和低成本的物联网设备存在于我们的城市，家庭，工业，医疗保健设施，车辆和个人小工具中，并且可以执行几项关键任务并使我们的生活更加舒适（Figueiredo等人，2022，Tewari Gupta，2017）。物联网网络由大量设备和传感器组成，这些设备和传感器收集和共享大量数据，包括机密和私人数据（Neisseet al.，2014，Tewari Gupta，2020）。物联网设备的使用也促进了智能环境的创建，例如智能城市。在这些背景下，它们提供了各种各样的服务，增加了人口的福祉和对资源的有意识使用（Figueiredo等人，2022年）。尽管处理和生成大量数据，但物联网设备通常很便宜，并且具有低CPU容量，低存储和低功耗。*通讯作者。内存资源。如果没有安全措施，物联网设备可能容易受到攻击2019年，Hromada等人，2021年）。因此，物联网生态系统是网络犯罪分子的潜在目标，需要新的解决方案来应对数据保护和网络安全威胁（Hromada等人，2021，Tsimenovich等人，2022年）。入侵检测系统（IDS）是网络的关键安全解决方案，因为它们可以通过分析网络通信和内部活动来检测对系统的2019年b）。但是传统的基于知识的IDS必须被智能和数据驱动的解决方案所取代（Tsi-menoval等人，2022年）。人工智能（AI）和机器学习方法在过去几年中已被用于分析不同环境中的大量数据，关联事件，识别模式，并检测异常行为，否则将保持隐藏（Berman et al.，2019年）。在这项工作中，我们处理机器的使用电子邮件地址：2192642@my.ipleiria.pt（N. Prazeres），rogerio.l. ipleiria.pt（R.L.C.科斯塔），莱昂内尔。桑托斯@ ipleiria.pt（L。Santos），carlos.ipleiria.pt（C. Rabadão）。https://doi.org/10.1016/j.iswa.2023.200189接收日期：2022年7月31日;接收日期：2022年12月13日;接受日期：2023年1月19日2023年1月24日在线提供2667-3053/© 2023作者。爱思唯尔有限公司出版这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表智能系统及其应用杂志主页：www.journals.elsevier.com/intelligent-systems-with-applicationsN. Prazeres，R.L.C.科斯塔湖Santos等智能系统与应用17（2023）2001892智能城市物联网环境中入侵检测系统（IDS）的学习方法。为物联网环境开发AI驱动的IDS必须考虑几个方面，例如使用适当的异常和入侵检测机制，IDS的放置和可扩展性，以及使用代表性数据集来验证提案（Ahmad Alsmadi，2021，Thakkar Lohiya，2021）。此外，智慧城市是复杂的环境（例如，在异构性、节点数量和对提供商基础设施的可访问性方面2018年）。这些是我们在本文中处理的一些开放问题我们的IoT-Flow IDS使用流量表对有关流量的信息和静态数据进行操作。流量记录是关于在观测点观测到的特定流量的信息（Claise等人，2013，Velan，2018），其包括多播密钥，诸如多播的特征属性（例如，IP地址和端口号）和测量的属性（例如，分组和字节计数器）。利用数据流识别网络流量异常是一种比分析分组有效载荷更具可扩展性和可互操作性的方法（Santos等人，2021年）。因此，我们的入侵检测系统必须在寻找异常流量之前将流量数据聚合成流量信息。只有这样，数据科学管道中常见的预处理步骤（例如，编码和特征选择）发生。在那之后，一个分类器（即，机器学习模型）分析变换后的数据流以寻找异常传输。另一个开放的挑战是物联网IDS的放置，因为IDS的性能取决于网络IoT设备通常具有处理限制。此外，在智慧城市中，一些服务具有与可用性和完整性相关的服务质量要求。因此，考虑到环境限制和应用需求，我们使用了一个分布式的解决方案，使用交通分割和依赖于雾计算。雾计算是云计算向网络边缘的扩展，以实现云计算服务连续体（Diro Chil- amkurti，2018）。这种范例减少了智能城市应用中异构通信方法的延迟和能耗2020年）。我们将物联网IDS的专用组件放置在雾节点中，雾节点是具有所有雾计算特性的网络节点。在机器学习中（特别是在监督学习中），一个关键的挑战是表示所分析现象的标记数据集的可用性。此外，深度模型的性能高度依赖于数据质量和训练数据大小（Jiang等人，2021年）。虽然有一些关于使用机器学习和其他物联网入侵检测方法的工作，但目前的大多数评估都没有使用真实物联网交易的数据。相反，他们使用更一般的网络传输数据集，如UNSW-NB 15，NSL-KDD和KDD 99，这些数据集不适合评估物联网网络中 IDS 的性能（ Ashraf 等人， 2021 ， Thakkar Lohiya ，2021）。在这项工作中，我们使用两个物联网传输数据集：IoT-23数据集（Garcia等人，2020），其包含来自真实世界物联网设备的良性和恶性流量，以及MQTT-IoT-IDS 2020（Hindy等人，2020 b），其具有由模拟MQTT网络生成的数据。此外，许多作品声称他们使用的特征的有效性，但很少评估所选特征的鲁棒性（Liu等人，2021年）。我们将最佳特征集的性能与使用数据集共享的特征实现的性能进行比较。这是一个相关的行业评估，因为我们表明，即使我们使用一组相当小的功能，也可以实现接近最佳的结果，从而降低资源消耗。为了避免在训练模型时过度拟合，我们使用了正则化技术（即，（1）提前终止。我们表明我们的建议优于文献中的结果另一方面，物联网设备的异质性增加了将机器学习应用于异常检测的难度（Mothukuri等人，2022年）。我们的实验表明，缺乏泛化我们的通过使用用来自一个数据集的数据训练的模型来识别另一个数据集中的异常。我们还构建了一个新的集合，将IoT-23和MQTT-IoT-IDS 2020的数据结合起来，并使用这些数据来训练新模型。我们表明，所获得的模型实现了更差的性能比专门的。因此，这项工作的主要贡献包括：（i）为智能城市的基于机器学习的物联网IDS提供一个架构（包括组件，布局和基于流的方法），该架构考虑了物联网设备的限制和智能城市服务的复杂环境;（ii）使用四种场景进行实验评估;以及（iii）对训练的深度模型的泛化和专业化进行评估。在下面的部分中，我们回顾一些背景和相关工作。在第3节中，我们描述了我们的IoT流IDS的架构。第四部分是实验结果。最后，第5节给出了我们的结论和未来的工作。2. 背景和相关工作在过去的几年里，物联网（IoT）设备成为日常技术的一部分，在智能环境中实现了广泛的目前，在机器对机器和人机交互中使用IoT设备和网络使能资源2019年），包括机密，私人和高价值的数据。此外，在智能城市中，物联网设备支持无数互连服务，这增加了网络攻击的风险（Figueiredo等人，2022年）。网络安全系统可以与机器学习一起使用，以利用其特性来开发越来越强大的攻击检测方法和解决方案。2.1. 智慧城市和物联网攻击在过去的十年中，城市开始基于物联网数据向其公民提供广泛的信息，包括停车场可用性，交通路线或时间表，交通拥堵。此外，他们开始在关键服务中使用物联网设备，如环境灾害检测、能源和供水管理以及街道监控等（Figueiredo et al.，2022年）。智能城市是物联网应用的主要驱动力之一（Singh等人，2020年）。所有这些都是为了防止资源浪费，并在可控和安全的环境中为公民提供更好的生活质量。智能城市通常共享物联网网络架构。图1显示了一个这种体系结构的最常见的表示，包括感知层、网络层、支持层和应用层（Cui等人，2018年）。感知层是数据的来源。它包括传感器、仪表和在整个城市部署的所有物联网异构硬件，以提供服务。实现设备和其余层之间通信的技术位于网络层，如Wi-Fi，5G，蓝牙，RFID和以太网。支持层为智慧城市环境及其应用提供服务。在这一层中，可以部署网络指挥中心，并执行网络监控和异常检测等任务。应用层是顶层，并提供最终用户的信息和服务有关的感知层中收集的数据。与物联网安全相关的最常见问题包括识别和认证过程，数据可用性，完整性，保密性和隐私的维护，以及信任和访问控制（Hromada等人，2021年）。物联网架构的每一层都有自己的漏洞，受到不同的攻击（Butun等人，2019年）。一些最常见的攻击包括拒绝服务（DoS）、僵尸网络、暴力攻击和勒索软件。拒绝服务攻击是攻击者试图通过压倒可用带宽或资源的数量来阻止对网站的合法访问。N. Prazeres，R.L.C.科斯塔湖Santos等智能系统与应用17（2023）2001893++Fig. 1. 基于IoT的智能城市架构。的计算机系统（Moustafa等人，2019年a）。当不同类型的设备针对特定目标产生这种类型的攻击时，这种类型的攻击通常会演变为分布式拒绝服务（DDoS）。僵尸网络是指由一个或多个恶意行为者远程操作的被劫持的计算机系统的数量，这些恶意行为者通过命令和控制（C C）来协调他们的活动。这些僵尸网络负责DoS或DDoS攻击，被劫持设备的所有者通过尝试所有预定义的配对来访问网络服务，使用自动化应用程序通常用于猜测密码组合，蛮力尝试非法获取成对的用户名和密码。当这种类型的攻击成功时，攻击者可以访问设备处理的所有数据。此设备可以转换为机器人程序或对其他设备或计算机系统执行DoS攻击勒索软件是通过加密计算机资源并阻止访问直到受害者支付赎金来损害计算机和网络系统的恶意软件（Moustafa等人，2019年a）。它可能是由暴力攻击造成的，并损害服务和数据的可用性。2.2. 入侵检测系统入侵检测系统（IDS）是检测网络系统中的非法访问和攻击的解决方案。它旨在实时检测任何异常或攻击，并使用网络流量作为其数据源。这些系统采用不同的检测方法，必须在网络中进行战略部署（ThakkarLohiya，2021）。IDS可以依赖于多个传感器，这些传感器收集关于安装在网络内的设备的信息并监督网络通信。IDS传感器的放置可以是基于主机的、基于网络的或以混合方式。基于主机的方法以设备为中心，对该节点上发生的事情以及该节点的网络通信具有实时感知。这种方法高度依赖于设备的处理能力。基于网络的体系结构通常部署在网络网关中。它具有更广泛的网络视图，因为它汇聚了多个主机，从而处理更多的数据。混合策略试图利用最好的主机和基于网络的方法。2.3. 机器学习和性能指标在过去的几十年中，机器学习技术已经被用于需要处理和分析大量数据，发现数据集内的模式，行为和异常的多种环境中。机器学习有两种类型：分类和预测。在这项工作中，我们的模型分类网络流量。在分类任务中，该模型试图从样本数据中识别规则，并预测新元素（对象，个体和标准）属于给定的类（Hussain et al.，2020年）。在监督学习中，模型从标记数据中学习，这意味着训练数据包括输入和期望的结果（Chaabouni等人，2019年）。使用监督学习时的一个关键挑战是获得代表分析现象的大型标记数据集。人工神经网络（ANN）是模拟大脑生物功能的通用算法，而2019年）。多层感知器（MLP）是一种简单的人工神经网络。感知器是一种能够计算所有谓词的设备，这些谓词在某些给定的部分谓词集合中是线性的（Minsky Papert，1969）。��换句话说，它是一个简单的算法，旨在执行二进制分类。MLP具有接收数据的输入层、输出关于输入的决策或预测的输出层，以及在这两者之间的任意数量的作为MLP的计算引擎的隐层或隐藏层在深度学习（DL）中，ANN学习将数据表示为神经网络层内的概念嵌套结构（Chalapathy Chawla，2019）。DL相对于传统机器学习的优势是其在大型数据集中的优异性能（Al-Garadi et al.，2020年）。在评估模型性能时，使用适当的指标非常重要。最合适的指标取决于感兴趣的问题例如，在这项工作中，我们使用机器学习将网络流分类为正常或恶意。一个二元分类问题有四个可能的结果。正确预测的负面是真正的负面-正确预测的阳性是真阳性（TP）。错误预测的阴性是假阴性（FN）。最后，错误预测的阳性被称为假阳性（FP）。常用的指标之一是精度，它衡量分类模型的准确性。精度由正确分类的元素的数量定义，如公式（1）所示。除了IDS的位置之外，还需要调整执行的检测有几种检测技术=（一）与入侵检测系统相关的技术，如基于签名的、基于异常的、基于规范的和混合的。基于签名或基于规范的IDS在网络上寻找预先设定的数据，当匹配发生时，它会发出警报。此策略生成少量警报。另一方面，IDS不会检测到新的威胁，在实践中，错误分类可能具有不同的重要性。例如，将恶意恶意流分类为正常流可能比将正常流识别为恶意流更有偏见。TP率（或召回率）取决于真阳性和假阴性的数量，由公式（2）定义。攻击不在其数据库中基于异常的入侵检测系统通过将网络流量与预期流量进行==（二）沟通或日常行为。与基于特征码和规范的方法相比，此策略会导致更多的警报混合策略可能会结合一种以上的技术，试图检测新的攻击或威胁，但会引发少量警报。具有高精度和召回值的模型是高度可靠的，因为它们不会错误地分类良性的恶意流，也不会错误地遗漏恶意的恶意流。另一方面，实现高精度值但低召回率的模型错过了许多恶意数据流。因此，这些模型应该执行关键任务。最后，模型与高N. Prazeres，R.L.C.科斯塔湖Santos等智能系统与应用17（2023）2001894查全率和小的精确度值将检测到大多数恶意的伪随机流，但也会引起许多错误警报，这会在安全系统中产生熵。F1分数（或F-score）用于评估模型在不平衡数据集上的性能。它是精确度和召回率的调和平均值，如公式（3）所定义。2∗�� ∗��并将得到的更新传播回工作节点。没有使用基于物联网的数据集进行模型训练。(Ling Hao，2022）提出了一种基于人工免疫和多个算子合作进化的特征选择算法。作者使用KDD 99和UNSW-NB 15数据集评估他们的工作，这些数据集并不面向评估物联网网络中IDS的性能（ThakkarLohiya，2021）。1第1003章：一夜情（3）Ariyyan Habeeb等人（2019年）强调，采用智能城市的实时架构将确保有效和无缝的通信。2.4. 相关工作物联网环境中存在若干与网络安全相关的挑战。可能的解决方案之一是保护通信。在（Tewari Gupta，2017，2020）中，作者提出了可用于确保物联网通信安全的身份验证方法。Stergiou等人（2020）提出了在电信领域使用物联网与云计算时用于保护通信的加密算法。我们的工作涉及使用AI驱动的IDS来识别物联网网络中的异常流量，特别是在智能城市环境中。Cui等人（2018）描述了智能城市的四层物联网架构，并将机器学习确定为一种可以改进传统入侵检测系统保护网络的技术这项工作没有提供任何实际的实现细节，甚至没有讨论使用机器学习的物联网IDS的实现Butun等人（2019）描述了每层最常见的漏洞以及相应的攻击和对策。Elrawy等人（2018）指出，许多物联网应用程序可以实时运行，网络延迟和延迟将影响其性能。这项工作指的是在电子医疗系统等环境中需要强大的物联网网络安全措施，因为在这种环境中攻击可能会危及生命作者指出，安全解决方案必须同时保护物联网网络及其资源，而不会影响系统性能或用户隐私。这项工作描述了IDS操作作为一个3阶段的过程。第一阶段是监控阶段，依赖于可以是基于网络或主机的传感器。然后是分析阶段，在此阶段中，特征提取或者执行模式识别方法。第三阶段是检测阶段，系统检测异常或误用。作者还强调了在物联网网络中为IDS选择适当位置的重要性，因为这件事会影响整体IDS的效率。没有实际执行。事实上，在使用深度学习进行入侵检测时，特征的选择仍然是一个悬而未决的问题（Liu等人，2021年）。Zeadally和Tsikerdekis（2020）讨论了在机器学习算法的帮助下使用传统的网络监控（如入侵检测系统），为现有的物联网安全解决方案提供可行的替代方案。他们总结了主机和基于网络的方法的需求，以使用机器学习来处理数据来执行网络流量捕获。在这种情况下，没有给出最佳选项，只强调了机器学习算法在物联网设备特性方面的优势和局限性Chaabouni等人（2019）提出了一项全面的调查，指出了物联网安全的设计挑战和物联网威胁的分类。作为未来的研究方向，作者指出，探索边缘和雾计算范式将能够将智能和处理逻辑的使用推到数据源附近。此外，他们还发现，要基于机器学习来训练和部署物联网IDS，需要一个真实世界的物联网专用数据集。Diro和Chilamkurti（2018）提出了一种使用物联网深度学习方法的分布式攻击检测方案，并将其基于深度学习的IDS放置在雾网络中。雾节点负责在分布式雾网络的边缘训练模型和托管攻击检测系统，因为它们更接近物联网数据层。中心节点更新每个协作节点智能城市基础设施内的传感设备之间的通信。它还包括网络中的服务支持质量，对于智慧城市的实时应用至关重要。由于大数据生产在几个环境中，Habeeb等人。研究了实时大数据处理和机器学习，以及检测异常的可能性。Li等人（2022）讨论了使用机器学习来识别IDS生成的错误警报。Austin（2021）在其试验中使用IoT-23数据集来回答哪种学习模型在分类准确性、召回率、精确度、F1得分方面表现最好，并发现哪些特征在数据集中具有最佳预测能力。Austin（2021）描述了如何收集数据集，网络中使用的攻击类型，以及学习方法如何帮助对数据集中的攻击进行分类。Mothukuri等人（2022）在物联网的异常检测中使用联邦训练轮和门控循环单元（GRU）。他们专注于工业领域的应用，并使用Modbus构建的数据集来评估他们的建议。Ahmad和Alsmadi（2021）以及Thakkar和Lohiya（2021）介绍了最近关于物联网基于机器学习的安全解决方案和IDS的调查。这些工作确定了一些开放的挑战，其中包括选择适当的入侵检测策略和IDS放置策略，缺乏可扩展的解决方案，使用基于物联网网络数据的验证数据集，以及提供处理不同类型的现有物联网技术的IDS解决方案。这些是我们在这项工作中面临的一些公开挑战我们描述了一个现实的智慧城市场景，讨论IDS组件和放置和网络分割，以处理不同的应用系统。我们的AI驱动的IDS操作从捕获的网络流量中提取的流量信息。为了评估在这种情况下学习技术的使用，我们通过实验评估了两个物联网流量数据集的深度模型，评估了模型的性能和泛化能力。3. 物联网-物联网：基于物联网数据IDS的机器学习当前与为物联网环境部署人工智能驱动的IDS相关的一些挑战是异常和入侵检测机制，IDS放置和可扩展性，以及使用代表性数据集来验证提案（AhmadAlsmadi，2021，Thakkar Lohiya，2021）。此外，智能城市是具有非常大量的异构数据的复杂环境（Garcia-Font等人，2018年）。本节介绍了我们的IoT-Flow IDS，该IDS通过可扩展的分布式架构解决了智能城市环境的复杂性，并有效地我们的入侵检测系统根据交通流量信息进行操作。基于WWW的IDS分析的是流量信息和统计数据，而不是数据包的有效载荷。在IDS forIoT中使用数据包流可以使这些解决方案更具可扩展性和互操作性（Santos等人，2021年）。但是，这种解决方案需要大量的聚合和导出活动。通常，通过由几个步骤组成的过程来执行将传输数据转换为数据流的过程（Sperotto等人，2010年）。第一步是数据包观察，包括从线路捕获数据包并对其进行预处理的过程。然后，流量计量导出步骤是将数据包聚合到数据流中，并将数据流记录导出到收集器，收集器接收、存储和预处理来自数据流导出器的数据，以确保数据收集步骤。最后，数据分析是最后一步，可以在三个主要领域应用数据分析N. Prazeres，R.L.C.科斯塔湖Santos等智能系统与应用17（2023）2001895图二. 异常检测工作流程概述。（Hofstede等人，2014年）：（a）流量分析报告;（b）威胁检测;（c）性能监测。3.1. 工作流程概述图2介绍了我们的解决方案在模型训练和生产环境中的流程中的主要步骤在图2的左侧，表示与模型选择和训练相关的步骤。在这种情况下，使用代表具有智能城市物联网环境特征的数据流的数据集来训练和调整模型。在性能指标方面，具有最高精度和召回率组合值的模型部署在生产环境中。在图2的右侧，有异常检测工作流程以及生产环境中所需的各个步骤。传感器负责从网络中传输的数据包中捕获数据这类似于上述将传输数据转换为数据流的第一步。传感器分布在感知层中，如第3.2节所述。将传输数据转换为数据流的下一步骤是将分组聚合为数据流，这在图1中的双向传输流步骤二、通信网络内的业务IPFIX（Claise，2008，Claise等人，2008年，Claise &Trammell，2013）代表IP流信息EX端口，并且是IETF协议，该IETF协议是由于需要具有用于从网络设备和探针导出IP流信息的通用统一标准而该协议用于传输信息元素（IE），使网络管理员能够更广泛地了解在网络中进出的数据流。IPFIX可以跨网络元件（如路由器）部署，其中它执行被动的网络流测量（Zseby等人，2006年）。工业工程根据以下标准分为12组：它们的语义和它们的适用性（Claise等人，2008年，Claise&Trammell，2013年）：1. 身份证2. 计量和EX输送工艺配置3. 计量和EX移植过程统计4. IP报头字段5. 传输报头字段6. 子IP报头字段7. 派生数据包属性8. 最小/最大流量属性9. 流时间戳10. 每流量计数器11. 其他流属性12. 填充该信息的示例包括源和目的IP地址和端口、传输数据包的数量和总大小以及使用的协议。使用IPFIX IE，网络管理员可以回答诸如谁发起网络故障之类的问题。哪些设备正在干预此通信？什么应用程序正在生成此流程？在哪里一个流程是如何工作的，它的特点是什么？可以使用安装在网络传感器上的微波计访问IPFIX IE。该软件生成包含有关所观察到的交易的每个连接的信息的图表。Yet AnotherFlowmeter（YAF）（Inacio Trammell，2010）是一种开源软件工具，可用于此任务，因为它捕获网络包或从网络捕获中读取文件，将其转换并导出为IPFIX流。将传输数据转换为传输流后，数据预处理开始，包括编码和填充缺失值等任务。分类特征（字符串）用数值编码，如果接收为空或空白，则用零替换。下一步包括选择与机器学习模型（分类器）执行的异常识别相关的特征。通过识别对目标属性有主要影响的特征来完成特征选择。在我们的实现中，我们使用EX transTreesClassi fier Pedregosa et al.（2011）算法，如第4节所述。N. Prazeres，R.L.C.科斯塔湖Santos等智能系统与应用17（2023）2001896图3.第三章。IoT流IDS架构建议。结果将是将血流分类为正常或异常，在这种情况下，系统发出警报。但在这两种情况下，选定的数据流都存储在数据库中，以供将来分析，以防攻击或检查网络通信模式的相关变化存储在数据库中的数据流数据还可以用于支持其他活动，例如取证分析，因为它可以提供关于网络通信中异常行为的来源和时间的证据3.2. 物联网-分布式IDS架构为了充分发挥基于机器学习的物联网IDS的潜力，人们应该寻找一种计算解决方案，以保证数据处理所需的资源这样的解决方案应该处理物联网设备的处理限制，并了解它们支持的服务我们的解决方案依赖于雾计算的使用由于其边缘位置，它可以向雾应用提供网络上下文信息，例如本地网络条件、流量统计和客户端状态信息（Sucharitha等人，2019年）。由于其位置感知，雾计算允许创建网络节点（即，雾节点），它提供本地网络服务和资源。每个雾节点都具有与雾计算相关的所有特征此外，要在智慧城市物联网环境中放置网络安全解决方案，必须考虑代表智慧城市架构的层以及由于多样性而服务。图3展示了我们的解决方案的分布式架构。从感知层开始，我们放置传感器，对IoT网络传输流进行分段，这可以基于服务的需求和关键性或者通过应用消息传递协议（例如，MQTT或CoAP）。通过网络分段可以更容易地满足每个服务的不同需求。但是分段也允许我们创建每个段或服务的观察点（OP），从而更简单地执行网络分析和理解网络行为。网络层具有将数据传输到支持层的必要技术。无论是通过Wi-Fi接入点、以太网还是4G/5G无线链路。设备的网关将被设置为在数据到达应用层之前提供服务的支持层节点。在支持层，我们假设我们将拥有基于雾计算的基础设施，能够提供所有必要的处理和存储容量资源。它将是由感知层生成的或源自应用层的所有流量将通过的层。见图4。基于学习的IDS的雾节点。3.3. 专用组件雾节点，如图4中的雾节点，是负责观察、存储、转换、分类和转发由IoT网络生成的数据的网络元件。网络传输将被转换为标准（例如，IPFIX）流，在交付给对该流进行分类的模型之前，先经过预处理模块。无论分类结果如何，它都将与产生它的数据流和数据包一起保存。同样，由于它只是一个检测系统，因此保证了向应用层发送或从应用层发送的数据流。N. Prazeres，R.L.C.科斯塔湖Santos等智能系统与应用17（2023）2001897图五、支持层培训/维护模块。当使用监督学习时，必须训练学习模块以区分网络的正常行为和异常行为。模型训练可以使用在受控实验室环境中构建和标记的数据集，或者通过使用类似于智慧城市中的协议或设备的因此，我们的体系结构包括图中所述的培训和维护模块5、与IDS雾节点的工作流程密切相关。在这个模块中，具有最佳性能的机器学习模型被识别出来，然后在生产IDS模块中实现。在生产环境中，数据库存储捕获的网络流量（PCAP文件）、它们的流表示（例如，在IPFIX），和分类的牛。训练和维护模块包含生产数据库的副本，并在模型训练中使用它。因此，训练模块向生产IDS提供（新训练的模型），生产IDS节点向训练模块反馈真实世界（和标记的）数据。这种现实世界的标签数据可以从历史数据中获得，并且先前被识别为恶意的传输可以作为网络审计和取证分析的结果而被验证。4. 实验评价为了实验性地评估我们的提议，我们使用了两个具有物联网网络流的数据集，即IoT-23（Garcia等人，2020）和MQTT-IoT-IDS 2020（Hindy等人，2020年b）。我们使用了Python（Van Rossum Drake，2009）、Python Notebooks（Kluyver et al.，2016），和Tensor的Tensor Tensor来训练和测试几个深度模型。我们评估了三种架构，即，我们的物联网流IDS具有分段的流量信息，一个合并的流程架构和一个联合学习方法。4.1. 评估的情景我们评估了使用数据流数据进行异常检测的四种场景：物联网流IDS、交叉数据流、合并数据流和基于流的反馈学习。物联网流IDS-第一个场景模拟我们的建议与网络流量分割。我们使用了IoT-23和MQTT-IoT-IDS 2020数据集来评估我们的提案。每个数据集代表一个应用系统。我们为每个数据集应用单独的IDS训练，并使用相应系统的测试数据评估IDS性能。图6表示评估场景。交叉分析-在这种情况下，我们为每个数据集应用单独的IDS训练，并使用来自其他数据集的测试数据评估IDS性能，从而表示使用模型来检测系统中的攻击，图7表示跨流程评估场景。合并的流-这种情况考虑了来自不同系统的流的合并及其用于训练单个IDS的用途，如图8所示。这种系统将用于识别合并的流量数据上的异常流量。基于流的联邦学习-我们还考虑了一种联邦学习方法，每个客户端的模型都是在考虑不同数据集的情况下进行训练的。然后，通过训练的客户端模型的参数的组合（平均）来构建新的服务器模型，如图9所示。两个数据集的测试数据用于评估服务器模型。4.2. 数据集说明两个使用的数据集都包含物联网网络传输数据。但它们有一组独特的特征。IoT-23-IoT-23数据集来自捷克技术大学ATG集团的恶意软件捕获设施项目，包含正常和恶意交易。真实的硬件（非模拟），包括智能门锁（Somfy），智能LED灯（Philips）和家庭智能个人助理（来自亚马逊），用于产生be-nign trac。网络攻击主要是基于已知的僵尸网络，如Mirai和特洛伊木马软件，帮助恶意行为者远程接管设备一个名为Zeek的被动开源网络流量分析IoT-23包含23个二进制流的功能，包括源和目的地地址和端口，协议和服务类型，以及来自源和目的地的字节表1显示了数据集的特征和相应的IPFIX元素。N. Prazeres，R.L.C.科斯塔湖Santos等智能系统与应用17（2023）2001898图第六章物联网流评估架构。图第七章跨流程评估架构。表1IoT 23功能- Zeek的功能与IPFIX。IoT23 /Zeek field IPFIXconn.log文件ID名称ts 22低启动系统运行时间uid 148id.orig_h 8源IPv4地址id.orig_p 7 sourceTransportPortid.resp_h 12目标IPv4地址id.resp_p11 destinationTransportPortproto 4协议标识符service 5 ipClassOfService持续时间161毫秒持续时间毫秒orig_bytes 231 initiatorOctetsresp_bytes 232 responderOctetsconn_state136，218，二一九二二零二二一二二二223默认结束原因、tcpSynTotalCount、tcpFinTotalCount、tcpRstTotalCount、tcpPshTotalCount、tcpAckTotalCount、tcpUrgTotalCount图八、合并后的流程数据的评估架构。最初，根据恶意软件类型，流量记录被分成日志文件。为了构建一个代表实验室中产生的各种类型网络攻击的样本数据集，我们从几个日志文件中提取了样本。我们的最终数据集有1，244，220个恶意数据流，恶意数据流的总数接近正常数据流的数量。恶意攻击包括水平端口扫描（收集信息以执行进一步的攻击），Okiru恶意软件，DDoS（分布式拒绝服务）攻击以及命令和控制攻击（C C）。MQTT-IoT-IDS 2020-MQTT-IoT-IDS 2020数据集包含由模拟MQTT网络生成的数据。数据集包含原始pcap文件以及单向和双向流特征。数据包括正常操作流量、攻击性和UDP扫描流量、Sparta SSHlocal_orig 149 observationDomainIdlocal_resp 149观察域IDmissed_bytes 165已删除的OctetTotalCounthistory 6 tcpControlBitsorig_pkts 298 initiatorPacketsorig_ip_bytes1 octetDeltaCountresp_pkts299 responderPacketsresp_ip_bytes1 octetDeltaCounttunnel_parents148 tunnel_parentslabel（not a Zeek field）n.a.N.A.detailed-label（not a Zeek field）n.a.N.A.暴力攻击和MQTT暴力攻击。该数据集包含pcaps、单向流和双向流的不同特征集。对于双向数据流，它包含32个特征，包括地址和端口、协议、包长度统计和标记。我们合并了包含双向数据流数据的文件，创建了一个包含近18万条数据流的数据集。N. Prazeres，R.L.C.科斯塔湖Santos等智能系统与应用17（2023）2001899图第九章基于专业化流程数据的联合学习。都有相同的特征另一方面，其他三种考虑的架构要求并行流具有兼容的特性。IoT-23-我们的特征选择策略的第一阶段是重新移动始终具有相同值的列（即， local_orig 和 local_resp ）以及其值都不同的列（即， ts 和UID）。我们还删除了tunnel-parents列，因为它与已删除的UID列相关。详细标签表示我们在这些实验中没有考虑的攻击类型。因此，详细标签列也被删除。然后，对剩余特征和选定特征进行预处理见图10。模型表示。4.3. 模型配置、培训、验证和测试策略我们创建了一个由完全连接的隐藏层组成的深度模型，如图10所示。每个隐藏层中的神经元数量，激活函数和输出层等超参数都是通过实验手动设置的。在评估所提出的用于处理IoT-23数据集的IoT-FlowIDS架构时，我们分别使用64、32和16个神经元的三个隐藏层取得了最佳结果。对于所有其他考虑的场景和数据，我们分别使用50个和25个神经元的两个隐藏层获得了最佳结果每个隐藏层都使用ReLu作为激活函数。输出层使用Softmax。我们使用Keras来构建我们的模型，Adam优化器和一个Dropout层，最后一个隐藏层和输出层之间有20%。其他超参数保持默认值。我们将每个数据集分为训练（80%）和测试（20%）数据。验证数据相当于训练数据的20%。我们使用了提前停止，耐心为10。4.4. 特征选择和预处理减少特征的数量可以导致更好和更快的训练。我们的IoT流IDS架构不要求所有数据集使用自动方法。我们将特征从特征（字符串）转换为数值和归一化数值。我们使用 LabelEncoder 和 SimpleImputer （ Pedregosa 等人，2011）将字符串转换为值，以及StandardScaler（Pe-dregosa et al.，2011 ）算法进行

下载后可阅读完整内容，剩余1页未读，立即下载