基于网络流量特征和神经网络嵌入的工业控制系统设备分类

30 浏览量更新于2023-12-06 收藏 13.23MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

(http://creativecommons.org/licenses/by-nc-nd/4.0/).use of specialized application layer protocols that support a wide rangeof industrial processes, and the payloads of these protocols shouldbe exploited in any ICS network mapping scheme, and (3) as newprotocols are introduced, existing signature or rule-based tools mustbe updated to accommodate the protocol semantics; i.e. they must beexplicitly programmed to recognize and interpret new protocols. Thus,an important underlying goal is the development of techniques thatutilize passively collected ICS network traffic to enable characterizationof ICS devices, which ultimately can be used to assess the security of asystem.Properties of ICS hosts can be used for a variety of critical infrastruc-ture security-oriented applications. For example, critical infrastructureasset owners are often interested in verifying that the actual compo-sition of their networks matches their current understanding. WhileICS networks are often quite static by design, the addition, removalor modification of hosts – whether intentional due to upgrades orretirement of legacy systems, or unintentional due to a security breach– needs to be tracked. Often times, this exercise takes the form ofperiodic security assessments which utilize basic network flow infor-mation, including host IP addresses and source/destination ports, asthe primary keys for host identification. Intuitively, the duration ofanalysis activities during these assessments is a function of the size ofthe network under study, the available analysis staff, and the capabilityof the tools employed. Properties of hosts automatically inferred bymachine learning methods, such as whether a host is an ICS device,0Array 12（2021）1000810获取文章0ScienceDirect提供的内容列表0Array0期刊主页：www.elsevier.com/locate/array0使用网络流量特征和神经网络嵌入的工业控制系统设备分类0Indrasis Chakraborty �，Brian M. Kelley，Brian Gallagher0美国加利福尼亚州利物浦劳伦斯利物浦国家实验室0文献信息0关键词：工业控制系统SCADA设备分类机器学习神经网络嵌入DNP2Vec0摘要0对现代工业控制系统（ICS）设备的表征对于评估其安全状况以及了解其相互作用的基础工业过程至关重要。在这项工作中，我们解决了两个相关的ICS设备识别任务：（1）将ICS与非ICS设备分开和（2）识别特定的ICS设备类型。我们提出了两种不同的方法（一种基于现有的IP2Vec方法，一种基于新颖的基于流量特征的方法）来完成第一个任务。对于第一个任务在两个数据集之间的可转移性，基于流量特征的方法表现明显优于IP2Vec（整体准确率为75%比22.5%）。我们进一步提出了一种名为DNP2Vec的新方法来解决第二个任务。DNP2Vec在两个不同的数据集上进行了评估，并且在两个数据集上都实现了完美的多类别分类准确率（100%）。01. 引言0工业控制系统（ICS）是执行工业过程自动化的一般类结构。一些特别复杂和关键的ICS形式是支持发电、输电和配电、石油和天然气开采、运输和交付以及水分配和处理过程的ICS。由各种传感和执行机制组成的大量物理设备，与通用计算设备结合在一起，构成了在这些类型的现代关键基础设施中显现的网络物理系统。虽然这些网络物理系统为改善效率开辟了新的途径，但由于影响现实世界的机械设备与常规通信网络之间的相互连接增加了滥用的机会，因此对信息技术网络相对常见的入侵和漏洞分析技术正在被开发用于ICS。我们正在进行的工作的一个广泛目标是开发支持发现和预测ICS网络和主机属性的机器学习方法。特别是，我们试图以不干扰关键基础设施过程的方式发现网络物理ICS设备的制造商、型号和面向过程的行为。虽然这种被动‘‘映射’’网络的过程并不新鲜，但由于几个因素，现有的用于映射传统计算机网络的工具不适合ICS网络：（1）在生产环境中通常禁止对ICS设备进行主动探测，（2）ICS网络使用支持各种工业过程的专门的应用层协议，这些协议的有效载荷应该在任何ICS网络映射方案中被利用，（3）随着引入新的协议，现有的签名或基于规则的工具必须更新以适应协议语义；即它们必须被明确地编程以识别和解释新的协议。因此，一个重要的潜在目标是开发利用被动收集的ICS网络流量的技术，以实现ICS设备的特性，最终可用于评估系统的安全性。ICS主机的属性可以用于各种关键基础设施安全应用。例如，关键基础设施资产所有者通常有兴趣验证他们网络的实际组成是否与他们当前的理解相匹配。虽然ICS网络通常设计得相当静态，但是主机的添加、删除或修改（无论是由于升级或淘汰旧系统而是有意的，还是由于安全漏洞而是无意的）需要被跟踪。这种练习通常采用基本网络流信息，包括主机IP地址和源/目的地端口，作为主机识别的主要键的定期安全评估的形式。直观地说，这些评估活动的持续时间是受研究网络的大小、可用的分析人员和所使用工具的能力的函数。由机器学习方法自动推断的主机属性，例如主机是否是ICS设备，0� 通讯作者。电子邮件地址：chakraborty3@llnl.gov（I. Chakraborty），kelley35@llnl.gov（B.M. Kelley），gallagher23@llnl.gov（B. Gallagher）。0https://doi.org/10.1016/j.array.2021.1000812021年3月1日收到；2021年6月21日修订稿收到；2021年7月16日接受Array 12 (2021) 10008120I. Chakraborty等0如果是这样，设备的制造商和型号号码都可以增强资产识别的准确性，并可能减少分析人员的需求。这将总体上改善小型和大型网络的安全评估过程。0在本文中，我们提出了用于识别的机器学习技术0识别ICS网络流以及区分特定类型的ICS设备。首先，在ICS与非ICS分类任务中，我们提出了两种方法，即基于IP2Vec[1]技术的方法和基于流量特征的方法。此外，我们表明基于流量特征的方法在“跨网络”迁移学习设置中更好，并且只要观察窗口足够“长”（至少1小时），这两种方法都不会受到影响。其次，对于ICS设备类型分类任务，我们提出了一种称为DNP2Vec的新方法，这是一种改进分类性能的DNP3特征嵌入。DNP3（分布式网络协议，第3版）是一种通信协议，被用于例如电力公用事业所使用的控制系统中的设备。0本文结构如下。在第2节中，我们介绍了0数据集，然后正式介绍了本文解决的问题。第5节描述了我们用于解决流分类问题的两种提出方法，以及这两种方法与基线的比较。在第6节，我们评估了实现所需的最佳数据收集时间以达到期望的分类准确性。最后在第7节，我们提出了一种新的设备分类方法，并将分类性能与基线方法进行了比较。01.1. 相关工作0工业控制系统（ICS）和监控与数据采集（SCADA）的机器学习（ML）0对SCADA（监控与数据采集）应用程序的研究是一个活跃的领域。在这一领域的先前工作涵盖了各种应用，包括攻击检测[2-5]、故障/事件预测[3,6]、自适应控制[7,8]和异常检测[4,5,9-11]。0将ML应用于SCADA网络和设备特征化的工作0似乎很稀少，可能是受到早期对IT系统流分类的启发[12]。在这项工作中，作者们将贝叶斯分类器应用于网络流统计数据（数据包到达时间、数据包长度、均值和方差、流大小和持续时间），将传统的互联网网络流分类为特定的应用类别（即FTP、Telnet、DNS、HTTP等）。特征选择基于分类器的性能，并在多个网络跟踪文件中获得了合理的分类准确性。虽然这项工作建立了网络流分类的工作流模型，但并未应用于ICS网络数据，作者也没有专注于识别网络主机本身的特征。0对标准设备指纹识别的适用性进行评估0几年后，对ICS的技术进行了研究[13]。这项工作分析了传统的指纹识别方法，并评估了它们在ICS环境中的适用性。作者首先回顾了常见的设备指纹识别技术，并描述了一个新的指纹识别工具的参考架构；手动创建和维护指纹被认为是现有指纹识别工具的一个主要缺点。然后测试了标准的指纹识别技术，并显示它们无法有效识别ICS设备，主要原因是设备的异质性、使用专有协议、低计算能力和长时间运行的TCP会话。作者建议探索利用时间通信模式和被动流量捕获技术来分类ICS设备组件类型，并提到使用ML来解决指纹创建和维护问题。0在指纹评估工作之后，一个努力正在进行中0采取了表征工业控制系统在互联网上的步骤[14]。在这项工作中，使用了17种不同的ICS协议的主动探测来收集来自网络主机的数据，然后通过基于签名的匹配算法来识别ICS设备。一个天真的0贝叶斯分类器也用于区分真实的ICS设备和ICS蜜罐。分类器在281个设备和16个蜜罐上进行了训练，利用了一个特征集，包括开放端口的数量、HTTP配置和两个协议特定的特征(ModBus和S7功能码)。然后，这种机制被应用到互联网主机上，以确定互联网连接的ICS设备的位置、所有权和功能特性，具有合理的准确性。作者认识到，主动探测方法可能对真实的ICS设备有害，他们实施了一种试图最小化发送到主机的主动探测数量的启发式方法。虽然这项工作在区分ICS和非ICS主机方面取得了进展，但主动探测方法通常在实时ICS网络中被禁止，因此可能不适用于大多数工业环境。0在同一年，[15]提出了两种被动的、面向机器学习的指纹0在电力SCADA系统中的ICS设备的指纹方法。第一种，面向网络的方法利用了三种常见的ICS协议的数据响应处理时间来识别ICS设备类型。作者定义了一个'跨层响应时间'特征，捕获了从接收到TCPACK到设备的应用层响应之间的时间差。第二种，基于物理的方法利用了设备的物理操作时间。这种方法依赖于设备供应商之间的物理操作时间差异，因为不同的物理构造方法，并且基于设备硬件的动态模型。然后，这两种方法在监督和无监督的机器学习方法的背景下进行了评估，并应用于真实世界的数据，导致了高设备分类的准确性。这项工作在利用网络和物理特征进行ICS设备分类方面取得了重大进展。然而，由于传输层确认被合并到应用层响应消息中，以节省带宽，'跨层响应时间'特征可能并不总是可用于测量。同样，需要准确和经过验证的设备硬件的动态模型来促进基于物理的指纹方法，这是一个手动和耗时的工作；作者认识到这一点，并提出了一个混合黑/白盒('灰盒')建模方法来解决这个问题。0最近，人们对物联网的特征化进行了很多关注0设备。例如，在[16,17]中，作者探讨了对物联网和ICS设备的指纹。这些工作利用了对互联网主机的主动探测，并基于网络、传输和应用层特征集。在[16]中进行的研究形式类似于[14]，但利用了更广泛的特征集和人工神经网络(ANN)模型，而不是贝叶斯分类器。同样，[17]利用了人工神经网络，但设计了一个基于HTTP响应的特征集。这两项工作都报告了在识别设备类型和供应商方面的合理准确性。然而，如前所述，依赖于主动探测的方法在工业环境中经常被禁止。此外，基于HTTP响应的特征集可能由于禁用HTTP服务以减少设备攻击面而不适用于ICS设备。0最近还进行了利用网络流量进行工作0特征。在[18]中，使用了两种新颖的特征融合方法，包括计算的网络流统计数据，对六种不同类型的网络视频流量进行了高准确度的分类。[19]提出了一种提取签名的方法，用于识别不同类别的网络流量，基于数据包长度统计，并且使用决策树分类器获得了91%的准确性。最后，[20]提出了一种学习自动机方法来选择网络流量特征，用于网络入侵检测系统，并发现SVM结合他们的特征选择方法获得了93.8%的入侵检测率。这项工作展示了在对各种应用程序的网络流量进行特征化时，网络流量特征的重要性。0虽然我们的工作与网络主机指纹和使用流量特征进行网络流分类最相关，但我们提出了一种0基于特征的方法，用于ICS和非ICS设备分类，利用网络流量特征进行分类。基于流量特征的方法利用网络流统计进行分类，并且在不同的ICS网络之间具有可转移性，而DNP2Vec在转移到另一个ICS网络时需要重新训练。30Array 12 (2021) 1000810I. Chakraborty等0流统计和ICS协议应用层有效载荷数据，以层次化的方式产生高准确性，以确定网络主机是否为ICS设备，如果是，还可以确定设备的类型。这种方法允许对ICS设备进行表征，而无需像现有的基于规则或签名/指纹导向的方法那样明确编程协议语义。此外，由于我们关注的是以被动和不显眼的方式自动化这一表征过程，我们的方法仅在被动收集的网络流量上运行，不需要对网络主机进行探测。01.2. 本文的贡献0在本文中，我们提出了一种低维神经网络0基于嵌入的框架DNP2Vec。该框架利用了Word2Vec[21]的训练基础，并通过将基于ICS协议字段的特征纳入嵌入过程，改进了现有的IP2Vec[1]方法。本文的主要贡献是成功利用ICS协议特征进行设备分类，通过低维度嵌入。我们在本研究中主要关注了DNP3ICS协议，主要是因为数据的可用性；然而，这个框架也可以扩展到其他ICS协议，并且我们在第8节中简要讨论了这一点。0此外，我们提出了另一种方法，名为"traffic-0基于特征的方法用于ICS和非ICS设备分类，利用网络流量特征进行分类，并且在不同的ICS网络之间具有可转移性，而DNP2Vec在转移到另一个ICS网络时需要重新训练。0接下来的部分正式描述了机器学习任务0以及用于评估机器学习方法的数据集的特征。02. 数据集和问题描述0网络流是来自特定源的数据包序列0计算机到特定目标计算机的网络流。本研究利用了来自两个独立系统的网络流。第一个系统（A站点）是一个生产级工业电力分配系统。第二个系统（B站点）是一个非生产的网络物理试验台。通过处理以PCAP形式被动捕获的网络流量，为每个系统生成了网络流数据集。表1描述了两个系统中存在的不同网络流的端点。表2简要描述了这些系统中存在的ICS设备。0我们首先定义了两个与数据收集相关的时间参数。0术语 1. 总数据收集时间（�）是总持续时间0PCAP数据收集周期的持续时间。0术语 2. 流观测窗口（��）是持续时间0每个网络流。0两个数据集均由与流量相关的网络数据组成0设备类型，例如它们的IP地址、端口号、协议类型、传输字节等。数据集包括各种数据类型的混合，例如数值（例如传输字节）和分类（例如IP地址）类型。这些数据集可用于表征不同的设备类型，然后用于识别和验证引入设备网络中的新设备。如果可以为ICS环境中的不同设备开发签名，可能可以将被动收集的网络数据转化为互联设备的网络地图。0在这项工作中，我们提出了一个框架，用于识别SCADA网络中存在的不同类型的ICS设备。0A现场 B现场0表1 数据集中存在的不同流类型。0表2 ICS设备类型和描述。0SEL-2240 → 服务器NI控制器 → 未知服务器 → SEL-2240 PDU → PDU服务器 →服务器PDU → 未知服务器 → 未知SEL-2414 → 工作站未知 → 服务器SEL-2740 →PDU未知 → 未知SEL-351A → 未知工作站 → SEL-735未知 → 工作站工作站 →SEL-751工作站 → SEL-351A工作站 → SEL-787工作站 → 未知工作站 → 未知0设备类型描述0任务1（ICS流分类）。给定一个网络流，确定它是否是ICS流（即一个或多个端点是ICS设备）或非ICS流（没有ICS端点）。0对ICS设备进行分类。对于第一个任务，我们提出了两种不同的方法来区分SCADA网络中的ICS设备和非ICS设备。我们将其作为二元分类任务，并提出了两种单独的方法来获取与分类相关的特征。对于第二个任务，我们提出了一种利用DNP3字段及其嵌入作为特征的新颖框架。第二个任务被提出为多类分类任务。现在我们正式介绍这两个任务。0参数。具体来说，我们研究了两种泛化场景和两种数据收集参数的影响。0对于这项任务，我们变化了许多重要的实验参数。0网络设置（在站点A上进行训练，在站点A上进行测试）和跨网络设置（在站点A上进行训练，在站点B上进行测试）。0泛化场景：我们在站内网络设置（在站点A上进行训练，在站点A上进行测试）和跨网络设0受各种数据收集参数的影响。在这项研究中，我们量化了两个特定数据收集参数对分类器性能的影响：（1）总数据收集时间（�），（2）流观察窗口（��）。0数据收集参数：对于任务1，分类器性能受各种数据收集参数的影响。0在图1中完整地显示了框架。0任务2（ICS设备分类）。给定ICS设备的所有流，确定ICS设备的具体类型。02.1. 实验设置0描述框架之前，我们描述了用于生成与所有分类器训练和测试相关结果的实验设置。03. IP2Vec和DNP2Vec的描述0在本文中，除非另有说明，我们使用标准的k折交叉验证（� = 100）来评估泛化性能。0I. Chakraborty等0我们的分类方法的性能。0IP2Vec和DNP2Vec的描述。在描述IP2Vec[1]和我们的DNP2Vec方法的基础之前，我们介绍了一些定义。0IP2Vec和DNP2Vec基于Word2Vec算法进行自然语言处理。0定义1（语料库（�）的定义）。与Word2Vec类似，IP2Vec语料库包括一组唯一的源IP地址、目标端口和网络协议。DNP2Vec语料库包括唯一的源IP地址。4Definition 1 (Definition of Corpus (𝑤)). Similar to Word2Vec, an IP2Veccorpus consists of a collection of unique source IP addresses, destinationports and network protocols. A DNP2Vec corpus consists of uniquesource IP addresses.0数组12（2021）1000810数组12（2021）1000810图1. 整体提议框架的示意图。0定义 2（上下文（ �）的定义）。与Word2Vec类似，语料中每个元素的上下文定义如下：（1）对于IP2Vec，源IP地址语料元素的上下文要么是目标IP地址，目标端口，或协议，（2）对于IP2Vec，目的端口语料元素的上下文是目标IP地址，（3）对于IP2Vec，协议语料元素的上下文是目标IP地址，（4）对于DNP2Vec，源IP地址语料元素的上下文要么是目标IP地址，目标MAC地址，或DNP3字段。0定义 3（Skip-gram模型）。在这个模型中，给定语料元素 � 和它们的上下文 �。我们考虑条件概率 � ( � | � ) ，并且给定一个语料元素，目标是设置参数 � 使得 � | � ; � ) 的语料概率最大化：0arg max0� ∈ 语料元素 [ 0� ∈ � ( � ) � ( � | � ; � )]0� ( � ) 表示语料元素的上下文（如定义 2 中定义）。0现在我们对定义 3 中的skip-gram模型的条件概率进行参数化0� ( � | � ; � ) = exp( � � �� ) ∑ � ′ ∈ �exp( � � ′ �� )0其中 � � , � � ∈ R � 是上下文的 d 维向量表示，而语料元素分别是上下文元素。参� 为 � �� 和 � �� , � = 1 , 2 , … , � ，这些参数被解决以最大化定义 3 中的语料04. 网络流量特征描述0网络流量归因于六种不同的协议组之一：ARP、TCP/IP、DNP3、HTTP、TLS和UDP。在计算之前0表3每个方向的协议的特征列表。在“符号”列中，“a”表示发送或接收，代表每个流的方向。0描述符号0数据包数量 a_num_packets0传输的字节数 a_vol_bytes0数据包到达时间间隔-平均值 a_pinterarr_avg0数据包到达时间间隔-最小值 a_pinterarr_min0数据包到达时间间隔-最大值 a_pinterarr_max0数据包到达时间间隔-标准偏差 a_pinterarr_stdev0数据包大小-平均值 a_psize_avg0数据包大小-最小值 a_psize_min0数据包大小-最大值 a_psize_max0数据包大小-标准偏差 a_psize_stdev0流量特征，每个流中的数据包根据这些协议类型进行细分。最初，LLDP也被包括在协议组中之一，但是LLDP是链路层协议，只封装以太网地址（没有IP地址）。因此，将这些流量归因于现有流依赖于预先计算的以太网到IP地址映射。为此分类任务选择了十个标准流量特征，如表3所示。为每个捕获的网络流计算流量特征。这些流量特征代表网络流的各种统计信息，如传输的总数据包数、数据包到达时间、数据包大小等。网络流被捕获的时间为 � ，并且在流观察窗口 ��内计算流量特征。因此，如果总的数据收集时间 � 包括 � 个流观察窗口 �� ，其中� ∈ Z + ，那么每个观察窗口将有 20个与之关联的流量特征（发送方向的十个特征和接收方向的十个特征）。提取的流量特征被用作用于分类ICS和非ICS设备的特征集。因此，特征集的维度为 R � ×20。我们使用支持向量机（SVM）二元分类器来完成这个任务。05. ICS与非ICS设备分类，任务1的解决方案0在这里，我们评估了分离ICS和非ICS流量的两种方法，一种基于第3节中描述的IP2Vec，另一种基于网络流量特征。我们还将其与基于PCAP流特征的基线方法进行了比较。我们使用�=1 h，��=10 s在A站点收集了PCAP数据集，并使用�=0.5h，��=10s在B站点收集了PCAP数据集。A站点和B站点的数据收集时间差异是因为每个站点具有不同的最佳收集时间，如第6节中所述。在本文中，如果没有明确提到，A站点和B站点的数据收集时间分别为1小时和0.5小时。用于分类器训练和评估的真实标签是使用与ICS流相关联的恒定源端口号捕获的。我们使用了第2.1节中描述的实验设置。05.1. 基线性能0我们的基线方法是使用以下特征训练的二元SVM分类器：与源和目标设备相关联的IP地址，目标端口号，协议和传输字节。基线分类性能在A站点和B站点数据集上进行了测试，并与我们提出的方法的性能进行了比较。50Array 12（2021）1000810I. Chakraborty等0图2. A站点ICS与非ICS设备分类的基线和IP2Vec性能。05.2. 使用IP2Vec进行分类0在本节中，我们使用第3节中描述的IP2Vec来对A站点和B站点数据集中的ICS和非ICS设备进行分类。例如，对于源设备和目标设备之间的每个定义流，使用前面讨论的IP2Vec训练过程，我们的输入维度为500（其中IP2Vec训练批量大小为100），隐藏维度选择为60（与第3节中的符号�=60相对应）。在成功训练IP2Vec架构后，我们使用来自隐藏层的训练样本的嵌入作为训练SVM分类器的特征。分类性能比较:我们将基线性能（在第5.1节中描述）与IP2Vec（在第5.2节中描述）进行比较，用于A站点和B站点数据集之间的第一个分类任务（任务1）中ICS设备和非ICS设备。在图2中，显示了基线和IP2Vec分类性能与真正阳性（ICS设备）率和真正阴性（非ICS设备）率的箱线图。与IP2Vec不同，分类基线未能识别ICS设备（如图2中的箱线图所示），而IP2Vec能够以0.95的真正阳性率对ICS设备进行分类。类似地，对于B站点数据集，我们将基线性能与IP2Vec进行比较，如图3所示。对于B站点数据集，基线方法能够以0.1的真正阳性率对ICS设备进行分类，而IP2Vec则以0.88的真正阳性率。我们还评估了IP2Vec和基线方法之间的F1分数，进行站点A和站点B数据集的独立类别比较，如表4所示。对于A站点，基线提供了0的F1分数，而IP2Vec提供了0.974的F1分数。类似地，对于B站点，基线提供了0.18的F1分数，而IP2Vec提供了0.91的F1分数。从视觉上看，使用二维t-SNE图绘制的A站点测试数据集的分类性能如图4所示。IP2Vec在对ICS设备和非ICS设备进行分类方面明显优于基线方法。对于B站点数据集，比较IP2Vec和基线方法时观察到类似的性能。05.3. 使用流量特征进行分类0在描述这种方法之前，将介绍用于分类的流量特征。分类性能比较:在0表3 是针对站点A和站点B数据集计算的，其中 �� = 10s。对于这两个数据集，实验设置考虑如第2.1节中所讨论的那样。对于站点A的训练数据，基准分类器（第5.1节）和基于流量特征的方法的比较如图5所示。如图5所示，0图3. ICS与非ICS设备分类的基准和IP2Vec性能，针对站点B。0图4.基准和IP2Vec方法在站点A的测试数据集上，使用线性核的SVM进行ICS和非ICS设备分类的t-SNE可视化比较。为了视觉上的清晰，这些图是在数据集的10%上生成的。绿色点代表非ICS设备，黑色点代表ICS设备。与基准相比，线性SVM核的IP2Vec和多项式SVM核的IP2Vec分别提高了100%和84%的分类性能。站点B数据集也观察到类似的分类性能，t-SNE图由于篇幅原因被省略。0基准分类器完全错误地将ICS设备进行分类，而基于流量特征的方法能够实现真正阳性率1（完全60数组12（2021）1000810I. Chakraborty等0图5. ICS与非ICS设备分类的基准性能和基于流量特征的性能，针对站点A。0图6. ICS与非ICS设备分类的基准性能和基于流量特征的性能，针对站点B。0分类）对ICS设备。然而，基准方法能够完全对非ICS设备进行分类，而基于流量特征的方法只能实现非ICS设备的真负率为0.5。如表4所示，基准方法和基于流量特征的方法的F1分数分别为0和0.8。0同样，在图6中，我们绘制了基准性能和基于流量特征的性能之间的准确性比较0应用于站点B训练数据的基准和基于流量特征的方法。如图6所示，基准方法能够实现ICS设备和非ICS设备的分类准确率分别为0.1和1，总F1分数为0.18。另一方面，基于流量特征的方法能够实现ICS设备和非ICS设备的分类准确率分别为0.9和0.98，总F1分数为0.89。最后，在表4中，我们针对我们提出的方法和基准方法在TPR（真正率）、TNR（真负率）、F1分数和平衡准确性等四个不同的性能指标进行了汇总。尽管与基准方法相比，两种提出的方法在所有指标上表现更好，但IP2Vec的性能优于基于流量特征的方法。0基于流量特征的方法优于基准方法0方法，对于两个站点数据集，由于选择恰当的分类特征（即数据包大小、数据包到达时间等）。同样，IP2Vec的性能优于基于流量特征的方法0表4两种提出的ICS与非ICS分类方法与基准方法的性能比较。对于两个数据集，最佳性能的方法的结果以粗体显示。0TPR TNR F1分数平衡准确性0站点A（基准）0 1 0 0.50站点A（IP2Vec）0.95 1 0.974 0.9750站点A（流量特征）1 0.5 0.8 0.7550站点B（基准）0.1 1 0.18 0.550站点B（IP2Vec）0.9 0.92 0.91 0.910站点B（流量特征）0.82 0.98 0.89 0.90由于基于流量的嵌入方法（如第3节中的IP2Vec所示），IP2Vec的性能优于基于流量特征的方法。此外，对于两个站点，IP2Vec的性能也优于基于流量特征的方法，因为IP2Vec方法中网络流的维度较低，提供比基于流量特征的方法更好的分类特征。0特征排名：在本节中，我们将评估所描述的特征的重要性0表3中描述的特征的重要性，用于ICS和非ICS流分类的上下文。为了对特征进行排名，我们使用了递归特征消除（RFE，[22]）作为评估器的支持向量分类器和线性核。通过RFE排名，SiteA和B数据集的三个最重要的特征是接收数据包大小的最小值（rcvd_psize_min），以及发送数据包间隔时间的最小值和标准差（sent_pinterarr_min，sent_pinterarr_stdev）。在图7和图8中，我们绘制了六个最重要特征随时间变化的情况，分别对应Site A和SiteB的ICS和非ICS流。这些图表显示了与使用RFE找到的特征排名相同的结论，对于两个数据集都是如此。图7和图8还显示了在任务1的上下文中最不重要的特征，即两个数据集的‘rcvd_vol_bytes’。这些特征排名将有助于定义对ICS和非ICS设备进行分类的可转移性，如第5.4节中所述。在第5.4节中，我们展示了如果两个数据集共享类似的特征排名（如Site A和SiteB数据集），那么在一个数据集上训练用于区分ICS和非ICS设备的分类器将在另一个数据集上表现良好。此外，两个数据集内特征排名越相似，从一个数据集转移到另一个数据集时分类器的性能就越好。05.4. 可转移性0我们使用了一个10阶多项式核的SVM分类器进行训练，0它使用一个数据集的计算网络特征，并在另一个数据集上进行测试，以评估分类器是否可转移以及其性能如何。为了展示可转移性，我们选择了两种情景。第一种情景使用Site A训练数据集的网络流量特征和流来训练SVM分类器，并在SiteA测试数据集上测试训练好的分类器。第二种情景涉及与第一种情景相同的训练步骤，但在SiteB测试数据集上测试训练好的分类器。在流量流计算中，�和��起着重要作用，因此对于这个可转移性实验，我们保持��恒定为10秒，同时将�从0.1变化到2小时，间隔为10分钟。目标是展示当改变总数据收集时间�时，可转移性（在这里由分类器的性能定义）是否会改变。在图9中，两个子图显示了真正阳性率和真正阴性率70Array 12（2021）1000810I. Chakraborty等人0图7. Site B与ICS和非ICS流相关的前六个重要特征的时间序列图。0图8. Site A与ICS和非ICS流相关的前六个重要特征的时间序列图。0率（这里正表示ICS设备，负表示非ICS设备），红色和蓝色分别表示测试数据集为Site B或SiteA。与蓝线（非转移）相比，红线（转移）在真正阳性率上减少约0.25，在真正阴性率上减少约0.07。此外，对于转移和非转移情况，两种率在1小时后饱和，这进一步表明我们先前的主张，即1小时的数据和 �� = 10 s 是最佳的。0基于图7和图8的发现，我们选择了三个0用于对工业控制系统（ICS）和非ICS流进行分类的Site A和SiteB之间共同的重要特征。特征排名显示，Site A和SiteB在对ICS和非ICS流进行分类的特征排名不同；这解释了转移和非转移情况下分类准确度的下降，如图9所示。如图11所示，两个子图表显示，通过添加三个额外特征（基于特征排名），并重新训练转移分类器，我们可以实现SiteB数据集的非转移准确度（这里的重新训练意味着从SiteA转移训练好的分类器，并用SiteB的相应特征替换，如图11所示）。在类似的可转移设置（在SiteA上训练，在SiteB上测试），基于特征的方法的性能显著优于IP2Vec，如图10所示。尽管IP2Vec在数据集内表现优于基于特征的方法，但由于其利用固有架构的原因，基于特征的方法在Site A和Site B之间的性能更好。0图9. 使用基于流量特征的方法，在 Site A 上训练分类器并在 Site A 上测试，以及在 Site A上训练分类器并在 Site B 上测试时，随着 �的变化，分类性能的变化。（有关本图图例中颜色的解释，请参阅本文的网络版本。）0图10. IP2Vec 和基于特征的方法之间的跨数据集性能比较。0流定义，IP2Vec无法提取可推广的特征，与基于特征的方法相比在跨数据集设置中表现更差。06. 数据收集参数：最佳 � 和 ��0获得期望分类所需的数据量0区分ICS和非ICS设备的准确性对于了解该任务在几乎实时环境中的适用性至关重要。‘‘期望’’的定义高度依赖于应用。例如，实时入侵检测系统可能需要较低的假阴性率，以最大程度地提高检测入侵者的可能性，但对假阳性更宽容。相反，离线安全评估调查可能会容忍假阴性和假阳性，因为评估的性质不是时间关键的。区分ICS和非ICS设备的理想方法将产生完美的分类准确性，但在实践中这并不总是可行的。在本节中，我们评估了实现 80–95%分类准确性所需的最佳数据收集时间。0我们通过变化 � 来迭代可用数据的数量，范围为 0.1 到 2.5 小时，间隔为 5 分钟，适用于0在 Site A 数据集中， 0.1 到 2.5 小时之间进行变化，间隔为 5 分钟。80数组12（2021）1000810I. Chakraborty 等人0图11. 转移的不同情况及其相应的准确性：情况1表示仅从 Site A 转移到 Site B。情况2表示用 Site B 的rcvd_psize_min 替换 Site A 的 rcvd_psize_min，并重新训练分类器。情况3表示用 Site B 的rcvd_psize_min 和 sent_pinterarr_avg 替换 Site A 的 rcvd_psize_min 和sent_pinterarr_avg，并重新训练分类器。情况4表示用 Site B 的 rcvd_psize_min、sent_pinterarr_avg和 sent_psize_min 替换 Site A 的 rcvd_psize_min、sent_pinterarr_

下载后可阅读完整内容，剩余1页未读，立即下载