基于集成学习的虚拟专用网加密流量分类

40 浏览量更新于2023-12-18 收藏 1.44MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

埃及信息学杂志23（2022）57基于集成学习算法的虚拟专用网加密流量分类Ammar Almomania，ba信息技术系-Al-Huson大学学院，AL-Balqa应用大学，P. O. Box 50，伊尔比德，约旦b沙迦大学城Skyline大学学院研究与创新系，邮政编码：Box 1797，沙迦，阿拉伯联合酋长国阿提奇莱因福奥文章历史记录：2022年2月11日收到2022年6月18日修订2022年6月22日接受2022年7月25日在线发布保留字：机器学习机器学习(VPN（和非VPN流量分析加密流量A B S T R A C T虚拟专用网络（VPN）是加密通信服务的一个例子，通常用于绕过审查并访问地理锁定服务。这项研究进行了VPN和非VPN流量分析，并开发了一个分类系统的基础上的机器学习分类器称为堆叠集成学习的新技术。用于VPN和非VPN分类的方法使用三种机器学习技术：随机森林、神经网络和支持向量机。为了评估所提出的方法的性能，我们在包含61个特征的数据集上进行了测试。实验结果准确地证明了该研究的分类器区分VPN和非VPN流量。在训练和测试阶段，准确率约为99%。该研究分类器方法©2022 The Bottoms.由Elsevier BV代表计算机和人工智能学院发布开罗大学法律系这是一篇CC BY-NC-ND许可证下的开放获取文章（http：//creative-commons.org/licenses/by-nc-nd/4.0/）上提供。1. 介绍由于技术的突破，网络流量的分类最近变得流行。高速互联网流量需求的不断增长增加了对此类任务的需求。网络流量分类有助于有效管理网络资源，这对于管理和保护网络也至关重要[1]。网络流量的准确分类将确保为客户提供服务质量（QoS），并有效地管理网络。今天有各种加密方法可用，常用的加密方法包括HTTPS，SSH，SSL以及Tor和TrueCrypt等程序。这些方法用于互联网流量加密，以保护互联网用户的隐私不受侵犯。因此，需要对由应用生成的这些网络流量进行分类。该分类将促进网络管理，同时防止恶意软件和最大的，开罗大学计算机和信息系负责同行审查。电子邮件地址：ammarnav6@bau.edu.jo，ammar.almomani@skylineuniversity.ac。AE从而实现网络入侵检测。此外，分类将方便ISP（互联网服务提供商）在执行一个troup-hooking过程中的网络。然而，对这些加密的网络流量进行分类导致了新挑战的出现[2]。同时，网络流量分类中最常用的方法是基于深度数据包检测的DPI以及统计和行为网络流量分类[3]。值得注意的是，基于端口的分类方法最近显示出较低的准确性，这归因于端口或端口隐藏的非系统性使用。而基于DPI的方法由于可能侵犯用户的隐私权，不能用于对加密的网络流量进行分类因此，研究人员选择使用基于机器学习的统计和行为方法。这些方法涉及手动设计与原始流量相关联的特征，这些特征被提取并应用于网络流量的分类[4]。不知何故，应该注意的是，该方法具有缺点，特别是关于手动生成的特征，由此需要网络领域的专业人员并且具有很多领域知识来运行该任务。他/她必须拥有基于流的网络流量的统计特征的知识在非VPN加密流量分类中，通过集成学习算法可以防止网络入侵和用户隐私侵犯。这可以在分类中举例说明。https://doi.org/10.1016/j.eij.2022.06.0061110-8665/©2022 THE COURORS.由Elsevier BV代表开罗大学计算机和人工智能学院出版。这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表埃及信息学杂志杂志主页：www.sciencedirect.comA. 阿尔莫马尼埃及信息学杂志23（2022）5758加密的网络流量，使互联网服务提供商可以提供高水平的服务质量给用户。对加密的网络流量进行分类，以便在维护客户信息的同时对网络进行调试和管理。在这方面，提出了一种可以通过使用在传输的分组中发现的隐藏模式来预测网络流量数据的类别的系统，如在使用加密的特定安全协议（诸如HTTPS）该系统可以显著地影响时间敏感的和基本的应用，因为它将事务应用流量优先于其他流量类型。因此，可用带宽得到优化，网络这会严重影响用户体验。在这项研究中，提出了包围学习技术来分类加密的网络数据。使用深度学习和机器学习方法对流量进行分类。深度学习被用作学习算法，其基于原始网络流量自动学习特征[5]。许多研究人员使用不同的统计特征来开发他们的模型。这导致模型具有不同的总体准确度水平。例如，参考文献[6]中的研究人员采用了从原始PCAP文件中提取的44个统计特征，而参考文献[7]中的研究人员采用了4个统计特征。然而，也有一些研究人员，如[8，9]，他们没有提供也没有提到他们使用的统计特征的数量研究的动机有两个方面：一个是网络使用的动机，另一个是实现更好的权衡以满足识别需求，最终促进网络活动的动机。另一个原因是应用类型的数量显著影响基于ML和集成学习分类的准确性。上述情况促使我们开发一个轻量级的集成分类系统，能够准确，快速地识别VPN流量。本文提出了一种基于堆叠集成学习的虚拟专用网流量分析与分类系统，并首次将该方法应用于VPN和非VPN流量分类问题。实验结果表明，分类器能够区分VPN流量和非VPN流量.本文的主要贡献包括：1）提出了三种不同类别的机器学习算法之间的集成模型合并。2)所提出的方法不需要深度分组检测特征;所有使用的特征都是基于分组的报头。3)与需要许多资源的深度学习算法相比，所提出的方法实现了可接受的性能。然而，所提出的模型可以有未知的威胁检测有效的显示，ING的准确率大于99%。本研究的其他部分见下段：第二部分讨论了本研究的背景和研究成果。讨论强调了机器学习和结合各种方法来创建混合方法。本文综述了VPN和非VPN流量分析和分类的相关文献。第三节讨论了研究方法。通过堆叠集成学习分类器方法概述了新的VPN和非VPN流量分析和第4节介绍了实验数据和取得的结果。研究中使用的数据描述也被介绍了。第五部分是研究结论和研究启示。2. 相关工作加密已被认为是网络流量密码学中的一个关键特征，并且它在Web上越来越普遍。可以基于几个函数来提供表达（对IP业务进行分类）的定义，例如，加密-在从源到相关目的地的整个通信过程中，基于IP对流量进行控制（通过使用HTTPS）地址，通过使用IP协议封装安全协议和特定于应用程序的端口号，或特定的应用程序，如Gmail。这些实时应用中的一些因此，应用程序通常与其相关的任务[1，10]相关联。VPN技术发展迅速，成为在Web上链接在一起的两个端点之间路由互联网流量的首选网络访问介质VPN最显著的特征表现在IP的隧道化已加密的流量，管理VPN隧道机制的VPN协议应有助于维护数据包级加密。该协议使得检测通过隧道端点运行的应用程序几乎是不可能的在实时和非实时的互联网流量分类和表征方面已经进行了无数的研究。这些研究大多使用统计技术和机器学习技术来解决实践中发现的问题[1]。在这一部分，研究者回顾了一些关于VPN和非VPN作为加密网络流量分类的相关文章，重点分析了加密网络流量分类方案的优缺点。2.1. 通过深度学习实现网络流量分类Salman等人[7]提出了一种多级分类框架，用于基于附加安全性和服务质量网络要求的互联网流量数据分类。涉及使用深度学习（卷积神经网络）方法，作者将流量分为四组：交互式，数据传输，流式传输和事务。对于每个流和子流，作者采用了784字节的MTU和16个数据包，用于各种设备和应用程序的离线和在线流量分类。考虑了四个离散特征。这项研究有两个明显的弱点。首先，在线分类没有考虑所需的带宽量，其次，该研究使用了不平衡的公共数据集，这可能会影响系统Lotfollahi等人[8]在开发最终用户应用程序分类系统时提出了一种深度分组方法。深度学习算法被用于网络流量分类。Gil等人[11]为公共ISCX VPN-非VPN流量提供的数据集用于1D卷积神经网络和堆栈自动编码神经网络的应用，以测试和形成所提出的解决方案。共确定了17个应用类别。1D-CNN在试验中产生了最好的结果，特别是在网络流量和应用流量的识别和分类方面，准确率分别为98%和93%。强调了两个重要的局限性。首先，研究人员没有说明他们在对象分类中使用的特征。因此，他们提出的系统无法检测到在其训练和测试期间识别的任何类别的流量。此外，系统运行在数据包报头上;因此，它需要数据和互联网来运行。Zeng等人[12]提出了深全程（DPR）系统框架。该系统使用1D-CNN、LSTM和SAE-NN等深度学习算法对加密的网络流量进行分类，并检测恶意软件入侵。该系统准确分类加密网络流量的能力是使用一个数据集这项研究的局限性在于，它没有揭示统计特征和每个流中使用的数据包的数量，加密的网络流量分类。Cui等人提出了一种称为SPCaps的分类系统。[9]涉及使用胶囊神经网络11，其利用A. 阿尔莫马尼埃及信息学杂志23（2022）5759矢量而不是标量作为加密网络流量分类的神经元。Gil等人的ISCX VPN-Non-VPN数据集[11]用于测试和训练系统。SPCap学习网络流量的空间属性以及数据包中固定字符串的位置和顺序。本研究有两个重要问题。首先，作者没有考虑冲浪和VPN浏览标签，因为这些标签已从数据集中删除。另一个问题是，分类从14个减少到12个，这可能会影响系统的准确性。该系统可能无法正确地对新的交通数据进行分类，因此，该系统可能遭受不适当的问题。Shapira和Shavitt[13]提出了一种该系统在形成图像时采用包括分组大小和到达时间的网络此外，CNN技术用于将交通流分类到其相应的类别并识别应用。基于流的数据集和小数据包被用来测试所提出的系统该模型使用非VPN流量数据集进行训练，并使用VPN流量数据集进行测试FlowPic对非VPN网络的分类准确率为85%，对VPN网络的分类准确率为98%这项研究有两个主要缺点。首先，作者没有包括时间序列特征，这些特征在实现期间用作输入时可能会增加系统例如，深度学习已用于其他研究[5，14，15]。2.2. 机器学习辅助的网络流量分类McGaughey等人[6]制定了一种统计特征选择方法，该方法涉及通过将快速正交搜索（FOS）算法应用于加密通信分类来从原始网络流量数据中选择具有预测值的特征。在分类过程中仅从原始交通数据中选择特征的子集可以最小化错误。原始交通数据特征是使用NetMate提取的主要特征集共因此，提取了44个特征[16]。在这项研究中，可能出现的问题是过度拟合，这可能发生在分类设备被馈送不熟悉的流量数据时，特别是在Dropbox网络流量的情况下。另一个问题是该方法对特征的专业知识的依赖性，这在顺序特征选择和深度学习中不会发生。Aouini等人[17]构建了一个系统，使用C5.0机器学习算法对住宅加密网络数据进行分类。该系统采用了一个广泛的法国居民聚集网络，有超过34，000个用户作为交通数据输入。从训练数据中，该系统可以分类七个特征。在提取过程中手动创建了对分类过程产生积极影响的高准确率特征;因此，作者无法确定选项来源的重要性。与此同时，C5.0的涡轮模式将训练时间增加了9倍，尽管使用了目标端口来提高速度，但存在过度拟合的风险。Tong等人[18]提出了一种基于CNN的加密网络流量分类方法该方法将业务分为两个阶段，包括基于流和基于分组的信息。类似的功能也被用于文件传输，语音通话，视频流，聊天和谷歌播放音乐的谷歌服务QUIC是由Google创建的传输层网络协议，它提供了与TLS相当的安全性，除了它不需要专门的服务器。这种方法交通流预测此外，未对获得的特征进行说明此外，基于流的特征的使用导致计算和分类时间增加。然而，将网络流分类为VPN加密还是非VPN加密的问题仍然没有解决.在本研究中，研究者采用集成学习方法来分类网络流为VPN或非VPN加密。该方法需要一个简单的设置，结果是可解释的。通过深度学习VPN和非VPN流量分析和分类，可以实现大型和小型数据集的快速收敛。拟议系统的完整说明如下：叠加法的模型是通过采用几种学习算法开发的堆叠方法创建组合器算法，该组合器算法被训练为使用已经使用基本算法做出的预测来做出最终预测。该组合器算法可以是任何集成方法，如图1所示[19]。基于物联网技术，Al-Qurabat等人[21]使用压缩和最小描述长度技术从传感器发送数据，以建立智能农业的远程监控系统。实验结果表明，该方法可以显著降低数据传输速度，实时监控的方式。中国在智能农业方面起步缓慢，基于物联网的智能农业仍处于早期阶段。Al-Qurabat和Kadhum[22]提出了一种基于差分编码（DE）和霍夫曼算法的轻量级无损压缩算法，该算法对于监控环境属性的物联网传感器节点特别有利他们没有开发新的自组织算法，而是证明了，给定要监测的特征的基本知识，可以利用传统的霍夫曼编码来成功地表达在不同时间和位置测量的相同属性。虽然提出的系统没有达到其理论最大值，温度测量表明，它击败了明确为无线传感器网络创建的标准方法。所有使用机器学习算法进行网络流量分类的作品都必须重新训练，以便在面对新的和多样化的数据时保持稳健。此外，大多数这样的努力选择应用程序或协议的子集来测试分类的可行性。因此，这种解决方案对于训练应用程序和协议是最有效的，提出了可扩展性和适应性问题。在流量分析的任何学科中，高误报率的问题是一个关键的障碍。不幸的是，由于近年来出现的巨大多样性和变化性图1.一、堆叠包围学习的概念图[20]。A. 阿尔莫马尼埃及信息学杂志23（2022）5760输入：列车数据产出：从总体E1.实施交叉验证以准备元分类器的训练集2.随机地将T分成“n”个相等大小的子集，Le。T=（T1，T2，T3. Tn）3.为学习基本分类器，即随机森林，神经网络和支持向量机（SVM）为从T或T学习分类器Pin，端4.为元分类器（逻辑回归）提取一个新实例（结束于5.端6.返回哪里从合奏构建一个能够覆盖整个区域的通用解决方案并不容易。因此，所提出的方法的主要关注点是使用包含不同VPN应用程序的数据集和集成来构建可扩展且强大的系统，以在一个系统中获得多个机器学习的性能。在本研究中，集成模型是使用来自不同类别的3个机器学习研究人员使用随机森林（R.F）从树类，神经网络作为计算机器学习（N.N），支持向量机（SVM）是统计机器学习。3. 拟议方法：增强机器学习技术，以提高当前模型的预测能力因此，元算法被应用于预测模型与简单的预测模型相反，这些模型具有识别异常的潜力，使其适用于网络入侵检测[23]。该系统在VPN和非VPN流量分析和分类方面具有很好的性能。因此，本研究提出一种结合集成学习自适应技术的VPN与非VPN流量分析与分类系统。图2示出了算法1，其包括用于在所提出的系统中实现堆叠集成学习的策略。同时，对基于堆叠集成学习的VPN和非VPN流量分析和分类系统进行了全面描述。 3.3.1. VPN和非VPN数据集研究人员进行了几次实验，评估所提出的系统，并将其与其他类似系统进行比较。VPN-Non-VPN数据集[11，24]被研究人员[25]等在许多实验中使用，用于本研究。研究人员利用英特尔（R）酷睿（T.M.）i7-8700 CPU @3.20 GHz3.19GHz，RAM32.0GB，Windows10 64位操作系统下进行实验.ISCXVPN2016数据集用于生成非VPN和VPN流量。研究人员在第一个表中列出了与VPN和非VPN流量类别相关的详细信息。研究人员还介绍了在产生网络流量的应用。有43，191条记录，如表2所示。同时，表1显示了加密应用程序的数据。表3列出了研究实验中使用的数据量信息3.2. 数据和特征预处理：数据清理阶段：从本实验中使用的包括约77个特征的完整数据集中，研究人员仅利用了六十一（61）个特征，因为剩余的十六（16）个特征包含许多NAN、空和零值记录。在现阶段：研究人员处理了缺失值，并将其替换为相应列的平均值。null和NaN值记录被删除，零列被删除。列，包括无限列（无值），都被删除了。3.3. 集成学习系统：本节描述了所提出的VPN和非VPN流量分析以及基于堆叠集成学习的分类系统。基于实证结果，集成学习表现出更好的性能时，集成模型之间存在显着差异。堆叠模型涉及多个学习阶段，集成学习方法是最流行的。因此，研究者提出了一个新的系统，它具有两个层次的结构，即一个基本模块和一个组合模块。它的目标是使用基本模块和组合模块。3.3.1. 基本模块基本模块涉及训练、测试和利用集合来测试和训练基本分类器。之后，决策将被转发到逻辑回归算法，以在第二级中做出决策。本研究解决了互联网上的VPN和非VPN流量问题检测这个问题与二元分类有关因此，本研究使用三（3）个基本分类器为所提出的系统创建一个基本模块后者的分类器涉及随机森林（R.F.）[33]、人工神经网络（ANN）[26]和支持向量网络图二、算法1作为在所提出的系统中实现堆叠包围学习的策略●●●A. 阿尔莫马尼埃及信息学杂志23（2022）5761我我J我图3. 基于堆叠包围学习的VPN与非VPN流量分析分类系统表1关于加密应用程序的详细信息。交通应用FTP FTPS、Skype和SFTP，聊天ICQ、AIM、Skype、Facebook和环聊音频Spotify视频Vimeo和YouTube电子邮件POP3S、IMAPS和SMTPS表2具体数据量。DARPA入侵检测数据集。这是因为ANN需要大量的训练数据。而支持向量机则可以用相对较少的数据表现出较高的性能。此外，SVM可以更快地执行执行过程。尽管如此，众所周知，SVM在二进制分类中表现出色。然而，当支持向量机与其他分类器相结合，它也可以显示出优越的多类分类。详情见图。五、人工神经网络（ANN）：ANN可以称为（神经网络），ANN包括一个神经元输入层和1，2或3个神经元隐藏层ANN还携带最后一层输出神经元。图6相应地显示了典型的架构。在图中，也显示了连接神经元的线。应当注意，每个连接包括名为（权重）的数字同时，隐藏层中的神经元I的输出hi如下所示：h¼dXNVijXjT隐藏ð1Þ解决二元分类问题。随机森林（R.F.）：随机森林可以用于分类响应变量，在参考文献[28]类似地，预测变量可以是分类的。它可能会继续。从计算的角度来看，随机森林被认为是有吸引力的。这是因为它们能够处理分类和回归。随机森林在预测方面相对于训练是快速的，并且仅依赖于他们拥有一个内置的泛化误差估计，可以直接用于解决高维问题。随机森林可以很容易地并行实现。从统计学的角度来看，随机森林被认为是有吸引力的。这是由于他们提供的额外功能。这些功能包括变量重要性的度量，以及差分类加权和可视化。它们还包括缺失值插补和离群值检测。它们也包括无监督学习[29]。详情见图。四、支持向量网络（SVM）是已知的分类器。该分类器可以对有限的样本集进行分类。但可以优化预测[31]。参考文献[32]中的研究人员证明，在进行基本安全模块（BSM）审计试验从上面的表达式：r（）被称为传递或激活函数，T_hid表示隐藏神经元的阈值项，V_ij是权重，N是输入神经元的数量，并且X_j是输入神经元的输入从激活函数中寻求的目标表示为将非线性引入神经网络以约束神经元的值，以确保发散神经元不会使神经网络瘫痪。详情见图。第六章堆叠模型的生成方法涉及交叉验证的使用。基于图2，研究人员选择了交叉验证K折方法。首先，将原始数据集划分为测试集D和训练集D。在执行K折交叉验证过程时，D序列被分成具有可比大小的K个不相交子集。应该注意的是，每个子集被称为折叠，并且子集试图保持与数据集被认为是原始的相同的类规模。交叉确认旨在在D训练上执行训练阶段，在D测试上执行测试阶段。研究人员选择了1个分类器Cn（1，. . ，N）为例。这里，N表示基本分类器的数量在训练阶段，研究者采用一个1子集作为验证集Dvalid，而其余子集作为训练集。将该程序重复（K）次。根据验证集上的预测结果，将它们连接到预测矩阵Pn（n = 1. . ，N）。的[27]第10段。所有的算法都被认为是足够的成功，交通聊天FTP电子邮件音频视频类VPN4476250156913,06011441非vpn65,52117955071329647582A. 阿尔莫马尼埃及信息学杂志23（2022）57622p2019-02 - 22表3详细信息[25].特征描述IP [Source IP，destination IP]Port [Source port，destination port]Protocol流的流持续时间流的持续时间数据包转发和反向的总数据包大小数据包长度数据包在前向和后向的大小有各种度量流包长度流包的长度包括流的最大值、最小值、平均值、标准差和变化流字节/秒每秒传输的字节数Flow packets/s每秒交换的数据包数每秒总数据包数（包括正向和反向数据包）数据包间IAT中的流量IAT（总计、最大值、最小值、平均值和标准差）反向IAT两个数据包在反向方向上经过的时间的总计、最大值、最小值、平均值和标准差标志在“向前、向后”方向上移动的数据包Flag count包含FIN、SYN、REQ、PSH、ACK、URG、CWE和ECE的数据包数量标题长度 * 用于反数的倒数平均包大小平均包容量段大小平均值当在“流、向前、向后”方向上观察时数据包/批量平均值一个方向内的前向和反向流量平均值散装率平均散装率在Subflow packets子流的“正向、反向”方向上的数据包计数子流字节数子流向前和向后移动的平均字节数Init win bytes在初始窗口中以“forward，backward”方向传输的字节数最小前向节段尺寸最小节段尺寸激活时间流激活空闲时间使流空闲所需图四、随机森林推理对于N树 = 3的简单分类示例[30]。研究人员在测试阶段应用Cn生成分类矩阵。在重复这个过程（K）次之后，他获得了（K）个分类矩阵，并按行对它们进行平均以生成矩阵An（n = 1，. . ，N）。应对N个分类器重复此程序。关于整体，矩阵的预测Pn将被组合成一组训练P。它们被平均以生成现代测试集（A），用于做出代表级别中的每个分类器的预测结果1.然后，将结果转发到二级Meta分类器.通过所提出的方法，折叠次数K为10。这就是真实数据集的大小。3.3.2. 通过逻辑回归（Meta分类器）组合模块-水平2：通过堆栈泛化，集成Logistic回归在统计学中，逻辑模型（或logit模型）用于模拟特定事件或类别的概率，如赢/输和通过/失败。Logistic回归（LR）：这是一个标准的概率和统计分类模型。它越来越多地应用于各个领域。这些领域包括市场营销，信息技术，和社会科学。另一方面，线性回归的结果对于所有样本总是相似的。在这方面，结果为阴性或阳性的概率将决定L.R.的成功。作为一种方法。因此，LR通常用于分类过程。更正式地，对于其标签表示为yi的样本xiRp，基于以下等式预测yi为正的概率：1yi11个电子-bTxiA. 阿尔莫马尼埃及信息学杂志23（2022）5763图五. 支持向量网络（SVM）[33]。见图6。神经网络[35].见图7。逻辑回归（Logistic Regression）[38]考虑到L.R.模型参数b.为了获得具有良好性能的参数，标记样本集合{（x1，y1），. . ，（xn，yn）}的学习L.R.参数b，其具有在训练样本上最大化的诱导似然函数[37]。尽管如此，结合水平策略将提高最终的分类能力。细节可以在图中看到。第七章研究人员在回归逻辑算法中使用了如下所示的参数。4. 实验结果在本节中，研究人员介绍了从3.1小节中描述的数据集获得的结果。结论和最重要的结果得到了适当的强调。研究者使用回归中使用的各种测量来评估基本方法和集合方案的性能水平。这些指标是：准确性、精密度、召回率、AUC、F1_Score，A. 阿尔莫马尼埃及信息学杂志23（2022）5764þN1我-我表4实验中使用的测量Number测量方程含义1精度2精度3召回jTPjjTNj jTPjjTNjjTPjjTNjjFPjjFNjjTPjjTNjjFPjjFNjjTPjTPjFNjjTPj jTPjjTPjFNjjTPjFNj正确预测正确的积极预测预测为阳性4AUC AUC（ROC曲线下面积）范围为0.1 - 1。AUC越接近1，性能越好。换句话说，如果AUC等于0.5，则分类随机执行。5F1_评分2评分：评分2评分：评分通过执行测试的精确度和召回率来计算测试准确度的度量6均方根误差（RMSE）或均方误差（MSE）精密齿轮rP。ﬃﬃyﬃﬃﬃﬃﬃﬃyﬃˇﬃﬃΣﬃﬃ2ﬃﬃi¼N产品展示零的残余标准误差（RMSE）表示模型输出精确地匹配针对给定数量的输入样本（n）、第i个真实输出（yi）和第i个框架输出（yi）所观察到的。然而：均方误差（MSE）用于评估回归问题mean_squared_error、假阴性率（FNR）和假阳性率（FPR）。详情见表4。这些措施在参考文献[39，40]中定义。实验方法分为以下几个步骤：1）对数据集进行预处理. 2)删除丢失和损坏的记录。 3)数据集被分为训练和测试。4)进行了实验，并对实验结果进行了估计。为了保证学习后神经网络代理的质量，采用K折交叉验证方法来估计分类器的错误率。在交叉验证中，数据集被随机分为N个样本，该评估被应用N次。每次选取N-1个样本进行训练，最后一个样本用于评估分类器的准确性。根据表5和图8，与其他人工智能相比，该研究提出的方法具有最佳的准确性。分类器方法，99.3%的准确率水平，而NN。= 30%，LG =95%，KNN = 97%，SVM = 96%，KNN = 97。此外，所提出的系统显示与其他测量方法（如精确度和召回率）相比，它的准确率约为99.3%。此外，与其他方法相比，所提出的方法显示出最低的错误率，MSE约为0.6%。在训练阶段的标准偏差表示所提出的系统的稳定性进一步的细节在下面的图9中示出。基于表5和图9，所提出的Encourage系统显示了最佳的标准偏差。这意味着与其他AI相比，该系统的稳定性最好。分类器方法，因为它实现了100%的稳定性。基于表6和图10，所提出的方法与其他A.I.分类器方法当NN =30%，LG = 95%，KNN = 97%，SVM = 96%，KNN = 97%。此外，所提出的系统显示出最好的结果与其他测量，如精确度和召回率，91%的准确率。此外，该系统具有最低的误差表5各种机器学习方法的分类结果-训练数据结果。方法精度AUC均方误差NN0.3020 ± 0.00110.5310 ± 0.00220.6980 ± 0.0011LG0.9538 ± 0.00090.8087 ± 0.00620.0462 ± 0.0009KNN0.9765 ± 0.00060.9919 ± 0.00020.0235 ± 0.0006SVM0.9574 ± 0.00050.8555 ± 0.01450.0426 ± 0.0005拟议的包围模式0.99314 ± 0.000540.999998 ± 0.0000020.006859 ± 0.000543图八、训练分类-基于人工智能的平均结果分类器方法与建议的Encriminator系统的比较A. 阿尔莫马尼埃及信息学杂志23（2022）5765图第九章培训分类分类器方法与建议的包围系统的比较表6各种机器学习方法的分类结果-测试数据结果。方法精度精度召回AUCF1得分均方误差NN0.3020 ± 0.01030.0663 ± 0.00440.5318 ± 0.01930.5314 ± 0.01950.3020 ± 0.01030.6980 ± 0.0103LG0.9536 ± 0.00470.6389 ± 0.04830.7744 ± 0.02450.8082 ± 0.03090.9536 ± 0.00470.0464 ± 0.0047KNN0.9685 ± 0.00340.8026 ± 0.04160.8189 ± 0.01860.9141 ± 0.01580.9685 ± 0.00340.0315 ± 0.0034SVM0.9571 ± 0.00400.6794 ± 0.04000.7766 ± 0.02160.8400 ± 0.03180.9571 ± 0.00400.0429 ± 0.0040拟议的包围模式0.98876 ± 0.001740.98720 ± 0.011960.91356 ± 0.015540.97769 ± 0.007230.98876 ± 0.001740.01124 ± 0.00174图10. 训练分类-基于人工智能的平均结果分类器方法与建议的Encriminator系统的比较与其他方法相比，MSE = 1%。测试阶段的标准偏差表明，拟议的系统为了测量检测阶段结果的稳定性，估计了交叉验证倍数结果之间的标准差如表6所示，所提出的方法实现了ACC、F分数、回忆和AUC的最低标准差，分别为0.0017、0.0017、0.015和0.007。基于图11，所提出的包围系统显示出最佳的标准偏差。这意味着与其他AI相比，所提出的系统的稳定性是最好的。分类器方法，具有约100%的稳定性。表7介绍了基于测试实验的混淆矩阵。最后一层的选择机器学习和肉类分类器增加了所建议方法的复杂性。选择一个具有最小复杂度和广泛的基分类器是至关重要的。基于以上两个思想，我们考虑随机森林（RF），神经网络（NN）和支持向量机（SVM）作为基分类器（SVM）。表8比较了我们提出的方法的构建时间（训练时间）在我们的实验中，LG算法与其他机器学习相比取得了最佳的训练时间然而，最大时间是基于集成模型，由于它与几个机器学习相结合然而，所提出的模型实现了一个长的训练时间，但这种方法实现了高性能的所有评估矩阵。A. 阿尔莫马尼埃及信息学杂志23（2022）5766-≤图十一岁基于A.I.的标准差结果分类器方法与建议的包围系统进行比较表7不同机器学习方法混淆矩阵的结果（测试阶段）。合奏SVM真阳性真阴性真阳性真阴性预测的肯定21,530499预测的肯定21,233520预测阴性KNN220真阳性20,941NN真阴性预测阴性517真阳性20,921真阴性预测的肯定21,130820预测的肯定815014,400预测阴性LG620真阳性20,621真阴性预测阴性13,6007041预测的肯定21,140810预测阴性61020,631在我们的实验中，使用10倍交叉验证来估计分类器的性能。实验结果表明，本文提出的集成模型比单个ML分类器具有更好的分类性能.然而，为了确定不同模型预测之间的差异是否具有统计学显著性，我们使用Wil coxon符号秩检验来确保所提出的集成模型和每个机器学习分类器之间的统计差异。因此，我们执行单尾假设检验。零表8训练时间比较。方法列车时间NN 91秒LG 70秒KNN 144秒SVM 156秒建议的Encourage模型356秒假设：“两种检测方法具有相同的准确度性能”。如果p-v值≥0：05，则接受零假设。如果p值为0： 05，则null假设将在95% 的置信水平下被拒绝。表 9估计了准确度指标的Wilcoxon统计结果基于实验结果，我们可以得出结论，SVM和KNN之间没有显著的统计差异，这意味着它们在分类VPN网络流量方面具有相同的性能。然而，当将Entrance模型与机器学习分类器进行比较时，我们发现它们之间存在显着差异，而p值0.05的平均值可以拒绝H0。表10显示了我们的结果与基于网络流量分析的其他公开工作的结果的比较结果，该表还表明，所提出的方法的准确率优于以前的解决方案。此外，由于其简单的设计，我们的解决方案可以识别VPN流量与照明系统和低复杂性的性能。表9机器学习准确度测量的P值比较（训练阶段）。NN SVM LG KNNNNSVM p ≤0.05LG p≤0.05 p ≥ 0.05KNN p≤ 0.05 p≥0.05 p ≤ 0.05建议方法p≤ 0.05 p≤ 0.05 p≤0.05 p ≤ 0.05表10与基于相同数据集的其他已发表工作的比较纸张结果ACC（%）技术Draper-Gil等人[11]92 ACC决策树，KNNLotfollahi等人[41]美国有线电视新闻网ACC 86.5，SAEWang等人[5]94 ACC CNN-1DIzadi等人[42]97融合（CNN，DBN，MLP）我们提出的集成方法98堆叠集合A. 阿尔莫马尼埃及信息学杂志23（2022）57675. 结论研究人员提出了一个VPN和非VPN流量分析和分类系统，基于新的机器学习分类器技术，称为堆叠集成学习，首次用于VPN和非VPN攻击问题。包围学习允许组合由若干学习机制做出的预测以增加预测的准确性研究人员采用了集成学习堆叠方案，涉及使用2个级别的学习技术。由第一级技术做出的预测被传递到顶层技术，顶层技术将它们结合起来产生最终的预测。研究人员采用了3种基于学习的方法，即神经网络，随机森林和支持向量机，这些方法被顶级技术用于基于Meta分类器进行最终预测，如逻辑回归。利用历史数据进行预测。应用了各种测量方法，如准确度、精密度和RMSE。比较了集成技术和单一技术的结果。从集合方案的预测优于那些从其他技术。所提出的方法证明了其能够有效地检测未知和已知的威胁，在训练阶段的准确率超过99%，在测试阶段的准确率为99%。然而，我们研究的主要局限性由于性能和隐私要求而不能执行深度分组检查。在未来的研究中，研究者将研究其他集成方案，通过使用几种方法，包括那些基于S.P.理论的智能和那些基于支持向量机。将使用其他数据库和攻击类型测试所提出的系统的有效性。竞争利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作。确认本出版物中报告的研究得到了约旦Al-Balqa应用大学的支持，批准号：DSR-2021#398参考资料。[1] Bagui S，Fang X，Kalaimannan E，Bagui SC，Sheehan J.使用时间相关特征对VPN网络流量流进行分类的机器学习算法的比较。网络安全技术杂志 2017;1（2）：108-26。[2] 曹志，熊刚，赵勇，李志，郭磊.在：加密流量分类的调查.施普林格; 2014年。p. 73比81[3] Y. Bengio，17-36：JMLR研讨会和会议记录。[4] 王伟，朱明，曾晓，叶晓，盛英。在：使用卷积神经网络进行表示学习的恶意软件流量分类。IEEE; 2017. p. 712- 7[5] 王伟，朱明，王杰，曾晓，杨志。In：使用一维卷积神经网络进行端到端加密流量分类。 IEEE; 2017. p. 43比8[6] McGaughey D，Semeniuk T，Smith R，Knight S.在：加密网络流量分类的特征选择的系统方法。IEEE; 2018. p. 一比八[7] Salman O，Elhajj IH，Chehab A，Kayssi A. In：使用深度学习的多级互联网流量分类器。IEEE; 2018.p. 68比75[8] [10]杨文辉，李文辉，李文辉. Deep packet：A novelapproach for encryptedtraffic classification using deep learning.软计算2020;24（3）：1999-2012。[9] 崔S，姜B，蔡Z，陆Z，刘S，刘J.在：基于会话包的加密流量分类使用胶囊神经网络。IEEE; 2019. p. 429- 36[10] T. C. Obasi，[11] Draper-Gil G，Lashkari AH，Mamun MSI，Ghorbani AA.使用时间相关的加密和vpn流量的特性。第二届信息系统安全与隐私国际会议（ICISSP）。p. 40

下载后可阅读完整内容，剩余1页未读，立即下载