暗网传输的特征化和分类：决策树和神经网络的方法研究

97 浏览量更新于2023-12-10 收藏 1.2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

*智能系统与应用18（2023）200199暗网传输检测和表征与基于决策树和神经网络放大图片作者：Mateus Coutinho Marima，Paulo Vitor Barbosa Ramosa，Alex B.维埃拉a，安东尼奥·加莱塔b，放大图片作者：Roberto M. de Oliveiraa，Edelberto Franco Silvaa，巴西MG Juiz de Fora Juiz de Fora联邦大学计算机科学系计算机科学研究生课程b墨西拿大学，工业和贸易部，Viale F。StagnoA R T I C L E I N F O A B S T R A C T保留字：Darknet安全DeepWeb神经网络基准暗网是一套网络和技术，具有匿名和安全的基本原则。在许多情况下，它们与非法活动有关，为恶意软件交易和攻击合法服务打开了空间。为了防止Darknet滥用，有必要对其现有流量进行分类和特征化。本文主要对CIC-Darknet 2020数据集中的真实Darknet Traffic进行表征和分类。从这个意义上说，我们执行了特征提取，并使用n-gram方法对可能的错误进行了分组。此外，我们评估了递归特征消除方法选择的最佳特征的相关性。我们的研究结果表明，简单的模型，如决策树和随机森林，在交易分类上达到99%以上的准确率。与最先进的方法相比，我们的方法可获得高达13%的收益。1. 介绍互联网呈现多元化的利基市场，按服务的可用性及匿名程度划分其中一个互联网层是Surface Web，这个简化的部分是搜索索引器广泛使用的部分，也是寻找所谓的公共服务和应用程序的用户常用的部分。深网，一个通常被“加密”的集合，被那些寻找特殊服务的人所这一套有其原则的基础上不断变化的主机和建立- ing连接通过安全的对等点，对等（P2P）。暗网是扩展这些原则并进一步限制对等连接的深网的子集（Mirea等人，2019年）。Darknet展示了最高级别的安全技术，确保团体和服务提供者的匿名性，维护关系所涉主体的身份。例子包括在黑市上销售产品、协商服务和交换信息。虽然这些都是一些非法的活动，但Darknet展示了一个基于共享数字内容。一般而言，暗网的目标是在对等点之间进行安全通信，保持其交互的机密性和完整性，并保持匿名共享的性质。有了这一点，Darknet成为任何个人建立活动的安全存储库，无论其性质如何，确保了可追溯性的优势。由于来自暗网的这些属性被高度用于恶意目的，来自暗网的恶意传输对于计算机网络是潜在危险的。因此，在这些加密情况下，对传输源进行分类和对应用程序类型进行分类是防止暗网传输造成损害的一种方法，也是研究传输分类问题的目标之一。确定分析数据传输的某些类别的目的，即检查连接持续时间模式、关于此数据的来源和目的地的信息、连接的端口以及与所分析的数据流相关的应用程序类型对于许多安全应用程序都是有用的。例如，在入侵检测中，服务质量管理可扩展性，防止恶意软件的传播或（Parchekani等人）服务攻击文献中可用的方法各不相同，这项工作得到了部长会议主席团药物政策司（意大利政府）通过InstradaME项目（CUP F49 I20000100001）和2014-2020年国家大城市行动方案（PON METRO）通过MeSm@rt项目（CUP F41 I18000230006）的部分支持。通讯作者。电子邮件地址：angalletta@unime.it（A. Galletta），mvillari@unime.it（M. Villari），edelberto@ice.ufjf.br（R.M. de Oliveira）。https://doi.org/10.1016/j.iswa.2023.200199接收日期：2022年9月13日;接收日期：2022年12月26日;接受日期：2023年在线预订2023年2667-3053/© 2023作者。由Elsevier Ltd.发布。这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect智能系统及其应用杂志主页：www.journals.elsevier.com/intelligent-systems-with-applicationsM. Coutinho Marim，P.V.B.拉莫斯，A.B. Vieira等人智能系统与应用18（2023）2001992可以链接到端口和有效载荷的分析或插入统计推断来对分析中的记录进行分类（Medeiros等人，2019年）。使用深度学习（DL）（例如深度图像学习（Gurdip Kaur Habibi Lashkari，2020））可以找到一些方法来检测和表征暗网流量，使用传统机器学习技术可以从同一集合中识别流量。这表明，国家的最先进的正在开发的复杂系统，但仍然有必要进行研究，评估效率更简单的模型。在这方面，目前的工作使用代表性数据库 -CIC-Darknet 2020（Gurdip Kaur Habibi Lashkari，2020）来解决Darknet的我们工作的主要贡献和结果可以总结如下：• 在Darknet中的交易分类领域实现更高性能的机器学习模型，关注度提高高达13%- 此外，我们已经表明，复杂的模型并不总是必要的解决任务;• 显示的重要性，仔细分析和预处理的属性，以确定如何数据质量可以提高，因此，与他们创建的模型的性能• 通过对现有领域的分析，创建了新的特征，旨在实现最佳的交通来源检测和应用程序的表征性能;• 我们分析了使用决策树（DT）、随机森林（RF）和多层感知器（MLP）创建的模型的结果验证它们在提出的问题中的适用性，并通过McNemar统计检验对它们进行比较，以确定它们之间是否存在统计上的显著差异• 最后，我们还执行了一个特征选择过程与al-tax递归特征消除，以分析特征的验证结果表明，仅使用30个属性的传输源分类任务的准确率为99.89%。对于具有50个属性的应用程序分类任务，结果准确率为98.62%，表明移除这些特征的重要部分不会影响整体性能。本文的其余部分结构如下：第2节讨论了使用不同方法进行跨类分类的相关工作。第3节描述了用于分类和表征Darknet上的交易的数据集，并描述了我们为提高模型训练中使用的数据质量而采取的预处理步骤。此外，我们还描述了提取的属性的基础上存在的数据集。DT、RF和MLP模型的创建和性能分析在第4节中描述。此外，我们还通过估计它们的性能并将其与第5节中的统计测试进行比较来执行模型选择，并且我们执行特征选择以分析属性在事务分类任务中的重要性。最后，本文的结论和未来的工作在第6节。2. 相关工作在展示对传输分类问题的不同解决方案之前，有必要理解该问题的定义，该问题包括使用发送者和接收者之间的传输数据来对所使用的应用程序进行分类和归类。主要挑战之一是使用加密数据来执行此任务，这是在新不伦瑞克大学提供的两个数据库ISCXVPN 2016（Draper-Gil等人， 2016）和ISCXTor2016（Lashkari等人， 2017年，其中，此外，使用虚拟专用网络（VPN）和洋葱路由器（Tor）通过网络提供流量。1其他相关作品，如（Bovenzi1https://www.torproject.org/。例如，2020）和（Montieri等人，2020），可以引用，重点是隐私保护和交易分类之间的相关性。最近，在Gurdip Kaur和Habibi Lashkari（2020）发表的工作中，提供了一个数据库，该数据库是上述其他两个数据库的联合，称为CIC-Darknet 2020。这项工作分别对Surface Web和Darknet的应用程序进行了分类，它们被定义为良性起源和Darknet。在这种情况下，暗网交易是用VPN和Tor加密的。除了发布数据库外，作者还提出了92%的准确率，用于识别交通来源，并使用深度神经网络对其分类模型进行分类，使用称为深度图像学习的技术。值得注意的是，尽管数据库提供了有关传输源和目的地Internet协议（IP）的信息这是因为通过Tor的流量通过中间网络来隐藏用户的真实位置。至于来自VPN的流量，由于它们是假IP或假IP，因此无法检测到来源。在Draper-Gil et al.（2016）中，作者通过使用神经网络，分两个阶段在数据集ISCXVPN 2016上对通过VPN进行的交易进行了分类。首先，使用MLP作为激活函数- 第二阶段，一个递归神经网络来识别数据集使用的六个类。建立两个应用程序分类场景，作者使用K-最近邻（KNN）和C4.5 DT模型的任务。其测量精度在80%以上，尤其是C4.5，其测量精度更高在Lotfollahi et al.（2020）中，使用相同的数据集，作者提出了用于传输分类问题的Deep Packet框架方法。该框架包括两种深度学习方法，卷积神经网络和自动编码器，用于分类和表征任务。准确度和精密度均在90%以上，为解决该问题的其他方法提供了有力的支持。在Crotti等人（2007年）的研究中，作者提出了通过使用端口解决分类问题的替代方法，不推荐使用端口，因为端口的分类率较低，有效载荷检查和使用统计方法。它证明了超文本传输协议（HTTP），邮政服务协议（POP3）和简单邮件传输协议分类的准确性约为91%。fer协议（SMTP）协议和87%的文件传输协议（FTP），互联网消息访问协议（IMAP），安全外壳（SSH）和TEL-NET协议（TELNET）。Lotfollahi等人的作品，2020）和（Draper-Gil等人，2016年），尽管它们有助于通过traffic对应用进行分类，但并不关注来自Darknet的数据。Gurdip Kaur和Habibi Lashkari（2020）在两个层面上解决了深度学习的分类问题，第一个与来源分类有关，第二个与来自Darknet的trac有关，检查数据集的属性对排名最重要。即使准确率达到86%，对于这个问题，作者没有将其与更简单的分类模型进行比较。与上述工作不同，我们的建议使用简单且易于应用的模型，如DT，RF和MLP，以便将交易源分类模型的结果与Darknet数据应用的分类进行比较。此外，我们通过比较模型来验证创建新属性的影响，以验证性能是否存在显著差异。通过这种比较，所使用的模型虽然简单，但与最先进的深度学习模型不同，其结果接近100%的整体准确度。 dip Kaur和Habibi Lashkari（2020）被选为实现拟议目标，扩展了新功能，插入了源和目的IP地址的信息，将它们划分为n-gram（Wress-M. Coutinho Marim，P.V.B.拉莫斯，A.B. Vieira等人智能系统与应用18（2023）2001993表1相关工作总结。提案数据集属性ML/DLAcc.Gurdip Kaur和Habibi Lashkari（2020）CIC-Darknet2020VPN，Tor深度图像学习百分之八十六Draper-Gil等人（2016年）ISCXVPN 2016VPNMLP、KNN、C4.5百分之八十Lotfollahi等人（2020年）ISCXVPN 2016所有CNN + AutoEnconder百分之九十Crotti等人（二零零七年）CIC-Darknet2020HTTP，POP3，SMTP，FTP，IMAP，SSH，TELNET统计百分之九十一这项工作CIC-Darknet2020所有+n-gramsDT、RF、MLP九十九点八九Negger等人，2013），并操纵原始记录。[2]这些变化和比较使基本主题和突出主题都发生了演变（表1）。3. 数据集和方法3.1. 数据集CIC-Darknet 2020数据集用于开发分类模型。它具有来自表面网络以及来自数据集 ISCXTor2016 和 ISCXVPN2016 （ Gurdip KaurHabibi Lashkari，2020）的流量记录，分别包含Tor和VPN流量数据。CIC-Darknet 2020将来自Tor和VPN网络的数据视为Darknet传输。数据集建立了两个与传输分类问题相关的分类任务。第一个任务是traffic 的起源检测，其中类别是Benign （代表表面web traffic）和Darknet。图1示出了关于交通起源的数据分布。另一个任务是在8个标签中的字符串。这些标签是发起交易的应用程序，它们是：浏览，电子邮件，聊天，音频流，视频流，文件传输，VoIP（IP语音）和P2P（点对点）。该数据集具有各种分析字段，提供有关源和目的地IP，端口，数据包传输持续时间和其他相关措施的信息。有141.528条记录，其中24.310条来自暗网，117.218条来自良性网络。这一比例差异来自暗网上找到的服务没有被搜索引擎索引的事实此外，他们需要特殊的应用程序，如Tor，才能访问它们（Gurdip Kaur Habibi Lashkari，2020）。图2示出了发起交易的应用的分布。很明显，流媒体，音频和聊天应用程序是来自Darknet的数据最常见的，而对于良性网络，它们是少数。3.2. 数据准备基于数据的模型的性能在很大程度上取决于创建过程中使用的数据的质量。当使用来自现实世界的大型数据集时，这一挑战会增加，由于数据丢失，不一致，通常会出现与质量相关的问题。现实世界中数据集质量低的原因有几个，这可能是由于人为或计算机错误，提交的数据不正确造成的此外，还可能出现其他问题。数据预处理技术旨在提高数据质量，并可能提高后续处理的效率（Han例如，2011年）。以下小节介绍了本文中应用的预处理技术，以提高机器学习模型在暗网交易检测和特征化任务中的学习效率和准确性。2CIC-Darknet 2020互联网交易数据集（Gurdip Kaur Habibi Lashkari，2020）记录了由交易ID及其属性表示的双向交易，例如，IP地址，源端口。图1.一、按数据源分布。3.2.1. 标签校正数据集在两种标签类型上都提供了重复的标签。通过标签检查，可以观察到标签名称缺乏标准化和冗余。为了解决这个问题，我们通过选择其中一个重复来标准化名称。例如，标签为AUDIO-STREAMING（大写字母）的记录被Audio-Streaming取代。3.2.2. 特征编码大多数机器学习模型只适用于数字数据。然而，数据集经常包含分类变量，顾名思义，表示类别或标签.与数值变量不同，分类变量的大小不能排序;也就是说，它的大小与所讨论的任务无关。类别通常不是数字;因此，有必要应用编码方法将它们转换为数字。其中一种可能性是从每个类别到整数的简单映射;然而，结果数字可以在它们之间排序，这对于类别值来说是不可取的（Zheng Casari，2018）。子网相对于另一个子网的值与问题无关，因此与数据集上的IP地址对应的要素就是示例分类变量。因为子网的值并不一定指示流量的来源或其生成应用程序。n-gram模型的概念采用更通用的映射来解决IP地址编码问题。最初，这些模型被提出用于自然语言处理，并且目前是许多检测系统中的主要表示（Wressnegger等人，2013年）。n-gram模型的一个可能的应用是IP地址的直接RFC 950（Mogul等人，1985）定义了一个用于互联网地址的3级解释模型，其中最高级别代表整个互联网，下面的级别是单独的网络，最后一级代表对属于中等规模组织的网络有用的地址。因此，这些IP地址解释级别中的每一个都可以利用一元模型、二元模型和三元模型来表示，以尝试捕获源的传输子网。M. Coutinho Marim，P.V.B.拉莫斯，A.B. Vieira等人智能系统与应用18（2023）2001994图二、与服务相关的流量发生概率。表2以IP地址划分为例。图3.第三章。使用One Hot Encoding进行特征编码。为了达到这个目的，我们对所有特征应用了标准缩放方法。该技术的工作原理是从值和比例中减去特征均值，IP Unigram Bigram Trigram172.168.15.14172172 168172 168 15182.170.224.79182170 224182 170 224表2以gram为单位对IP地址进行了划分，使我们能够观察到该过程与子网掩码用于子网标识的过程是如何相似的，但是，由于我们无法访问子网掩码，因此我们将gram用于每个可能的解释级别。有了这些新的属性，机器学习模型就能够学习一种交通类型的最常见的前缀或前缀，作为新交通预测的一条相关信息。第一种编码应用于从IP地址创建的一元组、二元组和三元组。我们使用散列编码技术创建了100个新的特征，这些特征的名称以前缀后缀_命名，后跟由该方法生成的属性ID。如Weinberger等人（2009）所指出的，散列编码技术使得能够针对一个热编码进行属性编码。一种热编码通过将每个类别变换成指示该类别是否属于对应数据集示例的新的二进制特征来进行分类特征编码，如图3所示。这可能会导致大量的新特性，这取决于分类变量上唯一类别的数量。另一方面，散列编码的缺点是，新的特征不能被容易地解释，因为生成的特征不能被映射回它们的原始值。此外，由于我们可以从网络地址中提取原籍国，因此在应用序数编码转换后，将此信息用作模型训练的特征。应用于数据的最重要的转换之一是特征缩放。通常，很少有机器学习模型具有良好的性能，具有不同尺度的特征。因此有必要将特征值转换为具有相同的数值范围。为此对它们进行分析，因此特征具有单一方差（Zheng Casari，2018）。3.2.3. 特征提取该数据集提供有关起点和终点的信息IP地址，从而能够提取更多与网络流量相关的特征。其中一种可能性是应用独热编码。然而，使用n-gram可以帮助降低预测的误报百分比。因此，使用IP地址扩展数据集，将其分割为一元组、二元组和三元组。此外，在IpInfo库的帮助下，还使用了来自托管，地理位置和boklets（虚假地址）的信息。提取的另一个特征是从传输时间戳开始传输数据捕获的时间。图4显示了与使用TCPDump和Wireshark的传输源相关的两个标签的捕获时间之间的关系。可以验证每个标签的传输生成行为中发生了两种不同的模式，可以观察到传输时间上的这些模式可以由学习阶段的模型使用，使传输时间成为传输分类的相关特征。除了可以看到时间表区别之外，这种时间关系还允许看到何时存在每个网络的高利用概率。对于良性网络，可以观察到上午7点到12点之间的高交通密度，黎明时有一些高峰。在暗网流量侧，流量分布较稀疏，黎明时有一个高利用率峰值，下午有两个较小的峰值。这些关系几乎是一个排他性的析取;也就是说，在良性网络的同时，在暗网上没有高传输率的概率是相当大的，这使得这些模式分类模型的学习更加顺畅。M. Coutinho Marim，P.V.B.拉莫斯，A.B. Vieira等人智能系统与应用18（2023）2001995+++见图4。在给定的时间内的密度。��=��（二）• F-score：可以看作是查准率和查全率的加权平均值。它在1时达到最佳值，在0时达到最差值。查准率和查全率对F分数的贡献是相同的��−��（三）图五、k = 5时的K倍图（Fedotenkova，2016）。3.3. 模型评估随着各种分类模型的可用，需要度量来评估它们在给定任务中的性能，以便可以选择最佳模型。这个过程称为模型选择。精度评估的两种常用方法是保持法和随机二次抽样法。holdout方法的工作原理是随机划分两个独立的集，即训练集和测试集，准确度定义为测试集上的命中数。随机子采样类似于holdout方法，但holdout方法重复k次，精度是每次迭代中获得的精度的平均值（Han等人，2011年）。为了估计模型的准确性，使用分层k折交叉验证，其中k折= 10。该方法将数据分为k组，每组大小和分布近似相等，其中第一个折叠数用作验证集，该方法在剩余的1/2- 1折叠数上进行训练。与holdout和随机子采样方法不同，这里，每个样本用于训练的次数相同，用于测试的次数相同k倍精度定义为所有训练和验证对组合的平均精度;图5说明了该过程。精确度，召回率和F分数（Géron，2019）被用作两个分类任务的指标。下面列出了所使用的评估指标的方程，其中TP、TN、FP和FN分别是真阳性、真阴性、假阳性和假阴性的分类• 精确度：可以被认为是准确性的衡量标准，即，被标记为积极的例子的百分比实际上是这样的;解决模型选择问题的方法之一是使用k-折叠选择具有较少误差的模型。然而，k倍仅提供未来数据的实际总体中的误差的估计。虽然它们之间的模型误差似乎不同，但这种差异可能在统计上并不显著。为了确定误差的差异是否意味着它在统计上是显著的，我们需要使用统计显著性检验。因此，我们可以说，平均值不能在未来样本的置信区间之外变化（Han等人，2011年）。统计检验的选择必须谨慎，以避免对模型的误解。在（Dietterich，1998）中，将五种常用的统计检验与确定具有最小I型误差的检验的目标进行了比较，也就是说，当差异不存在时，检测差异的概率最小的检验。作者得出结论，对于只能执行一次的算法，建议使用McNemar测试。然而，对于可以执行10次的算法，他们建议使用5X 2 cv测试（交叉验证），因为它具有最小的I类错误。4. 评价评估模型基于决策树和一个简单的神经网络，由于其简单性和易于解释。此外，本集团根据属性对分类的影响进行特征选择，以估计属性的重要性。接下来，对所选模型（Géron，2019）进行简要描述。• 决策树（DT）：非参数监督学习模型，可用于分类和回归。它通过学习从数据中推断出的简单决策规则来预测目标变量。它们是易于理解和解释的简单模型，生成的树可以可视化。决策树的一些优点是：易于理解和解释，并且可以可视化。不需要数据标准化或数据准备的艰苦工作。它的成本是用于训练树的数据点数量的对数。此外，它被认为是容易解释和解释的布尔逻辑支持的白盒X模型。然而，决策树的缺点包括以下几点：DT可以创建过于复杂的树，这些树不能概括��=��（一）数据好。这就叫做过度拟合。它可能是不稳定的，考虑到数据中的微小变化可能会导致完全• 回忆：是一种完整性的度量，即，阳性样本的百分比，与灵敏度相同生成不同的树。顺便说一句，这是可能的miti门几乎所有这些问题.图6表示DT为绿色M. Coutinho Marim，P.V.B.拉莫斯，A.B. Vieira等人智能系统与应用18（2023）2001996图第六章DT模型的典型架构。基于布尔逻辑的决策树算法选择节点。DT使用了熵的概念，其中的熵+是一个正类的概率，与训练样本子集中一个负类的概率相反，这可以在以下公式中看到：熵（+）= −熵（+） −熵（-）。��• 随机森林（RF）：是一种集成模型，使用DT作为弱分类器，以生成鲁棒的分类器。RF使用Bagging技术训练每个DT，以生成性能优于其单个组件的分类器。在计算智能解决方案中，RF经常被用作它们在需要修剪配置的情况下，在广泛的数据范围内生成合理的预测。然而，RF通常比DT更复杂。在这种情况下，RF是用更多数据进行更广泛实验的一种很好的方法，甚至失去了DT所提供的舒适的模型可解释性。图7示出了用于创建RF模型的一组DT• 多层感知器（MLP）：是一类前馈人工神经网络（ANN）。它由一个输入层，一个或多个感知器层（也称为隐藏层）和一个负责最终分类的输出层组成。除了输入层，每个MLP节点都是一个感知器模型和一个非线性激活函数。图8示出了MLP的架构。它的优点是自适应学习，大量的可能的应用程序，并不假设潜在的概率密度函数或其他概率信息的模式类相比，其他基于概率的模型。但是，它的缺点可以通过具有非凸损失函数的隐藏层来提及，其中存在多个局部最小值。因此，不同的随机权重初始化可能导致不同的验证精度，并需要调整多个超参数，如隐藏神经元、层和迭代。总之，MLP对特征缩放敏感。记住，MLP可以是任何问题的良好神经网络，主要是时间序列。然而，所使用的模型的缺点是它们不能在线训练。换句话说，它们不能从新的示例中学习，除非模型使用所有以前的数据和新的示例进行重新训练。所有实验都是使用Python编程语言的sklearn库在具有4个2.5GHz内核的Intel Core i5- 7200 U处理器、20 GB RAM和Ubuntu的计算机上完成的。20.04操作系统。每个模型都是在保持sklearn定义的默认参数的情况下进行训练的。4.1. 暗网传输检测图9a、9b和9c对应于DT、RF和MLP模。因此，有可能在以下任务中观察模型混淆矩阵：表3模型评估指标总结。精度召回F-score10倍DT0.99640.99710.9967九十九点八九RF0.99870.99470.9967百分之九十九点九MLP0.99920.99150.9953九十九点八四表4混淆矩阵X标签。首字母标签首字母标签作为音频流PP2pB浏览FT文件传输VS视频流C聊天VVoIPE电子邮件trac检测可以观察到，对于这两个类，它们中的绝大多数都被正确地分类。通过图9的混淆矩阵可以看出，对于暗网类别，有0.45%的百分比被错误地归类为良性，而对于相反的情况，则为0.02%。在正确检测暗网流量更重要的应用中，MLP是最合适的，因为它在分析的模型中具有较低的误报表3总结了在标签Benign和Darknet之间的分类中每个模型的度量值，其中粗体的值是模型之间比较获得的最佳结果。此外，该模型在10倍和良好的泛化方面达到了99.89%的准确率，因此比文献更好，其中Gur-dip Kaur和Habibi Lashkari（2020）在10倍和良好的泛化方面达到了94%的准确率。暗网入侵的检测4.2. 暗网传输特性图图11以极坐标列出了精确度、召回率、F分数的补充值，以及DT模型的分类误差，分别为RF和MLP，用于传输特性。这些指标的补充，提供更好的可视化。可以验证只有类Browsing与度量的最大值之间的距离不一致此外，在所有模型中，DT在所有指标上的结果最好，而MLP和RF在更多标签上的值较差，除了浏览之外，RF在视频流方面的结果也较差，而MLP在P2P，电子邮件，视频流和浏览标签上的结果较差混淆矩阵图。10a、10b和10c，分别对应于DT、RF和MLP，并且行和列的首字母缩写对应于表4标签，很明显，常见错误与带有聊天和音频流标签的传输相关，这可能表明与这些标签对应的传输中存在一些相似性，这可能导致模型中的混淆。图11d显示了模型在与流量相关的每种服务类型的分类中获得的误差，很明显，获得更多显著分类误差的类是数据集中最少的类。RF和MLP衰减这些类的错误。因此，它们是更适合于训练分类的模型，假设新示例的添加遵循相同的训练集概率分布，并且对应于这些标签的训练对于模型的应用并不重要。我们得到了一个小的分类错误， DT甚至在代表性较低的班级中。因此，Gurdip Kaur和Habibi Lashkari（2020）使用深度学习提出的模型获得了86%的总体准确率，而DT模型的准确率为99.03%。考虑到这一点，我们实现了13.03%的改进，这可能表明暗网交易的特征化问题得到了更好的解决M. Coutinho Marim，P.V.B.拉莫斯，A.B. Vieira等人智能系统与应用18（2023）2001997见图7。RF模型的典型架构。表510-10-用于暗网传输检测和表征的倍估计精度。DTRFMLP检测99.90599.90799.837表征99.15498.75497.731表6用于trac检测和表征模型比较的p值。DT与RFDT vs MLPMLP vs RF检测0.0950.2860.389表征0.01300.001图八、MLP模型的典型架构（Géron，2019）。具有更简单和更易于解释的模型，而不需要求助于更复杂的模型，这需要更多的计算资源。然而，在需要随着新示例的到来而更新模型的应用中，MLP是最合适的模型，因为它是唯一的一个允许在线学习的平台。5. 评价5.1. 模型评估由于本文训练的模型可以运行10次，因此我们选择5X 2 cv作为模型选择的测试。在5X 2 cv中，有5个交叉验证的执行，具有2倍。在每次执行中，数据被随机划分为两组大小大致相等的数据集，其中每个模型在一组上进行训练，并在另一组上进行测试。Af-在生成结果之后，进行配对学生表5总结了所有模型在交通检测和表征任务中的10-10倍估计准确度。准确度估计为所有10次运行中获得的准确度的平均值。正如可以观察到的那样，所有模型都获得了非常相似的交通检测结果。在表征方面，决策树比随机森林和多层感知器有更好的结果。然而，尽管在这方面存在着明显的差异，为了评估模型的性能，有必要运行5X 2 cv，以查看这些结果是否具有统计学意义。图图12a和12b总结了模型在BOX图中暗网传输的检测和表征任务中的准确性。很明显，在两个分类任务中，DT都获得了更好的结果。我们还观察到，MLP的估计值方差大于其他模型。为验证模型准确性估计的差异是否具有统计学意义，我们进行了统计检验。作为统计检验的零假设，我们认为模型没有显著差异。我们还假设统计检验结果的置信度为95%。如果p值小于如果假设阈值为0.05，该值用作惯例（Dahiru，2008），则拒绝零假设，并且比较模型之间存在统计学显著差异。表6通过比较模型2至2总结了p值，以查看它们之间是否存在任何差异。结果表明，用于检测暗网传输的模型之间没有统计学显著差异，而所有用于表征的模型之间都有统计学显著差异。尽管结果支持DT作为两个分类任务的最佳模型，但必须考虑基本点。DT是一个模型，不允许我们在训练后更新它。每次样本或当它们中的一组到达时，有必要重新训练整个模型以考虑新样本。由于感兴趣的问题由可以作为流出现的数据组成，因此将模型更新为出现新的样本这种更新被称为在线学习。因此，在本发明中，M. Coutinho Marim，P.V.B.拉莫斯，A.B. Vieira等人智能系统与应用18（2023）2001998表7属性选择结果汇总。图第九章暗网流量检测的混淆矩阵。表8人物刻画。最终确认10倍检测28 99.95% 99.91%特征73 99.12% 98.94%在需要实时流量分析的情况下，MLP是最好的，因为它是本工作中使用的唯一一种允许在线更新的方法5.2. 特征重要性分析特征选择算法旨在根据某些标准，通过去除不相关或冗余的属性来从原始问题属性集中选择子集，以便保持相同或几乎相同的结果（Villela等人，2011年）。由于在这项工作中分析的模型已经具有几乎最佳的性能，选择属性主要降低模型的计算成本。这个过程还帮助我们分析问题的最关键属性。在这项工作中，我们使用递归特征消除（RFE）方法，该方法通过递归地删除固定数量的属性并重新训练模型来工作。我们使用10倍的分层交叉验证来评估RFE生成的子集的质量。因此，具有最高准确度和最少属性数量的子集在执行结束时选择。根据5.1节中的结果，我们决定使用随机森林模型作为RFE的内部分类器。使用RF的另一个原因是，它还允许在训练模型后知道属性的重要性，称为基尼重要性。因此，在选择特征之后，我们还分析了考虑插入数据集中的新属性的基本属性。由于这项工作的目的不是对流量进行实时分类，因此保留只能在流量结束时获得的属性（如流量持续时间）没有问题。由于RFE的随机性质，每次运行可能会生成不同属性的子集。因此，所得到的子集应该是一致的。属性相关col_910.7628col_490.1205Bwd初始化Win0.0418col_240.0408空闲最小值0.0141col_960.0034怠速标准0.0021col_450.0018小时0.0017平均分组大小0.0015流量IAT标准品0.0011col_10.0009空闲平均值0.0009流量IAT最小值0.0008转发包长度最大值0.0008FIN标志计数0.0007Src端口0.0006FWD Init Win 0.0006前向IAT总计0.0005流量持续时间0.00040.0004转发数据包/秒0.0004考虑属性的最佳子集的近似。在表7中，我们总结了结果。基于10倍选择属性，还使用分层随机抽样的33%样本分离验证集。可以看出，在两个任务中，数据集的属性数量显著减少，而分类准确性没有任何损失第一，为M. Coutinho Marim，P.V.B.拉莫斯，A.B. Vieira等人智能系统与应用18（2023）2001999图10. 为暗网传输检测建立混淆矩阵模型。实例中，我们得到了约简的总属性的83%，并在交通特征，属性的数量减少了72%。表8和表9显示了RFE在两个分类任务中选择的集合中最重要的22个属性。很明显，在这两个集合中，通过数据预处理插入的属性对于模型分类的重要性是第一位的。正如我们所看到的，一些新特征具有比原始特征更高的等级，例如，特征col_91和col_ 76在其各自的任务中分别具有0.7628和0.4287的相关性。这表明，新属性可以编码与其任务相关的信息片段，并且当它们看起来不相关时，处理属性比删除它们正如Gurdip Kaur和Habibi Lashkari（2020）所做6. 结论在这项工作中，我们通过使用基于决策树的学习模型来解决来自Darknet的交易的检测和特征化问题，DT，RF和MLP能够对每个分类任务的新交易记录进行分类，准确率超过97%。新的特征也被提取从原始数据集通过搜索信息的源和目的地IP的流量和编码他们与散列编码。生成的另一个特征是数据集中包括的时间戳所发生的交通时间。我们的初步分析表明，由于在不同时间发生的互联网流量和暗网流量的趋势，有可能有助于训练模型的效率。最后还使用RFE算法执行特征选择过程。我们验证了新生成的特征与预测相关的模型。这表明，在某些情况下，来处理那些乍一看几乎没有关联的特征，而不是仅仅删除它们。此外，可以在不损失预测性能的情况下显著减少原始数据集很明显，简单的机器学习算法，如基于决策树的算法，是获得现实世界问题的有竞争力的结果的良好候选者。在这项工作中，我们观察到DT，RF和MLP获得的结果比模型高出13%在Gurdip Kaur和HabibiLashkari（2020）中，除了通过对现有属性进行仔细的预处理来提高其效率之外通过McNemar的统计检验，可以观察到所有模型在交通检测任务中获得了等同的性能。然而，对于交通特征，最好的模型是DT，而MLP在数据集中的不平衡标签方面的性能最差。虽然MLP的性能最差，但它最适合需要实时分析流量的应用程序，因为它可以随着新示例的到来而更新。在未来的工作中，有必要分析技术，以提高MLP关于不平衡标签的性能，例如，通过为少数类生成人工数据的方法。作为未来的研究方向，有可能进行实验来分类加密隧道内的数据流。Bovenzi et al.（2020）提出的框架是一个以这种方式提供帮助的候选者。另一种方法是将深度包检测（DPI）作为数据分析的丰富。M. Coutinho Marim，P.V.B.拉莫斯，A.B. Vieira等人智能系统与应用18（2023）20019910图十一岁极坐标中模型的评价指标。7. 缩略语表图12个。10-10倍估计的准确度的Bo x图。FTP文件传输协议2HTTP超文本传输协议2深度学习2DPI深度包检测9DT决策树2因特网消息访问协议2IP互联网协议2KNNK-最近邻2M. Coutinho Marim，P.V.B.拉莫斯，A.B. Vieira等人智能系统与应用

下载后可阅读完整内容，剩余1页未读，立即下载