没有合适的资源?快使用搜索试试~ 我知道了~
软件X 17(2022)100929原始软件出版物flow-models:用于分析和建模IP网络流的框架彼得·尤尔凯维奇波兰克拉科夫AGH科技大学电信系ar t i cl e i nf o文章历史记录:接收7一月2021收到修订版2021年11月29日接受2021年保留字:流量模型分布拟合流量工程SDNa b st ra ctSDN技术的最新发展使得基于流的转发成为传统机制的可行替代方案。然而,由于基于流量的解决方案的效率在很大程度上取决于交通特征,因此需要使用真实准确的流量模型进行评估。在本文中,我们提出了一个软件框架,称为流模型,从NetFlow/IPFIX流记录创建精确和可重复的统计流模型flow-models包可用于合并分割记录,计算流特征的直方图,并创建拟合它们的通用混合模型。由流模型创建的模型既可用作分析计算的输入,也可用于模拟中生成真实的交通©2021由Elsevier B.V.发布这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)中找到。代码元数据当前代码版本1.2用于此代码版本的代码/存储库的永久链接https://github.com/ElsevierSoftwareX/SOFTX-D-21-00003法律代码许可证MIT使用Git的代码版本控制系统使用Python的软件代码语言、工具和服务编译要求、操作环境依赖性NumPy、SciPy、Matplotlib、pandas开发人员文档/手册链接https://flow-models.readthedocs.io技术支持邮箱:piotr. agh.edu.pl1. 动机和意义固定功能的交换机和路由器是传统网络的基础。这些网络设备是定制的、单片的专有盒子。它们由垂直集成的专用集成电路(ASIC)和专有的封闭源代码软件组成。设备供应商只允许网络管理员配置选定的参数,而不可能以显著的方式改变设备操作。此外,此类设备需要手动配置,通常通过CLI,这是一个缓慢且容易出错的过程。为了克服这些缺点,软件定义网络(SDN)概念在2010年左右出现作为替代方案。SDN实现了网络控制和转发功能,使网络控制直接可编程。在SDN中,转发设备被编程为具有流转发规则,电子邮件地址:piotr. agh.edu.pl。https://doi.org/10.1016/j.softx.2021.100929OpenFlow和P4等标准化机制。网络智能集中在一个软件控制器中,该软件控制器维护网络的全局视图。管理员可以动态调整网络范围内的流量,以满足不断变化的流量模式与自动化的SDN程序,他们写的,这不依赖于专有软件。虽然SDN概念起源于学术界,但其优势导致了可编程交换芯片的开发以及随后SDN交换机的推出。由于这些技术进步,基于流的网络作为传统解决方案的可行替代方案越来越受到关注[1]。计算机网络中的流被定义为相关数据包的单向序列。在互联网协议(IP)网络中,最常见的方法,例如在NetFlow/IPFIX(IP流信息导出)[2]中使用的方法,是将流与传输层连接相关联。这意味着流是一个数据包2352-7110/©2021由Elsevier B. V.出版这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表SoftwareX期刊主页:www.elsevier.com/locate/softx彼得·尤尔凯维奇软件X 17(2022)1009292共享相同的地址字段直到传输层(所谓的5元组):IP源地址、IP目的地地址、源端口、目的地端口和传输层协议类型。SDN和基于流的网络可以简化网络管理,并且可以克服现有方法的许多限制,特别是在流量工程(TE)[3]、服务质量(QoS)提供[4]或网络安全[5]方面。基于流的网络最有前途的领域是基于流的转发。目前,最常见的方法仍然是基于数据包的转发。在这样的方法中,每个分组通过以下方式转发:根据每个目的地IP前缀路由表,独立地路由器。路由表通常由路由协议守护进程填充,这些守护进程在每个路由器上运行,并使用分布式算法来发现网络拓扑和特定IP目的地之间的最短路径。然而,由于其分布式特性,每包路由对多路径传输能力以及对变化的业务模式的适应性施加了显著的限制。分布式路由协议可以发现和使用网络中选定节点之间的如果存在多条成本等于最短路径的路径,则可以使用所有路径。这种方法被称为等成本多路径(ECMP),在当前网络中很常见。然而,由于广域网的非对称性,性质和导致的缺乏多个最短路径。例如,在来自SNDLib的nobel_eu拓扑中,任何节点之间的不相交最短路径的平均数量是1.20,而所有不相交路径的平均数为2.61。不等代价多路径(UCMP)假设使用代价高于最短路径代价的附加路径然而,这并不是微不足道的,因为它可能导致路由环路。无环UCMP需要路由协议中的特定度量和约束。目前使用的唯一支持UCMP的协议是EIGRP。然而,为了保持其分布式性质,它必须在计算可行路径集时强制执行保守条件,并丢弃一些经验路径[6]。这显著地限制了可以使用的附加路径的数量为了使用所有可用的不相交路径并在所选节点之间实现最大流,必须使用不基于分布式算法的技术。自适应(负载敏感)路由也是不可能的每包的方法,因为链路成本的动态变化会导致不稳定性,最终恶化网络性能。早期的阿帕网尝试已经证明了这一点[7,8]。基于流的转发实现了多路径和自适应方法,这些方法分别由于路由环路和路由摆动约束而不可能在每个分组路由中实现[9]。然而,大多数基于流的解决方案的效率在很大程度上取决于流量特性。因此,应使用真实的流动模型对其进行评估。这种解决方案的一个完美示例是利用IP流的重尾性质的流量工程机制为了可靠地评估这些想法,必须使用流的长度和大小的精确分布。缺乏这样的模型会对实验结果的可信度产生负面影响。现实的模型可以从网络中收集的流量轨迹中创建。用于流记录收集的众所周知的解决方案是NetFlow、IPFIX和sFlow。像flow-tools或nfdump[11]这样的包提供了从收集的流记录中过滤和计算简单统计数据的工具。flow-tools通过IP地址、IP地址对、端口、数据包、字节、接口、下一跳、自治系统、ToS位、导出器和标签为流数据集生成使用报告。对1http://sndlib.zib.de。另一方面,nfdump允许从网络流记录中过滤和计算简单的概要/前N个统计。然而,上述软件包缺乏用于分析和建模流动特征的任何能力。这包括流的长度(数据包的数量),大小(字节的数量),持续时间和速率分布。此外,它们没有提供任何工具来合并由于活动超时而分裂的流记录。本框架的目标是填补这一空白。具体地说,所提出的框架可以用于合并在收集过程中分裂的流记录,计算流特征分布的直方图,并最终创建拟合这些分布的一般混合模型。之后,创建的模型可以用于网络研究,既可以作为分析计算的输入,也可以在模拟中生成真实的流量。该框架还提供了一些辅助功能,如流记录排序或直方图分布和模型绘制。2. 软件构架该框架由几个工具组成,它们提供了现有流记录处理包中没有的功能。遵循Unix哲学,每个工具都是一个单独的Python模块,目的是单一的。工具被定制为在数据处理管道中顺序使用,并且它们提供的特征是正交的。这种管道的方案如图所示。1.一、作为框架一部分的工具以黑色显示,而来自外部包的工具则以蓝色显示。现有的解决方案可用于管道的初始步骤。首先,必须收集所有流量记录。硬件NetFlow导出器或软件导出器(ulogd 2或nfpcapd)可用于从数据包流量创建流记录这些流记录以nfcapd格式收集。接下来,在进行任何进一步的处理之前,需要对数据进行清理和过滤。可以使用nfdump工具过滤掉不相关或错误的流记录。后续步骤需要使用我们的软件包提供的工具,因为现有解决方案不提供必要的功能。由于出口商中的触发程序可能会多次报告长期流量,因此必须找到并合并此类流量记录。下一步是通过分组来减少传递给建模的数据。然后拟合一般混合模型,近似收集的数据。拟合模型可用于在模拟器或交通生成器中模拟真实交通框架目前包括以下工具:mergesort-根据指定的字段对流记录进行排序(需要numpy)histhist_npfitplotgeneratesummary-生成包含流数据集的汇总统计数据的TeX表(需要pandas)在支持的格式之间转换流记录·········彼得·尤尔凯维奇软件X 17(2022)1009293Fig. 1. 数据处理流水线方案。(For对本图图例中所指颜色的解释,读者可参考本文的网络版。)该框架是用Python实现的。它已经在GitHub上发布,可以使用pip install flow-models命令从PyPI(Python包索引)中安装为包。该软件包由上面列出的可执行工具模块和包含提供通用功能的模块的子包库组成。所有的工具模块都被注册为入口点,所以在软件包安装之后,用户可以很容易地从shell命令行调用它们(例如:流模型合并)。该软件包广泛使用NumPy [12]和SciPy [13]数值处理库。使用Matplotlib [14]Pandas [15]数据分析库用于CSV文件处理和汇总表生成。总体而言,根据cloc实用程序,该框架由15个Python文件组成,包含1988行代码和176行注释该框架的目的是提供现有包中不存在的流分析因此,它被设计用于nfdump工具集的顶部,这是一个流数据收集和过滤的标准解决方案。该工具集中的nfcapd文件格式是我们框架的- mat输入。在包含的工具之间交换数据彼得·尤尔凯维奇软件X 17(2022)1009294在该框架 中,可以 使用两种中间 流记录格式: 逗号分隔值(CSV)格式和二进制格式。流记录包含以下字段:af,prot-addressfamily,IP协议号inif,outif-输入和输出接口号sa 0:sa 3,da 0:da 3-构成源和目的IP地址的连续32位字sp、dplast,last_mspacketsoctetsaggs二进制文件格式可用作文本CSV格式的有效替代方案。每个二进制文件将一个字段存储为指定类型的二进制值数组。文件名包含字段名(如上所列)和数据类型,数据类型指定存储在文件中的二进制对象的类型。这样的存储模式有几个优点:字段可以独立分布(例如,出于隐私原因,可以共享没有sa*和da* 地址字段的流记录)。字段可以选择性地压缩/解压缩(当处理勉强适合磁盘的数据时很重要)。附加的或自定义的字段可以随意添加或删除.支持使用任何对象类型(有符号,精度)存储任何字段。文件可以作为数值数组进行内存映射(与IPFIX、nfcapd或任何其他结构化/TLV格式不同)。内存映射具有IO和缓存效率(柱状内存布局允许应用程序避免不必要的IO,并加快现代CPU和GPU上的分析处理性能)。3. 软件功能首先,必须收集流量记录。对于硬件NetFlow/IPFIX导出器,可以使用nfcapd工具。另外,ulogd 2可以在Linux系统上使用,将Netfilter/Conntrack子系统在机器上观察到的流导出到IPFIX记录中。这些记录也由nfcapd收集并保存为磁盘格式。还可以使用nfpcapd工具将数据包捕获文件转换为流记录。这使得分析和建模与时间相关的特征(流持续时间和速率)成为可能,由于计时问题,这对于来自硬件导出器的数据是不可能的[16]。在收集之后,必须清理数据。这在源自硬件导出器的数据的情况下尤其重要,因为它们可以提供以难以置信的持续时间为特征的损坏的流记录。此外,流记录文件可能包含源自多个设备的记录,这些记录也需要被过滤掉。nfdump命令行工具可用于此目的。它支持强大而灵活的过滤器语法,类似于tcpdump。它是用C编写的,并且针对过滤任务进行了很好的优化。3.1. 合并在所有硬件和许多软件导出器中,由于活动超时,长期流可能会分裂并报告为多个流记录。为了获得准确的流长度、大小或持续时间值,必须找到并合并这些流记录。我们框架中的合并工具可以用于此目的。此外,它还可以过滤掉错误拆分的记录。该工具按顺序处理所有流量记录,并仅使用整数执行所有计算,以确保精度和可重复性。这要归功于Python该工具将任何支持格式的流记录作为输入,并以二进制或CSV格式输出合并后的流记录。每个合并的流记录都包含aggs字段,该字段说明有多少个流记录被合并回该特定的聚合流记录。用户在调用命令时应指定收集过程中使用的活动和非活动超时,以确保合并操作的正确性3.2. 排序在合并过程中,流记录可能会重新排序.这尤其适用于长流,在某些情况下,长流可能会一直缓存到合并过程结束这些流在输出文件的末尾转储。排序工具的目的是根据指定的键(通常是流开始或流结束时间)对文件中的流记录进行当对整个文件执行进一步操作时,此步骤是不必要的然而,在仅使用记录文件的一部分的情况下,需要排序。3.3. Hist混合模型的拟合不必执行完整的流量记录。相反,它可以在histogram上执行,通过根据所选参数(例如,流动长度或尺寸)。直方图文件也可以很容易地发布,因为它们是许多数量级较小的,不像流记录,不包含私人信息,如IP地址。我们提供了一个叫做hist的工具来执行流装箱。该工具将任何支持格式的流量记录作为输入,并以CSV格式输出直方图文件用户应指定要分箱的参数(流长度、大小、持续时间或速率)以及要在直方图中求和的其他列(默认情况下,对数据包和八位字节进行计数,其他字段可以是速率和持续时间)。用户还可以指定一个参数,这是一个2的幂定义的对数分箱的起始点对数分箱可显著减小直方图文件的大小,而不会显著影响拟合过程的质量该工具有两种实现:hist和hist_np。前者是一个纯粹的Python实现,它利用Python中无限宽度的整数支持来执行更精确的计算。后者使用NumPy包来执行装箱,它可以利用SIMD指令和多个线程,速度快了许多个数量级,但需要更多内存,并且可能会因对精度有限的双精度运算3.4. 配合拟合工具是框架的关键组件。它的目的是找到一个混合分布(连同他们的参数)准确匹配选定的流量功能。我们已经实现了···············彼得·尤尔凯维奇软件X 17(2022)1009295估计由混合成分组成的统计模型的参数。该工具以流量直方图CSV文件作为输入,并执行分布混合拟合.JSON文件是一个输出,它描述了混合物中不同分布的份额为了开始EM算法,必须提供初始分布混合。其参数,然后迭代细化,以找到局部最优。我们的工具可以从用户那里接收初始混合分布,但它也可以自己为特定数据集生成初始混合分布,这意味着用户只需提供混合分布中使用的分布的数量和类型。目前,均匀分布、正态分布、对数正态分布、帕累托分布、威布尔分布和伽马分布都可以用我们的工具拟合。然而,均匀分布和对数正态分布通常足以提供准确的混合模型。它们具有快速拟合的优点,因为它们的最大化步骤具有解析解,而其他一些分布参数(Weibull或Gamma)必须使用数值优化方法计算。另一个优点是它们被广泛实现,因此由它们组成的分布混合物可以在各种网络模拟器和流量生成器中使用。拟合工具可以在命令行模式和图形交互模式(GUI)下操作在批量操作的情况下,根据提供的命令行参数执行,结果保存在工作目录中的JSON文件中。在交互操作的情况下,用户可以在GUI上实时观察适配过程。完成后,他可以在图上检查模型质量,如果必要的话,可以细化分布的数量及其初始参数,并重复拟合。第4节中提供了显示交互式拟合过程的视频。3.5. 情节任何建模任务的一个重要部分都是输入数据和结果模型的可视化。绘图工具可用于此目的。它可以生成概率密度(PDF)、累积分布函数(CDF)、平均数据包大小和数据包到达间隔时间图。它将CSV直方图文件和混合模型JSON文件作为输入。输入直方图数据可以在PDF图上显示为点、二维直方图或核密度估计(KDE)等高线图。模型混合物以线表示。此外,混合物的组分可以单独或以堆叠模式绘制。该工具自动规范化数据点的情况下,统计装箱直方图。此外,该框架包含一个自定义的快速傅立叶变换(FFT)为基础的加权KDE计算的实现。3.6. 生成为了用于基准测试网络机制,模型必须能够生成与混合相匹配的流量。生成工具为如何正确地从分布混合生成流提供了参考。它将包含JSON混合模型的目录路径作为输入和输出流记录。此外,可以使用CSV直方图文件代替混合模型作为输入,以生成与特定数据集精确匹配的流。3.7. 总结摘要工具的目的是从CSV直方图文件生成TeX或HTML格式的流量特征和特征分布表。生成的汇总表可以很容易地发布在一篇文章中或作为网页共享3.8. 转换转换工具可用于在支持的格式(第2节中描述的nfcapd格式和CSV以及二进制格式流)之间转换流记录。4. 说明性实例在这里,我们提供了一个分步指南,通过分布拟合和模型创建过程。为了能够使用项目存储库中公开可用的数据来遵循教程要获得有关如何从流记录创建直方图文件的参考,应参考框架文档和Makefile。首先,必须确保安装了所需的Python标准库模块。 这尤其适用于tkinter和venv模块,在某些发行版中,它们默认情况下不会与Python的二进制文件一起安装。我们将在虚拟环境中进行实验或者,可以使用pip命令在系统范围内安装flow-models包,在这种 情 况 下 , 系 统 上 应 该 存 在 numpy , scipy , pandas 和matplotlib。清单1: 安装框架及其依赖项。$python3-mvenvtest$⑶测试$bin/pinstallflw-mdelsnumpyscipyndasmatplotlib在本教程中,我们将使用项目的Git 存储库中提供的数据集agh_2015。由于隐私和大小问题,所提供的数据集不包含流记录。因此,我们将使用直方图文件开始拟合过程,该直方图文件之前是使用hist命令从流记录创建的。首先,我们将使用汇总工具来掌握数据。该工具生成TeX表,其中包含总体流量特征和选定要素的分布。具体来说,使用以下命令,将创建所有传输层协议流的流长度分布表。清单2: 摘要工具的使用。$cdagh_2015$flow-modedels-summary-xlingth 这是一个很好的例子。CSV类似地,还可以生成取决于流的大小的流的分布表清单3:流大小的摘要工具的用法$flow-models-summary-xsizehistograms/all/size。csv现在掌握了基本的数据属性,让我们深入了解细节。这可以通过绘制Empiri来实现。计算流场特征的概率分布函数和累积绘图工具可用于此目的。下面的命令将在流长度的函数中生成一些流、数据包和八位字节(字节)的PDF和CDF图此外,将创建表示数据包平均数量、八位字节和数据包大小(取决于流长度)的图清单4:绘制流长度的直方图$flow-models-plothistograms/all/length。csv彼得·尤尔凯维奇软件X 17(2022)1009296图二、 累积分布函数(CDF)图。绘图在当前工作目录中创建为PNG文件。 图 2显示CDF 图(cdf.png)。现在让我们转向拟合过程,这是框架的核心操作。可以使用拟合工具执行此操作。与前面的命令类似,应将流量直方图CSV作为输入。拟合工具可以在批处理和交互模式下操作。下面我们将在批处理模式下对函数流长度上的流分布进行混合拟合。在这种情况下,迭代次数(i)和每种类型(U和L)的分布数量应该指定为命令行参数。清单5:混合分布的拟合。$flow-models-fit-i400-U6-L4-yflows 我的天啊/all/length. csv0的情况。00PROCESING:HSTOGRAMS/ALL/LENGTH. csv0的情况。05Iteration:0...12个。29 电话:+39920 2012个。29Saving:flws$catflws。json{电话:4032376751“mix“:[[0。3050265769901237,“uniform“,[0,1]],[0。24841988004416196,“uniform“,[0,2]],[0。06366063664158104,“uniform“,[0,3]],[0。04921649965932878,“uniform“,[0,4]],[0。00931559166293734,“uniform“,[0,5]],[0。08217474157187263,“uniform“,[0,6]],[0。1312637498251484,“lognorm“,[0。5207023493412831,0,7.805599279070412]],[0。07328615421743442,“lognorm“,[0。7701056575379248,0,22.10972501544735]],[0。029289126487159662,“lognorm“,[1. 1252645297342552,0,128.6451515069823]],[0。008347042900250784,“lognorm“,[1. 9838369452408506,0,1084.4707584768773]]]}拟合的混合物保存到当前工作目录中的JSON文件中。在本例中,这是文件flows.json,其内容在上面列出。可替代地,用户可以利用GUI执行交互拟合。在这种情况下,应该使用- interactive参数启动工具。清单6: 混合分布的交互式拟合。$flow-modedels-fit-i100-L1-ypackets--iteractivehistograms/all/length. csv彼得·尤尔凯维奇软件X 17(2022)1009297图3显示了交互式拟合工具的屏幕截图。用户可以在右侧面板上更改参数(迭代次数和分布次数)。单击“拟合”按钮后,该过程开始。可以在进度条上监控其进度。此外,在勾选动画复选框后,当前分布混合将在每次迭代后绘制。这允许实时观察拟合过程。右下角的窗口以JSON格式显示当前的分布混合。在获得满意的结果后,可以使用保存按钮将混合物保存到JSON文件我们还提供了一个说明性的视频呈现交互式拟合过程。视频在文章旁边可见,在右侧面板中。用户试图找到一个混合模型,描述流长度(数据包数)函数中的流大小(八位字节数)在上图中,分别显示了数据、混合物及其所有组分的概率密度函数。下图显示累积分布函数。用户使用不同数量的分布和算法迭代重复拟合过程,直到获得满意的结果模型绘图工具不仅可用于绘制直方图文件中的经验分布函数,还可用于绘制混合模型。两者可以在同一图上绘制,以便进行比较。 为此,应在直方图CSV文件路径之后提供包含模型JSON文件的目录路径。清单7:绘制经验流量分布和混合模型。$flow-models-plothistograms/all/length。csvmy_mixture/最后,所构造的模型可用于生成流。生成工具可用于该目的。它本身并不特别有用。相反,它的目标是提供一个参考,并作为如何正确地从流模型生成流量的例子。在下面介绍的情况下,来自my_mixture目录的模型用于使用两个不同的种子以csv_flow清单8:从模型生成人工流$flow-models-generate-xlength-s20--seed0my_mixture/$flow-models-generate-xlength-s20--seed1my_mixture/彼得·尤尔凯维奇软件X 17(2022)10092985. 影响图3.第三章。 交互式适配工具。网络[21]。该文件提供的统计数据和模型已被用于各个研究领域,包括议定书。互联网流量的持续增长已持续多年。最近,被迫过渡到远程工作和教育进一步提高了这一比率[18]。随着物理基础设施的极限被达到,有效的流量工程正成为网络运营商维持期望的服务质量细粒度流量工程被认为是最有前途的解决方案之一[19]。然而,基于流量的控制的效率强烈依赖于交通特性,因此,应该基于真实和准确的流量模型进行评估。为了可靠地评估这些想法,必须确保流的长度和大小的实际分布。由于缺乏适当的模型,研究人员作出任意和过于简单的假设,这往往不符合现实。这对许多论文中提出的结果的可信度产生了负面影响。此外,不同的和任意的假设,在各种作品排除了可能性,有效地比较不同的解决方案。因此,尽管最近提出了许多基于SDN的TE解决方案[19],但运营商对它们的采用非常有限。我们希望所提出的框架将有助于解决这些问题。它伴随着可重复的研究工作,这在计算机网络领域仍然被忽视[20]。它还考虑到了大数据分析能力。具体来说,它支持核外计算,使分析超出可用内存的数据成为可能。此外,大多数处理步骤可以使用映射缩减技术水平缩放因此,所提供的实现方式在所处理的流记录的数量方面不受限制,这使得它适合于经历显著业务量的研究人员和网络运营商。我们希望他们分享他们的模式。该框架已经被用于从校园中记录的40亿个流量中构建流量长度性能[22]、深度学习流量预测[23]、入侵检测[24]和服务器CPU调度算法[25]。然而,其他类型的网络(例如,数据中心网络)可以表现出显著不同的业务特性。 这意味着[21]中提出的模型不可能适用于所有研究场景。因此,在本出版物中,我们希望向更广泛的研究人员和网络运营商提供框架本身。这将允许他们根据网络流量创建类似的模型。我们希望他们能够分享他们的模型,从而提供一套研究数据,用于各种联网实验,提高其可信度,可比性和再现性。在基于流的网络研究中,使用真实、准确和可重复的流量模型将是提供可比性和再现性的关键因素。6. 局限性和进一步研究该框架对根据某些特定流定义收集的流记录进行操作。虽然NetFlow流是传输层中的数据包序列,但网络层流(仅由源和目的IP地址定义)也用于某些研究领域。流超时规则也与流定义严格关联这意味着使用框架来对具有不同定义(例如,各种超时值)的分组跟踪中存在的流进行建模需要重复创建若干流记录文件,这些流记录文件将是框架的输入这些文件可能会占用大量存储空间。该框架的另一个限制是,使用拟合工具创建的通用混合模型独立地对所有流特征进行建模。这样的模型对于许多用例来说是足够的。尽管如此,更先进的模型,包括特征和标题值之间的关系,将在机器中有用。彼得·尤尔凯维奇软件X 17(2022)1009299学习应用,如基于第一个数据包中的报头值预测流特征[23]。该框架还可以进一步扩展,具有建模或模拟特定机制和技术的能力。这包括例如基于大象的流表管理[10]或将流的前N个分组镜像到CPU的技术 以供检查。一个非常有前途的方向是创造 将框架与机器学习库(如Scikit-learn、Keras或OpenAI Gym)连接的接口。7. 结论在本文中,我们介绍了流模型框架,用于创建IP网络流的统计模型的工具集。该软件提供了现有软件包中没有的流特征分布分析和建模功能。特别是,该框架允许合并在收集过程中分裂的流记录,计算流特征分布的直方图,并最终创建拟合这些分布的一般混合模型。该框架还提供了几个辅助功能,如流量记录排序或直方图分布和模型绘图。有了这个框架,研究人员和网络运营商可以根据他们的网络流量创建流模型。创建的模型可以用于网络研究,既可以作为分析计算的输入,也可以在模拟中生成真实的流量。我们希望,提出的框架将显着提高网络研究的质量,提高其可重复性和可比性。竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作致谢这项研究是在波兰国家科学中心项目编号为“多层软件定义网络中的流量智能管理”的支持下进行的2017/25/B/ST6/02186。附录A. 补充数据与本文相关的补充材料可以在https://doi.org/10.1016/j.softx.2021.100929上找到。引用[1] Kreutz D,Ramos FMV,Veríssimo PE,Rothenberg CE,Azodolmolky S,Uhlig S.软件定义的网络:一个全面的调查。Proc IEEE 2015;103(1):14-76.http://dx.doi.org/10.1109/JPROC.2014.2371999网站。[2] Quittek J,Zseby J,Claise B,Zander S. IPFIX要求。RFC 3917,2010,网址http://tools.ietf.org/html/rfc3917。[3] 张文辉,张文辉,张文辉,张文辉. SDN-OpenFlow网络流量工程路线图。Comput Netw 2014;71 : 1-30. http://dx.doi.org/10.1016/j.comnet.2014.06.002网站。[4] 沃 伊 奇 克 河 面 向 流 的 QoS 保 证 方 法 。 ACM Comput Surv 2012;44 ( 1 ) .http://dx.doi.org/10.1145/2071389.2071394网站。[5]Shin S,Xu L,Hong S,Gu G.通过软件定义网络(SDN)增强网络安全。2016 年 第 25 届 计 算 机 通 信 与 网 络 国 际 会 议 2016 年 , 第 1-9 页 。http://dx.doi.org/10.1109/ICCCN.2016.7568520。[6] 加 西 亚 - 卢 内 斯 - 阿 塞 维 斯 使 用 扩 散 计 算 的 无 环 路 由 。 IEEE/ACMTransNetw 1993;1 ( 1 ) : 130-41. http://dx.doi.org/10.1109/90 的 网 站 。222913[7] 伯采卡斯湾通信网络最短路径路由算法的动态行为。IEEE TransAutomatControl 1982;27(1):60-74. http://dx.doi.org/10.1109/TAC.1982.1102884网站。[8]王志,王文,王文,等.动态网络环境下的最短路径路由算法分析.北京大学学报 , 2001 , 17 ( 1 ) : 133 - 134. ACM SIGCOMM Comput Commun Rev1992;22(2):63-71. http://dx.doi.org/10.1145/141800.141805网站。[9]Jurkiewicz P,Wójcik R,DomesticaJ,Kamisienski A. FAMTAR的测试实现 : 自 适 应 多 路 径 路 由 。 Comput Commun 2020;149 : 300-11.http://dx.doi.org/10.1016/j.comcom.2019.10.029网站。[10] Jurkiewicz P. Boundaries of flow table usage reduction algorithms basedon elephant flow detection. 2021 IFIP 网 络 会 议 。 2021 , 第 1-9 页 。http://dx.doi.org/10.23919/IFIPNetworking52078.2021.9472832网站。[11]Haag P.使用NfSen和NFDUMP观察您的流量。第50届RIPE会议。2005年[12]Walt Svd,Colbert SC,Varoquaux Gl. numpy数组:一种用于高效数值计算的结构。Comput Sci Eng 2011;13(2):22-30. 网址://dx.doi.org/10.1109/MCSE.2011.37网站。[13]Virtanen P , Gommers R , Oliphant TE , Haberland M , Reddy T ,Cournapeau D,Burovski E,Peterson P,Weckesser W,Bright J,et al.Scipy1.0 : funda-mentalalgorithmsforscientificcomputinginpython.NatureMethods2020;17(3):261-72.http://dx.doi.org/10.1038/s41592-019-0686-2网站。[14]亨特JD。Matplotlib:2D图形环境。计算机科学与工程2007;9(3):90-5.http://dx.doi.org/10.1109/MCSE.2007.55网站。[15]Pandas : A foundational python library for data analysisandstatistics.Python High Perform Sci Comput 2011;14(9).[16] Hofstede R,Drago I,Sperotto A,Sadre R,Pras A.netflow数据中的测量 工 件 在 : 被 动 和 主 动 网 络 测 量 国 际 会 议 。 Springer; 2013 , p. 1-10.http://dx.doi.org/10.1007/978-3-642-36516-4_1。[17]Dempster AP,Laird NM,Rubin DB.通过EM算法从不完整数据中获得最大似 然 。 J RStatSocSerBStatMethodol1977;39 ( 1 ) : 1-38.http://dx.doi.org/10.1111/j.2517-6161.1977.tb01600.x网站。[18] Cisco. 思 科 年 度 互 联 网 报 告 ( 2018-2023 ) 白 皮 书 。2020 年 ,URLhttps://www.cisco.com/c/en/us/solutions/collateral/executive-perspectives/annual-internet-report/white-paper-c11-741490.html。[19][10]杨文,李文,李文.关于捐款的调查从软件定义网络到流量工程。IEEECommunSurvTutor2017;19(2):918-53.http://dx.doi.org/10.1109/COMST.2016.2633579网站。[20]张文辉,张文辉.计算机网络可重复研究的生态系统。In:Reproductionaryhttp://dx.doi.org/10.1145/3097766.3097768网站。[21] Jurkiewicz P,Rzym G,Borybio P.校园互联网流量中的流量长度和大小分 布 。 Comput Commun 2021;167 : 15-30. http://dx.doi 的 网 站 。org/10.1016/j.com.2020.12.016。[22]放大图片作者:Adarsh V,Schmitt P,Belding E.异构子路径上的MPTCP性能 。 2019 第 28 届 计 算 机 通 信 与 网 络 国 际 会 议 2019 年 , 第 1-9 页 。http://dx.doi.org/10.1109/ICCCN.2019的网站。8847086[23] Hardegen C,Pfülb B,Rieger S,Gepperth A.使用深度学习和真实网络流量预测网络流量特征。IEEE Trans Netw Serv Manag 2020;17(4):2662-76. http://dx.doi.org/10.1109/TNSM.2020.3025131。[24]Han L,Sheng Y,Zeng X. 一种基于字节嵌入的可调包长注意力模型,用于智能网络安全。IEEEAccess2019;7:82913-26.http://dx.doi.org/10.1109/A
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功