没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报基于网络流量分析的Dandy Pramana Hostiadi,Tohari Ahmad信息学系,Institute Teknologi Sepuluh Nopalan,印度尼西亚阿提奇莱因福奥文章历史记录:2021年12月26日收到2022年5月7日修订2022年5月7日接受2022年5月13日网上发售保留字:Bot群组活动相关性分析Botnet入侵检测系统网络基础设施网络安全A B S T R A C T在这个网络时代,僵尸网络已经成为计算机网络安全的严重威胁,因为它们可以通过被称为恶意软件的恶意应用程序感染连接到网络的计算机。与以前的行为不同,僵尸网络已经从中心化发展到去中心化。因此,检测和处理机器人另一方面,僵尸网络可以同时主动感染和攻击目标,称为僵尸群体活动。现有的检测方法无法识别其组中机器人之间的活动这种相关性对于获得机器人之间的活动因果关系至关重要,因为它可以识别在攻击期间哪个机器人活动影响其他机器人活动。正是机器人活动的因果关系有助于防止机器人群体攻击。本文提出了一种新的模型来检测机器人群体活动使用混合分析方法,其中包括使用滑动窗口分割技术提取活动模式,分析活动之间的相似性,并分析它们之间的相关性。实验使用两个公共数据集来评估所提出的方法。结果表明,该方法检测bot组活性的准确率高达99.73%,假阳性率小于1%,优于其它方法©2022作者(S)。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍Bot网络,又称僵尸网络,可以看作是被非法应用程序渗透到恶意代码中进行有害活动的计算机集合。它们可能是一种危险的威胁,需要在计算机网络上认真处理(Asadi等人,2020;Bagui和Li,2021)。僵尸网络积极传播垃圾邮件,实施个人数据盗窃和身份欺诈,发起分布式拒绝服务(DDoS)攻击(Priyadarshini和Barik,2019)以及其他恶意活动(Neshenko等人,2020; Joshi等人,2021;Wang等人,2020年)。一般来说,僵尸网络由僵尸主机和僵尸客户端组成僵尸主机控制并指示僵尸客户端远程攻击受损的目标计算机(Daneshgar和Abbaspour,2020;Aamir和Ali Zaidi,2021)。僵尸主控之间的通讯*通讯作者:Department of Informatics,Institut Teknologi Sepuluh Nopolitan(ITS),Kampus ITS Keputih Sukolilo,Surabaya 60111,Indonesia.电 子 邮 件 地 址 : mhs.its.ac.id ( D. P. Hostiadi ) , tohari@if.its.ac.id(T.Ahmad)。沙特国王大学负责同行审查而机器人客户端由命令和控制(C& C)服务执行(Singh等人,2019年)的报告。与常见的攻击类型不同,僵尸网络具有不同的特征(Sarker等人,2020; Prasad等人,2020; Sarker等人,2020;Prasad等人,2020),他们有一个特定的网络结构:集中和分散(王等人,2018年)。在集中式类型中,机器人客户端连接到C C服务中的中央服务器,以执行由机器人主机给出的指令如果与主服务器的通信被关闭或被安全系统识别相反,在分散式结构类型中,机器人客户端可能会受到损害,并动态地成为主服务器,通过接收或转发来自僵尸主机的指令来交换消息,而不依赖于主服务器。例如,僵尸网络通过DDoS攻击中的僵尸主命令通过计算过程密集地执行HTTP请求活动,并且可以动态地形成僵尸通信网络(Cirillo等人,2021 a,b; Praseed和Thilagam,2020; Matta等人, 2017年)。因此,这种分散的结构更 强 大 且 更 有 弹 性 , 使 得 一 些 安 全 系 统 ( 诸 如 入 侵 检 测 系 统(IDS))难以识别僵尸网络活动(Alauthman等人, 2020年)。已经介绍了几种检测僵尸网络活动的方法诱导(Asadi等人,2020; Wang等人,2018年,2020年; Daneshgar和https://doi.org/10.1016/j.jksuci.2022.05.0041319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comDandy Pramana Hostiadi和T. Ahmad沙特国王大学学报4220Abbaspour,2020; Mathur等人,2018; Hung和Sun,2018; Hoang和Nguyen,2018; Chowdhury等人,2017; Hostiadi等人,2020;Wang等 人 ,2017 年 ) 通过 实 施 基 于 签名 、 基 于 异 常、 基 于 域 名 系统(DNS)和基于挖掘的分析。第一种是基于特征的分析,关注先前已知的活动特征。第二种方法分析异常网络流量活动,第三种方法检查对目的DNS地址的请求,这通常通过查找目的DNS来完成。最后,基于挖掘的方法是一种广泛使用的技术,它涉及智能计算来研究、识别和发现僵尸网络活动的模式。基于DNS分析的僵尸网络检测方法(Choi例如,2009,2007; Kwon等人,2014年,2014年)将机器人活动分为单个和组攻击活动,称为机器人组活动。单个活动的攻击次数和攻击模式是随机的 与单个活动不同,机器人组基于该组中的攻击行为或攻击目标收集机器人之间的类似活动模式(Hostiadi等人,2020年)。机器人群体活动检测需要更深入和更复杂的分析,因为机器人通信网络中的活动之间存在行为关系。因此,在检测过程中需要进行较为复杂的分析,包括相似性分析、相关性分析、因果关系分析等。以前的几项研究已经引入了一种新的方法来检测群体活动。在(Choi等人,2009年,2007年),机器人组活动检测是通过分析DNS查询的形式,段,和基于时间的分区活动。然后,通过为出现在不同段中的每个活动分布分配权重来测量每个段中的机器人活动的相似性。这些权重值从机器人活动中获得,排序并形成向量进行比较。与其他段具有相似性的每个机器人活动被表示为机器人组活动(Kwon等人,2014年,2014年)。检测机器人群组活动也可以通过周期性地分析机器人活动来完成(Kwon等人,2014,2014),定义为当机器人在C C服务中实现从机器人主控器接收的指令时通信活动的频率&。使用离散傅里叶变换(DFT)完成的分组是基于相似性进行的在一个周期内的两个高度相似的输入信号表示机器人组活动。另一种方法引入了使用相交概率的检测模型(Hostiadi等人,2020年)。它通过分析机器人的活动流,通过特征提取过程中,其测量是基于交叉活动的相似性来满足这些要求的特征根据相似的攻击目标进行分组,并表示为bot组活动。单个机器人活动可以通过分析活动分布来检测,因为它们是分散的和 集 中 的 ( Asadi 等 人 , 2020; Wang 等 人 , 2018 , 2017 , 2020;Daneshgar和Abbaspour,2020; Mathur等人,2018; Hung和Sun,2018;Hoang和Nguyen,2018; Chowdhury等人,2017年)。尽管也可以执行检测机器人群组活动(Hostiadi等人,2020; Choi等人,2009,2007; Kwon等人,2014年),它不能识别活动相关性以找到它们的关系。此外,需要机器人之间的相关性来获得检测此机器人组活动的因果关系信息。具体而言,需要分析顺序活动之间的关系。因此,获得该信息可能优化检测结果。通过考虑该因素,为了改进检测bot组活性的先前研究(Hostiadi等人,2020年,2021年,2020年),这项研究提出了一个新的模型来衡量相关性。具体而言,它旨在通过相关性测量来检测bot活动之间的关系,以确定bot组活动中的因果关系。建议的模型配备了一个特征提取过程中使用了基于滑动窗口的分割技术,以具有更优化的特征提取分析。 关于特征提取过程,该模型采用基于流和基于图的分析(Chowdhury等人,2017;Ramos等人, 2020年),以获得机器人的活动模式。此外,它在网络流头中获取参数,如活动持续时间和状态,总数据包和总字节。评估提取的特征的相似性,以测量可疑机器人活动之间的相关性,这是通过向后和向前计算来完成的。总的来说,本研究的贡献可以提供如下:该模型使用混合分析自动检测机器人组活动,包括通过实施滑动窗口分割技术提取活动模式,分析机器人之间的活动相似性,以及相关性分析。该模型采用基于流和基于图的概念来分析网络中存在僵尸群体活动和正常活动的流量流。 它也不只是专门分析DNS查询流量、HTTP访问或IRC通信。该模型在特征提取过程中使用基本的网络流头部,例如源和目的地IP地址、源和目的地端口地址、协议、持续时间、状态流、总分组和总字节,以向量的形式获得可疑的bot行为模式。所提出的模型检测机器人组活动的一种方法,计算向前和向后的相关性,以产生机器人活动,在各自的组内有因果关系本文的组织结构如下。第2节介绍了与本研究相关的研究。接下来,第3节描述了所提出的方法的细节。测试环境、分析和结果见第4节。最后,我们对第五的研究进行了总结。2. 相关工作已 经 引 入 了 机 器 人 活 动 检 测 模 型 , 包 括 分 类 模 型 (Hoang 和Nguyen,2018; Khan等人,2019年),常见于检测机器人攻击。该模型通常实现基于机器学习的分类器,如k-最近邻(k-NN),朴素贝叶斯(NB),决策树(DT),支持向量机(SVM),随机森林(RF)和贝叶斯网络(BN)。这种方法已经能够检测单个机器人的活动;尽管如此,它可能无法很好地检测多个机器人的活动。 另一方面,机器人Strayer等人(Strayer等人,2006)引入了一种检测模型,该模型&通过实现相关性和聚类方法来关注C C内的流量。它将僵尸网络恶意软件流量数据分组,并通过测量每个流量的活动相似性对其进行聚类。在这项研究中,他们实现了J48决策树、C4.5、NB和BN。在该过程结束时,执行所发送的分组的相关性分析。它们基于分组时间传递来获取排序的分组大小的信息。然而,该研究仅关注单个机器人,并且仅限于互联网中继聊天(IRC)和命令和控制(C C)流量。此外,它不能检测到有因果关系的机器人群体活动Choi等人(Choi等人,2007)引入了一种检测模型,用于分析特定DNS地址的查询流量。在该研究中,通过对流量进行分段来定期检查源IP地址和目的IP地址将从段的源到目的地的每个查询流量与其他段的查询流量进行比较●●●Dandy Pramana Hostiadi和T. Ahmad沙特国王大学学报4221在这里,相同的数据被分类到机器人组活动。该研究通过对可疑机器人流量的相似性测量进行加权,提取机器人行为模式以找到相同源和目的地之间的活动分布来扩展(Choi等人,2009年)。如果不同的段具有相似的分布,则它们被设置(标记为1);否则,它们被重置(0)。根据该权重,结果在向量中排序,该向量的相似性使用Kulczynski、余弦和扩展Jaccard相似性(Tanimoto)方法重新计算。这一方法已显示出相对良好的效果。然而,如果机器人组活动存在于段之间的过渡中,则会出现问题。在这种情况下,关键的活动信息可能会丢失,使该方法不是最佳的。此外,他们提出的模型仅限于DNS查询,这并不代表可以根据攻击目的而变化的实际环境。Chowdhury等人(Chowdhury等人,2017)引入了一个基于图的聚类模型来检测机器人活动。由节点表示的bot通过顶点连接到其他主机可以从这种设计中提取一些特征:入度和出度、入度和出度权重、聚类系数、节点介数和特征向量中心性,这些特征是基于自组织映射(SOM)的聚类过程的输入它传递每个代表节点的已实现单元格的值,这些节点构成机器人组活动集群。该模型可以检测网络数据流中的bot活动然而,它没有分析机器人群体中活动之间的相关性。另一方面,机器人活动可以基于相似性构建一个组(Hostiadi等人,2020)或机器人之间的因果关系。在进一步的研究中,Hostiadi等人提出了B-Corr模型(Hostiadi等人,2020年),它使用交叉概率方法测量活动相似性。首先,它使用一些分类算法检测单个bot活动并获得最佳结果。接下来,B-Corr模型将bot流提取为特征,例如入站、出站、入站程度和出站程度。该方法在获取特征后,根据网络报头流(如IP地址、端口地址、协议和总数据包)跟踪每个特征的每个特征中的网络头的信息交集被用于机器人活动之间的相似性概率最后,基于相交概率对目标进行相似性检验结果表明,他们的方法可以很好地检测机器人群体活动然而,考虑到bot活动可能会相互影响,因此没有显示出因果关系等相关性在随后的研究中,Hostiadi等人(Hostiadi等人,2020年)以链条的形式代表活动。它们实现基于时间的分割以进一步分析相关性,然后使用滑动窗口对其进行优化。此外,跟踪每个片段中的活动中心;这被称为多阶段分析阶段,其与其他片段的相似性使用余弦相似性来测量。类似的活动中心根据它们的头部和尾部排列在活动链中。实验结果表明,该方法能够识别出节点间的关联攻击活动链。然而,它并没有显示机器人之间的活动在因果关系方面的影响有多强。这些信息对于发现一系列当前的机器人活动对未来的机器人活动有多大影响至关重要,反之亦然。这个具有挑战性的问题进一步研究(Hostiadi例如,2021),其提供相关攻击活动场景。在这里,基于时间的标记活动被构造。 据发现,一个机器人可能与其他基于其活动时间。此外,还描述了活动是动态的。3. 该方法与以前的研究不同,这项研究通过测量机器人之间的活动相关性来检测机器人组的活动。它的目的是找出有多强的因果关系是在机器人组中的机器人活动我们采用前向和后向相关性,分别将当前的bot活动与未来和以前的活动相此外,我们设计了一个基于时间的分割技术开发的基础上,滑动时间窗口,以获得最佳的结果,在特征提取过程中。通常,所提出的检测模型如图1所示。它有四个阶段:预处理,数据分割,特征提取和bot组检测。3.1. 预处理这个阶段包括两个步骤:数据过滤和清洗。过滤选择指定的九个网络报头,而不是如(Hostiadi et al.,2020年)。网络业务(NT)由一组网络报头(NH)组成,由等式(1)定义。(1)和(2)。这里,NH由源IP地址(SIP)、目的地IP地址(DIP)、源端口地址(SP)、目的地端口地址(DP)、协议(P)、持续时间(T)、状态(ST)、总分组(TPK)和总字节(TBT)组成。NT ¼ f 1Fig. 1. 机器人群体活动检测模型。Dandy Pramana Hostiadi和T. Ahmad沙特国王大学学报4222.Σ.ΣNH4/NH4数据清理将删除空流量数据或非标准流量数据USIPsgSIPsg(如果sgð5Þ交通数据,根据(Debar,2007年)。3.2. 数据分割由于机器人群体活动是周期性的和强烈的(Choi等人,2009年),有必要分析活动持续时间,以获得其性质。另一方面,网络数据中记录的活动长且负载重。因此,开发基于时间的数据分割(Choi等人,2007;Hostiadi等人,2020年),以优化分析过程。为此,我们将数据分为几个阶段。首先,基于网络流量中的活动时间对每个主机的活动数据进行排序。接下来,通过获取流量数据中的主机列表来识别每个主机的活动,该列表引用源和DIP,其结果用于对流量进行分段。此过程总共生成段(sg),每个段具有一小时的持续时间。如果网络流量的持续时间为T,则网络流量较小,如等式2所示。(三)、网络标头集在每一段中,可以由等式表示(四):NT¼f.NHSg3NH¼fSIPsg; DIPsg; SIPsg; DIPsg; Psg; Tsg; STsg; TPTsg; TBTsg由于分割数据,主机活动的系列可能会中断,从而导致信息丢失。我们实施30分钟滑动时间窗口(t滑动)来克服这个可能的问题,其图示如图2所示。在片段识别过程中,识别每个结果片段并给其一个索引号。3.3. 特征提取前一阶段产生包含较小规模网络流量数据(NHsg)的段(sg)。由于滑动时间窗口过程,每个段具有彼此相交的不同主机活动。如前所述,机器人群组活动是周期性的和强烈的,这意味着活动模式出现在以下几个部分中,并且存在机器人活动在每一个片段中。由于这一特点,我们应该评估不同节段中重复的宿主活动,称为频繁活动。在这项研究中,我们搜索频繁的主机活动,在NT中的源IP地址(SIP),有三个以上的出现在IP段标记为1;否则,它被标记为0,这意味着它是一个不频繁的活动。当量(5)表示该特性,其中sg是段索引。在得到频繁主机活动的基础上,通过分析网络头,可以提取出七种主机模式。设主模式为W;提取结果可以由等式(1)表示(六):W1;W2;W3;W4;W5;W6;W7其中:W1是每个源主机到不同目的地的活动数W2是使用不同源端口地址到不同目的端口地址的每个源主机的活动数。● W3是主机使用的协议变体的数量。W4是从源主机到目标主机的活动的平均持续时间。● W5是主机使用的状态变量的数量W6是源主机到目的主机使用的平均数据包总数.W7是源主机到目的主机使用的平均总字节数.因此,每个段(sg)中的主图案可以由等式(1)描绘(七):Wsg¼fW1 sg;W2 sg;W3 sg;W4 sg;W5 sg;W6 sg;W7 sg在提取该主模式之后,我们将每个段中的主模式合并成组模式,在等式中表示为C(八):Csg ¼. W1sg[W2sg[W3sg[W3sg[:[W7sg[W8sg]3.4. Bot群组检测如前所述,本研究旨在检测机器人群体活动之间的因果关系,并测量其相关性强度。为实现这一目的,确定了两种方法。首先,它使用相似度值来获得一组相似的bot活动。其次,它需要相关性来衡量两个类似的机器人活动。该步骤可以如下所示。● 相似性度量测量两个模式组之间的活动相似性Ci和Cj,我们实现如图二. 数据分段。.¼●●●●●Dandy Pramana Hostiadi和T. Ahmad沙特国王大学学报4223X1½j-ji←MM←.Σ←←←xCi;Cj我JQ. C; C。ijIj当量其中,n是模式组中的段的数目,i是段索引,并且x是组模式。nMAE x x9ni¼1令m为SIP索引或为源IP地址,如等式2所示。(十)、MAE相似性度量变为Eq.(十一):SIPm² ×W1m[W2m[W3m[W3m[:[W7m×10m算法1. 前向相关测量1输入:Ci;Cj,(tholdq)2输出:FW_corr categorized_as_botgroupBotCorri,j34定义:5threshold_correlation←(tholdq)6所有BotCorr1.. m,1.. mm;78fori← 1 tomSimCi;Cj¼1i¼X1;j¼1. Ci-Cj。ð11Þ9forj←1 tom10如果evaluate_FW_corrij(Ci;Cj)≤threshold_correlation然后在Eq. (12)用于与相似性值进行比较以评估组的相似性。这个阈值是通过训练机器人和数据集中的正常活动获得的11BotCorri,j12破碎;13end if.- 是的statesimilarifSimC;C>thold simstatesimilarifSimCi;Cjthold sim<14BotCorri,j←TRUE15结束16端17returnBotCorri,j● 相关测量网络中的每个主机都可以有类似但不是因果关系的活动,伊茨。相反,机器人群体具有相似的活动模式,其成员由于其传染性行为而相互影响,导致激烈和周期性的特征。的相关性xi;j,在前一阶段获得,通过使用等式2测量(十三):corr<$fxi;j13取Pearson相关方程(Hall,2015),我们有Eq。其中,rx是主图案x的标准偏差,并且ry是主图案y的标准偏差。最后,cov是协方差值。算法2. 后向相关测量1输入:Ci;Cj,(tholdq)2输出:BW_corrcategorized_as_botgroupBotCorrj,i34定义:5Threshold_correlation =(tholdq)6所有BotCorr1.. m,1.. mm;78forj← m to 1do9fori←m to 1doqcovx;y10如果evaluate_BW_corrji(Ci;Cj)≤threshold_correlationx;y因此,Ci;Cj之间的相关性可以在等式中表示。然后11BotCorrj,i12破碎;(15),其相关性阈值(tholdq)在等式(16)中。(十六)、cvC;CijrCi:r. Cjð15Þ13end if14BotCorrj,iTRUE15端16端17returnBotCorrj,iQ. C;C=0.0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000¼ð12ÞDandy Pramana Hostiadi和T. Ahmad沙特国王大学学报4224.Σ.Σ.状态相关,如果q。Ci; Cj>阈值相关性状态不相关<ð16Þ每个段的组模式Csg,其相关值最高相关值是用于确定组模式集合(Ci;Cj)的基础。如果bot组相关性最高,值从FW corr和BW corr,那么它可以给出为是否超过阈值,进一步寻找它们的关系-通过构建FW corr. 此外,以前的模式,称为向后相关(BW corr)的关系,也进行了评估。 根据这一衡量标准,那些有价值观的高于阈值(tholdq),其被定义为两个相互关联的活动。该阈值是通过从机器人和正常活动之间的相关性训练过程。详细地,前向相关测量比较组模式(Ci;Cj)中的所有段,如算法1所示当量(十七):BotCorri; jCi;Cj¼FW corrCi;CjifFW corrCi;Cj>BW corrCi;CjBW corrCi;CjifFWcorrCi;CjBW corrCi;Cj<4. 实验结果4.1. 环境ð17Þ同样地,在算法2中提供后向相关测量。评测是在一款搭载英特尔酷睿i-78700CPU3.20GHz处理器、250块SSD存储、16 GB RAM、PythonDandy Pramana Hostiadi和T. Ahmad沙特国王大学学报4225编程版本3.7。此外,本研究采用网络中心计算( NCC)数据集(Hostiadi和Ahmad,2021),包括13个场景来评估该方法。该数据集特征是适当的,因为它是周期性和密集的机器人组。每个场景都有不同数量的攻击机器人,它们以binet流文件的形式具有相对大量的数据流量。数据集描述见表1。4.2. 实验结果分析如前所述,所提出的方法包括一些阶段:预处理,数据分割,特征提取和机器人组检测。第一阶段是预处理,它减少了每个数据集中的流量,其结果如表2所示。减少的数据是在网络报头中具有空值的噪声流量或不具有(Debar,2007)中指定的写入标准的数据因此,减少过程可以减轻模型在检测机器人活动时的处理负荷。然而,减少值越大,删除的流量就越多,导致机器人活动检测分析中可能丢失信息。此外,减少值越低,删除的流量就越少,这需要漫长的分析过程来检测机器人。一旦完成预处理阶段,通过指定小时时间段(t)和30分钟滑动窗口(t滑动)来应用分段此设置会在8小时活动周期(T)中产生15个分段一小时的分割时间是基于(Choi等人,2009年; Choi例如,2007),其使用静态分段技术。在没有滑动技术的情况下,静态分段导致关于分段转换的分析信息的丢失,诸如关于两个分段之间的通信链的信息30分钟的滑动时间窗是根据以下数据的中值确定的:表2预处理结果。数据集场景表3频繁分析。的记录段窗口,并可以覆盖下一个段中的分析我是说。因此,它可用于分析路段转换上的交通数据(Hostiadi等人, 2020年),一个静态窗口时间。最后一窗口时间小于1小时的段将被忽略,因为它已在先前的分析中被涵盖。滑动值越小,影响段分析冗余度的段越多。另一方面,如果滑动时间变得更大,接近一小时的分段时间,则将产生更少的分段,并消除分段过渡期间的分析过程。在实验中,八小时的活动持续时间值导致在一小时的分割过程中总共有15个片段,滑动时间为30分钟。评估在段中识别的每个源IP地址(SIP)以找到具有周期性特征的主机活动,其结果在表3中呈现。发现在场景1、2、3、4、5、6、7、8和13的数据集中仅存在一个频繁主机。如前所述,主机如果它具有至少三个包含相同特征的后续段,则认为是频繁的。这是由滑动窗口过程引起的,其中在片段过渡期中的宿主活动被认为是预先的一系列活动(Hostiadi等人,2020年)。可以推断,不存在被认为是机器人群组的周期性活动。这种主机活动可以是单一的机器人威胁,也可以只是激烈的正常活动。随后,场景9、10、11和12被检测到包含具有周期性和强烈活动的主机,这是本研究的重点一旦执行了该频率评估,就提取特征以获得主图案W。这是由在每个场景的每个片段中都有Wsg。作为示例,提供了表4.表1NCC数据集描述。场景号持续时间机器人数量Bot流正常宿主正常流总流量18 h123 000人(1.09%)342,7402,089,224(98.91%)2,112,22428 h124 000人(1.64%)252,2631 441 182人(98.36%)1,465,18238 h12,000人(0.07%)240,7802,903,611(99.93%)2,905,61148 h111 000人(1.52%)66,013713,388(98.48%)724,38858 h119 000人(20.45%)10,34673 917人(79.55%)92,91768 h16 000人(1.17%)46,627506,021(98.83%)512,02178 h19 000人(10.78%)9,59874 473人(89.22%)83,47388 h114 000人(0.49%)252,1622,857,217(99.51%)2,871,21798 h10220,000人(13.98%)180,5541 353 304人(86.02%)1,573,304108 h1060,000人(6.10%)89,915924,369(93.90%)984,369118 h312万人(38.75%)3,72918 964人(61.25%)30,964128 h39 000人(3.28%)33,613265,186(96.72%)274,186138 h119 000人(1.01%)209,8651,857,489(98.99%)1,876,489数据集方案编号经常访问的主机数量接待非常客人数主机总数11342,740342,74121252,263252,26431240,780240,7814166,01366,0145110,34610,3476146,62746,628719,5989,59981252,162252,163979,345101,219180,5641043,93845,98789,925113,719133,7321210,00923,60733,616131209,865209,866number预处理前预处理后减少记录百分比(%)12,112,2242,111,7730.00521,465,1821,464,9770.01032,905,6112,904,9930.0094724,388724,1880.024592,91792,3100.2576512,021511,4430.038783,47383,2780.13882,871,2172,870,8900.00791,573,3041,572,8130.01510984,369983,9090.0281130,96430,7720.43912274,186273,9540.041131,876,4891,876,1940.007Dandy Pramana Hostiadi和T. Ahmad沙特国王大学学报表44226主机模式提取。SIPW1W2W3W4W5W6W7147.32.84.16544289.94843436.514.47147.32.84.16851121.371542598.35.308147.32.84.191443102.4144166.316.46147.32.84.192442100.5743276.114.13147.32.84.19422259.098210,55518147.32.84.1990000003147.32.84.21410.00031250.252147.32.84.20211160.909160,86384147.32.84.211232230.49489923.26514.147.. .. . ... .. . ... .. ......你好。. . .. ......你好。表5组模式提取。SIPW1.1W2.1W3.1W4.1W5.1我... . -- .W7.15147.32.84.16544289.9484.. .13.62147.32.84.16851121.37154.. .8.909147.32.84.191443102.414.. .15.95147.32.84.192442100.574.. .13.5147.32.84.19422259.0982.. .11147.32.84.19900000.. .3147.32.84.21410.000312147.32.84.20211160.90912147.32.84.211232230.494812.278.. .. . ... .. ......你好。.. .. ......你好。.. .. ......你好。表4中的值被归一化以使它们在0和1的范围内。接下来,将每个段中的主图案组合以构造组图案Wsg1; 1[W2; 1; W3; 1[W4; 1; W5; 1[*[W7; 15] 给出了场景11的组模式的示例在表5中。在使用MAE完成的相似性测量中,每个SIP在15个分段上具有7个W。这导致两个组模式Ci和Cj的105个比较值。评估了SIPi和SIPj主机活动之间的相似性,并给出了生成的示例使用场景11中提供了图. 3.第三章。发现要实现多达三个机器人,阈值x为0.949。这三个机器人的最大数量对应于场景11中的数字。因此,如表6所示,每种情况下使用的阈值不同。这种范围差异受每个场景中机器人的特性和数量的影响。基于所产生的阈值x,一个组模式ful-进一步处理填充阈值以找到其相关性;否则,它被归类为正常。每个场景的相似性测量结果如表7所示。如表7所示,通过实现阈值,可以减少SIP活动(主机)的数量以及SIPi和SIPj之间的比较(成对);平均而言,减少数量分别约为73%和25%。在第一种情况下,一个宿主可能与另一个宿主具有相似性,但与另一个宿主不同例如,IP号为147.32.84.165的主机与IP号为147.32.84.191的主机类似。然而,它可能与表6每个场景的相似性阈值。数据集方案编号机器人数量X9100.84510100.9551130.9491230.939图3.第三章。 训练阈值X。Ci;Cj使用场景11。Dandy Pramana Hostiadi和T. Ahmad沙特国王大学学报表74227相似性测量结果。数据集方案编号阈值前的数量阈值后的主机数量阈值后的成对数量主机成对相似宿主非相似类似非相似979,34514,728,8785,42873,9179,537,4105,191,4681043,93814,356,7615,35938,57913,406,433950,328113,7191,322,7511,6272,092596,009726,7421210,00910,485,9104,5805,42910,316,216169,694见图4。 训练阈值Q。在场景11中,表8前向相关测量。段SIPi;SIPj网址:147.32.84.165;网址:147.32.84.165;网址:147.32.84.168;网址:147.32.84.168;网址:147.32.84.168;.. . ;147.32.84.191147.32.84.192147.32.84.191147.32.84.192147.32.84.194.. .一号? 1 0.9808331980.9975613730.717332710.5757632040.750054343.. . ;一号? 2 0.9816690610.997035240.7823152760.6678292260.839389864.. ... . ;.. .一号? 3 0.9849941990.9975078590.841405430.75335990.800464353.. . ;一号? 4 0.9850732490.9971671310.8457869070.764522660.671175186.. ... . ;一号? 5 0.9861449480.9933964930.8326377770.7372970840.685706195.. ... . ;一号? 6 0.9863843820.9875311140.8023565170.6947882090.712674454.. ... . ;.. .一号? 7 0.9872578110.9867951040.7904359690.6857923290.725524966.. . ;一号? 8 0.9880138080.9877808860.8110191190.7162929770.763198607.. ... . ;一号? 9 0.9877903960.9886476230.8273606620.7427186250.789906976.. ... . ;一号?100.9876369610.988645280.8395224110.7573186260.719615189.. ... . ;.. .一号?110.9875005490.9890627470.8495212740.770670530.708697054.. . ;一号?120.9873068710.9897329090.8489509050.7769352610.692133472.. ... . ;一号?130.9869590470.9899593880.8462377930.7763215420.694463969.. ... . ;一号?0.9868410350.9897232450.8450810840.775025660.699754954.. ... . ;Dandy Pramana Hostiadi和T
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- 保险服务门店新年工作计划PPT.pptx
- 车辆安全工作计划PPT.pptx
- ipqc工作总结PPT.pptx
- 车间员工上半年工作总结PPT.pptx
- 保险公司员工的工作总结PPT.pptx
- 报价工作总结PPT.pptx
- 冲压车间实习工作总结PPT.pptx
- ktv周工作总结PPT.pptx
- 保育院总务工作计划PPT.pptx
- xx年度现代教育技术工作总结PPT.pptx
- 出纳的年终总结PPT.pptx
- 贝贝班班级工作计划PPT.pptx
- 变电值班员技术个人工作总结PPT.pptx
- 大学生读书活动策划书PPT.pptx
- 财务出纳月工作总结PPT.pptx
- 大学生“三支一扶”服务期满工作总结(2)PPT.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功