多方面流中的快速异常检测

145 浏览量更新于2023-11-30 收藏 1.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3371→→MSTREAM：多方面流中的快速异常检测西达斯·巴蒂亚新加坡国立大学siddharth@comp.nus.edu.sg里泰什·库马尔印度孟买ArjitJainIITarjit@cse.iitb.ac.in布莱恩·胡潘莉美国普渡大学panli@purdue.edu摘要IIT坎普尔印度riteshk@iitk.ac.in新加坡国立大学bhooi@comp.nus.edu.sg特别地，我们关注异常的一个重要应用给定多方面数据设置中的条目流，即，条目具有多个维度，我们如何以无监督的方式检测异常活动？例如，在入侵检测设置中，现有的工作试图检测动态图流中的异常事件或边缘，但这不允许我们考虑每个条目的附加属性。我们的工作的目的是定义一个流多方面的数据异常检测框架，称为MSt R e A m，它可以检测不寻常的群体异常，因为它们发生，在一个动态的方式。MSt reA m具有以下特性：（a）它检测包括分类属性和数值属性的多方面数据中的异常;（b）它是在线的，因此在恒定时间和恒定存储器中处理每个记录;（c）它可以捕获数据的多个方面之间的相关性MStre A m在KDDCUP 99、CICIDS-DoS、UNSW-NB 15和CICIDS-DDoS数据集上进行了评估，其性能优于最先进的基线。CCS概念• 计算方法异常检测;在线学习设置;·安全和隐私入侵检测系统。关键词异常检测，多方面数据，流，入侵检测ACM参考格式：Siddharth Bhatia ， Arjit Jain ， Pan Li ， Ritesh Kumar ， and BryanHooi.2021 年 MSt reA m ： Fast Anomaly Detection in Multi-AspectStreams.在网络会议2021（WWW '21）的会议记录，2021年4月19日至23日，斯洛文尼亚卢布尔雅那。 ACM ，纽约州纽约市，美国， 12 页。https://doi.org/10.1145/3442381.34500231介绍给定条目流（即，多方面数据（即，具有多个特征或维度的数据），我们如何能够以无监督的方式检测异常行为，包括涉及大组可疑活动的突然出现的组异常？本文在知识共享署名4.0国际（CC-BY 4.0）许可下发布。作者保留在其个人和公司网站上以适当的署名传播作品的权利WWW©2021 IW 3C 2（国际万维网大会委员会），在知识共享CC-BY 4.0许可下发布。ACM ISBN 978-1-4503-8312-7/21/04。https://doi.org/10.1145/3442381.3450023网络入侵检测。在这个应用程序中，我们想要设计一个算法来监控一个记录流，每个记录流代表网络上的一个连接（或“流”）。我们的目标是检测多种类型的可疑活动，例如拒绝服务或端口扫描攻击，攻击者通过这些攻击与目标服务器建立大量连接，使其无法访问或寻找漏洞。最近的入侵检测数据集通常报告每个单独流的数十个特征，例如其源和目的地IP、端口、协议、平均数据包大小等。这使得设计能够处理多方面数据的方法变得非常重要。此外，为了有效地防范攻击，我们的算法以流式方式处理数据非常重要，这样我们就可以在攻击到达时立即快速实时报告任何攻击。针对此问题的一些现有方法旨在检测点异常或个别不寻常的连接。然而，由于这忽略了记录之间的关系，它不能有效地检测到大型和突然出现的连接组，就像拒绝服务和其他攻击一样。为了检测这样的组，也存在基于稠密子图检测[4]以及稠密子张量检测[63，65]的现有方法。然而，这些方法通常是为维数较小的数据集设计的，因此面临着扩展到我们的数据集大小的重大困难。此外，它们将数据集的所有变量都视为分类变量，而我们的方法可以处理分类变量的任意混合（例如，源IP地址）和数值变量（例如，平均分组大小）。因此，在这项工作中，我们提出了MStR eA m，一种用于处理多方面数据流的方法即突然出现大量可疑的类似活动。我们的方法自然允许在分类变量（例如，一小组重复的IP地址，创建大量的连接），以及在数值变量（例如，平均分组大小的数值相似的值MSt reA m是一种流式方法，它在恒定的内存和时间内执行每次更新。这在流长度以及每个属性的属性值的数量方面都是恒定的：这与基于张量分解的方法（诸如STA）和基于密集子张量的方法（诸如DenseAleRT）形成对比，其中内存使用在可能的属性值的数量上增长为此，我们的方法使用了位置敏感哈希函数（LSH），它处理数据WWWSiddharth Bhatia、Arjit Jain、Pan Li、Ritesh Kumar和Bryan Hooi3372以流的方式，同时允许形成组异常的连接被联合检测，因为它们由相似的属性值组成，因此通过散列函数被映射到相似的桶中。最后，我们证明了MSt R e A m检测到的异常是可以解释的。为了结合特征之间的相关性，我们进一步提出了MSt R e A m-PCA，MSt R e A m-IB和MSt R e A m-AE，它们分别利用主成分分析（PCA），信息瓶颈（IB）和自动编码器（AE）将原始特征映射到低维空间，然后在该低维空间中执行MSt R e A m。MStR eAm-AE被示出为提供更好的异常检测性能，同时与MStR eA m相比还提高了速度，这是由于其较低的维数。总之，我们的方法的主要贡献是：(1) 多方面组异常检测：我们提出了一种新的方法来检测多方面数据中的组异常，包括分类和数值属性。(2) 流式方法：我们的方法以快速和流式方式处理数据，在恒定的时间和内存中执行每次更新(3) 有效性：我们的实验结果表明，MStR eA m优于基线方法。复制：我们的代码和数据集可在www.example.com上公开获取https://github.com/Stream-AD/MStream。2相关工作我们的工作与图上的异常检测[ 1，5 - 7，20，33，34，38，49 - 51，58，68，75，78 ]，图和流等领域密切相关分类[10，28，42[35、40、57、64、73、74]。在本节中，我们仅将我们的评论限制在以前用于检测边缘流，张量和多方面数据异常的方法上。关于基于张量的异常检测的广泛调查见[ 16 ]。边缘流中的异常检测使用随时间变化的边缘我们根据发现的异常情况进行分类异常节点检测：给定一个边缘流，[76]检测出其egonet突然显著变化的节点。异常子图检测：给定一个边缘流，DenseAleR t [63]可以识别在短时间内创建的密集子张量。异常边缘检测：RHSS [54]关注图的稀疏连接部分，而SeDA nSpot [14]基于边缘出现、优先附着和相互邻居来识别边缘异常MIDA s [4]识别基于微簇的异常，或突然到达的可疑相似边缘组。多方面数据流中的异常检测使用随时间推移的多方面数据记录流作为输入每个多方面数据记录也可以被认为是具有多个属性的属性图的边。因此，除了检测多方面数据流中的异常之外，以下方法还可以检测边缘流中的异常。基于分数图：从张量分解获得分数图，然后手动或自动分析异常检测。这些分数图可以是一维的：[45]，多维的：MA lSpot [36]或时间-系列[46]。基于直方图：MASTA [15]使用直方图近似来分析张量。它将整个张量矢量化，并同时在每个模式下分割成切片。将每个切片的分布与矢量化张量进行比较，以识别异常切片。基于张量分解：张量分解方法（如[27]）可用于发现异常。[79]第79话[65]是CPD和Tucker decomposition的流算法STenSr [60]将张量流建模为用于表示整个网络的单个增量张量，而不是单独处理流中的每个张量[30] 在张量中使用子空间学习来发现异常。STA在每个时刻监视每个张量的流式分解重构误差，并且当该误差超过预定义的阈值时发生异常。然而，[63]显示了基于张量分解的密集子张量检测的有限准确性。基于密集子张量检测：密集子张量检测已用于检测M-Zoom[61]，D-CUBE [62]，[37]和CR ossSpot [23]中的异常，但这些方法将数据视为静态张量。DenseAleR t [63]是一种流算法，用于识别在短时间内创建的密集子张量。用于异常检测的其他方法通常可以通过将分类属性转换为数值属性来在多方面设置中使用，例如，使用独热编码。椭圆包络[56]通过将稳健的协方差估计拟合到数据来将椭圆拟合到正态数据点。局部异常值因子（LOF）[8]估计每个点的局部密度，然后将异常识别为局部密度比其相邻点低得多的点。隔离森林（I-Forest）[32]通过随机选择特征并在随机分割点处分割它们来构建树，然后将异常定义为在低深度值处与其余数据分离的点。随机切割森林（RCF）[19]通过创建数据的多个随机切割（树）并构建这样的树的森林来确定一个点是否异常来改进隔离。最近，还提出了用于多方面数据中的异常检测的DAGMM [81]在深度自动编码器产生的低维潜在空间上学习高斯混合密度模型（GMM）[24]使用度量学习进行异常检测。用于异常检测的基于深度结构化能量的模型（DSEBM）[77]使用去噪得分匹配而不是最大似然来训练深度能量模型，例如卷积和递归EBM，以执行异常检测。最近，APAE [17]，MEG [29]和Fence GAN[41]等方法已成功用于检测异常。对于入侵检测任务[2，3，18，70，71，80]，文献中使用了各种不同的方法，包括Entrance方法[53]，特征选择[52]，模糊神经网络[13]，核方法[67]，随机森林[21]和深度·······MSTREAM：多方面流WWW3373表1：相关多方面异常检测方法的比较椭圆LOFI-ForestSTAMastaSTenSr随机切割森林致密树脂T女士（一九九九年）（2000年）（二零零八年）（2006年）（2015年）（2015年）（2016年）（2017年）（2021年）群异常实值特征✓✓✓✓✓✓✓常数内存常数更新时间✓✓✓✓✓✓✓✓✓基于学习的方法[69][25]。然而，我们避免与这些方法进行比较，因为它们不以表2：简单的玩具示例，包括一个随时间变化的流的方式，通常需要大量的标记训练数据，而我们以无监督和在线的方式处理数据。请注意，局部离群值因子、隔离森林、椭圆包络、STA、MASTA、STenSr、密集森林和随机切割森林都是无监督算法。其中，只有DenseAleR t执行组异常检测（通过检测密集子张量）;然而，如表1所示，它不能有效地处理实值特征（因为它将所有特征视为离散值）。3问题设R ={r1，r2，. . . }是记录流，以流的形式到达时间源IP目的地IP包尺寸···一千一百九十四。027. 251. 021194. 027. 251. 021100· ··2172. 016号113. 105207. 二百三十054.20380· ··4194. 027. 251. 021192. 168. 001. 0011000· ··4194. 027. 251. 021192. 168. 001. 001995· ··4194. 027. 251. 021192. 168. 001. 0011000· ··5194. 027. 251. 021192. 168. 001. 001990· ··5194. 027. 251. 021194. 027. 251. 0211000· ··5194. 027. 251. 021194. 027. 251. 021995· ··6194. 027. 251. 021194. 027. 251. 021100· ··方式每个记录ri =（ri1，. . . ，r_id）由d个属性组成，或者7172. 016号113. 105207. 二百三十054. 20380 ···维度，其中每个维度可以是分类的（例如，IP地址）或实值（例如平均分组长度）。请注意，由于数据是以流的形式随着时间的推移而到达的，因此我们不假设可能的特征值集合是预先已知的;例如，在网络流量设置中，在流中间的某个点首次看到新的IP地址是很常见的。我们的目标是发现群体异常。直观地说，组异常应该具有以下属性：(1) 分类属性的相似性对于分类属性，组异常由相对少量的属性值组成，重复了可疑的大量次数。(2) 实值属性的相似性：对于实值属性，组异常由数值相似的属性值的簇组成。(3) 时间突然：群体异常突然出现，时间短得令人怀疑。此外，它们的行为（就属性值而言）应该明显不同于我们之前在流过程中观察到的行为。4该算法4.1动机考虑表2中的玩具示例，包括随时间的连接流该数据集显示了从时间4到5的可疑活动的明显块，包括重复多次的几个IP地址，以及与通常的数据包大小分布相比似乎非常大的大数据包大小。然而，主要的挑战是以流式方式检测这种类型的模式，考虑到我们不想对我们想要检测的异常活动的持续时间或可能涉及此活动的IP地址（或其他属性值）的数量设置任何先验如图1所示，我们的方法通过使用一些对位置敏感的哈希函数[9]来解决这些问题，这些哈希函数将每个传入的元组哈希到固定数量的桶中。直观地说，我们这样做是为了使具有许多相似条目的元组倾向于被散列到相似的桶中。这些散列函数与时间评分方法相结合，该方法考虑了我们在任何时候观察到的桶之间的重叠程度：在短时间内到达的大量重叠表明存在异常活动。在第4.2节和第4.3节中，我们描述了我们的MSt R e A m方法，在第4.4节中，我们描述了我们的MSt R e A m-PCA、MSt R e Am-IB和MSt R e A m-AE方法，这些方法以无监督的方式结合了特征之间的相关性。MSt R e A m-PCA使用主成分分析，MSt R e A m-IB使用信息瓶颈，MSt R e A m-AE使用自动编码器首先压缩原始特征，然后在压缩的特征空间中应用MSt R e A m。4.2散列函数我们的方法使用两种类型的散列函数：Fe ATUR eH A s H，它单独散列每个特征，和RECORRD H A s H，它联合散列整个记录。我们使用每种类型的散列函数的多个独立副本，并解释如何将这些副本组合起来产生一个单一的哈希值。WWWSiddharth Bhatia、Arjit Jain、Pan Li、Ritesh Kumar和Bryan Hooi3374I. 然后我们分别哈希我我n∈C{−}N（）r←ij图1：拟定MS测试仪示意图。降维单元（4.4节）接收一个记录并输出一个低维嵌入。然后应用两种类型的位置敏感散列函数。FeaTU reHash（算法1）散列每个单独的特征，RecordHash（算法2）联合散列整个记录。然后使用时间评分方法将这些组合在一起，以计算记录的异常分数（算法3）。4.2.1哈希值如算法1所示，特征由独立应用于单个特征的散列函数组成。有两种情况，对应于特征是否是分类的（例如，IP地址）或实值（例如平均分组4.2.2RecordHash。如算法2所示，在RECORDHA sH中，我们同时对记录的所有特征进行操作我们首先将整个记录ri分成两部分，一部分由范畴特征C组成，比如rcat，另一部分由实-长度）：有值特征R，比如rnumir猫得到对于分类数据，我们使用标准线性哈希函数bucketcat和r num来获得bucketnum。最后我们求出[31] 其将整数值数据随机映射到B个桶中，即，模b我水桶猫和铲斗num 去拿一个桶给我。我们{0，. . . ，b-1}，其中b是固定数。hashrcat和rnum如下：然而，对于实值数据，我们发现随机化哈希i函数倾向于导致某些输入数据集的高度不均匀的桶分布。相反，我们使用流日志桶化方法。我们首先对数据值应用对数变换（第5行），然后执行最小-最大归一化，其中最小值和最大值以流的方式维护（第7行），最后将其映射为(1) rcat：我们使用标准的线性哈希函数[31]将j个单独的特征rij映射到b个桶中，然后通过对它们进行模b求和来组合它们，以计算rcat的桶索引bucketcat（第3行）。(2) rnum：计算一个i实值记录的哈希值di尺寸p = |R|，我们选择k个随机向量a，i，..，一特征值的范围被均匀地划分为B个桶，即，各自具有1a2k{0，. . . ，b-1}（第8行）。算法1：散列单个特征输入：rij（记录ri的特征j）输出：0中的桶索引。. . ，b1，以将rij映射到1如果rij是范畴的2输出HASH（rij）//线性哈希[31]3else ifrijis real-valued4位对数变换5rij= log（ 1+rij）p维，并从高斯分布p0，Ip独立采样，其中k=log2b。我们计算r_num与这些向量中的每一个的标量积（第6行）。然后，我们将piositive标量pro管道映射到1和非正的标量积为0，然后连接-nate这些映射值得到一个k位字符串，然后将其从一个bitset 转换为一个 0 到 2k-1 之间的整数bucketnum(line10）。4.3时间评分最近的一种算法，MIDA s [4]，发现动态的异常边缘，6.标准化以流的方式绘制图形它结合了卡方善良-7ri j−minj最大j−最小j//最小最大流使用Count-Min-Sketch（CMS）[11]流式数据结构进行拟合测试，以获得每条边的异常分数在迈阿密，8输出rij·b（ modb）//分桶成b桶定义为从节点u开始的边的总数suv达到当前时间t，而uv是当前时间tickt中从节点u到v的边的数量（但不包括过去的时间tick）。MSTREAM：多方面流WWW3375{−}我我−（−）：∈（）（）（）{}（）iij–不（）（）（）下一页.∀ari−我ˆ+我5对于id←1到一个uv−suv（t−1）.对于j←1到d不算法2：记录散列：散列整个记录输入：记录ri输出：0中的桶索引。. . ，b1，将ri映射到1.把ri分成它的范畴部分rcat和它的两个类别的卡方统计：当前时间刻度和过去时间刻度。单个属性的异常分数对于可解释性是有用的，因为它们有助于解释哪些特征对记录的异常性最负责任最后我们数字部分，rnumi把这些分数相加。我2个哈希rcat3桶cat=（j∈CHASH（rij））（modb）//线性在第1页（AnomA ly ScoreR e）中定义鉴于一个新到的记录（ri，t），我们的错误分数计算为：哈希[31]4位哈希值K.2.D不sri（t−1）j=16ifnumr，aid值>07位集[id]=1其中，.ˆsˆrijΣ2t2(1)8其他9bitset[id]=0score（rij，t）=arij−t西里吉（t−1）10bucketnum=INT（bitset）//将bitset转换为整数11输出（桶类别+桶数量）（modb）然后，将边缘分为两类：当前时间tick t（= auv）的边缘和过去时间tick（= suv auv）的边缘，并计算卡方统计量，即观察到的期望值2的类别之和预计和一个或者是一个是ri或rij的应用最大计数在当前时间t和sri或srij是ri或rij的应用最大计数直到时间t。我们还允许记录的时间灵活性，即。最近的记录计入当前的忠诚度分数。这是通过减少计数ari和arij来实现的J1，. . ，d乘以系数α 0，1，而不是在每个时间刻度结束时重置它们。这会导致过去的记录计数到当前时间刻度，权重逐渐减小。算法3中总结了MSt re A m。2（观测值（cur_t）-预期值（cur_t））2算法3：MSt reA m：流式传输异常评分X=预期_输入：随时间推移的记录流（当前）2+（observed（past_t）- expected（past_t））输出：每条记录的异常分数1.初始化数据结构：expected（past_t）2总的ReCord计数s<$rij<$j∈{1，. . ，d}和总属性计数=（a）Suv2不S+（（suv–）−t−t1suv）23当前检索代码计数和当前属性计数arijj∈{1，. . ，d}uv.suv10002t2t−t1suv4而新记录ri，t=ri1，. . . ，r_id，t被接收：do5个哈希和更新计数：6MIDAs使用两种类型的CMS数据结构来维护大约7imate计数s_u_v和a_u_v，其估计s_u_v和a_u_v的平均值。8MIDAs中的边缘的异常分数然后被定义为：10bucketj=FeATUR eHA sH（rij）更新bucketjbucket=记录HA sHri更新bucket的计数. 公司简介（一）11个查询计数：score（u，v，t）=auv−tsuv（t−1）12Retrieveupdated计数sri、ari、srij和然而，MIDA s被设计为检测异常边缘，其是二维记录（由源和目的节点索引组成）。因此，它不能应用于多方面数据的高维设置。此外，MIDA s将变量arijj∈ {1.. d}13分异常评分：14输出score（r，t）=a–+的版本。D分数（r（t）数据集作为分类变量，而多方面数据可以包含分类变量的任意混合（例如，源IP 地址）和数值变量（例如，平均分组大小）。I RITsri（t−1）j=1i j我们扩展了MIDA s，为每个记录定义了一个异常分数，并以流的方式检测异常记录。给定每个传入记录ri具有j个特征，我们可以计算j +1个有害性分数：一个用于整个记录ri，一个用于每个单独的特征rij。我们通过计算来计算每个分数4.4消除要素之间的在本节中，我们将描述我们的MStR eA m-PCA、MStR eA m-IB和MStR eA m-AE方法，其中我们在score（ri，t）=score（rij，t）（2）=3376（）（）（）下一页（）−（）WWW使用主成分分析（PCA）[47]，信息瓶颈（IB）[66]和自动编码器（AE）[22]方法以流式方式获得的原始数据的低维嵌入我们的动机结合PCA，IB和AE方法与MSt R e A m是双重的。首先，通过这些算法学习的低维表示包含记录的不同属性之间的相关性，使得异常检测更有效。其次，尺寸的减小将导致更快地处理每个记录。对于所有三种方法，我们首先使用来自传入流的256个记录的非常小的初始子集来学习降维变换。然后，我们计算后续记录的嵌入，并将其传递给MSt r e a m，以在线方式检测异常。主成分分析我们选择PCA是因为它只需要一个主要参数来调整：即投影空间的维度。此外，该参数可以通过分析主成分的解释方差比来容易地设置。因此，MS t REA m-PCA可以用作具有降维的流异常检测的现成算法。信息瓶颈。降维的信息瓶颈可以被视为以下优化问题：最小I X;T βI T;Yp（t|（x）其中X、Y和T是随机变量。T是X的压缩表示，I X; T和I T; Y分别是X和T以及T和Y的互信息，β是拉格朗日乘子。在我们的设置中，X表示多方面数据，Y表示数据是否异常，T表示我们希望找到的降维特征我们的实现基于非线性信息瓶颈的神经网络方法[26]。自动编码器。 Autoencoder是一种基于神经网络的降维方法。自动编码器网络由编码器和解码器组成编码器将输入压缩到低维空间中，而解码器从低维表示重构输入。我们在第5节中的实验结果表明，即使使用简单的3层自动编码器，MSt R e A m-AE也优于MSt R e A m-PCA和MSt R e A m-IB。4.5时间和内存复杂度在存储器方面，MSt_R_A_m仅需要随时间保持数据结构，这需要与O_wbd成比例的存储器，其中w、b和d是散列函数的数量、数据结构中的桶的数量和维度的总数其相对于流大小而有界对于时间复杂度，算法3中唯一相关的步骤是那些更新或查询数据结构的步骤，这需要O（wd）（所有其他操作都在常数时间内运行）。因此，每个更新步骤的时间复杂度是O（wd）。5实验在本节中，我们将评估MSt re A m和MSt re A m-AE在多方面数据流上与椭圆包络、LOF、I森林、随机切割森林和密集森林相比的性能。我们的目标是回答以下问题：Q1. 异常检测性能：与基线相比，MSt R e A m检测真实世界异常的准确性如何，如使用地面真实标签评估的那样？Q2. 可伸缩性：它如何随输入流长度和维数进行伸缩？与基线方法相比，处理每项投入所需的时间如何？Q3.真实世界的有效性：它是否检测到有意义的异常？它能检测群体异常吗？数据集。KDDCUP99数据集[12]基于DARPA数据集，是用于入侵检测的最广泛使用的数据集之一。由于属于“攻击”类的数据比例远大于属于“非攻击”类的数据比例，因此我们将“攻击”类的比例降为20%。KDDCUP99有42个维度和1. 2100万条记录[55]调查了不同的入侵检测数据集，并建议使用较新的CICIDS[59]和UNSW-NB 15 [39]数据集。这些包含现代攻击，并遵循可靠入侵检测数据集的既定指南（在现实性，评估能力，总捕获，完整性和恶意活动方面）[59]。CICIDS2018数据集由加拿大网络安全研究所生成每条记录都是一个流，包含源IP地址、源端口、目的IP地址、IP地址和数据包等功能这些流量是从正常网络流量和合成攻击模拟器的实时模拟中捕获的。这包括CICIDS-DoS数据集（1. 05万条记录，80个特征）和CICIDS-DDoS数据集（7. 900万条记录，83个特征）。 CICIDS-DoS有5%的异常，而CICIDS-DDoS有7%的异常。UNSW-NB 15数据集由澳大利亚网络安全中心（ACCS）的网络范围实验室创建，用于生成真实现代正常活动和合成当代攻击行为的混合体。该数据集有九种类型的攻击，即模糊攻击、分析攻击、后门攻击、拒绝服务攻击、漏洞利用攻击、通用攻击、侦察攻击、Shellcode攻击和蠕虫攻击。它有49个特点和2.500万条记录，包括13%的异常。基线。如第2节所述，我们处于流无监督学习机制中，因此不与监督或离线算法进行比较。我们考虑椭圆包络，局部离群因子，隔离森林，STA ，MASTA，STenSr，DenseAle rt和Random Cut For-est，因为它们对多方面数据进行操作，然而，由于大量的维度，即使是STA/MASTA/STenSr的稀疏张量版本在这些数据集上也会耗尽内存。因此，我们比较了椭圆包络，局部离群因子，隔离森林，稠密森林和随机割森林。评价所有方法都输出每条边的异常分数（越高越异常）。我们绘制ROC曲线，比较真阳性率（TPR）和假阳性率（FPR），MSTREAM：多方面流WWW3377−表3：每种方法在不同数据集上的AUC拒绝服务0。75±0。0210。73 ±0。0080。93± 0。0010. 92± 0。0010. 95± 0。0030. 94± 0。001UNSW 0。25± 0。0030. 490. 84± 0。0230.800450. 86± 0。 0010.81± 0。0010. 82± 0。0010. 90± 0。001DDoS 0。57± 0。1060. 四六○。56± 0。021--0。630. 91± 0。000个。94± 0。000个。82± 0。000个。93± 0。000而不需要固定任何阈值。我们还报告了ROC-AUC（ROC曲线下面积）。实验设置。所有的实验都是在2。4 GHz英特尔酷睿i 9处理器，32 GB内存，运行OS X 10。15个。2.我们用C++实现了MStReA m。我们使用每个哈希函数的2个独立副本，并将桶的数量设置为1024。我们将时间衰减因子α设置为0。KDDCUP99为85，0。CICIDS-DoS和CICIDS-DDoS为95，0。4，因为其时间粒度更高。注意，MSt R e A m对α参数的变化不敏感，如表5所示。由于KDDCUP99数据集没有时间戳，我们每1000条记录应用一次时间衰减因子。我们在附录A中讨论了时间衰减因子α对ROC-AUC的影响。为了证明我们提出的方法的鲁棒性，我们将所有数据集的MStREA m-PCA，MStREA m-IB和MSt reA m-AE的输出维度设置为公共值12在每个方法和数据集上单独搜索我们将实值列减少到12维，然后将这些列与分类列一起传递给MSt R e A m。关于改变输出尺寸数量的结果可参见附录。对于MStRE m-PCA，我们使用scikit-learn[48]库中 MSt R e A m-AE和MSt R e A m-IB的参数见附录C。我们使用作者提供的DenseAle R t和Ran-dom Cut Forest的开源实现，遵循原始论文中建议的参数设置。对于椭圆包络，局部离群因子和隔离森林，我们使用scikit-learn [48]库中的开源实现我们还将真实异常百分比传递给椭圆包络、局部离群值因子和隔离森林方法，而其余方法不需要异常百分比。除非明确说明，否则所有实验对每个参数组进行5次，并报告平均值和标准偏差值5.1异常检测性能图2绘制了CICIDS-DoS数据集上MSt R e A m、MSt R e A m-PCA、MSt R e A m-IB和MSt R e A m-AE的ROC曲线以及基线、椭圆包络、局部离群值因子、隔离森林、密集森林和随机切割森林。我们看到，MSt re A m、MSt REA m-PCA、MSt REA m-IB和MSt re A m-AE实现了高得多的ROC-AUC（0. 920. 95）与基线相比MSt R e A m及其变体的AUC比DenseAle R t高至少50%，比随机切割森林高11%，比分离森林高26%，比椭圆包络高23%，比局部离群值因子高84%。图2：CICIDS-DoS数据集上的ROC。表3显示了KDDCUP 99、CICIDS-DoS、UNSW-NB 15和CICIDS-DDoS数据集上的椭圆包络、局部离群值因子、隔离森林、密集森林、随机切割森林和MSt re am的AUC我们报告局部离群值因子和密度因子的单个值，因为这些是非随机方法。我们还报告了随机切割森林的单个值，因为我们使用了原始实现的参数和随机种子。DenseAleR t在KDDCUP 99等小型数据集上表现良好，但随着维度的增加，其性能会下降。在大型CICIDS-DDoS数据集上，DenseAle R t内存不足。我们观察到，MSt R e A m在所有数据集上都优于所有基线。通过学习特征之间的相关性，MSt R e A m-AE 比MSt r e a m 获得更高的ROCAUC，并且比MSt R e A m-PCA和MSt R e A m-IB性能更好。我们还在附录D中讨论了以流式方式评价ROC-AUC。图3绘制了ROC-AUC与CICIDS-DoS数据集上不同方法的运行时间（对数标度，以秒为单位，不包括I/O）。我们看到，与基线相比，MSt R e A m、MSt R e A m-PCA 、MSt R e A m-IB和MSt R eAm-AE实现了高出11%至90%的AUC，同时也快了几乎两个数量级。5.2扩展性表4显示了在KDDCUP99、CICIDS-DoS、UNSW-NB15和CICIDS-DDoS数据集上运行椭圆包络、局部离群因子、隔离森林、密集森林、随机切割森林、MSt re A m和MSt re A m-AE所需的时间。我们可以看到，MSt R e A m的运行速度比基线快得多：例如，MSt R e A m比基线快79倍。椭圆LOFI-ForestDAlertRCFT女士MST ream-PCAMST扩髓-IBMST扩髓-AEKDD0。34± 0。0。340。500。81± 0。0。920。610。630。830。91± 0。0。92± 0。0000。96± 0。0。96± 0。WWWSiddharth Bhatia、Arjit Jain、Pan Li、Ritesh Kumar和Bryan Hooi3378表4：每种方法在不同数据集上的运行时间（秒）。椭圆LOFI-ForestDAlertRCFT女士MST ream-PCAMST扩髓-IBMST扩髓-AE第216章.314788二百三十4341. 8181. 6四、3二、53. 13. 1DoS4558398. 8384. 8333. 4459 410. 4二、13. 7五、1第654章. 62091年1627. 4329. 6683. 812个。8第六章688DDoS攻击3371. 4小行星155773295 8−−4168号861岁。6十六岁9二十五627岁7这证实了MSt_R_A_m相对于输入数据中的维数的线性可1 10 100 1000运行时间图3：CICIDS-DoS数据集上的ROC-AUC与时间12108642010 20 30 40 50 60 70 80诸多层面图5：MST_（max）与二进制数呈线性在KDDCUP99数据集上的密度。MSt R e A m-PCA、MSt R e A m-IB和MSt R e A m-AE结合了降维，因此比MSt R e A m更快：例如，MSt R e A m-AE为1。在KDDCUP99数据集上，比MSt R e A m快38倍，比DenseAle R t快110倍。图4显示了MSt R e A m相对于流中记录数量的可伸缩性（对数尺度）。我们绘制在（按时间顺序）前2 12，2 13，2 14，.上运行所需的时间， 2 CICIDS-DoS数据集的20条记录。每个记录有80个维度。这确认，公司的线性可扩展性的MSt R e一个相对于在输入流中的记录的数量，由于其恒定的处理时间，每个记录。10001001010.10.011K 10K 100K 1,000K 10,000K的记录CICIDS-DoS中的mensions。图6示出了MSt_R_A_m相对于散列函数的数量的可缩放性（线性缩放）。我们绘制了使用2，3，4个哈希函数在CICIDS-DoS数据集上运行所需的时间。这证实了MSt_R_e_m相对于散列函数的数量的线性可伸缩性。2016128401 2 3 4 5数量的散列函数图6：MST_n与CICIDS-DoS中的哈希函数数量呈线性关系。由于MSt reA m-PCA，因此适用MStREA m-IB和MSt reA m-AE图四：MST_（max）与MStR eA m对使用CICIDS-DoS中的记录。图5显示了MSt R e A m相对于维数的可伸缩性（线性尺度）。我们绘制了前10，20，30，...，CICIDS-DoS数据集的80个维度。自动编码器，它们也是可扩展的。图7绘制了处理CICIDS-DoS数据集中每条记录所用时间（以微秒为单位）的频率分布。MStR eA m在10µs内处理957K条记录，在100µs内处理 60K条记录，在1000µs内处理剩余的30K条记录运行时间ROC-AUC运行时间0.920.940.950.930.830.730.750.610.5运行时间李明博女士斜率=ᴀᴍ0.1284M-应力斜率=eam3.4928椭圆MStreamLOFMStream-PCAI-ForestMStream-IBDenseAlert随机切割森林MStream-AE10.750.50.250苏丽珍女士斜率ᴇᴀᴍ= 1个MSTREAM：多方面流WWW3379∼100万500K0K<1010 - 100 100 - 1000运行时间（μs）图7：处理时间分布1. 05个月CICIDS-DoS数据集的记录5.3发现我们使用椭圆包络、局部离群因子、隔离森林、密集森林、随机切割森林和MSt re am在图8中的CICIDS-DoS数据集上绘制了随时间推移的归一化异常分数。为了可视化，我们通过获取每分钟的最大异常分数来汇总每分钟发生的记录，总共565分钟。地面真值由在y=0（即正常）或y=1（异常）处绘制的点指示局部离群因子和密集因子不会遗漏许多异常，而椭圆包络、隔离森林和随机切割森林会输出许多与任何攻击无关的高

下载后可阅读完整内容，剩余1页未读，立即下载