基于内存的流媒体异常检测

10 浏览量更新于2023-11-29 收藏 984KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

610→MemStream：基于内存的流媒体异常检测西达斯·巴蒂亚新加坡国立大学siddharth@comp.nus.edu.sg川口健二印度孟买ArjitJainIITarjit@cse.iitb.ac.in希文·斯里瓦斯塔瓦新加坡国立大学shivin@comp.nus.edu.sg布莱恩·胡摘要美国哈佛大学kkawaguchi@fas.harvard.edu新加坡国立大学bhooi@comp.nus.edu.sg1引言在一个存在概念漂移的多维数据集中，给定一个随时间变化的条目流，我们如何检测异常活动？大多数现有的无监督异常检测方法寻求以离线方式检测异常事件，并且需要大量的数据用于训练。这在我们以流方式接收数据并且事先不知道流的大小的现实生活场景中是不实际的。因此，我们需要一种数据高效的方法，可以在线检测和适应不断变化的数据趋势或概念漂移。在这项工作中，我们提出了MemS T，一个流异常检测框架，使我们能够检测到不寻常的事件，因为它们发生的同时具有弹性的概念漂移。我们利用去噪自动编码器的功能来学习表示，并利用内存模块来学习数据中动态变化的趋势，而无需标签。我们证明了有效的漂移处理所需的最佳内存大小。此外，MemStre A m利用两种架构设计选择来对存储器中毒具有鲁棒性。实验结果表明，我们的方法相比，国家的最先进的流基线使用2个合成数据集和11个真实世界的数据集的有效性。CCS概念• 计算方法学异常检测;在线学习设置。关键词异常检测，流，概念漂移ACM参考格式：Siddharth Bhatia 、 Arjit Jain 、 Shivin Srivastava 、 Kenji Kawaguchi 和BryanHooi。2022. MemStream：基于内存的流异常检测。在ACM WebConference 2022（WWW '22）的会议记录中，2022年4月25日至29日，虚拟活动，法国里昂。ACM，纽约州纽约市，美国，12页。http：//doi.org/10.1145/3485447.3512221本作品采用知识共享署名国际协议（Creative Commons AttributionInternational）授权4.0 执照WWW©2022版权归所有者/作者所有。ACM ISBN978-1-4503-9096-5/22/04。https://doi.org/10.1145/3485447.3512221异常检测是许多领域中的一个基本且经过充分研究的问题，例如网络安全[11，69]，视频监控[42，54]，金融欺诈[67]和医疗保健[61]。在监督学习设置中训练的传统分类器由于冷启动问题，即，异常数据的量通常不足以训练模型。因此，异常检测器在非监督设置中被训练，其中正常数据分布被学习，并且在该分布下不太可能出现的实例被识别为异常。开发用于处理多方面数据（即具有多个特征或维度的数据）的有效方法仍然是一个挑战。这在无监督设置中尤其如此，其中传统的异常检测算法，例如One-Class SVM，由于维数灾难而往往表现不佳。深度架构（如Autoencoder [31]）由于能够学习多个表示级别，因此与浅层次架构相比，能够实现更好的性能[10]。对于异常检测，现有的基于深度学习的技术包括深度信念网络[23]，变分自编码器[3，76]，对抗性自动编码器[8，37，80]和深度一类网络[16、57]。当数据以流/在线方式到达并且我们希望实时检测异常时，异常检测的问题变得更加棘手。例如，网络安全中的入侵需要在它们到达时立即被检测到，以最小化所造成的伤害。此外，在流数据中，可能存在现有方法[12，27，30，43，45，47]无法完全处理的分布随时间的漂移。为了处理流媒体设置中的概念漂移，我们的方法使用了显式内存模块。对于异常检测，该存储器可用于存储正常数据的趋势，这些趋势用作判断传入记录的基线。在漂移设置中，只读存储器的用途有限，因此应该采用适当的存储器更新策略。记录随着时间的推移而到达;因此，内存中较旧的记录可能不再与当前趋势相关，这表明了先进先出的内存替换策略。内存的引入，与适当的更新策略，似乎解决了一些问题，在流异常检测与概念漂移。然而，到目前为止所描述的系统并不提供故障保险，611（···）X {···}WWW异常样本进入存储器，因此易受存储器中毒的影响。因此，我们提出MemStre A m，它使用去噪自动编码器[73]来提取特征，并使用存储器模块来学习动态变化的趋势，从而避免自动编码器的过度泛化（即，自动编码器很好地重构异常样本的问题）。我们的流框架是弹性的概念漂移，我们证明了有效的漂移处理的内存大小的理论界。此外，当到达的流与训练数据变得足够不同时，我们允许快速重新训练。我们还讨论了两种架构设计选择，使内存-字符串一个m强大的内存中毒。第一个修改防止异常元素进入存储器，第二个修改涉及如何在存储器包含异常元素的情况下进行自校正和恢复。最后，我们讨论了MemStre A m与最先进的流媒体基线相比的有效性。总之，我们的论文的主要贡献是：(1) 流异常检测：我们提出了一种新的流方法，使用去噪自动编码器和存储器模块，用于检测异常。MemStre A m对概念漂移有弹性，并允许快速重新训练。(2) 理论保证：在命题1中，我们讨论了有效处理概念漂移的最佳内存大小。在命题2中，我们讨论了架构设计背后的动机。(3) 对内存中毒的鲁棒性：MemStre防止异常进入内存，并可以自我纠正和从不良内存状态中恢复(4) 有效性：我们的实验结果表明，使用2个合成数据集（我们作为开源发布）和11个流行的真实世界数据集，Mem-Stre a m令人信服地优于11个最先进的基线复制：我们的代码和数据集可在www.example.com上获得https://github.com/Stream-AD/MemStream。2 相关工作[17]调查了传统的异常检测方法，包括基于重建的方法[14，28，32，33，39，40，81]，基于聚类的方法[1，6，34，75，83]，基于一类分类的方法[62，63，74]。还提出了几种基于深度学习的方法用于异常检测，例如基于GAN的方法[2，7，20，48，61，77，79]，基于能量的方法[36，80]，基于自动编码器的方法[3，24，66，68，76，82，84]和基于RNN的方法[60];参见[15 ，49] 的广泛调查。然而，基于深度学习的方法，如MemAE [24]，并不以流的方式处理数据，并且通常需要大量的离线训练数据，而我们以在线的方式处理数据。此外，我们提供了理论分析和强大的记忆中毒。异常检测本身是一个庞大的主题，无法在本文中完全涵盖;在本节中，我们的综述主要集中在可以检测包含概念漂移的流中的异常的方法;概念漂移文献见[29，41]，检测流中概念漂移的不同方法见[5，9，18，50，64]。对于基于密度的方法，局部异常值因子（LOF）[13]估计每个点的局部密度，然后将异常识别为局部密度比其相邻点低得多的点。DILOF[47]改进了LOF和LOF变体[53，58]，采用了一种新的基于密度的采样方案来总结数据，而无需对数据分布进行预先假设。LUNAR [26]是一种结合了深度学习和LOF的混合方法然而，基于LOF的方法只适合于低维数据，由于维数灾难。隔离森林（IF）[38]通过随机选择特征并在随机分割点处分割它们来构建树，然后将异常定义为在低深度值处与其余数据分离的点。 HS-Tree [70]使用具有滑动窗口的随机构造的半空间树的集合来检测不断变化的流数据中的异常。iForestASD [21]使用滑动窗口框架方案来处理异常数据。随机采伐森林[27]试图通过创建数据的多个随机切割（树）并构建这样的树的森林来确定点是否异常来进一步改进IF。最近，[30]表明，一次只分裂一个变量会在IF中引入一些偏差，这些偏差可以通过使用超平面切割来克服。扩展隔离森林（Extended IsolationForest）其中，分割准则基于在随机选择的变量的线性组合上设置的阈值，而不是每次基于单个变量值的阈值。然而，这些方法通过遍历由最大深度参数和滑动窗口的大小限定的树结构来计算异常分数，因此它们不捕获长程依赖性。流行的流方法包括STORM [4]，它使用滑动窗口来检测数据流中相对于当前窗口的基于全局距离的离群值。 RS-Hash [59]在集合中使用子空间网格和随机散列来检测异常。对于集合中的每个模型，使用特征和数据的子集构建网格，使用随机散列来记录网格单元中的数据计数，并且数据点的异常得分是其散列箱中的频率的对数。LODA [52]通过产生数据的许多随机投影，然后计算每个投影的密度估计直方图来生成几个弱异常检测器根据每个点的每个直方图，产生的离群值得分是平均负对数似然xStreA m[43]通过使用流式随机投影方案和半空间链的集合MStreA m [12]执行特征提取，然后检测多方面流中的组异常Kitsune [45]是用于实时异常检测的轻量级自动编码器的集合。我们在第5节中对所有这些方法进行了比较。3问题设=x1，x2是以流方式到达的记录。每个条目x i=x i1，，x id由d个属性或维度组成，其中每个维度可以是分类的（例如， IP地址）或实值（例如，平均分组长度）。我们的目标是检测流数据中的异常真实世界数据中的一个常见现象是流的性质随时间而变化。这些变化一般用河流的统计特性来描述，如平均变化MemStream：基于内存的流媒体异常检测WWW612（）（）（）−（）在某些或所有特征中。随着正常行为的“概念”的定义发生因此，我们需要一个能够适应动态趋势的模型，从而识别异常记录。4算法4.1动机表1：简单的玩具示例，由一个随时间变化的记录流组成，在t=6时发生趋势转移。时间特征1功能2功能3.十八岁391.四四四。16···26岁。724. 553. 49···33. 492. 101. 56···44.280. 641. 22···五点五542. 406. 55···6183. 75132. 039. 86···7146. 47128. 4916. 52···8197. 9697。十六十五05···九千一百九十二。5089. 九五十二46···10158. 3210. 3715. 76···假设一个攻击者破解了一个特定的IP地址，并使用它在服务器上发起拒绝服务攻击现代网络安全系统经过训练可以检测和阻止此类攻击，但随着时间的推移，这一点变得更具挑战性，例如。识别攻击机器的能力。这是一种“概念”漂移，安全系统必须学会识别这种变化趋势，以减轻攻击。考虑表1中的玩具示例，其包括多维时间数据流。从时间t = 5到t = 6，所有属性都存在突然的分布变化和概念漂移。算法的主要挑战是检测这些类型记录的时间连续性这是通过遵循先进先出（FIFO）内存替换策略来实现的。4.3特征提取神经网络可以使用由两部分组成的自动编码器来学习表示-编码器和解码器[25]。编码器形成输入样本的中间表示，并且解码器被训练为从输入样本的中间表示重构输入样本。去噪自动编码器[73]在输入数据通过编码器之前部分地破坏了输入数据。直观地说，这“迫使”网络捕捉输入分布中的有用结构，推动它学习输入的更鲁棒的特征。在我们的实现中，我们使用加性各向同性高斯噪声模型。MemStreA m允许在特征提取主干的选择中的灵活性我们认为主成分分析（PCA）和信息瓶颈（IB）[35，72]是自动编码器的替代品，用于特征提取[12]。基于PCA的方法对于现成的学习是有效的，几乎没有超参数调整。信息瓶颈可以通过提出以下优化问题来学习有用的特征：最小I X;T βI T;Yp（t|（x）其中X、Y和T是随机变量。T是X的压缩表示，I X; T和I T; Y分别是X和T以及T和Y的互信息，β是拉格朗日乘子。问题的结构和可用的数据极大地影响了特征提取算法的选择我们在5.5节中评估了提取特征的方法。4.4存储器基于存储器的表示：存储器M是N个实值D维向量的集合，其中D是编码z的维度。给定一个表示z，去找K-near estneigh b ours{zt，zt.. . 在M中的z的z≠t}，在合适的时间范围内以流式方式对模式进行分析也就是说，算法不应该对1.1范数，使得：12K短期内改变基数分布，也不宜采取||zˆt−z||1≤.. . ≤||zˆt-z||1太久了，不能适应动态发展的请注意，我们不希望1K先验地对我们想要检测的异常活动的持续时间或窗口大小设置任何限制，在该窗口大小之后，模型应该被更新以解释概念漂移。4.2概述如图1所示，所提出的MemStre算法通过使用最初在正常数据的一个小子集上训练的记忆增强特征提取器来解决这些问题。存储器充当正常数据的编码的储备在高级别上，特征提取器的作用是捕获正常数据的结构然后，通过基于其编码的相似性计算折扣分数来对传入记录进行评分，所述相似性被评估为与存储器中的相似性进行比较。基于该分数，如果记录被认为是正常的，则其用于更新存储器。为了适应不断变化的数据趋势，需要存储器来跟踪数据从原始分布的漂移。由于概念漂移通常是一个渐进的过程，记忆应该保持超参数N表示存储器大小。该算法的性能取决于N的值;非常大或非常小的N值将阻碍性能。内存更新：在有限的流数据样本上训练的固定内存将无法处理概念漂移;因此，需要持续的内存更新。可以使用不同的存储器更新策略，例如最近最少使用（LRU）、随机替换（RR）和先进先出（FIFO）。我们观察到FIFO存储器更新策略，其中要添加的新元素替换存储器中最早添加的元素，在实践中工作良好。它可以很容易地处理流数据中的概念漂移，因为存储器保留了来自分布的最新非异常样本。我们将在5.5节中更详细地比较FIFO与LRU和RR策略。还值得注意的是，MemStre A m可以通过调整内存大小来轻松处理周期性模式：内存大小大于周期和采样频率的乘积应足以避免标记周期性模式。WWWSiddharth Bhatia、Arjit Jain、Shivin Srivastava、Kenji Kawaguchi和BryanHooi613D.（）下一页、（）/∈（）10）。最终的折扣分数以指数形式计算，12Ki=1我12图1：在对正常数据的一个小子集进行特征提取器的初始训练之后，MemStem分两步处理记录：（i）它通过查询存储器中记录编码的K个最近邻并计算折扣距离来输出每个记录的异常分数，以及（ii）如果异常分数在更新阈值β内，则它以FIFO方式更新存储器。异常的变化第5.2节评价了MemStre A m在定期设置中检测异常的能力。如算法1所示，自动编码器最初用少量数据训练，以学习如何生成数据嵌入（第2行）。使用相同的训练数据集初始化内存（第3行）。我们还存储了这个小训练数据集的平均值和标准差。当新记录到达时，编码器使用存储的平均值和标准偏差执行归一化，并计算压缩表示zt（第6行）。它然后通过查询来计算K-nearestneighbours（zt，···，zt），算法1：MemStreA m输入：数据记录流输出：每条记录的异常分数1 however，2特征提取器，fθ，使用数据D的小子集训练3Memory，M，初始化为fθ（D）4当接收到新样本xt时：5.提取特征：6zt=fθ（xt）1存储器（第8行），并计算它们的Kzt（线7.查询内存：1距离，8{zt，zt.. . zt}=K-在M中zt附近的最小值加权平均值（加权因子γ）（第12行）。这有助于使-ING的自动编码器更强大。然后，折扣分数为9.计算距离：10R（zt，z<$t）=||对所有i ∈ 1。||1foralli∈1. . K与用户定义的阈值β（第14行）进行比较，我我11、分配折扣分数：如果分数小于或等于预定值，.Kγi−1R（zt，z<$t）K γi−1不要进入记忆。如果存储器被更新，则存储的平均值和标准偏差也相应地更新折扣分数作为记录xt的异常分数返回（第17行）。4.5理论分析4.5.1记忆容量与概念漂移的关系我们对记忆容量与概念漂移关系的分析表明，记忆容量应与数据的分布成正比i=113更新内存：14，如果得分zt <β则15将M中最早添加的元素替换为zt16分异常评分：17输出分数（zt）分布）/（概念漂移的速度当我们增加内存的大小时，我们可以降低假阳性的可能性（错误地将正常样本分类为异常）。这是因为新的数据点更有可能在较大的内存中具有接近点。因此，一方面，为了降低误报率，我们希望增加内存大小。另一方面，为了最小化假阴性率（即，当异常点出现时，命题1建议内存大小应该是小于与（分布的标准偏差）/（分布漂移的速度）成比例的某个量。也就是说，它建议存储器容量应小于2 σ d1 + α，其中d是输入维数，α度量分布漂移的速度，σ是分布的标准差，α 0，1 .更具体地说，在漂移正态分布下，该命题表明，τ漂移后的新分布和评分（zt）=落在β内（第15行）。此步骤可确保异常记录MemStream：基于内存的流媒体异常检测WWW614、（）/α≤≤[客户端]≤（−）∈x−µtd（1 +n）}。设（μt）t为序列，z[0]（x，z[l]（x，θ）=σstec[l]（x，θ）z[l]（x，θ）。=x，σ表示非线性函数。当τ> 2 σ d 1 + τ α时，τ漂移之前的原始分布是足够不相似的，因此记忆应该忘记原始分布以最小化假阴性率。我们还将在5.5节讨论增加内存大小的影响。建议我在1。（附录1中的专业术语）定义St t t ={x∈Rd：KDDCUP 99的冗余和重复记录。最近，[56] 建议在调查超过 30 个数据集后使用 UNSW-NB 15[46] 和CICIDS-DoS [65]此外，我们使用七个标准ODDS [55]数据集：电离层，心脏，卫星， Satimage-2 ， Mammograph ， Pima 和ForestCover。数据集的详细讨论见附录B。、、、除了这些标准数据集，我们还创建和使用存在一个正实数α，其中对于任何异常和T=10000个样本。该数据集的构造为t2 σ d（1 +π），且对所有t ∈ N +，xt<$N（μt，σI）.然后，一个斜率为2× 10−3的线性波的叠加，两个正弦，对于任何n> 0且t ∈ N+，概率至少为1 − 2 exp（−d <$2/8），以下成立：xt∈St，n且xt+τgSt，n。4.5.2架构选择。在下文中，我们提供了为什么使用具有d D的架构的一个原因，其中d是输入维度，D是嵌入维度。即命题（2）表明，如果d>D，则存在通过正常样本的扰动构造的异常，使得异常不可检测。在证明中构造一个异常确实是d> D的情况所独有的，并且不适用于dD的情况。这提供了为什么我们可能想要使用d D的架构的动机，以避免这种不可检测的异常。设θ 被固定。设f θ 深度神经网络f θ：时间周期为0. 2T和0。3 T和振幅8和4，以及来自标准正态分布的加性高斯噪声。10%的样本是随机选择的，并且用来自间隔3、6的均匀随机噪声扰动以模拟异常数据。图2显示了合成数据的散点图。异常样本占数据的10%，在散点图中用红点表示。研发. →使用ReLU和/或max-进行R D编译。合并为f θ：fθ（x）=σ[L]z[L]（x，θ），z[l]（x，.θ）=W<$[l]σ（l−1）z[l−1]（x，θ），对于l=由于ReLU和/或最大池化，W [l] R Nl ×Nl −1是连接第11层到第l层的权重参数的集合。对于由于ReLU和/或最大池化的非线性函数σ，我们可以定义σstec [l]（x，θ），使得σstec [l ]（x，θ）。]（x，θ）是一个双对角矩阵，对于fθ的任意可微点x，定义<$（x）={x′∈Rd：σstec[l]（x′，θ）=σstec[l]（x，θ）}和Br（x）={x′∈Rd：<$x−x′<$2≤r}。建议2. （证明见附录2）设x是可微的f θ的点，使得对于某些r > 0，dBr（x）≠ 0。如果d>D，则图2：合成数据集的散点图通过构造，合成数据分布随时间显著变化这种概念漂移的存在使得任务存在δ∈R 使得对于任意x∈Rd且β<$>0，具有挑战性，导致基线方法的性能较差，下式成立：δ2=r，R（x，x ∈）<β<$=<$R（x + δ，x ∈）<β<$。5次实验在本节中，我们旨在回答以下问题：(1) 与流式方法的比较：与最先进的流式基线方法相比，MemStreAm检测真实世界异常的准确性如何(2) 概念漂移：在概念漂移下，MemStre能以多快的速度适应？(3) 重新训练：重新训练MemStreA m对准确性和时间有什么影响？(4) 自我纠正和恢复：MemStre是否提供了一种自我纠正机制来从“坏”的记忆状态中恢复正如在实验中看到的。然而，MemStre A m，通过使用外显记忆，可以适应分布中的漂移，证明其在概念漂移设置中的有效性。实验设置。所有方法都为每条记录输出异常分数（越高越异常）。我们报告ROC-AUC（受试者工作特征曲线下的面积）。除非明确规定，否则每个参数组的所有实验均进行5次，并报告平均值。所有的实验都是在2。6 GHz英特尔酷睿i 7系统，16 GBRAM，运行Mac OS Catalina 10。15个。5. 遵循MStre A m，我们将PCA和IB的输出维度取为8。对于MemStre A m-PCA，我们使用scikit-learn中提供的开源实现[51]第51话主成分分析对于MemStre A m-IB，我们使用在线实现1用于底层信息瓶颈算法，其中β = 0。5和方差参数集到1.该网络被实现为2层二元分类器。为数据集：KDDCUP99[19]是一个流行的多方面异常描述，保护数据集。NSL-KDD[71]解决了一些固有的问题1https://github.com/burklight/nonlinear-IB-PyTorch合成数据集（我们计划公开发布），Syn有10%一，二，. . ，L，其中σ（0）每个元素是0或1，并且σ[1]WWWSiddharth Bhatia、Arjit Jain、Shivin Srivastava、Kenji Kawaguchi和BryanHooi615−--表2：MemStem和流式细胞术基线的AUC平均超过5次运行。0。7940。7030。955MemStre和 m，编码器和解码器被实现为具有ReLU激活的单层神经网络。我们使用AdamOptimizer来训练这两个β1= 0的网络。9，β2= 0。999. 网格搜索用于超参数调优：学习率设置为1e 2，epoch数设置为5000。内存大小N和阈值β的值可以在附录的表8中找到。在256、 512、 1024、 2048中搜索每个入侵检测数据集的内存大小。对于多维点数据集，如果数据集的大小小于2000，则搜索NKDD 99，MStre A m在DoS中表现良好，然而，注意Mem-Stre Am在AUC评分方面实现了与基线方法相比的统计学显著改善。此外，基线无法捕捉NSL，UNSW和Syn中复杂的漂移场景。表3：在NSL-KDD上运行MemS检测和流式基线所需的AUC-PR和时间。MemS T检验提供了统计学显著性（p值<0. 001）改进基线方法。在{4， 8， 16， 32， 64}中，如果它大于2000，则N为[2019 -05 - 15][2019 - 05 - 15][ 2019 -05 - 15]阈值β是一个IM-方法AUC-PR时间（s）重要参数，因此我们采用了一个更精细的搜索策略对于每个数据集和方法，在{10，1，0. 1，0。001，0。0001}。除非另有说明，否则AE用于风暴0. 681± 0。000 7540. 709± 0。063 306特征提取，输出维度D=2d，并具有FIFOiForestASD0. 534± 0。000 19876内存更新策略。对于所有实验，KNN系数γ设定为0对于合成数据集，我们使用N=16的内存大小。对于所有方法，在所有数据集上，使用的训练样本数量等于内存大小。RS-Hash0. 500± 0。140 892区域合作框架0。664± 0。006 665LODA0. 734± 0。067 2617魔女0。673± 0。000 821DILOF0. 822± 0。000 2605.1与流式传输方法的比较表2显示MemStreA m和现有技术流的AUCxStreAmMStreAm0。541± 0。070 340。510± 0。000 个。08设置基线。我们使用DILOF [47]，xStre A m [43]，MStre A m[12]，扩展隔离森林（Ex. IF）[30]，由作者提供，遵循原始论文中建议对于STORM [4]，HS-Tree [70]，iForestASD [21]，RS-Hash [59]，随机切割森林（RCF）[27]，LODA [52]，Kitsune [45]，我们使用开源库PySAD[78]执行，遵循原始参数。基线参数见附录D。 LODA无法处理大型UNSW数据集。Ex. IF和Kitsune无法在只有一个字段的数据集上运行，因此没有报告它们使用Syn的结果。RS-Hash中的随机子空间生成将许多不相关的特征包含到子空间中，而忽略了高维数据中的相关特征。LODA中的随机投影目标保留了原始空间的两两距离，因此无法提供精确的离群值估计。xStreA m在以下方面表现良好：Ex. 如果0. 659± 0。014 889MemS t0。959± 0。002 55表3报告了NSL-KDD数据集上MemStre A m和基线方法的运行AUC-PR评分，以及它们相应的运行时间。请注意，MEMSTREm不仅在AUC-PR上大大优于基线，而且还以时间有效的方式做到了这一点。5.2概念漂移接下来我们研究MemStreA m如图3（上图）所示，我们创建了一个合成数据集，该数据集涵盖了各种各样的漂移场景：（a）点异常：T=19000（b）突然的频率变化：方法KDD99NSLUNSWDoSSyn.离子。有氧饱和坐。-2妈妈皮马盖STORM（CIKM0。9140。5040。8100。5110。9100。6370。5070。6620。5140。6500。5280。778HS-树（IJCAI0。9120。8450。7690。7070。8000。7640。6730。5190。9290。8320。6670。731iForestASD（ICONS0。5750。5000。5570。5290。5010。6940。5150。5040。5540。5740。5250。603RS-Hash（ICDM0。8590。7010。7780。5270。9210。7720。5320。6750。6850。7730。5620。640RCF（ICML0。7910。7450。5120。5140。7740。6750。6170。5520。7380。7550。5710。586LODA（MLKitsune（NDSS0。5000。5250。5000。659– −0。5000。9070。5060。5030。5140。5010。9660。5000。6650。5000。9730。5000。5920。5020。5110。5000。888MemStream：基于内存的流媒体异常检测WWW616∈[]∈[]∈[]∈[]D、、、SK+1不5000， 10000（c）连续概念漂移：T15000， 17500(d)由于均值变化而引起的突然概念漂移：T12500， 15000。在T=12500和T=19000处剪切异常评分，以获得更好的可见性。MemStreA m能够处理所有上述概念漂移场景，如图3（底部）所示我们观察到，MemStreA m分配对应于趋势改变事件的高分（例如，T=1000、 5000、 10000等）其产生异常，然后随着其适应性地适应新的分布，此后分数逐渐降低。注意，MemStre也可以适应周期性流。对于正弦波T 1000、2000的第一周期，异常分数相对较高。然而，随着越来越多的正态样本从正弦分布中被看到，MemStreAm适应了它。图 3 ：（上图）：具有漂移的合成数据（底部）：由MemStem输出的异常评分，证明了对漂移的弹性。5.3再培训重新训练的需要在非常长的漂移流中特别普遍，其中在初始正常数据的小子集上训练的特征提取器开始面对与其训练数据充分不同的记录数据在这个实验中，我们通过定期重新训练其特征提取器来测试MemStre A m适应这种更具挑战性的设置的能力。以均匀分布在流上的规则间隔执行微调，即，为了在大小为S的流上实现k个微调，图4：再训练对CICIDS-DOS的AUC和时间的影响。是级联效应，其中越来越多的异常样本由于它们的相似性而取代存储器中的正常元素这可能最终导致存储器仅由异常样本组成的情况。这些“GroupAnomaly”事件在入侵检测设置中相当常见。我们表明，这个问题是缓解使用K-近邻在我们的方法。我们通过在初始化期间在存储器中添加第一个标记的异常元素来模拟上述设置。在表5中，高β允许异常元素也进入存储器。在不存在K-最近邻折扣（即，γ=0）的情况下，高β值算法屈服于上述场景，导致性能差另一方面，与贴现（即，γ<0）时，算法能够“恢复”自身，因此，性能不会受到注意，当阈值β在其适当范围内时，该算法对折扣因子γ的选择是鲁棒的。5.5消融(a) 内存更新：从计算机体系结构中的缓存替换策略中所做的工作中获得灵感，我们用最近最少使用（LRU）和随机替换（RR）策略取代FIFO内存更新策略。表6（a）报告了这三种情况下以及在KDDCUP99数据集上不执行内存更新时的结果。请注意，FIFO优于其他策略。这是由于FIFO策略的时间局部性保持属性以跟踪当前趋势。LRU和RR策略用于在流大小大于1M记录的CICIDS-DoS上微调MemStre am。请注意，随着我们增加MemStreA m微调的次数，我们观察到AUC的大幅增加，时间差可以忽略不计。5.4自我纠正和恢复考虑一个异常元素进入记忆的场景这一事件的一个特别灾难性的后果可能是从而无法了解变化趋势。(b) 特征提取：表6（b）显示了第4.3节中讨论的不同特征提取方法的实验。自动编码器优于PCA和信息瓶颈方法。(c) 记忆长度（N）：正如我们在第4.5.1节中指出的，增加N可以降低假阳性率，但也会增加假阴性率。我们在表6（c）中凭经验观察到这种效应第一次微调发生在. 图4显示了AUC和时间不维护存储器中的流的真实快照，WWWSiddharth Bhatia、Arjit Jain、Shivin Srivastava、Kenji Kawaguchi和BryanHooi617/(e)更新阈值（β）(f)KNN系数（γ）1 0.1 0.01 0.0010。980 0。938 0。9380.9380 0.25 0.5 10。980 0。939 0。9370.936表4：内存大小对NSL-KDD数据集上MemStem中AUC的影响电话：021 - 88888888传真：021-88888888AUC0. 6700。6490. 9320. 9360. 9230. 九五零零。9720. 9760. 9850. 9890. 991表5：当K=3时并且对于不同的折扣因子γ值，在存储器中添加异常元素之后，NSL-KDD数据集上的MemST检验的性能。γ高β（= 1）适当β（= 0. 001）00。7710. 9330。2508280. 9660。50. 8480. 96710. 8880. 965表6：KDDCUP 99上Mem-S植入物不同组件的消融研究。0。951其中，最佳点在N=256处，并且增加存储器长度进一步降低性能。表4中讨论了另一个实验，该实验证明了内存大小的影响。我们注意到，非常大或非常小的N值将阻碍算法性能，因为存储器将无法正确捕获当前趋势。一个非常大的另一方面，非常小的“N”将不允许来自当前趋势的足够代表，并且因此在两种情况下，算法的性能将是次优的。(d) 输出维度（D）：在4.5.2节中，我们解释了为什么我们使用D>= d的架构。在表6（d）中，我们比较了具有作为输入维度d的函数的不同输出维度D的架构。我们发现，D=d2优于一个架构，由于特征学习的降维。注意，MemStreA m对于大D表现良好。(e) 更新阈值（β）：更新阈值用于根据记录的异常得分判断记录是否异常，他们应该更新内存。高β对应于对存储器的频繁更新，而低β很少允许存储器更新。因此，β可以捕获我们关于内存更新频率的信念，或者流与初始数据分布的接近程度从表6（e）中，我们注意到，对于KDDCUP 99，漂移数据集，更灵活的阈值（β = 1）表现良好，更严格的阈值表现类似于没有内存更新（表6（a））。(f) KNN系数（γ）：在第5.4节中，我们讨论了KNN系数γ在自恢复机制中的重要性表6（f）比较了γ的不同设置，没有记忆中毒。第六章结论我们提出了MemStre A m，一种新的内存增强特征提取器框架，用于多维数据和概念漂移设置中的流异常检测。MemStre Am使用去噪自动编码器来提取特征，并使用具有FIFO替换策略的存储器模块来学习动态变化的趋势。此外，MemStre A m允许在到达流变得与训练数据充分不同时进行快速再训练。我们从理论上保证了理论规模与概念漂移之间的关系此外，MemStre A m通过使用（1）折扣K-最近邻存储器导致独特的自校正和恢复机制;（2）理论上有动机的架构设计选择来防止存储器中毒。MemStre Am优于11种最先进的流媒体方法。未来的工作可以考虑更定制的内存替换策略，例如。通过将不同的权重分配给存储器元件。引用[1] Charu C Aggarwal。2015年。离群值分析。数据挖掘。[2] Samet Akcay ， Amir Atapour-Abarghouei ， and Toby P Breckon. 2018.Ganomaly：通过对抗训练进行半监督异常检测。在ACCV。[3] 安镇元和赵成俊2015年。基于变分自动编码器的重构概率异常检测。关于IE的特别讲座（2015）。[4] 法布里奇奥·安祖利和法比奥·法塞蒂。2007年检测数据流中基于距离的离群值。在CIKM。[5] 白梁，程雪琪，梁继业，沈华伟。2016年。一种基于漂移概念的分类数据流聚类优化模型 TKDE（2016）.[6] 维克·巴内特和托比·刘易斯一九八四年统计数据中的离群值（1984年）。[7] 阿布·巴沙尔医生和里奇·纳亚克医生。2020年。TAnoGAN：使用生成对抗网络进行时间序列异常检测SSCI（2020）.[8] Laura Beggel，Michael Pfeiffer，and Bernd Bischl.2019年。使用对抗自编码器的图像鲁棒异常检测。在ECMLPKDD。[9] 安德拉斯河Benczúr，Levente Kocsis，and Róbert Pálovics.2019年。流学习中的强化学习、无监督方法和概念漂移。大数据技术百科全书。[10] 尤尼·本吉奥2009年学习AI的深度架构。Now Publishers Inc.[11] Siddharth Bhatia，Bryan Hooi，Minji Yoon，Kijung Shin，and ChristineFaloutsos.2020. MIDAS：基于微簇的边缘流异常检测器。在AAAI。[12] Siddharth Bhatia，Arjit Jain，Pan Li，Ritesh Kumar，and Bryan Hooi.2021. MSTREAM：多方面流中的快速异常检测The WebConf（WWW）（2021）.组件消融(a)存储器没有一LRURRFIFO更新0。9380。9460。9460。980(b)特征身份PCAIBAE提取0。8220。8630。9590。980(c)存储器1282565121024长度（N）0。

下载后可阅读完整内容，剩余1页未读，立即下载