无监督日志异常检测：基于隔离森林的深度学习模型

42 浏览量更新于2024-01-08 收藏 635KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

⃝可在www.sciencedirect.com上在线获取ScienceDirectICTExpress 6（2020）229www.elsevier.com/locate/icte无监督日志消息异常检测Amir Farzad，T.亚伦·格列佛电子和计算机工程系，维多利亚大学，邮政信箱1700，CANCSC，维多利亚，BC，V8W 2Y2，加拿大接收日期：2020年2月17日;接收日期：2020年6月11日;接受日期：2020年6月25日2020年7月2日在线发布摘要日志消息现在广泛用于云和软件系统。它们对于分类和异常检测非常重要，因为每天都会生成数百万个日志。提出了一种基于隔离森林和两个深度自动编码器网络的无监督日志异常检测模型。Autoencoder网络用于训练和特征提取，然后用于异常检测，而隔离森林用于阳性样本预测。该模型使用BGL，Openstack和Thunderbird日志消息数据集进行评估。获得的结果表明，预测为阳性的阴性样本的数量很低，特别是使用隔离森林和一个自动编码器时。此外，结果优于其他知名模型。c2020年韩国通信与信息科学研究所（KICS）。出版社：Elsevier B.V.这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。关键词：异常检测;分类;深度学习;日志消息;无监督学习1. 介绍软件系统和应用程序，如在线搜索引擎和云服务器，现在很普遍。可用性预计24/ 7，访问失败可能会给组织和客户造成相当大的困难。因此，花费了大量资金来维持这些服务的质量和可用性。这是通过使用生成的日志消息来指示系统状态来实现的。出于审计或安全目的存储记录称为日志[1]。每个日志记录语句都生成与特定任务相关的日志消息。非结构化日志消息由运行时数据组成，其中包括详细程度、时间戳和作为系统操作摘要的原始内容。这种结构在形式上可能会有很大的不同，这使得很难在这些日志中识别异常[2]。日志消息用于许多任务，例如性能监控[3]和异常检测[4，5]。大多数方法使用规则来检测日志中的异常，但这需要特定的领域知识[6]。有些只考虑一个日志组件，如时间戳或冗长，这降低了识别异常的能力。异常检测可以∗ 通讯作者。电子邮件地址：amirfarzad@uvic.ca（A.Farzad），agullive@ece.uvic.ca（T.A.格列佛）。同行评审由韩国通信和信息科学研究所（KICS）负责https://doi.org/10.1016/j.icte.2020.06.003手动完成，但由于数据的复杂性和数量，这对于大型框架来说是不可行的[7]。因此，需要自动日志分析技术来识别异常。深度学习（DL）采用具有多个连接层的网络，并且属于机器学习（ML）技术的类别。DL可以降低数据复杂度，并找到数据之间的相似性[8]。因此，DL技术非常适合大数据。它们还可以用于特征提取和降低数据维度[9]。DL在图像处理、文本分类和自然语言处理（NLP）方面的应用取得了优异的成绩[10]。这些技术可以分为生成，判别或混合方法。判别方法通常用于监督分类。生成方法是无监督的，通常用于揭示未标记数据中的模式。混合方法结合了判别和生成方法[11]。已经使用ML和DL算法开发了几种异常检测方法。高斯混合模型（GMM）和变分贝叶斯高斯混合模型（BGM）是已用于入侵检测系统的概率模型[12]。椭圆包络（EEnve- lope）在数据的质心周围生成椭圆空间，并已用于检测异常音频传感器[13]。局部离群因子（LOF）度量数据的局部偏差，并已用于检测2405-9595/2020韩国通信和信息科学研究所（KICS）。出版社：Elsevier B.V.这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。230A. Farzad和T.A.Gulliver/ICT Express 6（2020）229- −+交通数据异常[14]。单类支持向量机（OC-SVM）已用于网络中的异常检测[15]。[16]中提出了一种监督方法，用于使用决策树检测日志中的错误和异常。在[17]中提出了一种混合模型，使用K均值聚类和决策树来检测异常。[18]中提出的异常检测方法采用堆叠的长短期记忆（LSTM）网络。[19]中给出的在线方法采用了LSTM网络，并提供了比隔离森林更好的结果。Deeplog [20]使用深度学习LSTM网络来预测异常，但它具有高计算复杂性，并且仅使用正（正常）日志进行训练[21]。该模型使用正常和异常（负）日志进行训练，并具有较低的复杂度比其他DL算法在文献中。异常检测的主要挑战之一是处理未标记的数据。每天在云和其他系统中产生数百万条日志消息。不幸的是，标记这些日志的一小部分用于模型训练是不可能的。处理这种未标记数据的一种方法是使用无监督方法。隔离森林[22]是一种集成方法，可以隔离异常样本以检测异常。它已被用于传感器数据中的异常检测[23]和入侵检测[24]等任务。隔离森林具有较高的准确性和线性时间复杂度，但它可能对大型和复杂的数据表现不佳[25]。最近，在[26]中提出了扩展隔离森林，以改进隔离森林的异常检测。扩展隔离森林使用斜率和截距，而隔离森林使用属性和值。在[27]中提出了功能隔离森林，以使用隔离森林检测功能数据中的异常。在这个模型中，使用功能隔离树的集合来检测异常[27]。隔离森林用于发现异常数据，但本文使用它来检测正常数据与阈值。自动编码器[28]用于提取隔离森林的特征。自动编码器是一种前馈人工神经网络（ANN），可以学习数据特征[29]。这些网络已被用于许多任务，包括插值[30]，表示学习[31]和生成建模[32]。在自动编码器网络中，代码层（隐藏层）用于特征提取和降维，因此该层的大小通常很小[33]。然而，在本文中，最后一层输出用于提取1. 隔离森林用于查找正日志而不是异常。2. 自动编码器网络用于提取隔离森林的特征。所提出的架构包括两个自动编码器网络和隔离森林。使用自动编码器进行特征提取有两个主要优点。首先，它改进了隔离森林的结果，因为单独的隔离森林不能为日志消息异常检测提供良好的结果。以前没有研究过自动编码器与隔离森林的使用此外，隔离森林用于预测正数据而不是负数据，并采用阈值。其次，自动编码器非常适合将异常数据与正常数据分离，因此使用两个自动编码器来提供更好的分离。本文的其余部分组织如下。在第2节中，介绍了隔离森林和自动编码器架构，并描述了所提出的模型。三个数据集的结果和讨论见第3节。最后，在第4节中给出了一些结论性意见。2. 系统模型在本节中，隔离森林和自动编码器架构与建议的模型一起给出2.1. 孤立森林隔离森林[22]是一种用于检测异常的集成方法。它从一个随机属性开始，并在最低值和最高值之间选择一个分区，以分离样本。这一直持续到样品被分离。隔离森林是通过增加许多隔离树分为不同的属性。隔离样本所需的分区数量等于从根传递到叶的路径长度隔离树技术基于额外树[34]。在隔离树中，每个分区都是随机的。位于根附近的样品，即其路径短，意味着它更容易区分，因此更容易从更深叶中的样品中分离。预期异常（异常样本）将具有比正（正常）样本更小的平均路径长度。当样本位于树中的叶子深处时，得分将较低（接近0），而如果样本较浅，则得分将较高（接近1）。具有隔离森林的样本x的异常分数为−E（h（x））因此代码层不必小于输入。s（x，N）=2c（N）、（1）此外，大多数最先进的ML/DL方法（如Deeplog）使用定制的解析模型，但在所提出的模型中，只采用了简单的预处理文本日志。该模型的评估使用准确率，精度，召回率和F-测量指标与三个日志消息数据集，其中N是森林中每棵树中训练的样本数量，E（h（x））是所有树中路径的平均长度，c（N）是归一化因子，即[35]如果N>2，则H（N−1）−2（N−1）/N，=即BlueGene/L（BGL）、1Openstack2和Thunderbird。3本文的主要贡献如下。c（N）=1如果N2，否则，1 https：//github. com/logpai/loghub/tre/master/BGL2 https：//github. com/logpai/loghub/tre/master/OpenStack3 https：//github.com/logpai/loghub/tree/master/Thunderbird（二）其中H（N1）是由ln（N1）0给出的调和数。5772156649.A. Farzad和T.A.Gulliver/ICT Express 6（2020）229231Fig. 1. 具有输入层、输出层和一个隐藏层的自动编码器架构。2.2. 自动编码器架构自动编码器[28]是一个前馈多层神经网络，具有相同数量的输入和输出单元。使用损失函数进行训练，以确保输出接近输入。目的是学习一个紧凑的表示，同时最大限度地减少输入数据的错误。深度自动编码器是一个有多个隐藏层的自动编码器[36]。如果采用多个编码器和解码器层，则它可以表示复杂的分布。编码器和解码器输出为y=a（W x+b），（3）和z=a（W′y+b′），（4）其中x是输入，W是编码器权重矩阵，b是编码器偏置向量，W'是解码器权重矩阵，b'是解码器偏置向量，并且a是激活函数。图1显示了一个自动编码器的架构，它有一个输入层、输出层和一个隐藏层。2.3. 该模型所提出的无监督异常检测模型包括两个深度自动编码器网络和一个隔离森林。首先，对数据集进行文本预处理，包括标记化和将字母改为小写。接下来，句子被填充到40个单词，少于5个单词的句子被删除。然后计算词频并对数据进行混洗。接下来，将数据集归一化并在0和1之间缩放。然后将其划分为第一个训练集t1（对于BGL和Thunderbird，约为0.5%第二训练集t2（BGL和Thunderbird约为2%，Openstack为17% ）和测试集 t3 （ BGL 和 Thunderbird 约为 97.5% ，Openstack为78%）。这些数据集中正对数和负对数的比例与原始数据集中的比例相同。集合t1和t2很小，因为它们的大小影响算法的速度。BGL和Thunderbird的数据集比Openstack大，因此用于这些数据集的数据比例较小。此外，Openstack数据集很小，因此需要更大比例的数据来训练收敛。第一个自动编码器用于以无监督的方式从少量数据中提取特征。它使用t1（包含正和负日志消息）进行训练。这个自动编码器有一个512个单元的编码器层和L1正则化器，后面是一个256个单元的解码器层。输出层与输入层大小相同，均为40个单元。使用分类交叉熵损失函数、Relu激活函数和ADAM优化器来训练该模型，批量大小为64，最多500个训练epoch。使用ADAM优化器是因为它在DL算法中具有快速收敛和良好的性能[37]。早期停止用于防止过拟合。在训练第一个自动编码器之后，第二个训练集t2和测试集t3被馈送到这个自动编码器中以提取特征（作为与输入具有相同大小的最后一层输出），分别表示为f2和f3。特征集f2被送入具有100个隔离树的隔离森林，并使用f3进行测试以预测数据。接下来，从隔离森林输出中随机选择肯定预测数据的百分比（BGL和Thunderbird为30%，Openstack为70%），并将其表示为作为p1。剩余的正预测数据和负预测数据被表示为 p2。p1用于训练第二个Autoencoder，它与第一个Autoencoder具有相同的架构。训练epoch的最大数量是100，并且使用早期停止来防止过拟合。在训练第二自动编码器之后，将p1输入到该自动编码器以提取特征（作为经训练的自动编码器的最后一层输出），其被表示为o1，然后将p2输入到该自动编码器，并且所提取的特征被表示为o2。使用阈值检测异常。为了确定阈值，计算o1中每个样本的特征值的平均值和标准差。阈值由下式给出：T=标准v×c，（ 5）其中stdv是使用隔离森林（o1）预测的阳性数据的标准差，c是常数。对于未标记的数据，可以基于最终预测的测试数据来估计该常数。在数据集中，已知大约10%的数据是负的，其余的是正的。因此，可以基于所获得的百分比来选择常数。较大的数据集（BGL和Thunderbird）被分成较小的数据集，并用于所提出的模型。发现较小的数据集需要较大的常数。根据结果，BGL，Thunderbird和Openstack的常数为c= 0。5、0.1和5。232A. Farzad和T.A.Gulliver/ICT Express 6（2020）229====算法1提出的模型算法要求：第一个训练集：t1;第二个训练集：t2;测试集：t3。一曰：对于时代做2：使用t1训练第一个自动编码器。第三章：分别使用t2和t3计算f2和f3第四章：用f2训练隔离森林，用f3测试.5：随机选择一个百分比的正预测日志作为p1，剩余的预测日志为p2。第六章：对于时代做7：使用p1训练第二个自动编码器。第八章：分别用p1和p2计算o1和o29：计算o1中每个样本的特征值的平均值和标准差，并使用（5）确定阈值。10：计算o2中每个样本的特征值的平均值。11：如果平均值小于阈值，则将样本标记为异常。第二个自动编码器需要更少的时期来训练，因为特征已经用第一个自动编码器提取。此外，第二个自动编码器的输入数据比第一个自动编码器多，通常深度学习算法需要大量数据才能正常工作。该模型的损失和准确性被用来确定历元的数量。所提出的模型算法在算法1中给出，所提出的模型的架构在图1中给出。二、3. 结果在本节中，使用BGL、Openstack和Thunderbird数据集对所提出的模型进行评估。使用准确率、精确率、召回率和F-测度四个标准来评估性能。准确度是正确预测的数据百分比，由下式给出：ATp+Tn，（6）Tp+Tn+Fp+ Fn其中Tp是由模型预测为正的正样本的数量，Fp是预测为正的负样本的数量，Tn是预测为负的负样本的数量，并且Fn是预测为负的正样本的数量。精密度表示为PTp，（7）Tp+ Fp回忆一下，RTp.（八）Tp+ FnF测度由下式给出：F2×P×R。（九）P+ R所有实验都在具有24个CPU核心，4个P100 GPU和125GB内存的Compute Canada Cedar集群上运行，算法使用Keras4和Scikit-learn中的Python实现。5所提出的模型的超参数没有调整，因此对于所有数据集，都使用默认值。每个实验重复10次，得到最小、最大和平均测试准确度、精确度、召回率、F-测度和时间。表1给出了BGL、Openstack和Thunderbird数据集的结果，(b)具有一个自动编码器的隔离森林，以及（c）具有两个自动编码器的隔离森林（建议模型）。对于单独的隔离森林，将第一训练集t1输入到隔离森林，并使用测试集t3获得结果。对于具有一个自动编码器的隔离森林，第一个训练集t1被输入到第一个自动编码器进行训练。然后将第二个训练集t2和测试集t3输入到这个经过训练的自动编码器进行特征提取，分别给出f2和f3然后将f2送入隔离森林进行训练，并使用f3获得结果。具有两个自动编码器的隔离森林表示使用阈值（建议模型）使用第二个自动编码器3.1. BGLBlueGene/L（BGL）数据集有4，399，502个正对数和348，460个负对数。其中，23，997个日志用于第一个训练集，93，551个用于第二个训练集，其余4，630，414个用于测试。在隔离森林模型下，负日志的平均测试准确率为88.7%，平均精确率、召回率和F-测度分别为28.9%、36.6%和32.3%，正日志的平均精确率、召回率和F-测度分别为94.8%、92.8%和93.8%。在隔离森林和一个自动编码器的情况下，平均测试准确率为90.8%，负日志的平均精确率、召回率和F-度量分别为42.7%、76.5%和54.3%，正日志的平均精确率、召回率和F-度量分别为98.0%、91.9%和94.9%。使用隔离森林和两个自动编码器，平均测试准确率为99.6%，平均精确度，召回率和F-测量分别为96.8%，98.7%和98.1%的负日志，99.8%，99.7%和99.8%的正日志。负日志的精确度，召回率和 F- 测量结果分别优于nLSALog算法[38]的82.5%，94.7%和88.2%，以及SVM无监督学习[39]的83%，99%和91%。对于负日志的精确度，召回率和F-测量结果也分别优于92%，91%和92%，改进的K近邻监督算法[40]。实验也进行了几个众所周知的铝出租异常检测。采用变分贝叶斯高斯混合模型（BGM）、椭圆包络（EEnvelope）、高斯混合模型（GMM）、4 https：//github. com/keras-team/keras5 https：//github. com/scikit-learn/scikit-learnA. Farzad和T.A.Gulliver/ICT Express 6（2020）229233图二. 所提出的模型的架构：（a）具有一个自动编码器的隔离森林，以及（b）用于异常检测的第二个自动编码器（隔离森林与两个自动编码器）。表1（a）隔离森林、（b）具有一个自动编码器的隔离森林和（c）具有一个自动编码器的隔离森林的测试准确度、精确度、召回率、F度量和时间两个自动编码器。10次运行的BGL、Openstack和Thunderbird数据集的最小值、最大值和平均值（括号内）。积极标号用1表示，负标号用0表示。（个）表2中给出了使用10倍交叉验证的K均值、局部离群因子（LOF）和单类支持向量机（OC-SVM）算法。结果表明，该模型的性能明显优于上述算法.注意，由于这些算法的高计算复杂度，只有5%的数据集用于LOF和OC-SVM。3.2. OpenStackOpenstack数据集有137，074条正日志消息和18，434条负日志消息。其中，7353个日志用于第一训练集，26,545个用于第二训练集，其余121,610个用于测试。在隔离森林模型下，平均测试准确率为86.9%，标签精度召回F测量时间028.1%-（28.9%）-29.7%35.2%-（36.6%）-38.1%31.2%194.7%-（94.8%）-95.0%92.8%-（92.8%）-92.9%93.7%-（93.8%）-93.9%054.5%-（59.2%）-64.0%52.5%-（57.6%）-62.8%53.5%192.1%-（92.9%）-93.8%92.7%-（93.4%）-94.1%92.4%-（93.1%）-93.9%029.9%-（30.8%）-31.8%19.3%-（19.6%）-20.0%23.5%184.8%-（84.8%）-84.9%90.8%-（91.0%）-91.3%87.7%-（87.8%）-88.0%040.2%-（42.7%）-45.2%57.1%-（76.5%）-95.9%47.2%196.5%-（98.0%）-99.6%90.6%-91.9%-93.3%94.9%-（94.9%）-94.9%066.9%-（67.1%）-67.3%99.4%-（99.5%）-99.7%80.1%199.5%-（99.7%）-99.9%91.8%-（91.8%）-91.9%95.5%-（95.6%）-95.7%045.6%-（49.9%）-54.2%41.9%-（49.6%）-57.4%43.7%188.4%-（89.8%）-91.2%89.5%-（90.7%）-92.0%89.1%-（89.9%）-90.8%数据集测试精度BGL88.6%-（88.7%）-88.8%（一）OpenStack86.9%-（86.9%）-87.0%雷鸟78.8%-（79.0%）-79.3%BGL90.6%-（90.8%）-91.0%（b）第（1）款OpenStack92.9%-（92.9%）-93.0%雷鸟81.8%-（82.9%）-84.1%BGL99.4%（c）第（1）OpenStack98.4%234A. Farzad和T.A.Gulliver/ICT Express 6（2020）229表2BGL数据集的平均测试准确率、精确率、召回率、F-度量的结果和时间的BGM，EEnvelope，GMM，K-means，LOF和OC-SVM算法使用10倍交叉验证。正标签用1表示，负标签用0表示。（个）18表3Openstack数据集的结果，具有BGM、EEnvelope、GMM、K-means、LOF和OC-SVM算法的平均测试准确度、精确度、召回率、F-测量和时间，使用10倍交叉验证。正标签用1表示，负标签用0表示。（个）0对负日志的准确率、召回率和F-测度分别为59.2%、57.6%和58.4%;对正日志的准确率、召回率和F-测度分别为92.9%、93.4%和93.1%。使用隔离森林和一个自动编码器，平均测试准确率为92.9%，平均精确率，召回率和F-测量分别为67.1%，99.5% 和80.2%，对于阴性日志，99.7%，91.8%和95.6%。使用隔离森林和两个自动编码器，平均测试准确率为99.1%，平均精确度，召回率和F-测量分别为96.1%，97.5%和96.8%的负日志，99.6%，99.3%和99.4%的正日志。负日志的精确度，召回率和F测量结果与Deeplog网络获得的94%，99%和97%相似[20]。实验还进行了几个著名的异常检测算法。使用BGM，EEnvelope，GMM，表3中给出了使用10倍交叉验证的K均值、LOF和OC-SVM算法。结果表明，该模型的性能明显优于上述算法.3.3. 雷鸟Thunderbird 数据集有 3 ， 000 ，000 个正日志消息和600，000个负日志消息。其中，17，000条消息用于第一个训练集，65，700条用于第二个训练集，其余3，517，300条用于测试。在隔离森林模型下，负日志的平均测试准确率在隔离森林和一个自动编码器的情况下，平均测试准确率为82.9%，负日志的平均精确率、召回率和F-measure分别为49.9%、49.6%和49.3%，正日志的平均精确率、召回率和F-measure分别为89.8%、90.7%和89.9%。使用隔离森林和两个自动编码器，平均测试准确率为99.4%，标签精度召回F测量时间042.8%60.0%50.0%1百分之七十一点七百分之五十九点四61.4%0百分之十二点八百分之十七点五14.8%61971百分之九十三点三百分之九十点六百分之九十一点九046.0%百分之六十一点八52.5%1928年1百分之七十六点八百分之六十八百分之六十九点九算法测试精度BGM百分之五十九点四EEnvelope百分之八十五点二GMM68.0%K-means48.6%LOF百分之八十三点五OC-SVM百分之八十四标签精度召回F测量时间031.6%60.0%37.1%95177.0%百分之五十七点二百分之六十三点三0百分之十六点八百分之十五点六16.2%3181百分之八十八点八百分之八十九点六百分之八十九点二0百分之三十七点六50.0%40.3%811百分之七十一点三百分之五十九点一百分之六十二点五算法测试精度BGM百分之五十七点五EEnvelope百分之八十点八GMM58.0%K-means40.0%LOF百分之八十点二OC-SVM百分之三十八A. Farzad和T.A.Gulliver/ICT Express 6（2020）229235对负对数的平均准确率、召回率和F-测度分别为97.2%、98.6%和98.4%;对正对数的平均准确率、召回率和F-测度分别为99.7%、99.4%和99.6%。使用改进的K-最近邻监督算法，负日志的精确度，召回率和F-测量结果分别优于96%，96%和96%[40]。实验还进行了几个著名的算法异常检测。表4中给出了使用BGM、EEnvelope、GMM、K-means、LOF和OC-SVM算法使用10倍交叉验证的Thunderbird数据集的平均测试准确度、精确度、召回率、F-度量和时间。结果表明，该模型的性能明显优于上述算法.请注意，由于这些算法的高复杂性，只有5%的数据集用于LOF和OC-SVM。3.4. 讨论隔离森林已被证明为异常检测问题提供了良好的结果[24]。然而，在本文中，它被用于预测正对数。表1（a）显示，单独的隔离森林并不能为这里考虑的问题提供良好的结果，因为所有数据集中的负日志的精确度，召回率和F度量都很差。但对正对数的相应结果要好得多。将表1（a）中的结果与表2此外，隔离森林更快，因为它具有线性时间复杂度[22]。表1（b）显示了在隔离森林之前使用自动编码器进行特征提取的效果。这些结果表明，所有三个数据集的正对数和负对数的大多数标准都得到了改进。然而，负对数结果仍然很差。对于BGL数据集，负日志的平均准确率、召回率和F-测度分别从28.9%、36.6%和32.3%提高到42.7%、76.5%和54.3%，而正日志的相应结果分别为 94.8% 、 92.8% 和 93.8% 到 98.0% 、 91.9% 和94.9%。虽然正对数的召回率对于Openstack数据集，平均精确率、召回率和F-测度分别从59.2%、57.6%和58.4%提高到67.1%、99.5%和80.2正日志的召回率分别从92.9%、93.4%和93.1%下降到99.7%、91.8%和95.6%（只有正日志的召回率有所下降）。对于Thunderbird数据集，负日志的平均准确率、召回率和 F- 测度分别从 30.8% 、 19.6% 和 24.0% 提高到49.9%、49.6%和49.3%，而正日志的相应结果分别为84.8%、91.0%和87.8%到89.8%、90.7%和89.9%。同样，正对数的召回率略有下降。正日志的精确度是在所有检测为正的日志中检测到的真正日志的百分比，而正日志的召回率是检测到的正日志的百分比。表1（b）表明，正对数的精密度非常可靠，准确度为90%至99%由此可以得出的结论是，大多数被预测为正的日志是正确的。换句话说，仅使用隔离森林（特别是使用一个自动编码器），预测为正的负日志（FP）的数量很低。该可靠的正数据（p1）用于训练第二个自动编码器，以用于具有阈值的异常检测。表1（c）给出了使用此自动编码器的测试数据结果，该自动编码器已使用p1进行训练。对于所有数据集，正日志和负日志的平均精确度、召回率和F-度量都显著提高到96%以上。隔离森林与一个自动编码器是最重要的一步。自动编码器网络通常用于降维，因此隐藏层中的单元较少。但是，我们在这些层中使用了更多的单元，因此输入大小与输出大小相同。二进制交叉熵通常用于自动编码器网络，但发现使用分类交叉熵，o2中每个样本的特征值的平均值更容易分离为正对数和负对数，这在这里是可取的。这意味着大多数正对数具有高平均值，而大多数负对数具有低平均值。此外，注意到不重要的特征（例如，在数据集中重复的特征）的值在分类交叉熵和Relu激活的情况下接近零，而在代码层中没有维度减少。这表明Autoencoder网络在特征提取方面工作良好，日志消息。所提出的无监督方法与有监督方法相比具有三个优点。首先，不需要通过日志消息标签的知识，使得这种方法适合于许多实际应用。这一点很重要，因为有各种各样的系统产生不同的日志消息，这使得很难为监督方法标记数据其次，由于数据量大，标记数据是一项非常耗时的任务，因此不是一个实用的解决方案。第三，使用无监督方法消除了标记中固有的人为错误。虽然监督方法通常比无监督方法提供更好的性能，但对于BGL和Thunderbird数据集，所提出的无监督方法优于改进的K最近邻监督算法[40]。这是因为他们使用了一个简单的监督机器学习算法。相反，所提出的模型采用深度学习来通过深度自动编码器网络提取特征。只使用了少量的训练数据（BGL和Thunderbird不到3% ， Openstack 只有 22% ，而 BGL 和 Thunderbird 只有30%），而训练深度网络通常需要大量的数据来进行收敛。Openstack数据集需要更多的训练数据，因为它很小（大约比Thunderbird小25倍，比BGL小30倍）。使用自动编码器网络提取的特征被用作隔离森林的输入。这种特征提取只需要非常少量的训练数据，因此执行时间很快（预处理后 BGL 为 1499 s ， Thunderbird 为 1158 s ，Openstack为366 s）。此外，自动编码器网络是一个非常236A. Farzad和T.A.Gulliver/ICT Express 6（2020）229表4Thunderbird数据集的结果具有BGM、EEnvelope、GMM、K-means、LOF和OC-SVM算法的平均测试准确度、精确度、召回率、F-测量和时间，使用10倍交叉验证。正标签用1表示，负标签用0表示。（个）66快速的深度学习算法，特别是与LSTM网络相比，隔离森林的时间复杂度是线性的。我们没有调整超参数，因此可以通过调整学习率和隐藏层的数量来改善结果。4. 结论云系统每天能够生成数百万条文本日志消息。因此，虽然在这些日志中检测异常是非常重要的，但卷使得一项艰巨的任务。本文提出了一种使用隔离森林和两个深度Autoencoder网络进行无监督异常检测的模型。这些网络用于特征提取和异常检测。隔离森林通常用于异常检测，但在这里它用于预测阳性数据。该模型使用三个著名的日志消息数据集，即BGL，开放堆栈和雷鸟进行评估。结果表明，该模型优于文献中所采用的其他模型。这是因为使用第一个自动编码器网络进行训练和特征提取可以改善隔离森林的结果，特别是对于正日志消息。此外，使用隔离森林，特别是使用一个自动编码器，预测为正的负对数（Fp）的数量很低在未来，可以研究其他模型的性能，如高斯混合模型和超参数调整的影响CRediT作者贡献声明阿米尔·法扎德：概念化，方法论，软件，写作-评论编辑。T.阿龙格列佛：监督，写作-审查&编辑.竞合利益作者声明，他们没有已知的可能影响本文所报告工作引用[1] J.Zhu，S.何，J. Liu，P. He，Q.谢、Z. Zheng，M.R. Lyu，自动化日志解析的工具和基准，在：软件工程国际会议：软件工程实践，2019年，pp. 121http://dx.doi.org/10.1109/ICSE-SEIP.2019.00021[2] D. Yuan，H. Mai，W.熊湖，加-地谭，Y。Zhou，S. Pasupathy，SherLog：通过连接来自运行时日志的线索进行错误诊断，见：Architectural Support for Programming Languages and OperatingSystems，2010年，第103页。143http://dx.doi.org/10.1145/1736020.1736038[3] L. 基于日志的网络监控系统的研究，载：G。Lee （Ed.），Advances in Intelligent Systems ， Springer ， Berlin ， Heidelberg ，2012，pp. 315-320[4] T. Sipola，A. Juvonen，J. Lehtonen，使用扩散映射从网络日志中检测异常，在：L。伊利亚迪斯角Jayne（编辑），神经网络的工程应用，施普林格，柏林，海德堡，2011年，pp。172-181。[5] Y. Harada，Y.山形岛Mizuno，E. Choi，使用统计方法进行CPS的基于日志的异常检测，在：实践经验软件工程国际研讨会，2017年，第10页。1//dx.doi.org/10.1109/IWESEP.2017.12网站。[6] T.- F. Yen，黑冠菊A.奥普雷亚湾Onarlioglu，T. Leetham，W.罗伯逊，A. Juels，E.寇达，蜂巢：大规模日志分析用于检测企业网络中的可疑活动，在：年度计算机安全应用会议，2013年，第11页。199http://dx.doi.org/10.1145/[7] Q. Lin，H. Zhang，J. Lou，Y. Zhang，X. Chen，Log ClusteringBased Problem Identification for Online Service Systems，IEEE/ACMInternational Conference on Software Engineering，2016，pp.102-111[8] I. Goodfellow ， Y. Bengio ， A. Courville ， Deep Learning ， MITPress，Cambridge，MA，2016。[9] H. Ismail Fawaz ， G. Forestier，J. Weber ，L. Idoumghar，P.- A.Muller，Deep learning for time series classification：A review，DataMin. Knowl. Discov. 33（4）（2019）917-http://dx.doi.org/10.1007/[10] T.杨，D.哈扎里卡河Escherichia coli，E. Cambria，Recent trends indeep learning based natural language processing ， 2017 ， arXiv e-printsarXiv：1708.02709.[11] E.P. Ijjina，C.K. Mohan，用于人类动作识别的混合深度神经网络模型，应用软件计算。46（2016）936http://dx.doi.org/10.1016/j.asoc.2015.08.025[12] M.巴赫罗尔湾 Khaleghi，使用高斯混合模型的异常入侵检测系统，在：国际授予- 融合和混合信息技术，2008年，pp。1162-1167.标签精度召回F测量时间021.4%40.1%26.8%32031百分之八十四点二72.4%74.3%0百分之十点八6.5%8.1%50271百分之八十二点六百分之八十九点三百分之八十五点八0百分之二十五点九40.1%31.5%987174.9%64.0%百分之六十七点四0百分之十三点八百分之十六点七15.1%11 97算法测试精度BGM67.0%EEnvelope百分之七十五点四GMM60.0%K-means百分之六十八点八LOF百分之七十五点五OC-SVM40.7%A. Farzad和T.A.Gulliver/ICT Express 6（2020）229237[13] M.安东尼尼，M. Vecchio，F. Antonelli，P. Ducange，C. Perera，物联网边缘的智能音频传感器用于异常检测，IEEE Access 6（2018）67594-67610。[14] M.X.妈，H.Y.T. Ngan，W. Liu，通过大规模交通数据的局部离群值因子进行基于密度的离群值检测，在：图像处理：机器视觉应用，2016年，pp. 一比四[15] M.张湾，澳-地Xu，J. Gong，An anomaly detection model based onone-class SVM to detect network injusions ， in ： InternationalConference on Mobile Ad-Hoc and Sensor Networks，2015，pp.102比107[16] T. Reidemeister，M. Jiang，P.A.S. Ward，Mining unstru

下载后可阅读完整内容，剩余1页未读，立即下载