互联网软件错误日志高效聚类方法：案例与应用

需积分: 13 166 浏览量更新于2024-08-30 收藏 1.36MB PDF 举报

互联网软件错误日志聚类是一项关键的运维技术，特别是在互联网内容提供商（ICP）的日常运营中。这些公司经常面临大量复杂且非规范化的错误日志，这些日志包含了系统运行时的各种异常情况和问题线索。为了高效处理并分析这些海量数据，本文提出了针对互联网软件错误日志的聚类方法。首先，该方法的核心策略是通过日志模板提取和日志压缩技术来简化和标准化日志数据。日志模板可以帮助识别出通用的日志结构和模式，减少冗余信息，而日志压缩则能有效地减小数据规模，降低后续处理的复杂度。这种方法有助于提升数据处理的效率，使错误日志管理更为有序。其次，论文采用计算文档频率（Document Frequency，DF）的方法来提取特征词。DF是一种统计学工具，用于衡量一个词汇在整个数据集中出现的频率。通过这种方式，可以突出那些在大量日志中频繁出现的关键信息，从而增强聚类的准确性和区分度，同时降低了数据维度，减少了潜在的噪音和维度灾难问题。在聚类算法的选择上，结合了Canopy聚类和K-means聚类两种经典方法。Canopy算法是一种基于相似度快速预分组的聚类技术，适用于大数据集的初步分组，它能快速发现潜在的聚类结构。然后，K-means算法在此基础上进行迭代细化，通过迭代优化每个簇内的数据分布，进一步提高了聚类的精确性。在实际应用中，作者将所提出的算法应用到一家互联网公司的运维系统中进行了验证。结果表明，这种方法不仅展现出良好的聚类效果，能够有效地识别和归类不同的错误类型，还满足了生产环境中对实时性和性能的要求。这表明该方法具有很高的实用价值，对于互联网软件运维团队来说，是一个有力的故障排查和问题定位工具。这篇论文深入探讨了互联网软件错误日志的聚类问题，并提供了一种有效的解决方案。通过日志处理技术、特征提取方法以及结合Canopy和K-means算法，它在保证聚类精度的同时，也兼顾了大规模数据处理的效率和实际应用场景的性能需求。这对于互联网行业的运维实践具有重要的指导意义。

小型微型计算机系统

Journal of Chinese Computer Systems

 年 󰋃 月第 󰋃 期

Vol. 󰆶 No. 󰋃 

  收稿日期󰦆󰍏--󰢤 收修改稿日期󰦆󰍏-󰋃-󰆶 基金项目󰦆国家自然科学基金项目󰢤󰍏  资助.  作者简介󰦆程世文,男󰔵 年

生󰔵硕士󰔵研究方向为智能运维裴 丹,男󰔵󰍏󰆶 年生󰔵博士󰔵副教授󰔵研究方向为基于机器学习的智能运维王长进,男󰔵󰢤 年生󰔵硕士󰔵高级工

程师󰔵研究方向为运维.

互联网软件错误日志聚类

程世文



,裴 丹



,王长进





清华大学计算机系󰔵北京 



北京小桔科技滴滴出行有限公司󰔵北京 󰆶

E-mail󰦆chengshiwen󰆶 gmail. com

摘 要: 互联网内容提供商在实际运营过程中,所维护的各项业务随时可能会遇到各种各样的问题,将相应的大量错误日志经

过聚类后及时反馈给相应的研发人员是排除问题的首要因素. 为了有效解决海量非规范的错误日志的聚类问题,本文提出互联

网软件错误日志聚类方法. 该方法通过引入日志模板提取、日志压缩方法降低日志规模;通过引入计算文档频率提取特征词方

法提高聚类准确性并降低数据维度;结合 Canopy 聚类和 K-means 聚类算法提升聚类效果. 通过在某互联网公司运维中实际系

统的检验,本文提出的方法不但具有比较理想的聚类效果,而且满足生产环境中的性能要求.

关键词: 聚类错误日志文档频率Canopy 算法K-means 算法

中图分类号: TP󰆶     文献标识码:A      文章编号:-()󰋃-󰢤󰋃-󰢤

Error Log Clustering of Internet Software

CHENG Shi-wen



,PEI Dan



,WANG Chang-jin





(Department of Computer Science and Technology,Tsinghua University,Beijing ,China)



(Beijing Didi Chuxing Co. ,Ltd,Beijing 󰆶,China)

Abstract:In the process of ICPs′ actual operations,the service business maintained by operations team often encounter a variety of

problems. Thus one critical goal of troubleshooting is to cluster the large amounts of error log and give the feedback to the developer.

To address the challenge of sheer amount of non-standard error logs,a method of error log clustering of Internet software is proposed.

This method reduces the log scale by extracting log template and compression,improves the clustering accuracy and reduces the data

dimension by calculating document frequency to extract feature words,and improves the clustering effect using Canopy clustering and

K-means clustering. Experimental results in an Internet company′s operations show that the proposed method not only has an ideal

clustering effect,but also meets the performance requirements in the production environment.

Key words:clustering;error log;document frequency;Canopy algorithm;K-means algorithm

1 引言

互联网服务已经深入到用户生活的方方面面󰔵用户对互

联网服务体验的要求越来越高󰔵这正是互联网内容提供商所

面临着的巨大的挑战. 互联网内容提供商在实际运营过程中󰔵

所维护的各项服务业务随时可能会遇到各种各样的问题󰔵这

就需要收集相应的日志󰔵并对错误日志进行分析和处理. 因

此󰔵将问题对应的错误日志及时反馈给相应的研发人员是排

除问题的首要因素.

在互联网内容提供商收集日志的过程中󰔵即使采用采样

的方式󰔵收集到的日志的数量也是十分巨大的󰔵往往也是以

TB 甚至 PB 为单位. 并且󰔵很多错误日志是完全相同或者相

似的󰔵错误日志的不同种类仅占极少数. 仅以错误日志举例󰔵

本文研究的某互联网公司每天采样收集到的错误日志量约

-TB󰔵但其中错误日志的不同种类只占到了 - 种左

右. 将如此巨大数量的错误日志直接反馈给研发人员进行逐

条人工排错󰔵显然是不可行的. 因此󰔵对海量错误日志进行预

先聚类则显得非常重要.

在实际收集的错误日志中󰔵往往具有如下挑战󰦆

日志数量巨大

格式不规范󰔵变量较多󰔵无法全部清洗

󰆶干扰数据较多󰔵较难提取特征信息

聚类效果性能要求较高󰔵难度较大.

在日志聚类方面󰔵国内外的一些研究学者也进行了不少

的研究与应用. Xu



等人提出了对控制台日志  Console

logs的预处理󰔵但这些日志是形如 󰤆 starting󰦆xact . 󰣮 is

. 󰣮的模板日志󰔵非常规范且种类有限󰔵通过相应的正则

表达式即可匹配识别. Qiu



等人设计并实现了 SyslogDigest

系统󰔵提出了对路由设备的 syslog 的压缩和提取算法󰔵通过进

行词频统计分析构建出 syslog 的模板树󰔵模板树中根节点到

叶节点的所有路径就是 syslog 的模板󰔵也即所有 syslog 的种

类. 但 syslog 词数有限日志规范易模板化󰔵不适应中文󰔵且

同一类型下不同形式的日志不能通过该算法区分.

在特征提取方面󰔵目前常用的方法是基于统计的特征选

万方数据

下载后可阅读完整内容，剩余5页未读，立即下载

zhangbo0805

粉丝: 1
资源: 4

互联网软件错误日志高效聚类方法：案例与应用

试论数据挖掘技术在软件工程中的应用.pdf

大数据试题及答案最全.pdf

大数据考试答案36409.pdf

利用python实现模糊动态聚类.pdf

每名学生有3-5门课成绩。应用聚类分析对于学生成绩进行聚类.生成python代码

机器学习实验 聚类步骤 1.选择一种聚类算法对鸢尾花做聚类; 2.读入要分类的数据; 3.设置初始聚类中心; 4.根据不同的聚类算法实现聚类。 5.显示聚类结果。 6.按照同样步骤实现学过的所有聚类算法。

基于趋势的时间序列相似性度量和聚类研究.pdf

目标：利用12个月的温度数据，对城市进行聚类. 数据集：City_Temp.csv. 作业要求：用K-means聚类算法进行聚类，城市聚类的类别数分别选择3、4、5，观察并分析聚类结果

1.选择一种聚类算法对鸢尾花做聚类; 2.读入要分类的数据; 3.设置初始聚类中心; 4.根据不同的聚类算法实现聚类。 5.显示聚类结果。 6.按照同样步骤实现学过的所有聚类算法。

最新资源

机器学习实验聚类步骤 1.选择一种聚类算法对鸢尾花做聚类; 2.读入要分类的数据; 3.设置初始聚类中心; 4.根据不同的聚类算法实现聚类。 5.显示聚类结果。 6.按照同样步骤实现学过的所有聚类算法。