DBSCAN聚类分析：高效识别网络性能异常

134 浏览量更新于2024-08-28 收藏 1.42MB PDF 举报

"本文介绍了一种基于密度聚类的网络性能故障大数据分析方法，通过熵权分析、数据清洗和标准化处理来提取关键性能特征，并利用DBSCAN聚类算法优化参数来识别异常数据。该方法在中国信息通信研究院的实际应用中表现出高准确性，能够有效地帮助进行全国范围内的网络运行故障分析。" 在当今的网络环境中，由于网络安全事件的频繁发生，快速准确地发现网络监控数据中的异常变得至关重要。本研究提出的方法旨在解决这一挑战，它结合了机器学习和大数据分析技术，特别是密度聚类的概念，对网络性能故障进行深度挖掘。首先，该方法采用了熵权分析，这是一种衡量信息不确定性的方法，用于确定不同性能指标的重要性。通过这种方式，可以更准确地识别出那些对网络性能影响显著的关键特征，从而过滤掉不相关或次要的信息。接着，数据清洗和标准化处理是数据预处理的关键步骤。数据清洗旨在去除噪声、不一致性和缺失值，确保后续分析的准确性。标准化则是将不同尺度或分布的数据转换到同一尺度上，使得不同特征之间可以进行有效的比较和分析。核心部分是使用DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚类算法。DBSCAN是一种无参数的聚类算法，能够发现任意形状的簇，且对异常值具有很好的鲁棒性。通过对算法的参数进行调优，可以适应不同网络环境下的数据分布，有效识别出性能故障的异常数据。实际应用中，这种方法在实时采集的全国多家运营商的海量骨干网链路性能数据上进行了验证。结果表明，与人工标注的网络性能异常数据相比，该方法的识别准确性超过了90%。这意味着，它可以高效地定位网络故障，极大地提高了故障诊断的效率，对于保障全国网络的稳定运行具有重要意义。基于密度聚类的网络性能故障大数据分析方法是一种创新的网络监控工具，它利用机器学习技术提高了数据异常检测的精度，有助于预防和解决网络安全事件，保障网络服务质量。这种方法不仅适用于现有的网络环境，随着网络规模的扩大和数据量的增长，其价值将进一步凸显。

研究与开发

基于密度聚类的网络性能故障大数据分析方法

李想，李原，张子飞，杨哲

（中国信息通信研究院，北京 100191）

摘要：针对层出不穷的网络安全事件，如何快速在海量监测数据中发现异常数据，并开展网络故障分析成

为研究难点。针对该问题，提出一种基于密度聚类的网络性能故障大数据分析方法，通过熵权分析、数据清

洗与标准化处理实现关键性能特征提取与数据整形，基于参数调优的 DBSCAN 聚类算法提取性能故障异常数

据。基于实时采集的全国多家运营商海量骨干网链路性能数据验证该算法，结果表明，与人工标注网络性能

异常数据相比，其识别的准确性超过 90%，可满足开展全国网络运行故障分析的需求。

关键词：网络性能；机器学习；密度聚类；测量分析

中图分类号：TP393

文献标识码：A

doi: 10.11959/j.issn.1000−0801.2020270

A density clustering-based network performance

failure big data analysis algorithm

LI Xiang, LI Yuan, ZHANG Zifei, YANG Zhe

China Academy of Information and Communications Technology, Beijing 100191, China

Abstract: Facing frequent network security incidents, how to quickly find abnormal data in massive monitoring da-

tabase and carry out network failure analysis becomes a research difficulty. A density-based network performance

failure big data analysis algorithm was proposed, which extracted key performance characteristic indicators through

entropy weight analysis, implemented data shaping through data cleaning and standardization, and extracted abnor-

mal performance data on the basis of DBSCAN clustering algorithm. Relying on the real-time massive backbone net-

work link performance data of multiple domestic operators to validated this algorithm, the results shows that compared

with the manually manner, the recognition accuracy of the algorithm proposed to the network performance abnormal

data is more than 90%, which can well fit for the analysis of real-time Internet network operation failure.

Key words: network performance, machine learning, density clustering, measurement analysis

1 引言

随着网络的飞速发展，用户需求的不断增加，

网络应用越来越广泛。与此同时，网络安全事件

层出不穷，日益突出，特别是网络层面的故障会

导致众多互联网用户无法正常访问网络应用，产

生较为严重的影响。例如，2015 年 3 月 20 日，由

于中国联通骨干网一台设备发生故障，导致联通

收稿日期：2020−05−12；修回日期：2020−06−01

通信作者：李原，liyuan@caict.ac.cn

下载后可阅读完整内容，剩余7页未读，立即下载

weixin_38685173

粉丝: 5
资源: 923

DBSCAN聚类分析：高效识别网络性能异常

云计算实时故障检测的方法研究.pdf

无线传感器网络中基于聚类分析的基于度量相关的故障检测方法

电子功用-基于聚类算法对异常事件分析评价电能表整体状态的方法

一种基于聚类和快速计算的异常数据挖掘算法.pdf

基于动态分布式聚类算法的大数据查询处理方法.zip

基于聚类分析和Pearso...法的电网负荷数据清洗与去重

基于聚类方法的工业电气设备大数据特征识别.zip

电信设备-一种基于密度与几何信息的聚类算法.zip

基于K-means的新能源蓄电池数据的聚类分析.pdf

Python半监督密度聚类与增量学习在故障诊断中的应用

最新资源