最大熵维度聚类算法在数据流异常检测中的应用

101 浏览量更新于2024-08-29 1 收藏 577KB PDF 举报

"这篇文章介绍了一种新的数据流聚类算法，该算法利用维度最大熵原理进行异常检测。针对传统数据流聚类算法存在的信息损失大和准确性不足的问题，该方法通过对数据维度进行分组，计算最大熵来划分维度空间簇，并将同一维度簇的数据聚合为微簇。通过比较微簇的信息熵和分布特征，有效地识别数据流中的异常情况。这种方法提高了聚类速度，并解决了传统算法的信息丢失问题。实验结果证明，提出的算法在数据流异常检测的准确性和有效性上有所提升。" 本文是关于控制与决策领域的一篇研究论文，作者来自北京化工大学信息科学与技术学院。文章指出，传统的数据流聚类算法在处理大规模、快速流动的数据时，存在聚类信息损失大和不准确的缺陷。为解决这些问题，作者提出了基于维度最大熵的数据流聚类算法。最大熵原理是信息论中的一个重要概念，它用于寻找在给定约束条件下最不确定（或信息熵最大）的分布。在这个算法中，最大熵被用来指导数据维度的划分，以优化聚类效果。动态数据直方图作为一种有效的工具，被用来将数据的各个维度动态地划分为不同的维度组。每个维度组内的数据根据其属性相似性被聚集成微簇，这有助于减少信息损失并提高聚类效率。接下来，通过比较不同微簇的信息熵，可以识别出具有异常行为的微簇。信息熵作为衡量信息不确定性的度量，较大的信息熵通常表示数据分布的不确定性较高，可能暗示存在异常。这种方法不仅提高了聚类的速度，而且能够更准确地捕获数据流中的异常事件，这对于实时监控和故障检测尤其有价值。在实际应用中，数据流聚类和异常检测广泛应用于各种场景，如网络安全、物联网设备监控、金融交易分析等。通过对数据流进行高效且精确的聚类，可以及时发现潜在的异常行为，预防潜在的风险和问题。通过实验验证，提出的算法在数据流异常检测方面表现出更高的准确性和有效性，证明了该方法的有效性。总结来说，这篇论文介绍了一种创新的数据流聚类算法，它结合了维度最大熵和信息熵的概念，提升了聚类效率和异常检测的准确性。这一成果对于改进数据流处理和异常检测的策略具有重要意义，对相关领域的研究和实践提供了新的思路。

第 31 卷第 2 期

Vol. 31 No. 2

控制与决策

Control and Decision

2016 年 2 月

Feb. 2016

基于维度最大熵数据流聚类的异常检测方法

文章编号: 1001-0920 (2016) 02-0343-06 DOI: 10.13195/j.kzyjc.2014.1783

耿志强, 姬威, 韩永明, 曹健

(北京化工大学信息科学与技术学院，北京 100029)

摘要: 针对传统数据流聚类算法聚类信息损失大、不准确的缺点, 提出一种基于维度最大熵的数据流聚类算法. 采

用动态数据直方图将数据维度划分为不同的维度组, 计算各维度最大熵划分维度空间簇, 将相同维度簇的数据聚集

成微簇, 通过比较微簇的信息熵大小及其分布特点实现数据流的异常检测. 该方法提升了聚类速度, 克服了传统数据

流聚类算法信息丢失的缺点. 实验结果表明, 所提出算法能够提高数据流异常检测的准确性和有效性.

关键词: 维度簇；最大熵原理；数据流；信息熵；异常检测

中图分类号: TP391 文献标志码: A

Data stream clustering algorithm based on the maximum entropy of data

dimension and its applications for anomaly detection

GENG Zhi-qiang, JI Wei, HAN Yong-ming, CAO Jian

(College of Information Science & Technology，Beijing University of Chemical Technology，Beijing 100029，China.

Correspondent：GENG Zhi-qiang，E-mail：gengzhiqiang@mail.buct.edu.cn)

Abstract: In view of the traditional data stream clustering algorithm clustering information loss, inaccurate faults, a data

stream clustering algorithm based on the dimension maximum entropy is proposed. Dynamic data in the sliding window

are divided into different dimensions by using data histogram. The maximum entropy of different dimension is calculated

to classify dimension spaces to form a cluster dimensions. Data are gathered into small clusters of the same dimension of

cluster. By comparing the size of the cluster of information entropy and its distribution features, outlier detection of data

stream is realized. This method improves the clustering speed, and overcomes the traditional shortcomings of the data stream

clustering algorithm information loss. Experimental results show the effectiveness of the proposed algorithm.

Keywords: dimension cluster；maximum entropy；data stream；information entropy；outlier detection

0 引引引言言言

数据流聚类是近期数据挖掘领域研究的新热点

之一, 它以实时、连续和有序的数据序列方式广泛

存在于各个应用领域. 由于存在数据流量大、连续快

速、不可预测和短暂易逝等特点

[1]

, 数据流聚类算法

应该具有低内存消耗、高计算效率和单遍扫描数据

的特征. 在数据流聚类和异常检测方面主要存在两

类算法: 一类是基于距离的聚类算法, 其代表算法有

CluStream 算法

[2]

和 HPStream 算法

[3]

等; 另一类是基

于密度的聚类算法, 代表算法有 BIRCH 算法

[4]

、D-

Stream 算法

[5]

和 DenStream 算法

[6]

等. 但以上算法主

要存在以下问题: 1) 第 1 类算法对于球形或近似球形

的聚类数据产生的效果较好, 对于非球形的聚类效果

不佳, 同时存在对周期性数据的聚类变化反映不完

整等缺点

[7]

; 2) 第 2 类算法基本上是以 DBSCAN 算法

为基础, 虽然这类算法可以检测任意形状的聚类, 但

由于该类算法对于参数敏感性较高, 如果无法给出

恰当的参数, 则聚类效果较差. 传统的网格密度模型

Density-Grid 算法

[8-9]

需要划分合适的网格大小, 当网

格过小时, 其数量呈指数增长并产生大量网格, 严重

影响算法的执行效率, 当网格过大时会大大降低异常

检测的准确性.

本文在研究密度网格算法的基础上, 提出一种

基于阻尼衰减模型和维度簇最大熵的数据流聚类

算法 DSC-Stream. 该算法采用维度最大熵原理并结

合维度组的方法实现对维度空间的动态划分并生成

收稿日期: 2014-11-23；修回日期: 2015-04-17.

基金项目: 国家自然科学基金项目(61374166)；教育部博士点基金项目(20120010110010)；中央高校基本科研业务费

专项基金项目(YS1404).

作者简介: 耿志强(1973−), 男, 教授, 博士生导师, 从事过程控制、过程优化与故障诊断、人工智能、数据挖掘等研究;

姬威(1986−), 男, 硕士生, 从事数据挖掘、故障检测的研究.

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38656142

粉丝: 6
资源: 909

最大熵维度聚类算法在数据流异常检测中的应用

最大熵图论聚类算法在图像分割中的应用研究

红外小目标检测：基于局部最大熵的快速方法

涡扇发动机潜在故障早期检测：聚类分析方法

基于最大熵的模糊核聚类图像分割方法 (2011年)

论文研究-基于改进的最大熵均值聚类方法在文本分类中的应用.pdf

基于局部最大熵的红外小目标检测技术

一种基于置信最大熵模型的证据推理方法

基于最大熵谱估计的超声检测回波频谱分析* (2007年)

基于最大熵原理的空间特征选择方法

基于最大熵方法的评论信息抽取方法 (2010年)

最新资源