基于时序特征的工业异常数据检测方法

需积分: 50 5 浏览量更新于2024-09-08 1 收藏 715KB PDF 举报

"这篇论文研究了一种基于K-均值聚类的工业异常数据检测方法，旨在解决现有技术中未充分利用数据的时序特征以及训练样本可能包含异常样本的问题。该方法首先根据时序特征将遥测数据和遥信数据分为离散量和连续变化量。对于离散量，它应用了改进的K-均值算法来检测异常；而对于连续变化量，它利用传统的自回归模型进行异常检测。在构建聚类模型时，通过计算异常因子排除含有异常样本的簇；在自回归模型训练中，剔除异常值。论文在OMNeT仿真平台上建立了一个小型储水加热工业系统进行验证，结果显示，这种方法能有效检测现场设备的异常数据，并且相比其他基于聚类的异常检测模型，其漏报率更低。作者包括张仁斌、许辅昊、刘飞和李思娴，他们来自合肥工业大学计算机与信息学院，研究方向涉及安全控制、模式识别、工控安全和网络安全。" 本文提出的异常数据检测方法主要围绕以下几个关键知识点： 1. **时序特征**：时序数据在工业环境中非常重要，因为它反映了设备随时间的变化行为。通过分析这种变化，可以捕捉到潜在的异常行为。 2. **遥测与遥信数据**：遥测数据通常表示设备的连续测量值，如温度、压力等；遥信数据则记录设备的状态变化，如开关状态。这两种数据类型都需要考虑在异常检测中。 3. **K-均值聚类**：K-均值是一种无监督学习算法，用于将数据集划分为多个组（或簇）。在工业异常检测中，它可以用来发现数据的自然聚类结构，异常点往往落在与其他点显著不同的簇中。 4. **改进的K-均值算法**：为了处理含有异常样本的问题，论文提出了改进的K-均值算法，其中引入了异常因子来识别和排除可能的异常簇，从而提高聚类的准确性。 5. **自回归模型**：自回归模型是时间序列分析中常用的方法，它可以捕捉数据的线性依赖关系。在异常检测中，通过训练模型并识别出与正常模式偏离较大的样本作为异常。 6. **异常因子**：异常因子是一个度量，用于评估聚类中样本的异常程度。当异常因子超过某个阈值时，表明该聚类可能存在异常样本，需要从模型训练中剔除。 7. **异常检测漏报率**：漏报率是指实际异常但被检测方法遗漏的比例。论文强调，所提方法在降低漏报率方面优于其他聚类基