聚类划分两阶段离群点检测算法:提升局部异常检测效率

需积分: 11 2 下载量 6 浏览量 更新于2024-09-07 收藏 1.4MB PDF 举报
"这篇论文提出了一种基于聚类划分的两阶段离群点检测算法,旨在解决基于距离的离群点检测方法对于全局阈值的依赖,能够有效地挖掘局部离群点。论文由山东省自然科学基金等多个项目资助,作者团队来自山东师范大学等机构,主要研究方向包括数据挖掘、组合优化算法等。" 在数据挖掘领域,离群点检测是识别异常或不寻常数据点的重要任务,这些数据点可能表示潜在的问题或有价值的信息。传统基于距离的离群点检测算法通常设置全局阈值,对所有数据点进行判断,但这种方式可能无法捕捉到局部区域内的异常行为。为了解决这个问题,论文提出了一种新的两阶段算法。 首先,算法利用凝聚层次聚类(Agglomerative Hierarchical Clustering)进行数据预处理,通过迭代确定适合K-均值聚类(K-Means)的k值。层次聚类是一种自底向上的聚类方法,可以揭示数据的层次结构,而K-均值聚类则能将数据集分割成多个小的、相对同质的簇,即微聚类。 接着,为了提高离群点检测的效率,论文引入了基于信息熵的聚类过滤机制。信息熵是衡量一个系统不确定性的指标,在这里用于评估微聚类中的数据分布是否均匀。如果微聚类的信息熵较高,说明其内部数据点分布混乱,可能存在离群点。反之,如果信息熵较低,则该微聚类内的数据点较为一致,离群点的可能性较小。 在完成了微聚类的筛选后,算法进入第二阶段,即从包含离群点可能性较高的微聚类中,利用基于距离的方法(如欧氏距离)来挖掘局部离群点。这种方法考虑了数据点与其所在微聚类内其他点的相对位置,可以更精确地识别出与簇内其他点显著不同的局部离群点。 实验结果显示,该两阶段离群点检测算法在效率、检测精度和时间复杂度方面表现出色,能有效地发现数据集中的局部异常。这种方法对于大数据集和复杂环境下的离群点检测具有重要的实际应用价值,特别是在监控、金融风控、网络日志分析等领域,能够帮助用户及时发现并分析潜在问题。