PMLDOF:一种基于多重聚类的高效离群点检测算法

需积分: 19 4 下载量 196 浏览量 更新于2024-09-08 1 收藏 880KB PDF 举报
"一种基于多重聚类的离群点检测算法" 在数据挖掘领域,离群点检测是一项重要的任务,用于识别那些与数据集中其他样本显著不同的数据点。离群点可能表示异常行为、错误记录或者隐藏的信息,因此在欺诈检测、故障诊断、模式识别等领域有广泛应用。传统的离群点检测算法如LOF(Local Outlier Factor)和DBSCAN在处理大规模数据时,由于计算量大,可能会面临效率问题。 本文提出的“基于多重聚类的离群点检测算法PMLDOF”是在LDOF(Local Density-based Outlier Factor)算法基础上进行优化。LDOF算法是局部离群因子的一种,它通过比较一个数据点与其邻居的数据点密度来评估其离群程度。然而,LDOF在计算每个数据点的局部离群因子时,需要遍历所有邻近点,导致计算成本较高。 PMLDOF算法引入了聚类剪枝技术来减少计算量。首先,它使用多重聚类策略对数据进行划分,这可以是K-means、DBSCAN或其他聚类方法。多重聚类可以捕捉数据的不同层次结构,从而更准确地识别可能的离群点。接着,算法利用聚类间的差异性来筛选出可能的边缘点,这些点可能被误判为离群点。通过这种方式,PMLDOF避免了将簇边缘的正常点错误地标记为离群点。 在对数据集进行剪枝后,PMLDOF仅计算剩余数据的局部离群度LDOF,这样大大降低了计算复杂性。通过比较剩余数据点的LDOF值,可以识别出满足离群条件的数据点。实验结果显示,PMLDOF算法在保持检测精度的同时,提高了运行效率,具有更好的时间复杂度性能。 该研究由古平、刘海波和罗志恒三位学者完成,他们分别来自重庆大学计算机学院,专注于数据挖掘、电子商务和自然语言处理等领域。这项工作得到了中央高校基本科研业务费科研专项基金的支持。通过这种方法,PMLDOF算法为大数据环境下的离群点检测提供了一种有效且高效的解决方案。