分布式高维数据流离群点检测算法:孙志挥等人的研究

需积分: 10 1 下载量 72 浏览量 更新于2024-09-06 1 收藏 381KB PDF 举报
该篇论文深入探讨了一种分布式高维类别属性数据流离群点检测算法,由孙志挥、周晓云和倪巍伟三位作者共同提出,他们来自东南大学计算机科学与工程系。在当前大数据时代,数据流挖掘算法的研究日益受到关注,特别是对于处理高维数据流离群点检测的问题,这是一个相对较新的研究领域。论文针对分布式数据流环境,创新性地结合了时间相关滑动窗口和WFPOF(Weighted Freqency Pattern of Outliers Factor)技术。 算法的关键思路是将分布式的数据流视为整体的一个子集,每个节点负责维护本地数据流的频繁模式,这些模式是在每个节点独立计算的基础上得出的。中心站点则负责整合所有节点的局部频繁模式,生成全局频繁模式。每个节点利用全局频繁模式来计算WFPOF值,以此检测出本地的数据点是否为离群点。这种设计有效避免了在高维空间中因“维数灾难”带来的挑战,提高了离群点检测的准确性。 论文详细讨论了分布式环境中如何处理节点间协调通信、频繁模式的维护以及离群点检测的实施策略。实验部分验证了这个算法的有效性和实用性,尤其是在处理大规模、高维度和实时数据流时,显示出其优越性能。 关键词集中在分布式数据流、离群点检测、频繁模式和高维数据上,反映了论文的核心研究内容。论文的引入部分强调了数据流数据的特性,如数据量大、动态性以及不确定性,这些都是离群点检测算法需要适应和优化的方面。 总结来说,这篇论文为解决分布式高维数据流中的离群点检测问题提供了一个新颖且实用的方法,对于数据流挖掘技术的发展具有重要意义,特别是在风险控制和异常检测领域。