PMLDOF:一种基于多重聚类的高效离群点检测算法
需积分: 19 128 浏览量
更新于2024-09-08
1
收藏 880KB PDF 举报
"一种基于多重聚类的离群点检测算法"
在数据挖掘领域,离群点检测是一项重要的任务,用于识别那些与数据集中其他样本显著不同的数据点。离群点可能表示异常行为、错误记录或者隐藏的信息,因此在欺诈检测、故障诊断、模式识别等领域有广泛应用。传统的离群点检测算法如LOF(Local Outlier Factor)和DBSCAN在处理大规模数据时,由于计算量大,可能会面临效率问题。
本文提出的“基于多重聚类的离群点检测算法PMLDOF”是在LDOF(Local Density-based Outlier Factor)算法基础上进行优化。LDOF算法是局部离群因子的一种,它通过比较一个数据点与其邻居的数据点密度来评估其离群程度。然而,LDOF在计算每个数据点的局部离群因子时,需要遍历所有邻近点,导致计算成本较高。
PMLDOF算法引入了聚类剪枝技术来减少计算量。首先,它使用多重聚类策略对数据进行划分,这可以是K-means、DBSCAN或其他聚类方法。多重聚类可以捕捉数据的不同层次结构,从而更准确地识别可能的离群点。接着,算法利用聚类间的差异性来筛选出可能的边缘点,这些点可能被误判为离群点。通过这种方式,PMLDOF避免了将簇边缘的正常点错误地标记为离群点。
在对数据集进行剪枝后,PMLDOF仅计算剩余数据的局部离群度LDOF,这样大大降低了计算复杂性。通过比较剩余数据点的LDOF值,可以识别出满足离群条件的数据点。实验结果显示,PMLDOF算法在保持检测精度的同时,提高了运行效率,具有更好的时间复杂度性能。
该研究由古平、刘海波和罗志恒三位学者完成,他们分别来自重庆大学计算机学院,专注于数据挖掘、电子商务和自然语言处理等领域。这项工作得到了中央高校基本科研业务费科研专项基金的支持。通过这种方法,PMLDOF算法为大数据环境下的离群点检测提供了一种有效且高效的解决方案。
2021-04-28 上传
2021-05-29 上传
2019-09-12 上传
2021-08-08 上传
2019-09-06 上传
weixin_39841856
- 粉丝: 491
- 资源: 1万+
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载