PMLDOF:一种基于多重聚类的高效离群点检测算法
需积分: 19 196 浏览量
更新于2024-09-08
1
收藏 880KB PDF 举报
"一种基于多重聚类的离群点检测算法"
在数据挖掘领域,离群点检测是一项重要的任务,用于识别那些与数据集中其他样本显著不同的数据点。离群点可能表示异常行为、错误记录或者隐藏的信息,因此在欺诈检测、故障诊断、模式识别等领域有广泛应用。传统的离群点检测算法如LOF(Local Outlier Factor)和DBSCAN在处理大规模数据时,由于计算量大,可能会面临效率问题。
本文提出的“基于多重聚类的离群点检测算法PMLDOF”是在LDOF(Local Density-based Outlier Factor)算法基础上进行优化。LDOF算法是局部离群因子的一种,它通过比较一个数据点与其邻居的数据点密度来评估其离群程度。然而,LDOF在计算每个数据点的局部离群因子时,需要遍历所有邻近点,导致计算成本较高。
PMLDOF算法引入了聚类剪枝技术来减少计算量。首先,它使用多重聚类策略对数据进行划分,这可以是K-means、DBSCAN或其他聚类方法。多重聚类可以捕捉数据的不同层次结构,从而更准确地识别可能的离群点。接着,算法利用聚类间的差异性来筛选出可能的边缘点,这些点可能被误判为离群点。通过这种方式,PMLDOF避免了将簇边缘的正常点错误地标记为离群点。
在对数据集进行剪枝后,PMLDOF仅计算剩余数据的局部离群度LDOF,这样大大降低了计算复杂性。通过比较剩余数据点的LDOF值,可以识别出满足离群条件的数据点。实验结果显示,PMLDOF算法在保持检测精度的同时,提高了运行效率,具有更好的时间复杂度性能。
该研究由古平、刘海波和罗志恒三位学者完成,他们分别来自重庆大学计算机学院,专注于数据挖掘、电子商务和自然语言处理等领域。这项工作得到了中央高校基本科研业务费科研专项基金的支持。通过这种方法,PMLDOF算法为大数据环境下的离群点检测提供了一种有效且高效的解决方案。
211 浏览量
248 浏览量
232 浏览量
2019-09-12 上传
147 浏览量
2019-09-06 上传
2021-07-14 上传
225 浏览量
240 浏览量
weixin_39841856
- 粉丝: 491
- 资源: 1万+
最新资源
- gansoi:很棒的基础架构监视和警报
- Portfolio
- Tensorflow-AI
- CloudyTabs:CloudyTabs是一个简单的菜单栏应用程序,其中列出了您的iCloud标签
- 易语言超级列表框保存结构
- T3AAS:井字游戏(即服务)
- TF2 Trading Enhanced-crx插件
- GA和PSO_寻优_GA函数最小_有约束粒子群_粒子群算法PSO-_GAOPTIMIZATION
- 购买新南威尔士州共享图书馆
- chainlink-integration-tests:针对Fantom的Chainlink集成测试
- SOA程序_人群搜索算法_streamfru_思维进化_基于SOA的寻优计算_不确定性
- 易语言超级列表框代码高亮
- Node-red-server
- nimtwirp:Nim的Twirp RPC框架
- Gamers Tab-crx插件
- 猫狗二分类数据集,可用于快速模型验证、性能评估、小数据集训练等