改进的DSMFP_LW算法:界标窗口下数据流频繁模式挖掘
需积分: 6 75 浏览量
更新于2024-09-05
收藏 622KB PDF 举报
本文档主要探讨了"论文研究-文本挖掘技术在科研信息自动建议中的应用.pdf",聚焦于数据流频繁模式挖掘领域。随着数据流应用的广泛发展,这种技术变得越来越关键,因为它处理的是数据流中快速变化、规模庞大的数据,且需要实时或近实时的分析。传统的数据挖掘方法在数据流环境下面临挑战,如Lossy Counting算法虽然能分桶处理,但候选模式集过多,效率不高,而StreamMining算法虽能挖掘频繁模式集,但产生过多的候选模式。
针对这些不足,研究者们提出了DS-CFP算法,通过将滑动窗口分解为基本窗口进行更新,提高了效率。然而,滑动窗口仅关注实时数据,忽略了历史数据的价值,如在金融领域中客户的历史交易记录。因此,论文中提及的DSMFP_LW算法是对DSFPM算法的改进,引入了界标窗口的概念,它结合了频繁闭合模式树来存储临界频繁闭合模式。这种结构允许算法更有效地挖掘历史数据中的所有频繁模式,提升了时间和空间利用率,特别是在处理大规模、高速度的数据流时,DSMFP_LW算法显示出更好的性能,优于经典的Lossy Counting算法。
本文还定义了核心术语,如事务和模式,以及基本窗口、基本窗口长度、界标窗口及其长度,这些都是理解数据流频繁模式挖掘算法的关键概念。通过对比实验,研究者验证了DSMFP_LW算法在实际应用中的优势,这表明它在数据流频繁模式挖掘任务中具有实用价值,对于科研信息自动建议系统有着重要意义。这篇论文深入探讨了如何在数据流背景下优化频繁模式挖掘技术,以适应现代大数据环境的需求。
2021-06-10 上传
2019-09-19 上传
2019-08-15 上传
2019-08-27 上传
2019-07-22 上传
2019-09-16 上传
2019-08-23 上传
2019-08-15 上传
weixin_38743968
- 粉丝: 404
- 资源: 2万+
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍