改进的DSMFP_LW算法：界标窗口下数据流频繁模式挖掘

需积分: 6 75 浏览量更新于2024-09-05 收藏 622KB PDF 举报

本文档主要探讨了"论文研究-文本挖掘技术在科研信息自动建议中的应用.pdf"，聚焦于数据流频繁模式挖掘领域。随着数据流应用的广泛发展，这种技术变得越来越关键，因为它处理的是数据流中快速变化、规模庞大的数据，且需要实时或近实时的分析。传统的数据挖掘方法在数据流环境下面临挑战，如Lossy Counting算法虽然能分桶处理，但候选模式集过多，效率不高，而StreamMining算法虽能挖掘频繁模式集，但产生过多的候选模式。针对这些不足，研究者们提出了DS-CFP算法，通过将滑动窗口分解为基本窗口进行更新，提高了效率。然而，滑动窗口仅关注实时数据，忽略了历史数据的价值，如在金融领域中客户的历史交易记录。因此，论文中提及的DSMFP_LW算法是对DSFPM算法的改进，引入了界标窗口的概念，它结合了频繁闭合模式树来存储临界频繁闭合模式。这种结构允许算法更有效地挖掘历史数据中的所有频繁模式，提升了时间和空间利用率，特别是在处理大规模、高速度的数据流时，DSMFP_LW算法显示出更好的性能，优于经典的Lossy Counting算法。本文还定义了核心术语，如事务和模式，以及基本窗口、基本窗口长度、界标窗口及其长度，这些都是理解数据流频繁模式挖掘算法的关键概念。通过对比实验，研究者验证了DSMFP_LW算法在实际应用中的优势，这表明它在数据流频繁模式挖掘任务中具有实用价值，对于科研信息自动建议系统有着重要意义。这篇论文深入探讨了如何在数据流背景下优化频繁模式挖掘技术，以适应现代大数据环境的需求。

weixin_38743968

粉丝: 404
资源: 2万+

改进的DSMFP_LW算法：界标窗口下数据流频繁模式挖掘

通过文本挖掘为政策提供信息：技术变革和社会挑战-研究论文

论文研究-AIS— 基于文本挖掘的增强型Web信息处理技术.pdf

论文研究-二元情感常识库建设及其在文本情感分析中的应用 .pdf

论文研究-图像表示及在检索系统中的应用 .pdf

论文研究-本体论在复句领域概念建模中的应用.pdf

论文研究-基于文档集的生物信息挖掘模型研究.pdf

论文研究-信息可视化研究综述 .pdf

论文研究-视频弹幕的主题发现方法研究及应用 .pdf

文本挖掘技术研究进展.pdf

最新资源