MIFS-HT:一种基于兴趣度的数据流频繁模式散列挖掘算法

需积分: 9 0 下载量 161 浏览量 更新于2024-09-09 收藏 1.13MB PDF 举报
"这篇论文提出了一种名为MIFS-HT的新颖数据流频繁模式挖掘算法,该算法基于散列技术和兴趣度概念,旨在解决数据流挖掘中的效率和效果问题。MIFS-HT利用散列表存储概要数据,结合关联规则的兴趣度测量,以降低时间和空间复杂度,同时提高算法的实用价值。实验结果显示,MIFS-HT在性能上优于FP-Stream和Lossy Counting等算法,并且其挖掘的结果更具现实意义。" 本文主要探讨了数据流挖掘领域的一个关键问题——频繁模式挖掘。传统的数据流挖掘算法虽然能够有效地发现近似频繁模式,但面对数据流的不确定、连续和海量特性,往往难以实现理想的时空效率。论文作者提出了一种名为MIFS-HT(Mining Interesting Frequent Itemsets with Hash Table)的新算法,该算法的核心是采用散列表作为数据存储结构,以减少计算负担。 在MIFS-HT中,散列表用于快速存储和检索数据,这有助于降低查找频繁模式的时间复杂度。此外,算法还引入了关联规则的兴趣度(Interest Degree)概念,这是一种衡量模式价值的指标,能够帮助筛选出对用户更有价值的频繁模式,从而提升了挖掘结果的实用性。兴趣度的引入使得MIFS-HT不仅关注模式的频繁程度,还考虑了模式的有趣程度,使得挖掘出的模式更具解释性和应用价值。 实验部分对比了MIFS-HT与FP-Stream和Lossy Counting等现有的数据流挖掘算法。实验结果证实,MIFS-HT在执行效率和挖掘质量方面均表现优越,它能够在保持较低的计算成本的同时,提供更为准确和有意义的频繁模式。这使得MIFS-HT成为处理大规模数据流挖掘任务的一种高效工具。 这篇论文的研究成果为数据流挖掘提供了新的视角和方法,特别是在提高算法效率和提升挖掘结果的实用价值方面。MIFS-HT算法的提出,为实际应用场景中的数据流分析提供了强大的理论支持和技术手段。