MERIT:基于NC_set高效挖掘可擦除项目集

0 下载量 90 浏览量 更新于2024-08-26 收藏 1.07MB PDF 举报
"使用NC_sets快速挖掘可擦除项目集" 在数据挖掘领域,可擦除项目集是一种相对较新的研究方向,它于2009年首次被引入。可擦除项目集的概念与传统的频繁项集有所不同,传统的频繁项集关注的是在数据集中频繁出现的项目组合,而可擦除项目集则涉及在特定条件下可以被“擦除”或忽略的项目组合。这种任务的目的是发现那些在特定场景下删除某些项目后仍满足预定义条件的项目集。 在本文中,作者提出了名为NC_set的新数据表示方法,这是一种专为挖掘可擦除项目集设计的紧凑数据结构。NC_set能够完整地保存挖掘过程中所需的信息,同时具备自动修剪无关数据的能力,这有助于减少计算量和内存消耗。 基于NC_set,作者开发了名为MERIT的高效算法。MERIT通过三种关键技术来提高性能:首先,NC_set的紧凑结构使得数据处理更高效;其次,算法将项目集的增益计算转化为对NC_sets的组合操作,通过巧妙的策略可以在线性时间复杂度内完成,大大提升了计算速度;最后,在某些情况下,MERIT可以直接找出可擦除项目集,无需生成庞大的候选项目集集合,这进一步优化了算法的效率。 为了验证MERIT的性能,作者在多个合成产品数据库上进行了广泛的实验。实验结果显示,MERIT在挖掘可擦除项目集方面表现出色,平均比META(第一个用于挖掘可擦除项目集的算法)快大约两个数量级,证明了其在实际应用中的高效性。 文章的主要贡献者是Zhi-Hong Deng和Xiao-Ran Xu,他们来自北京大学机器感知国家重点实验室,具有丰富的数据挖掘和计算机科学背景。他们的工作为数据挖掘社区提供了新的工具和方法,以更有效的方式处理可擦除项目集的挖掘问题,这对于理解动态数据环境中的模式和趋势具有重要意义。 "使用NC_sets快速挖掘可擦除项目集"这篇文章介绍了一种创新的数据结构和算法,对于理解和处理可擦除项目集这一新兴数据挖掘任务提供了重要的理论和技术支持,对于数据挖掘领域的研究和实践具有重要价值。