两阶段方法挖掘事务数据库中的短期高实用项目集

0 下载量 16 浏览量 更新于2024-07-15 收藏 833KB PDF 举报
本文主要探讨了事务数据库中针对矿山短期高实用项目集(short-period high-utility itemsets, SPHUIs)的两阶段发现方法。作者Jerry Chun-Wei Lin、Jiexiong Zhang等人,分别来自中国深圳哈工大深圳研究生院的计算机科学与技术学院、自然科学与人文学院,以及台湾高雄的国立高雄大学和中山大学计算机科学与工程系,还有澳大利亚南昆士兰大学农业、计算与环境科学学院,共同合作研究了这一领域的重要问题。 近年来,高实用性项目集的研究在数据挖掘领域日益受到关注,特别是在商业智能和市场篮子分析中,高 utility(效用)的项集能够揭示消费者的购买模式和偏好,有助于制定更有效的营销策略。然而,短期高效用项目集(periodic high-utility itemsets)的发现相较于传统的高效用项目集(high-utility itemsets, HUIs),其挑战在于数据的时效性和动态变化。传统的单阶段算法可能无法满足这种实时或周期性更新的需求,因此提出了一种两阶段的方法来解决这个问题。 首先,该两阶段方法的第一阶段是预处理阶段,它对事务数据库进行快速扫描,通过剪枝和过滤等策略降低后续处理的复杂度,识别出具有潜在高效用的候选项目集。这一步骤利用了启发式算法,如基于阈值的启发式规则,以减少搜索空间,提高效率。 第二阶段则是优化和确认阶段,针对第一阶段筛选出的候选项目集,采用更为精细的计算方法,如基于迭代或递归的算法,对数据的实时状态进行深入挖掘,确保得到真正的短期高效用项目集。这一步可能涉及到增量计算或者在线学习,以适应不断变化的数据流。 文章的关键字包括“高效用项目集”、“定期高效用项目集”、“SPHUIs”和“两阶段”,这些关键词反映了论文的核心内容和研究重点。作者们在2016年5月3日收到初稿,经过修订后于2017年2月9日再次提交,并在同年4月29日接受发表。这项研究对于理解和提升事务数据库中短期高效用项目集的挖掘性能具有重要的理论和实际价值,为相关领域的数据分析师和系统开发者提供了新的解决方案和优化思路。