负相关对规则挖掘:超越支持度-置信度框架

需积分: 9 0 下载量 22 浏览量 更新于2024-08-11 收藏 486KB PDF 举报
"超越支持度-置信度框架的负相关对规则挖掘,文章作者钱铁云、冯小年、王元珍,发表于《计算机科学》2005年第32卷第10期,主要探讨了关联规则挖掘中的负相关规则问题。" 在数据挖掘领域,关联规则是一种寻找数据库中项集之间有趣关系的常用方法,通常以支持度和置信度作为衡量标准。支持度表示项集出现的频率,置信度则表示如果前件发生,则后件发生的概率。然而,传统的关联规则挖掘方法对于那些虽然支持度低,但相关性高的规则(即负相关规则)挖掘效果不佳。 文章指出,相关规则比传统关联规则更具有实际意义,因为它们可以揭示数据中隐藏的相关性和因果关系。然而,现有的相关规则挖掘算法通常依赖于先验知识(如apriori算法),这些算法首先找到高支持度的项集,然后检查这些项集之间的相关性。这种方法往往忽视了低支持度但高相关性的规则,因为它们在支持度剪枝阶段就被排除了。 为了解决这个问题,文章提出了一个新的算法——MN1。MN1算法引入了Phi相关系数的下界来生成候选的负相关项,从而有效地减少了搜索空间,避免了因无法利用apriori性质剪枝而导致的空间爆炸问题。作者还证明了MN1算法的完全性和正确性,这意味着它能够找到所有满足条件的负相关项。 进一步,MN1算法在挖掘负相关项对的基础上,利用规则可靠度的概念生成负相关规则。规则的可靠度是指规则在多次重复实验中保持不变的概率。文章提出了一种创新方法,将负相关对的计数转换为正相关对的计数,这有助于简化计算过程并提高挖掘效率。 实验结果表明,MN1算法在真实数据集上能够显著提高负相关项对的挖掘速度,证实了其在处理负相关规则挖掘问题上的有效性。这一研究对于扩展关联规则挖掘的范围,特别是在处理低支持度高相关性规则时,提供了新的理论和技术支持,对于数据分析和决策支持系统有重要的实践价值。关键词包括:关联规则、相关规则、Phi相关系数和规则可靠度。