改进的基于距离的关联规则挖掘算法及其应用

需积分: 9 0 下载量 191 浏览量 更新于2024-08-12 收藏 249KB PDF 举报
"基于距离的关联规则挖掘算法研究 (2010年),内蒙古大学学报(自然科学版),邢东旭,中海涛,孟海东" 这篇2010年的学术论文聚焦于改进基于距离的关联规则挖掘算法,旨在更好地处理包含量化属性的数据库。关联规则挖掘是从大量数据中发现有意义的模式,最初由Agrawal等人在1993年提出的Apriori算法主要用于布尔属性。然而,现实世界中的数据往往包含量化属性,因此量化关联规则的挖掘变得至关重要。 传统的分箱方法,如等深或等宽分箱,将量化属性值域划分为区间,然后应用关联规则算法。尽管这种方法简化了问题,但它忽略了数据点之间的相对距离,可能无法充分揭示数据的内在结构。Miller和Yang提出了一种基于距离的属性分区方法,强调了考虑数据间距离的重要性,这为挖掘更准确的关联规则奠定了基础。 论文中提到的改进包括: 1. 聚类算法的改进:原算法使用Birch聚类算法,但被CADD(可能是Cluster Attribute Discovery with Distance)算法替代,以优化属性聚类。CADD算法能产生更好的聚类结果,并且降低了规则判断的复杂性。 2. 关联度参数设置:在设置关联度参数Do(通常用于衡量规则的强度)时,论文提出了使用投影簇半径值作为参考,这一创新减少了参数设置的主观性和盲目性,使得参数选择更加科学和客观。 实验结果显示,采用这些改进的算法可以更有效地挖掘基于距离的关联规则。这表明,考虑数据距离的量化关联规则挖掘不仅能提升规则的精确性,还能提供更符合实际需求的分析结果。 关键词涉及到的领域有“关联规则”,“基于距离”,以及“量化”。中国分类号为“TP301”,文献标志码为“A”,表明这是一篇计算机科学领域的学术论文,专注于数据挖掘和算法优化。 这篇论文对于理解如何改进关联规则挖掘以适应包含量化属性的数据具有重要意义,对于大数据分析和数据挖掘的实践者来说,提供了有价值的理论和技术参考。通过采用更适合的距离敏感方法,可以提高从量化数据中提取知识的效率和准确性。