基于矩阵的Apriori算法改进研究

需积分: 47 2 下载量 107 浏览量 更新于2024-09-09 收藏 253KB PDF 举报
数据挖掘关联规则Apriori算法的一种新改进 Apriori算法是数据挖掘关联规则算法的核心,但随着对关联规则研究的深入,它的缺点也暴露出来了。Apriori算法有两个致命的性能瓶颈:多次扫描事务数据库,需要很大的I/O负载;产生庞大的候选集。因此,Apriori算法仍有需要改进的地方。本文提出了一种新的基于矩阵的改进Apriori算法,充分利用了内存空间,大大减少扫描数据库的次数,多次试验的结果表明该方法有效提高了大型数据库的使用效率。 知识点: 1. 数据挖掘(Data Mining):从大量数据中提取或“挖掘”知识,它能高度自动化地分析原有的数据,做出归纳性的推理,从中挖掘出潜在的模式,预测出对象的行为。 2. 关联规则挖掘:从数据库中得出数据相关性的代名词。关联规则挖掘主要集中在三个方面:基于项的关联规则挖掘、定量的关联规则挖掘、因果规则。 3. Apriori算法:数据挖掘关联规则算法的核心,但Apriori算法有两个致命的性能瓶颈:多次扫描事务数据库,需要很大的I/O负载;产生庞大的候选集。 4. 改进Apriori算法:提出了一种新的基于矩阵的改进Apriori算法,充分利用了内存空间,大大减少扫描数据库的次数,多次试验的结果表明该方法有效提高了大型数据库的使用效率。 5. 数据挖掘定义:从广义的观点,数据挖掘是从大型数据集(可能是不完全的、有噪声的、不确定性的、各种存储形式的)中,挖掘隐含在其中的、人们事先不知道的、对决策有用的知识的过程。从狭义的观点,数据挖掘是从特定形式的数据集中提炼知识的过程。 6. 关联规则:关联规则是形如:A→B的蕴涵式,其中A⊆I,I⊆B,且A∩B=∅。关联规则可以被用来挖掘关联模式,进行异常检测。 7. 项集:设I={i1,i2,…,im}是项的集合,D={t1,t2,…,tm}(其中ti={i1,i2,…,ik}∈I)是数据库事务的集合,每一个事务有惟一标识符,称作TID。 8. 聚类算法:可以被用来构建正常行为模式,进行异常检测。 9. 分类算法:可以用来构造分类器,分类器经过大量的入侵数据集训练之后可以用于入侵检测。 10. 序列模式挖掘算法:可以被用来发现数据的前后关系,挖掘出序列模式。