Apriori算法优化：二维数组与十字链表实现

版权申诉

158 浏览量更新于2024-08-11 1 收藏 307KB PDF 举报

"基于二维数组和十字链表的Apriori算法数组和链表(02).pdf" 本文主要探讨了一种基于二维数组和十字链表改进的Apriori算法，该算法旨在解决关联规则挖掘中的两个关键问题：生成大量无效候选项集以及多次扫描数据库。Apriori算法是经典的频繁项集挖掘算法，由Agrawal在1993年提出，它通过不断迭代生成频繁项集和候选项集，但在处理大规模数据时效率较低。传统的Apriori算法首先扫描数据库生成频繁项集L1，然后通过L1生成候选项集C，接着再次扫描数据库计算候选k项集的支持度。这个过程可能会重复多次，不仅效率低下，还可能导致大量的无效候选项集生成。为了解决这些问题，作者提出了一个改进的算法，利用二维数组和十字链表来优化处理流程。首先，新算法只需要一次数据库扫描，将频繁(k-1)项集进行分组，然后基于这些分组生成候选k项集。这种策略减少了数据库扫描的次数，从而提升了效率。其次，事务数据库被表示为十字链表，这不仅可以提高候选项集的计数效率，还能有效减少内存使用空间。十字链表是一种数据结构，它可以更紧凑地存储事务数据，每个节点代表一个事务，节点间的连接反映事务中的项关系。与简单的数组或列表相比，十字链表在处理频繁项集和候选项集时可以提供更快的查找和链接速度，特别是在数据量大时，其内存优势更为明显。文献中还提及了其他对Apriori算法的改进方法，比如使用数组结构表示事务数据库，通过数组压缩减少无效事务，优化候选项集的链接方法等。尽管这些方法在一定程度上提高了效率，但在处理大规模数据时，数组表示仍会消耗大量内存。基于二维数组和十字链表的Apriori改进算法通过一次数据库扫描和优化的数据结构，有效地减少了无效候选项集的生成，提高了计数效率，降低了内存需求，从而提升了整体运行效率。实验结果证明，这种改进算法在运行效率上优于传统的Apriori算法和其他一些已知的改进算法。这一研究成果对于关联规则挖掘领域，特别是在大数据环境下的应用具有重要的实践意义。

第３３卷第２期　

２０１７年４月　

德州学院学报　

Ｊｏｕｒｎａｌ　ｏｆ　Ｄｅｚｈｏｕ　Ｕｎｉｖｅｒｓｉｔｙ　

Ｖ０１．３３，ＮＯ．２　

Ａｐｒ．，２０１７　

基于二维数组和十字链表的Ａｐｒｉｏｒｉ算法　

陈　衡　，刘玉文。　

（１．淮北职业技术学院，安徽　淮北　２３５０００；２．蚌埠医学院　卫生管理系，安徽蚌埠２３３０００）　

摘要：关联规则挖掘的核心是寻找频繁项集，其有两个技术瓶颈：（１）容易生成大量无效候选项集；（２）需要　

多次扫描数据库．基于二维数组和十字链表的Ａｐｒｉｏｒｉ改进算法，只需扫描数据库一次，对频繁（ｋ一１）～项集进行　

分组，在分组的基础上生成候选ｋ一项集．另外，事务数据库以十字链表形式表示，提高了候选项集计数效率、降低　

了内存使用空间．实验结果表明，Ａｐｒｉｏｒｉ改进算法在运行效率上比其他算法有一定程度的提高．　

关键词：Ａｐｒｉｏｒｉ算法；候选项集；频繁项集；二维数组；十字链表　

中图分类号：ＴＰ３０１．６　文献标识码：Ａ　文章编号：１００４—９４４４（２０１７）０２—００６３—０５　

引言　

寻找频繁项集的经典算法是１９９３年由Ａｇｒａｗ—　

ａｌ提出的Ａｐｒｉｏｒｉ算法［１］．该算法核心思想是：首先　

扫描数据库生成频繁项集Ｌ　一　，再由频繁项集Ｌ　一　

两两链接生成候选项集Ｃ　，然后扫描数据库计算候　

选项集的支持度，如果大于给定的最小支持度ｒａｉｎ—　

ｓｕｐ，则是频繁项集且并入到频繁项集Ｌ　中，算法直　

到不能产生候选项集为止，最后，通过合并频繁项　

集，得到频繁项集的集合Ｌ．但当前的Ａｐｒｉｏｒｉ算法　

存在两个技术瓶颈，一是在计算候选项集支持度时　

需要多次读取数据库；二是两个频繁（ｋ一１）一项集　

链接时会生成相当数量无效的候选ｋ一项集．　

目前针对Ａｐｒｉｏｒｉ的研究中，提出了许多改进　

算法，如文献［２］提出了一种数组结构表示方法，该　

方法把事务数据库用数组的形式表示，对数据库的　

扫描转换成对数组的扫描，同时采用数组压缩的方　

式除去对候选项集计数无影响的事务．另外，按照项　

集的字典顺序特性优化了候选项集的链接方法．虽　

然该算法只需扫描数据库一次且候选项集的生成效　

率也有所提高，但是在海量数据下，用数组表示事务　

数据库会占用很大的内存空间．文献［３］采用十字链　

表的形式表示事务数据库，降低了内存占用空间，但　

是没有解决产生大量无效候选项集的问题．文献［４］　

采用了基于项标识号的链接方法，但这种方法仍然　

能产生一定量的无效候选项集．针对以上算法存在　

的问题，本文在十字链表算法的基础上引入二维数　

组结构，提出了一种基于二维数组和十字链表的频　

繁项集挖掘算法．　

２　相关理论　

设项的集合Ｉ７－－－－｛Ｉ　，Ｉ。，… ，Ｉ　），其中ｍ表示项　

数．事务数据库Ｄ一｛Ｔ　，Ｔ。，…，Ｔ　），其中ｎ表示事　

务的数量．每个事务Ｔ。都是Ｉ上的子集，即Ｔ　Ｉ．　

性质１　任何频繁项集的非空子集是频繁项　

集．　

性质２　如果频繁ｋ一项集还能产生频繁（ｋ＋　

１）一项集，则频繁ｋ一项集中项集个数肯定大于ｋ．　

３　Ａｐｒｉｏｒｉ算法改进　

设Ｔ　表示最大事务长度，Ｎ表示事务的数量，　

Ａｐｒｉｏｒｉ算法开销时间可分为：首次扫描数据库的时　

间Ｏ（Ｎ×Ｔ　）、链接生成ｃ　的时间是Ｏ（１　Ｌ　一　ｌ　

× ｌ　Ｌ　一　１）以及对ｃ　计数扫描的时间Ｏ（Ｎ×Ｃｋ）．　

显然，算法的时间开销主要集中在候选项集ｃ　的生　

成及其计数上．所以，优化候选项集的生成及其计数　

方式是Ａｐｒｉｏｒｉ算法改进的关键．本文改进算法的　

思想是把频繁项集存放在二维数组中，利用项集的　

有序性对项集进行分组，在分组的基础上产生候选　

收稿日期：２０１７—０１一Ｏ３　

基金项目：安徽省高校质量工程项目（２０１５ｚｊｊｈ０５１）；淮ｊＥ职业技术学院自然科学重点项目　

作者简介：陈衡（１９８２一），男，安徽濉溪人，讲师，硕士，研究方向：计算机应用与教育管理．　

下载后可阅读完整内容，剩余4页未读，立即下载

_webkit

粉丝: 31
资源: 1万+

Apriori算法优化：二维数组与十字链表实现

优化关联规则挖掘：基于数组的Apriori算法改进

基于MDLP-Apriori算法的离散Shannon熵值标签排序研究

基于矩阵压缩的Apriori改进算法研究

基于二维数组和十字链表的Apriori算法 数组和链表.docx

基于二维数组和十字链表的Apriori算法 (1) 数组和链表.pdf

基于二维数组的Apriori关联规则算法改进与实现 (2013年)

一种基于链表的改进Apriori算法.pdf

基于索引数组的频繁项集挖掘算法.pdf

基于Hadoop平台的GPU集群加速Apriori算法.pdf

基于网格的分布式Apriori和经典Apriori算法的知识挖掘.pdf

最新资源

基于二维数组和十字链表的Apriori算法数组和链表.docx