数据挖掘Apriori算法实验报告总结2021.11.11

版权申诉

119 浏览量更新于2024-02-19 收藏 198KB DOC 举报

实验课程名称：数据挖掘实验工程名称：Apriori算法实验时间：2021 年 11 月 11 日实验报告总结：本次实验主要围绕数据挖掘领域中的Apriori算法展开，通过对所提供的数据挖掘apriori算法.doc进行分析和实验，探讨该算法在挖掘频繁项集和关联规则方面的应用。具体内容如下： 1. 算法原理 Apriori算法是一种经典的频繁项集挖掘算法，其核心思想是利用项集的递推性质进行搜索。该算法通过迭代的方式，先从单个项开始，逐步生成更大的候选项集，然后通过扫描数据库计算支持度来剪枝，最终得到频繁项集。在频繁项集的基础上，可以进一步挖掘关联规则，发现不同项之间的关联性。 2. 实验步骤本次实验首先对数据挖掘apriori算法.doc中的数据进行预处理，包括数据清洗、格式转换等，确保数据符合算法输入的要求。接着采用Apriori算法进行频繁项集的挖掘，设置最小支持度和置信度阈值，得到满足条件的频繁项集和关联规则。最后对挖掘结果进行分析和可视化展示，以便更直观地理解数据之间的关联关系。 3. 实验结果经过实验，我们成功得到了数据挖掘apriori算法.doc中数据的频繁项集和关联规则。通过对结果的分析和可视化展示，我们发现了一些有意义的关联规则，这些规则对于理解数据特征和指导决策具有一定的价值。同时，我们也对算法的参数设置进行了调整和优化，以获得更好的挖掘效果。 4. 实验总结通过本次实验，我们对Apriori算法的原理和应用有了更深入的理解，掌握了如何使用该算法进行数据挖掘和关联规则的发现。同时，实验还启发了我们对于数据预处理和结果分析的重要性，这些环节对于挖掘结果的质量和可解释性具有重要影响。在以后的工作中，我们将继续深入研究数据挖掘算法，并结合具体业务场景进行实际应用，为决策提供更有力的支持。综上所述，本次实验对于数据挖掘领域的学习和研究具有重要意义，也为我们今后的科研和工作打下了坚实的基础。期待在未来能够进一步探索和应用数据挖掘技术，为实际问题的解决贡献自己的力量。

- .

不在 Lk-1 中，为了说明这个产生过程为什么能保持完全性，要注意对于 Lk 中的任何

有最小支持度的工程集，任何大小为 k-1 的子集也必须有最小支持度。因此，如果我

们用所有可能的工程扩大 Lk-1 中的每个工程集，然后删除所有 k-1 子集不在 Lk-1 中

的工程集，那么我们就能得到 Lk 中工程集的一个超集。

上面的合并运算相当于用数据库中所有工程来扩展 Lk-1；如果删除扩展工程集的第 k-

1 个工程后得到的 k-1 工程集不在 Lk-1 中，那么删除该扩展工程集。条件 p[k-1]<q

[k-1]保证不会出现一样的扩展项。因此，经过合并运算，Ck>Lk。类似原因在删除运

算中，删除 Ck 中其 k-1 子工程集不在 Lk-1 中的工程集，同样没有删除包含在 Lk 中的

工程集。

(1)for所有工程集 c∈Ckdo

(2) for所有 c 的 (k-1)子集 sdo

(3) if(s￠Lk-1)then

(4) 从 Ck 中删除 c

例如：L3 为{{123}，{124}，{134}，{135}，{234}}。Jion 步骤之

后，C4 为{{1234}，{1345}}。Prune 步骤将删除项集{1345}，因为项集

{145}不在 L3 中。

Subset 函数：

候选工程集 Ck 存储在一棵 Hash 树中。Hash 树的一个节点包含了项集的一个链表(一

个叶节点)或包含了一个 Hash 表(一个节点)。在节点中，Hash 表的每个 Bucket 都指

向另一个节点。Hash 树的根的深度定义为 1。在深度 d 的一个节点指向深度 d+1 的

节点。工程集存储在叶子中。要加载一个工程集 c 时，从根开场向下直到一个叶子。

在深度为 d 的一个节点上，要决定选取哪个分枝，可以对此工程集的第 d 个工程使用

一个 Hash 函数，然后跟随相应 Bucket 中的指针。所有的节点最初都创立成叶节点。

当一个叶节点中项集数量超过某个指定的阈值时，此叶节点就转为一个节点。

从根节点开场，Subset 函数寻找所有包含在某个事务 t 中的候选，方法如下：假设处

于一个叶子，就寻找此叶子中的哪些工程集是包括在 t 中的，并对它们附加引用指向答

案集合。假设处于一个节点，而且是通过 Hash 工程 i 从而到达此节点的，那么就对 t

中 i 之后的每个工程进展 Hash，并对相应 Bucket 中的节点递归地应用这个过程。对

于根节点，就对 t 中的每个工程进展 Hash。

尽管 Apriori 算法已经可以压缩候选数据项集 Ck，但是对于频繁项集尤其是 2 维的候

选数据项集产生仍然需要大量的存储空间。也就是说对于 2 维的候选数据项

集，Apriori 算法的剪枝操作几乎不起任何作用。例如：1 维高频数据项集 L1 的规模

是 O(n)，那么 2 维候选数据项集的规模将到达 O(n2)。如果我们考虑一般情况，即在

没有支持度的情况下 1 维高频数据项集 L1 的规模是 103，那么 2 维候选数据项集的规

模 C2 将到达 C1000≈5×105．这种空间复杂度以指数形式的增长，使得这个经典的

算法的执行效率很难让人满意．Apriori 算法的两大缺点就是产生大量的候选集，以及

需重复扫描数据库。

- .word.zl.

剩余15页未读，继续阅读

wdqsv88

粉丝: 4
资源: 13万+

数据挖掘Apriori算法实验报告总结2021.11.11

基于数据挖掘的Apriori算法().pdf

数据挖掘Apriori算法C++实现.doc

APRIORI算法.zip_APRIORI算法 数据挖掘 程序_Apriori_数据挖掘

Apriori算法.doc

适应于关系型数据库的多维关联规则挖掘的Apriori算法.doc

大数据挖掘算法设计.doc

Apriori算法报告.doc

Apriori算法简介.doc

数据挖掘与数据分析应用案例 数据挖掘算法实践 基于C++的Apriori算法的挖掘系统.doc

使用约束改进数据挖掘算法.doc

最新资源

APRIORI算法.zip_APRIORI算法数据挖掘程序_Apriori_数据挖掘

数据挖掘与数据分析应用案例数据挖掘算法实践基于C++的Apriori算法的挖掘系统.doc