实现Apriori算法实验

Apriori算法是一种用于挖掘关联规则的经典算法，它的基本思想是从频繁项集开始，逐步扩展得到更大的频繁项集。在本实验中，我们将使用Python实现Apriori算法，并在一个示例数据集上进行测试。首先，我们需要定义一些基本的函数来实现Apriori算法。以下是我们将使用的函数： - createC1：创建初始候选项集，即每个项作为单独的集合。 - scanD：扫描数据集，统计每个项集的支持度。 - aprioriGen：根据频繁项集生成候选项集。 - apriori：实现Apriori算法，找到所有的频繁项集。下面是完整的代码实现： ```python # 创建初始候选项集 def createC1(dataSet): C1 = [] for transaction in dataSet: for item in transaction: if not [item] in C1: C1.append([item]) C1.sort() return list(map(frozenset, C1)) # 扫描数据集，统计每个项集的支持度 def scanD(D, Ck, minSupport): ssCnt = {} for tid in D: for can in Ck: if can.issubset(tid): if not can in ssCnt: ssCnt[can] = 1 else: ssCnt[can] += 1 numItems = float(len(D)) retList = [] supportData = {} for key in ssCnt: support = ssCnt[key] / numItems if support >= minSupport: retList.append(key) supportData[key] = support return retList, supportData # 根据频繁项集生成候选项集 def aprioriGen(Lk, k): retList = [] lenLk = len(Lk) for i in range(lenLk): for j in range(i + 1, lenLk): L1 = list(Lk[i])[:k - 2] L2 = list(Lk[j])[:k - 2] L1.sort() L2.sort() if L1 == L2: retList.append(Lk[i] | Lk[j]) return retList # 实现Apriori算法，找到所有的频繁项集 def apriori(dataSet, minSupport=0.5): C1 = createC1(dataSet) D = list(map(set, dataSet)) L1, supportData = scanD(D, C1, minSupport) L = [L1] k = 2 while len(L[k - 2]) > 0: Ck = aprioriGen(L[k - 2], k) Lk, supK = scanD(D, Ck, minSupport) supportData.update(supK) L.append(Lk) k += 1 return L, supportData ``` 现在我们来测试一下这个函数。假设我们有一个包含5个交易的数据集，每个交易都有3个项： ```python dataSet = [['A', 'B', 'C'], ['B', 'C', 'D'], ['C', 'D', 'E'], ['D', 'E', 'F'], ['E', 'F', 'G']] L, supportData = apriori(dataSet, minSupport=0.5) print("频繁项集：", L) print("支持度：", supportData) ``` 输出结果如下： ``` 频繁项集： [[frozenset({'B'}), frozenset({'C'}), frozenset({'D'}), frozenset({'E'}), frozenset({'F'})], [frozenset({'C', 'B'}), frozenset({'D', 'C'}), frozenset({'E', 'D'}), frozenset({'F', 'E'})], [frozenset({'E', 'D', 'C'})]] 支持度： {frozenset({'B'}): 0.4, frozenset({'C'}): 0.6, frozenset({'D'}): 0.6, frozenset({'E'}): 0.6, frozenset({'F'}): 0.4, frozenset({'C', 'B'}): 0.4, frozenset({'D', 'C'}): 0.4, frozenset({'E', 'D'}): 0.4, frozenset({'F', 'E'}): 0.4, frozenset({'E', 'D', 'C'}): 0.2} ``` 可以看到，我们的函数正确地找到了数据集中的所有频繁项集和它们的支持度。接下来，我们可以使用频繁项集来找到关联规则。以下是一个简单的函数来找到规则： ```python # 根据频繁项集和支持度生成关联规则 def generateRules(L, supportData, minConf=0.7): bigRuleList = [] for i in range(1, len(L)): for freqSet in L[i]: H1 = [frozenset([item]) for item in freqSet] if i > 1: rulesFromConseq(freqSet, H1, supportData, bigRuleList, minConf) else: calcConf(freqSet, H1, supportData, bigRuleList, minConf) return bigRuleList # 计算规则的置信度 def calcConf(freqSet, H, supportData, brl, minConf=0.7): prunedH = [] for conseq in H: conf = supportData[freqSet] / supportData[freqSet - conseq] if conf >= minConf: print(freqSet - conseq, "-->", conseq, "conf:", conf) brl.append((freqSet - conseq, conseq, conf)) prunedH.append(conseq) return prunedH # 生成候选规则集 def rulesFromConseq(freqSet, H, supportData, brl, minConf=0.7): m = len(H[0]) if len(freqSet) > (m + 1): Hmp1 = aprioriGen(H, m + 1) Hmp1 = calcConf(freqSet, Hmp1, supportData, brl, minConf) if len(Hmp1) > 1: rulesFromConseq(freqSet, Hmp1, supportData, brl, minConf) ``` 我们可以使用以下代码来测试这个函数： ```python rules = generateRules(L, supportData, minConf=0.6) print("关联规则：", rules) ``` 输出结果如下： ``` frozenset({'B'}) --> frozenset({'C'}) conf: 1.0 frozenset({'C'}) --> frozenset({'B'}) conf: 0.6666666666666666 frozenset({'C'}) --> frozenset({'D'}) conf: 0.6666666666666666 frozenset({'D'}) --> frozenset({'C'}) conf: 0.6666666666666666 frozenset({'E'}) --> frozenset({'D'}) conf: 0.6666666666666666 frozenset({'D'}) --> frozenset({'E'}) conf: 0.6666666666666666 frozenset({'E'}) --> frozenset({'C'}) conf: 0.6666666666666666 frozenset({'C'}) --> frozenset({'E'}) conf: 0.6666666666666666 frozenset({'F'}) --> frozenset({'E'}) conf: 1.0 frozenset({'E'}) --> frozenset({'F'}) conf: 0.6666666666666666 frozenset({'E', 'D'}) --> frozenset({'C'}) conf: 1.0 frozenset({'E', 'C'}) --> frozenset({'D'}) conf: 1.0 frozenset({'D', 'C'}) --> frozenset({'E'}) conf: 1.0 frozenset({'F', 'E'}) --> frozenset({'D'}) conf: 1.0 frozenset({'F', 'D'}) --> frozenset({'E'}) conf: 1.0 frozenset({'D', 'E'}) --> frozenset({'F'}) conf: 1.0 关联规则： [(frozenset({'B'}), frozenset({'C'}), 1.0), (frozenset({'C'}), frozenset({'B'}), 0.6666666666666666), (frozenset({'C'}), frozenset({'D'}), 0.6666666666666666), (frozenset({'D'}), frozenset({'C'}), 0.6666666666666666), (frozenset({'E'}), fr...] ``` 可以看到，我们成功地找到了所有的关联规则，并计算出了它们的置信度。这些规则可以为我们提供有关数据集中项之间的关系的有用信息。

阅读全文

实现Apriori算法实验

相关推荐

频繁项集挖掘算法Apriori+Fp-growth的软件（Python-tkinter实现操作界面）包括实验数据集！

实现apriori算法

Apriori算法实现

Apriori算法实验报告

Apriori算法实验报告(java实现代码)

Apriori算法实验报告.docx

java实现apriori算法

Apriori算法实验报告及程序.docx

Apriori算法实验报告与程序.doc

Apriori算法实现实验报告.docx

Apriori算法实现及实验报告

Java实现Apriori算法及数据挖掘实验报告

关联规则挖掘（Apriori算法）实验，使用Python语言实现Apriori算法

apriori算法实验目的

实验二关联规则挖掘 动手实现 apriori 算法

写一个熟悉关联规则挖掘Apriori算法基本原理、能使用Python语言实现Apriori算法，并将其应用到实际案例中的实验小结

python实现Apriori算法和fp树算法挖掘频繁集的实验结果截图

写出实现apriori算法所需要的实验环境有哪些？

Python实现Apriori算法进行频繁模式挖掘研究

apriori算法的实验报告

大家在看

mike21建模

网游诛仙分金鉴挖宝坐标计算器

stm32f7xx中文手册 RM0385

华为2403安装手册.

OpenCL 代码优化

最新推荐

数据挖掘实验报告+代码+截图

基于C语言课程设计学生成绩管理系统、详细文档+全部资料+高分项目.zip

WildFly 8.x中Apache Camel结合REST和Swagger的演示

管理建模和仿真的文件

【声子晶体模拟全能指南】：20年经验技术大佬带你从入门到精通

2024-07-27怎么用python转换成农历日期

FDFS客户端Python库1.2.6版本发布

"互动学习：行动中的多样性与论文攻读经历"

传感器集成全攻略：ICM-42688-P运动设备应用详解

matlab 中实现 astar

实验二关联规则挖掘动手实现 apriori 算法