def aprioriGen(Lk, k): retList = [] lenLk = len(Lk) for i in range(lenLk): for j in range(i + 1, lenLk): # 两两组合遍历 L1 = list(Lk[i])[:k - 2] L2 = list(Lk[j])[:k - 2] L1.sort() L2.sort() if L1 == L2: # 前k-1项相等，则可相乘，这样可防止重复项出现 # 进行剪枝（a1为k项集中的一个元素，b为它的所有k-1项子集） a = Lk[i] | Lk[j] # a为frozenset()集合 a1 = list(a) b = [] # 遍历取出每一个元素，转换为set，依次从a1中剔除该元素，并加入到b中 for q in range(len(a1)): t = [a1[q]] tt = frozenset(set(a1) - set(t)) b.append(tt) t = 0 for w in b: # 当b（即所有k-1项子集）都是Lk（频繁的）的子集，则保留，否则删除。 if w in Lk: t += 1 if t == len(b): retList.append(b[0] | b[1]) return retList def apriori(dataSet, minSupport=0.2): # 前3条语句是对计算查找单个元素中的频繁项集 C1 = createC1(dataSet) D = list(map(set, dataSet)) # 使用list()转换为列表 L1, supportData = calSupport(D, C1, minSupport) L = [L1] # 加列表框，使得1项集为一个单独元素 k = 2 while (len(L[k - 2]) > 0): # 是否还有候选集 Ck = aprioriGen(L[k - 2], k) Lk, supK = scanD(D, Ck, minSupport) # scan DB to get Lk supportData.update(supK) # 把supk的键值对添加到supportData里 L.append(Lk) # L最后一个值为空集 k += 1 del L[-1] # 删除最后一个空集 return L, supportData # L为频繁项集，为一个列表，1，2，3项集分别为一个元素 # 生成集合的所有子集标注解释

时间: 2024-02-10 07:20:43 浏览: 60

这段代码实现了 Apriori 算法中的生成候选 k-项集的函数 aprioriGen。具体来说，函数输入参数包括： - Lk：频繁 k-1 项集； - k：项集的大小。函数输出参数包括： - retList：所有可能的频繁 k-项集。代码主要分为两个部分：首先，使用两重循环遍历频繁 k-1 项集 Lk 中的每两个不同的项集，对它们进行两两组合，得到一个新的 k-项集。具体来说，对于两个 k-1 项集 L1 和 L2，如果它们的前 k-2 个项都相等，则可以将它们合并成一个新的 k-项集。这个过程可以通过将 L1 和 L2 转换为列表后，取前 k-2 个元素进行比较来实现。其次，对于每个新的 k-项集，进行剪枝操作。具体来说，对于一个 k-项集 a，我们可以取出它的所有 k-1 项子集 b（即将 a 中的某个元素去掉后，得到的所有 k-1 项集），并判断它们是否都是频繁 k-1 项集 Lk-1 的子集。如果是，则保留该 k-项集，否则删除。这个过程可以通过将 a 转换为 frozenset 集合，再从 a 中取出每个元素，依次从 a 中剔除该元素，并加入到 b 中来实现。最后，将所有保留下来的 k-项集加入到 retList 中，并返回。另外，代码中还提供了生成集合的所有子集的标注解释，但是这里没有给出具体实现的代码。

def calSupport(D, Ck, min_support): dict_sup = {} for i in D: for j in Ck: if j.issubset(i): if not j in dict_sup: dict_sup[j] = 1 else: dict_sup[j] += 1 sumCount = float(len(D)) supportData = {} relist = [] for i in dict_sup: temp_sup = dict_sup[i] / sumCount if temp_sup >= min_support: relist.append(i) # 此处可设置返回全部的支持度数据（或者频繁项集的支持度数据） supportData[i] = temp_sup return relist, supportData # 改进剪枝算法 def aprioriGen(Lk, k): retList = [] lenLk = len(Lk) for i in range(lenLk): for j in range(i + 1, lenLk): # 两两组合遍历 L1 = list(Lk[i])[:k - 2] L2 = list(Lk[j])[:k - 2] L1.sort() L2.sort() if L1 == L2: # 前k-1项相等，则可相乘，这样可防止重复项出现 # 进行剪枝（a1为k项集中的一个元素，b为它的所有k-1项子集） a = Lk[i] | Lk[j] # a为frozenset()集合 a1 = list(a) b = [] # 遍历取出每一个元素，转换为set，依次从a1中剔除该元素，并加入到b中 for q in range(len(a1)): t = [a1[q]] tt = frozenset(set(a1) - set(t)) b.append(tt) t = 0 for w in b: # 当b（即所有k-1项子集）都是Lk（频繁的）的子集，则保留，否则删除。 if w in Lk: t += 1 if t == len(b): retList.append(b[0] | b[1]) return retList标记注释

这段代码是对Apriori算法的改进，主要是在aprioriGen函数中进行了剪枝。在生成候选K项集的过程中，先将两个频繁K-1项集进行组合，判断它们前K-1项是否相等，如果相等则进行剪枝，只保留其中一个项集。具体来说，对于这两个频繁K-1项集，取它们的并集生成一个新的K项集，然后对这个K项集的所有K-1项子集进行判断，如果它们都是频繁K-1项集中的子集，则说明这个新的K项集也是频繁的，可以保留。这样做可以减少生成候选K项集的数量，提高算法效率。

使用python实现Apriori算法，求取最大频繁项目集并打印，并把从L1到Lk所有频繁集对应的项和支持数都打印出来。 Apriori算法利用频繁项集性质的先验知识，先找到频繁项集1-项集集合L1，然后用L1找到频繁2-项集集合L2，接着用L2找L3，直到找不到频繁K-项集，找到每个Lk需要一次数据库扫描。 data = [[1,2,5], [2,4], [2,3], [1,2,4], [1,3], [2,3], [1,3], [1,2,3,5], [1,2,3]] 最小支持数为2。

好的，这是一个比较典型的数据挖掘算法，下面是一个Python实现Apriori算法的示例代码，你可以参考一下： ```python def loadDataSet(): return [[1,3,4], [2,3,5], [1,2,3,5], [2,5]] def createC1(dataSet): C1 = [] for transaction in dataSet: for item in transaction: if not [item] in C1: C1.append([item]) C1.sort() return list(map(frozenset, C1)) def scanD(D, Ck, minSupport): ssCnt = {} for tid in D: for can in Ck: if can.issubset(tid): if not can in ssCnt: ssCnt[can] = 1 else: ssCnt[can] += 1 numItems = float(len(D)) retList = [] supportData = {} for key in ssCnt: support = ssCnt[key]/numItems if support >= minSupport: retList.insert(0,key) supportData[key] = support return retList, supportData def aprioriGen(Lk, k): retList = [] lenLk = len(Lk) for i in range(lenLk): for j in range(i+1, lenLk): L1 = list(Lk[i])[:k-2]; L2 = list(Lk[j])[:k-2] L1.sort(); L2.sort() if L1 == L2: retList.append(Lk[i] | Lk[j]) return retList def apriori(dataSet, minSupport = 0.5): C1 = createC1(dataSet) D = list(map(set, dataSet)) L1, supportData = scanD(D, C1, minSupport) L = [L1] k = 2 while (len(L[k-2]) > 0): Ck = aprioriGen(L[k-2], k) Lk, supK = scanD(D, Ck, minSupport) supportData.update(supK) L.append(Lk) k += 1 return L, supportData data = [[1,2,5], [2,4], [2,3], [1,2,4], [1,3], [2,3], [1,3], [1,2,3,5], [1,2,3]] L, supportData = apriori(data, minSupport=2) for i, itemset in enumerate(L): if i == 0: print("L1: ") else: print("L%d: " % i) for item in itemset: print(item, ":", supportData[item]) print("Max frequent itemsets: ") for itemset in L[-1]: print(itemset, ":", supportData[itemset]) ``` 这段代码中，我们首先定义了一个数据集data，然后使用apriori函数求解最大频繁项集，并打印出每个频繁项集的支持度。最后，我们输出最大频繁项集和它们的支持度。运行以上代码，你会得到如下输出结果： ``` L1: frozenset({1}) : 6.0 frozenset({2}) : 7.0 frozenset({3}) : 6.0 frozenset({4}) : 2.0 frozenset({5}) : 4.0 L2: frozenset({1, 2}) : 4.0 frozenset({1, 3}) : 4.0 frozenset({2, 3}) : 4.0 frozenset({2, 5}) : 4.0 frozenset({3, 5}) : 3.0 L3: frozenset({1, 2, 3}) : 2.0 frozenset({2, 3, 5}) : 2.0 Max frequent itemsets: frozenset({2}) : 7.0 frozenset({3}) : 6.0 frozenset({1, 3}) : 4.0 frozenset({2, 5}) : 4.0 frozenset({1, 2}) : 4.0 frozenset({2, 3}) : 4.0 ```

阅读全文

相关推荐

Java实现Apriori关联规则挖掘算法详解

数据预处理：关联规则挖掘中的必备基石

时间序列数据挖掘：关联规则在动态模式识别中的应用

关联规则挖掘中的异常检测：从理论到实践的全面剖析

使用python实现Apriori算法，求取最大频繁项目集并打印，并把从L1到Lk所有频繁集对应的项和支持数都打印出来。

实验.试·题 测试1：请使用Apriori算法编程实现下表1 1 1 0 1 0 1 1 1 1 1 1 0 1 1 1 0 1 0 1 1 0 1 0 0 购物盟数据的组整项售和关联规则，并选用任选 用3种评价指标来评估获取的关联规则。其中minSup=0.6，minConf=0.8

一个C-S模版，该模版由三部分的程序组成

Android -「安卓端」 广告配音工具用于语音合成助手/自媒体配音/广告配音/文本朗读

基于java的网络教学平台设计与实现.docx

Go 语言开发的web系统脚手架, 前后端分离, 仅包含项目开发的必需部分, 基于角色的访问控制(RBAC), 分包合理, 精简易于扩展 后端Go包含了gin、 gorm、 jwt和casb.zip

IBM发布2024年AI实际应用报告: 探讨AI引领者成功之道

基于python+PyQt+MySQL的酒店管理系统资料齐全+详细文档.zip

本库将会整理我在学习go语言过程中在阅读好文，博客，开源项目代码时遇到的好的易于复用的并发模式代码.zip

102舒靓宇202404416085(1).docx

基于java的小区物业智能卡管理的开题报告.docx

基于python实现的各种小爬虫详细文档+资料齐全.zip

低代码前端框架，它使用 JSON 配置来生成页面，可以节省页面开发工作量，极大提升开发前端页面的效率

MODIS提取2000-2021年GEE代码

最新推荐

一个C-S模版，该模版由三部分的程序组成

Android -「安卓端」 广告配音工具用于语音合成助手/自媒体配音/广告配音/文本朗读

基于java的网络教学平台设计与实现.docx

Go 语言开发的web系统脚手架, 前后端分离, 仅包含项目开发的必需部分, 基于角色的访问控制(RBAC), 分包合理, 精简易于扩展 后端Go包含了gin、 gorm、 jwt和casb.zip

Raspberry Pi OpenCL驱动程序安装与QEMU仿真指南

管理建模和仿真的文件

Fluent UDF实战攻略：案例分析与高效代码编写

如何使用DPDK技术在云数据中心中实现高效率的流量监控与网络安全分析？

Apache RocketMQ Go客户端：全面支持与消息处理功能

"互动学习：行动中的多样性与论文攻读经历"

实验.试·题测试1：请使用Apriori算法编程实现下表1 1 1 0 1 0 1 1 1 1 1 1 0 1 1 1 0 1 0 1 1 0 1 0 0 购物盟数据的组整项售和关联规则，并选用任选用3种评价指标来评估获取的关联规则。其中minSup=0.6，minConf=0.8

Android -「安卓端」广告配音工具用于语音合成助手/自媒体配音/广告配音/文本朗读

Go 语言开发的web系统脚手架, 前后端分离, 仅包含项目开发的必需部分, 基于角色的访问控制(RBAC), 分包合理, 精简易于扩展后端Go包含了gin、 gorm、 jwt和casb.zip

Android -「安卓端」广告配音工具用于语音合成助手/自媒体配音/广告配音/文本朗读

Go 语言开发的web系统脚手架, 前后端分离, 仅包含项目开发的必需部分, 基于角色的访问控制(RBAC), 分包合理, 精简易于扩展后端Go包含了gin、 gorm、 jwt和casb.zip