apriori算法的原代码

时间: 2023-06-25 13:05:49 浏览: 25
以下是apriori算法的原始代码,实现频繁项集的挖掘: ```python def apriori(dataset, min_support=0.5): """ 输入数据集及最小支持度,输出所有频繁项集 """ # 扫描数据集,获取所有候选项集 C1 = create_C1(dataset) # 将候选项集转化为符合最小支持度的频繁项集 L1, support_data = scan_D(dataset, C1, min_support) # 将所有符合最小支持度的频繁项集放入列表L中 L = [L1] k = 2 while (len(L[k-2]) > 0): # 用上一次的频繁项集生成新的候选项集 Ck = apriori_gen(L[k-2], k) # 用新的候选项集转化为符合最小支持度的频繁项集 Lk, supk = scan_D(dataset, Ck, min_support) # 更新支持度信息 support_data.update(supk) # 将所有符合最小支持度的频繁项集放入列表L中 L.append(Lk) k += 1 return L, support_data def create_C1(dataset): """ 输入数据集,输出所有候选项集 """ C1 = [] for transaction in dataset: for item in transaction: if not [item] in C1: C1.append([item]) C1.sort() return list(map(frozenset, C1)) def scan_D(dataset, Ck, min_support): """ 输入数据集、候选项集和最小支持度,输出所有符合最小支持度的频繁项集及其支持度 """ # 统计候选项集出现的次数 ssCnt = {} for tid in dataset: for can in Ck: if can.issubset(tid): if not can in ssCnt: ssCnt[can] = 1 else: ssCnt[can] += 1 num_items = float(len(dataset)) retList = [] support_data = {} for key in ssCnt: support = ssCnt[key] / num_items if support >= min_support: retList.insert(0, key) support_data[key] = support return retList, support_data def apriori_gen(Lk, k): """ 输入频繁项集列表Lk和项集元素个数k,输出所有候选项集 """ retList = [] len_Lk = len(Lk) for i in range(len_Lk): for j in range(i+1, len_Lk): L1 = list(Lk[i])[:k-2]; L2 = list(Lk[j])[:k-2] L1.sort(); L2.sort() if L1 == L2: retList.append(Lk[i] | Lk[j]) return retList ``` 以上代码实现了apriori算法,可以通过输入数据集和最小支持度来获取所有频繁项集。其中,create_C1函数用于从数据集中生成一阶候选项集;scan_D函数用于从候选项集中找出符合最小支持度的频繁项集;apriori_gen函数用于由上一次的频繁项集生成新的候选项集。

相关推荐

最新推荐

电子行业周报:SK海力士推进HBM扩产,Meta自研AI芯片投产.pdf

半导体 电子行业 行业分析 数据分析 数据报告 行业报告

基于springboot毕业就业信息管理系统的设计与实现(毕业论文)

主要功能: 学生信息管理:学生信息新增,学生信息修改 公司信息管理: 公司信息增删改 简历信息管理:简历信息增删改 公告类型管理:公告信息增删改 就业统计管理:就业统计信息增删改

Java毕业设计-基于SpringBoot+Vue的师生共评的作业管理系统设计与实现(附源码,数据库,教程).zip

Java 毕业设计,Java 课程设计,基于 SpringBoot 开发的,含有代码注释,新手也可看懂。毕业设计、期末大作业、课程设计、高分必看,下载下来,简单部署,就可以使用。 包含:项目源码、数据库脚本、软件工具等,前后端代码都在里面。 该系统功能完善、界面美观、操作简单、功能齐全、管理便捷,具有很高的实际应用价值。 项目都经过严格调试,确保可以运行! 1. 技术组成 前端:html、javascript、Vue 后台框架:SpringBoot 开发环境:idea 数据库:MySql(建议用 5.7 版本,8.0 有时候会有坑) 数据库工具:navicat 部署环境:Tomcat(建议用 7.x 或者 8.x 版本), maven 2. 部署 如果部署有疑问的话,可以找我咨询 后台路径地址:localhost:8080/项目名称/admin/dist/index.html 前台路径地址:localhost:8080/项目名称/front/index.html (无前台不需要输入)

Java毕业设计-基于SpringBoot+Vue的高校教师电子名片系统(附源码,数据库,教程).zip

Java 毕业设计,Java 课程设计,基于 SpringBoot 开发的,含有代码注释,新手也可看懂。毕业设计、期末大作业、课程设计、高分必看,下载下来,简单部署,就可以使用。 包含:项目源码、数据库脚本、软件工具等,前后端代码都在里面。 该系统功能完善、界面美观、操作简单、功能齐全、管理便捷,具有很高的实际应用价值。 项目都经过严格调试,确保可以运行! 1. 技术组成 前端:html/javascript 后台框架:SpringBoot 开发环境:idea 数据库:MySql(建议用 5.7 版本,8.0 有时候会有坑) 数据库工具:navicat 部署环境:Tomcat(建议用 7.x 或者 8.x 版本), maven

大数据生态圈学习.zip

大数据生态圈学习.zip

MRP与ERP确定订货批量的方法.pptx

MRP与ERP确定订货批量的方法.pptx

管理建模和仿真的文件

管理Boualem Benatallah引用此版本:布阿利姆·贝纳塔拉。管理建模和仿真。约瑟夫-傅立叶大学-格勒诺布尔第一大学,1996年。法语。NNT:电话:00345357HAL ID:电话:00345357https://theses.hal.science/tel-003453572008年12月9日提交HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire

数据可视化在统计分析中的重要性

# 1. 数据可视化的概念与意义 在数据科学和统计分析领域,数据可视化作为一种强大的工具,扮演着至关重要的角色。本章将介绍数据可视化的概念与意义,探讨数据可视化与统计分析的关系,以及数据可视化的作用与优势。 #### 1.1 数据可视化的定义 数据可视化是指利用图形、图表、地图等视觉元素来直观呈现数据信息的过程。它通过视觉化的方式展示数据,帮助人们更直观地理解数据的含义和规律。数据可视化的目的在于让人们能够快速、清晰地认识数据,发现数据中的模式和规律,同时也能够帮助人们传达和交流数据所包含的信息。 #### 1.2 数据可视化的作用与优势 数据可视化的作用包括但不限于: - 使复杂数据变

coxph模型的summary函数以后得到的是什么,分别分析一下

coxph模型是用来拟合生存分析数据的模型,它可以用来评估某些预测变量对于生存时间的影响。在R语言中,当我们用coxph函数拟合模型后,可以使用summary函数来查看模型的摘要信息。 使用summary函数得到的是一个类似于表格的输出结果,其中包含了以下信息: 1. Model:显示了使用的模型类型,这里是Cox Proportional Hazards Model。 2. Call:显示了生成模型的函数及其参数。 3. n:数据集中观测值的数量。 4. Events:数据集中事件(即生存时间结束)的数量。 5. Log-likelihood:给定模型下的对数似然值。 6. C

oracle教程07plsql高级01.pptx

oracle教程07plsql高级01.pptx