用python代码完成Apriori算法对products.csv和order_product_train.csv的关联规则挖掘

好的，我会用 Python 代码帮你完成 Apriori 算法对 `products.csv` 和 `order_product_train.csv` 的关联规则挖掘。首先，我们需要导入所需的库：pandas、numpy 和 mlxtend。 ```python import pandas as pd import numpy as np from mlxtend.frequent_patterns import apriori from mlxtend.frequent_patterns import association_rules ``` 然后，我们需要读取数据集并进行预处理。首先，读取 `products.csv` 文件，得到所有商品的信息。然后，读取 `order_product_train.csv` 文件，得到所有订单中包含的商品信息。 ```python # 读取商品信息 products = pd.read_csv('products.csv') # 读取订单信息 orders = pd.read_csv('order_product_train.csv') # 将订单数据进行整理，得到每个订单中包含的商品信息 orders = orders.groupby('order_id')['product_id'].apply(list).reset_index(name='products') ``` 接下来，我们需要将数据集转换成适合进行关联规则挖掘的格式。我们将使用 mlxtend 库中的 `TransactionEncoder` 类将数据集转换成一个二维的布尔类型数组，其中每一行代表一个订单，每一列代表一个商品。如果一个订单中包含某个商品，则对应的位置为 True；否则为 False。 ```python # 将数据集转换成适合进行关联规则挖掘的格式 te = TransactionEncoder() te_ary = te.fit(orders['products']).transform(orders['products']) df = pd.DataFrame(te_ary, columns=te.columns_) ``` 接下来，我们可以使用 Apriori 算法来发现频繁项集。我们可以设置最小支持度为 0.01，表示只有在至少有 1% 的订单中同时包含某一组商品时，才认为这组商品是频繁项集。 ```python # 使用 Apriori 算法发现频繁项集 frequent_itemsets = apriori(df, min_support=0.01, use_colnames=True) ``` 最后，我们可以使用 `association_rules` 函数来挖掘关联规则。我们可以设置最小置信度为 0.5，表示只有在某一组商品同时出现时，才有 50% 的概率也会出现另一组商品。 ```python # 挖掘关联规则 rules = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.5) ``` 完整代码如下： ```python import pandas as pd import numpy as np from mlxtend.frequent_patterns import apriori from mlxtend.frequent_patterns import association_rules # 读取商品信息 products = pd.read_csv('products.csv') # 读取订单信息 orders = pd.read_csv('order_product_train.csv') # 将订单数据进行整理，得到每个订单中包含的商品信息 orders = orders.groupby('order_id')['product_id'].apply(list).reset_index(name='products') # 将数据集转换成适合进行关联规则挖掘的格式 te = TransactionEncoder() te_ary = te.fit(orders['products']).transform(orders['products']) df = pd.DataFrame(te_ary, columns=te.columns_) # 使用 Apriori 算法发现频繁项集 frequent_itemsets = apriori(df, min_support=0.01, use_colnames=True) # 挖掘关联规则 rules = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.5) # 输出关联规则 print(rules) ```

阅读全文

用python代码完成Apriori算法对products.csv和order_product_train.csv的关联规则挖掘

相关推荐

Apriori算法，一种寻找关联规则 的数据挖掘算法_python_代码_下载

基于Apriori算法的关联规则挖掘

apriori-python:关联规则挖掘

apriori.rar_Apriori_Apriori算法_apriori code_关联分析_关联规则

apriori.rar_Apriori_apriori算法C_关联规则 数据挖掘_数据挖掘 C_数据挖掘代码

Apriori.rar_Apriori_association rule_关联规则_关联规则挖掘_关联规则算法

Apriori.rar_Apriori_Apriori MATLAB_Apriori算法实现_关联_数据关联算法

apriori_C.zip_Apriori_apriori algorithm_apriori.rar_apriori算法C_关

用python代码完成Apriori算法对products数据集的关联规则挖掘

my_apriori.rar_Apriori_Apriori算法实现_apriori matlab_my_apriori_频繁

apriori算法的java代码.rar_ APRIORI_ Apriori java_Apriori算法_apriori ja

C的APRIORI程序.zip_APRIOR_Apriori_Apriori算法_Apriori算法的程序_apriori算法C

Apriori.zip_Apriori MATLAB_Apriori算法_Apriori算法matlab_关联规则_关联规则ma

Apriori.rar_Apriori_挖掘_数据 挖掘 关联规则 挖掘

APRIORI算法带数据集.rar_Apriori_Apriori算法_amountaps_matlab

1.rar_association_关联规则_关联规则 matlab_关联规则Apriori算法

apr.rar_ APRIORI_apriori c++_apriori算法C_作业_简单Apriori

apriori(c).zip_Apriori_C语言_Data mining_c算法

Apria.rar_Apriori_Apriori算法_apriori算法C_visual c

python关联规则apriori算法_通过Python中的Apriori算法进行关联规则挖掘

大家在看

AWS(亚马逊)云解决方案架构师面试三面作业全英文作业PPT

形成停止条件-c#导出pdf格式

python大作业基于python实现的心电检测源码+数据+详细注释.zip

IEC 62133-2-2021最新中文版.rar

SAP各模块字段与表的对应关系

最新推荐

python使用Apriori算法进行关联性解析

孙允中临证实践录.pdf

rqapha的改造学习，集成大鱼金融提供的Jaqs分钟数据源Mod，拥抱开源，学习量化.zip

携程大数据比赛-预测航班是否延误涵盖源代码，以及过程记录.zip

PowerShell控制WVD录像机技术应用

管理建模和仿真的文件

Honeywell打印机驱动提升秘诀：从基础到高级配置的全方位解析

Python输入三个数 a,b,c。判断能否以它们为三个边长构成直角三角形。若能，输出 YES，否则 输出NO。

探索杂货店后端技术与JavaScript应用

"互动学习：行动中的多样性与论文攻读经历"

Apriori算法，一种寻找关联规则的数据挖掘算法_python_代码_下载

apriori.rar_Apriori_apriori算法C_关联规则数据挖掘_数据挖掘 C_数据挖掘代码

Apriori.rar_Apriori_挖掘_数据挖掘关联规则挖掘

Python输入三个数 a,b,c。判断能否以它们为三个边长构成直角三角形。若能，输出 YES，否则输出NO。