PCY算法对products数据集的关联规则挖掘

PCY算法是一种经典的频繁项集挖掘算法，可以用于快速发现大规模数据集中的频繁项集。下面我们将以products数据集为例，介绍如何使用PCY算法进行关联规则挖掘。 products数据集包含了10,000个交易记录，每个交易记录包含了1到4个商品。首先，我们需要将数据集转换为事务列表，每个事务表示一个交易记录，包含了该交易记录中出现的所有商品。 ```python import pandas as pd # 加载数据集 data = pd.read_csv('products.csv', header=None) # 转换为事务列表 transactions = [] for i in range(len(data)): transaction = set(data.iloc[i]) transactions.append(transaction) ``` 然后，我们可以使用PCY算法对事务列表进行关联规则挖掘。PCY算法的基本步骤如下： 1. 计算每个项的出现次数，筛选出所有出现次数大于等于支持度阈值的项，并将这些项作为候选项集。 ```python from collections import Counter # 计算每个项的出现次数 item_counts = Counter([item for transaction in transactions for item in transaction]) # 筛选出所有出现次数大于等于支持度阈值的项 min_support = 0.01 frequent_items = [item for item, count in item_counts.items() if count/len(transactions) >= min_support] ``` 2. 构建哈希表，用于计算候选项集的支持度。 ```python # 构建哈希表 bucket_size = 100 hash_table = [0] * bucket_size for transaction in transactions: for i, item1 in enumerate(frequent_items): if item1 in transaction: for j, item2 in enumerate(frequent_items[i+1:]): if item2 in transaction: # 使用hash函数计算哈希值 hash_value = (hash(item1+item2) % bucket_size) hash_table[hash_value] += 1 ``` 3. 统计每个候选项集的支持度，筛选出所有支持度大于等于支持度阈值的频繁项集。 ```python # 统计每个候选项集的支持度 candidate_counts = [0] * len(frequent_items) for transaction in transactions: for i, item1 in enumerate(frequent_items): if item1 in transaction: for j, item2 in enumerate(frequent_items[i+1:]): if item2 in transaction: # 使用hash函数计算哈希值 hash_value = (hash(item1+item2) % bucket_size) if hash_table[hash_value] >= min_support * len(transactions): candidate_counts[i] += 1 candidate_counts[j+i+1] += 1 # 筛选出所有支持度大于等于支持度阈值的频繁项集 frequent_itemsets = [] for i, item in enumerate(frequent_items): if candidate_counts[i]/len(transactions) >= min_support: frequent_itemsets.append((item,)) ``` 4. 使用频繁项集生成关联规则，并计算置信度。 ```python # 使用频繁项集生成关联规则 rules = [] for i, itemset in enumerate(frequent_itemsets): if len(itemset) > 1: for j in range(len(itemset)): # 生成左部和右部 left = itemset[:j] + itemset[j+1:] right = itemset[j:j+1] confidence = candidate_counts[frequent_items.index(itemset)] / candidate_counts[frequent_items.index(left)] if confidence >= min_confidence: rules.append((left, right, confidence)) ``` 在实际应用中，需要根据具体问题和数据集的特点，选择合适的支持度和置信度阈值，以得到更好的关联规则。

PCY算法对products数据集的关联规则挖掘

相关推荐

Apriori改进算法——PCY算法

Apriori-and-its-improvements:在Python中实现了应用的Apriori算法及其改进（PCY，多哈希）

Mining-Frequent-Itemsets-Project：四种用于挖掘频繁项集的算法的可伸缩性研究

PCY算法对products数据集的关联规则挖掘并且输出频繁集和强关联

python实现PCY算法

pcy算法 课程设计

tf.random_normal被取代

VS code python

vscode 配置python环境

adb shell dumpsys cpuinfo 获取到的各个参数含义

vs code python

基于临时表的Apriori改进算法

pcy_lib.rar_tree

pcy_node.rar_If...

计算机组成原理算法实现的完美报告

INF553:INF553 基础和数据挖掘应用的分配

DataProVe:数据提供

三钌簇上二硫化碳的活化：[Ru3 (CO) 4 (µ-PCy2) 2 (µ-Ph2PCH2PPh2) (µ3-S) {µ3- [η] 2-CSC (S) S}] 的合成和晶体结构

行政数据分析看板8.xlsx

最新推荐

行政数据分析看板8.xlsx

自动驾驶运动规划(Motion Planning).pdf

跟我一起写makefile

AI 技术落地有望强化客户运 营.pdf

公司年会主持词模板.docx

RTL8188FU-Linux-v5.7.4.2-36687.20200602.tar(20765).gz

管理建模和仿真的文件

：YOLO目标检测算法的挑战与机遇：数据质量、计算资源与算法优化，探索未来发展方向

c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf

pcy算法课程设计

AI 技术落地有望强化客户运营.pdf