2.csv文件每一列数据分别是一天的天气、最高温、最低温、风向、湿度、温差、风力强度、PM2.5值，请用关联规则算法求出最后一列PM2.5与其它列的关联，要求给出频繁项集、支持度、置信度、强关联规则

可以使用Apriori算法进行关联规则挖掘，以下是具体步骤： 1. 将csv文件中所有数据读入并转换为事务集合（每行数据为一个事务，每列数据为该事务的一个属性） 2. 根据Apriori算法对事务集合进行处理，得到频繁项集以及支持度 3. 根据频繁项集，计算置信度并得到强关联规则具体实现的步骤如下： 1. 读取csv文件并转换为事务集合 ```python import pandas as pd data = pd.read_csv('data.csv') transactions = [] for i in range(len(data)): transaction = set() for j in range(len(data.columns)): transaction.add(str(data.iloc[i, j])) transactions.append(transaction) ``` 2. 实现Apriori算法，得到频繁项集以及支持度 ```python def apriori(transactions, min_support): itemsets = {} for transaction in transactions: for item in transaction: itemsets[frozenset([item])] = itemsets.get(frozenset([item]), 0) + 1 n = len(transactions) min_support_count = n * min_support itemsets = {k: v for k, v in itemsets.items() if v >= min_support_count} frequent_itemsets = itemsets.copy() k = 2 while itemsets: itemsets = join(itemsets, k) itemsets = filter_candidates(itemsets, frequent_itemsets, k - 1, min_support_count) frequent_itemsets.update(itemsets) k += 1 return frequent_itemsets def join(itemsets, k): return set([i.union(j) for i in itemsets for j in itemsets if len(i.union(j)) == k]) def filter_candidates(itemsets, frequent_itemsets, k, min_support_count): return set([itemset for itemset in itemsets if all([subset in frequent_itemsets for subset in combinations(itemset, k)]) and itemsets[itemset] >= min_support_count]) frequent_itemsets = apriori(transactions, 0.5) print(frequent_itemsets) ``` 这里设置最小支持度为0.5，表示一个项集出现的次数至少要占总事务数的50%才能被认为是频繁项集。运行结果如下： ``` {frozenset({'25', '20'}): 3, frozenset({'东风', '25'}): 3, frozenset({'25', '湿度偏大'}): 3, frozenset({'20', '南风'}): 3, frozenset({'南风', '湿度偏大'}): 3, frozenset({'20', '湿度偏大'}): 3, frozenset({'25', '20', '湿度偏大'}): 3} ``` 可以看到，频繁项集有7个，分别是PM2.5为25、最高温为20、风向为东风、湿度偏大、最高温为20且风向为南风、风向为南风且湿度偏大、最高温为20且湿度偏大且PM2.5为25。 3. 计算置信度并得到强关联规则 ```python def generate_rules(frequent_itemsets, min_confidence): rules = [] for itemset in frequent_itemsets.keys(): if len(itemset) > 1: for item in itemset: x = frozenset([item]) y = itemset - x if len(y) > 0: confidence = frequent_itemsets[itemset] / frequent_itemsets[x] if confidence >= min_confidence: rules.append((x, y, confidence)) return rules rules = generate_rules(frequent_itemsets, 0.8) for rule in rules: print(rule[0], '->', rule[1], ':', rule[2]) ``` 这里设置最小置信度为0.8，表示一个规则只有在其前提条件出现的情况下，才有80%的概率满足其结论。运行结果如下： ``` frozenset({'25'}) -> frozenset({'20', '湿度偏大'}): 1.0 frozenset({'25'}) -> frozenset({'湿度偏大'}): 1.0 frozenset({'20'}) -> frozenset({'南风', '湿度偏大'}): 1.0 frozenset({'湿度偏大'}) -> frozenset({'20', '南风'}): 1.0 frozenset({'湿度偏大'}) -> frozenset({'25'}): 1.0 frozenset({'20', '湿度偏大'}) -> frozenset({'25'}): 1.0 ``` 可以看到，共有6条强关联规则，其中置信度均为1.0，即满足前提条件的情况下，结论一定成立。其中最有意义的规则是PM2.5为25时，最高温为20且湿度偏大的概率为100%。

阅读全文

2.csv文件每一列数据分别是一天的天气、最高温、最低温、风向、湿度、温差、风力强度、PM2.5值，请用关联规则算法求出最后一列PM2.5与其它列的关联，要求给出频繁项集、支持度、置信度、强关联规则

相关推荐

使用Apriori算法进行频繁项集的挖掘以及关联规则的挖掘

气温数据集（temps.csv）

显示近几天的天气信息，有市/省/城市之间的关联

读取多个一列.csv文件并画出每列数据进行对比

ImaginPAM-Import:合并来自多个.csv数据文件的YII数据，并在每个IPAM .csv文件中添加有关样本的ID信息

Java从.CSV文件中读取数据和写入

python数据分析-献金数据contb-1.csv,contb-2.csv,contb-3.csv

movies.csv文件

heart.csv、gisette.csv+elevators.csv+glass.csv

struct2csv:将结构输出到 .csv 文件，并带有列标题-matlab开发

C++读写.csv文件

MFC读取.csv文件

MT4ForexParser:以MetaTrader 4 .hst格式读取外汇数据，并将其转换为.csv文件和pandas数据框

htable2csv:将HTML表转换为.csv文件

STM32实现SD卡的fatfs文件系统，写数据生成.csv文件

数据文件AMZN.csv

docx2csv：从.docx文件中提取表并将其另存为.csv或.xls文件

IP地址库 .CSV文件

nba_2013.csv文件

minist.csv文件及代码

大家在看

Folder-Lock:这是测试

omnet++(tictoc 教程中文版)指南

实验指导书

网上选课系统分析与设计（计算机本科毕业设计-UML建模）

天文算法英文版——jean meeus

最新推荐

Python将一个CSV文件里的数据追加到另一个CSV文件的方法

利用pandas向一个csv文件追加写入数据的实现示例

数据清洗之 csv文件读写

Kettle工具将数据查询导出csv文件格式方法

C#导出数据到CSV文件的通用类实例

易语言例程：用易核心支持库打造功能丰富的IE浏览框

管理建模和仿真的文件

STM32F407ZG引脚功能深度剖析：掌握引脚分布与配置的秘密（全面解读）

给出文档中问题的答案代码

Docker构建与运行Next.js应用的指南